Web ngữ ngha được phát triển trên h thống web hin ti bằng cách bổ sung thêm ngữ ngha cho các tài nguyên trên web để gip máy tính có thể hiểu và tăng khả năng xử lý tự động.. Mục ti
Trang 11
Nguyễn Trung Kiên Trang ph b a
ỨNG DỤNG WIKI NGỮ NGHĨA TRONG PHÁT TRIỂN
HỆ THỐNG QUẢN LÝ THÔNG TIN KHÓA LUẬN TỐT NGHIỆP
TẠI TRƯỜNG ĐẠI HỌC HÙNG VƯƠNG
Chuyên ngành: Công ngh thông tin
Trang 2LỜI CAM ĐOAN
Tôi xin cam đoan Luận văn th: c s Công ngh thông tin ng d ng Wiki “Ứ
ng ngh trong phát triển hệ thống quản lý thông tin khóa luận tốt nghiệp tại a Trường Đại học Hùng Vương” là công trình nghiên cứu thực sự của cá nhân, được thực hin trên cơ sở nghiên cứu lý thuyết và dưới sự hướng dẫn khoa học của Tiến s Cao Tu ấ n Dũ ng
Các kết quả trong Luận văn tốt nghip là trung thực, không sao chép của bất
Trang 3LỜI CẢM ƠN
Đ ho n th nh chương tr nh cao h c v vi t lu n văn n y, tôi xin chân th nh
c m ơn đ n qu th y cô trong Vi n Công ngh thông tin v Truy n Thông, trư ng
Đ i h c B ch Khoa H N i đ t n t nh d y b o tôi trong th i gian h c
Tôi xin g i l i bi t ơn sâu s c đ n TS Cao Tu n D ng đ khuy n kh ch v
rất t n t nh hướng dẫn tôi trong suốt qu tr nh thực hi n lu n văn Nh sự quan tâm chỉ b o v những ý ki n đóng góp quý b u của th y, tôi mới có th ho n th nh lu n văn n y
Tôi cũng xin c m ơn Ban gi c c đồng nghi p t i trư ng Đ c Hùng Vương đ t o đi u ki n v th i gian đ tôi có th h c t p v ho n th nh lu n văn n y
Cuối cùng tôi xin chân th nh c m ơn gia đ nh, ngư i thân đ h t lòng giúp đỡ,
hỗ trợ v v t chất lẫn tinh th n giúp tôi yên tâm h c t p v nghiên cứu trong suốt
Trang 4Mở đầu 8
1 Lý do chọn đ tài 8
2 Lch sử vấn đ nghiên cứu 9
3 Mục đích nghiên cứu của luận văn, đối tượng, phm vi nghiên cứu 9
4 Phương pháp nghiên cứu 10
5 C u tr c luấ ận văn 10
Chương 1: ổng quan v web có ngữ nghaT .11
1.1 Web ngữ ngha 11
1.1.1 Tổng quan .11
1.1.2 Lợi ích của web ngữ ngha 14
1.1.3 Kiến trc web ngữ ngha 15
1.1.4 Ứng dụng của web ngữ ngha 17
1.2 Biểu diễn dữ liu trên web ngữ ngha thông qua RDF 18
1.2.1 Tổng quan v RDF 18
1.2.2 Mô hình hóa dữ liu trong RDF 20
1.2.3 Truyn tải dữ liu RDF trên internet 20
1.2.4 Ngôn ngữ truy vấn trong RDF 21
1.2.5 Một số ứng dụng của RDF 22
1.3 Ontology – Mô tả và phân loi tri thức 22
1.3.1 Cơ bản v sự phân loi 22
1.3.2.Tổng quan v ontology 23
1.3.3 Các thành phần của ontology 24
1.3.4 Vai Trò của ontology trong lnh vự web ngữ ngha 26
1.3.6 Phương pháp xây dựng ontology 27
1.3.7 Các ngôn ngữ ontology 28
Chương 2: Wiki và các phần mm wiki ngữ ngha 31
2.1 Tổng quan v Wiki 31
2.1.1 Lch sử phát triển 31
2.1.2 Các đặc điểm của phần mm w .31 iki 2.1.3 Phương thức hot động trên wiki 32
2.1.4 Ưu điểm mô hình w w .35 eb iki 2.1.5 Danh sách các phần mm wiki 37
2.2 Media Wiki và vic tích hợp công ngh ngữ ngha 40
2.2.1 Tổng quan v media wiki 40
2.2.2 Một số tính năng tổng quát của Media wiki 41
2.2.3 Kiến trc của Media wiki 41
Trang 52.4 Phần mm Semantic media wiki plus 52
Chương 3: Xây dựng và phát triển h thống quản lý thông tin khóa luận tốt nghip ti Trưng Đi học Hùng Vương 55
3.1 Thực trng và hướng đ xuất 55
3.1.1 Thực trng 55
3.1.2 Hướng đ xuất 56
3.2 Xác đnh yêu cầu và xây dựng chức năng của h thống 56
3.2.1 Xác đnh yêu cầu của h thống 57
3.2.2 Xây dựng chức năng của h thống 58
3.3 Xây dựng ontology cho h thống 61
3.3.1 Mô tả ontology 61
3.3.2 Mã hóa ontology 64
3.4 Cài đặt phần mm và thiết kế giao din 66
3.4.1 Cài đặt phần mm 66
3.4.2 Thiết kế giao din 67
3.5 Vận hành và phát triển h thống 71
3.5.1 Sử dụng các chức năng của h thống .71
3.5.2 Một số c pháp sử dụng trong h thống 77
3.5.3 Phát triển h thống thông qua xây dựng một phần mở rộng 80
3.6 Đánh giá và so sánh với các h thống cũ 85
Kết luận 86
1 Các nội dung đã hoàn thành trong luận văn 86
1.1 V mặt lý thuyết 86
1.2 V m ặt chương trình 86
2 Đánh gi k t qu .86 á ế ả 1.1 V m t l ặ ýthuyết 86
1.2 V m ặt chương trình 87
3 Hướng ph t tri n 88 á ể Tài liu tham khảo 89 Phụ lục A: Mẫu phiếu điu tra
Phụ lục B: Hướng dẫn sử dụng
Trang 6DANH M C C C THU T NG , T Ụ Á Ậ Ữ VI T T T
1 ALC Access Control List
2 CSDL Cơ sở dữ liu
3 CSV Comma-separated values
4 HTML HyperText Markup Language
5 KLTN Khóa luận tốt nghip
6 NCKH Nghiên cứu khoa học
7 OWL Ontology Web Language
8 RDF Resource Description Framework
9 RIA Rich Internet Application
10 SMW Semantic Media Wiki
11 SMW+ Semantic Media Wiki Plus
12 SysOp System Optimisers
13 URI Uniform Resource Identifier
14 W3C World Wide Web Consortium
15 XML Extensible Markup Language
Trang 7DANH M C C C H NH V Ụ Á
Hình 1.1: Kiến trc của Semantic w 16 eb
Hình 1.2: Ví dụ v triple mô tả thông tin giảng viên 19
Hình 1.3: Ví dụ lược đồ mô tả trực quan hóa RDF 20
Hình 1.4: Vai trò của ontology trong xây dựng web ngữ ngha 14
Hình 1.5 Mốiquan h giữa RDF và RDFS 28
Hình 2.1: Sơ đồ hot động của web wiki 32
Hình 2.2: Phương thức làm vic của bn đọc trên wiki 33
Hình 2.3: Phương thức làm vic của tác giả trên wiki 34
Hình 2.4: Phương thức làm vic của ngưi quản tr wiki 34
Hình 2.5: Phương thức làm vic của ngưi quản tr web 34
Hình 2.6: Ưu điểm mô hình web wiki 35
Hình 2.7: Biểu đồ phân loi mã nguồn wiki theo ngôn ngữ lập trình 37
Hình 2.8: Kiến trc của Media wiki 42
Hình 2.9: Kiến trc SMW tích hợp vào Media w 42 iki Hình 2.10: Sơ đồ phát triển của SMW+ 52
Hình 3.1: Chức năng h thống quản lý thông tin khóa luận tốt nghip 59
Hình 3.2: Cấu trc nội dung h thống khóa luận tốt nghip 59
Hình 3.3: Sơ đồ web dành cho ngưi qu n tr 60 ả Hình 3.4: Sơ đồ web thành viên 60
Hình 3.5: Sơ đồ web ngưi dùng 60
Hình 3.6: Cây phân cấp các lớp trong ontology HVU 62
Hình 3.7: Sơ đồ web ngưi dùng 64
Hình 3.8: Giao din đăng nhập 67
Hình 3.9: Giao din trang công cụ quả n tr 67
Hình 3.10: Giao din trang h thống 68
Hình 3.11: Giao din thêm bài mới 68
Hình 3.12: Giao din nhập liu 68
Hình 3.13: Giao din trang chủ 69
Hình 3.14: Giao din trang thông tin khóa luận năm 2013 69
Hình 3.15: Giao din trang duyt dữ liu 70
Hình 3.16: Giao din trang truy vấn dữ liu 70
Hình 3.17: Giao din to bài viết mới 71
Hình 3.18: Thanh công cụ đnh dng 71
Hình 3.19: Thanh công cụ dữ liu 72
Hình 3.20: To ch thích trong trang dữ liu 72
Hình 3.21: Nhập liu thông tin sinh viên qua giao din form 73
Hình 3.22: Chú thích thông tin Có bài báo khoa học của giảng viên 73
Hình 3.23: Thanh công cụ quản lý trang 74
Hình 3.24: Giao din trang duyt dữ liu 75
Hình 3.25: Giao din trang truy vấn dữ liu 76
Trang 8MỞ ĐẦU
1 Lý do chọn đề tài
Ti trưng Đi học Hùng Vương đã có nhiu h thống web được tri n khai ểnhư: Cổng thông tin đi ử ủa trưn t c ng www.hvu.edu.vn; H ố th ng trang web c a ủphòng Đào to www.dangky.hvu.edu.vn; H th ng trang web c a Trung tâm Thông ố ủtin-Tư li Thư viu- n www.thuvien.hvu.edu.vn; H thống qu n lý bài gi ng ực ả ả trtuyến www.baigiang.hvu.edu.vn Các h ốth ng trang web này đang góp một ph n ầđáng kể trong vi c nâng cao ch t lư ng d y và h c t i trư ấ ợ ọ ng Đ ọi h c Hùng Vương Tuy nhiên, các h ng trang web k thố ểtrên chưa có h thố ng nào chuyên bit
ho c có chặ ức năng chuyên bit để qu n lý các thông tin v khóa lu n t t nghi p cả ậ ố ủa sinh viên Các h ng d ng lthố chỉ ừ i ở c đăng tải, vi cung c p mô t các thông tin v ấ ả khóa lu n ậ mà chưa kế ợ để khai thác đượt h p c thông tin trên web m t cách hi u quộ ả,
mà c ụthể là làm sao để máy tính có th giúp x lý t ng các d ểtrợ ử ự độ ữ liu đăng tải trên đó để cung c p, ph c v cho ấ ụ ụ ngưi dùng
Cùng v i viớ c ngày càng tăng v quy mô tuy n sinh, s ể ố lượng khóa lu n tậ ốt nghi p c a sinh viên ngày m t nhi ủ ộ u Tính đến hết ngày 31 tháng 12 năm 2012 Trưng Đ ọc Hùng Vươni h g có trên 650 khóa luậ ốn t t nghi p c ủa sinh viên được thực hi n Năm 2013 tổng số khóa luận được đăng ký và phê duyt là 172, chiếm tỷ l 20,4% tổng số sinh viên cuối khóa Đây là một số lượng khóa luận tuy chưa lớn
so với các trưng đi học có truyn thống khác nhưng cũng đòi hỏi cần sự quản lý chặt chẽ đảm bảo v nội dung, đảm bảo v hình thức, quy cách Ngoài ra, h thống quản lý thông tin khóa luận tốt nghip còn sẽ là một kho tri thức khổng lồ để phục
vụ cho vic giảng dy và học tập của Nhà trưng
Vic xây d ng m t h ự ộ thống web thông minh, web có ng ữ ngha quản lý thông tin khóa lu n t t nghi p tậ ố i trưng Đ ọc Hùng Vương trong đii h u ki n hi n nay là m t yêu c u mang tính th c ti n và c p bách Do vộ ầ ự ễ ấ ậy, tôi đã lựa chọn đ tài
Ứ ng d ng Wiki ng ngha trong phát tri n h th ng qu n lý thông tin khóa ể ệ ố ả luậ ố n t t nghi p t ệ ại trường Đạ i h ọc Hùng Vương nghiên c u và làm luđể ứ ận văn
tốt nghip thc sỹ
Trang 9Wiki đầu tiên to ra năm 1994 và đã trở thành một phương tin m i c a s ớ ủ ự
c ng tác ộ Năm 2001, Wikipedia được công b vố à wiki đã trở nên quen thuộc đối với ngưi dùng internet
Semantic media wiki (SMW) hay wiki ng ữ ngha được phát hành lần đầu tiên vào năm 2005 Phiên b n m i nh t hi n nay là Semantic media wiki 1.8.0.3 ả ớ ấ SMW hin nay đã có hơn 10 nhà phát tri n và s d ng trên 300 trang web M t s ể ử ụ ộ ốtrang đáng ch ý như Youtube wiki, SNPedia, SKYbrary, Metavid , Familypedia, OpenEI, OhInternet Các tổ ứ ử ụ ch c s d ng SMW bao g m Pfizer, Harvard Pilgrim ồHealth Care, B o tàng ả Ngh thu t Metropolitan, B ốậ ộQu c phòng M ỹ
Như vậy, nghiên c u và ng d ng công ngh SMW hiứ ứ ụ n nay đã có mộ ốt s
ứng d ng nhụ ất đnh Tuy nhiên, ở góc độ ứ ng d ng công ngh ụ SMW vào lnh vực giáo d c còn khiêm t n và ng d ng trong giáo d c v i ngôn ng ng Vi t l i còn ụ ố ứ ụ ụ ớ ữtiế khiêm tốn hơn T i Trưng đi h c Hùọ ng Vương ứng d ng công ngh SMW vào ụ công tác quản lý ph c v ụ ụcông tác dy và h thì ọc đây là ần đầl u tiên
3 Mc đích nghiên cứu của luận văn, đối tượng, phạm vi nghiên cứu
3.1 Mục tiêu nghiên cứu
Nghiên cứu ổt ng quan v web ng ữ ngha, thốh ng web ng ngữ ha SMW, Semantic Media Wiki Plus (SMW+) nhằm xây d ng ng d ng qu n lý thông tin ự ứ ụ ảkhóa lu n tậ i trưng Đi học Hùng Vương
Trang 103.2 Đối tượng nghiên cứu
Đối tượng nghiên c u cứ ủa đ tài là các vấn đ ủ c a n n t ng c a công ngh ả ủ web ng ữ ngha, h ng mã ngu n m SMW, SMW+, các ph n m r ng và các thố ồ ở ầ ở ộ
ứng d ng c a nó ụ ủ
3.3 Phạm vi nghiên cứu
• Nghiên cứu tổng quan v web ngữ ngha, wiki và wiki ngữ ngha
• Nghiên c u nứ gôn ngữ biểu diễn dữ liu (XML), ngôn ngữ biểu diễn ontology cho web có ngữ ngha như RDF/RDFS, OWL
• Nghiên cứu cách thức to và sử dụng ontology
• Nghiên cứu v wiki media, SMW, SMW+ và các extension của nó
• Nghiên cứu vấn đ quản lý thông tin khóa luận tốt nghip và các vấn đ liên quan ti Trưng Đi học Hùng Vương từ đó đưa ra các hướng cải tiến
• Tìm hiểu xây dựng và phát triển , ontology quản lý thông tin khóa luận àv s ửdụng được ontology này trên h thống
4 Phương pháp nghiên cứu
c áp d ng bao g m Các phương pháp nghiên cứu đã đượ ụ ồ :
- Phương pháp nghiên cứu lý thuyết, tổng h p tài li u ợ
- Phương pháp nghiên cứu thực tiễ ấn, l y ý ki n chuyên gi ế a
- Phương pháp ứng d ng minh h ụ ọa
5 C u tr ấ c luận văn
Ngoài ph n m u và k t lu n, luầ ở đầ ế ậ ận văn được b cố ục làm 3 chương Cụ thểnhư sau:
Trang 11Chương 1 TỔNG QUAN VỀ WEB CÓ NGỮ NGHĨA :
ngày Internet trở thành một kho dữ liu khổng lồ và hỗn độn Vic tìm kiếm thông tin trên web cũng trở nên khó khăn hơn, con ngưi thưng xuyên phải đối đầu với một lượng lớn những thông tin không hợp lý hoặc không liên quan được trả v từ kết quả tìm kiếm Web ngữ ngha ra đi gip cải tiến web hin ti bằng cách thêm vào một lớp ngữ ngha để máy tính có thể hiểu được thông tin, tăng cưng khả năng rt trích thông tin một cách tự động, tăng cưng khả năng tích hợp dữ liu Trong chương này ta sẽ tìm hiểu v công ngh web ngữ ngha, công ngh web của tương lai
Web ngữ ngha là một thế h eb mới, đang được phát triển ở nhiu lnh wvực H thống web mới này sẽ thay thế h thống web hin ti song không có ngha
là một h thống hoàn toàn khác h thống web hin ti Web ngữ ngha được phát triển trên h thống web hin ti bằng cách bổ sung thêm ngữ ngha cho các tài nguyên trên web để gip máy tính có thể hiểu và tăng khả năng xử lý tự động
b Mục tiêu v c c hướng nghiên cứu của web ngữ nghĩa
Mục tiêu của web ngữ ngha là phát triển các chuẩn chung v công ngh, cải tiến web hin ti bằng cách thêm vào một lớp ngữ ngha để máy tính có thể hiểu được thông tin trên web nhiu hơn, tăng cưng khả năng rt trích thông tin một cách tự động, tăng cưng khả năng tích hợp dữ liu
Trang 12Để xây dựng h thống web ngữ ngha thay thế cho world wide web hin ti, các nhà nghiên cứu đang nỗ lực và tập trung nghiên cứu với ba hướng chính sau: [3],[14] [1].,
- Chuẩn hoá các ngôn ngữ biểu diễn dữ liu (XML) và siêu dữ liu (RDF) trên w eb
- Chuẩn hoá các ngôn ngữ biểu diễn ontology cho web có ngữ ngha
- Phát triển nâng cao web có ngữ ngha (Semantic web advanced
development - SWAD)
Trong luận văn tác giả p trung nghiên cứu theo hướng thứ ba Một vấn đ tậrất được quan tâm trong SWAD là làm thế nào để thêm ngữ ngha vào các tài liu web mà các tài liu hin nay được viết bằng ngôn ngữ tự nhiên và chỉ có con ngưi mới đọc hiểu được Hơn nữa vic nhng ngữ ngha này phải được thực hin một cách tự động để có thể chuyển đổi hàng tỷ các tài liu web đã có sẵn sang các tài liu tương ứng cho web có ngữ ngha Muốn vậy, vấn đ đầu tiên cần giải quyết là rt trích tự động ngữ ngha của mỗi tài liu web rồi ch thích li ngữ ngha này vào tài liu đó
c Kh i ni m thực th có tên trong web ngữ nghĩa
Theo Thomas B Passin, thực thể có tên là con ngưi, tổ chức, nơi chốn và những đối tượng khác được tham khảo đến bằng tên[1], [2], [17]
Thực thể có tên khác v mặt bản chất lẫn ngữ ngha với các từ ở chỗ nó được dùng để chỉ các cá thể riêng bit còn các từ được dùng để chỉ các khái nim, quan h, thuộc tính nói chung Lấy ví dụ trong câu:“ThS Đỗ Tùng là Trưởng phòng Đ o
t o của rư ng Đ i h c Hùng Vương”T thì ThS Đỗ Tùng là thực thể có tên trong khi “Trưởng phòng Đ o t o”, “Trư ng Đ i h c Hùng Vương” là các từ vựng Trong một tài liu, các thực thể có tên to nên một phần quan trọng trong ý ngha của tài liu đó Do đó, nhng ngữ ngha vào eb ngoài vic phân tích c phw áp các câu, ngữ ngha cho từ vựng đòi hỏi phải có bước xác đnh ngữ ngha cho các thực thể có tên Từ “ngữ ngha” ở đây cũng có ý ngha hn chế, ám chỉ vic một thực thể thuộc lớp hay thuộc tính cụ thể nào đã được đnh ngha từ trước
Trang 13Bên cnh vấn đ có liên quan đến cơ sở tri thức đã nói ở trên, trong thực tế một thực thể có thể có nhiu tên khác nhau trong khi các thực thể khác nhau li có thể có cùng tên Điu này gây nhập nhằng trong vic suy luận một thực thể chính xác thuộc một lớp này hay lớp kia và có những thuộc tính trong ngữ cảnh nào Và điu đó làm ảnh hưởng lớn đến kết quả của suy luận
Trong tình huống này, web ngữ ngha phải có khả năng phân tích ngữ cảnh chứa thực thể một cách tự động, cần thiết có thêm một vài chỉ dẫn trực tiếp
từ con ngưi để thu giảm không gian tìm kiếm và tăng mức độ tin cậy đối với kết quả suy luận
Để giải quyết những tình huống như trên, cách thông thưng nhất là ứng dụng sẽ hỏi ngưi dùng muốn tìm kiếm trong phm vi nào, ngữ cảnh nào và muốn thể hin kết quả ở trưng hợp nào Đôi khi, cũng có thể sử dụng các hàm lượng giá
để dự đoán thực thể có khả năng rơi vào trưng hợp nào mà ngưi dùng yêu cầu
d Kh i ni m t i nguyên v định danh t i nguyên trong web ngữ nghĩa
Thuật ngữ “tài nguyên” hay “resource” trên web là một phm trù rộng lớn dùng để chỉ mọi đối tượng có thể tìm thấy trên web như khái nim, từ vựng, thực thể, tính chất và quan h giữa các đối tượng Tài nguyên cũng chính là dữ liu của trang web đóvà là đối tượng à mục tiêu nghiên cứu của web ngữ nghal ], [2 [3]Tài nguyên trên web là khái nim rộng hơn thực thể có tên à cũng như thực vthể có tên, cùng một tài nguyên nhưng có thể được đặt tên khác nhau trong khi có nhiu tài nguyên bản chất khác nhau nhưng li có cùng tên Điu đó nảy sinh yêu cầu đnh danh mỗi tài nguyên bằng một đnh danh duy nhất Các tài nguyên khác nhau sẽ có đnh danh khác nhau Đnh danh này được gọi là một URI (Uniform Resource Identifier)
URI là chuỗi ký tự cho phép xác đnh các tài nguyên trên mng internet Mỗi một nguồn tài nguyên trên mng sẽ có một đa chỉ duy nhất xác đnh nó, đó chính là URI [28] URI có 2 dng là URL (Uniform Resource Locator) và URN (Uniform
Resource Name) URN xác đnh tên của tài nguyên, trong khi URL cung cấp đa chỉ
Trang 14cho vic vic tìm kiếm nó Vì vậy URN và URL luôn có mục đích hỗ trợ và bổ sung cho nhau
Tổng quát của URI là IRI (Internationalized Resource Identifier), nó cho phép đnh danh tài nguyên thống nhất trên phm vi quốc tế (được đnh ngha trong RFC 3987)
Một URI không phải là một tập các hướng dẫn chỉ cho máy tính làm thế nào
để đến được một file hay một tài nguyên nào đó trên web dù nó cũng có thể làm được điu này Nó là một tên cho một tài nguyên Tài nguyên này có thể hoặc không thể truy cập được qua Internet URI có thể hoặc không thể cung cấp cách thức cho máy tính lấy thêm thông tin v tài nguyên đó Một URL là một kiểu của URI mà sẽ cung cấp cách để lấy thêm thông tin v tài nguyên hoặc có thể là cách để
tự truy lục tài nguyên cùng các phương pháp khác để cung cấp thông tin v các URI hoặc những tài nguyên khác Cũng chính xác khi nói rằng các URI là một phần quan trọng của Semantic web Nhưng không nên cho rằng một URI có thể cung cấp đầy đủ một bộ nhận dng cho một tài nguyên
1.1.2 Lợi ích của web ngữ nghĩa
Lợi ích của công ngh web ngữ ngha so với công ngh web hin tilà: [24], [25] [3].,
• M y t nh có th hi u được thông tin trên web: Web ngữ ngha đnh ngha các khái nim và bổ sung quan h dưới dng máy tính có thể hiểu được Do đó, vic tìm kiếm, đánh giá, xử lý, tích hợp thông tin có thể được tiến hành một cách
tự động
• Thông tin được t m ki m nhanh chóng v ch nh x c hơn: V wới eb ngữ ngha, máy tính có thể xác đnh một thực thể thuộc lớp này hay lớp khác, có những thuộc tính cụ thể nào dựa trên ngữ cảnh nào chứa nó Do đó thu hẹp không gian tìm kiếm
và cho kết quả nhanh, chính xác hơn
• Kh năng suy lu n thông minh: Dựa vào các luật suy diễn trên cơ sởtri thức v các thực thể, đối tượng từ đó máy tính có khả năng sinh ra những kết luận mới Ứng dụng w ebtương lai có thể sẽ trả li được những câu hỏi kiểu như “: Tên gi ng
Trang 15viên d y môn to n t i Trư ng Đ i h c Hùng Vương có hướng dẫn sinh viên l m khóa lu n tốt nghi p năm 2013 v quê qu n t i Lâm Thao – Phú Th ?”.
• Dữ li u liên k t đ ng: Thay thế cách liên kết sử dụng hyperlink tnh trong
web cũ bằng những liên kết dữ liu dựa trên đnh danh của tài nguyên (URI) và quan h giữa chng Cách liên kết này đôi khi còn được gọi là liên kết bằng siêu dữ liu (meta data)
• Hỗ trợ công cụ tự đ ng hóa: Ngoài những lợi ích trên, w eb ngữ ngha còn cung cấp các loi dch vụ tự động từ nhiu lnh vực khác nhau như các lnh vực gia đình, các thư vin k thuật số, các dch vụ kinh doanh đin tử dch vụ sức , khỏe Webngữ ngha cung cấp phương tin để thêm các thông tin lên eb nhằm w
tả các đối tượng hay tài nguyên trên mng và quan h giữa chng RDF cho phép gán kiểu cho các tài nguyên và làm nn tảng cho Ontology RDF là một trong hai thành phần chính và quan trọng nhất trong kiến trc eb ngữ ngha, phần còn li là wontology Kế đến là lớp RDF SCHEMA cung cấp một phương tin để đặc tả các từ
vựng mô tả tính chất và quan h giữa các tài nguyên RDF Lớp tiếp theo trong mô hình phân cấp này là ONTOLOGY đnh ngha các từ vựng dùng để mô tả các thuộc tính, lớp trong một min ngữ vựng nhất đnh Bên trên lớp ONTOLOGY là lớp LOGIC cung cấp các luật suy diễn, trong khi PROOF sử dụng các luật của lớp
Trang 16Logic để kiểm tra tính đng đắn của một suy diễn nào đó Lớp TRUST hin vẫn đang trong giai đon phát triển nhằm mục đích đánh giá mức độ tin cậy và quyết đnh có nên tin tưởng kết quả từ một kết quả suy luận nào đó hay không Thông thưng Trust chính là một hàm lượng giá áp dụng trên một tập các thông tin, thông tin nào có giá tr lượng giá cao hơn sẽ được chọn cho một mục đích nào đó Ví dụ
để thể hin trong kết quả tìm kiếm chẳng hn
Kiến trc của web ngữ ngha như sau:
Hình 1.1: Ki n trúc của Semantic eb (nguồn w3c)w Hai lớp trên cùng trong kiến trc đã thể hin rõ hơn góc độ ngữ ngha và cung cấp cho mô hình này khả năng suy luận thông minh
Tiến trình phát triển w eb ngữ ngha được thực hin theo từng bước, mỗi bước thuộc v một tầng trong kiến trc và được xây dựng dựa trên tầng bên dưới Tất cả các tầng của web ngữ ngha được sử dụng để đảm bảo độ an toàn và giá tr thông tin trở nên tốt nhất
Trên thực tế thì một số tầng đã được hoàn thin và có những ứng dụng rộng rãi, được nhiu ngưi biết đến như Unicode, XML Bắt đầu từ tầng logic trở lên, hin nay các nhà khoa học vẫn đang trong quá trình nghiên cứu và thử nghim
Từ sơ đồ kiến trc của eb ngữ ngha, ta thấy với h thống web hin ti đang w
ở tầng thứ hai
Trang 171.1.4 Ứng dụng của web ngữ nghĩa
Ngày nay, thế h web 2.0 đang được phát triển mnh mẽ với các trang nội dung tự to, mng xã hội, video trực tuyến, RSS, mash-up nhưng trong một tương lai gần chng sẽ nhưng đưng cho thế h web mới là web ngữ ngha Web ngữ ngha hay thế h web 3.0 đã xuất hin ngay trong lòng eb 2.0 nhưng đó chỉ là wnhững ứng dụng, công ngh, tư tưởng chưa thực sự phổ biến và trưởng thành Chng vẫn cần thêm thi gian để phát triển và hoàn thin hơn để đáp ứng tốt cácnhu cầu của ngưi sử dụng Các ứng dụng và phát triển nâng cao của web ngữ ngha trong tương lai là:
Hướng thứ nhất: Xây dựng và phát triển các h thống web thông minh Các h thống này có thể trao đổi thông tin, giao tiếp với nhau, phân tích và diễn giải ý ngha của các dữ liu có trên từng h thống rồi tập hợp các nội dung liên qua từ n nhiu nguồn khác nhau Các h thống web ngữ ngha này sẽ to ra những siêu dữ liu hay chuỗi các cơ sở dữ liu nối tiếp nhau, có nhim vụ bổ sung cho thông tin trên web để các máy tính có thể hiểu và giải quyết những vấn đ ngữ ngha phức tp Ví dụ một công ty du lch sẽ biết khách hàng của họ có bao nhiêu đứa con, công vic, sở thích riêng để tìm ra điểm nghỉ mát lý tưởng nhất cho cả gia đình
Hướng thứ hai: Trí tu nhân to (AI) – ây dựng những h thống biết suy xngh và nói chuyn như con ngưi Trong bối cảnh của web, AI ở đây có phần tương đồng với ý tưởng Semantic web Amazon.com đã thử nghim dch vụ quản lý tác vụ Mechanical Turk1, trong đó các chương trình đin toán có thể kết hợp với trí thông minh của con ngưi để thực hin những công vic mà máy tính không thể làm được Đây được coi là hình ảnh sơ khai của AI trên web
Hướng thứ ba: To dựng cuộc sống ảo (Second Life2) nó được giới truyn thông coi như một mô hình web tương lai Ngưi tham gia không những xây dựng cuộc sống ảo, mà còn "số hóa" đi sống thực Ngha là, một mặt chng ta gia nhập Second Life hoặc một thế giới ảo nào đó, một mặt ta bắt đầu khám phá hành tinh qua những dch vụ, dự án như Google Earth
1 https://www.mturk.com/mturk/welcome
2 http://secondlife.com/
Trang 18Hướng thứ tư: To các web di động trên thiết b cầm tay đây là một lnh vực đang được nghiên cứu và phát triển rất mnh Mobile web đã có những triển khainhưng vẫn còn vướng ở khâu tối ưu hóa khả năng sử dụng
Hướng thứ năm: Truyn hình internet (IPTV), video trực tuyến đã và đang được khai thác, nhưng ngưi dùng vẫn có cảm giác chng chưa hoàn thin Dù vậy, vài năm nữa, nternet TV sẽ có chất lượng hình ảnh cao, khả năng truyn tải mnh ihơn, cá nhân hóa hơn trong khi các đài truyn hình truyn thống sẽ phải tìm cách thích nghi với xu hướng mới
Hướng thứ s u: Ứng dụng web RIA (Rich Internet Application) u hướng xphát triển các chương trình lai giữa web và desktop (ứng dụng online nhưng hot động như trên môi trưng desktop)
1.2 Biểu diễn d liệu trên web ng ngha thông qua RDF
1.2.1 T ổng quan về RDF
a Giới thi u
RDF Resource Description Framework còn gọi là khung mô tả tài nguyên, -
là nn tảng cho vic biểu diễn dữ liu tronglnh vực eb có ngữ nghaw [18]
RDF là một cơ chế để cho biết thông tin v dữ liu Mô hình dữ liu cơ bản của RDF đơn giản là: Bên cnh các resource (tài nguyên), nó còn chứa các property (thuộc tính) và statement (khai báo) Một property là một khía cnh nào đó, characteristic (đặc điểm) hoặc attribute (thuộc tính) hoặc relation (quan h) mô tả một resource Một statement gồm một resource nào đó với tên property cộng với giá tr của property đó cho resource đó Giá tr này có thể là resource khác hoặc một giá tr ở dng văn bản tự do
Thông tin biễu diễn theo mô hình RDF là một phát biểu statement ở dng ( ) cấu trúc bộ ba (triple) vì nó gồm ba thành phần cơ bản là: subject, predicate, (
object) Trong đó:
• Subject chỉ đối tượng đang được mô tả đóng vai trò là chủ thể
• Predicate (còn được gọi là property) là kiểu thuộc tính hay quan h
Trang 19• Object là giá tr thuộc tính hay đối tượng của chủ thể đã nêu Object có thể
là một giá tr nguyên thủy (literal) như số nguyên, chuỗi hoặc cũng có thể là một tài nguyên
Ví dụ sau minh họa cho một triple:
(Giảng viên 1, Tên, ‘Đỗ Tùng’)
Hình 1.2: V dụ v triple mô t thông tin gi ng viên
Đây là phát biểu mô tả một chủ thể Giảng viên 1 có kiểu thuộc tính Tên với
giá tr là ‘Đỗ Tùng’ Phát biểu có thể được tm hiểu là: Giảng viên 1 có tên là
Đỗ Tùng
b RDF v h dữ li u truy n thống
Trong các h cơ sở dữ liu truyn thống, thông tin được lưu trữ dưới dng bảng Trong đó, mỗi hàng là một bộ (tuple) không có giới hn v số lượng thành phần Ví dụ bảng lưu trữ thông tin giảng viên như sau:
Tuple: (1356, “Tr n Nam Trư ng”, “01/05/83”, “Nam”, “0989847845”, “truongtn@hvu.edu.vn”) Ngược li, lưu trữ dữ liu dưới dng RDF li đòi hỏi các bảng phải được chia nhỏ để lưu trữ theo đng cấu trc bộ ba Ví dụ:
Trang 20• Cấu trc bộ ba gip cho thông tin dễ truy xuất bởi các h thống suy luận, tìm kiếm ngữ ngha Cũng nh vậy mà những bộ xử lí RDF có thể suy luận ra những thông tin mới không có trong h dữ liu
• Chia sẻ dữ liu trên mng dễ dàng nh sự đồng nhất
1.2.2 Mô hình hóa dữ liệu tro ng RDF
Đồ th là cách sinh động để biểu diễn thông tin dng RDF Một đồ th biểu diễn RDF bao gồm các nt (đỉnh) và các cung Mỗi nt có thể là một tài nguyên (resource) hoặc giá tr nguyên thủy (literal) trong khi đó các cung tượng trưng cho một predicate
Ta có thể ánh x một bộ batrong ví dụ trên sang lược đồ như sau:
Hình 1.3: V dụ lược đồ mô t trực quan hóa RDF Khi biễu diễn bằng đồ th ta thưng dùng hình tròn hoặc eclipse để biểu diễn các tài nguyên, còn hình chữ nhật biểu diễn cho giátr nguyên thủy
1.2.3 Truyền tải dữ liệu RDF trên internet
Mô hình RDF đã thể hin được nhiu ưu điểm trong vic biễu diễn thông tin Chính vì vậy cần phải có một cách thức chung để truyn tải dữ liu RDF trên internet Đó là RDF/XML syntax do W3C đưa ra năm 1999 Đây là một ngôn ngữ dựa trên XML, nó bao gồm một tập các quy tắc và từ vựng để hỗ trợ cho biễu diễn thông tin RDF
Trang 21tài nguyên thì tương đối dài và khó đọc, khó viết Tuy nhiên vấn đ này có thể được
xử lí bằng cách dùng XML namespace
b Khai báo namespace
Vic sử dụng namespace gip cho tài liu RDF ngắn gọn và dễ đọc hơn đối với ngưi thiết kế Chẳng hn như tacó một đa chỉ là:
“http: //www.khoaluan.hvu.edu.vn/2013/01/rdf-syntax ns#”
-Nếu gán nó ta cho một namespace ví dụ như xmlns: rdf, thì v sau ta chỉ vicdùng rdf:giangvien thay cho http //www.khoaluan.hvu.edu.vn/2013/01/rdf-syntax-: ns#giangvien
c Định danh m t chủ th
Cú pháp bộ ba để biểu diễn một triple: {subject,predicate,object}
Ví dụ: {Giảng viên 1, Tên Đỗ Tùng} ,
{Giảng viên 1 Đin thoi, , 0912135259 }
Và biểu diễn ví dụ trên trong tài liu RDF:
<rdf: RDF xmlns: rdf= ’http : //www.khoaluan.hvu.edu.vn/2013/01/rdf-syntax-ns# ’> <rdf: Description rdf: about= # ‘ Giảng viên 1’ >
<rdf: Tên rdf: literal= ‘Đỗ Tùng’ >
<rdf: Điện thoại rdf: literal= ‘0912135259’ >
</rdf: Description>
</rdf: RDF>
1.2.4 Ngôn ngữ truy vn trong RDF
RDF là một cách để mô tả thông tin v các tài nguyên eb một cách linh wđộng Với lượng thông tin khổng lồ trên eb cần phải có ngôn ngữ truy vấn các wtài liu RDF một cách nhanh chóng và chính xác Tổ chức W3C đã phát triển ngôn ngữ truy vấn trong các tài liu RDF dựa trên c pháp của ngôn ngữ truy vấn SQL trong CSDL quan h Một ngôn ngữ truy vấn RDF thông dụng và được ứng dụng rộng rãi là SPARQL [18]
SPARQL là một ngôn ngữ để truy cập thông tin từ các lược đồ RDF Nó cung cấp các tính năng sau:
- Rút trích thông tin từ các dng của URI
- Rút trích thông tin từ các lược con
- Xây dựng đồ th RDF mới dựa trên thông tin trong đồ th truy vấn
Trang 22Một câu truy vấn bao gồm 2 mnh đ, mnh đ SELECT và mnh đ WHERE Mnh đ SELECT đnh danh các biến mà ứng dụng quan tâm và mnh đ WHERE bao gồm các mẫu điu kin cho các bộ ba
a Ứng dụng trong tr nh duy t Mozilla
Mozilla là một trình duyt rất mm dẻo trong vic cấu hình h thống Những tập tin cấu hình thưng được lưu trữ ở dng XML và dùng mô hình RDF để lưu trữ thông tin cấu hình của ngưi dùng Mozilla cũng dùng RDF để mô tả thông tin v email và các thành phần của mail
b Ứng dụng trong Rich Site Summary(RSS )
RSS là một công ngh dùng trong blog Nó gip cho các blog được liên kết với nhau còn thông tin giữa các blog sẽ luôn được RSS cập nhật và truyn tải nhanh chóng trên mng, mỗi khi có tin tức mới thì bộ xử lí RDF sẽ suy dẫn ra các tin tức này và truyn tải đi đến các blog khác Nh vậy mà tin tức lan tải rất nhanh trên blog
c Ứng dụng trong trong H thống hư mục Dublin CoreT 3
H thống Thư mục Dublin Core là một h thống gip mô tả các thư mục siêu
dữ liu Nó có ý ngha rất thiết thực bởi vì gip cho mọi ngưi có thể xây dựng một h thống tài liu cho riêng mình theo cách phân cấp Dublin Core có thể được xây dựng theo nhiu cách, một trong số đó là dùng RDF
1.3 Ontology – Mô tả và p hân l oại tri thức
1.3.1 Cơ ản về ự b s phân l oại
Vic thêm ngữ ngha vào eb không thể thiếu vic xác đnh ngữ ngha cho wcác tài nguyên trên web, mà cụ thể cần xác đnh các tài nguyên đó thuộc lớp nào,
3 http://dublincore.org
Trang 23có những tính chất phân bit gì Do đó, yêu cầu đặ ra là cần có một cơ chế tự t động để máy tính có thể phân loi được các tài nguyên trên
Có hai phương pháp phân loi chính là hnh thức và không hnh thức Cách phân loi mà con ngưi sử dụng hàng ngày có thể được gọi là không hình thức, bởi
sự phân loi này đôi khi không chính xác hoặc không cần sự chính xác Ví dụ, ta có thể xếp Trưng Đi học Hùng Vương là trưng đi học nằm ở vùng rung bắc hoặc Tvùng Tây bắc đu được Trong khi đó, cách phân loi hình thức được sử dụng khi cần sự chính xác, ví dụ ta phải xếp Trưng Đi học Hùng Vương là trưng đi học thuộc tỉnh Ph Thọ chứ không thể thuộc tỉnh Vnh Phúc Cách phân loi này thưng
sử dụng trong các ngành khoa học hoặc phân i tự động trong các h thống máy lotính Phương pháp phân loi hình thức sẽ là mục tiêu đ cập và nghiên cứu ử dụng strong quá trình xây dựng h thống Quản lý thông tin khóa luận tốt nghip ti Trưng Đi học Hùng Vương
Các h thống phân loi theo kiểu hình thức cũng có thể được chia làm hai
dng dựa trên cấu trc phân loi mà nó sử dụng Đó là phân loại phân cấp
(classification hierarchy) và phân loại phân nhóm classification groups ( ) Phân loi phân cấp dựa trên các cấu trc phân cấp như: danh sách phân cấp hoặc cây phân cấp Trong khi phân loi phân nhóm dựa trên chủ đ (categories) Hin nay,
cả hai hình thức trên đu được sử dụng để phân loi các tài nguyên trong lnh vực
Trong ngành khoa học máy tính và quản tr t i thức, ntology mang ý nghar o
là các loi vật và quan h giữa chng trong một h thống hay ngữ cảnh cần quan
Trang 24tâm Các loi vật này đôi khi còn được gọi là khái nim, thuật ngữ hay từ vựng có thể được sử dụng trong một lnh vực chuyên môn nào đó
T ừ khi ra đi đến nay, ontology có r t nhiấ u đnh ngha, một đnh ngha được chấp nh n r ng rãi v ontology là: “Mậ ộ t ontology là m t đặ ả c t chính xác và hình thứ ề c v m t khái ni m c a m t mi ệ ủ ền thông tin được quan tâm” [12], [15] Đnh ngha này nhấn mnh hai điểm chính :
- Thứ ấ : nh t Các khái nim được hình th c hóa và b i v y cho phép suy diứ ở ậ ễn (reasoning) bởi máy tính
- Thứ hai M: ỗi Ontology được xây d ng cho m t vài mi n thông tin c n ự ộ ầquan tâm, có như thế nó m i th hiớ ể n được vai trò và tác d ng c a nó ụ ủ
Ontology là chìa khóa đối v i semantic ớ
web vì chúng cung c p m t t p t v ng và chú ấ ộ ậ ừ ự
thích ng ữ ngha Vic xây d ng các ontology ự
là c t lõi trong vi c xây d ng các ng dố ự ứ ụng
ngữ ngha
M t h ng oộ thố ntology đnh ngha mộ ật t p
các từ ự v ng mang tính ph biổ ến trong lnh vực
chuyên môn nào đó và m i quan h gi a chúng S ố ữ ự đnh ngha này có thể được
hi u bể ởi cả con ngư ẫi l n máy tính
1.3.3 Cc thnh phần của ontology
M ontology bao g m các thành ph n sau ột ồ ầ :
• Các cá th ể(individuals): Là các th c th hoự ể ặc các đối tượng cơ bả đón
là n ản t ng c a m t ontology Các cá th trong m t ontology có th bao gủ ộ ể ộ ể ồm các đối tượng c th ụ ể như con ngưi, động vật, cái bàn cũng như các cá th trể ừu tượng như các thành viên hay các t M t ontology có th không c n b t k m t cá th nào ừ ộ ể ầ ấ ỳ ộ ểnhưng một trong nh ng lý do chính c a mữ ủ ột ontology là để cung c p m t ng ấ ộ ữ ngha
c a vi c phân l p các cá th , m c dù các cá th này không th c s là m t ph n củ ớ ể ặ ể ự ự ộ ầ ủa ontology
Hình 1.4: Vai trò của ontology trong xây dựng web ngữ nghĩa
Trang 25• Các lớp (classes): Là các nhóm t p hậ ợp các đối tượng trừu tượng Chúng
có th ch a các cá thể ứ ể, các l p khác hay là s ph i hợ ủớ ự ố p c a cả hai
Các ontology biến đổi tu ỳthuộc vào c u trúc và n i dung c a nó M t l p có ấ ộ ủ : ộ ớthể ứ ch a các l p con, có th là m t l p t ng quan ch a t t c m i th ho c có th là ớ ể ộ ớ ổ ứ ấ ả ọ ứ ặ ể
l p ch ớ ỉchứa nh ng cá th riêng l M t l p có th x p g p vào ho c b x p g p vào ữ ể ẻ ộ ớ ể ế ộ ặ ế ộ
b i các l p khác M i quan h x p gở ớ ố ế ộp này đượ ử ụng để c s d t o ra m t c u trúc có ộ ấthứ ậ b c các lớp, thưng là v i m t l p thông d ng nh t ở trên đỉớ ộ ớ ụ ấ nh và các l p có ớ
ki u rõ ràng c ể ụthể ở phía dưới cùng
• Các thu c tính ộ (attributes): Là các khía cnh, đặc tính, tính năng, đặc điểm, ho c các thông s ặ ố mà các đối tượng và các l p có th ớ ể có Các đối tượng trong ontology có th ể được mô t thông qua vi c khai báo các thu c tính c a chúng Mả ộ ủ ỗi
m t thuộ ộc tính đu có tên và giá tr c a thu ủ ộc tính đó Các thuộc tính đượ ử ục s d ng
để lưu trữ các thông tin mà đ i tư ng có th có ố ợ ể
• Các quan h ệ(relations): Là cách th c mà các l p và các cá th có th ứ ớ ể ểliên k t v i nhau ế ớ Trong ontology đnh rõ như thế nào các đối tượng này có liên quan đến các đối tượng khác Đặc trưng là một m i quan h lo i riêng biố t quy đnh
c trong chiụthể u hướng các đối tượng này có liên quan đến các đối tượng khác
trong ontology
Chủ ế ứ y u s c m nh c ủa ontology đến t kh ừ ả năng mô tả các m i quan h ố Loi quan h đôi khi là một đặc trưng và sau đó được dùng để lưu trữ các loi đặc trưng của s ki n ho c tr l i t ng lo i câu h i riêng bi t Nự ặ ả ừ ỏ ếu các đnh ngha của các lo i quan h được bao g m trong mồ ột ontology, sau đó ontology đnh ngha riêng ngôn ngữ ontology c a nó ủ
• Các thu t ng ậ chức năng (function terms): ấC u trúc ph c tứ p được hình thành t các m i quan h nhừ ố ất đnh có th ể đượ ử ục s d ng thay cho m t thu ng cá ộ ật ữ
th trong mể ột báo cáo (statement)
• Các s h n ch ự ạ ế(restrictions): Là nh ng mô t chính thữ ả ức được tuyên b ố
v nh ững điu ph i chính xác cho mả ột số ẳng đnh đượ kh c ch p nh n u vào ấ ậ ở đầ
Trang 26• Các quy t c ắ (rules): Là tuyên b có hình thố ức như mộ ặt c p if-then mô t ảsuy luận logic có th đư c rút ra tể ợ ừ ộ ự m t s khẳng đnh trong t ng hình thừ ức riêng.
• Các tiên đề(axioms): Bao g m các quy t c trong m t hình th c h p lý ồ ắ ộ ứ ợ
v i nhau bao g m các lý thuy t t ng th mà ontology mô t ớ ồ ế ổ ể ả trong lnh vực của
ứng d ng ụ
• Các sự kiện (events): Là các tình huống khi có sự thay đổi các thuộc tính hoặc các mối quan h
1.3.4 Vai rò của t ontology trong lĩnh vự web ngữ nghĩa
Với các thành phần như trên, ontology đã trở thành một phần quan trọng tronglnh vực eb ngữ nghaw [15] Có thể kể ra một số lợi ích của ontology như:
• Đ chia sẻ những hi u hi u bi t chung v các khái ni m, cấu trúc thông tingiữa con ngư i ho c giữa cách thống ph n m m: Đây vai quan là trò trọng nhấtcủa một ntology, không những trong lnh vực eb ngữ ngha mà còn trong nhiu o wngành và lnh vực khác V phương din này, có thể hình dung ntology giống như omột cuốn từ điển chuyên ngành chuyên cung cấp và giải thích các thuật ngữ cho ngưi không có cùng chuyên môn khi được yêu cầu hoặc khi cần sự hợp tác giữa các h thống phần mm
• Cho phép t i s dụng tri thức: Đây là một vấn đ khó và là mục tiêu nghiên cứu quan trọng trong những năm gần đây Nó liên quan đến bài toán trộn hai hay nhiu ntology thành một ntology lớn và đầy đủ hơn Nhưng vấn đ ở đây lào o tên các khái nim được đnh ngha trong các ntology này có thể giống nhau trong khi ochng được dùng để mô tả các đối tượng hoàn toàn khác nhau Tuy nhiên cũng có thể có trưng hợp ngược li, khi tên các khái nim khác nhau nhưng cùng mô tả một đối tượng Ngoài ra, làm thế nào để bổ sung các quan h, thuộc tính có sẵn vào một hthống mới cànglàm cho vấn đ trở nên phức tp
• Cho phép tri thức đ c l p với ngôn ngữ: Đây cũng là vấn đ liên quan đến lnh vực tái sử dụng tri thức đã nói ở trên, tuy nhiên bài toán của nó là làm thế nào
để một h thống ntology có thể được dùng bởi các ngôn ngữ của các quốc gia khác onhau mà không phải xây dựng li Giải pháp mà ntology mang li là cho phép tên o
Trang 27các khái nim và quan h trong ntology mới tham khảo các khái nim, đnh ngha ocủa một h thống ntology chuẩn thưng được xây dựng bằng tiếng Anh Điu này o
có thể sẽ phá vỡ phần nào rào cản v mặt ngôn ngữ khi mà kết quả tìm kiếm sẽ không bó gọn trong từ khóa và ngôn ngữ mà nó sử dụng
• Cho phép tri thức trở nên nhất qu n v tư ng minh: Các khái nim khác nhau trong một hay nhiu lnh vực cụ thể có thể cùng tên và gây nhập nhằng v ngữ ngha, tuy nhiên khi được đưa vào một h thống ontology thì tên mỗi khái nim là duy nhất Một giải pháp cho vấn đ này là ontology sẽ sử dụng các tham khảo URIlàm đnh danh thật sự cho khái nim trong khi vẫn sử dụng các nhãn gợi nhớ bên trên để thuận tin cho ngưi dùng
• Cung cấp m t phương ti n cho công vi c mô h nh hóa: Ontology là một tập các khái nim phân cấp được liên kết với nhau bởi các quan h Cơ bản mỗi khái nim có thể xem như là một lớp mà đối tượng của lớp đó cùng các quan h đã góp phần to nên cấu trc của bài toán hay vấn đ cần giải quyết
• Cung cấp m t phương ti n cho vi c suy lu n: hin nay một số ngôn ngữ
ontology đã tích hợp lớp ntology suy luận (Ontology Inference Layer) bên trong ocho mục đích suy luận logic trên tập quan h giữa các đối tượng trong h thống
1.3.6 Phương php x ây d ựng ontology
Có nhiu phương pháp khác nhau xây để dựng một ontology như Ushold & King Gru; ninger & Fox; Methontology… nhìn chung cácphương pháp đu thực hin qua các bước cơ bản là: Xây dựng cấu trc lớp phân cấp và đnh ngha các thuộc tính cho lớp Trong thực tế, vic phát triển một ntology để mô tả min cần oquan tâm là một công vic không đơn giản, phụ thuộc rất nhiu vào công cụ sử dụng, tính chất, quy mô, sự thưng xuyên biến đổi của min cũng như các quan h phức tp trong đó Những khó khăn này đòi hỏi công vic xây dựng ntology phải o
là một quá trình lặp đi lặp li, mỗi lần lặp cải thin và tinh chế dần sản phẩm chứ không phải là một quy trình khung với các công đon tách ri nhau
Ngoài ra, công vic xây dựng ntology cũng cần phải tính đến khả năng mở orộng min quan tâm trong tương lai,khả năng kế thừa các thống ontology h cósẵn,
Trang 28cũngnhư tính linh động để ntology có khả năng mô tả tốt nhất các quan h phức otp trong thế giới thực ột số nguyên tắc cơ bản của vic xây dựng M ontology qua các các công đon cụ thể sau đây:
• Xác đnh min quan tâm và phm vi của ontology
• Xem xét vic kế thừa các ontology có sẵn
• Lit kê các thuật ngữ quan trọng trong ontology
• Xây dựng các lớp và cấu trc lớp phân cấp
• Đnh ngha các thuộc tính và quan h cho lớp
• Đnh ngha các ràng buộc v thuộc tính và quan h của lớp
Hình dưới đây cho chng ta sự phân bit giữa RDFS với RDF:
Hình 1.5 Mối quan h giữa RDF v RDFS
Trang 29Trong hình vẽ chng ta thấy, ở tầng RDF chỉ biểu diễn được thông tin ở dng
bộ ba Đến tầng RDFS, thông tin đã được phân loi rõ ràng
RDF/RDFS đủ mnh để xây dựng các ontology Tuy nhiên bản thân nó còn chứa đựng nhiu hn chế như là chưa hỗ trợ tốt v mặt suy luận, cũng như chưa có ràng buộc v kiểu và lượng số …mà các ngôn ngữ thế h sau sẽ khắc phục
b Ngôn ngữ Ontology Web Language
Ngôn ngữ Ontology Web Language(OWL) là ngôn ngữ ontology khá mnh,
nó ra đi sau RDFS nên biết kế thừa những lợi thế của ngôn ngữ này đồng thi bổ sung thêm nhiu yếu tố gip khắc phục được những hn chế của RDFS OWL giptăng thêm yếu tố logic cho thông tin và khả năng phân loi, ràng buộc kiểu cũng như lượng số tương đối mnh
OWL có một số ưu điểm so với RDFS đó là trong OWL có thêm một số thuộc tính hỗ trợ suy luận và ràng buộc
• Hỗ trợ suy luận
Tính chất bắt cầu: nếu nhưchúng ta có một lớp thuộc tính contain và gán “ ”cho nó thuộc tính owl: transitivePropertive thì thuộc tính “ contain ” này sẽ có tính chất bắt cầu Giả sử ta có thông tin A contain B và B contain C, thì h thống sẽ tự suy luận ra một thông tin khác là A contain C Và đây là biểu diễn thuộc tính contain trong OWL:
Trang 31CHƯƠNG 2 WIKI VÀ CÁC PHẦN MỀM WIKI NGỮ NGHĨA :
2.1 Tổng quan về Wiki
2.1 1 Lịch sử pht triển
Wiki đầu tiên được Ward Cunningham to ra năm 1994 như là một cách để
các lập trình viên trao đổi ý kiến trên trang Web Được lấy ra từ tiếng Hawai với ngha là nhanh, tên web nhanh (quick-web) đã trở thành WikiWikiWeb và nó đã trở thành một phương tin mới của sự cộng tác [29], [30]
Cho đến năm 2001, các wiki hầu như không được những ngưi ngoài cộng đồng lập trình biết đến Tuy nhiên, với vic giới thiu wikipedia vào năm 2001, các lợi ích cộng tác của wiki đã trở nên phổ biến cho các tổ chức
Hin nay wiki đã trở nên quen thuộc đối với ngưi dùng nternet Một trong inhững minh chứng rõ nhất cho sự phát triển nhanh chóng của wiki là trang web http: //en.wikipedia.org Tính đến thi điểm hin ti (tháng 1/2013), wikipedia đã có đến 4,159,444 bài viết với tổng số 29,377,397 trang tin cùng 18,359,646 ngưi đăng
ký sử dụng4
Wiki rất linh hot, phần mm wiki đã được sử dụng theo nhiu cách để gip các tổ chức xây dựng một h thống eb mnh – eb tương tác Các tổ chức có thể w wxây dựng toàn bộ trang web trên một gói phần mm wiki hoặc có thể triển khai thực hin như một phần trên h thống của họ
2.1.2 Cc đặc điểm của phần mềm wiki
Đặc điểm nổi bật nhất của iki là thông tin không được xây dựng một cách wtập trung theo nguyên tắc phân quyn như thưng thấy ở các ứng dụng CMS (Content Management System- H quản tr nội dung) hay forum (diễn đàn trực tuyến)mà theo nguyên tắc phân tán: ai cng có thể đọc, ai cng có quyền chỉnh sửa, thêm mới, bổ sung thông tin lên cc trang tin Tuy nhiên, để kiểm soát wiki
đã tự to nên môi trưng tự kiểm soát, mỗi thay đổi đu được ghi li và ngưi dùng
4
Trang 32có thể kiểm soát lẫn nhau hoặc giới hn vic cập nhật thông qua tên đăng nhập hoặc đa chỉ IP.
Điểm đáng ch ý của wiki cho phép ngưi dùng tự do to và chỉnh sửa nội dung bằng trình duyt web bất kỳ và không cần công cụ đặc bit nào khác, không cần kiến thức v lập trình hay HTML
Wiki còn là kho dữ liu trực tuyến dùng chung cực kỳ đơn giản, kết hợp nỗ lực và tri thức của nhiu ngưi để to ra nguồn thông tin tốt hơn của bất kỳ cá nhân,
2 1.3 Phương thức hoạt đ ng trên wiki
Sơ đồ hot động của phần mm wiki như sau [7] :
H nh 2.1: Sơ đồ ho t đ ng của web w iki
Trang 332.1.3.1 B n đ c
Phần mm iki được cài đặt như một kch bản trên một máy chủ Các tài wliu, bài viết hay các trang wiki có thể được truy cập thông qua trình duyt Các nội dung của các trang wiki được viết dưới dng văn bản đơn giản và sau đó được lưu trữ trong một tập tin hoặc cơ sở dữ liu
Khi một trang wiki được truy cập, trình duyt sẽ gửi một truy vấn đến máy chủ quản lý các bộ dữ liu có chứa các phần mm wiki Dữ liu này là hình thức văn bản đơn giản, bây gi phải được đnh dng văn bản để hiển th trong trình duyt Để làm điu này, kch bản wiki dch các tập tin văn bản (wiki code) hoặc
dữ liu đặt vào HTML và nhng nó trong trang web (template) được gửi li cho trình duyt
Hình 2.2: Phương thức l m vi c của b n đ c trên wikiCác trang wiki được to ra tích hợp trong các mẫu, mỗi trang có tên riêng bit nằm trong một chủ đ cụ thể Ngoài ra, thưng có một menu điu hướng và một trang cụ thể số liên kết của các trang web được hiển th Điu quan trọng nhất của những liên kết này là liên kết "Chỉnh sửa"
2.1.3.2 T c gi
Các tác giả muốn chỉnh sửa nội dung các trang wiki thì sử dụng nt chỉnh sửa (Edit) Khi đó ngay lập tức một truy vấn được gửi đến máy chủ Trang nội dung được tải một lần nữa, tuy nhiên các nội dung của trang không được chuyển đổi sang đnh dng HTML Tác giả có thể chỉnh sửa các văn bản và gửi một phiên bản mới,
mà ngay lập tức thay thế phiên bản cũ trong cơ sở dữ liu Khi trang web được truy cập một lần nữa, phiên bản mới được hiển th
Trang 34Tác giả có thể truy cập chỉnh sửa hoặc thêm nội dung không cần biết bất kỳ ngôn ngữ lập trình hay HTML mà vẫn có thể sử dụng wiki
Hình 2.3: Phương thức l m vi c của t c gi trên wiki2.1.3.3 Ngư i qu n trị wiki
Nhim vụ chính của các quản tr viên wiki là duy trì và đảm bảo hot động Ngưi quản tr có nhiu quyn hơn nhiu so với những ngưi tham gia, ngưi quản tr có thể xóa trang hoặc chặn truy cập của các cá nhân Để làm điu này, ngưi quản tr viên thưng có giao din riêng hoặc các trang đặc bit trong Wiki mà chỉ quản tr viên có quyn truy cập
Hình 2.4: Phương thức l m vi c của ngư i qu n trị wiki2.1.3.4 Ngư i qu n trị web
Các admin web là ngưi phụ trách cài đặt phần mm, bảo trì và cập nhật Các quản tr viên web có thể truy cập trực tiếp vào các tập tin mà không cần phải đi đưng vòng thông qua giao din wiki
Hình 2.5: Phương thức l m vi c của ngư i qu n trị web
Trang 352 1.4 Ưu điểm mô hình w wiki eb
- Thành viên và khách vãng lai có thể dễ dàng tm hiểu và trnh bày bài
viết bằng mã wiki. Nhóm mã wiki cơ bản rất đơn giản nên mọi ngưi có thể tiếp cận nhanh chóng thay vì phải mất nhiu thi gian để học ngôn ngữ đánh dấu siêu văn bản (HTML)
- Thành viên tham gia đóng góp vào các dự án bằng nhiều cách thức đa dạng, phù hợp với năng lực của từng người như sửa đổi, bổ sung, wiki hóa, viết mới, tải lên, chữa lỗi chính tả hay từ vựng, thảo luận với tác giả để nêu bật vấn đ
- Web w iki hoạt động trên nguyên tắc mô hnh mở cả về nội dung và
mã nguồn đối với mọi thành viên. Điu này có ngha là mỗi chủ đ có thể do đóng góp của một hay nhiu thành viên (trí tu tập thể) trong khi các dng web khác thì chỉ có ngưi quản tr và đôi khi chính tác giả bài viết mới có quyn cập nhật bài viết
Hình 2.6: Ưu đi m mô h nh web wikiWiki là mô hình bình đẳng v cộng đồng mở v nội dung, đồng cấp v quyn , hn sử dụng
- Thành viên của wiki là cộng đồng tự điều hướng về các nguyên tắc hoạt động và cùng hỗ trợ nhau để phát triển nguồn tài ng uyên Đóng góp theo năng
lực, đồng thuận, tôn trọng lẫn nhau là những nn tảng của web wiki Các thành viên
tự lựa chọn bảo quản viên (Sys p), ngưi này sẽ có quyn sửa đổi giao din, trong okhi ở các dng web khác thì chỉ có admin mới được cấp quyn do đó iki mở cả v w
mã nguồn và giao din đối với ngưi dùng
Trang 36Giao din của iki hướng nội dung hơn nội dung chính được đặt vào trọng w : tâm của trang, phần thảo luận được tách bit thành một trang đi kèm gip ngưi đọc tiếp cận thông tin trực tiếp, không b nhiễu
- Wiki hoạt động trên cơ chế tự tổ chức, không có nhiều sự khác biệt gia người Sysop, thành viên đăng ký và khách bởi tất cả đều có khả năng sửa đổi.
Do đó, chức năng ngưi quản tr không đóng vai trò quản lý thành viên mà là ngưi
hỗ trợ và tối ưu hóa giao din (SysOp: system optimisers không giống Admin: administators)
- Mọi phiên bản theo thời gian của trang viết đều được lưu lại tách rời và
có khả năng phc hồi. Điu này gần như "không thể" ở các dng web khác Ngưi dùng qua đó có thể theo dõi lch sử của bài viết và can thip ở từng giai đon nếu muốn để có một phiên bản hoàn chỉnh hơn cũng như khắc phục những "lỗi", "sai lầm" của thành viên khác
- Mọi bài viết hay mọi chủ đề, do cấu trc iki có thể sắp xếp theo nhiều w hướng phân loại. Mỗi một bài viết có thể thuộc vào nhiu thể loi tùy theo nội dung và có thể dễ dàng dch chuyển hay điu cách phân loi theo mô hình cấu trc
"đa gốc, phân nhánh, liên kết đan nhau" bởi những ngưi tham gia viết bài hay bởi sysop, qua đó ngưi đọc có thể liên h được nội dung bài viết với bất kỳ khía cnh liên quan nào với các bài viết khác hay cũng có thể truy nguyên đến các chủ đ xuất phát gốc của bài viết Ngoài ra với cấu trc sắp xếp hợp lý, ngưi tham khảo còn có thể thấy được v trí và vai trò của đ tài so với đồ hình tổng quan tương đối của tổng thể
- Các chủ đề hay bài viết đều có thể dễ dàng tm thấy nhờ vào máy truy tm d liệu sẵn có trên hệ thống wiki (search engine build- in), độc giả còn có thể tm ra bài viết theo các hệ thống phân loại cổ điển (điu này không thể có được ở các mô hình web khác) Nhiu bài viết tương cận và liên h đến cùng một chủ đ cũng có thể tìm ra cùng một lc nếu biết sử dụng bộ từ khoá hợp lý qua đó
có thể thấy được đ tài mình muốn trong tầm nhìn rộng hơn Điu này gip những
Trang 37ngui học tập hay nghiên cứu chưa đủ trình độ ngoi ngữ được tiếp cận kiến thức
mà không b trở ngi do ngoi ngữ
- Với các dự án toàn cầu đa ngôn ng, web iki cho phép khả năng tham w chiếu nội dung bài viết trong các phiên bản thuộc ngôn ng khác nhờ kết nối interwiki Độc giả biết nhiu ngoi ngữ có thể tham chiếu cùng một đ mục được
nhìn nhận như thế nào v nội dung và hình thức ở mỗi cộng đồng ngôn ngữ
- Phần mềm iki được thiết kế có tính đến sự cộng tác nhanh chóng và dễ w dàng gia các khách truy cập. Đây vẫn là lý do số 1 mà một tổ chức triển khai thực hin một wiki Các wiki cung cấp một nn tảng lý tưởng cho sự cộng tác, vì chng dễ dàng cho những ngưi không biết kỹ thuật sử dụng, cho phép chỉnh sửa theo thi gian thực và đảm bảo một kho lưu trữ tập trung để lưu trữ thông tin Nhưng ngưi dùng có thể dễ dàng nhìn thấy những nội dung nào mới được chỉnh sửa, khiến họ biết các thay đổi nào có thể quan trọng đối với họ
2.1.5 Danh sch cc phần mềm w iki
Kể từ khi wiki đã được phát triển ban đầu cho các lập trình viên, với sự gia tăng công cụ do phong trào Free/Libre/Open Source Software (FLOSS - Ph n m m nguồn mở/Tự do/Miễn ph ) wiki đã được phát triển trên rất nhiu các ngôn ngữ 2.1.5.1 Phân lo i iki theo ngôn ngữ l p tr nhw
Theo số liu thống kê trên trang Wikimatrix5 tính tới thi điểm hin ti có 149 công cụ Wiki khác nhau viết bằng nhiu loi ngôn ngữ lập trình Số liu thống kê cụ thể như sau:
Hình 2.7: Bi u đồ phân lo i m nguồn wiki theo ngôn ngữ l p tr nh
5
Trang 38Danh sách các phần mm wiki được phân loi theo ngôn ngữ lập trình được thể hin trong bảng sau:
Để so sánh các tính năng khác nhau giữa các công cụ Wiki có thể thực hin ti đa chỉ: http //www.wikimatrix.org :
hoặc http //en.wikipedia.org/wiki/Comparison_of_wiki_software :
Trang 392.1.5.2 M t số m nguồn iki phổ bi n w
Trên đây là một số mã nguồn iki phổ biến hin nayw
MediaWiki
Media wiki là phần mm wiki được phát hành dưới Giấy phép
công cộng GNU (GPL) Nó được viết đầu tiên cho Wikipedia và
các dự án th c thuộc Quỹ Hỗ trợuộ Wikimedia, và cũng được sử
dụng ở nhiu wiki khác Media wiki được viết bằng ngôn ngữ PHP
và hỗ trợ cả MySQL và PostgreSQL RDBMS
Download mã nguồn ti: www.mediawiki.org
Twiki
TWiki là một ứng dụng dựa trên wiki có cấu trc Perl, thưng
được sử dụng để chy một nn tảng hợp tác kiến thức hoặc h ,
thống quản lý tài liu cơ sở kiến thức hoặc cổng thông tin, , nhóm
TWiki là một wiki linh hot, mnh mẽ, an toàn nhưng đơn giản
Download mã nguồn ti: twiki.org
PmWiki
PmWiki là một h thống wiki miễn phí để hợp tác và bảo trì
các trang web PmWiki giống như các trang web bình thưng, ngoi
trừ họ có thể được chỉnh sửa hoặc có thể được thêm các trang mới
Chỉnh sửa trang có thể được hn chế theo các nhóm thành viên
PmWiki hot động trên tập tin văn bản và được viết bằng PHP
Download mã nguồn ti: www.pmwiki.org
DokuWiki
DokuWiki được viết bằng PHP và làm vic và lưu trữ thông
tin trong các tp văn bản Mặc dù các tp tin văn bản chiếm
không gian đa ít hơn, những các cơ sở dữ liu li cung cấp bảo
mật dữ liu tốt hơn, dễ dàng truy cập dữ liu hơn và khả năng
điu chỉnh tốt hơn cho một số lượng lớn ngưi dùng
Download mã nguồn ti: www.dokuwiki.org/
Trang 40Qua phần 1 tìm hiểu v phần mm wiki, tác giả nhận thấy vic ứng dụng phần mm wiki vào phát triển h thống quản lý thông tin khóa luận tốt nghip là hoàn toàn khả thi Kiến trc, phương thức hot động của gói phần mm wiki mang tính tính cộng tác cao vì vậy khi xây dựng h thống quản lý thông tin khóa luận tốt nghip sẽ tận dụng được nhiu nguồn lực à tăng cưng tính cộng tác giữa các cán v
bộ và sự đóng góp của các sinh viên Tác giả đã lựa chọn gói phần mm Media wiki
và Semantic media wiki để tìm hiểu trong phần dưới đây và dùng nó để phát triển h thống quản lý thông tin khóa luận tốt nghip ti Trưng Đi học Hùng Vương
2.2 Media Wiki và việc tích hợp công nghệ ng ngha
2.2.1 Tổng quan về media wiki
MediaWiki là một gói phần mm wiki mã nguồn mở viết bằng PHP, ban đầu được dùng riêng cho Wikipedia Hin nay nó được sử dụng bởi một số dự án khác của tổ chức phi lợi nhuận Wikimedia Foundation và bởi nhiu trang web khác
Wikipedia là một bách khoa toàn thư tự do, là kết quả của sự cộng tác của chính những ngưi đọc từ khắp nơi trên thế giới Trang mng này có tính chất wiki
có ngha làtất c m i ngư iđu có thể sửa đổi ởbất cứ trang n obằng cách bấm vào các liên kết “sửa đổi” có ở hầu hết các trang Đa chỉ trang web với phiên bản chính tiếng Anhti đa chỉ: http://en.wikipedia.org
Wikipedia chính thức bắt đầu vào ngày 15 tháng 1 năm 2001 nh hai ngưi sáng lậpJimmy Wales và Larry Sangercùng với vài ngưi cộng tác nhit thành và chỉ có phiên bản tiếng Anh Chỉ hơn ba năm sau, vào tháng 3 năm 2004, đã có 6.000 ngưi đóng góp tích cực cho 600.000 bài viết với 50 thứ tiếng Ngày nay đã có4,159,444 bài viết với tổng số 29,377,397 trang tin cùng 18,359,646 ngưi đăng ký
sử dụng Mỗi ngày hàng trăm nghìn ngưi ghé thăm từ khắp nơi để thực hin hàng chục nghìn sửa đổi cũng như bắt đầu nhiu bài viết mới
Wikipedia tiếng Việtđược thành lập vào tháng 10 năm 2003 Hin nay đã
có 576.141 bài viết bằng tiếng Vit, với tổng số thành viên là 318.329 Đó là một con số khiêm nhưng, chưa thực sự đầy đủ Đa chỉ trang web ti:
http://vi.wikipedia.org