Tìm hiểu web ngữ nghĩa và xây dựng ontology tìm kiếm thông tin trên thư viện số

TỔNG QUAN VỀ SEMANTIC WEB

Khái niệm Semantic Web

Năm 2001, Tim Berners-Lee, người sáng lập World Wide Web, đã định nghĩa Semantic Web là một phiên bản mở rộng của Web hiện tại, nơi thông tin được gán nghĩa rõ ràng hơn, giúp máy tính và con người có thể tương tác hiệu quả hơn với nhau.

Từ "semantic" ám chỉ rằng ý nghĩa của dữ liệu trên Web có thể được khám phá bởi cả con người và máy tính Hiện tại, hầu hết ý nghĩa trên Web chỉ được con người nhận biết thông qua việc đọc các trang web Cụm từ Semantic Web thể hiện một cách tiếp cận mà cả con người và máy tính đều có khả năng đọc, hiểu và sử dụng dữ liệu trên Web để phục vụ các mục đích hữu ích Quan điểm của Tim Berners-Lee về Semantic Web bao gồm hai khía cạnh quan trọng.

N i dung c a chư ng này sẽ trình bày các vấn ề sau:

 C c ặc iểm c ản c a Semantic Web

 Tổng quan về kiến trúc c a Semantic Web

 M t số ứng dụng c ản c a Semantic Web thi trên Web Hình 1.1 (trang tiếp theo) là biểu đồ đầu tiên cho cách nhìn nhận của ông

Cách nhìn nhận của ông liên quan đến việc lấy các trang HTML từ máy chủ web, và trên biểu đồ cũng thể hiện các mối quan hệ như "mô tả".

World Wide Web Consortium (W3C) đã phát triển kỹ thuật RDF (Resource Description Framework) để nắm bắt các quan hệ mà hiện tại không thể thu được trên Web Điều này cho phép bổ sung siêu dữ liệu (metadata) giúp máy tính xử lý thông tin hiệu quả hơn Để tạo ra một Web mà máy tính có thể xử lý dữ liệu, cần có cách nhìn nhận mới về dữ liệu, từ việc coi nó là sở hữu của ứng dụng đến nhận thức về tầm quan trọng của nó Dữ liệu được tổ chức "thông minh" sẽ thể hiện hiệu quả cao hơn trong việc quản lý và sử dụng thông tin.

Hình 1.1: Cách nhìn nhận ầu tiên c a Tim Berners-Lee về Semantic Web

Các file văn bản và các bản ghi cơ sở dữ liệu

Các tài liệu XML cho từng lĩnh vực

Các phép phân loại và các tài liệu với bộ từ vựng trộn lẫn nhau

Các ontology và các luật suy diễn

Các file văn bản và các bản ghi cơ sở dữ liệu

Các tài liệu XML cho từng lĩnh vực

Các phép phân loại và các tài liệu với bộ từ vựng trộn lẫn nhau

Các ontology và các luật suy diễn

Sự phát triển của dữ liệu thông minh bắt đầu từ những văn bản và bản ghi cơ sở dữ liệu đơn giản, với trí tuệ chỉ nằm ở các ứng dụng Sự xuất hiện của tài liệu XML theo từng lĩnh vực đã giúp ứng dụng hoạt động hiệu quả hơn Các phép phân loại và tài liệu tương tác cho thấy một bước tiến trong khai phá dữ liệu, khi dữ liệu đã đủ thông minh để được tổng hợp với nhau Tiến xa hơn, sự phát triển của ontology và luật suy diễn cho phép suy diễn dữ liệu mới từ dữ liệu có sẵn dựa trên các quy tắc logic, giúp mô tả dữ liệu với các quan hệ cụ thể và hình thức phức tạp.

Semantic Web là một nền tảng web với dữ liệu thông minh, cho phép máy tính xử lý và hiểu thông tin một cách hiệu quả hơn.

W3C định nghĩa Semantic Web là một cách nhìn nhận về việc dữ liệu trên web có nghĩa và có thể được sử dụng bởi máy tính không chỉ để hiển thị mà còn để tự động phân tích và khai thác dữ liệu qua các ứng dụng khác Định nghĩa này nhấn mạnh vào khía cạnh kỹ thuật, nhưng tất cả các định nghĩa đều tập trung vào sự phân biệt giữa định nghĩa dữ liệu và thông tin Với những mở rộng của Semantic Web, sức mạnh vượt trội của web sẽ được phát huy để phục vụ con người.

Đặc điểm của Semantic Web

Web hiện nay chứa đựng một lượng thông tin khổng lồ, với kích thước tăng gấp đôi sau mỗi 6 tháng Tuy nhiên, khả năng khai thác thông tin này bị hạn chế, đặc biệt là trong việc tìm kiếm, khi người dùng thường nhận được nhiều kết quả không mong muốn, gây khó khăn trong việc tìm kiếm thông tin cần thiết Hơn nữa, do chỉ có con người mới hiểu được nội dung trên các trang Web, nên thông tin trên Web không phù hợp cho các tác tử phần mềm, điều này làm cho việc tự động hóa trên Web trở nên khó khăn.

Semantic Web là một sự phát triển của Web hiện tại, với mục tiêu khắc phục những hạn chế của nó Những đặc điểm nổi bật của Semantic Web bao gồm khả năng cải thiện khả năng tìm kiếm và xử lý thông tin, giúp người dùng dễ dàng truy cập và sử dụng dữ liệu một cách hiệu quả hơn.

Thomas Passin đã tổng hợp các quan điểm về Semantic Web từ các tổ chức và nhà khoa học trong cuốn sách "Explorer's Guide to the Semantic Web" Những phát biểu này phản ánh những cách nhìn nhận đa dạng về các đặc điểm của Semantic Web.

Dữ liệu có thể được hiểu bởi máy tính, nghĩa là Semantic Web cho phép dữ liệu có ý nghĩa và được sử dụng một cách hiệu quả không chỉ cho hiển thị mà còn cho tự động phân tích Điều này giúp ứng dụng khai thác dữ liệu một cách tối ưu hơn, theo định hướng của W3C.

Semantic Web hỗ trợ các tác tử thông minh bằng cách biểu diễn dữ liệu trên Web theo cách mà máy tính có thể hiểu rõ hơn Điều này giúp các tác tử thông minh dễ dàng tìm kiếm và thao tác với thông tin phù hợp.

Semantic Web cung cấp khả năng linh hoạt để biểu diễn và liên kết dữ liệu, cho phép máy tính xử lý thông tin một cách hiệu quả hơn Mục tiêu của Semantic Web là chuyển đổi thông tin từ một mạng lưới các siêu liên kết thành một mạng lưới các cơ sở dữ liệu liên kết với nhau, giúp dữ liệu có thể truy cập, kết nối và hiểu được bởi máy tính Điều này nhằm tạo ra giá trị tổng hợp cho người dùng, theo định nghĩa của W3C và SWAD-E.

 Là một cơ sở hạ tầng hỗ trợ tự động hóa: “Trong ài o m i nhất c a Berners-Lee t p chí Scientific American ng ta ã khẳng nh rằng

Semantic Web là một cơ sở hạ tầng, không phải là một ứng dụng Chúng tôi hoàn toàn đồng ý với ý kiến của Tuttle rằng vấn đề thực sự nằm ở việc thiếu một framework cho tự ngữ Web hiện tại, như đã được Garcia và Delgado chỉ ra.

Semantic Web phục vụ con người bằng cách giúp các phần mềm máy tính hỗ trợ người dùng tìm kiếm và trích xuất tài nguyên cần thiết trên Web Theo Cranefield, Semantic Web là một cách nhìn về thế hệ tiếp theo của Web, cho phép các ứng dụng web tự động thu thập tài liệu từ nhiều nguồn khác nhau, kết hợp và xử lý thông tin để thực hiện các tác vụ phức tạp, từ đó nâng cao trải nghiệm người dùng.

Ý tưởng về Semantic Web của Berners-Lee giúp chúng ta hiểu rằng các chú thích (annotation) có thể cải thiện khả năng biểu diễn dữ liệu theo cách mà máy tính có thể xử lý và liên kết với nhau, theo quan điểm của Euzenat.

Cải thiện khả năng tìm kiếm trên Web cho phép người dùng truy cập tài nguyên thông qua nội dung thay vì chỉ dựa vào từ khóa Theo Anuatariya, mục tiêu chính của công nghệ này là xây dựng một chỉ mục có cấu trúc cho các trang web, như được mô tả bởi Desmontils và Jacquin.

 Hỗ trợ các dịch vụ web (web services) và các tác tử phần mềm:

Semantic We ngày càng cung cấp các truy cập từ không chỉ các văn bản tĩnh tổng hợp thông tin hữu ích mà còn cả các dịch vụ hỗ trợ hành vi cần thiết (theo Klein và Bernstein) Semantic We hứa hẹn mở rộng các dịch vụ cho web hiện tại bằng cách cho phép các tác tử phần mềm tự động hóa các thủ tục hiện đang phải thực hiện bằng tay, đồng thời giới thiệu các ứng dụng mới mà web hiện tại không thể thực hiện (theo Tallis).

Mặc dù các đặc điểm về Semantic Web có thể chưa đầy đủ, nhưng chúng là những điểm nổi bật được các nhà khoa học công nhận cho đến nay Những đặc điểm này nhấn mạnh khả năng vượt trội của Semantic Web so với Web hiện tại, và chúng ta hoàn toàn có thể hy vọng rằng những khả năng này sẽ sớm trở thành hiện thực.

Kiến trúc của Semantic Web

Hiện nay, đã có rất nhiều sơ đồ kiến trúc về Semantic Web khác nhau

In his presentation at the AAAI (Association for the Advancement of Artificial Intelligence) conference in July 2006, Tim Berners-Lee outlined the architecture of the Semantic Web, as illustrated in Figure 1.3.

Hình 1.3: Kiến trúc c a Semantic Web (Theo http://www.w3.org/2006/Talks/0718-aaai-tbl/Overview.html)

Các giải thích chi tiết cho hình 1.3 sẽ được trình bày trong các phần dưới đây với việc mô tả về các lớp trong kiến trúc của Semantic Web

1.3.1 Lớp URI (Uniform Resource Identifier)

URI là một bộ định danh cho các tài nguyên trên Web, được biểu diễn dưới dạng một chuỗi ngắn gọn các ký tự, nhằm xác định tên hoặc tài nguyên cụ thể.

Mục đích chính của việc định danh là tạo mối liên kết giữa các tài nguyên trên mạng thông qua việc biểu diễn chúng theo một chuẩn thống nhất Một ví dụ điển hình là việc sử dụng các giao thức của World Wide Web URI được định nghĩa trong các lược đồ, nhằm cung cấp các cú pháp riêng biệt và các giao thức liên kết.

URI có thể đƣợc phân loại theo địa chỉ (URL – Uniform Resource Locator) và tên (URN – Uniform Resource Name)

Hình 1.3.1: URI là kết h p c a URL và URN

URN có thể được coi như tên của một người, trong khi URL giống như địa chỉ nhà của người đó URN tạo ra định danh, còn URL cung cấp cách thức để tìm kiếm thông tin.

Đối với người dùng Internet, URL là một khái niệm quen thuộc, đóng vai trò là địa chỉ truy cập vào một trang web Chẳng hạn, URL http://vinhuni.edu.vn/ là một ví dụ điển hình, đồng thời cũng là một URI, thể hiện định danh của trang chủ trường Đại học Vinh.

URN là một phương tiện để định danh một tên trong một không gian tên cụ thể, cho phép xác định tài nguyên mà không cần biết vị trí của nó Ví dụ, URN urn:isbn:0-395-36341-1 là một URI, đại diện cho một cuốn sách được xác định theo "số sách chuẩn quốc tế" (ISBN).

URI đóng vai trò quan trọng trong việc cung cấp một định danh duy nhất cho mọi thứ trên Web, giúp xây dựng nền tảng cho Semantic Web và là một thành phần thiết yếu không thể thiếu.

Unicode là một chuẩn toàn cầu cho phép máy tính biểu diễn và xử lý văn bản từ hầu hết các hệ thống trên thế giới Nó bao gồm khoảng 100.000 ký tự, cùng với các biểu đồ mã hình tượng, quy tắc mã hóa và các phép mã hóa ký tự chuẩn Ngoài ra, Unicode còn cung cấp nhiều thuộc tính như chữ hoa và chữ thường.

Unicode đã thành công trong việc thống nhất các tập ký tự, giúp nó trở thành tiêu chuẩn phổ biến cho phần mềm máy tính trên toàn thế giới Nhờ vào sự thống nhất này, Unicode chiếm ưu thế trong việc phát triển các ứng dụng, bao gồm cả những phần mềm sử dụng các tập ký tự riêng biệt của từng khu vực.

Trong Semantic Web, lớp Unicode sẽ đảm bảo có đƣợc sự thống nhất trong việc mô tả dữ liệu

1.3.3 Lớp XML (Extensible Markup Language)

XML là một ngôn ngữ đánh dấu mở, cho phép người dùng tự định nghĩa các phần tử Mục đích chính của XML là chia sẻ dữ liệu có cấu trúc một cách dễ dàng giữa các hệ thống thông tin khác nhau, đặc biệt qua Internet.

XML, được phát triển bởi W3C, là một chuẩn mở Tài liệu XML bao gồm các thẻ mở và thẻ đóng lồng ghép, với mỗi thẻ chứa các cặp thuộc tính và giá trị.

Khi xét đến tính đúng đắn của một văn bản XML thì có hai mức:

Một văn bản được coi là well-formed khi nó tuân thủ đầy đủ các quy tắc cú pháp của XML Ví dụ, nếu có một thẻ mở mà thiếu thẻ đóng, văn bản đó sẽ không được xem là well-formed Do đó, một văn bản không well-formed sẽ không được công nhận là văn bản XML hợp lệ.

Một văn bản được coi là valid khi nó tuân thủ các quy tắc ngữ nghĩa nhất định, có thể được xác định bởi người dùng hoặc dựa trên XML schema hay DTD (Document Type Definition) Ví dụ, nếu văn bản chứa một phần tử chưa được định nghĩa, nó sẽ không được xem là valid.

XML được chọn làm chuẩn nền tảng cho Semantic Web nhờ vào khả năng mở rộng và tính chính xác của nó Lớp XML giúp tích hợp các định nghĩa của Semantic Web với các chuẩn khác dựa trên XML.

1.3.4 Lớp RDF (Resource Description Framework)

RDF, được phát triển bởi W3C, là một mô hình siêu dữ liệu được thiết kế để mô hình hóa thông tin thông qua nhiều định dạng cú pháp khác nhau.

Một số ứng dụng cơ bản dựa trên Semantic Web

Quản lý tri thức là quá trình và công cụ mà tổ chức sử dụng để thu thập, phân tích, lưu trữ và phổ biến tri thức Để đạt hiệu quả trong việc này, bên cạnh việc triển khai công nghệ và quy trình thương mại, tổ chức cần chú trọng vào việc tối ưu hóa việc sử dụng kinh nghiệm và hiểu biết của nguồn nhân lực.

Ngày nay, quản lý tri thức đã trở thành một hoạt động thiết yếu cho các tổ chức lớn và doanh nghiệp, vì họ xem tri thức nội bộ như một tài sản quý giá Qua đó, tổ chức có thể nâng cao hiệu quả, tạo ra giá trị mới và tăng cường tính cạnh tranh Đặc biệt, quản lý tri thức còn đóng vai trò quan trọng trong các tổ chức quốc tế với các phòng ban phân tán về địa lý.

Mặc dù các luật cơ bản cho quản lý tri thức đã đƣợc thiết lập từ năm 1995

Hiện nay, việc quản lý tri thức vẫn gặp nhiều hạn chế, chủ yếu do phần lớn thông tin hiện có là phi cấu trúc Những hạn chế này thể hiện rõ trong các mục tiêu quản lý tri thức.

Các doanh nghiệp và tổ chức thường sử dụng máy tìm kiếm dựa trên từ khóa để tìm kiếm thông tin, nhưng điều này dẫn đến việc lượng thông tin trả về không phù hợp và người dùng gặp khó khăn trong việc tìm kiếm thông tin cần thiết Những hạn chế của phương pháp tìm kiếm này sẽ được phân tích chi tiết trong chương 2.

Người dùng thường tìm kiếm cách duyệt thông tin đã có để lấy những dữ liệu cần thiết một cách nhanh chóng và hiệu quả Tuy nhiên, hiện tại, các tác tử thông minh chưa đáp ứng được đầy đủ yêu cầu này của người dùng.

Bảo trì thông tin hiện nay đang đối mặt với một số thách thức, bao gồm tính nhất quán trong việc sử dụng các thuật ngữ và rủi ro liên quan đến việc loại bỏ thông tin đã lưu trữ quá lâu.

Để không bỏ sót thông tin, việc trích xuất tri thức mới từ cơ sở dữ liệu là rất quan trọng trong khai phá dữ liệu Tuy nhiên, nhiệm vụ này gặp nhiều khó khăn, đặc biệt với các tập dữ liệu phi cấu trúc và phân tán hiện nay.

Người dùng mong muốn rằng việc hạn chế truy cập thông tin cần được thực hiện cho từng loại dữ liệu cụ thể và nhóm người dùng nhất định Tuy nhiên, việc thiết lập các khung nhìn (view) chỉ được áp dụng trong các cơ sở dữ liệu và gặp khó khăn khi triển khai trên toàn bộ mạng hiện nay.

Semantic Web hứa hẹn sẽ giải quyết những hạn chế hiện tại trong quản lý tri thức Lợi ích lớn nhất của Semantic Web là khả năng cấu trúc hóa dữ liệu, đồng thời hỗ trợ hiệu quả cho các nhiệm vụ quản lý tri thức Với khả năng biểu diễn luật và suy diễn tri thức mới từ dữ liệu hiện có, Semantic Web có tiềm năng tạo ra những bước đột phá cho hệ thống quản lý tri thức Các cải tiến mong đợi cho hệ thống này sẽ được thực hiện nhờ vào Semantic Web.

 Tri thức sẽ đƣợc tổ chức trong các không gian khái niệm theo ý nghĩa của chúng

Các công cụ tự động hỗ trợ bảo trì tri thức bằng cách kiểm tra sự không nhất quán và trích xuất tri thức mới.

Việc tìm kiếm thông tin sẽ chuyển từ phương pháp dựa trên từ khóa sang việc trả lời trực tiếp các câu hỏi của người dùng Các tri thức cần thiết sẽ được thu thập, trích xuất và trình bày một cách dễ hiểu, thân thiện với con người.

 Việc trả lời cho các câu truy vấn trên nhiều tài liệu sẽ đƣợc hỗ trợ

 Việc định nghĩa người dùng nào có thể xem được phần thông tin nào (thậm chí là phần nào của văn bản) sẽ có thể thực hiện đƣợc

Thương mại điện tử là quá trình mua bán sản phẩm và dịch vụ thông qua hệ thống điện tử như Internet Sự phát triển nhanh chóng của thương mại điện tử bắt nguồn từ sự ra đời của Internet, tuy nhiên, vẫn tồn tại những hạn chế và thách thức trong lĩnh vực này Hai hình thức kinh doanh chính trong thương mại điện tử là B2C (Doanh nghiệp đến Người tiêu dùng) và B2B (Doanh nghiệp đến Doanh nghiệp) đang đối mặt với những khó khăn và cơ hội cải tiến từ Semantic Web.

B2C là hình thức thương mại phổ biến trên web, nơi người dùng thường xuyên truy cập các trang bán hàng trực tuyến để tìm kiếm, lựa chọn và đặt hàng sản phẩm.

Người dùng mong muốn có thông tin đầy đủ về giá cả, loại mặt hàng và điều kiện sản phẩm từ tất cả các cửa hàng trực tuyến, nhưng việc duyệt web thủ công tốn quá nhiều thời gian Vì vậy, họ thường chỉ truy cập một vài trang web để đưa ra quyết định Để giải quyết vấn đề này, các công cụ so sánh giá cả đã ra đời, giúp tự động thu thập thông tin về sản phẩm và giá từ nhiều trang khác nhau, cung cấp cái nhìn tổng quan cho người dùng Tuy nhiên, phương pháp này cũng gặp phải một số khó khăn.

Thông tin thu thập từ các trang bán hàng trực tuyến thông qua tìm kiếm từ khóa và phân tích văn bản có thể không đảm bảo độ chính xác, vì mỗi cửa hàng áp dụng quy cách và thuật ngữ riêng Hơn nữa, thời gian cần thiết để các tác vụ phần mềm thu thập thông tin cũng tương đối dài.

Với Semantic Web, một số khó khăn sẽ đƣợc giải quyết:

SƠ LƯỢC VỀ ONTOLOGY

Tổng quan về Ontology

Thuật ngữ “Ontology” đã có từ lâu, được định nghĩa trong cuốn “Siêu hình” của Aristotle là một nhánh của triết học nghiên cứu về sự tồn tại và bản chất của các sự vật trong thực tế Đối tượng nghiên cứu chính của Ontology là phân loại các sự vật dựa trên những đặc điểm bản chất của chúng Đây là một thuật ngữ mượn từ triết học để chỉ khoa học mô tả các loại thực thể trong thế giới thực và mối liên kết giữa chúng.

Trong lĩnh vực khoa học máy tính và quản trị tri thức, ontology đề cập đến các loại vật và mối quan hệ giữa chúng trong một hệ thống hoặc ngữ cảnh cụ thể Những loại vật này thường được gọi là khái niệm, thuật ngữ hoặc từ vựng, và chúng có thể được áp dụng trong các lĩnh vực chuyên môn khác nhau.

Ontology là yếu tố quan trọng trong việc cung cấp ngữ nghĩa cho các tài nguyên của Semantic Web, giúp máy móc hiểu được thông tin Nó bao gồm một bộ từ vựng chung với các khái niệm, thuộc tính quan trọng và định nghĩa liên quan Bên cạnh từ vựng, Ontology còn thiết lập các ràng buộc, thường được xem như giả định cơ sở cho ý nghĩa của từ vựng, nhằm tạo điều kiện cho sự giao tiếp giữa con người và các hệ thống ứng dụng phân tán.

N i dung c a chư ng này sẽ trình bày các vấn ề sau:

 Các thành phần, thu c tính c a Ontology

 Phư ng ph p xây dựng Ontology

 Ngôn ngữ truy vấn SPARQL

Việc sử dụng Ontology để tiếp cận ngữ nghĩa tài nguyên Web mang lại sự linh hoạt cho người dùng, cho phép họ lựa chọn bộ từ vựng và các ràng buộc phù hợp.

Các ứng dụng trong các lĩnh vực khác nhau có thể áp dụng các Ontology khác nhau để xác định ý nghĩa của tài nguyên Web Ontology cho phép mô tả các tài nguyên thông qua việc xác nhận chúng là các trường hợp cụ thể của các khái niệm quan trọng, đồng thời xác định mối quan hệ giữa các tài nguyên thông qua các thuộc tính đã được định nghĩa.

Từ vựng trong một Ontology được thể hiện thông qua các khái niệm và mối quan hệ được định danh, trong đó các định nghĩa khái niệm có thể được diễn đạt bằng những giới thiệu tương đương.

2.1.2 Các thành phần của Ontology

Các ontology hiện tại có nhiều điểm chung về cấu trúc, bất kể ngôn ngữ biểu diễn Chúng thường mô tả các đối tượng (thực thể), lớp (khái niệm), thuộc tính và các mối quan hệ.

Thực thể (instance) là phần cốt lõi của ontology, bao gồm các thực thể cụ thể như con người, động vật, xe cộ, nguyên tử, hành tinh, và trang web, cũng như các đối tượng trừu tượng như con số và từ ngữ.

Lớp là tập hợp các đối tượng, có thể phân loại thực thể và các lớp khác Lớp có thể gộp nhiều lớp hoặc được gộp vào lớp khác, với lớp xếp gộp vào lớp khác gọi là lớp con của lớp gộp Quan hệ xếp gộp tạo ra cấu trúc phân cấp, thường có một lớp tổng quát lớn nhất, dẫn đến tính kế thừa thuộc tính từ lớp cha đến lớp con.

Lớp "Person" bao gồm tất cả con người và các đối tượng trừu tượng có thể được định nghĩa theo tiêu chuẩn của con người Trong lớp này, có các lớp con như "Child", "Man", "Parent", và "Woman".

Trong Ontology, các đối tượng được mô tả thông qua việc khai báo các thuộc tính, mỗi thuộc tính bao gồm tên và giá trị riêng Những thuộc tính này giúp lưu trữ thông tin liên quan đến các đối tượng, phản ánh đặc điểm và thông tin mà chúng sở hữu.

Một cá nhân có thể được mô tả bằng các thuộc tính như họ tên, ngày sinh và số chứng minh nhân dân Giá trị của những thuộc tính này có thể chứa các kiểu dữ liệu phức tạp.

Các thực thể trong một miền ontology có mối quan hệ giúp xác định cách thức liên kết giữa các thực thể với nhau Mối quan hệ này thuộc một loại cụ thể, cho thấy ngữ cảnh mà trong đó thực thể này được kết nối với thực thể khác trong ontology.

Tập hợp các quan hệ mô tả ngữ nghĩa của miền (domain) và các dạng quan hệ được sử dụng (lớp quan hệ) cùng với cây phân loại thứ bậc của chúng thể hiện sức mạnh diễn đạt của ngôn ngữ trong việc biểu diễn Ontology.

Quan hệ "là lớp con của" tạo ra một cấu trúc phân cấp rõ ràng, mô tả cách các đối tượng liên hệ với nhau trong một dạng cấu trúc cây Trong cấu trúc này, mỗi đối tượng là "con" của một "lớp cha", mặc dù một số ngôn ngữ giới hạn quan hệ này trong phạm vi một cha cho mọi nút, nhưng đa số thì không.

Ngôn ngữ truy vấn SPARQL[1]

SPARQL (Ngôn ngữ Truy vấn RDF và Giao thức) được phát triển bởi nhóm RDF Data Access Working Group, thuộc hoạt động của Semantic Web W3C, tổ chức quản lý các tiêu chuẩn của World Wide Web, đã khuyến nghị SPARQL vào năm 2008 Định dạng thông thường của một truy vấn SPARQL là:

PREFIX Chỉ định tên cho một URI

SELECT Trả về tất cả hoặc vài giá trị biến theo mệnh đề WHERE CONSTRUCT Trả về một đồ thị RDF với các biến liên quan

DESCRIBE Trả về một “mô tả” của tài nguyên tìm đƣợc

ASK Trả về kết quả tìm một mẫu đồ thị có hay không

WHERE Danh sách, tức là kết nối các mẫu (đồ thị) truy vấn

OPTIONAL Danh sách, tức là kết quả nối các mẫu (đồ thị truy vấn tùy chọn)

AND Biểu thức logic (để lọc các giá trị)

Câu truy vấn SPARQL-SELECT bao gồm hai mệnh đề chính là mệnh đề SELECT và mệnh đề WHERE, cùng với các thành phần bổ sung khác Mệnh đề SELECT xác định các biến mà ứng dụng cần quan tâm, trong khi mệnh đề WHERE xác định điều kiện để lọc dữ liệu.

Các giá trị được đặt trong dấu „‟ chỉ định một định danh URI Những định danh này có giá trị toàn cục trong ngôn ngữ truy vấn và thường bắt đầu bằng một ký tự đặc biệt.

Ký tự „?‟ thường được sử dụng để chỉ một biến trong hệ thống, cho phép thay thế trong các câu truy vấn, ví dụ như abc và ?abc đều là biến Do các URI thường rất dài, SPARQL cung cấp cơ chế viết tắt bằng cách định nghĩa tiếp đầu ngữ Prefix, giúp tạo ra Qname để rút gọn URI.

Sau đây là một cách viết tắt và một cú pháp truy vấn đơn giản

PREFIX dc:

?ten :name ?ten

Ta có thể sử dụng cơ chế viết tắt nhƣ sau:

PREFIX dc:

Trong truy vấn SPARQL, mẫu đồ thị nhóm được xác định bởi cặp dấu ngoặc nhọn {} Ví dụ, trong truy vấn này, mẫu đồ thị nhóm chỉ bao gồm một mẫu đồ thị cơ sở, trong đó có hai mẫu bộ ba.

PREFIX dc:

Chú ý: Sau mỗi câu lệnh truy vấn thường kết thúc bằng dấu „.‟.

ỨNG DỤNG WEB NGỮ NGHĨA VÀ XÂY DỰNG

Tiêu đề	Tìm Hiểu Web Ngữ Nghĩa Và Xây Dựng Ontology Tìm Kiếm Thông Tin Trên Thư Viện Số
Tác giả	Nguyễn Văn Hùng
Người hướng dẫn	TS. Cao Thanh Sơn
Trường học	Trường Đại Học Vinh
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	Đồ Án Tốt Nghiệp Đại Học
Năm xuất bản	2017
Thành phố	Nghệ An

Định dạng
Số trang	56
Dung lượng	1,14 MB