Dịch cây truy vấn tiếng anh có lượng từ, tính từ và liên từ luận lý sang đồ thị ý niệm

GIỚI THIỆU

Tổng quan

Sự bùng nổ thông tin trên Web đặt ra thách thức cho việc máy tính "hiểu" dữ liệu như con người, nhằm hỗ trợ khai thác thông tin và tự động hóa công việc Mặc dù các hệ thống tìm kiếm như Google và Yahoo rất phổ biến, nhưng kết quả tìm kiếm thường không chính xác và đầy đủ do từ khóa không thể diễn đạt hết ngữ nghĩa của tài liệu Điều này dẫn đến sự ra đời của Web có ngữ nghĩa (Semantic Web), cho phép thông tin được chú thích rõ ràng để con người và máy tính có thể hiểu và làm việc hiệu quả hơn Nhiều nghiên cứu đã hướng tới việc xây dựng hệ thống truy vấn dựa trên nền tảng Web ngữ nghĩa, trong đó người dùng có thể chọn từ mẫu câu truy vấn có sẵn hoặc sử dụng công cụ truy vấn dựa trên đồ thị như Semantic Crystal Một số nghiên cứu khác cho phép người dùng nhập câu truy vấn bằng ngôn ngữ tự nhiên để thực hiện tìm kiếm.

Nghiên cứu về tính khả dụng của các hình thức biểu diễn truy vấn cho thấy rằng truy vấn bằng câu đầy đủ là hình thức hiệu quả nhất, tiếp theo là từ khóa, sau đó là các mẫu câu truy vấn được xây dựng sẵn, và cuối cùng là đồ thị Hệ thống truy vấn hướng tới việc sử dụng câu tự nhiên đầy đủ hoặc đoạn văn có ý nghĩa Các câu truy vấn bằng ngôn ngữ tự nhiên sẽ được chuyển đổi tự động sang đồ thị ý niệm, từ đó được chuyển thành câu truy vấn ngữ nghĩa như SeRQL để thực hiện truy vấn trên Ontology.

Việc chuyển đổi câu truy vấn bằng ngôn ngữ tự nhiên trước đây thường gặp khó khăn do phụ thuộc vào phân tích cú pháp, dẫn đến việc không thể tạo ra đồ thị ý niệm cho các câu không đúng cú pháp Phương pháp này cũng gặp trở ngại khi áp dụng cho các ngôn ngữ khác và không thể chuyển đổi đầy đủ các câu truy vấn bắt đầu bằng từ để hỏi như “who”, “what”, “where” Nghiên cứu trong [18] đã đề xuất một phương pháp mới để chuyển đổi sang đồ thị ý niệm mà không cần phân tích cú pháp, bằng cách kết hợp nhiều yếu tố khác nhau.

Chọn đồ thị ý niệm làm ngôn ngữ đích giúp diễn đạt ý nghĩa một cách chính xác và dễ hiểu Đây là một ngôn ngữ đồ thị với hình thức đồ họa trực quan, cho phép máy tính xử lý thông tin logic, đồng thời thân thiện với người dùng Nó cũng có “ánh xạ mịn” với ngôn ngữ tự nhiên và khả năng chuyển đổi sang các ngôn ngữ hình thức khác.

Dựa vào Ontology để xác định các thực thể trong truy vấn giúp cải thiện khả năng xử lý các câu truy vấn yếu về ngữ pháp Ontology quy định các kiểu quan hệ hợp lệ giữa các loại thực thể, từ đó làm cho phương pháp trở nên mạnh mẽ hơn, không quá phụ thuộc vào vị trí của các quan hệ và thực thể.

Dịch một cách ít phụ thuộc vào cú pháp của câu truy vấn, tập trung vào các thực thể và quan hệ trong câu mà không chú trọng đến vị trí tương quan giữa chúng Phương pháp này giúp giảm thiểu ảnh hưởng của lỗi ngữ pháp trong câu truy vấn.

Phương pháp của tác giả [18] đã giải quyết được các truy vấn yếu cú pháp với cấu trúc đơn giản trong Ontology, nhưng vẫn còn một số hạn chế liên quan đến phương pháp biểu diễn của Ontology Ngôn ngữ truy vấn đồ thị ý niệm (CG) hiện tại vẫn còn đơn giản và chỉ thể hiện các ràng buộc quan hệ cơ bản, không đủ khả năng để xử lý các câu truy vấn phức tạp như “Có bao nhiêu mã bưu chính ở Mỹ?” hay “Ai là người lớn tuổi nhất?”.

U.S president?” Để xử lý nhiều mẫu truy vấn hơn, Ontology cần phải được làm giàu để hỗ trợ các thuộc tính về số lượng và các quan hệ n-ngôi Ngoài ra CG cần được mở rộng với các hàm gộp và các kết nối luận lý Những hạn chế vừa nêu trên chính là những vấn đề mà chúng tôi sẽ lần lượt xem xét và giải quyết trong đề tài này.

Mục tiêu và phạm vi

Theo [16], các cách tiếp cận khác nhau đối với vấn đề dịch các câu truy vấn liên quan đến hai vấn đề sau:

Việc áp dụng phân tích cú pháp chặt thành biểu diễn truy vấn trước khi chuyển đổi sang ngôn ngữ đích có nhiều bất lợi Phương pháp này tốn thời gian và yêu cầu câu nhập phải chính xác về mặt ngữ pháp, điều này làm cho nó không phù hợp với các truy vấn không hình thức Hơn nữa, việc yêu cầu người dùng nhập câu hỏi mà không có lỗi ngữ pháp là không thực tế, và phương pháp này cũng có thể gặp phải vấn đề nhập nhằng cú pháp, khi một câu có thể có nhiều cây cú pháp khả chấp nhận.

Việc sử dụng cơ sở tri thức (KB) trong quá trình dịch là rất quan trọng Chẳng hạn, với câu truy vấn “What county Is Modesto, California in?”, nếu không có cơ sở tri thức, Modesto và California chỉ được đánh thẻ là danh từ, khiến cho mối quan hệ giữa chúng không thể được nhận diện Ngược lại, khi có cơ sở tri thức, Modesto và California có thể được xác định là các thực thể có tên (Named Entity - NE) với kiểu CITY và PROVINCE, từ đó mối quan hệ giữa chúng có thể được dịch chính xác, cho thấy Modesto là một tiểu vùng của California.

Phương thức đề xuất trong bài viết này không dựa vào ngữ pháp chặt chẽ của các câu truy vấn, mà thay vào đó sử dụng Ontology và cơ sở tri thức để thực hiện việc dịch Phương pháp này không chỉ cung cấp tri thức cho các truy vấn trả lời mà còn giúp hiểu rõ ý niệm trước khi ánh xạ chúng vào ngôn ngữ hình thức Đề tài sẽ đưa ra giải pháp dịch câu truy vấn tiếng Anh có lượng từ, tính từ, và liên từ logic sang đồ thị ý niệm Yêu cầu của phương pháp là phải mạnh mẽ đối với các câu truy vấn yếu văn phạm, khai thác tri thức từ Ontology để tìm kiếm ngữ nghĩa và sử dụng đồ thị ý niệm làm ngôn ngữ đích cho việc dịch Đây là một trong những yêu cầu cần thiết để mở rộng những hạn chế trong kết quả nghiên cứu Bài viết sẽ mở rộng khả năng chuyển đổi các câu truy vấn được phân loại sang đồ thị ý niệm.

 Các câu truy vấn bắt đầu bằng từ để hỏi “How many”, ví dụ như: “ How many passengers will the Boeing 777 carry?”

 Các câu truy vấn có tính từ, ví dụ như “What is the average weight of a Yellow

Labrador?”, “What chanel creation is the top-selling fragrance in the world?”

 Các câu truy vấn có tính từ so sánh nhất, ví dụ như “What is the longest word in the

English language?”, “What is the oldest university in the US?”

 Các câu truy vấn có liên từ luận lý, ví dụ như: “Who was biographer and Samuel

Các quan hệ với số ngôi nhiều hơn hai cần được mở rộng trong nghiên cứu Chẳng hạn, trong câu truy vấn “How long did he serve in this position?”, từ “serve” thể hiện quan hệ ba ngôi giữa “he”, “position” và số năm được hỏi Mối quan hệ ba ngôi này có thể được biểu diễn rõ ràng để nâng cao độ chính xác của kết quả nghiên cứu.

Trong Ontology và KB, như RDF và OWL, chỉ hỗ trợ các quan hệ hai ngôi Để thể hiện quan hệ n-ngôi, cần định nghĩa một kiểu quan hệ cụ thể hóa Điều này yêu cầu phân rã quan hệ thành một kiểu thực thể với n quan hệ hai ngôi Câu truy vấn này có thể được biểu diễn bằng câu truy vấn CG.

[PERSON: *]←(SUBJECT)←[HODL POS:*]→(OBJECT)→[POS: *]

Để biểu diễn mối quan hệ n-ngôi, điều quan trọng là xác định xem mối quan hệ trong câu truy vấn đã được cụ thể hóa hay chưa Nếu chưa, cần mở rộng Ontology để phân rã quan hệ này thành n quan hệ hai ngôi Khi phân rã một quan hệ, các quan hệ tương đương cũng cần được điều chỉnh để đảm bảo tính nhất quán trong biểu diễn ngôn ngữ tự nhiên Điều này có nghĩa là hai câu có quan hệ tương đương phải được biểu diễn theo cách nhất quán, không thể một câu sử dụng quan hệ n-ngôi trong khi câu kia dùng n quan hệ hai ngôi Mức độ cụ thể hóa quan hệ phụ thuộc vào “độ mịn” mà Ontology muốn phản ánh.

Giải quyết quan hệ n-ngôi liên quan đến việc mở rộng Ontology để phân rã các quan hệ này, đòi hỏi quyết định chính xác về "độ mịn" mà Ontology muốn phản ánh Mục tiêu chính là mở rộng Ontology, tuy nhiên, chúng tôi sẽ không giải quyết vấn đề này trong bài viết để tập trung vào việc dịch câu truy vấn tiếng Anh sang đồ thị ý niệm Đề tài này mở rộng nghiên cứu của tác giả Cao Duy Trường, vẫn sử dụng công cụ GATE để nhận diện thực thể có tên dựa trên Ontology, và giả định quá trình nhận diện là hoàn toàn chính xác trong phạm vi nghiên cứu.

Cấu trúc luận văn

Chương 1 đã trình bày khái quát động cơ, mục đích, ý tưởng thực hiện đề tài Tiếp theo sau Chương 1 là phần trình bày chi tiết về ý tưởng và phương pháp của chúng tôi để đạt được mục đích đã đề ra

Chương 2 trình bày những nghiêu cứu và hệ thống liên quan đến việc chuyển đổi câu truy vấn tiếng Anh sang đồ thị ý niệm Mục 2.1 trình bày phương pháp rút trích quan hệ trong câu truy vấn

Sơ lược giới thiệu về đồ thị ý niệm được trình bày ở Mục 2.2

Chương 3 trình bày cách tiếp cận vấn đề với việc giải quyết câu truy vấn hỏi về số lượng được trình bày tại Mục 3.1, giải quyết cho câu truy vấn có chứa tính từ được trình bày tại Mục 3.2, giải quyết cho câu truy vấn có chứa tính từ so sánh nhất được trình bày tại Mục 3.3 và giải quyết cho câu truy vấn có chứa liên từ luận lý sẽ được trình bày tại Mục 3.4

Chương 4 trình bày phương pháp biên dịch câu truy vấn tiếng Anh sang đồ thị ý niệm Mục 4.1 sẽ mô tả các bước trong giải thuật xây dựng đồ thị ý niệm cho câu truy vấn Mục 4.2 trình bày chi tiết về tập luật ánh xạ Những kết quả đạt được của đề tài sẽ được tổng kết tại Mục 4.3

Chương 5 trình bày chi tiết phương pháp lưu trữ và hiển thị đồ thị ý niệm

Chương 6 đưa ra kết luận và đề nghị hướng phát triển cho tương lai Phần phụ lục giới thiệu tập câu hỏi mẫu TREC 2002, TREC 2007 cùng các đồ thị ý niệm đã được giải quyết thêm sau khi áp dụng phương pháp đề nghị của đề tài cho những câu truy vấn rút ra từ hai tập câu hỏi mẫu này.

CÁC NGHIÊN CỨU VÀ HỆ THỐNG LIÊN QUAN

Rút trích quan hệ

Rút trích quan hệ là quá trình xác định mối quan hệ ngữ nghĩa giữa các thành phần không có cấu trúc trong văn bản tự nhiên, dựa vào Ontology Công việc này bao gồm hai nhiệm vụ chính: xác định mối quan hệ giữa các thành phần đã biết và khám phá các mối quan hệ mới giữa các ý niệm chưa có trong Ontology Ví dụ, trong câu “Bill Gates is chairman and chief software architect of Microsoft Corporation”, tồn tại mối quan hệ EMPLOYMENT.exec giữa “Bill Gates” (thuộc lớp PERSON.Name) và “Microsoft Corporation” (thuộc lớp ORGANIZATION.Commercial) Có nhiều kỹ thuật rút trích quan hệ, bao gồm phương pháp dựa trên luật, dựa trên đặc điểm và phương pháp kernel.

Các phương pháp dựa trên luật áp dụng quy tắc ngôn ngữ để nhận diện các mẫu quan hệ khác nhau Hệ thống [8] thực hiện việc rút trích quan hệ thông qua quá trình phân tích cú pháp, do đó kết quả hoàn toàn phụ thuộc vào cấu trúc cây cú pháp.

Các phương pháp rút trích dựa trên đặc điểm sử dụng các yếu tố ngôn ngữ như từ vựng, cú pháp và ngữ nghĩa để thực hiện rút trích quan hệ hiệu quả Tuy nhiên, một vấn đề lớn là các đặc điểm này cần được mô tả thủ công, dẫn đến việc cấu trúc thông tin trong cây cú pháp không được bảo toàn trong cây đặc điểm, vốn biểu diễn các đường nối không kết thúc giữa hai thực thể.

Các phương pháp dựa trên kernel tập trung vào việc sử dụng các cây kernel riêng lẻ để khai thác đặc điểm cấu trúc Hệ thống này xây dựng một quan hệ kernel trên cây cú pháp nhằm rút trích quan hệ, với kernel so trùng các node từ gốc đến lá một cách đệ quy theo từng lớp từ trên xuống.

Các nghiên cứu hiện tại chủ yếu tập trung vào việc rút trích quan hệ giữa các thực thể đã được xác định Để xây dựng đồ thị ý niệm một cách toàn diện, cần phải mở rộng việc rút trích quan hệ không chỉ giữa các thực thể có tên mà còn giữa các thực thể không tên, cũng như giữa các thực thể có tên và thực thể không tên.

Sơ lược về đồ thị ý niệm

Đồ thị ý niệm là hệ thống logic dựa trên đồ thị của Charles Sanders Peirce và mạng ngữ nghĩa trong trí tuệ nhân tạo, kết hợp giữa sự tiện lợi của ngôn ngữ đồ thị và sức mạnh của logic Chúng biểu diễn ngữ nghĩa theo hình thức logic chính xác, dễ đọc và xử lý cho con người Đồ thị ý niệm hoạt động như một ngôn ngữ trung gian, giúp chuyển đổi giữa biểu diễn máy tính và ngôn ngữ tự nhiên Với những đặc điểm này, đồ thị ý niệm được ứng dụng rộng rãi trong nhiều lĩnh vực như xử lý ngôn ngữ tự nhiên, quản lý kiến thức, thiết kế cơ sở dữ liệu và hệ thống thông tin Tim Berners Lee, người sáng lập WWW, khẳng định rằng đồ thị ý niệm có thể tích hợp dễ dàng với Semantic Web, và có mối liên hệ chặt chẽ giữa đồ thị ý niệm và ngôn ngữ RDF.

Trong bài báo đầu tiên về đồ thị ý niệm, Sowa đã định nghĩa nó là một đồ thị hữu hạn, liên thông, không có hướng và lưỡng phân Đồ thị này bao gồm các nút thuộc loại ý niệm (hay khái niệm) và các nút thuộc loại quan hệ khái niệm.

Đồ thị ý niệm là một cấu trúc đồ thị phân đôi gồm hai loại đỉnh: đỉnh khái niệm và đỉnh quan hệ, với các đỉnh khái niệm chỉ liên kết với đỉnh quan hệ qua các cạnh Tri thức trong đồ thị này được tổ chức dựa trên hai dàn phân cấp về kiểu khái niệm và kiểu quan hệ Sự kết hợp giữa các khái niệm và quan hệ giúp mô hình đồ thị ý niệm trở thành công cụ biểu diễn tri thức một cách trực quan và thân thiện với người dùng.

Trong đồ thị ý niệm, đỉnh khái niệm được thể hiện bằng hình chữ nhật có nhãn là kiểu khái niệm kết hợp với tham chiếu, trong khi đỉnh quan hệ được biểu diễn bằng hình oval với nhãn là kiểu quan hệ Mỗi đỉnh quan hệ có khả năng liên kết với nhiều đỉnh khái niệm, với thứ tự được xác định bởi các nhãn của cạnh Để đơn giản, chúng ta có thể gọi đỉnh quan hệ là quan hệ và đỉnh khái niệm là khái niệm.

Hình 2.1: Ví dụ về đồ thị ý niệm

Hình 2.1 là đồ thị ý niệm cho câu “Nam là một giáo viên Bách Khoa là một trường đại học

Trường Đại học Bách Khoa có nhiều khoa Nam làm việc tại một khoa nào đó.” hoặc ngắn gọn,

Nam làm việc tại một khoa của trường Đại học Bách Khoa, nơi mà anh tham gia vào các hoạt động nghiên cứu và giảng dạy, góp phần phát triển kiến thức cho sinh viên.

[GIÁO VIÊN: Nam]→(LÀM VIỆC TẠI)→[KHOA:*]→(THUỘC)→[TRƯỜNG: Bách Khoa] Ở đây, để đơn giản, các nhãn của các cạnh không được thể hiện

Trong ví dụ này, các khái niệm như [GIÁO VIÊN: Nam], [KHOA:*], và [TRƯỜNG: Bách Khoa] thể hiện các kiểu khái niệm, trong đó (LÀM VIỆC TẠI) và (THUỘC) là các kiểu quan hệ Tham chiếu Nam và Bách Khoa là các tham chiếu xác định, trong khi tham chiếu “*” của [KHOA:*] là tham chiếu tổng quát, ám chỉ đến một thực thể không xác định Đồ thị ý niệm không chỉ bao gồm tham chiếu xác định và tổng quát, mà còn có tham chiếu nghi vấn, được thể hiện bằng dấu “?” Tham chiếu nghi vấn này đại diện cho thực thể được truy vấn trong câu.

2.2.1 Đồ thị ý niệm mở rộng

Trong nghiên cứu này, tác giả đã giải quyết vấn đề sử dụng các cấu trúc đồ thị (CG) cho các truy vấn cơ sở dữ liệu quan hệ bằng cách mở rộng các đồ thị ý niệm đơn, cho phép lồng nhau các đỉnh Tác giả mô tả các đồ thị hoặc phần của chúng thông qua các đỉnh, trong đó một đỉnh được gọi là HA.

Hypostatic abstraction chỉ xảy ra khi nó chứa các đồ thị khác Trong đồ thị mở rộng, các đỉnh đơn biểu diễn các đối tượng nền và kiểu của chúng, tức là các khái niệm Một HA h đại diện cho một quan hệ, được mô tả bởi đồ thị con liên quan Tác giả đã áp dụng các HA này để xác định tầm vực chịu ảnh hưởng của tác vụ gộp trong câu truy vấn SQL, trong đó các tiêu chí và điều kiện mà người dùng cần đưa vào được coi là thuộc tính của HA.

Khi người dùng nhập vào giá trị x trong câu truy vấn “Tìm tuổi trung bình của những người có họ là x”, kết quả sẽ được biểu diễn thành CG như minh họa trong Hình 2.2.

Để hỗ trợ việc biểu diễn các câu truy vấn lồng nhau, tác giả [5] đã đề xuất xem các câu truy vấn con như một khái niệm đặc biệt với kiểu khái niệm riêng, tham chiếu đến nội dung của chính nó Các câu truy vấn con được coi là đỉnh khái niệm đặc biệt, được biểu diễn khác biệt để phân biệt với các khái niệm khác, gọi là đỉnh truy vấn con Đỉnh truy vấn con được thể hiện bằng hình chữ nhật tròn góc, bên trong chứa nội dung của đồ thị ý niệm truy vấn tri thức Ví dụ, câu truy vấn lồng nhau có thể là: “Tìm tên của những giảng viên có tên trùng với tên của những giảng viên tại trường Đại học Bách Khoa”.

Câu truy vấn này sẽ được biểu diễn như Hình 2.3

Hình 2.3: Ví dụ về biểu diễn câu truy vấn lồng nhau sử dụng đỉnh truy vấn con

Trong nghiên cứu của chúng tôi, đỉnh truy vấn con đóng vai trò quan trọng và được áp dụng chủ yếu trong các phương pháp đề xuất sẽ được thảo luận trong các phần sau.

2.2.2 Các phương pháp chuyển đổi câu truy vấn sang đồ thị ý niệm

Bài toán chuyển đổi câu truy vấn sang đồ thị ý niệm đã được nhiều tác giả nghiên cứu Một phương pháp được đề xuất là phân tích câu truy vấn bằng văn phạm liên kết kết hợp với học máy để ánh xạ thành đồ thị ý niệm Hệ thống khác sử dụng phương pháp ánh xạ cây cú pháp thành đồ thị ý niệm cú pháp, sau đó chuyển đổi thành đồ thị ý niệm thực thông qua luật ánh xạ Một nghiên cứu khác dựa vào VerbNet và WordNet để xác định vai trò ngữ nghĩa của động từ, từ đó xây dựng đồ thị ý niệm Các phương pháp này chủ yếu tập trung vào việc chuyển đổi câu trong văn bản thô sang đồ thị ý niệm, nhận diện khái niệm qua phân tích từ loại và quan hệ qua phương pháp văn phạm Tuy nhiên, nhược điểm lớn của các phương pháp này là không hiệu quả với các truy vấn không hình thức và không thực tế khi yêu cầu người dùng nhập câu hỏi mà không có sai sót ngữ pháp, đồng thời có thể gặp vấn đề nhập nhằng cú pháp với nhiều cây cú pháp khả thi.

Hiện nay, có nhiều cách tiếp cận trong việc sử dụng ngôn ngữ tự nhiên cho các hệ thống trả lời câu hỏi Một ví dụ là hệ thống tìm kiếm dựa trên Ontology, nơi câu truy vấn được chuyển đổi thành danh sách các lớp và instance, từ đó dịch thành các thể hiện của SeRQL Mặc dù phương pháp này hiệu quả hơn so với danh sách từ khóa thông thường, nhưng vẫn chưa đạt được tính tự nhiên như cách con người giao tiếp Đối với các truy vấn ngôn ngữ tự nhiên, một nghiên cứu đã áp dụng phương pháp phân tích chặt với tính toán lambda như một ngôn ngữ hình thức trung gian Tuy nhiên, mục tiêu chính của nghiên cứu này là phát triển giao diện hiệu quả giữa các lĩnh vực khác nhau, thay vì chỉ tập trung vào việc dịch ngôn ngữ.

Phương pháp tiếp cận trong [7] gần gũi với tự do cú pháp, sử dụng việc so sánh mẫu các truy vấn tự nhiên thành bộ ba S-Property-O trong cơ sở tri thức, trước khi chuyển đổi truy vấn thành SPARQL Ví dụ, với câu truy vấn “What is a restaurant in San Francisco that serves good French food?”, hệ thống sẽ tìm kiếm các bộ ba có S, Property, O tương ứng với “restaurant”, “in”, “San Francisco” Do đó, nếu cơ sở tri thức không chứa các bộ ba liên quan đến thực thể “San Francisco”, phương pháp này sẽ không trả về kết quả dịch mặc dù thực thể đó tồn tại trong KB.

Một nghiên cứu gần đây đã phát triển một phương pháp chuyển đổi truy vấn ngôn ngữ tự nhiên thành các biểu thức SeRQL, dựa trên cách tiếp cận ít phụ thuộc cú pháp Phương pháp này kết hợp công nghệ nhận dạng thực thể của GATE và Ontology PROTON của KIM, mở rộng thêm với nhiều loại thực thể và kiểu quan hệ khác nhau Tuy nhiên, nó chỉ được kiểm tra trên 36 câu hỏi do tác giả tự sưu tầm Ngược lại, phương pháp đề xuất trong nghiên cứu này sử dụng lược đồ trạng thái như một ngôn ngữ dịch và đã được kiểm tra trên tập dữ liệu TREC 2002 và TREC.

2007 với hàng trăm câu hỏi khác nhau.

PHƯƠNG PHÁP TIẾP CẬN

Chuyển đổi câu truy vấn với từ để hỏi “How many”

Về cơ bản, chúng tôi thấy rằng việc biểu diễn các câu truy vấn hỏi về số lượng (Có từ hỏi là

“How many”) bằng đồ thị ý niệm đòi hỏi phải giải quyết được hai vấn đề sau:

 Thứ nhất, ta phải biểu diễn được phạm vi mà câu truy vấn muốn đề cập

Để đáp ứng yêu cầu của câu truy vấn, chúng ta cần biểu diễn rõ ràng đối tượng hoặc thuộc tính mà câu hỏi đề cập Chẳng hạn, trong ví dụ ở Hình 2.2, nếu đối tượng PERSON có thêm thuộc tính về lương (salary), việc biểu diễn như vậy sẽ gây khó khăn trong việc xác định liệu câu truy vấn đang hỏi về độ tuổi trung bình hay độ lương trung bình.

Trong giải pháp đề xuất, chúng tôi áp dụng đồ thị lồng nhau (nested CG) bằng cách sử dụng đỉnh truy vấn con để giải quyết vấn đề biểu diễn phạm vi mà câu truy vấn muốn bao phủ, cùng với liên kết đồng tham chiếu để thể hiện đối tượng mà câu truy vấn đề cập.

Với giải pháp đề nghị, câu truy vấn “How many students are there in Computer Science

Department?” sẽ được biểu diễn như Hình 3.1

Để biểu diễn câu truy vấn "How many" một cách ngắn gọn, chúng tôi định nghĩa một đường liên kết mới thay thế cho đường liên kết đồng tham chiếu Trong tài liệu này, chúng tôi đề xuất sử dụng đường liên kết nét đôi để biểu diễn đối tượng mà câu truy vấn muốn đề cập.

Hình 3.2: Ví dụ về biểu diễn câu truy vấn "How many" ở dạng rút gọn

Giải pháp đề xuất cho việc xử lý câu truy vấn có từ để hỏi "How many" bao gồm cấu trúc: RW (từ quan hệ) + S (chủ thể) + O (khách thể).

Để thực hiện truy vấn "How many", trước tiên chúng ta xây dựng đỉnh truy vấn con để biểu diễn câu S RW O Tiếp theo, chúng ta định nghĩa quan hệ COUNT gắn với đỉnh truy vấn con đó Một đường liên kết nét đôi sẽ được nối từ quan hệ COUNT tới đỉnh khái niệm S trong đỉnh truy vấn con, tạo ra biểu diễn tổng quát cho mẫu truy vấn này.

Hình 3.3: Ví dụ về biểu diễn tổng quát cho câu truy vấn "How many".

Chuyển đổi câu truy vấn có tính từ

Trong nghiên cứu [16], tác giả đề xuất một giải pháp nhằm giải quyết vấn đề biểu diễn tính từ của thực thể Cụ thể, để trả lời câu hỏi “Người mẫu nổi tiếng nào đã kết hôn với Billy Joel?”, hệ thống Ontology cần có khả năng thể hiện thuộc tính "nổi tiếng" của các người mẫu.

Giải pháp 1: Định nghĩa lớp FAMOUSMODEL, nhằm phân loại các người mẫu nổi tiếng Lớp này sẽ tạo ra nhiều lớp con cho các mức độ khác nhau của thang đo độ nổi tiếng, giúp quản lý và phân tích hiệu quả hơn.

Giải pháp thứ hai định nghĩa kiểu quan hệ FAMEPROPERTY với miền lớp là MODEL và range lớp là STRING, nhưng điều này gây ra vấn đề trùng lặp giá trị String So với giải pháp đầu tiên, phương pháp này dẫn đến việc phải định nghĩa một số lượng lớp mới rất lớn Một vấn đề quan trọng nảy sinh là việc thiết lập các thang đo để định lượng các tính từ, điều này chỉ khả thi trong một số trường hợp, chẳng hạn như đối với tính từ "tall".

Một ngôi nhà được coi là "cao" khi chiều cao của nó vượt quá 100m Tuy nhiên, có những tính từ như "tốt" mà con người khó có thể định lượng một cách chính xác.

“famous”… thì việc định nghĩa một thang đo cho những tính từ như vậy sẽ gặp nhiều khó khăn

Các tác giả trong [10], [11] nhấn mạnh rằng ý nghĩa của các tính từ phụ thuộc vào ngữ cảnh Chẳng hạn, câu “Peter is tall for a gymnast” cho thấy Peter chỉ được coi là cao khi so với các vận động viên thể dục, nhưng không nhất thiết đúng khi so với người bình thường Từ đó, họ đề xuất khái niệm hóa các tính từ qua phương pháp động, xây dựng các lớp so sánh để thể hiện ngữ cảnh và tạo ra các quan hệ nhằm biểu diễn độ tương quan về tính chất so với lớp so sánh đó.

Giải pháp thứ hai cho việc biểu diễn các tính từ một cách linh hoạt hơn có thể giải quyết vấn đề trùng lặp giá trị String thông qua việc sử dụng từ điển đồng nghĩa như WordNet Tuy nhiên, hạn chế của phương pháp này là ý nghĩa của các tính từ chỉ có thể được hiểu bởi con người, trong khi máy tính không thể suy luận từ cách biểu diễn này Chẳng hạn, với câu hỏi như “Một ngôi nhà có cao không khi chiều cao của nó lớn hơn 100m?”, máy sẽ không đủ khả năng để đưa ra câu trả lời chính xác.

Sau khi phân tích, chúng tôi nhận thấy mỗi giải pháp đều có những ưu điểm và nhược điểm riêng, khiến việc xác định giải pháp nào tốt hơn trở nên khó khăn Vì vậy, trong tài liệu này, chúng tôi đề xuất cả hai giải pháp để thể hiện các tính từ mô tả tính chất và thuộc tính của thực thể, sẽ được trình bày ngay sau đây.

Mẫu câu chứa các tính từ chỉ tính chất, thuộc tính của thực thể sẽ có dạng sau, với S là chủ thể, ADJ là tính từ, O là khách thể:

Phương pháp đề xuất cho mẫu câu truy vấn dạng này theo “Giải pháp 1” là sử dụng quan hệ HASPROPERTY gắn với thực thể ngay sau tính từ (ADJ), với phạm vi lớp là STRING Các mẫu truy vấn sẽ được biểu diễn như sau:

Phương pháp đề xuất cho mẫu câu truy vấn dạng này theo “Giải pháp 2” là xác định lớp con của thực thể ngay sau tính từ (ADJ) mà có tính chất phù hợp với ADJ theo một tiêu chí nhất định Các mẫu truy vấn sẽ được biểu diễn như sau:

Trong nghiên cứu này, chúng tôi áp dụng hai phương pháp khác nhau: “Giải pháp 1” được sử dụng để biểu diễn các tính từ định lượng như "cao" và "thấp", trong khi “Giải pháp 2” được áp dụng cho các tính từ định tính như "nổi tiếng" và "tốt".

The query "What famous model was married to Billy Joel" is represented in the ontology as shown in Figure 3.4, where the class FAMOUS_MODEL is a subclass of the class MODEL.

Hình 3.4: Ví dụ về biểu diễn tính từ định tính

Câu truy vấn với tính từ định lượng “How tall is Billy Joel” sẽ được biểu diễn tương ứng như Hình 3.5

Hình 3.5: Ví dụ về biểu diễn tính từ định lượng.

Chuyển đổi câu truy vấn có tính từ so sánh nhất

Đề tài này khám phá việc sử dụng đồng thời hai phương pháp để biểu diễn tính từ, với lựa chọn phương pháp phụ thuộc vào loại tính từ so sánh nhất, bao gồm định tính và định lượng Đối với tính từ so sánh nhất thuộc loại định lượng như "tallest" hay "highest", cách giải quyết câu truy vấn tương tự như với các câu hỏi "How many", bằng cách thay thế quan hệ COUNT bằng MIN hoặc MAX, và liên kết sẽ chỉ đến tính từ định lượng mà câu truy vấn đề cập.

Chúng tôi đề xuất giải pháp cho câu truy vấn tổng quát với các trường hợp như sau: ADJ_EST là cụm tính từ so sánh nhất, bao gồm các dạng như most adj, least adj, và adjEST.

Đầu tiên, chúng ta sẽ xem xét câu S RW O mà không có ADJ_EST và biểu diễn nó thành một đỉnh truy vấn con Tiếp theo, trong đỉnh truy vấn con này, chúng ta sẽ chuyển đổi tính từ của ADJ_EST về dạng nguyên mẫu theo phương pháp đã trình bày trong Mục 3.1.2 của Chương 3.

Nhiệm vụ cuối cùng là xác định quan hệ MIN và MAX chỉ đến đỉnh của truy vấn con, với một đường liên kết nét đôi được vẽ từ quan hệ MIN, MAX đến biểu diễn tính từ nằm trong đỉnh truy vấn con.

Ví dụ câu truy vấn “What is the highest dam in the U.S.?” sẽ được biểu diễn như Hình 3.6:

Hình 3.6 minh họa cách biểu diễn câu truy vấn với tính từ so sánh nhất định lượng Đối với tính từ so sánh nhất thuộc loại định tính, phương pháp xử lý tương tự như trường hợp biểu diễn tính từ định lượng đã được trình bày trong Mục 3.2, Chương 3.

“What the most famous model was married to Billy Joel?” sẽ được biểu diễn như Hình 3.7 với lớp MOST_FAMOUS_MODEL là lớp con của lớp MODEL

Hình 3.7: Ví dụ về biểu diễn câu truy vấn có tính từ so sánh nhất định tính.

Chuyển đổi câu truy vấn có liên từ luận lý

Đối với liên từ luận lý AND, OR, NOT, chúng tôi áp dụng kết quả hướng tiếp cận của tác giả Võ

Hoàng Hải [5] đã áp dụng đỉnh truy vấn con và kết hợp với việc định nghĩa các quan hệ mới như INTERSECT, UNION, MINUS nhằm tạo ra sự kết nối giữa các đỉnh truy vấn con này.

Ví dụ, câu truy vấn “Who was biographer or Samuel Johnsons's friend?” sẽ được biểu diễn thành đồ thị ý niệm như Hình 3.8

Hình 3.8: Ví dụ về biểu diễn câu truy vấn có liên từ luận lý

Giải pháp đề xuất dựa trên phương pháp chuyển đổi câu truy vấn có cấu trúc song song của tác giả Trần Liên Thắng, được mở rộng và bổ sung thêm hai liên từ luận lý.

Câu truy vấn sử dụng các liên từ OR và NOT thường có cấu trúc song song, trong đó S là chủ thể và O là khách thể, với RW là từ quan hệ Những câu truy vấn này giúp tối ưu hóa tìm kiếm và nâng cao hiệu quả trong việc thu thập thông tin.

 Trường hợp 1: S RW 1 O 1 ([AND/OR/NOT] RW 2 O 2 )*

 Trường hợp 2: S RW1 O1 ([AND/OR/NOT] S RW2 O2)*

 Trường hợp 3: S 1 [AND/OR/NOT] S 2 RW O

Trong trường hợp 4, câu truy vấn S RW1 O1 [AND/OR/NOT] O2 có thể được tách thành hai câu riêng biệt S1 RW O và S2 RW O, với quan hệ giữa các đỉnh truy vấn con là INTERSECT, UNION hoặc MINUS tương ứng với các liên từ luận lý AND, OR, NOT Tương tự như trường hợp 3, ta tách ra thành hai câu S RW O1 và S RW O2 Trường hợp 1 và 2 có cấu trúc tương đối giống nhau, với trường hợp 2 lặp lại chủ ngữ, trong khi trường hợp 1 thì không Do đó, chúng ta sẽ tập trung vào việc giải quyết trường hợp 1 và 2, trong đó từ quan hệ RW2 sẽ liên kết với thực thể S ở đầu Quá trình xác định mối liên kết này đã được thực hiện trong bước phân rã câu truy vấn Để giải quyết cấu trúc song song, chỉ cần thêm một số quy tắc phân rã cho câu truy vấn: nếu từ quan hệ đứng ngay sau liên từ AND, OR, NOT, thì sẽ gắn nó vào chủ thể của từ quan hệ phía trước AND.

PHƯƠNG PHÁP BIÊN DỊCH

Các bước của giải thuật

Nghiên cứu của tác giả [18] đã đề xuất một phương pháp chuyển đổi câu truy vấn thành đồ thị ý niệm mà không cần phân tích cú pháp, tập trung vào các thực thể và mối quan hệ giữa chúng Phương pháp này mang lại nhiều ưu điểm đáng chú ý.

Có thể tạo đồ thị ý niệm cho các truy vấn dưới dạng câu đầy đủ hoặc đoạn văn Phương pháp này cũng cho phép xây dựng đồ thị ý niệm cho các truy vấn không đúng cú pháp.

 Dễ dàng chuyển đổi để thực hiện cho các câu truy vấn bằng các ngôn ngữ khác nhau khi có một Ontology tương ứng

 Mặc khác phương pháp này cũng rút ngắn thời gian so với phương pháp phân tích cú pháp câu truy vấn

Quá trình chuyển đổi câu truy vấn sang đồ thị ý niệm bao gồm việc xác định các thực thể trong câu và thiết lập mối quan hệ giữa chúng dựa trên Ontology.

Peter là một thực thể thuộc lớp PERSON, trong khi con trai của Peter được biểu diễn bởi một thực thể thuộc lớp SON Mối quan hệ giữa hai thực thể này trong Ontology được thể hiện qua quan hệ .

Trong đề tài này, chương trình đã kế thừa hạt nhân xử lý từ nghiên cứu của tác giả [18] và điều chỉnh để giải quyết các truy vấn liên quan đến số lượng, tính từ, tính từ so sánh nhất và liên từ luận lý Hình 4.1 trình bày lược đồ tổng quát với các bổ sung cần thiết Đặc biệt, để xử lý truy vấn về số lượng (“How many”), phương pháp tiếp cận đã được hiệu chỉnh tại Bước.

Để giải quyết các truy vấn có chứa tính từ và tính từ so sánh nhất, phương pháp tiếp cận đã bổ sung Bước 4 (Nhận diện tính từ) và Bước 11 (Xác định quan hệ giữa tính từ và thực thể), đồng thời điều chỉnh Bước 12 (Xây dựng đồ thị ý niệm) Đối với các truy vấn chứa liên từ luận lý, phương pháp cũng đã thêm Bước 1 (Phân tách câu truy vấn) và điều chỉnh Bước 12 (Xây dựng đồ thị ý niệm).

Hình 4.1: Mô tả các bước dùng để xây dựng đồ thị ý niệm cho câu truy vấn

Tiếp theo đây, chúng ta sẽ đi vào chi tiết từng bước của giải thuật

4.1.1 Phân tách câu truy vấn

Bước này nhằm phân tách các câu truy vấn chứa liên từ luận lý AND, OR, NOT thành các câu truy vấn nguyên tử, tức là những truy vấn không có liên từ luận lý Như đã phân tích trong Mục 3.1.4, Chương 3, các câu truy vấn này có cấu trúc song song Quá trình phân tách sử dụng các liên từ luận lý làm từ phân tách, từ đó tạo ra một tập hợp các câu truy vấn nguyên tử.

4.1.2 Nhận biết thực thể có tên Đề tài sử dụng GATE để nhận diện thực thể có tên dựa trên Ontology PROTON Các thực thể có tên là các thực thể xác định Trên Ontology, các thực thể có tên sẽ có một ID xác định, thuộc về một lớp xác định, có thông tin về thuộc tính và quan hệ của chúng với các thực thể khác Ví dụ trên PROTON, http://www.ontotext.com/kim/2005/04/wkb#Country là lớp của thực thể “Viet Nam” và thực thể có tên này có ID xác định là http://www.ontotext.com/kim/2005/04/wkb#Country_T.VM

Quá trình chú thích ngữ nghĩa bằng GATE tạo ra một tập hợp các thực thể có tên (IE), bao gồm thông tin về lớp ID, lớp và các thuộc tính cũng như mối quan hệ của các thực thể này.

4.1.3 Nhận biết thực thể không tên Để xây dựng được đồ thị ý niệm, ngoài việc nhận diện các thực thể có tên, các thực thể không tên cũng phải được nhận diện một cách đầy đủ và chính xác Các thực thể không tên là các thực thể không xác định và không tồn tại trên Ontology, tuy nhiên về mặt ngữ nghĩa, chúng có thể thuộc về một lớp xác định nào đó trong Ontology, ví dụ các từ “person”, “son”, “father”, “mother”,… là các thực thể không tên, và trên PROTON, http://www.ontotext.com/kim/2005/04/wkb#Person là lớp biểu diễn cho các thực thể không tên này

Công cụ ANNIE trong GATE cho phép nhận dạng chính xác các thực thể không tên ANNIE hỗ trợ toàn bộ quy trình tìm kiếm, từ việc xây dựng danh sách tên các lớp trong Ontology cho đến việc lưu trữ vào một tập tin Sau đó, người dùng cần định nghĩa tên tập tin này trong tập tin chỉ mục lists.def trong thư mục Gazetteer.

Annie tập trung vào việc nghiên cứu các thực thể không tên, được ký hiệu là UE, cùng với thông tin liên quan đến lớp của những thực thể này.

Bước này nhận biết các tính từ trong câu truy vấn Các tính từ được chia làm 3 loại:

 Tính từ định tính: famous, beautiful, …

 Tính từ định lượng: tall, hight, …

 Tính từ so sánh nhất: smallest, longest, …

Công cụ ANNIE của GATE hỗ trợ việc nhận diện tính từ, tuy nhiên, để đạt hiệu quả cao, cần xây dựng danh sách từ điển bao gồm các tính từ định lượng, tính từ định tính và tính từ so sánh nhất, sau đó ánh xạ chúng vào Gazetteer.

4.1.5 Nhận biết từ quan hệ

Các từ quan hệ đóng vai trò quan trọng trong việc xác định mối quan hệ giữa các thực thể trong câu truy vấn Chúng bao gồm các giới từ và động từ như: in, on, of, live in, located in, has, is, và are.

Việc nhận diện từ quan hệ, tương tự như nhận diện các thực thể không tên, được thực hiện bằng công cụ ANNIE của GATE Điểm khác biệt là cần xây dựng danh sách các từ quan hệ và ánh xạ chúng vào Gazetteer Kết quả của quá trình này là tập hợp các từ quan hệ có trong câu truy vấn, được ký hiệu là RW.

4.1.6 Xác định lớp của thực thể

Tập luật

Để xây dựng tập luật ánh xạ R3 và R4, cần phát triển một hệ thống luật tổng quát, cho phép dễ dàng thêm các luật mới mà không làm ảnh hưởng đến toàn bộ hệ thống Điều này giúp tăng cường tính tổng quát của hệ thống, không bị giới hạn bởi một tập luật cố định Để đạt được điều này, tập luật sẽ được xây dựng theo định dạng XML.

Mỗi luật trong hệ thống luật sẽ có dạng như sau:

“Nếu [điều kiện] thì [hành động]”

Trong đó phần điều kiện có những đặc tính sau:

 Có ràng buộc về tên lớp thực thể, giá trị chuỗi ban đầu và kiểu thực thể

 Có thể xét một quan hệ hoặc nhiều quan hệ đồng thời

Phần hành động có những đặc tính sau:

 Cho phép thay đổi các giá trị về tên lớp, thay đổi định danh thực thể và xác định loại quan hệ

 Xóa thực thể hoặc quan hệ

Phần này trình bày cấu trúc của tập luật dùng để ánh xạ bộ ba quan hệ thành quan hệ ngữ nghĩa

4.2.1 Cấu trúc của hệ thống luật

Hệ thống luật được định nghĩa qua một tệp XML, trong đó mỗi thành phần (Element) được mô tả theo định dạng DTD (Document Type Definition).

Thành phần root của tập tin là TransformRules, trong đó chứa nhiều thành phần rule

Hình 4.6: Cấu trúc tập thành phần TransformRules và rule

Từ khóa ELEMENT mô tả cấu trúc của một thành phần, trong khi từ khóa ATTLIST được sử dụng để xác định các thuộc tính của thành phần đó Thêm vào đó, CDATA được sử dụng để chỉ định kiểu dữ liệu chuỗi cho các thuộc tính.

#REQUIRED được sử dụng để mô tả tính chất bắt buộc của thuộc tính, trong khi #IMPLIED dùng để chỉ tính chất không bắt buộc DTD sử dụng các ký hiệu “*”, “+” và “?” để chỉ số lượng của một thành phần trong thành phần cha của nó Cụ thể, “*” biểu thị số lượng không giới hạn, “+” chỉ số lượng tối thiểu là một, và “?” cho thấy thành phần có thể xuất hiện một lần hoặc không.

 Dấu “*”: xuất hiện từ 0 đến n

 Dấu “+”: xuất hiện từ 1 đến n

Dấu “?” có thể xuất hiện 0 hoặc 1 lần trong định nghĩa thành phần TransformRules, như được thể hiện trong Hình 4.6 Thành phần này có khả năng chứa nhiều thành phần rule, trong đó mỗi thành phần rule bao gồm hai thành phần là premiselist và consequentlist Bên cạnh đó, thành phần rule còn có hai thuộc tính quan trọng là name và priority, dùng để mô tả tên luật và độ ưu tiên của luật Chúng ta sẽ tiếp tục tìm hiểu cấu trúc của các thành phần con trong thành phần rule ở phần tiếp theo.

4.2.2 Cấu trúc thành phần điều kiện của luật

Mỗi luật bao gồm hai phần chính: điều kiện và hành động Phần điều kiện được mô tả qua thành phần premiselist, là con của thành phần rule, và bao gồm một hoặc nhiều thành phần premise Mỗi thành phần premise có ba thành phần con: subject, relation và object, tương ứng với bộ ba đã thảo luận trước đó Ý nghĩa của các thuộc tính trong các thành phần này được thể hiện rõ trong Bảng 4.1, và ví dụ minh họa cho thành phần premise có thể tham khảo tại Hình 4.8.

Thuộc tính var được sử dụng để đặt tên cho các biến của các thành phần, giúp phân biệt chúng Thuộc tính value cho phép chỉ định giá trị chuỗi ban đầu của thực thể, với khả năng liệt kê các giá trị cách nhau bằng dấu phẩy Thuộc tính className ràng buộc tên lớp của thực thể, trong khi classType dùng để xác định kiểu của thực thể, như UE hoặc IE.

Bảng 4.1: Bảng thuộc tính thành phần premise

4.2.3 Cấu trúc thành phần hành động của luật

Nếu một bộ ba thỏa mãn các điều kiện của luật, hành động theo luật sẽ được áp dụng cho bộ ba đó Cấu trúc của hành động được mô tả trong Hình 4.9.

Các thuộc tính của thành phần hành động tương tự như các thuộc tính của phần tử điều kiện được mô tả trong Bảng 4.2 Thêm vào đó, thành phần hành động bao gồm hai thuộc tính mới là quantifier và delete Thuộc tính quantifier được sử dụng để gán giá trị định danh cho lớp, trong khi thuộc tính delete được dùng để yêu cầu xóa thành phần đó Hình 4.11 minh họa một luật hoàn chỉnh.

Hình 4.7: Cấu trúc của thành phần điều kiện luật

Hình 4.8: Ví dụ về thành phần premise

4.2.4 Xây dựng một số luật đặc biệt

Trong phần này, chúng ta sẽ khám phá một số trường hợp đặc biệt liên quan đến các quy tắc được áp dụng để nhóm các thực thể có ngữ nghĩa tương đồng trong câu truy vấn Chẳng hạn, khi xem xét câu truy vấn “Ai là tổng thống của ”, các quy tắc này sẽ giúp xác định và tổ chức thông tin một cách hiệu quả.

Vichy France là một thực thể không tên trong lớp PERSON, với từ "who" và "president" được kết nối bởi từ quan hệ "was" Điều này cho thấy chúng có thể được xem như một thực thể duy nhất Ngoài ra, luật đặc biệt trong ngữ pháp có cấu trúc tương tự như luật thông thường nhưng có độ ưu tiên là -1.

4.2.5 Xây dựng từ điển luật

Trong Ontology, nhiều quan hệ tương tự như HASFATHER, HASMOTHER, HASCHILD và HASSISTER có thể tạo ra các tập luật dài dòng và trùng lặp Việc áp dụng cấu trúc tập luật cho từng quan hệ này dẫn đến sự lặp lại của nhiều thuộc tính không cần thiết.

Để đơn giản hóa quá trình đặc tả luật và tăng tốc độ xử lý, chúng ta sẽ xây dựng một từ điển cho các cấu trúc này Bài viết sẽ đi sâu vào chi tiết về cấu trúc của tập tin từ điển sắp được trình bày.

Hình 4.9: Cấu trúc của thành phần hành động

Tập tin từ điển được xây dựng theo định dạng XML, với thành phần cao nhất là dictionary Bên trong dictionary, có tập hợp các entry, mỗi entry chứa các thuộc tính subjvalue, relvalue, relation và dir, thể hiện các luật khác nhau Các thuộc tính này sẽ được mô tả chi tiết trong Bảng 4.2.

Hình 4.10: Cấu trúc từ điển quan hệ

Hình 4.11: Ví dụ một luật hoàn chỉnh

Các thuộc tính quan trọng bao gồm: "subjvalue" là giá trị chuỗi ban đầu của chủ thể, "relvalue" là giá trị chuỗi ban đầu của quan hệ, và "objvalue" là giá trị chuỗi ban đầu của khách thể "Relation" xác định mối quan hệ áp dụng cho bộ ba nếu thỏa điều kiện, trong khi "dir" xác định chiều quan hệ, với giá trị "1" biểu thị từ chủ thể đến khách thể và "2" là ngược lại.

Bảng 4.2: Mô tả các thuộc tính của thành phần entry

Hình 4.12: Ví dụ một số thành phần trong từ điển.

Kết quả thí nghiệm

Kết quả phương pháp đề nghị trong đề tài được tiến hành đánh giá trên các câu truy vấn của tập dữ liệu mẫu TREC 2002 (Text REtrieval Conference)

TREC, được tổ chức lần đầu vào năm 1992 bởi viện NIST và Bộ Quốc Phòng Mỹ, nhằm hỗ trợ nghiên cứu trong lĩnh vực rút trích thông tin bằng cách cung cấp nền tảng đánh giá các phương pháp rút trích TREC bao gồm nhiều lĩnh vực nghiên cứu khác nhau, gọi là các track, với mỗi track được cung cấp tập dữ liệu và bài toán mẫu để kiểm tra Tùy thuộc vào từng track, tập dữ liệu có thể là câu hỏi, đoạn văn hoặc các đặc điểm có thể rút trích Đặc biệt, tập câu hỏi mẫu trong đề tài này được lấy từ Question Answering Track của TREC 2002, với mục tiêu rút trích thông tin từ văn bản bằng cách trả lời câu hỏi bằng ngôn ngữ tự nhiên, sử dụng 440 câu truy vấn về thực thể có tên, trong đó có 201 câu hỏi What.

3 câu hỏi Which; 62 câu hỏi Where; 67 câu hỏi Who; 45 câu hỏi When; 38 câu hỏi How và 24 câu hỏi không bắt đầu bằng từ để hỏi

Các lỗi khi dịch sang đồ thị ý niệm thuộc vào các trường hợp sau:

Lỗi nhận diện thực thể trong GATE thường xảy ra khi hệ thống không xác định chính xác các thực thể trong câu truy vấn, được gọi là R-Error.

Lỗi O- trong Ontology thường xảy ra do thiếu thực thể, lớp thực thể hoặc quan hệ, bao gồm cả các câu truy vấn có nhiều hơn hai ngôi Ví dụ điển hình cho lỗi này là câu hỏi: “Canada gia nhập Liên Hợp Quốc vào năm nào?”.

Lỗi Q-Error xảy ra khi đồ thị ý niệm không thể biểu diễn đầy đủ ngữ nghĩa của câu truy vấn, đặc biệt là với các câu chứa trạng từ hoặc câu hỏi về kiểu quan hệ Ví dụ như trong các câu hỏi: “Vào dịp Giáng sinh, điều truyền thống gì nên làm dưới cây tầm gửi?” và “Teddy Roosevelt có mối quan hệ như thế nào với FDR?”.

Lỗi trong phương pháp xây dựng đồ thị ý niệm thường xảy ra khi GATE nhận diện chính xác thực thể và quan hệ, nhưng đồ thị ý niệm lại không được xây dựng đúng cách Nguyên nhân có thể do xác định sai lớp của thực thể chưa xác định, gom sai thực thể, thêm từ quan hệ không phù hợp, hoặc lỗi trong bước hiệu chỉnh quan hệ ngữ nghĩa Những lỗi này được gọi là M-Error.

Bảng 4.3 trình bày thống kê kết quả thực nghiệm từ nghiên cứu của tác giả [18], cho thấy còn 92 truy vấn chưa được giải quyết, với các lỗi phân bố như sau:

Loại câu R-Error M-Error Q-Error O-Error Chính xác Tổng cộng

Tính từ so sánh nhất 14 21 35

Bảng 4.3: Kết quả thực nghiệm trên TREC 2002 khi chưa áp dụng phương pháp đề nghị

Sau khi áp dụng phương pháp đề xuất và bổ sung 11 thực thể có tên, 20 thực thể không tên, cùng với 5 từ quan hệ vào cơ sở tri thức, chúng tôi đã đạt được kết quả như được trình bày trong Bảng 4.4.

Tính từ so sánh nhất 1 21 13 35

Bảng 4.4: Kết quả thực nghiệm trên TREC 2002 sau khi áp dụng phương pháp đề nghị

Sau khi áp dụng phương pháp đề nghị, số lượng lỗi Q-Error đã giảm, nhưng bất ngờ là lỗi O-Error lại tăng lên Nguyên nhân là do các truy vấn lỗi Q-Error thực chất bao hàm lỗi O-Error và M-Error, do phương pháp còn hạn chế chưa giải quyết được Mặc dù lỗi Q-Error đã được khắc phục, nhưng các lỗi O-Error và M-Error tồn tại trước đó vẫn còn, dẫn đến việc một số lỗi Q-Error được phân loại lại thành O-Error hoặc M-Error Điều này giải thích cho sự gia tăng số lượng lỗi O-Error và M-Error sau khi áp dụng phương pháp đề nghị.

Cuối cùng, sau khi bổ sung thêm 33 lớp thực thể, 23 quan hệ còn thiếu vào Ontology, ta có kết quả như trình bày tại Bảng 4.5

Bảng 4.5: Kết quả thực nghiệm trên TREC 2002 sau khi làm giàu Ontology

Trong 51 câu truy vấn không giải quyết được ta có 44 câu thuộc về lỗi O-Error, 3 câu thuộc về lỗi Q-Error và 4 câu thuộc về lỗi M-Error Đối với 44 trường hợp lỗi O-Error, tất cả các câu truy vấn này đều thuộc về truy vấn chứa quan hệ ba ngôi

Trong 3 lỗi thuộc về Q-Error có 1 truy vấn mà nội dung truy vấn liên quan tới kiểu quan hệ chứ không phải thực thể, chúng tôi tạm gọi đây là “Queried relation”, 1 câu truy vấn có trạng từ hoặc nhân tố thời gian trong câu, chúng tôi tạm gọi những câu truy vấn loại này là “Adverb/Temporal query”, 1 truy vấn có kiểu quan hệ ẩn trong danh từ chứ không phải động từ Ta sẽ đi vào phân tích chi tiết các trường hợp lỗi nêu trên Đối với lỗi “Queried relation”, ta xét câu truy vấn sau: “How was Teddy Roosevelt related to

FDR?” Đối với câu truy vấn này, nội dung truy vấn sẽ chỉ vào quan hệ giữa thực thể Teddy

Phương pháp đề xuất trong nghiên cứu về Roosevelt và thực thể FDR chỉ hỗ trợ truy vấn các thực thể không tên hoặc thuộc tính của thực thể, nhưng chưa giải quyết được các truy vấn liên quan đến kiểu quan hệ, dẫn đến lỗi “Queried relation” Để khắc phục vấn đề này, phương pháp mở rộng phạm vi biểu diễn truy vấn, cho phép truy vấn vào kiểu quan hệ Ví dụ, với câu truy vấn cụ thể, một biểu diễn đề nghị sẽ được tạo ra với tham chiếu nghi vấn (“?”) đặt vào quan hệ Relation.

Hình 4.13: Ví dụ về biểu diễn câu truy vấn “Queried relation”

Tiếp theo ta tiến hành phân tích lỗi “Adverb/Temporal query”, ta xét câu truy vấn sau: “At

Vào dịp Giáng sinh, việc truyền thống thường được thực hiện dưới cây tầm gửi là hôn nhau Để giải quyết các lỗi liên quan đến câu truy vấn thời gian, cần có phương pháp hỗ trợ biểu diễn trạng từ và các ràng buộc ngữ cảnh Ví dụ, khi hỏi về truyền thống này, câu trả lời nên được cấu trúc rõ ràng để phù hợp với ngữ cảnh Giáng sinh.

Hình 4.14: Ví dụ về biểu diễn câu truy vấn “Advert / Temporal”

Trong câu truy vấn “How many highway miles to the gallon can you get with the Ford Fiesta?”, danh từ “gallon” là yếu tố quyết định số mile mà Ford Fiesta có thể đi được trong một gallon nhiên liệu Phương pháp được đề xuất trong luận văn này chỉ sử dụng các từ quan hệ như động từ và giới từ để xác định kiểu quan hệ trong câu truy vấn Để xử lý các câu truy vấn lỗi thuộc loại này, cần mở rộng từ quan hệ để bao gồm cả danh từ Đối với lỗi M-Error, nguyên nhân là do phương pháp không phân biệt chính xác giữa từ quan hệ và thực thể trong một số từ vựng tiếng Anh Ví dụ, trong câu “How many home runs did Babe Ruth hit in his lifetime?”, mô đun chú giải không thể phân biệt “hit” là động từ hay danh từ, dẫn đến chú giải sai Một giải pháp là sử dụng các mô đun nhận dạng từ loại như Wordnet, SynTag để cung cấp thông tin hỗ trợ cho mô đun chú giải, giúp xác định chính xác “hit” là động từ và cần được chú giải là từ quan hệ.

Theo kết quả nghiên cứu, khi không tính đến các lỗi O-Error và Q-Error, độ chính xác của phương pháp đã tăng thêm 9.32% so với kết quả trước đó của tác giả [18].

Phương pháp đề xuất trong luận văn này tương thích và không làm ảnh hưởng đến kết quả của nghiên cứu trước đó [18] Điều này có nghĩa là 41 câu truy vấn đã được giải quyết trong các báo cáo trước vẫn giữ nguyên giá trị cùng với 348 câu truy vấn được tác giả [18] giải quyết Kết quả của phương pháp đề xuất đối với toàn bộ tập câu hỏi mẫu TREC 2002 được tóm tắt trong Bảng 4.6.

Bảng 4.6: Bảng tổng kết kết quả cuối cùng đạt được trên tập TREC 2002

Bảng báo cáo 4.6 chỉ ra độ chính xác của phương pháp đối với tập câu hỏi mẫu TREC 2002 thu được là 88.41%

ĐỒ THỊ Ý NIỆM

Định dạng
Số trang	91
Dung lượng	1,56 MB