Mỗi từ WordNet trong văn bản thường có một nghĩa xác định. Ví dụ trong đoạn văn bản trong Hình 4.1, theo WordNet, từ “apple” tại vị trí (1) và (2) có nghĩa đúng là
#apple_1-noun với ý nghĩa là trái táo, và “apple” tại vị trí (3) và (4) và “Malus pumila” có nghĩa đúng là #apple_2-noun với ý nghĩa là cây táo. Trong đó, #apple_1- noun và #apple_2-noun lần lƣợt là nghĩa thứ 1 và thứ 2 của danh từ “apple” trong WordNet. Tuy nhiên, nghĩa của một từ WordNet có thể không đƣợc xác định đúng vì nhiều lý do. Thứ nhất, đó là sự mơ hồ về nghĩa của một từ trong truy vấn, do ngữ cảnh không rõ ràng của truy vấn hoặc do chủ ý của người dùng muốn tìm các tài liệu nói về bất kỳ nghĩa có thể nào của từ đó. Thứ hai, đó là do ngữ cảnh không rõ ràng của từ
WordNet trong tài liệu. Thứ ba, giải thuật WSD có hạn chế trong việc xác định đúng nghĩa của một từ trong truy vấn hoặc tài liệu, dù trong ngữ cảnh đó con người hiểu đƣợc đúng nghĩa của từ đó.
“To determine if an apple(1) is ready to be picked, place a cupped hand under the fruit, lift and gently twist. If the apple(2) doesn’t come away easily in your hand, then it’s not ready to harvest.”10
“A round, firm fruit with juicy flesh; the tree bearing this fruit, Malus pumila, comes from the family Rosaceae (rose family). There are many, many types of apples(3) grown all over the world today and these can be divided into eating, cooking and cider apples(4).”11
Hình 4.1. Các đoạn văn bản ví dụ từ BBC12
Hình 4.2. Cây phân cấp nghĩa cha và nghĩa con của một số nghĩa của từ “movement”
Hình 4.2 thể hiện một phần các nghĩa cha và nghĩa con của 5 trong 11 nghĩa của từ “movement” đƣợc trích trong WordNet. Trong đó, ba nghĩa 1, 3 và 11 của từ
“movement” là #movement_1-noun, #movement_3-noun, và #movement_11-noun có nghĩa cha chung cụ thể nhất là #change-noun. Với một truy vấn tìm kiếm các tài liệu
10http://www.bbc.co.uk/gardening/basics/techniques/growfruitandveg_harvestapples1.shtml
11 http://www.bbc.co.uk/dna/h2g2/A12745785
12 http://www.bbc.co.uk
#act-noun
#action-noun
#change-noun
#happening-noun
#movement_2-noun
#movement_3-noun
#movement_1-noun #movement_11-noun
#event-noun
#opening-noun
#disturbance-noun
#travel-noun
#transfer-noun
#displacement-noun
#movement_6-noun
#project-noun
#work-noun
#venture-noun
#activity-noun
#passing-noun
#campaigning-noun
về “movement belonging to change”, chỉ có các tài liệu nói về “movement” với một trong ba nghĩa #movement_1-noun, #movement_3-noun, hoặc #movement_11-noun là phù hợp.
Như đã đề cập ở trên, trong trường hợp một từ có nhiều hơn một nghĩa phù hợp, luận án đề xuất biểu diễn từ này bằng một thông tin cụ thể nhất có thể. Đó là sự kết hợp giữa nhãn của từ đó với nghĩa cha chung cụ thể nhất của các nghĩa phù hợp của từ đó. Thông tin kết hợp này mang nghĩa rộng hơn một nghĩa ngẫu nhiên nhƣng hẹp hơn tập hợp tất cả các nghĩa phù hợp. Nghĩa cha chung cụ thể nhất msc_hypernym là một quan hệ giữa một nghĩa và một tập nghĩa. Một nghĩa s đƣợc gọi là một msc_hypernym của một tập nghĩa {s1, s2, ...} nếu s là một nghĩa cha chung của chúng và không có nghĩa cha chung nào của chúng cụ thể hơn s. Ví dụ, với truy vấn tìm kiếm các tài liệu về “movement belonging to change” ở trên, thay vì chọn một nghĩa hoặc tập hợp cả ba nghĩa #movement_1-noun, #movement_3-noun và #movement_11-noun để biểu diễn truy vấn, luận án đề xuất biểu diễn từ “movement” trong ngữ cảnh này bằng cặp nhãn- nghĩa <movement, #change-noun>.
Tóm lại, nói một cách tổng quát, một từ WordNet có nhãn f có thể đƣợc chú giải thành một trong các định dạng sau: (1) nghĩa của f khi nó có một nghĩa duy nhất đƣợc xác định; hoặc (2) thông tin kết hợp <f, msc_hypernym(f)> khi nó có nhiều hơn một nghĩa đƣợc xác định. Ở đây, msc_hypernym(f) là nghĩa cha chung cụ thể nhất của các nghĩa có thể của nhãn f trong ngữ cảnh xem xét, theo một giải thuật WSD đƣợc sử dụng.
Mô hình không gian vectơ dựa trên từ WordNet kết hợp với từ khoá (là những từ còn lại không đƣợc nhận diện nhƣ là một từ trong một ontology về từ vựng nhƣ WordNet) mà luận án đề xuất được ký hiệu là WN+KW. Tương tự như mô hình tổng quát NE+KW ở Chương 3, mô hình WN+KW biểu diễn mỗi truy vấn hoặc tài liệu bởi một vectơ đơn trên không gian thuật ngữ tổng quát. Một thuật ngữ tổng quát là một từ WordNet hoặc một từ khóa. Việc biểu diễn vectơ, lọc và xếp hạng tài liệu tương tự nhƣ trong mô hình không gian vectơ truyền thống. Điểm khác biệt là, nhƣ với mô hình không gian vectơ cho thực thể có tên, mô hình WN+KW cũng mở rộng tài liệu với các đặc điểm ontology bao phủ các đặc điểm ontology gốc của các từ WordNet xuất hiện trong tài liệu, khi tính các trọng số tf.idf cho vectơ biểu diễn tài liệu.
Xử lý truy vấn và tài liệu
Mỗi truy vấn q trong mô hình WN+KW được xử lý theo các bước sau:
1. Loại bỏ các từ không chứa thông tin quan trọng và đƣa các từ về dạng nguyên mẫu.
2. Các từ WordNet trong truy vấn đƣợc nhận diện và xác định nghĩa bởi một giải thuật WSD.
3. Với mỗi từ WordNet đƣợc nhận diện:
a. Nếu xác định đƣợc nghĩa s duy nhất của từ này, thì s (tức định danh của nghĩa) đƣợc bổ sung vào túi thuật ngữ tổng quát biểu diễn q.
b. Nếu từ này có nhãn f và có nhiều hơn một nghĩa phù hợp, thì <f, msc_hypernym(f)> đƣợc bổ sung vào túi thuật ngữ tổng quát biểu diễn q.
4. Từ nào không là từ WordNet sẽ đƣợc xem là từ khóa và bổ sung vào túi thuật ngữ tổng quát biểu diễn q.
Mỗi tài liệu d trong mô hình WN+KW được xử lý theo các bước sau:
1. Loại bỏ các từ không chứa thông tin quan trọng và đƣa các từ về dạng nguyên mẫu tương tự như trong xử lý truy vấn.
2. Các từ WordNet trong tài liệu đƣợc nhận diện và xác định nghĩa bởi một giải thuật WSD nhƣ trong xử lý truy vấn.
3. Với mỗi từ WordNet đƣợc nhận diện:
a. Nếu xác định đƣợc nghĩa s duy nhất của từ này, thì bổ sung vào túi thuật ngữ tổng quát biểu diễn d các thuật ngữ sau:
s, hypernym(s)
<form(s), s>, <form(s), hypernym(s)>
b. Nếu từ này có nhãn f và có nhiều hơn một nghĩa phù hợp, thì bổ sung vào túi thuật ngữ tổng quát biểu diễn d các thuật ngữ sau:
msc_hypernym(f), hypernym(msc_hypernym(f))
<f, msc_hypernym(f)>, <f, hypernym(msc_hypernym(f))>
4. Từ nào không là từ WordNet sẽ đƣợc xem là từ khóa và bổ sung vào túi thuật ngữ tổng quát biểu diễn d.
Ở đây, form(s) là một nhãn bất kỳ của một từ WordNet có nghĩa s, và hypernym(s) là một nghĩa cha bất kỳ của nghĩa s. Các thông tin này đƣợc định nghĩa trong ontology về từ vựng mà hệ thống sử dụng.
Tương tự như đã phân tích với mô hình truy hồi tài liệu dựa trên thực thể có tên, việc mở rộng tài liệu bằng các đặc điểm ontology bao phủ các đặc điểm ontology gốc của từ WordNet là cần thiết. Vì thế, túi thuật ngữ tổng quát biểu diễn tài liệu cần đƣợc bổ sung bằng các thuật ngữ ontology bao phủ, tức là đƣợc hàm ý và kéo theo bởi, các thuật ngữ ontology gốc của các từ WordNet xuất hiện trong tài liệu. Cụ thể là, ở bước 2.a, hypernym(s), <form(s), s> và <form(s), hypernym(s)> là các thuật ngữ ontology bao phủ của s. Ở bước 2.b, msc_hypernym(f), hypernym(msc_hypernym(f)) và <f, hypernym(msc_hypernym(f))> là các thuật ngữ ontology bao phủ của <f, msc_hypernym(f)>.
Hình 4.3. Kiến trúc hệ thống của mô hình WN+KW
Trong mô hình WN+KW, một cụm từ không đƣợc vừa xem là từ WordNet vừa xem là từ khóa. Cụm từ nào là từ WordNet sẽ đƣợc ƣu tiên xem là từ WordNet và không đƣợc xem là từ khóa. Hình 4.3 mô tả kiến trúc hệ thống của mô hình WN+KW.
Trong đó, mô đun Phân giải nhập nhằng và chú giải từ WordNet đƣợc dùng để xác định nghĩa của các từ WordNet và chú thích thuật ngữ ontology của chúng vào trong truy vấn thô và tài liệu thô. Tiếp theo, mô đun Mở rộng và đánh chỉ mục tài liệu theo
Tài liệu thô
……
……
Mở rộng tài liệu
Các tài liệu đƣợc xếp hạng
Đánh chỉ mục tài liệu theo từ WordNet và từ khóa Phân giải nhập nhằng và
chú giải từ WordNet
Kho chứa tài liệu đƣợc chú giải
và mở rộng Ontology về
từ WordNet
Truy vấn đƣợc chú giải theo từ WordNet
và từ khóa
VSM dựa trên từ WordNet và từ khóa Truy vấn thô Phân giải nhập nhằng và
chú giải từ WordNet
từ WordNet và từ khóa bổ sung các thuật ngữ ontology bao phủ của các thuật ngữ ontology gốc của các từ WordNet đƣợc xác định, và đánh chỉ mục các tài liệu theo các thuật ngữ ontology để đƣa vào kho chứa tài liệu có chỉ mục. Sau cùng, mô đun VSM dựa trên từ WordNet và từ khóa so khớp vectơ biểu diễn tài liệu với vectơ biểu diễn truy vấn.
Việc loại bỏ các từ không chứa thông tin quan trọng và đƣa các từ về dạng nguyên mẫu ở truy vấn và tài liệu đƣợc thực hiện thông qua một hàm đƣợc xây dựng sẵn trong hệ thống Lucene. Ontology về từ vựng đƣợc sử dụng trong mô hình đề xuất là WordNet. Việc xác định nghĩa của từ đƣợc thực hiện bởi giải thuật WSD đƣợc đề xuất trong [75]. Để hiện thực mô hình WN+KW, luận án cũng tiến hành hiệu chỉnh mô hình không gian vectơ trong Lucene tương tự như đã làm cho mô hình NE+KW ở Chương 3.