Phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực thể người

MỤC LỤC

Hệ thống tìm kiếm thực thể

Rừ ràng với đối tượng trả về là trang Web, mức độ chọn lọc thụng tin phự hợp với yêu cầu người dùng của các máy tìm kiếm vẫn còn ở mức độ chưa cao, và điều người dùng cần là thông tin về các thực thể chứ không phải là các trang Web. Hệ thống Cazoodle2 do nhóm nghiên cứu của Kevin Chen-Chuan Chang (thuộc phòng thí nghiệm Cơ sở dữ liệu và Hệ thống thông tin DAIS thuộc trường đại học Illinois) là một hệ thống tìm kiếm thực thể điển hình, bao gồm các lĩnh vực tìm kiếm nơi nghỉ mát (Vacation Rental), tìm kiếm căn hộ (Apartment Rentals), và giá cả sản phẩm (Electronics Shopping).

Hình 1 - Kết quả tìm kiếm từ Google với truy vấn “nokia 6030”

Vấn đề giải quyết nhập nhằng tên trong hệ thống tìm kiếm thực thể người

Trong một hệ thống lý tưởng, người dùng chỉ cần đưa vào tên người, và kết quả sẽ được phân cụm, trong đó mỗi cụm bao gồm các tài liệu về cùng một người kèm theo những mô tả cho cụm đó, điều này giúp cho người dùng tiết kiệm được rất nhiều thời gian và công sức. Các hệ thống thực thể tìm kiếm hiện tại đang chủ yếu vào tập trung vào vấn đề trích xuất thuộc tính thực thể, nhưng với tìm kiếm thực thể người thì vấn đề phân biệt nhập nhằng có ý nghĩa đặc biệt quan trọng.

Hình 5 - Danh sách top 10 từ khóa được tìm kiếm trong Google, Bing và Yahoo năm 2009

Phát biểu bài toán

Từ những phân tích trên ta thấy rằng, bài toán giải quyết nhập nhằng tên người trong hệ thống tìm kiếm thực thể quy về vấn đề giải quyết nhập nhằng tên người trên tập văn bản. Phần tiếp theo của chương này sẽ trình bày chi tiết về bài toán phân biệt nhập nhằng tên người trên tập văn bản.

Mối quan hệ với bài toán phân biệt nhập nhằng nghĩa của từ

Mục tiêu của bài toán là xác định nghĩa của một từ trong một văn bản cho trước, kết quả của bài toán này đóng vai trò quan trọng để thực hiện các bài toán quan trọng tiếp theo trong lĩnh vực xử lý ngôn ngữ tự nhiên như dịch máy, tóm tắt văn bản…Các hướng nghiên cứu giải quyết vấn đề này rất đa dạng bao gồm học giám sát (supervised learning), học bán giám sát (semi- supervised learning) và học không giám sát (unsupervised learning). Nhưng với bài toán phân biệt tên người thì số lượng người khác nhau lại không được biết trước và số lượng trung bình cho mỗi tên cao hơn nhiều so với số lượng nghĩa cho mỗi từ ( Có khoảng 90000 tên được chia sẻ bởi 100 triệu người theo US Census Bureau).

Phương pháp đánh giá

Bài toán phân biệt nhập nhằng tên và nhập nhằng nghĩa đều có mục đích là giải quyết nhập nhằng trong xử lý ngôn ngữ tự nhiên. Tuy nhiên bài toán WSD giải quyết với một lớp rộng các từ: danh từ, tính từ, động từ, trạng từ…Khác biệt đầu tiên là sự khác biệt nghĩa của từ là khá tinh tế, có những nghĩa rất gần nhau nhiều khi với chính con người điều này rất khó khăn để nhận biết. Trong chương này, khóa luận giới thiệu khái quát về hệ thống tìm kiếm thực thể và bài toán giải quyết nhập nhằng tên người trên tập tài liệu, vai trò của bài toán đối với hệ thống tìm kiếm thực thể người.

Khóa luận cũng trình bày mối liên hệ của bài toán với bài toán phân biệt nhập nhằng nghĩa của từ, và phương pháp đánh giá cho bài toán.

Phương pháp giải quyết bài toán nhập nhằng tên người trên tập văn bản

Bước 2 : Với mỗi chuỗi đồng tham chiếu cần được quan tâm ( ví dụ chuỗi đồng tham chiếu ứng với “Jonh Perry” ) , module “Sentence Extractor” sẽ trích xuất ra tất cả những câu chứa cụm danh từ trong chuỗi đồng tham chiếu trong văn bản. Hay nói cách khác, module này sẽ thực hiện công việc tạo ra một bản tóm tắt biểu diễn chuỗi thực thể của mỗi bài báo hướng về thực thể được quan tâm. John Parry Massachusetts. John Parry Weston Golf. Golf Association Woment’s Golf Association He. ”Perry” ) đều xuất hiện trong các câu của văn bản , nên phần tóm tắt được sinh bởi module “Sentence Extractor” chính là phần trích xuất được. Bước 1: Thu thập web chứa tên cần phân biệt nhập nhằng (Download Web Pages) Bước này hệ thống sử dụng máy tìm kiếm Google, các truy vấn sẽ được đưa vào máy tìm kiếm và lấy ra 100 kết quả đầu tiên cho mỗi tên cần phân biệt nhập nhằng. Vì vậy hệ thống tính toán độ tương đồng giữa 2 “term” sử dụng “snippet” được trả về bởi máy tìm kiếm.( “Snippet”. là một mẩu văn bản nhỏ, chứa 2 hay 3 câu được trích xuất từ văn bản cho câu truy vấn, và thường đi kèm với các kết quả tìm kiếm của các máy tìm kiếm).

- Với phương pháp dùng thông tin đặc trưng mở rộng hồ sơ người dùng: đối với những từ thỏa mãn mẫu trích xuất sẽ được gán trọng số cao hơn, ví dụ năm 1756 thỏa mãn mẫu trích xuất về ngày sinh thì với các sự xuất hiện khác của 1976 sẽ được đánh trọng số rất cao. Các phương pháp tập trung vào việc thể hiện ngữ cảnh nơi mà tên người và xuất hiện và đo độ tương đồng giữa các ngữ cảnh này và cuối cùng là phân cụm ngữ cảnh hay phân cụm văn bản chứa ngữ cảnh. Trong chương tiếp theo, khóa luận sẽ tập trung vào việc khai thác những đặc trưng của miền dữ liệu khóa luận thực hiện là các trang Web tin tức của các báo điện tử Việt Nam để xây dựng nên ngữ cảnh tên người và đề xuất mô hình cho việc giải quyết nhập nhằng tên người trên tập văn bản, ứng dụng của nó trong hệ thống tìm kiếm thực thể người.

Hình 2.1 – Kết quả phân tích đồng tham chiếu văn bản doc.36

Mô hình hệ thống phân biệt nhập nhằng tên người

Mô hình không gian vector

Phương pháp này được giải thích dựa trên lập luận rằng một từ xuất hiện trong nhiều văn bản thuộc tập văn bản D thì không quan trọng bằng một từ xuất hiện trong ít văn bản thuộc tập D, nghĩa là một từ quá thông dụng sẽ có độ quan trọng kém hơn một từ chỉ xuất hiện trong một văn bản hoặc một tập nhỏ các văn bản. Khái niệm về bài toán phân cụm: Phân cụm dữ liệu là một kỹ thuật trong khai phá dữ liệu, nhằm đưa ra các cụm mà các phần tử trong cùng một cụm có độ tương đồng cao và các phần tử thuộc các cụm khác nhau lại có độ tương đồng thấp. Vì lý do này mà công việc phân cụm thường được truyền thống nhìn nhận dưới con mắt của học máy không giám sát, phương pháp học mà khi ta cho trước một mẫu chỉ gồm các đối tượng cần tìm một cấu trúc đáng quan tâm của dữ liệu và nhóm lại các dữ liệu giống nhau.

Với phương pháp này, ban đầu người ta khởi tạo một phân hoạch ban đầu cho tập dữ liệu theo một phép gán ngẫu nhiên hoặc dựa trên một phương pháp kinh nghiệm (hueristic), sau đó tinh chỉnh lại các cụm cho đến khi thu được một phân hoạch mong muốn thỏa mãn một ràng buộc cho trước. Phương pháp phân cụm cây phân cấp xây dựng một cấu trúc cây phân cấp cho các tài liệu, và có hai phương pháp chính là xây dựng cây theo hướng từ trên xuống (top-down) và xây dựng theo hướng từ dưới lên (bottom-up). Trong chương ba, khoá luận đã giới thiệu các đặc trưng của miền dữ liệu báo điện tử để từ đó đề xuất ra mô hình giải quyết bài toán nhập nhằng tên người trên tập văn bản và ứng dụng bài toán đó trong việc đề xuất mô hình hệ thống tìm kiếm thực thể người.

Hình 12 - Biểu diễn văn bản trong không gian vector.

Thực nghiệm và đánh giá

Khi cùng một người tham gia các hoạt động thuộc lĩnh vực khác nhau thì độ lặp nội dung trong các câu là thấp dẫn đến độ tương đồng thấp, trong những trường hợp dưới ngưỡng dẫn đến kết quả sai vì coi đó là 2 người khác nhau. Phương pháp 2 sử dụng có độ chính xác cao hơn phương pháp 1, điều này phù hợp với đặc trưng đầu tiên đã nêu trong phần cơ sở thực tiễn rằng: các thông tin định danh mạnh cho người thường tập trung ở xung quanh phần tên đầy đủ, phương pháp 2 lấy cửa sổ với độ rộng 10 xung quanh tên đầy đủ, còn phương pháp 1 lấy tất cả các câu chứa cả tên đầy đủ hoặc chỉ tên không. Ví như như trong hai bài báo dưới đây cùng nói về giáo sư tiến sỹ Nguyễn Hữu Đức, với những thông tin trong bài báo thì chưa đủ để biết được đó làm một người, chúng ta phải có một tri thức về người đó thì mới vượt qua được vấn đề này.

Việc bổ sung thêm đặc trưng về mạng xã hội (các thực thể người khác xuất hiện trong ngữ cảnh) làm tăng độ các chỉ số cho các kết quả, nó khắc phục được một số trường hợp việc lấy ngữ cảnh quanh tên ở phương pháp 1 và 2 thiếu sót.