Tổng hợp quan điểm trích xuất được

Một phần của tài liệu Tổng hợp quan điểm dựa trên mô hình thống kê và ứng dụng vào khai phá quan điểm trong văn bản tin tức tiếng Việt (Trang 30 - 32)

Với danh sách các câu quan điểm đã trích xuất được từ tài liệu được tiến hành tổng hợp. Thuật tốn tổng hợp dựa trên danh sách tần suất thuật ngữ và xác định trọng số lớn nhất của câu (với cơng thức được sử dụng) và nhĩm những câu cĩ trọng số lớn nhất và khác nhau để đưa vào tổng hợp. Sử dụng unigram đơn giản để khớp những từ liên quan (danh từ, động từ) để tìm độ tương tự giữa hai câu bất kỳ. Do đĩ ở bản tổng hợp cuối cùng sẽ khơng cĩ thơng tin nào bị trùng nhau.

31

Thuật tốn tổng hợp:

1. ChuNn bị danh sách tần xuất các từ trong tài liệu mà khơng xem xét tới từ dừng (stopwords)

2. Theo các quy tắc dưới đây để lấy một tài liệu mới từ tài liệu đã cĩ:

a. Đầu tiên, tìm tất cả các danh từ, đại từ và liên kết của chúng nếu tương

thích. Nếu khơng tìm về các từ trước đĩ trong tài liệu để lấy những danh từ và đại từ tương thích

b. Với các từ trong ngoặc kép, như các động từ “say”, “told”, “said” thì thường liên quan tới các danh từ chỉ người ở trước như đại từ “I” v.v

3. Với mỗi câu đã được tính trọng số cơ bản dựa vào danh sách tần xuất từ. Xác định một giá trị ngưỡng bằng thực nghiệm và tất cả các từ cĩ tần số cao hơn ngưỡng được lấy làm trọng số của câu. Với mỗi câu S thì Weight=W(S) =

>∑ ?> .

.@ trong đĩ wi là tần xuất của từ lớn hơn ngưỡng.

4. Tìm độ tương đồng giữa 2 câu sử dụng unigram đơn giản. Định nghĩa giá trị quan hệ hệ số (RC – Relation Coefficient) để thể hiện mỗi quan hệ tương tự giữa 2 câu bất kỳ. Cơng thức RC = số unigram phù hợp / max (unigram của

một trong 2 câu phù hợp)

Ví dụ:

S1= My name is Tom Sawyer S2=Tom is friend with Huck Finn.

5. Unigram bắt được là “Tom” và “is”. Độ dài S1 = 5, S2 = 6 do đĩ S12 = (2/6) = 0.3333

6. Lấy những câu cĩ trọng số cao nhất. Gọi các trọng số là Si, Sicủa các câu

được đưa vào danh sách tổng hợp và loại bỏ khỏi danh sách câu. Để giảm

thiểu sự dư thừa, tất cả các câu cĩ giá trị RC≥0.5 đều bị loại bỏ. Do theo thống kê các tác giả cho thấy những câu cĩ giá trị RC≥0.5 là những câu cĩ độ trùng lặp thơng tin cao. Nếu danh sách câu cịn các câu chưa xét thì lặp lại bước 5.

7. Lặp lại từ bước 1 đến bước 6 cho tới khi đạt ngưỡng tổng hợp.

8. Cuối cùng đưa ra tất cả các câu tổng hợp trong danh sách tổng hợp sắp xếp theo thứ tự ưu tiên theo chỉ số sao cho các câu cùng ở một tài liệu thì sẽ ở gần nhau.

32

Một phần của tài liệu Tổng hợp quan điểm dựa trên mô hình thống kê và ứng dụng vào khai phá quan điểm trong văn bản tin tức tiếng Việt (Trang 30 - 32)

Tải bản đầy đủ (PDF)

(68 trang)