Như trên đã trình bày, có nhiều phương pháp khác nhau để đánh giá kết quả của một hệ thống tóm tắt. Trong đó, phương pháp so sánh văn bản của hệ thống tóm tắt với văn bản do con người thực hiện được sử dụng nhiều. Trong thử nghiệm của chúng tôi, phương pháp này cũng được sử dụng để đánh giá độ chính xác của hệ thống tóm tắt.
Gọi hệ thống tóm tắt cần đánh giá là S, hệ thống tóm tắt đối sánh là GS thì ta có bảng đánh giá mức độ liên quan của S và GS như sau:
Hệ thống S
Hệ thống GS Số câu S chọn Số câu S không chọn
Số câu GS chọn A B
Số câu GS không chọn C D
Bảng 2 Đánh giá sự liên quan của văn bản tóm tắt và văn bản GS
Trong đó:
A là tổng số câu được cả 2 hệ thống tóm tắt chọn; B là tổng số câu S không chọn nhưng GS chọn; C là tổng số câu S chọn nhưng GS không chọn; D là tổng số câu mà cả 2 hệ thống đều không chọn. Khi đó, độ chính xác Precision (P) được tính bằng:
C A A P (10)
Độ chính xác P cho biết tỉ lệ giữa các câu S chọn ra chính xác so với tổng số những câu có trong văn bản tóm tắt do S thực hiện.
Độ bao phủ Recall (R) được tính bằng:
B A A R (11)
Độ bao phủ R cho biết tỉ lệ giữa các S chọn ra chính xác so với tổng số câu trong văn bản do GS thực hiện.
Độ đo F: là tiêu chí đánh giá chung cho kết quả tóm tắt của hệ thống, độ đo này là hàm điều hoà của độ chính xác và độ hồi quy và được tính bằng:
R P PR F 2 (12)
Như trên đã trình bày, tỉ lệ nén của văn bản tóm tắt là tỉ lệ giữa tổng số câu do hệ thống tóm tắt lựa chọn so với tổng số câu của văn bản ban đầu. Chúng tôi thử nghiệm hệ thống tóm tắt với 3 mức độ nén: 10%, 20% và 30%.
Tập văn bản thử nghiệm trên được tóm tắt bởi con người, mỗi văn bản được tóm tắt thành 3 văn bản với mức độ nén lần lượt là 10%, 20% và 30%. Các văn bản được chuyển cho hai người tóm tắt để chọn ra các câu có ý nghĩa quan trọng. Việc lựa chọn các câu sẽ là chọn ra số thứ tự của câu đó trong văn bản gốc. Mỗi câu được chọn sẽ được ghi trên một dòng.
Chẳng hạn, với văn bản Text(1).txt trong tập văn bản thử nghiệm, văn bản này có 35 câu. Giả sử, với tỉ lệ nén là 10% thì người tóm tắt sẽ thực hiện chọn ra 4 câu, các câu được chọn được ghi trong một tập tin văn bản viết theo dạng:
Hình 5 Bản tóm tắt của Text(1).txt thực hiện bởi con người, tỉ lệ nén 10%
Văn bản tóm tắt của Text(1).txt
Đồng thời, để so sánh kết quả tóm tắt của hệ thống với các hệ thống khác, chúng tôi lựa chọn Microsoft Office Word 2003 làm hệ tóm tắt đối sánh. Khi có
được các câu do chức năng AutoSummarize lựa chọn, căn cứ vào danh sách các
câu có được ở bước tiền xử lý, danh sách các câu được chọn sẽ được lưu vào trong một file có định dạng giống như trên. Các tập tin này được lưu trong cùng thư mục theo từng tỉ lệ nén, các tập tin tóm tắt theo cùng mức độ nén thì được lưu trong cùng một thư mục.
[4]Theo ông Đào Hồng Thương - Phó giám đốc Trung tâm Vietsky Travel suy thoái kinh tế thế giới khiến du khách giảm chi tiêu cộng với tỷ giá ngoại tệ trong nước thay đổi liên tục khiến giá tour tăng gây khó khăn cho nhiều đoàn khách châu Âu.
[10]Theo nhận định của một số đơn vị lữ hành ngoài nguyên nhân suy thoái kinh tế thế giới giá dịch vụ trong nước tăng cao cũng khiến khách quốc tế sút giảm. [19]Ảnh hưởng của suy thoái kinh tế cũng khiến nhiều đoàn khách quốc tế cắt giảm chi tiêu ở Việt Nam.
[35] Trong thời điểm khó khăn này chiến lược của ngành du lịch là thu hút khách ở thị trường gần như Hong Kong, Đài Loan, Nhật Bản, Hàn Quốc, Thái Lan và những tỉnh ven biển Trung Quốc như Quảng Đông, Quảng Tây, Vân Nam - người đứng đầu ngành du lịch Việt Nam nói.