Tóm tắt đa văn bản tiếng việt

Bài toán tóm tắt văn bản

Tóm tắt văn bản là quá trình phức tạp nhằm chuyển đổi một tập hợp tài liệu thành một văn bản duy nhất, chỉ chứa những nội dung chính Để đạt được hiệu quả, bản tóm tắt không chỉ cần ngắn gọn và nắm bắt thông tin quan trọng mà còn phải đảm bảo tính trôi chảy và đúng trình tự thời gian, giống như một tài liệu độc lập.

Bài toán tóm tắt văn bản thường được biết đến với hai hướng chính:

• Tóm tắt văn bản trích rút.

• Tóm tắt văn bản tóm lược.

Tóm tắt văn bản trích rút

Tóm tắt văn bản trích rút (Extractive text summarization) là quá trình chọn lọc những câu chứa thông tin quan trọng từ tài liệu gốc để tạo ra bản tóm tắt Phương pháp này đã xuất hiện từ lâu trước khi máy học trở nên phổ biến, với các nhà nghiên cứu chủ yếu tập trung vào việc đánh trọng số cho các câu liên quan đến nội dung chính Một số phương pháp nổi bật và hiệu quả trong lĩnh vực này bao gồm LexRank và Maximal Marginal Relevance (MMR).

Với sự phát triển của các mô hình học máy và học sâu, bài toán tóm tắt văn bản hướng trích rút đã được chuyển thành bài toán học có giám sát Qua việc trích chọn các đặc trưng từ tài liệu để huấn luyện các mô hình hiện đại, mô hình có thể xác định câu quan trọng trong tài liệu mới nhằm tạo ra bản tóm tắt cuối cùng Một số phương pháp cổ điển trong tiếp cận này bao gồm Naïve Bayes và Support Vector Machine (SVM).

Tóm tắt văn bản tóm lược

Tóm tắt văn bản tóm lược (Abstractive text summarization) là quá trình hiểu và viết lại nội dung của tài liệu gốc bằng ngôn từ mới, một thách thức không chỉ với máy tính mà còn với con người Trước khi công nghệ học máy phát triển, các nhà nghiên cứu chủ yếu tập trung vào việc chọn lọc và nén nội dung Tuy nhiên, với sự tiến bộ của các mô hình học sâu và lượng dữ liệu phong phú, các phương pháp tóm tắt tóm lược hiện nay cho thấy tiềm năng lớn trong việc cải thiện hiệu quả của nhiệm vụ này.

Ngoài hai hướng tiếp cận chính này, bài toán tóm tắt văn bản còn được chia thành hai mảng:

• Tóm tắt đơn văn bản.

• Tóm tắt đa văn bản.

Tóm tắt đơn văn bản (Single Document Summarization)

Tóm tắt đơn văn bản là một bài toán cơ bản trong xử lý ngôn ngữ tự nhiên, yêu cầu đầu vào là một tài liệu duy nhất và đầu ra là bản tóm tắt của tài liệu đó Đầu vào có thể là bất kỳ loại văn bản nào, từ bài báo khoa học, truyện ngắn cho đến luận văn tốt nghiệp Bài toán này đóng vai trò quan trọng, tạo nền tảng cho việc phát triển các mô hình tóm tắt đa văn bản trong tương lai.

Tóm tắt đa văn bản (Multi-Document Summarization)

Bài toán tóm tắt đa văn bản là một dạng phức tạp hơn so với tóm tắt đơn văn bản, nhưng vẫn giữ lại các đặc điểm cơ bản của nó Những yêu cầu cao từ mô hình tóm tắt đa văn bản đã khiến cho việc áp dụng thực tế trở nên khó khăn, cho đến khi công nghệ phần cứng, dữ liệu và các mô hình học sâu phát triển như hiện nay.

Tóm tắt đa văn bản khác với tóm tắt đơn văn bản ở chỗ nó xử lý một tập hợp các tài liệu có liên quan, nhằm mục tiêu rút gọn nội dung mà vẫn giữ lại các điểm chính Mô hình tóm tắt đa văn bản cần loại bỏ thông tin chồng chéo và nội dung dư thừa, đồng thời đảm bảo tính chính xác về trình tự thời gian trong bản tóm tắt.

Tóm tắt đa văn bản trong ngôn ngữ Việt Nam gặp nhiều khó khăn do đặc điểm phức tạp của ngôn ngữ này so với tiếng Anh Việc tạo ra bản tóm tắt mới hoàn toàn từ nhiều nguồn văn bản là một thách thức lớn, và hiện tại, nghiên cứu về lĩnh vực này tại Việt Nam còn hạn chế, thiếu bộ dữ liệu chung Do đó, cần thiết phải có các nghiên cứu chuyên sâu về tóm tắt đa văn bản để đáp ứng nhu cầu thực tiễn và thu hút sự quan tâm của cộng đồng nghiên cứu trong lĩnh vực Xử lý ngôn ngữ tự nhiên tại Việt Nam.

Em đã quyết định chọn đề tài "Tóm tắt đa văn bản tiếng Việt" để làm nền tảng cho việc nghiên cứu và phát triển luận văn tốt nghiệp của mình.

Ý nghĩa thực tiễn của đề tài

Hiện nay, dữ liệu văn bản đang gia tăng nhanh chóng từ nhiều nguồn như báo chí, báo cáo trường học và nghiên cứu khoa học Tuy nhiên, sự chồng chéo thông tin giữa các văn bản gây khó khăn trong việc lưu trữ và tìm kiếm Do đó, bài toán tóm tắt văn bản trở thành mối quan tâm lớn của các nhà nghiên cứu nhằm giải quyết những thách thức thực tiễn này.

Tóm tắt văn bản là một vấn đề quan trọng trong xử lý ngôn ngữ tự nhiên, giúp tiết kiệm thời gian và công sức cho con người trong nhiều lĩnh vực Một số ứng dụng thực tiễn của tóm tắt văn bản bao gồm việc cải thiện hiệu quả làm việc và hỗ trợ ra quyết định nhanh chóng.

Áp dụng tóm tắt văn bản cho bài toán phát hiện sao chép giúp đơn giản hóa quy trình kiểm tra trùng lặp khi khối lượng văn bản trong kho dữ liệu tăng cao Việc kiểm tra một văn bản với toàn bộ tập tài liệu trở nên khó khăn khi số lượng văn bản quá lớn Bằng cách sử dụng tóm tắt văn bản để lọc ra thông tin quan trọng, ta có thể xác định những văn bản tương đồng với văn bản cần kiểm tra Nhờ đó, bài toán phát hiện sao chép trở nên khả thi ngay cả khi khối lượng dữ liệu tăng lên đáng kể.

Tóm tắt văn bản là giải pháp hiệu quả cho bài toán tổng hợp thông tin, đặc biệt trong bối cảnh nhiều trang báo cùng đưa tin về một sự kiện Việc tổng hợp thông tin từ các nguồn khác nhau giúp người dùng nắm bắt kiến thức một cách nhanh chóng mà không tốn nhiều thời gian Tuy nhiên, quá trình này đòi hỏi không chỉ thời gian mà còn cả chuyên môn của người tóm tắt Ví dụ, trong trận bán kết AFF Cup 2021 giữa Việt Nam và Thái Lan, bài toán tóm tắt văn bản sẽ giúp tổng hợp chiến thuật của cả hai đội, mang đến cái nhìn tổng quát và sâu sắc hơn cho người đọc.

Trong bối cảnh cuộc sống bận rộn hiện nay, việc theo dõi tin tức hàng ngày trở nên khó khăn Tóm tắt văn bản tự động giúp người đọc nhanh chóng nắm bắt các tin chính chỉ trong thời gian ngắn, như khi ăn sáng, từ đó tiết kiệm thời gian và vẫn cập nhật được thông tin mới nhất.

Tóm tắt văn bản được ứng dụng rộng rãi trong nhiều lĩnh vực thực tiễn, bao gồm việc tóm tắt kết quả tìm kiếm trên các công cụ tìm kiếm, nội dung của hội nghị hoặc cuộc họp, nội dung video và audio, cũng như tóm tắt nội dung email.

Tóm tắt văn bản là một giải pháp quan trọng giúp tiết kiệm thời gian và công sức cho việc đọc hiểu tài liệu Xu hướng này ngày càng thu hút sự quan tâm của cả nhà nghiên cứu và doanh nghiệp, đặc biệt khi lượng dữ liệu gia tăng và con người ngày càng bận rộn Sự phát triển của bài toán tóm tắt văn bản trở nên cần thiết và không thể tránh khỏi trong bối cảnh hiện nay.

Định hướng

Các nghiên cứu liên quan theo hướng trích rút

Hướng tiếp cận trích rút đã thu hút sự tham gia của nhiều nhà nghiên cứu trong lĩnh vực tóm tắt văn bản Nghiên cứu về tóm tắt trích rút chủ yếu tập trung vào việc xếp hạng câu, trong đó những câu có xếp hạng cao nhất thường chứa đựng nhiều thông tin quan trọng cần thiết cho bản tóm tắt Các nghiên cứu liên quan đến xếp hạng câu đóng vai trò quan trọng trong việc cải thiện chất lượng tóm tắt.

Trong một nghiên cứu về tóm tắt văn bản dựa trên ngữ nghĩa ở mức câu, mối quan hệ ngữ nghĩa giữa các từ có cùng vai trò được phát hiện thông qua việc sử dụng WordNet.

Nhóm tác giả đã đề xuất một biểu thức dạng cây nhằm xây dựng mô hình xếp hạng câu từ tài liệu đã được phân tích cú pháp.

LexRank là một phương pháp được nhóm tác giả đề xuất, trong đó xây dựng một đồ thị với mỗi câu được đại diện bởi một nút Các cạnh trong đồ thị thể hiện mối quan hệ giữa các câu, giúp xác định mức độ liên quan và tầm quan trọng của từng câu trong văn bản.

Ngoài những cách tiếp cận bằng việc xếp hạng câu, cũng có một số hướng tiếp cận mới lạ khác:

• Random: lựa chọn ngẫu nhiên các câu từ tài liệu gốc vào bản tóm tắt cuối cùng.

• Lead[3]: phương pháp tóm tắt thực hiện theo hai bước:

Để tạo một bản tóm tắt hiệu quả, bước đầu tiên là sắp xếp tất cả các câu trong tài liệu theo trình tự thời gian Sau đó, bước thứ hai là lựa chọn các câu đầu tiên để làm đầu ra cho bản tóm tắt.

• DSDR[7]: phương pháp mà trong đó lựa chọn các câu từ tập ứng viên bằng cách tái cấu trúc tuyến tính tập các câu trong tập tài liệu.

Phương pháp PV-DM là một kỹ thuật sử dụng mô hình mạng nơron để tái cấu trúc tài liệu thông qua việc tóm tắt các câu Mục tiêu cuối cùng của phương pháp này là lựa chọn các câu tóm tắt nhằm giảm thiểu lỗi trong quá trình tái cấu trúc.

Phương pháp PV-DBOW là kỹ thuật nhằm tối ưu hóa quá trình tóm tắt tài liệu bằng cách lựa chọn các câu từ tập ứng viên, với mục tiêu giảm thiểu lỗi tái cấu trúc giữa đầu ra tóm tắt và tài liệu gốc.

Các nghiên cứu liên quan theo hướng tóm lược

Với sự phát triển nhanh chóng của các mô hình học sâu, nghiên cứu về tóm tắt văn bản đang thu hút sự chú ý lớn từ các nhà khoa học Những thách thức trong bài toán này đã thúc đẩy việc tìm kiếm các giải pháp hiệu quả Sự xuất hiện của các mô hình xử lý ngôn ngữ tự nhiên, đặc biệt là mô hình Seq2seq, đã mở ra hướng đi mới cho việc tóm tắt văn bản, cho phép tạo ra nội dung tóm tắt mà không chỉ đơn thuần là lựa chọn và sắp xếp lại các đoạn văn từ văn bản gốc.

Một số phương pháp đã được áp dụng cho bài toán tóm tắt văn bản tóm lược trên thế giới có thể kể đến như:

Tóm tắt trừu tượng bằng mạng nơron đã lần đầu tiên được áp dụng trên bộ dữ liệu Duc2004, cho thấy hiệu suất ấn tượng Nhóm nghiên cứu đã chú trọng vào cơ chế attention và cải tiến thông qua các bộ giải mã hồi tiếp.

Mạng con trỏ-generator là một mô hình Seq2seq sử dụng cơ chế attention mềm để tạo ra chuỗi đầu ra, bao gồm các từ có trong tài liệu đầu vào.

Mô hình Actor-Critic sử dụng hai thành phần chính là Actor và Critic để tạo ra bản tóm tắt Actor là một mô hình Seq2seq kết hợp cơ chế attention và pointing, hoạt động như một diễn viên trong quá trình tóm tắt Trong khi đó, Critic là một mô hình học tăng cường, giúp nâng cao chất lượng bản tóm tắt thông qua việc đánh giá theo độ đo Rouge, đóng vai trò như một nhà phê bình.

Phương pháp sử dụng trong đề tài

Bài toán tóm tắt đa văn bản yêu cầu một lượng lớn dữ liệu để xây dựng mô hình end-to-end, nhưng việc tạo ra bộ dữ liệu này không chỉ tốn thời gian mà còn đòi hỏi kiến thức chuyên môn Trên toàn cầu, chưa có bộ dữ liệu nào đủ lớn để phát triển một mô hình học sâu cho bài toán này Để giải quyết vấn đề khan hiếm dữ liệu, đề tài này đề xuất một mô hình kết hợp giữa tóm tắt đa trích rút và tóm tắt đơn Đầu tiên, mô hình tóm tắt đa văn bản trích rút sẽ chuyển đổi tập dữ liệu tóm tắt đa văn bản thành tập tóm tắt đơn văn bản Sau đó, một mô hình tóm tắt đơn văn bản sẽ được xây dựng dựa trên một tập dữ liệu đơn tóm lược phong phú Cuối cùng, hai mô hình này sẽ được kết hợp để cải thiện hiệu quả tóm tắt.

Tóm tắt đa trích rút và tóm tắt đơn tóm lược cho phép xây dựng một mô hình tóm tắt đa tóm lược hiệu quả trên một tập dữ liệu nhỏ.

Mô hình tóm tắt đa văn bản trích rút sử dụng thuật toán K-means để nhóm các câu có đặc điểm tương đồng Phương pháp này áp dụng độ trung tâm của từ nhằm loại bỏ những câu không cung cấp thông tin hữu ích Tiếp theo, Maximal Marginal Relevance được áp dụng để giảm thiểu sự trùng lặp thông tin giữa các câu trong bản tóm tắt Cuối cùng, đặc trưng vị trí của các câu trong tài liệu được tận dụng để sắp xếp lại các câu trong bản tóm tắt cuối cùng.

Mô hình tóm tắt đơn văn bản sử dụng phương pháp Sequence to Sequence để tạo ra bản tóm tắt từ tài liệu đầu vào Cơ chế chú ý (attention) giúp mô hình tập trung vào các từ quan trọng trong tài liệu, trong khi cơ chế sao chép (pointing) cho phép sao chép những từ không có trong từ điển vào bản tóm tắt Cuối cùng, việc khai thác các đặc trưng quan trọng của văn bản đầu vào nhằm nâng cao hiệu quả của cơ chế Attention.

Báo cáo Luận văn này bao gồm các phần chính: Chương 2 trình bày cơ sở lý thuyết để hỗ trợ việc đề xuất mô hình tóm tắt văn bản trong Chương 3 Chương 4 sẽ giới thiệu các tập dữ liệu dùng để đánh giá chất lượng mô hình cùng với kết quả thí nghiệm Cuối cùng, Chương 5 sẽ tóm tắt những thành công và hạn chế của nghiên cứu này.

Hình 1.1: Phương pháp sử dụng trong đề tài

Các nền tảng lý thuyết đóng vai trò quan trọng trong việc phát triển các mô hình hiện đại cho xử lý ngôn ngữ tự nhiên Bài viết này sẽ trình bày những cơ sở lý thuyết cơ bản cần thiết để xây dựng mô hình tóm tắt văn bản trong khuôn khổ luận văn tốt nghiệp.

Lý thuyết về ngôn ngữ

Tiếng Anh

Tiếng Anh là ngôn ngữ bản ngữ lớn thứ ba toàn cầu, chỉ sau tiếng Trung Quốc và tiếng Tây Ban Nha Đây cũng là ngôn ngữ thứ hai phổ biến nhất trong việc học tập và là ngôn ngữ chính thức của nhiều quốc gia.

Tiếng Anh hiện đang được sử dụng ở 60 quốc gia có chủ quyền, với số người nói tiếng Anh như ngôn ngữ thứ hai và ngoại ngữ vượt xa số người bản ngữ Đây cũng là ngôn ngữ đồng chính thức của Liên Hợp Quốc, Liên minh châu Âu và nhiều tổ chức quốc tế khác Tiếng Anh là một ngôn ngữ biến hình, cho thấy sự biến đổi từ trong hình vị, với các ví dụ như "person" (người) trở thành "people" (mọi người), thể hiện sự thay đổi mang ý nghĩa ngữ pháp.

Ngôn ngữ biến hình là loại ngôn ngữ mà trong đó ý nghĩa từ vựng và ngữ pháp được kết hợp chặt chẽ, không thể tách rời Để hiểu rõ hơn về ngôn ngữ tiếng Anh, cần trình bày một số đặc điểm của ngôn ngữ biến hình.

Ngôn ngữ biến hình có sự kết hợp của các phụ tố, thể hiện ý nghĩa ngữ pháp Những phụ tố này có khả năng mang nhiều ý nghĩa khác nhau hoặc cùng một ý nghĩa mặc dù chúng khác nhau.

+ Ví dụ 1: paint -> painter (-er là phụ tố).

+ Ví dụ 2: expected -> unexpected (-un là phụ tố).

Trong ngôn ngữ biến hình, các hình vị trong từ có mối liên hệ chặt chẽ, cho thấy rằng ngay cả các tố biểu hiện ý nghĩa từ vựng cũng không thể tồn tại độc lập.

+ Ví dụ, trong tiếng Anh, chính tốbiol luôn luôn phải có phụ tố đi kèm: biology (sinh vật học), biologist(nhà sinh vật học).

• Các từ thường được biến đổi hình thái để thể hiện ý nghĩa ngữ pháp trong ngôn ngữ biến hình:

+ Ví dụ 1: paint (hiện tại) -> painted (quá khứ).

+ Ví dụ 2: build (hiện tại) -> built (quá khứ).

Các ngôn ngữ biến hình được chia thành hai loại chính: chuyển dạng - phân tích và chuyển dạng - tổng hợp Trong các ngôn ngữ tổng hợp, mối quan hệ giữa các từ được thể hiện qua các dạng thức của từ, dẫn đến nhiều cách diễn đạt khác nhau trong câu Ngược lại, trong ngôn ngữ phân tích, mối quan hệ này được thể hiện thông qua các từ phụ trợ và vị trí của từ, với tiếng Anh là một ví dụ điển hình của ngôn ngữ chuyển dạng - phân tích.

Trong luận văn tốt nghiệp, việc phân tích đặc điểm biến hình trong ngôn ngữ tiếng Anh thông qua việc lấy gốc từ giúp gom nhóm các từ biến hình về một đại diện duy nhất Điều này không chỉ giúp thu gọn kích thước từ điển mà còn cải thiện tốc độ và hiệu suất của mô hình ngôn ngữ Ví dụ về quá trình này có thể thấy ở nhiều từ khác nhau trong tiếng Anh.

Trong tiếng Anh, các từ dừng (stop words) chỉ được sử dụng để liên kết các từ chính hoặc phục vụ mục đích ngữ pháp mà không đóng góp về mặt nội dung sẽ được loại bỏ để giảm kích thước từ điển Ví dụ về các từ dừng trong tiếng Anh bao gồm: "the", "is", "at", "which", và "on".

Tiếng Việt

Tiếng Việt, hay còn gọi là tiếng Việt Nam, là ngôn ngữ chính thức tại Việt Nam và là tiếng mẹ đẻ của khoảng 85% dân số trong nước cùng với hơn 4 triệu người Việt kiều Ngoài ra, tiếng Việt cũng được sử dụng như ngôn ngữ thứ hai bởi các dân tộc thiểu số tại Việt Nam và là ngôn ngữ của cộng đồng người Việt tại Cộng hòa Séc.

Tiếng Việt là một ngôn ngữ đơn lập, trong đó các từ không biến đổi về mặt hình thái Điều này có nghĩa là hình thái của từ không chỉ ra mối quan hệ hay chức năng cú pháp giữa các từ trong câu, khiến cho các từ dường như đứng độc lập và không có liên kết rõ ràng với nhau.

Các ngôn ngữ đơn lập, trong đó có tiếng Việt, có những đặc điểm riêng biệt Để hiểu rõ hơn về tiếng Việt, việc nêu bật các đặc điểm của ngôn ngữ đơn lập là rất quan trọng.

• Trong ngôn ngữ đơn lập:

+ Từ trùng với căn tố (là loại hình vị mang ý nghĩa cơ bản của từ).

+ Từ không biến hình (từ không được cấu tạo từ chính tố và phụ tố).

+ Các từ trong câu đều "độc lập" với nhau.

+ Từ bao giờ cũng là đơn âm (khác biệt so với ngôn ngữ biến hình, từ có thể được cấu thành bởi nhiều âm).

Trong ngôn ngữ đơn lập, quan hệ và ý nghĩa ngữ pháp chủ yếu được thể hiện thông qua hư từ và trật tự từ Hư từ là những từ không mang nghĩa từ vựng nhưng có vai trò quan trọng trong việc truyền đạt ý nghĩa ngữ pháp.

− Xem - Đang xem + Dùng trật tự từ:

Trong ngôn ngữ đơn lập, từ đơn âm tiết là hạt nhân cơ bản của từ vựng, và việc kết hợp chúng tạo thành từ ghép là yếu tố quan trọng Ranh giới giữa các âm tiết thường trùng với ranh giới hình vị, khiến việc phân biệt giữa từ và hình vị trở nên khó khăn Do đó, sự phân biệt giữa đơn vị từ ghép và cụm từ cũng không rõ ràng.

+ Ví dụ 1: con_ngựa_đá/con_ngựa_đá

+ Ví dụ 2: con_ngựa/đá/con_ngựa_đá

Trong ngôn ngữ đơn lập, các từ thể hiện ý nghĩa về đối tượng, tính chất và hành động thường không có sự phân biệt về cấu trúc, mà được diễn tả thông qua các từ không biến đổi.

+ Đá (động từ): hành động đá (đá cầu).

+ Đá (danh từ): viên đá.

Tiếng Việt là ngôn ngữ đặc biệt với hệ thống dấu thanh phong phú, bao gồm 6 dấu: thanh ngang, thanh sắc, thanh huyền, thanh ngã và thanh hỏi Sự hiện diện của các dấu thanh không chỉ làm cho tiếng Việt trở nên nổi bật mà còn tạo ra giai điệu độc đáo, khác biệt so với nhiều ngôn ngữ khác.

"như hát" theo lời nhận xét của rất nhiều người nước ngoài).

Trong khuôn khổ luận văn tốt nghiệp, việc xác định từ ghép trong câu tiếng Việt là rất quan trọng, đặc biệt khi xem xét đặc điểm đơn lập của ngôn ngữ này Điều này giúp máy tính hiểu và xử lý ngôn ngữ một cách chính xác hơn.

Việc "hiểu" nội dung câu trong tiếng Việt có thể được thực hiện thông qua việc xác định từ ghép, như sử dụng thư viện VnCoreNLP Ví dụ, câu "Ông Nguyễn Khắc Chúc đang làm việc tại Đại học Quốc gia Hà Nội" có thể được tách thành "Ông Nguyễn_Khắc_Chúc đang làm_việc tại Đại_học Quốc_gia Hà_Nội."

Tiếng Việt là ngôn ngữ có dấu, nhưng việc đặt dấu vào ký tự trong từ thường gây nhầm lẫn Các bộ gõ khác nhau có thể đặt dấu ở vị trí khác nhau cho cùng một từ, vì vậy cần chuẩn hóa vị trí dấu để giảm kích cỡ từ điển và cải thiện độ chính xác cho mô hình.

Giống như tiếng Anh, tiếng Việt cũng có các stop words, tức là những từ không đóng góp nhiều về mặt nội dung trong câu Việc loại bỏ các từ này là cần thiết để giảm kích thước từ điển Ví dụ về stop words trong tiếng Việt bao gồm: "của", "và", "là".

Mô hình véc tơ hóa dữ liệu

Mô hình túi từ

Mô hình túi từ (Bag of Words - BoW) là một trong những mô hình cơ bản nhất để chuyển đổi dữ liệu văn bản thành véc tơ Đây là nền tảng mà các nhà nghiên cứu sử dụng để phát triển các mô hình phức tạp hơn Trong mô hình này, tài liệu được biểu diễn dưới dạng tập hợp các từ độc lập, kèm theo tần suất xuất hiện của chúng trong tài liệu.

Mô hình túi từ là một phương pháp biểu diễn tài liệu dưới dạng "túi" chứa các từ mà không chú trọng đến ngữ pháp hay thứ tự của chúng Cách tiếp cận này vẫn bảo toàn được sự đa dạng của nội dung tài liệu.

Mô hình túi từ sử dụng lược đồ trọng số TF-IDF

TF-IDF (Term Frequency – Inverse Document Frequency) là một phương pháp thống kê phổ biến trong cộng đồng học thuật, dùng để xác định độ quan trọng của từ trong văn bản Giá trị tf-idf thường được áp dụng như một trọng số trong các nhiệm vụ xử lý ngôn ngữ tự nhiên, giúp chuyển đổi từ ngữ thành tập hợp trọng số tương ứng Để hiểu rõ hơn về cách tính toán trọng số tf-idf, chúng ta cần xem xét chi tiết từng thành phần của nó.

• TF (Term Frequency): tần suất xuất hiện của một từ trong văn bản chứa từ đó.

Tần suất xuất hiện của từ (TF) phụ thuộc vào độ dài của văn bản Để chuẩn hóa, TF thường được tính bằng cách chia tần suất xuất hiện của từ đó cho độ dài của đoạn văn bản Công thức tính TF là: tf(w) = f(w, t).

+ f(w, t) : biểu thị tần suất của từ w bất kỳ trong tài liệu t.

+ T : số lượng từ có trong tài liệu đang xét.

TF coi mỗi từ trong văn bản đều quan trọng, tuy nhiên, không phải từ nào cũng mang lại giá trị như các từ dừng (stop words) như "thì".

Trong văn bản, các từ như "là", "à", "ờ" xuất hiện nhiều nhưng không đóng góp nhiều vào nội dung Để khắc phục nhược điểm này, việc tăng cường độ quan trọng của các từ ít xuất hiện được thực hiện thông qua phương pháp IDF (Inverse Document Frequency).

Công thức tính IDF: idf(w) = log

+ |w∈D:w∈d|:số tài liệu trong D có chứa từ w.

• Như vậy, tf-idf được tính theo công thức: tf −idf =tf(w)×idf(w)

Mô hình tf-idf, dựa trên khái niệm Bag of Words, sử dụng trọng số tf-idf để thể hiện độ quan trọng của từ trong văn bản Nhờ đó, tài liệu được biểu diễn dưới dạng tập hợp các từ kèm theo trọng số tf-idf tương ứng, giúp nâng cao hiệu quả phân tích văn bản.

Hình 2.2: Bag of Word với trọng số tf-idf[17]

Nhúng từ

Sơ lược về Nhúng từ

Nhúng từ (Word embedding) là một phương pháp đột phá trong việc véc tơ hóa dữ liệu, cho phép chuyển đổi mỗi từ thành một véc tơ đại diện dày đặc Phương pháp này cải thiện mô hình BoW (Bag of Words), vốn chỉ dựa vào tần suất xuất hiện của từ, dẫn đến các véc tơ thường lớn nhưng thưa thớt, với hầu hết các giá trị bằng 0.

Nhúng từ (Word embedding) là một phương pháp học máy sử dụng khối lượng tài liệu lớn để biểu diễn từ dưới dạng véc tơ dày đặc, giúp cải thiện độ chính xác trong nhiều nhiệm vụ như phân tích biểu cảm, nhận dạng thực thể và tóm tắt văn bản Trong luận văn này, tôi sẽ tập trung vào phương pháp Word2Vec, một trong những kỹ thuật nhúng từ nổi tiếng nhất.

Word2Vec là một phương pháp học nhúng từ được phát triển bởi nhóm nghiên cứu do Tomas Mikolov dẫn dắt và đã được cấp bằng sáng chế Phương pháp này bao gồm hai kỹ thuật chính là Skip-Gram và Continuous Bag of Words (CBOW), được cộng đồng nghiên cứu phân tích và giải thích để hiểu rõ hơn về cách hoạt động của nó.

Continuous Bag of Words (CBOW) là một mô hình học máy dùng để dự đoán từ tiếp theo dựa trên ngữ cảnh của từ hiện tại Mô hình này học cách biểu diễn từ bằng cách sử dụng các từ đứng trước để dự đoán từ hiện tại Ví dụ, trong câu "Tôi có một ngày tuyệt vời", CBOW sẽ phân tích các từ xung quanh để hiểu và dự đoán từ cần thiết.

Mô hình sử dụng từ "ngày" làm đầu vào để dự đoán từ "tuyệt vời" bằng cách chuyển đổi "ngày" thành véc tơ one hot Sau đó, nó tính toán lỗi đầu ra so với véc tơ one hot của từ "tuyệt vời" Trong quá trình tối ưu hóa lỗi này, mô hình không chỉ cải thiện dự đoán cho từ "tuyệt vời" mà còn học cách biểu diễn véc tơ cho từ này.

Kiến trúc thực tế của mô hình được thể hiện qua hình 2.3.

Hình 2.3: Mô hình CBOW với một từ trong ngữ cảnh[29]

Đầu vào của mô hình là một véc tơ mã hóa one hot với kích thước V Lớp ẩn, hay còn gọi là lớp nơron ẩn, bao gồm N nơron Kết quả đầu ra của mô hình cũng là một véc tơ có kích thước V.

+W V ×N biểu thị một ma trận có trọng số ánh xạ đầu vào tới lớp ẩn, trong đó,

V ×N là chiều của ma trận W.

+ W N 0 ×V biểu thị một ma trận có trọng số với số chiều là N ×V (ánh xạ các lớp ẩn tới lớp đầu ra).

Từ lý thuyết này, rõ ràng mô hình cũng có thể nhận nhiều từ đầu vào để đoán ra từ mục tiêu, ý tưởng này được mô tả trong hình 2.4.

Mô hình trong hình 2.4 thể hiện ngữ cảnh của từ C, do đó, để tính toán các đầu vào cho lớp ẩn, mô hình sẽ sử dụng trung bình véc tơ của từ C.

• Skip-Gram[29]: khác với mô hình CBOW, Skip-Gram học nhúng từ bằng cách đoán ra các từ có liên quan đến một từ đầu vào.

Hình 2.5: Kiến trúc Skip-Gram[29]

Mô hình Skip-Gram nhận một từ đầu vào và dự đoán nhiều từ đầu ra, cho thấy hiệu quả vượt trội với các từ hiếm gặp Ngược lại, mô hình CBOW lại hoạt động tốt hơn với những từ phổ biến.

Phương pháp đánh giá

Độ đo Rouge

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) là một chỉ số phổ biến dùng để đánh giá chất lượng bản tóm tắt, giúp các nhà nghiên cứu so sánh mô hình của họ với các nghiên cứu khác trên cùng một bộ dữ liệu Trong luận văn tốt nghiệp, tôi sử dụng chỉ số ROUGE để kiểm tra chất lượng các mô hình tóm tắt mà tôi thử nghiệm Để đánh giá một bản tóm tắt tự động, bản tóm tắt do con người tạo ra được dùng làm mục tiêu cho hệ thống tự động Một bản tóm tắt hệ thống được coi là tốt khi nội dung của nó tương đồng với bản tóm tắt tham chiếu do con người tạo ra Do đó, ROUGE được phát triển như một công cụ để đánh giá mức độ khớp nhau giữa bản tóm tắt hệ thống và bản tóm tắt tham chiếu.

+ Bản tóm tắt hệ thống (system summary) được sinh ra từ mô hình tóm tắt văn bản tự động:

"con_mèo được tìm_thấy ở dưới cái_bàn"

+ Bản tóm tắt tham chiếu (reference summary) được tạo ra bởi con người:

"con_mèo ở dưới cái_bàn"

Tổng số từ chồng chéo giữa bản tóm tắt hệ thống và bản tóm tắt tham chiếu là 4, nhưng con số này không đủ để đánh giá chất lượng của bản tóm tắt hệ thống.

Vì vậy, để có được một đánh giá tốt, việc tính toán Precision[34] và Recall[34] qua các từ chồng chéo được sử dụng trong độ đo Rouge.

Recall trong ngữ cảnh này chỉ ra mức độ mà hệ thống đã tiếp nhận nội dung từ bản tóm tắt do con người tạo ra Công thức tính Recall được sử dụng để xác định hiệu quả của hệ thống trong việc thu thập thông tin quan trọng từ tài liệu gốc.

Recall= number_of _overlapping_words total_words_in_ref erence_summary

Với ví dụ về con mèo đã cho:

Toàn bộ số từ trong bản tóm tắt của con người đã được hệ thống viết lại, tuy nhiên điều này chưa phản ánh đầy đủ chất lượng của bản tóm tắt hệ thống Trong trường hợp bản tóm tắt hệ thống dài và viết lại hầu hết nội dung của tài liệu gốc, nhiều từ trong bản tóm tắt hệ thống lại không xuất hiện trong bản tóm tắt tham chiếu Vì lý do này, việc sử dụng Precision là cần thiết để đánh giá chất lượng tóm tắt.

Precison ở đây có thể giải thích rằng, có bao nhiêu từ có trong bản tóm tắt được tạo bởi hệ thống là cần thiết Cách tính Precision:

P recison= number_of_overlapping_words total_words_in_system_summary

Với ví dụ về con mèo đã cho:

Độ đo Rouge sử dụng chỉ số F1-Score để đánh giá một cách công bằng giữa Precision và Recall, dựa trên hai tiêu chí này F1-Score là thước đo quan trọng giúp cân bằng giữa độ chính xác và khả năng hồi phục trong các bài đánh giá.

F1-Score được tính toán theo công thức:

F1−Score= 2× precison×recall precision+recall

Xét ví dụ đã lấy ở trên, giá trị F1-Score sẽ là:

Một số biến thể của độ đo Rouge

Rouge-N và Rouge-L là hai biến thể quan trọng trong việc đánh giá chất lượng của tóm tắt văn bản, giúp so sánh hiệu quả giữa bản tóm tắt do hệ thống tạo ra và bản tóm tắt tham chiếu.

• Rouge-N: sử dụng đơn từ, hai từ, ba từ hoặcn từ chồng chéo.

• Rouge-L: dựa trên LCS[37] (Longest Common Subsequence) để tìm ra các chuỗi chung dài nhất.

+ Ví dụ, LCS của hai chuỗi "C D E" và "C E D" là cả "C D" và "C E".

Cơ sở lý thuyết cho mô hình tóm tắt đa văn bản trích rút

K-means

Đầu tiên, trước khi bắt đầu với K-means[31], một số thuật ngữ cần được làm rõ:

• Bài toán phân cụm (clustering): đầu vào là một tập{x 1 , , x N }không có nhãn; đầu ra {y1, , yN} là các nhãn của tập đầu vào.

• Cụm (cluster): là một tập các điểm x i có cùng nhãn y j với nhau Trong đó, các điểm trong cùng một nhãn có tính chất giống nhau.

+ Các trung tâm của cụm m 1 , m 2 , , m K ∈R d×1

Xét điểm x i , đặt y i = [y i1 , y i2 , , y iK ] là nhãn của x i Trong đó nếu x i thuộc cụm k thì y ij = 0,∀j 6=k Nghĩa là y i = 1,yj6=i = 0.

Với ràng buộc về nhãn này, ràng buộc có thể viết lại như sau: y ik ∈ {0,1},

Trong bài toán phân cụm, trung tâm của cụm được coi là đại diện cho các điểm dữ liệu Mục tiêu là giảm thiểu sai số giữa điểm dữ liệu và trung tâm cụm, được tính bằng công thức (x i −m k ) Do y ik = 1 và y ij = 0 với mọi j khác k, bài toán chuyển thành việc tối ưu hóa giá trị y ik ||x i −m k || 2 2.

P j=1 y ij ||x i −m j || 2 2 đạt giá trị nhỏ nhất Như vậy, sai số của toàn bộ dữ liệu sẽ là:

Trong bài toán phân cụm K-means, Y = [y1; y2; ; yN] đại diện cho ma trận nhãn, trong khi M = [m1, m2, , mK] thể hiện trung tâm của từng cụm Hàm mất mát được sử dụng là L(Y, M) với các ràng buộc đi kèm.

Tóm lại thuật toán phân cụm K-means đi vào tối ưu hàm số sau:

Một phương pháp đơn giản để giải quyết bài toán tối ưu này là xen kẽ giữa việc giải bài toán tối ưu Y và M, trong đó biến còn lại được xem là cố định Thuật toán sẽ lần lượt giải quyết hai bài toán này.

• Cố định M, để tính Y (đã có các trung tâm, cần tìm các nhãn) để hàm mất mát đạt giá trị cực tiểu:

Khi các trung tâm được cố định, việc xác định nhãn cho toàn bộ dữ liệu có thể được phân tách thành bài toán tìm nhãn cho từng điểm dữ liệu x i, với công thức yi = arg min j=1.

Do chỉ có một phần tử của nhãn y i bằng một nên bài toán lại có thể được viết dưới đơn giản hơn: j = arg min j ||x i −m j || 2 2

Khoảng cách bình phương giữa điểm xi và trung tâm mj được biểu diễn bằng ||xi−mj||²², cho thấy rằng mỗi điểm xi sẽ thuộc về cụm có trung tâm gần nhất Do đó, nhãn của từng điểm dữ liệu có thể được xác định một cách dễ dàng dựa trên khoảng cách này.

Một khi đã xác định được nhãn cho từng điểm, bài toán tìm trung tâm cho mỗi cụm được rút gọn thành: m j = arg min m j

Có thể tìm nghiệm của hàm tối ưu bằng cách đặt đạo hàm bằng 0, vì hàm này là liên tục và có đạo hàm xác định tại mọi điểm Đặt l(m j ) là hàm trong dấu argmin.

P i=1 y ij (m j −x i ) Giải phương trình với đạo hàm bằng 0: m j

Phân cụm K-means là một thuật toán trong học máy, trong đó PN i=1yij biểu thị tổng số điểm trong cụm Tên gọi của phương pháp này xuất phát từ đặc điểm quan trọng này của thuật toán.

Tóm tắt thuật toán phân cụm K-means Đầu vào: dữ liệu X và K cụm cần tìm. Đầu ra: các trung tâm M và nhãn Y.

• Bước một: K điểm ngẫu nhiên được chọn làm trung tâm.

• Bước hai: lặp lại bước 2.1 và 2.2 đến khi các cụm không thay đổi:

+ Bước 2.1: dựa vào điểm trung tâm, phâm cụm cho các điểm dữ liệu.+ Bước 2.2: tính toán lại tâm cụm.

LexRank

LexRank là một phương pháp xây dựng đồ thị trọng số nhằm xác định độ quan trọng của các câu trong tập tài liệu Thuật toán này sử dụng độ đo cosine của các véc tơ tf-idf để tính toán trọng số cho từng câu, qua đó giúp xác định mức độ quan trọng của chúng trong văn bản.

• x, y: hai câu cần đo độ tương đồng.

• tf w,x : tần suất của từ w trong x.

• idf w : độ quan trọng của w.

Ma trận tương tự được xây dựng từ độ tương đồng giữa các cặp câu, tạo thành một đồ thị thể hiện mối liên quan giữa chúng Độ quan trọng của một câu được xác định dựa trên mức độ liên quan với các câu khác trong tài liệu LexRank áp dụng ngưỡng để loại bỏ những câu có mối liên quan thấp, giúp tối ưu hóa quá trình tóm tắt văn bản Các nút có trọng số cao trong đồ thị cho thấy sự liên quan mạnh mẽ với các câu khác, chỉ ra rằng chúng chứa thông tin quan trọng và nên được đưa vào tóm tắt.

Maximal Marginal Relevance (MMR)

Phương pháp Maximal Marginal Relevance (MMR) là một kỹ thuật cổ điển trong trích rút thông tin, nhằm tìm ra các câu liên quan nhất đến câu chủ đề, được xác định là câu truy vấn của người dùng Điểm nổi bật của MMR là công thức tính trọng số không chỉ xem xét độ liên quan mà còn loại bỏ sự chồng chéo thông tin bằng cách đánh giá độ tương đồng giữa các câu trong tài liệu và các câu đã được chọn.

Trọng số MMR của một văn bản (một câu) đối với một câu truy vấn được cung cấp bởi người dùng được tính như sau:

• C : một tập các tài liệu (các câu) cho trước.

• Q: một câu truy vấn được cung cấp bởi người dùng.

• Sim1 :tính toán độ tương tự giữa Q và câu Di.

• Sim 2 :tính toán độ tương tự giữa câu Di và các câu trong S.

Tham số λ nằm trong khoảng [0,1], ảnh hưởng đến sự lựa chọn câu trong văn bản Khi λ nhỏ, các câu được chọn thường gần gũi với câu chủ đề, trong khi khi λ lớn, sự đa dạng của các câu được chọn sẽ tăng lên.

Phương pháp sử dụng độ trung tâm

Phương pháp Centroid-based sử dụng trọng số tf-idf để xác định tầm quan trọng của từ, từ đó xác định độ trung tâm của câu Bằng cách này, nó tạo ra một bản tóm tắt chỉ bao gồm các câu trung tâm, giúp làm nổi bật nội dung chính của văn bản.

Thuật toán của bài toán tóm tắt văn bản sử dụng độ trung tâm:

• Với tập từ vựng cho trước, các câu trong tài liệu được véc tơ hóa sử dụng mô hình BoW với trọng số tf-idf.

Véc tơ trung tâm (centroid) có kích thước tương đương với kích thước của tập từ vựng, trong đó mỗi thành phần aw ∈ vcentroid đại diện cho từ w Giá trị của aw được tính dựa trên công thức: aw = P s∈S tf_idf w,s.

Với: S là tập các câu và tf_idfw,s là tf-idf của từ w trong câu s.

Để xác định độ trung tâm của câu, ta dựa vào độ tương tự giữa câu đó và véc tơ trung tâm Những câu có độ tương tự nhỏ hơn ngưỡng θ sẽ được xem là không trung tâm Công thức tính độ tương đồng được điều chỉnh như sau: centroid = (1−cosine(u,v))+1.

Với u, v là hai cõu cần tớnh độ tương đồng và cosine(u, v) = 1− ||u|| uãv

• Các câu trung tâm sau đó được sắp xếp theo giá trị giảm dần độ trung tâm.

Các câu có độ trung tâm cao nhất nên được chọn vào bản tóm tắt Để tránh việc chọn hai câu tương đồng nhưng đều có độ trung tâm cao, cần áp dụng cơ chế ngưỡng.

+ V: tập các câu đã chọn.

2 ||v|| 2.+ θ sim : ngưỡng được khởi tạo ban đầu.

Cơ sở lý thuyết cho bài toán tóm tắt đơn văn bản tóm lược

Mạng nơron hồi quy (Recurrent Neural Network - RNN)

Mạng nơron hồi quy (RNN) được thiết kế để học và xử lý các chuỗi dữ liệu RNN có khả năng ghi nhớ các chuỗi có độ dài tùy ý thông qua việc thiết lập các kết nối giữa các đơn vị trong một chu trình có hướng.

Trong RNN, thành phần chính là hàm chuyển đổi tại mỗi bước thời gian t, nơi thông tin hiện tại xt và đầu ra ẩn trước đó ht−1 được sử dụng để cập nhật đầu ra ẩn hiện tại Cụ thể, quá trình này được mô tả bằng công thức: ht = H(xt, ht−1).

Hình 2.6: Một đơn vị trong RNN[26]

H định nghĩa một hàm phi tuyến, cụ thể là hàm tanh, trong cấu trúc hồi quy của mạng RNN Trong phương trình, ht−1 được coi là bộ nhớ của các đầu vào trước đó, cho phép RNN lưu giữ thông tin từ các đầu vào trước đó trong trạng thái bên trong của mạng Sau khi xử lý toàn bộ chuỗi, đầu ra ẩn cuối cùng ht có thể xem như một véc tơ mã hóa cho toàn bộ chuỗi đầu vào một cách tuần tự Các công thức khác nhau của H đến từ các mô hình RNN khác nhau, trong đó RNN cơ sở (Vinilla RNN) sử dụng một hàm chuyển đổi tuyến tính kết hợp với một hàm kích hoạt phi tuyến, được biểu diễn bằng công thức: ht = ϕ(Wxt + Hht−1 + b).

Trong đó,W ∈R d×k và H ∈R d×d đại diện cho các ma trận biến đổi vàb ∈R d là véc tơ bias Vàϕ là hàm kích hoạt phi tuyến như hàmsigmoid hoặc hàm tanh.

Do vấn đề biến mất đạo hàm trong quá trình lan truyền ngược, Vinilla RNN thường không thể học các phụ thuộc dài hạn, dẫn đến việc h mất thông tin từ đầu chuỗi dữ liệu Để khắc phục vấn đề này, hai biến thể là Long Short Term Memory (LSTM) và Gated Recurrent Unit (GRU) đã được phát triển, trong đó GRU là phiên bản đơn giản hơn của LSTM.

Long Short Term Memory (LSTM - Bộ nhớ dài-ngắn hạn)

Để giảm thiểu mất mát thông tin do vấn đề biến mất đạo hàm trong mạng RNN, LSTM đã được phát triển như một biến thể của RNN, nhằm nâng cao khả năng lưu trữ thông tin quan trọng.

Ngoài việc sử dụng hai đầu vào là đầu vào hiện tại (x_t) và trạng thái ẩn (h_{t-1}) như trong mạng RNN thông thường, LSTM còn bổ sung thêm một đầu vào quan trọng là trạng thái ô (c_{t-1}) Trạng thái ô đóng vai trò quan trọng trong việc lưu trữ thông tin lâu dài, giúp cải thiện khả năng ghi nhớ và xử lý dữ liệu trong mạng nơ-ron.

Bộ nhớ của mạng LSTM cho phép lưu trữ thông tin từ các bước thời gian đầu tiên, giúp hạn chế tác động của bộ nhớ ngắn hạn như trong mạng RNN truyền thống.

Cấu trúc một Cell (một ô) của LSTM được hình thành từ ba cổng:

Hình 2.7: Cấu trúc Cell trong LSTM

Như vậy, cấu trúc của LSTM gồm Forget gate (cổng quên), Input gate (cổng đầu vào) và Output gate (cổng đầu ra):

• Forget gate (f t )(hình 2.8): có nhiệm vụ quyết định liệu thông tin của Cell state ở timestep t−1 có cần được lưu trữ hay không:

Hình 2.8: Forget gate trong LSTM[23]

• Input gate (it)(hình 2.9): có nhiệm vụ cập nhật thông tin vào Cell state:

Hình 2.9: Input gate trong LSTM[23]

Hình 2.10: Cell state trong LSTM[23]

• Output gate (o t )(hình 2.11): có nhiệm vụ tính giá trị của Hidden state cho timestep tiếp theo:

Hình 2.11: Output gate trong LSTM[23]

• Forget gate: 0< ft, it, ot 1, trạng thái ẩn của bộ decoder h d t+1 được cập nhật: h d t+1 =LST M h d t , Ey t ⊕˜h d t

Trong đó,E là token đầu vào; đầu vào là sự kết hợp của E y t và ˜h d t

Cơ chế Pointing/Copying

Cơ chế pointing/copying, hay còn gọi là cơ chế sao chép, là một phương pháp tạo ra các token mục tiêu bằng cách sao chép trực tiếp từ chuỗi đầu vào dựa trên trọng số attention Phương pháp này rất phù hợp cho việc tóm tắt văn bản, vì các bản tóm tắt và tài liệu đầu vào thường chia sẻ từ vựng chung.

Một khía cạnh quan trọng của công nghệ này là khả năng giải quyết các vấn đề liên quan đến từ không tồn tại trong tập từ vựng ban đầu (OOV) Nhiều nghiên cứu đã chỉ ra rằng việc kết hợp cơ chế pointing/copying vào nền tảng Seq2seq mang lại hiệu suất tốt hơn.

Hình 2.15: Mô hình sử dụng cơ chế pointer[13]

Kiến trúc cơ bản của pointer softmax bao gồm ba thành phần cơ bản: short-list softmax,location softmax vàswitching network Tại bước giải mãt, một short-list softmax

P vocab,t được tính toán theo:

Short-list softmax được sử dụng để dự đoán các token mục tiêu trong tập từ vựng Location softmax xác định vị trí của các token sẽ được sao chép từ tài liệu nguồn x tới mục tiêu yt dựa trên trọng số attention α e t Để kết hợp hai thành phần này, một mạng chuyển đổi (switching network) được thiết kế nhằm quyết định liệu nên dự đoán một token từ tập từ vựng hay sao chép một token từ tài liệu nguồn nếu đó là token không nằm trong tập từ vựng (OOV token) Mạng chuyển đổi là một Multilayer Perceptron (MLP) với hàm kích hoạt sigmoid, ước lượng xác suất p gen,t của việc tạo ra các token từ tập từ vựng dựa trên véc tơ ngữ cảnh z t e và trạng thái ẩn h d t, với công thức: pgen,t =σ Ws,zZ t e +Ws,hh d t +bs.

Trong đó, p gen,t là một đại lượng vô hướng và σ(a) = 1 + exp(−a) là hàm kích hoạt sigmoid Xác suất cuối cùng của việc tạo ra token mục tiêu được tính bằng cách kết hợp các véc tơ p gen,t P vocab,t và (1−p gen,t )α e t Lưu ý rằng nếu w là một từ không có trong từ điển ban đầu thì P vocab(w) = 0; tương tự, nếu w không xuất hiện trong văn bản nguồn thì α e t = 0.

Tương tự như mạng chuyển mạch trong pointer softmax, bộ sinh chuyển mạch cũng sử dụng một "bộ chuyển đổi" (switch) để quyết định xem có nên sinh ra một token từ tập từ vựng hay sao chép từ tài liệu nguồn trong quá trình giải mã Bộ chuyển đổi được mô hình hóa rõ ràng với công thức: pgen,t =σ Ws,zz t e +Ws,hh d t +Ws,EEy t−1 +bs.

Nếu bộ chuyển đổi được bật, decoder tạo một word từ tập từ vựng với phân phối

Trong quá trình giải mã, decoder sẽ tạo ra một pointer dựa trên phân phối attention α e t, với vị trí của token trong tài liệu nguồn được xác định bởi p j argmaxj∈{1,2, ,J}α e tj Khi pointer được kích hoạt, token được chỉ định E x j sẽ được sử dụng làm đầu vào cho bước giải mã tiếp theo.

Beam Search

Trong quá trình tạo ra bản tóm tắt mới, bộ decoder tiếp nhận đầu vào từ kết quả của bước trước, với bước đầu tiên nhận đầu vào từ bộ encoder Để nâng cao hiệu quả tìm kiếm chuỗi đầu ra, có thể áp dụng phương pháp Beam Search.

Trong quá trình giải mã, thuật toán Beam Search không chỉ chọn từ có xác suất cao nhất mà còn lựa chọn một số từ (kích thước beam size) từ phân bố xác suất cao nhất để sử dụng cho bước giải mã tiếp theo Quá trình này tiếp tục cho đến khi gặp ký hiệu kết thúc "", lúc đó, bản tóm tắt có xác suất cao nhất sẽ được chọn làm đầu ra cuối cùng.

Ví du, với beam size=5 (hình 2.16), tại mỗi bước decoding ta sẽ giữ lại 5 từ có phân bố xác suất cao nhất.

Hình 2.16: Giải thuật Beam Search[28]

Hướng tiếp cận và mô hình đề xuất

Bài toán tóm tắt đa văn bản theo hướng tóm lược gặp khó khăn do thiếu dữ liệu chuẩn lớn để huấn luyện mô hình học sâu Tình trạng này không chỉ xảy ra tại Việt Nam với dữ liệu tiếng Việt mà còn là thách thức toàn cầu cho các nhà nghiên cứu Việc tạo ra bộ dữ liệu cho tóm tắt đa văn bản đòi hỏi nhiều công sức từ các chuyên gia, và hiện chưa có bộ dữ liệu đủ lớn cho bài toán này Trong chương này, tôi sẽ đề xuất một mô hình nhằm giải quyết vấn đề khan hiếm dữ liệu.

Mô hình tóm tắt đa văn bản theo hướng trích rút

Mô hình tóm tắt đơn văn bản theo hướng tóm lược

Chuẩn bị dữ liệu

Đánh giá chất lượng mô hình

Tiêu đề	Tóm tắt đa văn bản tiếng Việt
Tác giả	Cao Mạnh Hải
Người hướng dẫn	PGS.TS. Lê Thanh Hương
Trường học	Trường Đại học Bách Khoa Hà Nội
Chuyên ngành	Khoa học dữ liệu
Thể loại	luận văn thạc sĩ
Năm xuất bản	2021
Thành phố	Hà Nội

Định dạng
Số trang	66
Dung lượng	2,78 MB