Ngoài ra, chúng tôi giới thiệu một phương pháp xử lý các đơn vị diễnngôn cơ bản Elemental Discourse Units - EDU, sau đó các EDU được sử dụng làmđầu vào cho các mô hình tóm tắt tóm lược..
CÁC NGHIÊN CỨU LIÊN QUAN 1 1.3 VẤN ĐỀ NGUYÊN CỨU
Mục tiêu nghiên cứu
Đề tài nghiên cứu và phát triển phương pháp tóm lược văn bản tiếng Việt sử dụng mô hình sinh được huấn luyện theo kỹ thuật BRIO Mục tiêu chính là tạo ra một bản tóm tắt ngắn gọn, mạch lạc, đồng thời bảo đảm giữ nguyên nội dung quan trọng của văn bản gốc.
Đối tượng và phạm vi nghiên cứu 3 1.3.3 Phương pháp nghiên cứu 3 1.3.4 Nội dung nghiên cứu
Đối tượng nghiên cứu của đề tài là các mô hình tóm tắt văn bản, tập trung vào mô hình BART và BARTpho, cùng với phương pháp huấn luyện BRIO Phạm vi nghiên cứu chủ yếu là các văn bản tiếng Việt.
Chúng tôi tiến hành nghiên cứu thông tin từ Internet, tài liệu khoa học và sách vở liên quan Dựa trên những kiến thức thu được, chúng tôi đề xuất các giải pháp nhằm giải quyết vấn đề và thực hiện đánh giá để tìm ra giải pháp tối ưu nhất cho thách thức hiện tại.
1.3.4 Nội dung nghiên cứu Đề tài nghiên cứu sử dụng mô hình BART và BARTpho như mô hình chính giúp giải quyết bài toán tóm tắt tóm lược văn bản, phương pháp xây dựng các đơn vị diễn ngôn EDU, cùng với việc áp dụng kỹ thuật huấn luyện BRIO cho việc huấn luyện mô hình tóm tắt văn bản tiếng Việt Cụ thể như sau:
This study explores a summarization model based on BART, integrating various attention techniques, including re-attention, Longformer's attention mechanism, and relative attention The research aims to enhance the effectiveness of the BART summarization model by leveraging these advanced attention methods.
- Nghiên cứu kỹ thuật huấn luyện BRIO để huấn luyện mô hình tóm tắt tóm lược BART.
- Nghiên cứu phương pháp xây dựng các đơn vị diễn ngôn (Elemental Discourse Units - EDU) cho tác vụ tóm tắt văn bản.
- Nghiên cứu cách huấn luyện mô hình tóm tắt tóm lược BART với kỹ thuật BRIO với đầu vào là các EDU.
BỐ CỤC CỦA LUẬN VĂN
Luận văn được trình bày bao gồm các nội dung sau:
Chương 1 - Giới thiệu cung cấp bối cảnh nghiên cứu, nêu rõ mục tiêu và phạm vi của đề tài Phương pháp nghiên cứu được trình bày chi tiết, cùng với những đóng góp về mặt khoa học và thực tiễn mà đề tài mang lại.
- Chương 2 - Cơ sở lý thuyết: Trình bày về cơ sở lý thuyết và các kỹ thuật liên quan.
- Chương 3 - Phương pháp thực hiện: Cách thực hiện xây dựng mô hình tóm tắt tóm lược.
- Chương 4 - Kết quả thực nghiệm: Trình bày thực nghiệm và ghi nhận các kết quả, đánh giá mô hình nghiên cứu.
- Chương 5 - Kết luận và hướng phát triển: Thảo luận kết quả đạt được của luận văn và đề xuất hướng phát triển trong tương lai.
CƠ SỞ LÝ THUYẾT
TÓM TẮT VĂN BẢN
Tóm tắt văn bản tự động là quy trình tạo bản tóm tắt từ một hoặc nhiều tài liệu, giữ lại những nội dung quan trọng nhất Có hai phương pháp chính trong tóm tắt văn bản tự động: tóm tắt rút trích, nơi các câu hoặc đoạn văn được chọn từ văn bản gốc, và tóm tắt trừu tượng, trong đó nội dung được diễn đạt lại bằng ngôn ngữ mới.
Tóm tắt rút trích là phương pháp lựa chọn các câu quan trọng từ văn bản gốc, giữ nguyên nội dung và sắp xếp theo thứ tự ban đầu Quy trình này được minh họa trong Hình 2.1.
Hình 2.1 Quy trình tóm tắt rút trích
Tóm tắt rút trích cơ bản gồm các bước:
Bước đầu tiên trong quy trình xử lý dữ liệu là tiền xử lý, bao gồm việc tách câu, token hoá, tạo bộ từ vựng và loại bỏ các thành phần không cần thiết như đại từ, từ dừng và từ nối Tiếp theo, từ dữ liệu văn bản và bộ từ vựng đã xây dựng ở bước 1, chúng ta tiến hành vectơ hoá dữ liệu theo từng câu.
- Bước 3: Xếp hạng các vectơ theo mô hình hoặc quy tắc tính điểm đã có từ trước.
Số điểm cao của các vectơ cho thấy tầm quan trọng của câu trong văn bản Bước 4 là so sánh điểm số của các vectơ để xác định thứ tự của những câu quan trọng nhất trong tài liệu gốc, từ đó tạo ra một bản tóm tắt hiệu quả.
Tóm tắt tóm lược là phương pháp tạo ra bản tóm tắt thông qua việc hiểu biểu diễn ngữ nghĩa của văn bản gốc, nhằm cung cấp một bản tóm tắt đầy đủ và rõ ràng Khác với tóm tắt rút trích, phương pháp này cho phép sử dụng từ ngữ không có trong văn bản gốc, giúp truyền tải thông tin hiệu quả hơn từ nhiều tài liệu khác nhau Một bản tóm tắt tóm lược chính xác sẽ mang lại thông tin mạch lạc, dễ đọc và đúng ngữ pháp, nâng cao trải nghiệm cho người đọc.
Có hai cách tiếp cận chính để tóm tắt tóm lược:
Phương pháp dựa trên cấu trúc và ngữ nghĩa mã hóa thông tin quan trọng thông qua các lược đồ trừu tượng như mẫu, quy tắc trích xuất và các cấu trúc thay thế như cây, ontology, câu dẫn, câu thân, quy tắc và đồ thị Các phương pháp cụ thể bao gồm việc sử dụng sơ đồ cây, ontology, đồ thị, mẫu, câu dẫn và câu thân, cùng với các nguyên tắc liên quan.
Phương pháp tiếp cận dựa trên ngữ nghĩa kết hợp ngôn ngữ học để minh họa tài liệu và tích hợp vào mô hình sinh ngôn ngữ tự nhiên (NLG) Các phương pháp này bao gồm ngữ nghĩa đa phương thức, ngữ nghĩa dựa trên biểu đồ, ngữ nghĩa dựa trên mục thông tin, và biểu diễn văn bản ngữ nghĩa.
Quy trình của tóm tắt tóm lược theo phương pháp tiếp cận dựa trên ngữ nghĩa được trình bày như hình sau:
Hình 2.2 Quy trình tóm tắt tóm lược
Tóm tắt tóm lược về cơ bản gồm các bước sau:
- Bước 1: Tiền xử lý dữ liệu Gồm các quá trình tách câu, token hoá, tạo bộ từ vựng, xoá từ dừng,…
Để tạo văn bản tóm tắt hiệu quả, trước tiên cần phân tích ngữ nghĩa của câu để hiểu rõ khái niệm và mối quan hệ giữa các ý tưởng, cú pháp và cấu trúc Sau đó, lựa chọn hoặc kết hợp những ngữ nghĩa quan trọng từ bước phân tích Cuối cùng, sử dụng những từ đã chọn để sinh ra văn bản tóm tắt hoàn chỉnh.
Mô hình Transformer là một bước tiến quan trọng trong học sâu và xử lý ngôn ngữ tự nhiên, sử dụng kiến trúc encoder-decoder để tối ưu hóa khả năng tính toán song song, giảm thời gian xử lý Trong tóm tắt văn bản, Encoder nhận đầu vào là đoạn văn bản và trích xuất thông tin quan trọng, tạo ra vector ngữ cảnh Decoder sau đó sử dụng vector này để sinh ra câu tóm tắt, dựa trên mô hình ngôn ngữ để dự đoán từ tiếp theo, lặp lại quá trình cho đến khi đạt độ dài mong muốn.
Mô hình Transformer áp dụng kiến trúc self-attention, cho phép tập trung vào các phần khác nhau của chuỗi đầu vào Quá trình này thực hiện bằng cách tính toán ma trận trọng số, gán trọng số cho các phần tử của chuỗi dựa trên ba đầu vào: query (q), key (k) và value (v).
Hình 2.3 Mô hình kiến trúc Transformers [9]
Trong kiến trúc Transformer, lớp Input Embedding có kích thước đầu vào là 6 và đầu ra là 128, với mỗi từ trong câu được đại diện bởi một vector 128 chiều Lớp Embedding sử dụng mạng nơ-ron để chuyển đổi các từ thành các biểu diễn số, được huấn luyện trên một tập dữ liệu lớn chứa từ và ngữ cảnh của chúng Khi mạng nơ-ron hoàn tất quá trình huấn luyện, nó sẽ tạo ra các embedding phản ánh ngữ cảnh của từng từ Lớp embedding được kết nối với lớp positional encoding, như minh họa trong Hình 2.4.
Hình 2.4 Minh họa word embedding Nguồn:https://arize.com/blog-course/embeddings-meaning-examples-and-how-to compute
Vì mô hình Transformer không sử dụng mạng hồi quy, việc bổ sung thông tin vị trí cho các phần tử trong chuỗi dữ liệu đầu vào là cần thiết Để thực hiện điều này, chúng ta áp dụng phương pháp Positional Encoding, sử dụng các hàm sin và cosin với tần suất khác nhau Cụ thể, hàm sin được áp dụng cho các chỉ số lẻ trong chuỗi, trong khi hàm cos được sử dụng cho các chỉ số chẵn, như được mô tả trong công thức (2.1) và (2.2).
-klà vị trí của đối tượng trong chuỗi đầu vào,0 ≤ k < L/2,
-dlà kích thước của không gian nhúng đầu vào,
-P(k, j)là hàm định vị để ánh xạ một vị tríktrong chuỗi đầu vào để lập chỉ mục
(k, j)của ma trận vị trí,
-nlà đại lượng vô hướng,
-i được sử dụng để ánh xạ tới các chỉ mục cột0 ≤ i < d/2, với một giá trị duy nhất iánh xạ tới hàmsinvàcos.
Trong mô hình Transformer, việc giữ thông tin về vị trí của từng từ là rất quan trọng để hiểu thứ tự từ Liutkus và các cộng sự đã chỉ ra rằng các phương pháp hiện tại chưa khai thác đầy đủ thông tin vị trí Họ đã phê phán mã hóa hình sin ban đầu là cố định và không thể học được Để cải thiện điều này, họ đã đề xuất một kỹ thuật mới nhằm tăng cường tương tác giữa yếu tố truy vấn (Q) và khóa (K), thực hiện mã hóa vị trí tương đối trong kỹ thuật self-attention Theo đó, thông tin vị trí tương đối sẽ được cung cấp vào mô hình như một thông tin bổ sung cho các khóa (K).
Trong phần này, biểu diễn cạnh được áp dụng cho các đầu vào và Phép toán softmax vẫn giữ nguyên như trong self-attention thông thường Tiếp theo, thông tin vị trí tương đối được tích hợp vào dưới dạng một phần con của ma trận giá trị.
Multihead attention, như minh họa trong Hình 2.5, là phương pháp áp dụng nhiều self-attention song song Các đầu ra từ các self-attention này là độc lập và được kết hợp qua một biến đổi tuyến tính để tạo ra kết quả cuối cùng Để tính toán multihead attention, mỗi bộ truy vấn Q, khóa K và giá trị V sẽ được nhân với N bộ ma trận trọng số, thay vì chỉ một bộ như trong self-attention Mỗi quá trình self-attention, được gọi là một “head”, sẽ học hỏi thông tin khác nhau, từ đó nâng cao khả năng biểu diễn thông tin của mô hình.
Hình 2.5 Minh họa multihead attention.
Nguồn:https://d2l.ai/chapter_attention-mechanisms-and-transformers/multihead attention.html
2.2.5 Bộ mã hóa và bộ giải mã
ĐÁNH GIÁ MÔ HÌNH TÓM TẮT TÓM LƯỢC ĐƯỢC HUẤN LUYỆN
Liu và các cộng sự [8] thay đổi cấu trúc trong file modelling.py và tạo thêm hai model mới là CustomBartModel và BartScorer:
- CustomBartModel sử dụng hai mô hình Encoder-Decoder Đó là mô hình
Encoder-Decoder của mô hình BART.
- BartScore được xây dựng dựa trên CustomBartModel dùng để tạo và lựa chọn ra tóm tắt tốt nhất từ các bản tóm tắt khác nhau.
Trong quá trình thực nghiệm, số lượng N ứng viên tóm tắt cand_sum được xem là tham số quan trọng Bảng 4.3 trình bày kết quả của mô hình tóm tắt được huấn luyện theo kỹ thuật BRIO với số lượng cand_sum lần lượt là 4 và 6 Cuối cùng, nghiên cứu quyết định sử dụng giá trị N=4.
Sau nhiều lần thử nghiệm mà không đạt được cải thiện đáng kể, chúng tôi đã quyết định giảm giá trị N xuống còn 4 để tối ưu hóa thời gian thử nghiệm.
Bảng 4.3 Kết quả đánh giá mô hình tóm tắt văn bản được huấn luyện với kỹ thuật
BRIO với số lượng ứng viên tóm tắt thay đổi
Mô hình Dataset Cand_sum ROUGE-1 ROUGE-2 ROUGE-L
Dữ liệu đầu vào được xử lý qua lớp Tokenizer, với độ dài tối đa của nội dung bài báo được xác định bởi tham số total_lenQ2 cho dữ liệu tiếng Anh và total_len 24 cho dữ liệu tiếng Việt Độ dài của các bản tóm tắt sau khi tokenize được quyết định bởi tham số max_len0 Kết quả đánh giá các mô hình tóm tắt văn bản sử dụng kỹ thuật attention và huấn luyện BRIO được trình bày trong Bảng 4.4 và Bảng 4.5 cho các tập dữ liệu tiếng Anh và tiếng Việt.
43 Bảng 4.4 Kết quả đánh giá mô hình tóm tắt văn bản khi sử dụng các kỹ thuật attention và huấn luyện BRIO trên tập dữ liệu tiếng Anh
Mô hình Kỹ thuật ROUGE-1 ROUGE-2 ROUGE-L
BRIO-BART với EDU self-attention 0,443 0,218 0,365
BRIO-BART với EDU re-attention 0,448 0,213 0,419
BRIO-BART với EDU relative attention 0,439 0,207 0,409
BRIO-BART với EDU attention pattern và re-attention
44 Bảng 4.5 Kết quả đánh giá mô hình tóm tắt văn bản khi sử dụng các kỹ thuật attention và huấn luyện BRIO trên tập dữ liệu tiếng Việt
Mô hình Kỹ thuật ROUGE-1 ROUGE-2 ROUGE-L
BARTpho word-base self-attention 0,581 0,294 0,379
Bảng kết quả cho thấy BRIO BARTpho vượt trội hơn BRIO-BART trong việc tóm tắt văn bản, đặc biệt trên dữ liệu tiếng Việt Các kỹ thuật như self attention, re-attention và Longformer attention cũng cho kết quả khả quan, mở ra hướng nghiên cứu mới Tuy nhiên, hiệu suất tóm tắt không chỉ phụ thuộc vào mô hình mà còn bị ảnh hưởng bởi loại văn bản, cấu trúc ngữ nghĩa và đặc điểm dữ liệu Cần tiến hành thêm nghiên cứu để đánh giá khả năng của BRIO BARTpho và các biến thể trên nhiều loại văn bản, từ đó xác định rõ ưu điểm và hạn chế của từng phương pháp nhằm cải thiện và tối ưu hóa mô hình trong tương lai.
Figures 4.2, 4.3, and 4.4 illustrate the GPU performance during the training of the summarization model, utilizing the BRIO technique alongside self-attention, re-attention, and relative attention methods.
Hình 4.2 Hiệu suất GPU trong quá trình huấn luyện mô hình tóm tắt tóm lượt sử dụng kỹ thuật BRIO và self-attention
Hình 4.3 Hiệu suất GPU trong quá trình huấn luyện mô hình tóm tắt tóm lượt sử dụng kỹ thuật BRIO và re-attention
Hình 4.4 Hiệu suất GPU trong quá trình huấn luyện mô hình tóm tắt tóm lượt sử dụng kỹ thuật BRIO và relative attention
KẾT QUẢ TINH CHỈNH BRIO
Chúng tôi tiếp tục cải tiến mô hình bằng cách sử dụng mô hình đã được huấn luyện trước với kỹ thuật BRIO để tạo ra các tóm tắt ứng cử viên, từ đó tạo ra một tập dữ liệu mới làm đầu vào cho mô hình tiếp theo Kết quả tinh chỉnh mô hình BRIO-BARTpho trên tập dữ liệu VieSum cho tiếng Việt và BRIO-BART trên tập dữ liệu ShortNew cho tiếng Anh đã được thực hiện Do hạn chế về thời gian, chúng tôi chỉ thực hiện tinh chỉnh trên BRIO cho các mô hình BARTpho self-attention, BARTpho re-attention, BARTpho relative attention và BART-large để so sánh kết quả.
47Bảng 4.6 Kết quả đánh giá mô hình tóm tắt văn bản sau các lần tinh chỉnh
Model Dataset Lần ROUGE-1 ROUGE-2 ROUGE-L
THẢO LUẬN
Sau khi thử nghiệm phương pháp điều chỉnh, kỹ thuật BRIO đã cho thấy kết quả vượt trội so với mô hình BART truyền thống, mặc dù điểm số ROUGE có giảm nhẹ sau mỗi lần điều chỉnh Đặc biệt, kỹ thuật re-attention mang lại sự cải thiện đáng kể về tốc độ huấn luyện, với tổng thời gian huấn luyện cho BARTpho re-attention là 5.709 giây cho 2 epoch, trong khi BARTpho mất 6.876 giây cho cùng số epoch.
Hình 4.5 So sánh thời gian huấn luyện BARTpho và BARTpho re-attention trên 25 step
So sánh thời gian huấn luyện giữa BARTpho và BARTpho re-attention trên 50 bước cho thấy sự khác biệt rõ rệt Do thiếu hụt nguồn dữ liệu, đặc biệt là không có tập dữ liệu RST, chúng tôi chỉ có thể thực hiện việc tách EDU dựa trên POS hoặc tách theo mệnh đề như "Vì", "là", "thì", "ở".
Phương pháp hiện tại không khai thác hiệu quả đặc trưng ngữ pháp và ngữ cảnh, dẫn đến số lượng EDU ít và chất lượng chưa cao Nghiên cứu [20] đã thực hiện tách EDU bằng cách huấn luyện hai mô hình trích xuất và tóm lược, sau đó so sánh kết quả để chọn ra EDU tốt Tuy nhiên, phương pháp này yêu cầu quy trình xử lý phức tạp.
Kết quả của việc tóm tắt giúp truyền tải chính xác ý nghĩa trọng tâm của văn bản gốc Dưới đây là ví dụ về tóm tắt hệ thống được tạo ra từ các tài liệu gốc.
Bài báo và tham chiếu
Sau khi tập 70 của bộ phim được phát sóng với cảnh ông Sơn sang nhà thông gia xin con về, nữ ca sĩ Hòa Minzy đã chia sẻ cảm xúc của mình trên trang cá nhân.
Hòa Minzy chia sẻ rằng sau khi xem bộ phim "Về nhà đi con", cô nhận ra tầm quan trọng của việc phụ nữ cần chăm chỉ làm việc và tích lũy tài sản Điều này giúp họ có sự độc lập tài chính và an toàn trong tương lai, với những ngôi nhà sẵn có để trở về và tiền trong ngân hàng để nuôi sống bản thân và gia đình Cô cũng nhấn mạnh rằng đây chỉ là cảm xúc cá nhân sau khi xem phim, không liên quan đến vấn đề riêng tư nào.
Hiuhiu chia sẻ rằng cô thúc đẩy bản thân kiếm tiền nhưng cuộc sống vẫn rất hạnh phúc Nữ ca sĩ nhấn mạnh tầm quan trọng của việc làm chủ tài chính cho phụ nữ trong xã hội hiện đại, và nhiều người đã đồng tình với quan điểm này Một người dùng mạng xã hội bình luận rằng việc học tập và kiếm tiền là cần thiết để có chỗ đứng trong xã hội Hòa Minzy, sinh năm 1995 tại Bắc Ninh, nổi tiếng sau cuộc thi Học viện ngôi sao và mối tình với cầu thủ Công Phượng Sau khi chia tay, cô đã công khai tình cảm với bạn trai, người đang điều hành một doanh nghiệp phân bón vào tháng 3 năm 2018.
Bộ phim “Về nhà đi con” đang thu hút sự chú ý mạnh mẽ từ cộng đồng mạng Việt Nam, với nhiều sao Việt cũng theo dõi và chia sẻ cảm nhận về bộ phim tình cảm gia đình đầy ý nghĩa này.
Kết quả tóm tắt với Num beam=4
Sau khi chia tay Công Phượng, Minzy đã chia sẻ quan điểm về việc phụ nữ làm chủ tài chính trong xã hội hiện đại, nhận được nhiều sự đồng tình từ cộng đồng.