Điều chỉnh bert cho các bài toán xử lý ngôn ngữ tự nhiên trong tiếng việt

Mô hình ngôn ng ữ

Mô hình ngôn ng ữ thống kê

Mô hình ngôn ngữ thống kê sử dụng xác suất để dự đoán từ tiếp theo trong một dãy từ dựa trên các từ trước đó Một trong những mô hình phổ biến trong lĩnh vực này là mô hình N-gram, được áp dụng dựa trên phân phối xác suất của dãy n từ.

Mục đích của mô hình ngôn ngữ là tính xác suất của một câu w1w 2 w m P(w 1 w 2 w m ) = P(w 1 ) * P(w 2 |w 1 ) * P(w 3 |w 1 w 2 ) *…* P(w m |w 1 w 2 …w m-1 )

Theo công thức này, việc lưu trữ xác suất của tất cả các chuỗi có độ dài nhỏ hơn m đòi hỏi một bộ nhớ rất lớn, điều này trở nên khó khăn khi m có thể tiến tới vô cùng Để giải quyết vấn đề này, chúng ta áp dụng xấp xỉ Markov bậc n.

P(w m |w 1 ,w 2 ,…, w m-1 ) = P(w m |w m-n ,w n-m+1 , …,w m-1 ) Như vậy, công thức tính xác suất văn bản được tính lại theo công thức:

Mô hình ngôn ngữ này gọi là mô hình ngôn ngữ N-gram

Hạn chế của mô hình N-gram:

- Khi n lớn thì cần lượng tính toán lớn vì vậy tốn bộ nhớ

- N-gram là mô hình thưa được tạo nên bởi xác suất của các từ cùng xuất hiện Nếu không có từ trong tập luyện thì giá trị bằng 0

Khi áp dụng mô hình N-gram, sự phân bố không đồng đều trong tập văn bản huấn luyện có thể gây ra ước lượng không chính xác Đặc biệt, khi các N-gram phân bố thưa, nhiều cụm n-gram có thể không xuất hiện hoặc chỉ xuất hiện với tần suất thấp, dẫn đến việc ước lượng các câu chứa các cụm n-gram này sẽ không đạt kết quả tốt.

Với V là kích thước bộ từ vựng, ta sẽ có V n cụm N-gram có thể sinh từ bộ từ vựng Tuy nhiên, thực tế thì số cụm N-gram có nghĩa và thường gặp chỉ chiếm rất ít

Khi tính toán xác suất cho một câu, có thể gặp phải các cụm Ngram chưa xuất hiện trong dữ liệu huấn luyện, dẫn đến xác suất của câu bằng 0 Điều này xảy ra ngay cả khi câu đó hoàn toàn đúng về ngữ pháp và ngữ nghĩa Để khắc phục vấn đề này, cần áp dụng các phương pháp "làm mịn" để cải thiện độ chính xác của xác suất.

Kích thước bộ nhớ của mô hình ngôn ngữ

Khi sử dụng văn bản huấn luyện với kích thước lớn, số lượng các cụm N-gram tăng lên đáng kể, gây khó khăn trong việc lưu trữ và làm giảm hiệu suất tính toán của mô hình do hạn chế về bộ nhớ.

Mô hình ngôn ng ữ mạng neural

Mô hình ngôn ngữ Recurrent Neural Network (RNN)

RNN (Recurrent Neural Network) là một mô hình ngôn ngữ mạng nơ ron phù hợp với dữ liệu dạng chuỗi như văn bản, vì từ đứng sau phụ thuộc vào các từ trước đó Ý tưởng chính của RNN là sử dụng chuỗi thông tin, cho phép dự đoán từ tiếp theo dựa trên các từ đã xuất hiện Khác với các mạng nơ ron truyền thống, RNN thực hiện cùng một tác vụ cho tất cả các phần tử trong chuỗi, với đầu ra phụ thuộc vào các phép tính trước đó, giúp nó có khả năng nhớ thông tin đã tính toán Mặc dù lý thuyết cho phép RNN xử lý văn bản dài, nhưng thực tế nó chỉ có thể nhớ được một vài bước trước đó.

Mạng truy hồi được mô tả như sau:

Hình 1.1 Kiến trúc mạng RNN

Mạng neuron truy hồi nhận đầu vào là chuỗi giá trị x và tạo ra chuỗi từ đầu ra o Hàm mất mát L được sử dụng để đánh giá sự khác biệt giữa giá trị dự đoán o và tập nhãn dữ liệu thực tế y Các kết nối giữa đầu vào và tầng ẩn, giữa tầng ẩn và đầu ra, cũng như giữa các tầng ẩn với nhau được biểu diễn bằng các ma trận U, V và W.

W tanh( ) ˆ max( ) t t t t t t t t t a b h Ux h a o c Vh y soft o

= trong đó b, c là độ lệch (bias)

Nhược điểm chính của RNN là sự phụ thuộc dài, khi giá trị gradient có xu hướng bị tiêu biến hoặc bùng nổ qua nhiều giai đoạn, ảnh hưởng đến quá trình tối ưu hóa Điều này có thể dẫn đến việc các trọng số nhỏ dần theo cấp số nhân do các tương tác dài nếu các tham số không đủ ổn định Để khắc phục những nhược điểm này, mô hình LSTM (Long Short-Term Memory) đã được phát triển, giúp mạng bộ nhớ ngắn hạn hoạt động hiệu quả hơn trong việc xử lý thông tin dài hạn.

Mạng LSTM, được giới thiệu bởi Hochreiter và Schmidhuber vào năm 1997, nhằm khắc phục những hạn chế của mô hình RNN Mô hình này có cấu trúc đặc biệt, như hình minh họa dưới đây.

Hình 1.2 Kiến trúc mạng LSTM

Mạng LSTM bao gồm nhiều tế bào LSTM liên kết với nhau, cho phép truyền thông tin dễ dàng qua các nút mạng nhờ trạng thái tế bào liên tục Các tế bào này có khả năng thêm hoặc loại bỏ thông tin thông qua các cổng, nơi thực hiện việc sàng lọc thông tin bằng phép toán sigmoid và phép nhân Các phương trình lan truyền trong mạng LSTM được thiết lập để tối ưu hóa quá trình xử lý dữ liệu.

Trong mạng nơ-ron, i t, f t và o t là các cổng đầu vào, cổng quên và cổng ra tương ứng, với kích thước d là kích thước trạng thái ẩn Giá trị g t là ứng cử viên cho các trạng thái ẩn, được tính toán từ đầu vào hiện tại và trạng thái ẩn trước đó, tương tự như trong mạng RNN Tuy nhiên, thay vì sử dụng g t làm trạng thái ẩn mới, cổng đầu vào được dùng để quyết định lượng thông tin cần thiết C t là bộ nhớ trong của đơn vị, kết hợp giữa bộ nhớ trước đó và đầu vào mới, cho phép lựa chọn giữa việc bỏ qua hoàn toàn bộ nhớ cũ hoặc trạng thái mới Cuối cùng, s t là trạng thái ẩn hiện tại, được tính bằng cách nhân bộ nhớ với cổng đầu ra, không phải tất cả bộ nhớ trong đều cần thiết cho các đơn vị khác trong mạng.

Mạng bộ nhớ ngắn hạn hướng dài hạn đã cho thấy khả năng vượt qua vấn đề phụ thuộc dài hạn qua nhiều thử nghiệm thực tế, đặc biệt trong học máy và xử lý ngôn ngữ tự nhiên Tuy nhiên, mô hình RNN và LSTM vẫn gặp khó khăn trong việc nắm bắt sự phụ thuộc xa giữa các từ trong câu, đồng thời tốc độ xử lý chậm do phải xử lý dữ liệu theo thứ tự mà không thể thực hiện song song.

Transformers

Mô hình transformer, được áp dụng trong dịch máy, bao gồm hai phần chính là encoder và decoder Khác với RNN, transformer xử lý toàn bộ đầu vào cùng một lúc, loại bỏ khái niệm timestep Thay vào đó, mô hình này sử dụng cơ chế self-attention để xác định mối quan hệ giữa các từ trong câu.

Self-attention là cơ chế chú ý giúp tính toán đại diện của một chuỗi bằng cách xem xét các vị trí khác nhau trong chuỗi đó Cơ chế này đã chứng minh hiệu quả trong nhiều nhiệm vụ như đọc hiểu, tóm tắt trừu tượng, hiểu văn bản và học các biểu diễn câu độc lập.

Đầu tiên, các từ được biểu diễn bằng véc tơ Word Embedding (WE) Để thể hiện ngữ cảnh của từ, transformer sử dụng Positional Encoding (PE) nhằm cung cấp thông tin về vị trí của từ trong câu Sau đó, véc tơ PE và WE được cộng lại để tạo ra biểu diễn cho mỗi từ Công thức tính PE cho từ thứ i trong câu được xác định rõ ràng.

PE (pos, 2i) =sin(pos/10000 2i/dmodel )

PE (pos, 2i+1) =cos(pos/10000 2i/dmodel ) trong đó dmodel là độ dài của véc tơ word embedding

Multihead attention là một lớp quan trọng trong mô hình transformer, tạo nên sự khác biệt so với các mô hình như RNN và LSTM Cốt lõi của multihead attention là self-attention, cho phép mô hình chú ý đến nhiều mẫu khác nhau thông qua việc sử dụng nhiều self-attention Self-attention giúp mô hình xác định mức độ chú ý của một từ đối với các từ khác Để thực hiện điều này, mỗi từ cần được tạo ra ba véc tơ: query, key và value, bằng cách nhân ma trận biểu diễn các từ đầu vào với ma trận học tương ứng.

Query là véc tơ dùng để chứa thông tin của từ được tìm kiếm, so sánh Giống như là câu query của google search

Khóa là véc tơ đại diện cho thông tin của các từ trong câu, giúp so sánh với từ khóa mà bạn đang tìm kiếm Chẳng hạn, nội dung của các website sẽ được đối chiếu với từ khóa mà người dùng nhập vào.

Giá trị là véc tơ thể hiện nội dung và ý nghĩa của từ Để xác định tương quan, chúng ta tính tích vô hướng giữa véc tơ truy vấn (query) và véc tơ khóa (key) Sau đó, sử dụng hàm softmax để chuẩn hóa chỉ số tương quan về khoảng từ 0 đến 1 Cuối cùng, chúng ta tính trung bình cộng có trọng số giữa các véc tơ giá trị (values) dựa trên chỉ số tương quan vừa được tính.

Hình 1.4 Kiến trúc self attention

Công thức tính như sau: max( ).

Multihead attention cụ thể là lặp của nhiều self-attention, nó được hình dung như sau:

Hình 1.5 Kiến trúc multihead attention

Thông qua cơ chế multihead attention, mô hình có khả năng tập trung vào các mối quan hệ quan trọng giữa các từ, chẳng hạn như tầm quan trọng của một từ đối với các từ đứng trước và sau nó, cũng như các từ liên quan.

Trong kiến trúc transformer, việc sử dụng lớp kết nối residuals và normalization ở mỗi lớp con giúp cải thiện tốc độ hội tụ của mô hình và ngăn chặn tình trạng mất mát thông tin trong quá trình huấn luyện.

Decoder có nhiệm vụ giải mã véc tơ đặc trưng từ câu nguồn để tạo ra câu đích Trong mô hình này, decoder tiếp nhận hai véc tơ key và value từ encoder làm đầu vào.

Kiến trúc của decoder tương tự như encoder, nhưng có sự khác biệt nổi bật là sự bổ sung của lớp multihead attention ở giữa Lớp này giúp học mối quan hệ giữa từ đang được dịch và từ trong câu nguồn, từ đó cải thiện chất lượng của quá trình dịch thuật.

Masked MultiHead Attention là một thành phần quan trọng trong việc mã hóa các từ trong câu đích trong quá trình dịch Bản chất của nó là MultiHead Attention, và để thực hiện chức năng này, chúng ta chỉ cần nhân với một véc tơ chứa các giá trị 0 và 1.

Trong decoder, multi-head attention đóng vai trò quan trọng trong việc chú ý đến các từ trong mô hình encoder Lớp này nhận véc tơ key và value từ encoder cùng với output từ lớp masked multi-head attention Mục đích của lớp này là so sánh sự tương quan giữa từ đang được dịch và các từ nguồn.

Hàm lỗi được sử dụng trong mô hình là hàm cross-entropy Trong quá trình huấn luyện mô hình transformer, thuật toán tối ưu Adam được áp dụng, và tốc độ học sẽ được điều chỉnh liên tục theo một công thức nhất định.

_ d el * min( _ , _ * _ ) lr rate=d − step num − step num warmup steps −

BERT

BERT là viết tắt của Bidirectional Encoder Representations from Transformers [9] được hiểu là một mô hình học sẵn, học ra các véc tơ đại diện

BERT, với khả năng xử lý ngữ cảnh hai chiều của từ, đã nâng cao hiệu quả trong việc tìm kiếm đại diện từ trong không gian số, giúp máy tính hiểu ngữ nghĩa của từ thông qua ngữ cảnh Công nghệ này đã mở ra hướng đi mới trong các bài toán xử lý ngôn ngữ tự nhiên.

Nghiên cứu của Google AI chỉ ra rằng sự thiếu hụt dữ liệu đào tạo là thách thức lớn trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) Với nhiều nhiệm vụ riêng biệt, hầu hết các tập dữ liệu hiện tại chỉ tập trung vào từng nhiệm vụ cụ thể, thường chỉ có vài nghìn đến vài trăm nghìn mẫu được gán nhãn thủ công Điều này dẫn đến việc thiếu dữ liệu chất lượng cao để đào tạo mô hình, cản trở sự phát triển của NLP Để khắc phục, các mô hình NLP đang áp dụng cơ chế tiền xử lý dữ liệu bằng cách điều chỉnh từ các mô hình chung đã được đào tạo trên lượng lớn dữ liệu không gán nhãn, với các ví dụ như Word2vec, Glove và FastText.

Nghiên cứu các mô hình này sẽ giúp tạo ra đại diện chung cho ngôn ngữ, từ đó thu hẹp khoảng cách giữa các tập dữ liệu chuyên biệt trong đào tạo Điều này được thực hiện thông qua việc sử dụng một lượng lớn văn bản chưa được gán nhãn từ các trang web.

Các mô hình được huấn luyện trước khi được tinh chỉnh cho các nhiệm vụ cụ thể như hỏi đáp và phân tích cảm xúc sẽ cải thiện đáng kể độ chính xác so với các mô hình chỉ được huấn luyện trên các bộ dữ liệu nhỏ này.

Mặc dù các mô hình này mang lại nhiều lợi ích, nhưng chúng vẫn tồn tại những hạn chế, đặc biệt là không thể hiện được sự đại diện ngữ nghĩa theo ngữ cảnh cụ thể của từ trong từng lĩnh vực hoặc văn cảnh nhất định.

Google vừa công bố kỹ thuật mới mang tên Bidirectional Encoder Representations from Transformers (BERT), tiếp nối thành công của các mô hình trước đó Với BERT, người dùng trên toàn thế giới có thể dễ dàng đào tạo các hệ thống hỏi đáp (Question Answering) và nhiều mô hình NLP khác chỉ trong vài giờ với GPU hoặc khoảng 30 phút với TPU, mà Google cung cấp miễn phí qua Google Colab.

Kiến trúc của mô hình BERT là một kiến trúc đa tầng gồm nhiều lớp Bidirectional Transformer encoder như sau:

Hình 1.6 Kến trúc của mô hình BERT

Biểu diễn đầu vào của BERT như sau:

Hình 1.7 Biểu diễn đầu vào của mô hình BERT

Một số điểm cần chú ý:

• Chúng ta sử dụng WordPiece [10] với một từ điển 30.000 từ và sử dụng ## làm dấu phân tách Ví dụng từ playing được tách thành play##ing

• Chúng ta sử dụng Positional Embeddings với độ dài câu tối đa là 512 từ

Trong mô hình Transformer, từ đầu tiên trong mỗi chuỗi được gán giá trị đặc biệt là [CLS] Đầu ra của Transformer, cụ thể là trạng thái ẩn cuối cùng tương ứng với từ [CLS], sẽ được sử dụng để đại diện cho toàn bộ câu trong các nhiệm vụ phân loại.

Nếu không trong các nhiệm vụ phân loại, véc tơ này được bỏ qua

Khi các cặp câu được kết hợp thành một chuỗi duy nhất, chúng ta có hai cách để phân biệt chúng Đầu tiên, chúng ta sử dụng từ đặc biệt [SEP] để tách biệt các câu Thứ hai, chúng ta áp dụng Segment Embeddings khác nhau cho câu A và câu B, như được minh họa trong hình vẽ.

• Khi chỉ có 1 câu đơn duy nhất, Segment Embeddings của chúng ta chỉ có cho câu A

BERT được học bằng cách sử dụng 2 nhiệm vụ dự đoán không giám sát là Masked LM và Next Sentence Prediction:

Masked LM là một mô hình học sâu sử dụng ngữ cảnh hai chiều, cho phép hiểu biết tốt hơn so với mô hình chỉ sử dụng ngữ cảnh một chiều Để huấn luyện mô hình này, chúng ta ngẫu nhiên che giấu 15% từ trong câu và dự đoán các từ bị ẩn Cụ thể, 80% từ được chọn sẽ được thay thế bằng [MASK], 10% sẽ được thay thế bằng một từ ngẫu nhiên, trong khi 10% còn lại sẽ giữ nguyên.

Ví dụ với câu: "con_chó của tôi đẹp quá" Từ được chọn để ẩn là từ "đẹp"

• Thay thế 80% từ được chọn trong dữ liệu huấn luyện thành từ [MASK]

> "con_chó của tôi [MASK] quá"

• 10% các từ được chọn sẽ được thay thế bởi 1 từ ngẫu nhiên > "con_chó của tôi máy_tính quá"

• 10% còn lại được giữ không thay đổi > "con_chó của tôi đẹp quá"

Dự đoán câu kế tiếp là một nhiệm vụ quan trọng trong xử lý ngôn ngữ tự nhiên, đặc biệt trong các ứng dụng như hỏi đáp Nhiều mô hình ngôn ngữ không thể trực tiếp áp dụng cho nhiệm vụ này, vì vậy BERT đã được phát triển với khả năng dự đoán câu tiếp theo dựa trên câu hiện tại Mô hình này được huấn luyện trên một tập dữ liệu, trong đó mỗi mẫu bao gồm hai câu A và B, với 50% khả năng câu B là câu tiếp theo của câu A và 50% là một câu ngẫu nhiên từ kho dữ liệu.

Input: [CLS] người đàn_ông làm [MASK] tại cửa_hàng [SEP] anh_ta rất [MASK] và thân_thiện [SEP]

Input: [CLS] người đàn_ông làm [MASK] tại cửa_hàng [SEP] cô_ta đang cầm súng [SEP]

Chúng ta chọn những câu notNext một cách ngẫu nhiên và mô hình cuối cùng đạt được độ chính xác 97% - 98% trong nhiệm vụ này

BERT được đào tạo trên hai bộ dữ liệu chính là BooksCorpus với 800 triệu từ và English Wikipedia với 2,5 tỷ từ Trong quá trình sử dụng Wikipedia, BERT chỉ trích xuất các đoạn văn bản, đồng thời loại bỏ danh sách, bảng và tiêu đề để tập trung vào nội dung chính.

BERT sử dụng một kho văn bản ở mức độ đoạn để tạo ra chuỗi đầu vào cho quá trình đào tạo, lấy mẫu từ hai chuỗi liên tiếp nhau trong dữ liệu Mặc dù các chuỗi này có thể dài hơn hoặc ngắn hơn các câu đơn thông thường, BERT đảm bảo rằng chiều dài mẫu kết hợp tối đa không vượt quá 512 từ Để thực hiện việc này, các từ [MASK] cho MLM được áp dụng sau khi thực hiện WordPiece tokenization với tỷ lệ thống nhất là 15%.

BERT BASE được đào tạo trên 4 Cloud TPUs với 16 chip TPUs, trong khi BERT LARGE sử dụng 16 Cloud TPUs với tổng cộng 64 chip Mỗi quá trình đào tạo kéo dài khoảng 4 ngày.

BERT đã đạt được những kết quả ấn tượng khi được so sánh với các mô hình NLP hàng đầu trước đây Điều đặc biệt là BERT có thể được áp dụng mà không cần thay đổi kiến trúc của mạng neural sâu, cho thấy tính hiệu quả và sự linh hoạt của nó trong việc cải thiện hiệu suất xử lý ngôn ngữ tự nhiên.

Kết quả là, trên SQUAD v1.1, BERT đạt được kết quả F1 = 93.2%, vượt kết quả tốt nhất trước đó là 91.6% và hiệu năng mà con người đạt được là 91.2%

Hình 1.8 Kết quả của BERT trên SquAD1.1

BERT significantly enhances performance on the GLUE benchmark, which consists of nine Natural Language Understanding (NLU) tasks Notable datasets included in GLUE are essential for evaluating language models.

• MNLI: Multi-Genre Natural Language Inference là một nhiệm vụ phân loại sự đồng thuận của cộng đồng Cho một cặp câu và mục đích là dự

22 đoán liệu câu thứ 2 có phải là một câu tán thành, đối lập hay trung lập với câu đầu tiên

MỘT SỐ BÀI TOÁN NLP CƠ BẢN TRONG TIẾNG VIỆT 23

C ấu tạo từ tiếng Việt

Văn bản tiếng Việt được hình thành từ các từ, là đơn vị cơ bản cấu tạo nên câu Mỗi từ bao gồm các tiếng, hay còn gọi là âm tiết Chẳng hạn, trong câu “Thời gian chạy qua tóc mẹ” có 5 từ: thời gian, chạy, qua, tóc, mẹ.

Từ đơn là từ chỉ có một tiếng, còn gọi là từ đơn tiết, trong khi từ ghép là từ có từ hai âm tiết trở lên và mang nghĩa Từ ghép được phân loại dựa vào mối quan hệ về nghĩa giữa các thành tố cấu tạo của nó.

Từ ghép đẳng lập là những từ có các thành tố cấu tạo có quan hệ bình đẳng về nghĩa, chẳng hạn như tàu hoả, đường sắt, sân bay, hàng không, nông sản, cà chua, máy cái, dưa hấu, cỏ gà, hay các tính từ như xấu bụng, tốt mã, lão hoá, xanh lè, đỏ rực, ngay đơ, thằng tắp, sưng vù.

Từ láy trong tiếng Việt thường có độ dài từ hai đến bốn tiếng, với một số trường hợp đặc biệt có ba tiếng Ví dụ về từ láy bao gồm: người người, nhà nhà, ngành ngành, dửng dừng dưng, trơ trờ trờ, đủng đà đủng đỉnh, lếch tha lếch thếch, linh tinh lang tang, và vội vội vàng vàng.

Bài toán tách t ừ tiếng Việt

Khác với tiếng Anh, nơi các từ được phân biệt bằng dấu cách, tiếng Việt có cấu trúc phức tạp hơn khi một từ có thể bao gồm nhiều tiếng, và các tiếng này cũng được ngăn cách bởi dấu cách.

Tách từ tiếng Việt là quá trình xác định ranh giới của các từ trong câu, bao gồm việc nhận diện từ đơn và từ ghép Đây là một thách thức lớn trong xử lý ngôn ngữ tự nhiên, đóng vai trò quan trọng trong các nhiệm vụ như gán nhãn từ loại, tóm tắt văn bản, phân loại văn bản và hệ thống hỏi đáp Do đó, tách từ được coi là bước xử lý thiết yếu cho các hệ thống ngôn ngữ tự nhiên, đặc biệt là với tiếng Việt.

Trong tiếng Việt, ranh giới từ không chỉ đơn thuần là khoảng trắng như trong các ngôn ngữ hòa kết như tiếng Anh, mà còn thể hiện mối liên hệ chặt chẽ giữa các từ, giúp khử sự nhập nhằng trong việc xác định ranh giới từ.

Trong văn bản tách từ tiếng Việt cần chú ý những yếu tố sau:

Tầng hình thái (morphological layer) là lĩnh vực nghiên cứu về nhận dạng thành phần có nghĩa của từ và cấu tạo của từ trong câu Một ví dụ điển hình trong việc tách từ tiếng Việt là câu "Ông già đi nhanh quá", có thể hiểu theo hai cách: (Ông già) (đi) (nhanh quá) hoặc (Ông) (già đi) (nhanh quá) Sự phân tích này có ảnh hưởng lớn đến quá trình dạy máy hiểu ngôn ngữ con người.

Tầng ngữ pháp, hay còn gọi là tầng hình thái, tập trung vào việc nghiên cứu các mối quan hệ cấu trúc giữa các từ trong câu nhằm tạo ra câu đúng ngữ pháp Các vấn đề cần giải quyết ở tầng này bao gồm việc xác định cách thức kết hợp từ ngữ, phân tích cấu trúc câu và đảm bảo sự chính xác trong việc sử dụng ngữ pháp.

Phân tích loại từ (Part-Of-Speech tagging) là quá trình xác định các loại từ trong câu như danh từ, động từ, giới từ, và trợ từ Trong khi đó, Chungking giúp xác định các cụm từ như cụm danh từ, cụm động từ, và cụm trạng từ; ví dụ, "học sinh" là cụm danh từ, "học" là cụm động từ, và "sinh học" là cụm trạng từ Phân tích cú pháp (Parsing) được thực hiện để phân tích cấu trúc câu, ví dụ, trong cụm (Học sinh) (học) (sinh học) thể hiện mối quan hệ chủ ngữ - vị ngữ Các phương pháp phân tích cú pháp có thể kể đến như phân tích cú pháp từ trên xuống (Top-Down Parsing) và phân tích cú pháp dự đoán (Predictive Parsing).

Tầng ngữ nghĩa (semantic layer) là nghiên cứu nhằm xác định nghĩa của từ và cách tổ hợp của chúng Ví dụ, từ "đi" có thể được hiểu là động tác "bước đi" hoặc mang nghĩa "qua đời" Để hiểu đúng ý nghĩa của từ, việc đặt nó trong văn cảnh của câu văn là rất quan trọng.

- Tầng ngữ dụng (pragmatic layer) : nghiên cứu mối quan hệ giữa ngôn ngữ và ngữ cảnh sử dụng ngôn ngữ

Trong xử lý ngôn ngữ, phân tích sơ bộ (shallow parsing) được áp dụng từ các tầng ngữ âm đến ngữ pháp, thường dùng trong tìm kiếm thông tin và phân tích văn bản cho tổng hợp tiếng nói Tuy nhiên, đối với các bài toán phức tạp như dịch tự động, phân tích sơ bộ không đủ Để đạt được sự chính xác cần thiết, ít nhất chúng ta phải thực hiện phân tích đến tầng ngữ nghĩa, được gọi là phân tích đầy đủ (fully parsing).

Một cách tổng quát có thể thấy rằng bài toán tách từ có 3 phương pháp tiếp cận chính:

• Tiếp cận dựa vào từ điển cố định

• Tiếp cận dựa vào thống kê thuần túy

• Tiếp cận dựa trên cả hai phương pháp trên

Một số phương pháp được sử dụng:

- So khớp từ dài nhất (Longest Matching)

- So khớp cực đại (Maximum Matching)

- Mô hình Markov ẩn (Hidden Markov Models- HMM)

- Học dựa trên sự cải biến (Transformation-based Learning – TBL) [13]

- Chuyển đổi trạng thái trọng số hữu hạn (Weighted Finite State Transducer – WFST) [14]

- Độ hỗn loạn cực đại (Maximum Entropy – ME) [15]

- Máy học sử dụng véc tơ hỗ trợ (Support Vector Machines) [16]

- Trường xác xuất có điều kiện (CRFs)

Một số kết quả đáng chú ý trong bài toán tách từ tiếng Việt bao gồm việc sử dụng mô hình CRF (Conditional Random Field) của Trần Việt Trung, có thể tham khảo tại [pyvi](https://pypi.org/project/pyvi/), và phương pháp lai kết hợp giữa matching với hồi quy logistic do Nguyễn Tuấn Phong phát triển, có thể tìm thấy tại [UETsegmenter](https://github.com/phongnt570/UETsegmenter) Cả hai phương pháp này đạt được độ chính xác lên tới 97%.

Bài toán nh ận diện thực thể có tên

Nhận dạng thực thể (NER) là một vấn đề cốt lõi trong Xử lý ngôn ngữ tự nhiên, tập trung vào việc xác định và phân loại các cụm từ trong văn bản thành các nhóm đã được xác định trước như tên người, tổ chức, địa điểm, thời gian, loại sản phẩm và nhãn hiệu Kết quả từ NER có thể được áp dụng cho nhiều ứng dụng phức tạp hơn, bao gồm Chatbot, hệ thống hỏi đáp (Question Answering) và tìm kiếm (Search).

Nhận diện ba loại thực thể định danh trong tiếng Việt tương thích với các loại thực thể trong hệ thống NER của tiếng Anh và tiếng Đức.

- Tên, tên đệm và họ của một người: Nguyễn Văn A

- Tên hiệu (biệt hiệu), bí danh (mật danh), biệt danh, v.v

- Tên các nhân vật hư cấu: Ngọc Hoàng, Thiên Lôi, Sa Tăng, v.v

Tên địa lý, hay còn gọi là địa danh, là những thực thể có tọa độ địa lý cụ thể và có thể được ghi lại trên bản đồ, ngoại trừ các địa danh tưởng tượng.

- Tên gọi các hành tinh: Mặt Trăng, Mặt Trời, Trái Đất, v.v

Tên gọi của các thực thể địa lý tự nhiên và lịch sử, bao gồm quốc gia, vùng lãnh thổ, châu lục, cùng với các khu vực cư trú như làng, thị trấn, thành phố, tỉnh, giáo khu và giáo xứ, đóng vai trò quan trọng trong việc xác định bản sắc văn hóa và lịch sử của mỗi khu vực.

Các thực thể tự nhiên bao gồm những tên gọi như đèo, núi, dãy núi, rừng, sông, suối, hồ, biển, vịnh, vũng, eo biển, đại dương, thung lũng, cao nguyên, đồng bằng, bãi biển, khu bảo tồn thiên nhiên và khu sinh thái Những danh từ này không chỉ thể hiện sự đa dạng của thiên nhiên mà còn phản ánh sự phong phú của hệ sinh thái trên trái đất.

Các thực thể công trình xây dựng và kiến trúc công cộng bao gồm cầu, đường, lâu đài, quảng trường, bảo tàng, trường học, nhà trẻ, thư viện, bệnh viện, nhà hát và nhà máy.

- Tên gọi địa điểm, địa chỉ thương mại: nhà hàng, khách sạn, hiệu thuốc, quán bar, v.v

- Một số địa danh tưởng tượng khác: Vườn Địa Đàng, Sông Ngân, Cầu Ô Thước, v.v

- Các cơ quan chính phủ: các bộ ngành, uỷ ban nhân dân, hội đồng nhân dân, toà án, phòng ban, v.v

- Các tổ chức chính trị: cơ quan báo chí, đảng phái chính trị, đoàn thể chính trị, hội nghề nghiệp, v.v

- Kinh doanh, sản xuất: ngân hàng, thị trường chứng khoán, công ti, hãng phim, nhà sản xuất, hợp tác xã, v.v

- Các thương hiệu: Iphone, Honda, Sony, Samsung, v.v

Các phương pháp áp dụng cho bài toán nhận dạng thực thể:

Phương pháp dựa vào luật sử dụng một tập hợp các luật đã được định nghĩa sẵn hoặc tự động để phân tích văn bản Mỗi từ trong văn bản sẽ được xử lý theo các quy tắc này, giúp cải thiện độ chính xác và hiệu quả trong việc hiểu nội dung.

Biểu diễn dưới dạng tập các đặc trưng là một phương pháp quan trọng trong việc rút trích thông tin từ văn bản Văn bản đầu vào sẽ được so sánh với tập luật, và nếu luật này ghép được, quá trình rút trích sẽ được thực hiện Mỗi luật bao gồm hai thành phần chính: ‘pattern’ và ‘action’ Pattern thường là biểu thức chính quy được định nghĩa trên tập đặc trưng của từ, và khi pattern này ghép thành công, action sẽ được kích hoạt để thực hiện rút trích dữ liệu.

Phương pháp học thống kê trong NER được chuyển đổi thành bài toán gán nhãn chuỗi (sequence labeling), trong đó tập hợp các chuỗi quan sát ký hiệu x = (x1, x2, , xn) được sử dụng Mỗi ký hiệu xi thường được biểu diễn dưới dạng véc tơ, và mục tiêu là gán nhãn yi dựa vào thông tin từ các xi trước đó Các phương pháp áp dụng trong lĩnh vực này bao gồm mô hình Markov ẩn, Maximum Entropy và CRFs.

Trong những năm gần đây, phương pháp học sâu đã dẫn đến sự phát triển của các kiến trúc Neural Network nhằm giải quyết bài toán gán nhãn chuỗi, tạo thành nhóm phương pháp thứ ba cho NER Điểm mạnh của các kiến trúc Deep Neural Network là khả năng học End-to-end, cho phép tự động học quy luật gán nhãn từ dữ liệu mà không cần can thiệp của con người, khắc phục nhược điểm của các phương pháp truyền thống phụ thuộc vào kiến thức ngôn ngữ Tuy nhiên, nhóm phương pháp này cũng gặp khó khăn do yêu cầu về kích thước tập dữ liệu huấn luyện lớn để đạt độ chính xác cao Đối với ngôn ngữ ít dữ liệu như Tiếng Việt, việc sử dụng ma trận Word Embedding được huấn luyện từ tập dữ liệu không nhãn lớn là giải pháp hiệu quả Một trong những kiến trúc phổ biến là sự kết hợp giữa Bidirectional Long Short-Term Memory (Bi-LSTM) và Conditional Random Field (CRF) trong hệ thống End-to-end Learning.

Bài toán phân tích c ảm xúc

Phân tích cảm xúc là quá trình xác định thái độ và cảm xúc của các cá nhân thông qua văn bản Đây là một phần quan trọng trong phân tích ngữ nghĩa, yêu cầu xây dựng mô hình để hiểu rõ ý nghĩa của câu và đoạn văn, từ đó xác định màu sắc cảm xúc mà chúng thể hiện.

Phân tích cảm xúc từ góc nhìn của máy học là quá trình phân lớp cảm xúc dựa trên văn bản ngôn ngữ tự nhiên Đầu vào của quá trình này là câu hoặc đoạn văn bản, trong khi đầu ra là các giá trị xác suất tương ứng với n lớp cảm xúc cần xác định.

Hiện nay, bài toán phân tích cảm xúc có 1 số phương pháp giải quyết như sau:

Phương pháp dựa trên bộ từ điển cảm xúc cho phép dự đoán cảm xúc bằng cách phân tích các từ cảm xúc riêng lẻ Qua đó, điểm số được xác định cho các từ tích cực và tiêu cực, giúp hiểu rõ hơn về cảm xúc trong văn bản.

Phương pháp tổng hợp điểm số để xác định cảm xúc trong văn bản có ưu điểm là dễ thực hiện và chi phí tính toán nhanh Tuy nhiên, nó cũng có hạn chế khi bỏ qua thứ tự từ và có thể mất thông tin quan trọng Độ chính xác của mô hình phụ thuộc vào chất lượng của bộ từ điển cảm xúc được xây dựng.

Phương pháp Deep Learning Neural Network đang phát triển mạnh mẽ nhờ vào sự gia tăng tốc độ xử lý của CPU, GPU và chi phí phần cứng ngày càng giảm, cùng với sự phát triển của các dịch vụ hạ tầng điện toán đám mây Bài toán phân tích cảm xúc được giải quyết hiệu quả bằng mô hình Recurrent Neural Network (RNN), đặc biệt là biến thể Long Short Term Memory Neural Network (LSTMs), kết hợp với mô hình véc tơ hóa từ Word2Vector và kiến trúc Continuous Bag-of-Words (CBOW), đạt độ chính xác trên 85% Phương pháp này cho phép sử dụng văn bản đầu vào dưới dạng câu hoặc đoạn văn, tuy nhiên, để đạt được kết quả tốt nhất, cần có một lượng lớn dữ liệu văn bản để tạo ra Word2Vector CBOW chất lượng cao, cũng như dữ liệu gán nhãn phong phú để huấn luyện, xác minh và kiểm tra mô hình học có giám sát LSTMs.

Phương pháp kết hợp dựa trên luật và ngữ liệu trong xử lý ngôn ngữ tự nhiên sử dụng mô hình Deep Learning Recursive Neural Network kết hợp với hệ tri thức chuyên gia, được gọi là Sentiment Treebank Sentiment Tree hoạt động như một cây phân tích cú pháp, trong đó mỗi nút chứa bộ trọng số cảm xúc từ rất tiêu cực đến rất tích cực Trọng số lớn nhất tại mỗi nút sẽ xác định nhãn toàn cục Mô hình này đạt độ chính xác 85,4% khi dự đoán cảm xúc cho một câu đơn, tuy nhiên, nhược điểm lớn nhất là chỉ xử lý tốt cho dữ liệu đầu vào là câu đơn.

Bài toán tìm tương đồng câu hỏi trên tiếng Việt

Bài toán tìm câu hỏi tương đồng là một trong các bài toán quan trọng của hệ thống hỏi đáp cộng đồng

Hệ thống hỏi đáp cộng đồng (CQA) là một nền tảng cho phép người dùng đăng câu hỏi về nhiều chủ đề khác nhau và nhận câu trả lời từ cộng đồng Các câu trả lời thường rõ ràng và chính xác, nhờ vào sự đóng góp từ nhiều người dùng khác nhau Các ứng dụng này, được gọi là hỏi đáp dựa vào cộng đồng, như Yahoo! Answers, cung cấp một không gian cho phép người dùng trao đổi thông tin và kiến thức trong tất cả các lĩnh vực.

Stackoverflow và Quora là hai nền tảng hỏi đáp nổi bật, với Stackoverflow tập trung vào lập trình và Quora bao gồm các chủ đề liên quan đến công việc và cuộc sống hàng ngày Cả hai kênh đều chứa đựng nhiều tri thức quý giá từ người dùng và được khai thác bởi các hệ thống Tuy nhiên, vẫn còn nhiều bài toán cần giải quyết để nâng cao khả năng đáp ứng của các nền tảng này đối với nhu cầu của người dùng.

Hệ thống bao gồm quá trình xử lý câu hỏi, quá trình xử lý câu trả lời và các thành viên tham gia:

Quá trình xử lý câu hỏi bắt đầu khi người dùng đăng câu hỏi với tiêu đề và mô tả chi tiết Câu hỏi sau đó được hiển thị để người dùng khác có thể đọc và trả lời Người dùng có khả năng bình chọn cho những câu hỏi thú vị và gợi ý cho những người khác tham gia trả lời Tuy nhiên, tỷ lệ người dùng bình chọn cho câu hỏi thường rất nhỏ.

Khi một câu hỏi được đăng, người dùng có thể cung cấp câu trả lời hoặc bình luận để làm rõ Họ cũng có thể bình chọn cho các câu trả lời khác Nếu người hỏi hài lòng với một câu trả lời, họ có thể chọn nó là câu trả lời tốt nhất Nếu chưa có lựa chọn, hệ thống sẽ dựa vào số lượng bình chọn để xác định câu trả lời tốt nhất Nếu không có câu trả lời nào được bình chọn hoặc số bình chọn quá ít, câu hỏi vẫn mở và hệ thống sẽ tự động gợi ý câu trả lời tốt nhất.

Hệ thống CQA bao gồm ba loại thành viên: người hỏi, người trả lời và người bình chọn Thông tin chi tiết về từng người dùng được lưu trữ trong hồ sơ cá nhân, và tất cả các hoạt động của họ đều được mô-đun thành viên xử lý và lưu giữ một cách an toàn.

Bài toán tìm kiếm câu hỏi tương đồng là một bước quan trọng trong xử lý câu hỏi Hệ thống CQA đã tích lũy một kho dữ liệu phong phú với nhiều câu hỏi và câu trả lời tương ứng theo thời gian Sự trùng lặp trong các câu hỏi là khá lớn, dẫn đến việc cần thiết phải giảm thiểu thời gian chờ đợi cho người dùng Để giải quyết vấn đề này, hệ thống tự động tìm kiếm câu hỏi tương đồng với câu hỏi mới và sử dụng những câu trả lời có sẵn từ các câu hỏi tương tự, giúp người dùng nhận được thông tin nhanh chóng và hiệu quả hơn.

Bài toán được xác định như sau: Cho một câu hỏi truy vấn và một tập hợp các câu hỏi trong kho dữ liệu CQA, nhiệm vụ là cung cấp danh sách các câu hỏi có liên quan nhất đến câu truy vấn đó.

Thách thức lớn nhất trong việc tìm câu hỏi tương đồng là vấn đề "lexical gap", tức là sự khác biệt giữa các từ và cụm từ trong câu hỏi truy vấn so với câu hỏi đã có Để khắc phục vấn đề này, các nhà nghiên cứu đã áp dụng các phương pháp soft alignment từ dịch máy và mô hình chủ đề Gần đây, nhiều nghiên cứu đã tập trung vào deep learning để khai thác biểu diễn ngữ nghĩa của câu thông qua các mô hình như LSTM và RNN, kết hợp với các cơ chế attention.

Các phương pháp tiếp cận

Phương pháp này tính toán trọng số cho hai câu hỏi dựa trên sự tương đồng giữa các từ Các câu hỏi được biểu diễn dưới dạng mô hình túi từ (BoW), và trọng số phù hợp giữa các từ được xác định theo một quy trình cụ thể.

Trong đó: IDF là tần số nghịch của một từ trong tập văn bản

#(w,Q) là số lần từ w xuất hiện trong câu hỏi Q Avg_len(Q) là độ dài trung bình của Q k 1 và b là các tham số được điều chỉnh

Vì các scores là không đối xứng nên score cuối cùng được tính trung bình của

Mô hình ngôn ngữ dựa vào mô hình dịch được sử dụng để tính xác suất P(q1 | q2) và P(q2 | q1) cho hai câu hỏi q1 và q2 Điểm số được xác định bằng cách lấy trung bình của hai xác suất này Xác suất có điều kiện bao gồm hai phần: xác suất sinh ra các từ trong q1 khi biết q2 (theo mô hình ngôn ngữ) và xác suất sinh ra q1 khi biết q2 (dựa trên mô hình dịch) Công thức tính toán cho các xác suất này được trình bày rõ ràng trong bài viết.

Trong đó, P ml (w | ) C là Maximum Likelihood Estimate, P ml (w | C ) #(w, C)

= C , λ là hệ số trơn, β là tham số điều khiển sự tích hợp của P ml và P trans

P trans (w , w ) 1 2 được sử dụng trong mô hình dịch truyền thống, nó tính xác suất sinh từ w 1 trong ngôn ngữ khi biết w 2 trong ngôn ngữ khác

Phương pháp nhúng từ (Word Embedding) là một kỹ thuật tính toán giá trị nhúng cho các câu hỏi thông qua mạng nơ ron Các véc tơ của câu được tính bằng cách lấy trung bình tổng các véc tơ nhúng từ, hoặc có thể được học từ các mô hình như LSTM.

Phương pháp này cho thấy các tác giả trong [23] đã áp dụng biểu diễn dựa trên attention để đo khoảng cách giữa câu hỏi và câu trả lời Các thí nghiệm cho thấy cơ chế attention có khả năng phân biệt hiệu quả hơn giữa câu trả lời đúng và sai dựa trên nội dung câu hỏi.

Mô hình LSTM hai chiều cần truyền tải sự phụ thuộc khoảng cách dài giữa các câu hỏi và câu trả lời, trong khi Attention giúp cải thiện điểm yếu này bằng cách căn chỉnh động các thông tin quan trọng của câu trả lời với câu hỏi Chiến lược này đã được áp dụng thành công trong nhiều tác vụ xử lý ngôn ngữ tự nhiên khác nhau, bao gồm dịch máy, tóm tắt câu và hỏi đáp.

Cho câu hỏi q 1 =[q , q , , q ] 1 1 1 2 1 n và q 2 =[q , q , , q ] 1 2 2 2 2 m với mỗi từ sử dụng biểu diễn nhúng từ, khi đó ta có véc tơ mới qˆ 1 =[q , q , , q ]ˆ ˆ 1 1 1 2 ˆ 1 n và qˆ 2 =[q , q , , q ]ˆ 1 2 ˆ 2 2 ˆ 2 m Ma trận L được tính như sau:

Ma trận L được chuẩn hóa (sử dụng hàm softmax) để thu được hệ số attention

Từ ở vị trí thứ j trong câu hỏi q1 được biểu diễn qua G(q, v), trong đó vˆ1 j ˆ j ˆ j là trọng số attention của qˆ2 Tương tự, mỗi từ trong câu hỏi qˆ2 cũng được biểu diễn lại Véc tơ biểu diễn của cả câu hỏi là tổng các véc tơ của từng từ trong câu hỏi Cuối cùng, hai biểu diễn của hai câu hỏi được nối lại và đưa qua hàm dự đoán (Hình 2.1).

CÁC MÔ HÌNH HUẤN LUYỆN TRƯỚC BERT

BERTmultilingual

Giống như mô hình Bert gốc, mBert cũng sử dụng 12 transformers, nhưng được đào tạo trên dữ liệu từ 104 ngôn ngữ khác nhau trên các trang Wikipedia, với một bộ từ vựng chung cho tất cả các ngôn ngữ Điều đặc biệt là mBert không sử dụng bất kỳ đánh dấu ngôn ngữ nào trong đầu vào và không có cơ chế rõ ràng để tăng cường việc học các cặp dịch tương đương có biểu diễn tương tự.

3.1.2 Ngu ồn dữ liệu và lấy mẫu

Trong nghiên cứu này, 100 ngôn ngữ hàng đầu trên Wikipedia được sử dụng làm dữ liệu đào tạo cho mBert, với tất cả các trang Wikipedia cho mỗi ngôn ngữ (không bao gồm người dùng và trang thảo luận) Kích thước của Wikipedia cho từng ngôn ngữ khác nhau đáng kể, dẫn đến việc các ngôn ngữ có nguồn tài nguyên thấp có thể bị "đại diện ít hơn" trong mô hình mạng nơron Để cân bằng vấn đề này, mBert áp dụng trọng số được làm mịn theo cấp số nhân cho dữ liệu trong quá trình tạo dữ liệu trước khi đào tạo Cụ thể, xác suất của mỗi ngôn ngữ được tính toán và điều chỉnh, với S = 0,7, giúp các ngôn ngữ có nguồn tài nguyên cao như tiếng Anh được lấy mẫu ít hơn, trong khi các ngôn ngữ có nguồn tài nguyên thấp như tiếng Iceland được lấy mẫu nhiều hơn Kết quả là, sự chênh lệch trong việc lấy mẫu giữa các ngôn ngữ được giảm thiểu, nâng cao tính công bằng trong quá trình đào tạo mô hình.

3.1.3 Tách t ừ mBert sử dụng 110k WordPiece [27] Vocabulary chung cho tất cả ngôn ngữ

Số lượng từ trong mBert được tính trọng số tương tự như cách lấy mẫu, trong đó các ngôn ngữ có nguồn dữ liệu thấp được tăng trọng số dựa trên một số yếu tố Đặc biệt, mBert không sử dụng bất kỳ điểm đánh dấu nào để biểu thị ngôn ngữ đầu vào Đối với tất cả các ngôn ngữ ngoài tiếng Trung, chữ Kanji và chữ Hanja, mBert áp dụng cùng một phương pháp xử lý như đối với tiếng Anh.

PhoBERT

PhoBert [28] sử dụng cùng kiến trúc với Bert nhưng cách tiếp cận dựa trên Roberta [29] nhắm tối ưu việc huấn luyện mô hình Bert bằng cách bỏ đi việc

33 huấn luyện dự đoạn câu kế tiếp của Bert gốc Thời gian huấn luyện khoảng 4 tuần (4 Nvidia V100 (16Gb))

PhoBert được phát triển với 20Gb dữ liệu, bao gồm 2 tập: một tập dữ liệu từ Wikipedia Tiếng Việt khoảng 1Gb và một tập dữ liệu lớn hơn khoảng 19Gb, chứa các bài báo Tiếng Việt đã được xử lý để loại bỏ những bài tương tự và trùng lặp từ kho dữ liệu 50Gb.

PhoBert sử dụng RDRsegmenter từ VncoreNLP để tách từ trên tập dữ liệu huấn luyện, đạt được khoảng 145 triệu từ tách ra, tương đương với khoảng 3 tỷ âm tiết Ngoài ra, PhoBert áp dụng fastBPE để phân tách các câu thành các đơn vị từ phụ, tạo ra bộ từ vựng cho mô hình với 64.000 loại từ phụ.

BERT4news (ours)

BERT4news là một mô hình ngôn ngữ dựa trên kiến trúc của BERT gốc, được đào tạo trên dữ liệu tiếng Việt tương tự như PhoBert, bao gồm Wikipedia tiếng Việt và các bài báo từ nhiều trang báo khác nhau Điểm khác biệt chính giữa BERT4news và PhoBert là BERT4news được huấn luyện ở mức âm tiết thay vì mức từ như PhoBert.

Thời gian huấn luyện là 7 ngày với TPU v3.8

Bert4news sử dụng SentencePiece để phân đoạn dữ liệu văn bản đầu vào thành các đơn vị từ phụ, không cần tách từ trước theo ngôn ngữ cụ thể SentencePiece là một phương pháp mở rộng của Byte-Pair Encoding (BPE) và WordPiece, cho phép xử lý linh hoạt hơn với các ngôn ngữ như tiếng Việt Chúng tôi đã chọn kích thước từ vựng là 64k từ phụ để tối ưu hóa quá trình xử lý văn bản.

BERT4news sử dụng kiến trúc ban đầu của BERTBASE (12 lớp transformers,

768 chiều đầu ra, 12 attention head, 110M tham số)

Chúng tôi đã tối ưu hóa mô hình bằng cách sử dụng thuật toán Adam với các tham số β1 = 0,9 và β2 = 0,98, thực hiện 100k bước huấn luyện với kích thước lô lớn là 1024 chuỗi mỗi lô, mỗi chuỗi chứa tối đa 128 từ phụ Mô hình được huấn luyện thông qua thư viện google-research/bert, với tốc độ học được điều chỉnh cho 10k bước Huấn luyện diễn ra trên TPU v3.8 trong vòng một tuần, và chúng tôi không kéo dài thời gian huấn luyện hơn nữa mặc dù hiệu suất vẫn tiếp tục cải thiện.

BERT4ecomerce (ours)

BERT4ecommerce được xây dựng trên kiến trúc và từ vựng của BERTmultilingual, được huấn luyện tiếp trên 1.1 triệu câu từ trang thegioididong.com Với tham số độ dài 128, kích thước mỗi lô 64 và tốc độ học 2e − 5, mô hình này đã trải qua 20,000 bước huấn luyện trong vòng 2 ngày trên GPU Tesla V100.

KẾT QUẢ THỰC NGHIỆM TRÊN MỘT VÀI BÀI TOÁN

Bài toán tách t ừ tiếng Việt

4.1.1 Bi ểu diễn bài toán

Bài toán tách từ trong tiếng Việt được mô hình hóa dưới dạng bài toán gán nhãn tuần tự, sử dụng bốn nhãn cho mỗi âm tiết: B (bắt đầu một từ), I (âm tiết bên trong từ).

E (âm tiết kết thúc của một từ), S (từ đơn âm tiết) Ví dụ :

Thị_trường bất_động_sản Hà_Nội nóng trong những tháng cuối năm

Thị(B) trường(E) bất(B) động(I) sản(E) Hà(B) Nội(E) nóng(S) trong(S) những(S) tháng(S) cuối(S) năm(S)

Âm tiết được tách bằng BertTokenizer (Bert4news) để mã hóa các substrings và ký tự đệm trong mô hình BERT, sử dụng hai nhãn –SUB và –PAD .

Kiến trúc mô hình bao gồm 3 lớp chính:

- Input: dùng để mã hóa một chuỗi các âm tiết dưới dạng từ phụ của câu đầu vào

- Bert: như là một ma trận nhúng từ cho các từ trong câu

- Linear: dùng để dự đoán nhãn các từ trong câu

Hình 4.1 Mô hình BERT cho bài toán tách từ

Tập huấn luyên bao gồm 75.000 câu được tách thủ công từ dữ liệu VLSP 2013 Trong khi đó, tập dữ liệu đánh giá chứa 2.120 câu được lấy từ 10 file, từ 800001.seg đến 800010.seg.

4.1.4 K ết quả thực nghiệm Để đánh giá độ chính xác của mô hình, luận văn sử dụng độ đo F1 theo công thức:

N : số từ tách đúng của hệ thống w ref

N : số từ trong tập thử nghiệm w sys

N : số từ được tách bởi hệ thống

Mô hình BERT được áp dụng cho bài toán tách từ tiếng Việt đã được huấn luyện trên 70.000 câu, sử dụng tốc độ học 2e-5, kích thước mỗi lô là 16 và độ dài tối đa của câu là 128 từ.

Mô hình được tối ưu hóa với Adam và sử dụng các tham số sau: β1 = 0,9, β2 0,999

Để xác định các tham số của mô hình, luận văn đã sử dụng một bộ phát triển gồm 5 nghìn câu từ bộ huấn luyện đầy đủ và 70 nghìn câu còn lại để tiến hành đào tạo Các tham số được lựa chọn dựa trên tiêu chí tạo ra điểm F1 cao nhất trên tập phát triển Cuối cùng, mô hình được đánh giá với các tham số đã chọn trên tập thử nghiệm.

Các kết quả của DongDu, JvnSegmenter-Maxent, JvnSegmenter-CRFs, VnTokenizer, UETSegmenter, RDRsegmenter được báo cáo trong [30]

Bảng 4.1 Kết quả trên dữ liệu VLSP

Bảng bên cho thấy rằng BERT4news đạt được F1 cao nhất cao hơn 0.5% so với RDRsegmenter cho thấy hiệu quả khi sử dụng BERT cho bài toán này

Một ví dụ trên wiki :

- RDRsegmenter: Đại_Việt sử_ký toàn thư, đôi_khi gọi là Toàn thư, là bộ quốc_sử viết bằng Hán văn của Việt_Nam

- BERT4news : Đại_Việt sử_ký_toàn_thư, đôi_khi gọi là Toàn_thư, là bộ quốc_sử viết bằng Hán_văn của Việt_Nam

Mô hình BERT có khả năng duy trì ngữ cảnh của các từ hiếm gặp như "toàn thư" và "hán văn", điều mà các mô hình xác suất không thể thực hiện.

Một ví dụ trong e-commerce :

- RDRsegmenter : Trong khi game mình đang chơi vẫn còn nguyên_âm thanh và mình cảm_nhận vẫn còn điều_khiển dc bằng chuột

- BERT4news : Trong khi game mình đang chơi vẫn còn nguyên âm_thanh và mình cảm_nhận vẫn còn điều_khiển dc bằng chuột

BERT4news, với khả năng ghi nhớ ngữ cảnh xuất sắc, đã duy trì được từ "âm_thanh" mặc dù ngữ cảnh này không có trong quá trình huấn luyện mô hình tách từ trên dữ liệu tin tức Điều này nhờ vào việc tận dụng mô hình đã được huấn luyện trước từ một tập dữ liệu lớn.

Bài toán nh ận diện thực thể có tên

4.2.1 Gi ới thiệu bài toán

Nhận dạng thực thể có tên (NER) là quá trình xác định các chuỗi từ trong văn bản, bao gồm tên người, tổ chức, địa danh và thời gian NER đóng vai trò quan trọng trong các ứng dụng trích xuất thông tin và đã được nghiên cứu từ những năm 1990 Cuộc thi VLSP 2018 là lần thứ hai nhằm đánh giá chất lượng các công cụ NER cho tiếng Việt, khuyến khích phát triển hệ thống trích xuất thực thể có độ chính xác cao So với VLSP 2016, tập dữ liệu lần này đa dạng và phong phú hơn, được tổ chức theo nhiều lĩnh vực để có đánh giá chi tiết về các hệ thống NER.

Cuộc thi đầu tiên này nhằm đánh giá khả năng nhận diện các thực thể có tên, bao gồm ba loại chính: tên người, tên tổ chức và tên địa danh.

Luận văn này đánh giá mô hình Nhận dạng thực thể tên (NER) trên tập dữ liệu VLSP 2018, bao gồm bốn loại thực thể: Địa điểm (LOC), Tổ chức (ORG), Người (PER) và Khác (MISC) Thống kê chi tiết về dữ liệu được trình bày trong Bảng 4.2 dưới đây.

Bảng 4.2 Thông kê các thực thể trên dữ liệu VLPS 2018

Trong VLSP 2018 NER, tập dữ liệu chứa các thực thể lồng nhau, cho phép một thực thể bao gồm các thực thể khác bên trong Các thực thể trong tập dữ liệu NER VLSP 2018 được phân loại và phân tích thành ba cấp độ khác nhau.

• Các thực thể cấp 1 là các thực thể không chứa bất kỳ thực thể nào khác bên trong chúng Ví dụ: Hà Nội

Thực thể cấp 2 là loại thực thể mà bên trong nó chỉ chứa các thực thể cấp 1 Chẳng hạn như, UBND thành phố Hà Nội .

• Thực thể cấp 3 là thực thể chứa ít nhất một thực thể cấp 2 và có thể chứa một số thực thể cấp Ví dụ: Khoa toán,

ĐHQG Hà Nội

Trong nghiên cứu thống kê dữ liệu, luận văn chỉ ra rằng số lượng thực thể cấp 3 rất ít so với thực thể cấp 1 và cấp 2 Do đó, luận văn quyết định không đưa thực thể cấp 3 vào mô hình xây dựng Thay vào đó, các mô hình sẽ chỉ được đào tạo để nhận diện các thực thể cấp 1 và cấp 2.

4.2.3 Mô hình Để nhận ra các thực thể có tên lồng nhau, luận văn đã sử dụng phương pháp joint-tag được đưa ra trong [37] Mô hình joint-tag được đào tạo bằng cách sử dụng các thẻ chung kết hợp các thẻ cấp độ 1 và cấp độ 2 của mỗi từ

Bảng 4.3 Tạo joint tag cho mỗi từ ở tất cả các cấp

TP B-LOC I-ORG B-LOC+I-ORG

Hà I-LOC I-ORG I-LOC+I-ORG

Nội I-LOC I-ORG I-LOC+I-ORG

Bài viết này trình bày việc điều chỉnh mô hình huấn luyện trước BERTnews, BERTmultilingual và BERT4ecommerce, sử dụng từ vựng chung cho tất cả các ngôn ngữ Do tỷ lệ trùng lặp giữa từ vựng của các mô hình này và tập dữ liệu nhỏ là cao, nên không thực hiện điều chỉnh với hai mô hình BERTmultilingual và BERT4ecommerce.

Kiến trúc cho gán nhãn từ sử dụng BERT như hình 4.2 :

Hình 4.2 Kiến trúc BERT cho bài toán nhận diện thực thể có tên

Lớp này có nhiệm vụ biểu diễn câu đầu vào của mô hình, mã hóa đầu vào dựa trên bộ từ vựng đã được đánh chỉ số, và cung cấp dữ liệu cho mô hình BERT ở lớp tiếp theo.

BERT là một lớp trong kiến trúc BERT4news, có nhiệm vụ chuyển đổi mỗi từ trong lớp Input thành một véc tơ có độ dài cố định 768 chiều Lớp này sử dụng trọng số đã được huấn luyện trước từ mô hình BERT4news để khởi tạo trọng số, đảm bảo tính chính xác và hiệu quả trong việc biểu diễn ngữ nghĩa của từ.

Lớp Linear là một mạng nơ ron truyền thẳng, nhận đầu vào từ các véc tơ đại diện cho từng từ trong lớp BERT Sau đó, lớp này sử dụng hàm softmax để dự đoán nhãn cho từng từ.

The BERT model is compared with other models listed in the VLSP 2018 rankings, including VNER (Attentive Neural Network), Vietner (which combines CRF, n-grams, word2vector, clustering, and word shapes), and ZA-NER (BiLSTM) The F1 measure is utilized to evaluate the performance of the Named Entity Recognition (NER) models based on a specific formula.

NE true : số NEs được nhận dạng đúng của hệ thống

NE ref : số NEs có trong dữ liệu thử nghiệm

NE sys : số NEs được nhận dạng bởi hệ thống

Mô hình BERT được điều chỉnh cho bài toán này đã được huấn luyện với tốc độ học 2e-5, kích thước mỗi lô là 16 và độ dài câu tối đa là 256 từ Quá trình tối ưu hóa mô hình sử dụng thuật toán Adam với các tham số β1 = 0,9 và β2 = 0,999.

Bảng 4.4 Kết quả của BERT trên mỗi loại thực thể

Mô hình BERT thể hiện khả năng nhận diện tốt các loại thực thể, tuy nhiên, đối với thực thể ORGANIZATION, điểm số của mô hình thấp hơn do tên tổ chức thường dài và đa dạng, với nhiều loại thực thể lồng nhau Ví dụ, "Chủ tịch ủy ban nhân dân thành phố Hà Nội" là một thực thể PERSON, trong khi "thành phố Hà Nội" là thực thể LOCATION và "ủy ban nhân dân" là thực thể ORGANIZATION Mô hình hiện tại chỉ thiết kế cho hai mức thực thể lồng nhau, dẫn đến khả năng nhận diện các thực thể lồng nhau phức tạp như vậy vẫn còn hạn chế, tạo ra một thách thức lớn trong bài toán nhận diện thực thể trong tiếng Việt.

Bảng 4.5 Kết quả trên VLSP dữ liệu 2018

Vietner (CRF + ngrams + word2vector +cluster + word shapes)

Bảng 4.5 trình bày kết quả so sánh giữa các phương pháp trước đây và BERT Kết quả cho thấy, BERT4news, sau khi được huấn luyện trên tập dữ liệu tiếng Việt, đã cải thiện đáng kể hiệu suất mô hình Cụ thể, trên tập dữ liệu VLSP 2018, BERT4news đã nâng cao hiệu suất khoảng 1% so với VNER và 4% so với BiLSTM.

Bài toán phân tích c ảm xúc

Phân tích cảm xúc là quá trình phân loại cảm xúc từ văn bản ngôn ngữ tự nhiên Đầu vào là câu hoặc đoạn văn, và đầu ra là xác suất cho từng lớp cảm xúc cần xác định.

Trong loại bài toán phân tích cảm xúc được phân thành các bài toán có độ khó khác nhau như sau:

- Đơn giản: Phân tích cảm xúc (thái độ) trong văn bản thành 2 lớp: tích cực (positive) và tiêu cực (negative)

- Phức tạp hơn: Xếp hạng cảm xúc (thái độ) trong văn bản từ 1 đến 5

- Khó: Phát hiện mục tiêu, nguồn gốc của cảm xúc (thái độ) hoặc các loại cảm xúc (thái độ) phức tạp

Hiện nay, cộng đồng khoa học đã đạt được những tiến bộ đáng kể trong việc phân tích cảm xúc, chủ yếu ở mức độ đơn giản với hai lớp cảm xúc tiêu cực và tích cực, đạt độ chính xác trên 85% Tuy nhiên, vẫn còn nhiều thách thức trong việc phát triển các phương pháp phân tích cảm xúc phức tạp hơn.

Bài viết này trình bày kết quả nghiên cứu phân tích cảm xúc trong văn bản Tiếng Việt, tập trung vào hai lớp cảm xúc chính: tiêu cực và tích cực.

Ví dụ : Đóng gói sản phẩm rất đẹp và chắc chắn (nhãn : 0)

Treo đầu dê bán thịt chó nha m.n (nhãn: 1)

Mô hình áp dụng kiến trúc BERT BASE được điều chỉnh cho bài toán phân loại Đầu vào của mô hình bao gồm hai mã [CLS] và [SEP], trong đó véc tơ biểu diễn của mã [CLS] được sử dụng để phân loại thành hai nhãn 0 và 1.

Hình 4.3 Kiến trúc BERT cho bài toán phân lại cảm xúc

Mô hình áp dụng kiến trúc đơn giản nhằm dự đoán nhãn, chỉ sử dụng một dropout sau biểu diễn [CLS] và một hàm phân loại softmax ở lớp trên cùng của mô hình BERT.

Dữ liệu sử dụng lấy từ contest “Phân loại sắc thái bình luận” trên https://www.aivivn.com bao gồm dữ liệu VLSP 2016 và một số chỉnh sửa

Tập dữ liệu bao gồm 16,087 câu đánh giá được gán nhãn 0 và 1, trong đó dữ liệu thử nghiệm có 10,981 câu Để phát hiện điểm dừng huấn luyện, dữ liệu ban đầu được chia ngẫu nhiên thành hai phần: 80% cho huấn luyện và 20% cho phát triển Mô hình được huấn luyện qua 10 vòng lặp, và mô hình được chọn để đánh giá trên tập thử nghiệm là mô hình có điểm F1 cao nhất trong quá trình huấn luyện.

Trong phần thực nghiệm, luận văn so sánh mô hình BERT với các phương pháp truyền thống đã từng chiến thắng trong cuộc thi Kết quả từ Bảng 4.6 cho thấy rằng BERT vượt trội hơn so với các phương pháp truyền thống khi chỉ sử dụng mô hình đơn Hơn nữa, việc kết hợp nhiều mô hình hoặc điều chỉnh các tham số có thể giúp đạt được kết quả cao hơn nữa.

Bảng 4.6 Kết quả trên tập thử nghiệm aivivn contest

2 st place: SVM + Feature Engine +

1 st place: TextCNN+VDCNN+HARNN+SARNN 0.90087

Mô hình Bert4multilingual không đạt được hiệu suất F1 cao như các mô hình huấn luyện trước, cho thấy rằng việc phát triển các mô hình huấn luyện riêng cho tiếng Việt hoặc tiếp tục tinh chỉnh mô hình BERT cho các lĩnh vực cụ thể sẽ mang lại hiệu quả tốt hơn.

Bài toán tìm câu h ỏi tương đồng

Tìm câu hỏi tương đồng là một bước quan trọng trong quá trình hỏi đáp Chúng ta có thể sử dụng các tri thức hiện có từ những câu hỏi và câu trả lời trước đó để hỗ trợ người dùng trong việc tìm ra câu trả lời cho câu hỏi mới Bằng cách xác định các câu hỏi đã tồn tại tương đồng với câu hỏi mới, chúng ta có thể sử dụng câu trả lời của những câu hỏi đó để đáp ứng nhu cầu của người dùng Giả sử có một tập hợp các câu hỏi Q = {q1, q2, , qn}, nhiệm vụ của chúng ta là tìm các câu hỏi qi sao cho chúng có cùng mục đích hỏi với câu hỏi mới qnew.

Mô hình áp dụng kiến trúc BERT BASE, so sánh hiệu quả với các mô hình huấn luyện trước như BERT4ecomerce, PhoBERT và BERT4news trong bài toán này Tất cả các tham số của các lớp trong mô hình BERT được tinh chỉnh đồng thời Mã [CLS] được sử dụng cho phân loại và mã [SEP] được thêm vào để phân tách câu trong đầu vào của mô hình.

BERT – Input(q 1 ,q 2 ) = [CLS]q 1 [SEP]q 2 [SEP], ở đây q1,q 2 là hai câu hỏi

Kiến trúc BERT được áp dụng cho bài toán tìm câu hỏi tương đồng, cho phép so sánh hiệu quả với các phương pháp học sâu truyền thống như CNN và LSTM.

Hình 4.5 Các phương pháp deeplearning truyền thống cho bài toán tìm câu hỏi tương đồng

Các tham số của các mô hình được thể hiện trong bảng dưới đây :

Bảng 4.7 Tham số của các mô hình deeplearning

Emb- Hid-size L-rate P drop Batch Epochs

Bảng 4.8 Tham số điều chỉnh mô hình BERT max_length learning- rate step max

Dữ liệu được thu thập từ các câu hỏi của người dùng trong phần QA trên trang web thương mại điện tử https://www.thegioididong.com, chuyên cung cấp thông tin về điện thoại di động, máy tính xách tay và các thiết bị điện tử khác.

Bảng 4.9 Thống kê về dữ liệu câu hỏi thegioididong

Test 1068 Độ dài trung bình 27

Một Elastic engine được phát triển từ kho dữ liệu đã thu thập, trong đó một tập câu hỏi con được chọn ngẫu nhiên Mỗi câu hỏi sẽ được đưa vào Elastic để lấy 10 câu hỏi liên quan nhất Sau đó, 10 câu hỏi này sẽ được gán nhãn lại bởi con người Để nâng cao độ khó cho tập dữ liệu, các câu hỏi có điểm Elastic cao sẽ bị loại bỏ, nhằm tránh các câu hỏi đơn giản với ít sự khác biệt về ngữ nghĩa từ vựng.

Dữ liệu được phân chia thành ba nhóm chính: nhóm dữ liệu huấn luyện, nhóm dữ liệu điều chỉnh tham số mô hình, và nhóm dữ liệu thử nghiệm (Bảng 4.9).

Mô hình được triển khai bằng Tensorflow và thử nghiệm trên GPU Nvidia Tesla P100 16Gb, với MAP làm độ đo chính xác để đánh giá Bảng 4.10 trình bày kết quả thực nghiệm chi tiết trên Thegioididong, chia thành ba phần: mạng nơ-ron với LSTM/CNN, BERT được đào tạo trước trên kho ngữ liệu khác nhau, và các mô hình bag-of-word cơ bản Tất cả các mô hình, ngoại trừ PhoBERT, sử dụng âm tiết làm đầu vào, trong khi PhoBERT sử dụng mô đun tích hợp để tách từ Kết quả cho thấy cách tiếp cận học sâu vượt trội hơn các mô hình cơ sở, với sự gia tăng đáng kể ở các mô hình BERT, đặc biệt khi được đào tạo với dữ liệu miền cụ thể Độ chính xác của các mô hình cho bài toán tìm câu hỏi tương đồng được đánh giá bằng độ đo MAP.

Độ chính xác trung bình cho một tập hợp các truy vấn được tính bằng cách lấy trung bình của điểm chính xác trung bình cho từng truy vấn.

Trong đó r là rank của mỗi tài liệu liên quan, R là tổng số tài liệu liên quan và

P r là độ chính xác của top-r tài liệu trích rút ra

Trong đó q là một câu truy vấn và Q tổng số câu hỏi truy vấn

Bảng 4.10 Kết quả mô hình trên tập phát triển

Tất cả các mô hình được lựa chọn dựa trên điểm số MAP cao nhất trên tập phát triển trong quá trình huấn luyện Kết quả này được thể hiện chi tiết trong bảng 4.10.

Hình 4.6 ROC curves của các mô hình trên dữ liệu thử nghiệm

Bảng 4.11 và hình 4.6 cho thấy việc sử dụng BERT đã mang lại cải thiện đáng kể so với các mô hình học sâu truyền thống, vốn không hiệu quả trong trường hợp này do dữ liệu hạn chế và tính đặc thù của lĩnh vực BERT tận dụng tri thức từ mô hình ngôn ngữ đã học trên lượng lớn dữ liệu tiếng Việt, giúp nó hoạt động hiệu quả ngay cả với tập dữ liệu nhỏ Đặc biệt, Bert4Ecommerce đạt độ chính xác cao nhất với 70,50% MAP và 77,4% AUC Từ vựng thương mại điện tử bao gồm nhiều thuật ngữ công nghệ như Iphone, Samsung S9, và các từ viết tắt không chính thức Dữ liệu thương mại điện tử thường không đảm bảo chính tả và ngữ pháp, với nhiều lỗi như “thoong bao” và “mk” Do đó, việc đào tạo lại nhúng từ cho miền thương mại điện tử là cần thiết và hiệu quả hơn so với việc sử dụng mô hình được đào tạo trước trên dữ liệu nguồn tin tức.

Bảng 4.11 MAP của các mô hình trên dữ liệu thử nghiệm

Bằng cách trực quan hóa các ma trận attention của mô hình BERT và CNN, nghiên cứu cho thấy cơ chế self attention của BERT vượt trội trong việc học mối quan hệ ngữ nghĩa giữa hai câu so với các cơ chế attention truyền thống như CNN Hình 4.7 minh họa mối quan hệ từ giữa câu hỏi truy vấn (trục Y) và câu hỏi ứng viên (trục X), với màu sắc thể hiện độ lớn trọng số liên kết, trong đó màu tối hơn tương ứng với giá trị lớn hơn Sự phân bố attention của BERT thưa hơn so với ABCNN, điều này giúp tăng cường tương tác giữa các từ quan trọng như “slide” với “màn hình” và “lock” với “khóa máy”.

Hình 4.7 Visualize ma trận attention của BERT and CNN

Kết quả trên đã được public tại PACLIC 2020 ( the 34th Pacific Asia

Conference on Language, Information and Computation)

C ải thiện hiệu năng quá trình dự đoán của bert

4.5.1 BERT cho bi ểu diễn câu

BERT là mô hình tiên tiến nhất cho các nhiệm vụ xử lý ngôn ngữ tự nhiên (NLP), đặc biệt trong việc dự đoán độ tương đồng giữa hai câu Tuy nhiên, BERT cần cả hai câu làm đầu vào, dẫn đến chi phí tính toán cao Đối với bài toán tìm cặp câu có độ tương tự cao nhất trong một tập 1000 câu, yêu cầu tính toán sẽ rất lớn.

* ( 1) / 2 n n − = 49 995000 dự đoán Với card V100 GPU phải mất 65 giờ mới chạy xong khoảng 50 triệu dự đoán này

Một phương pháp hiệu quả để giải quyết vấn đề trong các bài toán phân cụm và tìm kiếm ngữ nghĩa là ánh xạ từng câu vào một không gian véc tơ Phương pháp này đảm bảo rằng các câu có ý nghĩa tương đồng sẽ được đặt gần nhau trong không gian này.

Các nhà nghiên cứu đã thử nghiệm với BERT bằng cách đưa từng câu vào để tạo ra các phép nhúng câu cố định Phương pháp phổ biến nhất là lấy trung bình đầu ra của BERT từ các biểu diễn từ trong câu hoặc sử dụng biểu diễn của mã [CLS] Tuy nhiên, kết quả thu được không khả quan Để cải thiện hiệu suất, mạng siamese BERT (S-BERT) đã được phát triển.

Kiến trúc này cho phép tạo ra một véc tơ cố định cho câu đầu vào, sử dụng các độ đo tương tự như cosine, Manhattan hoặc Euclidean để tìm các câu tương tự về mặt ngữ nghĩa Để điều chỉnh BERT, S-BERT được phát triển với mạng triplet network nhằm cập nhật trọng số, cho phép nhúng các câu có ý nghĩa và so sánh bằng độ đo tương tự cosine.

Hàm mục tiêu triplet loss điều chỉnh mạng để giảm khoảng cách giữa câu gốc a và câu tích cực p, đồng thời tăng khoảng cách giữa câu gốc a và câu tiêu cực n Cụ thể, S-BERT tối thiểu hóa hàm mất mát theo công thức: max( s a − s p − s a − s n +ε, 0).

Mô hình được huấn luyện trên dữ liệu câu hỏi của thế giới di động (trong mục 4.2.3), sử dụng BERT4ecomerce để thử nghiệm

Bảng 4.12 Kết quả S-BERT trên dữ liệu câu hỏi thegioididong

BERT4ecommerce 70.5 BERT (CLS véc tơ) 56.6

Bảng 4.12 chỉ ra rằng mặc dù độ chính xác có xu hướng giảm, nhưng tốc độ tìm kiếm dựa trên ngữ nghĩa lại tăng đáng kể Thay vì mất hơn 60 giờ để xử lý 50 triệu suy diễn, việc sử dụng S-BERT với một câu mới cho phép tìm kiếm câu tương tự chỉ trong vài giây.

Mô hình BERT sử dụng mã [CLS] để biểu diễn câu nhưng cho kết quả không tốt Ngược lại, S-BERT áp dụng mạng triplet để cập nhật tham số, mang lại kết quả ấn tượng hơn.

Lượng tử hóa là quá trình giảm trọng số của mô hình, trong đó k-means quantization là một phương pháp hứa hẹn Với ma trận trọng số W chứa các số thực dấu phẩy động, các tác giả đã nhóm chúng thành N cụm và chuyển đổi W thành ma trận giá trị nguyên từ [1 N], mỗi giá trị là con trỏ đến một trong N tâm cụm Phương pháp này cho phép nén từng phần tử của ma trận từ số thực 32 bit xuống số nguyên log(N)-bit Thông thường, kiến trúc máy tính chỉ cho phép giảm xuống 8 hoặc 1 bit, nhưng trường hợp giảm xuống 1 bit rất hiếm gặp vì việc mã hóa ma trận trọng số thành chỉ 2 giá trị riêng biệt có thể gây tổn hại nghiêm trọng đến mô hình.

Trong phần này, luận văn trình bày quy trình áp dụng BERT4ecommerce, mặc dù quy trình có thể áp dụng cho nhiều mô hình khác Đầu tiên, chúng ta thực hiện điều chỉnh trên dữ liệu hỏi đáp thegioidiong Sau đó, luận văn sử dụng các công cụ tiêu chuẩn, bao gồm việc giảm độ chính xác của mô hình thông qua lượng tử hóa động Int8 với thư viện PyTorch, chỉ lượng tử hóa các lớp kết nối đầy đủ Các ma trận lượng tử hóa được chuyển đổi sang định dạng ma trận thưa và lưu trữ trọng số bằng HDF5 với nén gzip Kết quả thử nghiệm cho thấy mô hình hỏi đáp có thể giảm kích thước bộ mã hóa từ 340MB xuống 75MB, tuy nhiên độ chính xác giảm 10% so với ban đầu.

Tiêu đề	Điều chỉnh BERT cho các bài toán xử lý ngôn ngữ tự nhiên trong tiếng Việt
Tác giả	Nguyễn Vạn Nhã
Người hướng dẫn	TS. Nguyễn Kiêm Hiếu
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Hệ thống thông tin
Thể loại	luận văn thạc sĩ
Năm xuất bản	2020
Thành phố	Hà Nội

Định dạng
Số trang	55
Dung lượng	1,22 MB