Phân đoạn từ tiếng Việt
Từ vựng tiếng Việt
Định nghĩa chính xác về từ "sát" không phải là một nhiệm vụ đơn giản, mà cần sự nghiên cứu công phu từ các nhà ngôn ngữ học Dưới đây là một ví dụ về định nghĩa của từ này.
Từ là đơn vị ngữ nghĩa cơ bản, có cấu trúc âm thanh bền vững và hoàn chỉnh Nó có chức năng gọi tên và có thể được sử dụng độc lập, tự do trong ngôn ngữ để tạo thành câu.
Từ có thể được hiểu đơn giản là "một hoặc nhiều tiếng" được cấu tạo nên Để hiểu rõ hơn, chúng ta sẽ khám phá khái niệm "tiếng" trong phần tiếp theo.
1.1.1 Tiếng – đơn vị cấu tạo lên từ
Tiếng là đơn vị cơ sở cấu tạo nên từ tiếng Việt, được gọi là âm tiết (syllable) trong ngôn ngữ học Về hình thức, tiếng là một đoạn phát âm không thể tách rời thành các đơn vị nhỏ hơn, bất kể cách phát âm chậm đến đâu Về nội dung, tiếng cũng là đơn vị nhỏ nhất có giá trị thể hiện, mang ý nghĩa về mặt hình thái học (cấu tạo từ) Đôi khi, tiếng còn được gọi là hình tiết (morphemesyllable), tức là âm tiết có giá trị hình thái học.
Các tiếng không phải tất cả đều giống nhau, xét về mặt ý nghĩa, chúng ta có thể chia tiếng thành các loại sau
• Tiếng tự thân nó đã có ý nghĩa, thường được quy chiếu vào một đối tượng, khái niệm Ví dụ: trời, đất, nước, cây, cỏ…
Tiếng tự thân không mang ý nghĩa độc lập và không liên kết với đối tượng hay khái niệm nào Chúng thường kết hợp với các tiếng có nghĩa khác để tạo ra sắc thái mới, chẳng hạn như trong các ví dụ như: (xanh) lè, (đường) xá, và (năng) nôi.
Tiếng tự thân không có nghĩa nhưng khi kết hợp lại, chúng tạo thành từ có ý nghĩa Nếu tách rời, những tiếng này sẽ không mang ý nghĩa gì, nhưng khi ghép lại, chúng trở thành từ có nghĩa Hiện tượng này thường thấy ở các từ mượn như phéc-mơ-tuya, a-pa-tít, mì-chính.
Trong tiếng Việt, nhóm từ đầu tiên chiếm ưu thế lớn, trong khi hai nhóm còn lại thường chỉ có số lượng ít, đặc biệt là nhóm thứ ba, thường được gọi là tiếng vô nghĩa Sự chiếm ưu thế của nhóm đầu tiên phản ánh thực tế rằng trong giao tiếp, người nói thường sử dụng các từ có nghĩa, hiếm khi chỉ nói toàn từ vô nghĩa.
1.1.1.3 Mô hình tiếng trong tiếng Việt và các thành tố của nó
Ta có thể biểu diễn cấu trúc của tiếng như bảng sau [4]:
Bảng 1: cấu trúc của tiếng trong tiếng Việt
Vần Âm đầu Âm đệm Âm chính Âm cuối
Thanh điệu là yếu tố quan trọng trong tiếng Việt, với mỗi tiếng có thể mang một trong sáu loại thanh điệu: sắc, huyền, hỏi, ngã, nặng và thanh bằng Các thanh điệu này giúp phân biệt nghĩa của từ thông qua sự khác biệt về cao độ Chẳng hạn, từ “việt” và “viết” chỉ khác nhau ở thanh điệu, nhưng lại có nghĩa hoàn toàn khác nhau.
• Âm đầu: có tác dụng mở đầu âm tiết Ví dụ: “nắng” và “mắng”
• Âm đệm: Có tác dụng biến đổi âm sắc của âm tiết sau lúc mở đầu Ví dụ: toán – tán
• Âm chính: là hạt nhân và mang âm sắc chủ đạo của tiếng Ví dụ : “túy” và
• Âm cuối: có tác dụng kết thúc tiếng với các âm sắc khác nhau, do đó có thể phân biệt các tiếng Ví dụ: “bàn” và “bài”
Vần trong tiếng Việt bao gồm âm đệm, âm chính và âm cuối, ví dụ như vần "ang" và "oan" Đây là năm thành tố cấu thành nên tiếng, trong đó vần không phải là một thành tố độc lập mà chỉ là cách gọi của cụm ba âm Mọi tiếng trong tiếng Việt đều tuân theo cấu trúc này, mặc dù có một số trường hợp âm trùng nhau, đặc biệt là với những tiếng có cấu trúc tương tự.
Trong tiếng Việt, từ có thể được hình thành từ một tiếng đơn lẻ hoặc từ sự kết hợp của nhiều tiếng theo nhiều cách khác nhau Bài viết này sẽ trình bày về hai loại từ tiếng Việt.
Từ đơn, hay còn gọi là từ đơn âm tiết, là các từ được cấu tạo bởi một tiếng duy nhất Ví dụ: tôi, bạn, nhà, hoa, vườn…
Từ ghép là những từ được hình thành từ hai hoặc nhiều tiếng có mối quan hệ ý nghĩa với nhau, dẫn đến sự phân loại đa dạng các loại từ ghép.
• Từ ghép đẳng lập: các thành phần cấu tạo từ có mối quan hệ bình đẳng với nhau về nghĩa Ví dụ: ăn nói, bơi lội …
Từ ghép chính phụ là loại từ có các thành phần cấu tạo có mối quan hệ phụ thuộc về nghĩa, trong đó thành phần phụ giúp chuyên biệt hóa và tạo sắc thái cho thành phần chính Ví dụ điển hình bao gồm "hoa hồng" và "đường sắt".
Từ láy là loại từ có cấu tạo từ các yếu tố ngữ âm được lặp lại, đồng thời có sự biến đổi Một ví dụ điển hình cho từ láy là từ "đo".
Từ láy trong tiếng Việt thường có độ dài từ 2 đến 4 tiếng, nhưng chủ yếu là từ láy hai tiếng Có hai loại từ láy: loại có phần lặp mà không biến đổi, ví dụ như "nhà nhà" hay "ngành ngành", và loại có sự biến đổi âm thanh.
Láy hoàn toàn là hình thức láy mà tiếng sau lặp lại hoàn toàn tiếng trước, mặc dù giữa chúng có những sai khác nhỏ Một số kiểu láy hoàn toàn thường gặp bao gồm láy hoàn toàn đối nhau ở thanh điệu như “sừng sững” và “loang loáng”, láy hoàn toàn đối nhau ở âm cuối như “khin khít” và “ăm ắp”, và láy hoàn toàn đối nhau ở trọng âm, trong đó một tiếng được nhấn mạnh hoặc kéo dài hơn tiếng kia, ví dụ như “đùng đùng” và “đăm đăm”.
Phân đoạn từ tiếng Việt bằng máy tính
Phân đoạn từ tiếng Việt có sự khác biệt rõ rệt giữa phương pháp thủ công và máy tính Phương pháp thủ công mang lại độ chính xác cao, gần như tuyệt đối Tuy nhiên, như đã đề cập trong chương đầu, phân đoạn từ là bước đầu tiên trong nhiều quy trình xử lý ngôn ngữ tự nhiên bằng máy tính, vì vậy việc sử dụng máy tính để phân đoạn từ là rất quan trọng Đặc biệt, khi khối lượng dữ liệu lớn, phân đoạn từ bằng máy tính trở thành lựa chọn duy nhất.
Nhiều nghiên cứu đã xây dựng mô hình phân đoạn từ tiếng Việt bằng máy tính, phần lớn dựa trên các mô hình thành công từ tiếng Anh, tiếng Trung, tiếng Nhật và được điều chỉnh cho phù hợp với đặc điểm của tiếng Việt Tuy nhiên, các mô hình này vẫn gặp phải một số vấn đề chung trong việc phân đoạn từ tiếng Việt.
• Xác định từ các từ chưa biết trước (đối với máy tính) như các câu thành ngữ, từ láy, hoặc tên người, địa điểm, tên các tổ chức…
Việc giải quyết tốt hay không hai vấn đề trên có thể quyết định một mô hình phân đoạn nào đó là tốt hay không
Phương pháp khớp tối đa, hay còn gọi là phương pháp tối ưu, là một kỹ thuật trong đó câu được duyệt từ trái qua phải để chọn từ có nhiều âm tiết nhất có trong từ điển tiếng Việt Thuật toán này dựa trên nghiên cứu của Chih-Hao Tsai vào năm 1996 và bao gồm hai dạng khác nhau.
Thuật toán đơn giản kiểm tra từng chuỗi từ trong câu, bắt đầu từ t1, sau đó kiểm tra t1-t2, và tiếp tục như vậy cho đến khi tìm được từ dài nhất có trong từ điển Quá trình này lặp lại với các tiếng còn lại trong câu và toàn bộ văn bản Tuy nhiên, phương pháp này gặp nhiều khó khăn trong tiếng Việt, như ví dụ phân đoạn từ câu “học sinh | học sinh | học”, trong đó kết quả đúng phải là “học sinh | học | sinh học”.
Dạng phức tạp giúp giảm thiểu những nhầm lẫn thường gặp trong dạng đơn giản Thuật toán bắt đầu bằng việc kiểm tra sự hiện diện của t1 trong từ điển, tiếp theo là kiểm tra t1-t2 Nếu cả hai t1 và t1-t2 đều có trong từ điển, thuật toán sẽ áp dụng chiến thuật chọn 3 từ tốt nhất theo tiêu chuẩn của Chen & Liu.
Độ dài trung bình của 3 từ là yếu tố quan trọng nhất trong việc phân đoạn cụm từ Chẳng hạn, với chuỗi “cơ quan tài chính”, phân đoạn chính xác sẽ là “cơ quan | tài chính”, giúp tránh việc phân đoạn sai thành “cơ | quan tài | chính” Việc tuân thủ quy tắc này đảm bảo độ dài trung bình lớn nhất cho các từ trong cụm, nâng cao tính chính xác trong việc phân tích ngữ nghĩa.
Sự chênh lệch độ dài của ba từ trong một chuỗi thường rất nhỏ Chẳng hạn, chuỗi “công nghiệp hóa chất phát triển” cần được phân đoạn chính xác thành “công nghiệp | hóa chất | phát triển”, thay vì phân đoạn sai thành “công nghiệp hóa | chất | phát triển”.
Cả 2 cách phần đoạn này đều có độ dài trung bình bằng nhau, nhưng cách phân đoạn đúng có sự chênh lệch độ dài 3 từ ít hơn
Mặc dù hai tiêu chuẩn trên có thể giảm thiểu một số nhầm lẫn, nhưng không thể giải quyết tất cả Chẳng hạn, với câu “ông già đi nhanh”, cả hai cách phân đoạn “ông | già đi| nhanh” và “ông già | đi | nhanh” đều có độ dài trung bình và độ chênh lệch giữa các từ tương đương, khiến thuật toán không xác định được cách phân đúng Phương pháp này có ưu điểm là đơn giản, dễ hiểu và thực hiện nhanh chóng Hơn nữa, chỉ cần một từ điển đầy đủ là có thể tiến hành phân đoạn văn bản mà không cần trải qua quá trình huấn luyện như các phương pháp khác.
Phương pháp này có nhược điểm lớn là không giải quyết được hai vấn đề quan trọng trong phân đoạn từ tiếng Việt, bao gồm sự nhập nhằng trong thuật toán và thiếu chiến lược cho những từ chưa biết.
Phương pháp TBL (Transformation-Based Learning), được giới thiệu bởi Eric Brill vào năm 1992, là một phương pháp học cải tiến áp dụng cho bài toán phân đoạn văn bản Quá trình bắt đầu với văn bản chưa được phân đoạn T1, sau đó được phân tích qua chương trình khởi tạo phân đoạn P1, có thể đơn giản hoặc phức tạp Kết quả là văn bản T2 đã được phân đoạn, sau đó được so sánh với văn bản chuẩn T3 Chương trình P2 sẽ học các phép chuyển đổi để cải thiện sự tương đồng giữa T2 và T3 Quá trình này lặp lại cho đến khi không còn phép chuyển đổi nào có thể cải thiện T2, từ đó tạo ra bộ luật R cho phân đoạn văn bản.
Cách hoạt động của TBL có thể mô tả ở hình sau:
Hình 1: Mô hình hoạt động của TBL
Phương pháp TBL gặp khó khăn do tốn nhiều thời gian và không gian nhớ, vì cần tạo ra các luật trung gian trong quá trình học Việc xây dựng một bộ luật đầy đủ cho phân đoạn từ là thách thức lớn, dẫn đến sự nhập nhằng khi áp dụng phương pháp này.
Sau khi bộ luật được ban hành, TBL đã nhanh chóng tiến hành phân đoạn Ý tưởng của phương pháp này là rút ra quy luật từ ngôn ngữ và liên tục điều chỉnh luật thông qua quá trình lặp, điều này rất phù hợp với bài toán xử lý ngôn ngữ tự nhiên.
Phương pháp WFST (Weighted Finite-State Transducer) hay còn gọi là phương pháp chuyển dịch trạng thái hữu hạn có trọng số, là một kỹ thuật quan trọng trong phân đoạn từ tiếng Việt Ý tưởng chủ đạo của phương pháp này là gán trọng số cho các từ dựa trên xác suất xuất hiện của chúng.
WFST hoạt động bằng cách phân đoạn từ thông qua ba bước chính Đầu tiên, nó xác định 12 từ trong dữ liệu Sau đó, nó duyệt qua các câu, sử dụng cách duyệt có trọng số lớn nhất để phân đoạn từ hiệu quả.
Xây dựng từ điển trọng số D dưới dạng đồ thị biến đổi trạng thái hữu hạn có trọng số, trong đó H là tập hợp các tiếng Việt và P là tập hợp các loại từ trong tiếng Việt Mỗi cung của D sẽ được xác định dựa trên các yếu tố ngữ nghĩa và ngữ pháp.
Từ một phần tử của H tới môt phần tử của H
Phương pháp tiếp cận của khóa luận
Sau khi nghiên cứu về ngôn ngữ tiếng Việt và các phương pháp phân đoạn từ hiện có, tôi nhận thấy rằng một mô hình phân đoạn từ hiệu quả cần giải quyết hai vấn đề chính: sự nhập nhằng trong tiếng Việt và khả năng phát hiện từ mới Do đó, tôi đã chọn mô hình học máy CRF để giải quyết bài toán này Mô hình CRF có khả năng tích hợp hàng triệu đặc điểm từ dữ liệu huấn luyện, giúp giảm thiểu sự nhập nhằng trong tiếng Việt và cho phép đưa vào nhiều đặc điểm cho quá trình học.
14 máy để có khả năng phát hiện từ mới như tên riêng, từ láy…mà em sẽ trình bày cụ thể trong các chương tiếp theo.
Tổng kết chương
Chương này đã thảo luận về từ vựng Tiếng Việt và những thách thức trong việc phân đoạn từ, đồng thời đưa ra một số phương pháp giải quyết cùng với ưu nhược điểm của từng phương pháp Em đã quyết định chọn phương pháp học máy với mô hình CRF Trong chương tiếp theo, em sẽ trình bày chi tiết về mô hình CRF này.
Conditional Random Field
Định nghĩa CRF
Kí hiệu X là biến ngẫu nhiên đại diện cho chuỗi dữ liệu cần gán nhãn, trong khi Y là biến ngẫu nhiên tương ứng với chuỗi nhãn Mỗi thành phần Yi của Y là một biến ngẫu nhiên nhận giá trị từ tập hữu hạn các trạng thái S Chẳng hạn, trong bài toán phân đoạn từ, X bao gồm các câu trong ngôn ngữ tự nhiên, còn Y là chuỗi nhãn tương ứng Mỗi thành phần Yi trong Y xác định phạm vi của một từ trong câu, bao gồm các trạng thái như bắt đầu một từ, ở trong một từ, và kết thúc một từ.
Trong một đồ thị vô hướng không có chu trình G = (V,E), với E là tập các cạnh và V là tập các đỉnh, tồn tại ánh xạ một – một giữa mỗi đỉnh và một thành phần Yv của tập hợp Y = { Yv | v∈V} Nếu các biến ngẫu nhiên Yv tuân theo tính chất Markov đối với đồ thị G, tức là xác suất của Yv phụ thuộc vào X và các biến Y khác, thì ta có thể diễn đạt điều này bằng công thức: p(Yv | X, Yu, u ≠v, {u,v}∈V) = p(Yv | X, Yu, (u,v) ∈E) Khi đó, cặp (X,Y) được gọi là một trường ngẫu nhiên điều kiện (Conditional Random Field).
Một CRF (Conditional Random Field) là một mô hình thống kê mà phụ thuộc vào chuỗi quan sát X Trong lĩnh vực phân đoạn từ và các bài toán xử lý dữ liệu chuỗi, đồ thị G được biểu diễn đơn giản dưới dạng chuỗi với tập đỉnh V = {1, 2, …, m} và tập cạnh E = {(i, i+1)}.
Kí hiệu X= (X1, X2, Xn) và Y = (Y1, Y2, …Yn) thì mô hình đồ thị G có dạng sau
Hình 2: đồ thị vô hướng mô tả CRF
Gọi C là tập hợp các đồ thị con đầy đủ của G Do G có cấu trúc chuỗi, nên các đồ thị con đầy đủ thực chất chỉ là một đỉnh hoặc một cạnh của G Khi áp dụng kết quả từ Hammerley-Clifford cho các trường ngẫu nhiên Markov, phân phối của chuỗi nhãn Y với chuỗi quan sát X cho trước sẽ có dạng nhất định.
Trong đó ΨA gọi là hàm tiềm năng, nhận giá trị thực- dương
Lafferty xác định hàm tiềm năng dựa trên nguyên lý cực đại entropy, nghĩa là xác định một phân phối tuân theo tất cả các giả thiết từ thực nghiệm mà không thêm giả thiết nào khác, đồng thời gần nhất với phân phối đều.
Entropy là một chỉ số đo lường mức độ không chắc chắn hoặc sự không đồng đều trong phân phối xác suất Độ đo entropy có điều kiện H(Y|X) được xác định thông qua một công thức cụ thể.
Với ~p(x,y)là phân phối thực nghiệm của dữ liệu
Theo cách trên, Lafferty đã chỉ ra hàm tiềm năng của mô hình CRFs có dạng
Trong bài viết này, λ k được xác định là thừa số Lagrangian tương ứng với thuộc tính f k, đồng thời đóng vai trò là trọng số để xác định mức độ quan trọng của thuộc tính này trong chuỗi dữ liệu Các thuộc tính được phân loại thành hai loại chính: thuộc tính chuyển (ký hiệu là f) và thuộc tính trạng thái (ký hiệu là g), tùy thuộc vào việc A là một đỉnh hay một cạnh trong đồ thị Bằng cách thay thế công thức hàm tiềm năng vào công thức (3.1) và thêm thừa số chuẩn hóa, chúng ta có thể đảm bảo rằng điều kiện xác suất được thỏa mãn.
Trong mô hình này, x đại diện cho chuỗi dữ liệu, trong khi y là chuỗi trạng thái tương ứng Hàm f k (y i− 1 ,y i ,x) xác định thuộc tính của chuỗi quan sát tại vị trí thứ i và i-1 trong chuỗi trạng thái Đồng thời, g k (y i ,x) biểu thị thuộc tính của chuỗi quan sát và trạng thái tại vị trí thứ i trong chuỗi trạng thái.
Các thuộc tính này được rút ra từ tập dữ liệu và có giá trị cố định Ví dụ: fi =
1 nếu xi-1= “Học”, xi=”sinh”và yi-1=B_W, yi=I_W
Vấn đề của ta bõy giờ là phải ước lượng được cỏc tham số (λ 1 ,λ 2 , K ;à 1 ,à 2 , K ) từ tập dữ liệu huấn luyện.
Huấn luyện CRF
Huấn luyện mô hình CRF tập trung vào việc xác định tập tham số tối ưu cho mô hình Kỹ thuật chính được áp dụng là tối đa hóa độ đo likelihood giữa phân phối của mô hình và phân phối thực nghiệm Do đó, quá trình huấn luyện mô hình CRFs trở thành bài toán tối đa hóa hàm logarit của hàm likelihood.
Giả sử chúng ta có một tập dữ liệu huấn luyện gồm N cặp, mỗi cặp bao gồm một chuỗi quan sát và một chuỗi trạng thái tương ứng, ký hiệu là D={(x (i) ,y (i) )} với i từ 1 đến N Hàm log-likelihood của tập dữ liệu này được biểu diễn theo một dạng cụ thể.
(θ p p θ l (3.5) Ở đõy θ(λ 1 ,λ 2 , ,à 1 , à 2 ) là cỏc tham số của mụ hỡnh và ~p(x,y)là phõn phối thực nghiệm đồng thời của x,y trong tập huấn luyện
Thay p(y|x) của CRFs trong công thức (3.4) vào trên ta được:
( p f g p Z l n i n i à λ θ (3.6) Ở đõy, λ(λ 1 ,λ 2 , λ n ) và à(à 1 ,à 2 , ,à m )là cỏc vector tham số của mụ hỡnh, f là vector các thuộc tính chuyển, g là vector các thuộc tính trạng thái gi = 1 nếu xi =”Học” và yi = B_W
Hàm log-likelihood đã được chứng minh là một hàm lõm và liên tục trên toàn bộ không gian tham số Do đó, việc tìm cực đại của hàm log-likelihood có thể thực hiện thông qua phương pháp vector gradient, trong đó mỗi thành phần của vector gradient sẽ được gán bằng 0.
Việc thiết lập phương trình bằng 0 tương đương với việc đặt ra ràng buộc cho mô hình, yêu cầu giá trị kỳ vọng của thuộc tính fk trong phân phối mô hình phải tương đương với giá trị kỳ vọng của thuộc tính fk trong phân phối thực nghiệm.
Hiện nay, có nhiều phương pháp để giải quyết bài toán cực đại hàm log-likelihood, bao gồm các phương pháp lặp như IIS và GIS, cũng như các phương pháp tối ưu số như Conjugate Gradient và phương pháp Newton Theo Malouf (2002), phương pháp tối ưu số bậc hai L-BFGS (limited memory BFGS) được đánh giá là hiệu quả nhất hiện nay.
Dưới đây em xin trình bày tư tưởng chính của phương pháp L-BFGS dùng để ước lượng tham số cho mô hình CRFs
L-BFGS là phương pháp tối ưu số bậc hai, ngoài tính toán giá trị của vector gradient, L-BFGS còn xem xét đếm yếu tố về đường cong hàm log-likelihood Theo công thức khai triển Taylor tới bậc hai của l(θ +∆)ta có:
G(θ) là vector gradient, trong khi H(θ) là ma trận Hessian, đại diện cho đạo hàm bậc hai của hàm log-likelihood Bằng cách thiết lập đạo hàm của xấp xỉ trong (3.8) bằng 0, chúng ta có thể xác định gia số để cập nhật tham số mô hình.
Trong bài toán ước lượng tham số của mô hình CRFs, ma trận Hessian thường có kích thước lớn, do đó việc tính toán trực tiếp nghịch đảo của nó là không khả thi Phương pháp L-BFGS được áp dụng để tránh tính toán trực tiếp với ma trận này.
Hessian nó chỉ tính toán sự thay đổi độ cong của vector gradient so với bước trước đó và cập nhật lại
Công thức (3.9) có thể viết lại là
Ma trận B − 1 (θ) thể hiện sự biến đổi độ cong qua từng bước lặp của thuật toán Yếu tố "giới hạn bộ nhớ" trong thuật toán được thể hiện qua việc các tham số tính toán B − 1 (θ) được lưu trữ riêng biệt Khi bộ nhớ đầy, các tham số cũ sẽ bị xóa để nhường chỗ cho các tham số mới.
Việc xấp xỉ ma trận Hessian theo B(θ) giúp phương pháp L-BFGS đạt được tốc độ hội tụ nhanh chóng ngay cả khi xử lý khối lượng dữ liệu lớn Các thực nghiệm gần đây đã chỉ ra rằng L-BFGS mang lại hiệu quả vượt trội so với những phương pháp tối ưu hóa khác.
Suy diễn CRF
Sau khi xác định được mô hình CRFs từ tập dữ liệu huấn luyện, nhiệm vụ tiếp theo là sử dụng mô hình này để gán nhãn cho chuỗi dữ liệu quan sát Điều này tương đương với việc tối đa hóa phân phối xác suất giữa chuỗi trạng thái y và dữ liệu quan sát x Chuỗi trạng thái y* mô tả tốt nhất chuỗi dữ liệu quan sát x sẽ là nghiệm của phương trình.
| p(y argmax{ y*Chuỗi y* có thể xác định được bằng thuật toán Viterbi
Tập hợp S bao gồm tất cả các trạng thái khả thi, với S = m Chúng ta xem xét một tập hợp các ma trận kích thước m × m, ký hiệu là { Mi(x) | i = 0, 2…n-1}, được định nghĩa cho từng cặp trạng thái y, y' ∈ S.
Bằng cách thêm hai trạng thái y-1 và yn vào trước và sau chuỗi trạng thái, chúng ta có thể coi chúng tương ứng với trạng thái "start" và "end" Nhờ đó, phân phối xác suất có thể được diễn đạt một cách rõ ràng hơn.
Trong bài viết này, Z(x) là thừa số chuẩn hóa có thể tính toán từ các Mi, nhưng để tối đa hóa p(y|x), chúng ta không cần tính Z(x) Thay vào đó, mục tiêu của chúng ta là cực đại hóa tích của n+1 phần tử Thuật toán Viterbi hoạt động bằng cách tăng dần chuỗi trạng thái tối ưu, quét qua các ma trận từ vị trí 0 đến n Tại mỗi bước i, chúng ta ghi lại tất cả các chuỗi tối ưu kết thúc bởi trạng thái y với ∀y∈S, ký hiệu là y i * (y) và tích tương ứng Pi(y).
Bước lặp: Cho i chạy từ 1 đến n tính:
* y y y y y i = i − , trong đó yˆ =argmax y ' ∈ S P i − 1 (y)×M i (y,'y|x) và “.” là toán tử cộng chuỗi
Chuỗi y n− * 1 (y)chính là chuỗi có xác suất p(y*|x) lớn nhất, đó cũng chính là chuỗi nhãn phù hợp nhất với chuỗi dữ liệu quan sát x cho trước.
Tổng kết chương
Chương này đã trình bày những khái niệm cơ bản về CRF, bao gồm định nghĩa, phương pháp ước lượng tham số và cách suy diễn để gán nhãn cho dữ liệu chưa được gán nhãn Ở chương tiếp theo, tôi sẽ đề cập đến bài toán phân đoạn tiếng Việt với ứng dụng của mô hình CRF.
Phân đoạn từ tiếng Việt với mô hình CRF
Mô tả bài toán phận đoạn từ tiếng Việt
Bài toán phân đoạn từ tiếng Việt có thể được chuyển đổi thành bài toán gán nhãn cho các âm tiết Từ các nhãn này, chúng ta có thể xác định ranh giới của từng từ trong văn bản tiếng Việt Các nhãn được áp dụng trong quá trình này là
• B_W: nhãn đánh dấu bắt đầu một từ
• I_W: nhãn đánh dấu ở trong một từ
• O: nhãn đánh dấu ở ngoài tất cả các từ
Như vậy bài toán phân đoạn từ tiếng Việt có thể phát biểu là:
Để xây dựng một mô hình gán nhãn {B_W, I_W, O} cho các âm tiết trong văn bản tiếng Việt chưa phân đoạn, việc chuẩn bị một tập dữ liệu huấn luyện đầy đủ và chính xác là rất quan trọng.
Dữ liệu huấn luyện được thu thập từ nhiều nguồn trên internet, bao gồm các báo điện tử như Vnexpress, Người lao động, VietNamNet và Tuổi trẻ Các bài viết này trải rộng trên nhiều lĩnh vực khác nhau.
Bảng 2: Thống kê dữ liệu sử dụng trong các lĩnh vực
STT Lĩnh vực Số lượng bài Số lượng câu
2 Công nghệ thông tin 59 bài
7 Văn hóa- xã hội 24 bài
Để nâng cao độ chính xác của mô hình, tôi đã thu thập 305 bài viết và bổ sung dữ liệu về tên riêng của người và tổ chức, nhằm hỗ trợ hiệu quả cho việc phát hiện từ mới.
• Khoảng 20672 tên người lấy từ internet và từ trang http://www.vietnamgiapha.com
• Khoảng 707 tên địa danh Việt Nam lấy từ http://vi.wikipedia.org
Dữ liệu thu thập từ internet sẽ được lọc để lấy nội dung chính, sau đó trải qua quá trình xử lý bán tự động qua hai giai đoạn nhằm đảm bảo độ chính xác cho dữ liệu sử dụng trong huấn luyện mô hình.
Giai đoạn 1: Sử dụng phần mềm tách từ tự động WordMatching của CN Nguyễn
Cẩm Tú là phần mềm tách từ tự động sử dụng phương pháp Maximum Matching, với dữ liệu từ điển Lạc-Việt phong phú, giúp phân đoạn từ chính xác Tuy nhiên, việc xử lý tiếng Việt và dữ liệu từ internet vẫn gặp một số khó khăn nhất định.
• Nhập nhằng trong tiếng Việt
• Từ mới không có trong từ điển, tiêu biểu là các từ tiếng nước ngoài
Giai đoạn 2 của quy trình là kiểm tra thủ công, trong đó hai người thực hiện kiểm tra chéo dữ liệu Dữ liệu sau khi được kiểm tra bởi người thứ nhất sẽ được người thứ hai xem xét lại Sau khi hoàn thành, cả hai sẽ thống nhất về những điểm không rõ ràng trong quá trình phân đoạn trước khi dữ liệu được sử dụng chính thức cho việc huấn luyện mô hình.
3.1.3 Đầu vào và đầu ra của mô hình CRFs
Dữ liệu sau khi thu thập và phân đoạn sẽ được chuyển đổi sang định dạng IOB2, là dạng dữ liệu đầu vào cho mô hình CRFs Cấu trúc của định dạng IOB2 được thể hiện trong bảng dưới đây.
Bảng 3: Ví dụ về dữ liệu định dạng chuẩn iob2
Kỹ thuật môi trường , khoa học môi trường , công nghệ môi trường có phải là một ngành
Trong định dạng iob2, cột đầu tiên là cột dữ liệu quan sát, tiếp theo là chuỗi trạng thái Mỗi âm tiết được ghi trên một dòng với nhãn tương ứng, và các câu được ngăn cách bằng một dòng trắng.
Dữ liệu định dạng iob2 sẽ được sử dụng để huấn luyện một mô hình CRFs, nhằm phân đoạn các văn bản mới Quá trình này có thể được mô tả như sau:
Hình 3: quá trình phân đoạn sử dụng mô hình CRF
Dữ liệu định dạng IOB2 được sử dụng để tạo ra các thuộc tính phục vụ cho việc huấn luyện mô hình Cách chọn thuộc tính phụ thuộc vào từng bài toán cụ thể và việc lựa chọn thuộc tính phù hợp có ảnh hưởng lớn đến kết quả của chương trình.
Lựa chọn thuộc tính
Việc lựa chọn các thuộc tính từ tập dữ liệu huấn luyện là nhiệm vụ quan trọng nhất, quyết định chất lượng của toàn bộ hệ thống Các thuộc tính được chọn càng tinh tế và có ý nghĩa, độ chính xác của hệ thống càng cao Do đó, việc tìm hiểu từ vựng tiếng Việt như đã trình bày ở chương 3 là rất hữu ích.
Các thuộc tính tại vị trí i trong chuỗi dữ liệu quan sát bao gồm thông tin ngữ cảnh và nhãn tương ứng Việc lựa chọn các thuộc tính thực chất là xác định các mẫu vị từ ngữ cảnh, phản ánh thông tin quan trọng tại vị trí đó Khi áp dụng các mẫu ngữ cảnh tại vị trí i, ta thu được thông tin ngữ cảnh tương ứng Kết hợp thông tin ngữ cảnh với nhãn tại vị trí i sẽ tạo ra thuộc tính của chuỗi dữ liệu quan sát Như vậy, với các mẫu ngữ cảnh, ta có thể tự động rút ra hàng nghìn thuộc tính từ tập dữ liệu huấn luyện.
3.2.1 Mẫu ngữ cảnh từ điển
Mẫu ngữ cảnh từ điển cung cấp các thuộc tính giúp xác định xem từ A có nằm trong danh sách từ đã biết hay không Chẳng hạn, một thuộc tính có thể là “âm tiết đi liền trước kết hợp với âm tiết hiện tại tạo thành một từ có trong danh sách tên người Việt Nam.”
Trong bài toán này, em sử dụng dữ liệu từ điển lạc việt và thu thập các danh sách thông tin khác từ internet Cụ thể như sau:
Bảng 4: Mẫu ngữ cảnh dạng từ điển
Mẫu ngữ cảnh Ý nghĩa trong từ điển Lạc Việt bao gồm các thuật ngữ như family_name (họ trong tiếng Việt), middle_name (tên đệm trong tiếng Việt), last_name (tên trong tiếng Việt) và vnlocation (địa danh tiếng Việt).
3.2.2 Mẫu ngữ cảnh từ vựng
Bảng 5: Mẫu ngữ cảnh từ vựng
S-2 Âm tiết quan sát tại vị trí -2 so với vị trị hiện tại
S-1 Âm tiết quan sát tại vị trí liền trước so với vị trị hiện tại
S1 Âm tiết quan sát tại vị trí liền sau so với vị trí hiện tại
S2 Âm tiết quan sát tại vị trí +2 so với vị trị hiện tại
S0S1 Âm tiết quan sát tại vị trí hiện tại và vị trí liền sau
S-1S0 Âm tiết quan sát tại vị trí liền trước và vị trí hiện tại
S-2S-1 Âm tiết quan sát tại vị trí -2 và dữ vị trí liền trước
Chúng ta thực hiện quan sát âm tiết tại vị trí trước, hiện tại và sau của từ, với kích thước cửa sổ trượt là 5 Lý do chọn kích thước này là vì hầu hết các từ trong tiếng Việt có độ dài dưới 3 âm tiết, trong khi các từ có hơn 3 âm tiết chỉ chiếm khoảng 3,1%.
3.2.3 Mẫu ngữ cảnh phát hiện tên thực thể
Các tên thực thể thường bắt đầu bằng chữ cái viết hoa, do đó, chúng ta có thể thêm thuộc tính viết hoa vào mô hình Nếu toàn bộ ký tự đều viết hoa, khả năng cao từ đó là tên viết tắt của một tổ chức Tuy nhiên, nếu một âm tiết được viết hoa và đứng ở đầu câu, thì thông tin viết hoa sẽ không còn ý nghĩa.
Bảng 6: Mẫu ngữ cảnh phát hiện tên thực thể
InitialCap Âm tiết viết hoa
AllCap Âm tiết viết in
FirstObsr Từ đầu tiên của câu
Mark Dâu câu (ví dụ: chấm, phẩy, chấm phẩy )
3.2.4 Mẫu ngữ cảnh phát hiện từ láy
Phát hiện các từ láy trong tiếng Việt, bao gồm từ láy bộ phần và từ láy toàn bộ như đã trình bày ở trước
Bảng 7: Mẫu ngữ cảnh phát hiên từ láy toàn bộ đối thanh điệu
Full_Dup Có phải láy toàn bộ không
Part_Dup Có phải láy bộ phận không
3.2.5 Mẫu ngữ cảnh âm tiết tiếng Việt
Dựa vào cấu trúc âm tiết đã trình bày ở trước, ta xây dựng mẫu ngữ cảnh xác định một âm tiết có phải là âm tiết tiếng Việt không
Bảng 8: Mẫu ngữ cảnh phát hiên từ láy toàn bộ đối thanh điệu
Mẫu ngữ cảnh Ý nghĩa not_valid_vnsyll Âm tiết không có trong tiếng Việt (ví dụ: hard,soft )
3.2.6 Mẫu ngữ cảnh dạng regular expression
Bảng 9: Mẫu ngữ cảnh phát hiên từ láy toàn bộ đối thanh điệu
Mẫu ngữ cảnh Ví dụ Ý nghĩa
Cách đánh giá
Phương pháp đánh giá trong luận văn sử dụng ước lượng chéo trên k tập con, với k=5 cho dữ liệu của bài toán Quá trình huấn luyện được thực hiện một cách chi tiết và hiệu quả.
Trong quá trình huấn luyện, dữ liệu được chia thành 5 phần bằng nhau, với 1 phần dùng để kiểm tra và 4 phần còn lại để huấn luyện Mỗi lần lặp lại, hệ thống sẽ đánh giá độ chính xác thông qua các chỉ số như độ chính xác (precision), độ hồi tưởng (recall) và chỉ số F1.
Sau quá trình huấn luyện, chúng ta sẽ lựa chọn bước lặp có chỉ số F1 cao nhất, vì chỉ số F1 là thước đo quan trọng phản ánh chất lượng của mô hình.
3.3.2 Các đại lượng đo độ chính xác
Đánh giá độ chính xác của mô hình phân đoạn từ là rất quan trọng, giúp so sánh giữa các tập dữ liệu huấn luyện và với các mô hình hiện có Các phương pháp phổ biến để đánh giá độ chính xác bao gồm độ chính xác (precision), độ hồi tưởng (recall) và độ đo F1 Độ đo F1 là chỉ số cân bằng giữa độ chính xác và độ hồi tưởng; nếu cả hai chỉ số này cao và cân bằng, độ đo F1 sẽ lớn, ngược lại, nếu không cân bằng, độ đo F1 sẽ nhỏ Mục tiêu của chúng ta là phát triển mô hình phân đoạn từ với chỉ số F1 cao.
• Kí hiệu c là số lượng từ được hệ thống phân đoạn đúng
• Kí hiệu N là số lượng từ trong văn bản
• Kí hiệu n là số lượng từ được hệ thống phân đoạn
Sau khi thực hiện các độ đo, chúng ta tiến hành tính toán kết quả trung bình cho từng độ đo trong bước lặp tương ứng Có hai loại kết quả trung bình được xác định là Avg1 và Avg2.
• Kết quả trung bình loại Avg1 cho một độ đo là một số được tính bằng trung bình cộng độ đo tương ứng
Kết quả trung bình loại Avg2 được tính dựa trên kết quả tổng thể Trong trường hợp các độ đo tính dựa trên từ, giá trị của Avg2 sẽ tương đương với giá trị của Avg1.
Khi phân đoạn một văn bản 100 từ, hệ thống có thể tạo ra 102 từ, trong đó 90 từ là phân đoạn chính xác Các chỉ số được tính toán từ kết quả này sẽ phản ánh hiệu suất của hệ thống phân đoạn.
Trong bài toán phân đoạn từ, có hai phương pháp đánh giá độ chính xác: dựa trên nhãn và dựa trên từ Độ chính xác dựa trên nhãn chỉ xem xét việc gán nhãn cho các âm tiết, trong khi độ chính xác dựa trên từ đánh giá khả năng phân đoạn từ của hệ thống Do đó, chỉ số dựa trên từ mang ý nghĩa hơn trong việc giải quyết bài toán phân đoạn.
31 dụ: nếu từ “bộ giáo dục” được gán nhãn là “B_W B_W O” trong khi nhãn đúng phải là
“B_W B_W I_W” thì độ chính xác tính theo nhãn sẽ là 2/3, độ chính xác theo từ là 1/2.
Tổng kết chương
Chương này mô tả quá trình chuẩn bị dữ liệu và xây dựng ngữ cảnh để lựa chọn thuộc tính cho mô hình CRF, cùng với phương pháp đánh giá mô hình Chương tiếp theo sẽ trình bày kết quả ứng dụng mô hình CRF vào bài toán phân đoạn từ tiếng Việt.
Thử nghiệm và đánh giá
Môi trường thử nghiệm
Máy tính IBM, chip Intel Pentium 4 CPU 2.40GHz, RAM 382 MB
FlexCRFs là một framework CRF dành cho các bài toán gán nhãn dữ liệu dạng chuỗi như POS tagging, Noun Phrase Chunking và Word Segmentation Đây là công cụ mã nguồn mở được phát triển bởi ThS Phan Xuân Hiếu và TS Nguyễn Lê Minh tại Viện JAIST, Nhật Bản.
WordMatching là phần mềm phân đoạn từ tiếng Việt, áp dụng phương pháp Maximum Matching kết hợp với từ điển Phần mềm này được phát triển bởi CN Nguyễn Cẩm Tú tại Trường Đại học Công Nghệ, Đại học Quốc gia Hà Nội.
Mô tả thử nghiệm
Các tham số tùy chọn dùng trong FlexCRFs Framework được thiết lập như sau Bảng 10: Các tham số huấn luyện dùng tron FlexCRFs
Tham số Giá trị Ý nghĩa init_lamda_val 0 Giá trị khởi tạo cho các tham số trong mô hình num_iterations 150 Số bước lặp huấn luyện
Chỉ có các thuộc tính có tần số xuất hiện lớn hơn giá trị này thì mới được tích hợp vào mô hình CRF cp_rare_threshold 1
Chỉ có các mẫu vị từ ngữ cảnh có tần số xuất hiện lớn hơn giá trị này mới được tích hợp vào mô hình CRF eps_log_likelihood 0.01
Giá trị này xác định điều kiện dừng cho vòng lặp huấn luyện; nếu |log_likelihood(t) - log_likelihood(t-1)| < 0.01, quá trình huấn luyện sẽ được dừng lại Ở đây, t và t-1 đại diện cho bước lặp thứ t và t-1.
4.2.2 Mô tả thử nghiệm Để đánh giá phương pháp CRF với bài toán phân đoạn từ tiếng Việt và tìm ra một cách lựa chọn thuộc tính tốt nhất, em đã tiến hành năm thử nghiệm Trước hết để tiện cho việc mô tả thử nghiệm, em xin phân nhóm các thuộc tính được xây dựng từ các mẫu ngữ cảnh được trình bày ở trước như sau
• Nhóm 1- Syllable Conjuction: các cách kết hợp âm tiết với kích thước cửa số trượt là 5
• Nhóm 2 - Regex: là các thuộc tính về ngày, số, phần trăm…
• Nhóm 3 - Lexicon: xác định các từ liệu có mặt trong từ điển Lạc Việt không, hay có phải là tên riêng tiếng Việt, tên địa danh tiếng Việt không
• Nhóm 4- Vietnamese Syllable: xác định một âm tiết liệu có mặt trong tiếng Việt không
• Nhóm 5- Reduplicate: xác định một từ có phải từ láy hay không
Trong các thử nghiệm, em tiến hành đánh giá một số thuộc tính thuộc nhóm Lexicon, nhóm Reduplicate và nhóm Vietnamese Syllable
Thí nghiệm 1 là một thí nghiệm đặc biệt, trong đó em tiến hành phân đoạn từ tiếng Việt bằng phương pháp Maximum Matching sử dụng từ điển Lạc – Việt Mục đích của thí nghiệm này là để so sánh kết quả với các thí nghiệm tiếp theo.
Thử nghiệm 2: phân đoạn từ sử dụng mô hình CRF và chỉ sử dụng các thuộc tính nhóm 1 và nhóm 2
Thử nghiệm 3: phân đoạn từ sử dụng mô hình CRF , các thuộc tính thuộc nhóm
Nhóm 1 và nhóm 2 sẽ được đưa vào thuộc tính in_lacviet_dict, có mặt trong từ điển Lạc Việt, thuộc nhóm 3 để tiến hành thử nghiệm Mục tiêu của thử nghiệm này là đánh giá tầm quan trọng của từ điển đối với mô hình.
Trong thử nghiệm 4, chúng tôi áp dụng mô hình CRF để phân đoạn từ và tích hợp các thuộc tính từ nhóm 1, nhóm 2, nhóm 3 và nhóm 4 Việc bổ sung các phát hiện về tên người và địa danh tiếng Việt đã giúp cải thiện đáng kể kết quả so với các thử nghiệm trước.
Thử nghiệm 5 tập trung vào việc phân đoạn từ sử dụng mô hình CRF, áp dụng tất cả các thuộc tính thuộc năm nhóm khác nhau Đây là một thử nghiệm toàn diện với số lượng thuộc tính lớn, nhằm phát hiện từ láy một cách hiệu quả.
Kết quả thử nghiệm
Kết quả sau 5 lần thử nghiệm với maximum matching như sau
Hình 4: kết quả 3 độ đo với thử nghiệm 1 qua 5 lần thử nghiệm
4.3.2.1 Kết quả 5 lần thử nghiệm
Hình 5: kết quả 3 độ đo thử nghiệm 2 qua 5 lần thử nghiệm
4.3.2.2 Lần thử nghiệm cho kết quả tốt nhất
Bảng 11: Đánh giá mức độ nhãn – lần thử nghiệm cho kết quả tốt nhất
Label Manual Model Match Pre (%) Rec (%) F-Measure(%)
Bảng 12: Đánh giá mức độ từ – lần thử nghiệm cho kết quả tốt nhất Label Manual Model Match Pre (%) Rec (%) F-Measure(%) Word 26189 26240 25338 90.85 91.03 90.94
-200000 -180000 -160000 -140000 -120000 -100000 -80000 -60000 -40000 -20000 0 log- li ke li hood
Hình 6: Quá trình tằng likelihood qua 150 bước lặp
4.3.2.3 Trung bình 5 lần thực nghiệm
Bảng 131: Đánh giá mức nhãn- Trung bình 5 lần thử nghiệm
Bảng 142: Đánh giá ở mức từ – trung bình 5 lần thử nghiệm Độ đo Giá trị (%)
4.3.2.1 Kết quả 5 lần thử nghiệm
Hình 7: kết quả 3 độ đo thử nghiệm 3 qua 5 lần thử nghiệm
4.3.2.2 Lần thử nghiệm cho kết quả tốt nhất
Bảng 14: Đánh giá mức độ nhãn – lần thử nghiệm cho kết quả tốt nhất
Label Manual Model Match Pre (%) Rec (%) F-Measure(%)
Bảng 16: Đánh giá mức độ từ – lần thử nghiệm cho kết quả tốt nhất
Label Manual Model Match Pre (%) Rec (%) F-Measure(%)
-200000 -180000 -160000 -140000 -120000 -100000 -80000 -60000 -40000 -20000 0 log- li ke li hood
Hình 8: Quá trình tằng likelihood qua 150 bước lặp
4.3.2.3 Trung bình 5 lần thực nghiệm
Bảng 173: Đánh giá mức nhãn- Trung bình 5 lần thử nghiệm Độ đo Giá trị (%)
Bảng 184: Đánh giá ở mức từ – trung bình 5 lần thử nghiệm Độ đo Giá trị (%)
4.3.2.1 Kết quả 5 lần thử nghiệm
4.3.2.2 Lần thử nghiệm cho kết quả tốt nhất
4.3.2.3 Trung bình 5 lần thực nghiệm
4.3.2.1 Kết quả 5 lần thử nghiệm
4.3.2.2 Lần thử nghiệm cho kết quả tốt nhất
4.3.2.3 Trung bình 5 lần thực nghiệm
Tổng kết chương
Tổng kết công việc đã làm và đóng góp của luận văn
Khóa luận đã hệ thống hóa các vấn đề liên quan đến phân đoạn từ tiếng Việt, bao gồm việc tìm hiểu về từ vựng và các phương pháp tiếp cận bài toán này, kèm theo đánh giá và nhận xét Ngoài ra, luận văn còn đề xuất phương án phân đoạn từ tiếng Việt bằng cách sử dụng mô hình học máy CRF, với các thực nghiệm trên dữ liệu tiếng Việt cho kết quả khả quan Dưới đây là tóm lược một số ý chính đã được đề cập trong luận văn.
Mô hình CRF (Conditional Random Fields) đã được trình bày với các định nghĩa, quy trình huấn luyện và phương pháp suy diễn Chương này chứng minh rằng mô hình CRF vượt trội hơn so với các phương pháp trước đây như MEMM, mang lại hiệu quả cao hơn trong việc xử lý dữ liệu.
Bài viết đã trình bày chi tiết các phương pháp phân đoạn tiếng Việt bằng cách áp dụng mô hình CRF, đồng thời mô tả quy trình thu thập và xử lý dữ liệu Ngoài ra, đã đề xuất một số mẫu ngữ cảnh đặc trưng cho tiếng Việt Chương này cũng đề cập đến cách đánh giá độ chính xác của mô hình thông qua ước lượng chéo trên k tập con, sử dụng ba chỉ số chính: độ chính xác, độ hồi tưởng và độ đo F1.
Chương 4 trình bày chi tiết kết quả thực nghiệm và đánh giá Nhiều thử nghiệm đã được thực hiện nhằm so sánh và xác định mô hình tối ưu cho bài toán, và luận văn đã đạt được những kết quả khả quan.
Hướng nghiên cứu tiếp theo
Mặc dù kết quả của luận văn rất khả quan, nhưng do hạn chế về thời gian, tôi chưa thể thu thập dữ liệu lớn hơn và thực hiện thêm nhiều thử nghiệm Trong tương lai, tôi sẽ mở rộng việc thu thập dữ liệu từ sách báo, truyện tiếng Việt và các tác phẩm văn học cổ như truyện Kiều, với hy vọng đạt được kết quả tốt hơn nhờ vào nguồn dữ liệu phong phú và đa dạng hơn.
Dựa trên kết quả của luận văn, tôi dự định phát triển một phần mềm hoàn chỉnh nhằm phân đoạn văn bản tiếng Việt với độ chính xác cao Phần mềm này sẽ tiện dụng và mang lại hiệu quả thực tiễn trong việc xử lý văn bản tiếng Việt.
Phân đoạn từ tiếng Việt là bước khởi đầu quan trọng trong xử lý văn bản tiếng Việt Trong thời gian tới, tôi sẽ tiếp tục nghiên cứu các lĩnh vực khác như phân loại văn bản để nâng cao hiệu quả xử lý.