Tóm tắt Luận án Tiến sĩ: Nghiên cứu học máy thống kê cho phân tích quan điểm

Mục tiêu của luận án ”Nghiên cứu học máy thống kê cho phân tích quan điểm” tập trung vào nhiệm vụ ”Đề xuất các phương pháp cho phân loại khách quan và phân loại quan điểm theo khía cạnh”. Phương pháp tiếp cận của luận án là xây dựng các mẫu để trích chọn các thông tin ngữ pháp hữu ích cho các mô hình học phân loại.

Các kết quả chính của luận án

Các kết quả nghiên cứu của luận án đã đóng góp quan trọng vào việc bổ sung và hoàn thiện các phương pháp phân tích quan điểm Luận án trình bày một số đóng góp chính, giúp nâng cao hiểu biết về lĩnh vực này.

Chúng tôi đề xuất một số phương pháp xác định văn bản chứa quan điểm, bao gồm phân loại câu khách quan và câu chủ quan cho dữ liệu tiếng Anh, được công bố tại kỷ yếu hội nghị IALP năm 2012 Ngoài ra, chúng tôi cũng đã phát triển một phương pháp thống kê tự động trích mẫu cho phân loại chủ quan tiếng Việt, với đóng góp này được công bố trong kỷ yếu hội thảo quốc tế Knowledge and Systems Engineering (KSE) năm 2014.

Đề xuất một phương pháp mới nhằm bổ sung các đặc trưng ngoài cho mạng nơ ron phân tích quan điểm theo khía cạnh Đóng góp này đã được công bố trong kỷ yếu của hội thảo quốc tế NAFOSTED Conference on Information and Computer Science (NICS) năm 2018.

Chúng tôi đề xuất hai phương pháp tiền xử lý cho dữ liệu Microblog tiếng Việt Phương pháp đầu tiên nhằm kiểm tra chính tả, được công bố trong kỷ yếu hội thảo quốc tế Knowledge and Systems Engineering (KSE) năm 2014 Phương pháp thứ hai tập trung vào việc tách từ cho dữ liệu Microblog tiếng Việt, đã được giới thiệu trong kỷ yếu hội thảo quốc tế Asian Conference on Information Systems (ACIS) năm 2014.

Bố cục của luận án

Luận án được cấu trúc thành 5 chương, bao gồm: Chương 1 giới thiệu tổng quan về đề tài Chương 2 trình bày tổng quan các vấn đề nghiên cứu, phân tích và đánh giá các công trình liên quan, đồng thời chỉ ra những vấn đề còn tồn tại mà luận án sẽ giải quyết Chương 3 tập trung vào việc phân loại khách quan, trình bày nội dung và kết quả xác định văn bản chứa quan điểm Chương 4 phân tích quan điểm theo khía cạnh, cung cấp nội dung và kết quả nghiên cứu về phương pháp này Chương 5 nghiên cứu phân tích quan điểm trong bài nhật ký trực tuyến ngắn (Microblog), bao gồm các bước chuẩn hóa dữ liệu Microblog tiếng Việt Cuối cùng, phần kết luận tổng hợp nhận xét và kết quả nghiên cứu cũng như đề xuất hướng đi cho các nghiên cứu tiếp theo.

Phân tích quan điểm

Phân tích tình cảm (Sentiment Analysis) hay khai thác quan điểm (Opinion Mining)

Phân tích tình cảm (Sentiment Analysis - SA) và khai thác quan điểm (Opinion Mining - OM) là lĩnh vực nghiên cứu nhằm phân tích các quan điểm, tình cảm, đánh giá, thái độ và cảm xúc của con người đối với các thực thể và thuộc tính của chúng trong văn bản Các thực thể này có thể bao gồm sản phẩm, dịch vụ, tổ chức, cá nhân, sự kiện, vấn đề hoặc chủ đề Những thuật ngữ liên quan như phân tích tình cảm, khai thác quan điểm, phân tích quan điểm, trích quan điểm, khai thác tình cảm, phân tích chủ quan, phân tích khía cạnh, phân tích cảm xúc và phân tích đánh giá đều thuộc về phân tích tình cảm Trong luận án này, chúng tôi sẽ sử dụng hai thuật ngữ chính là "Phân tích tình cảm" (Sentiment Analysis - SA) và "Phân tích quan điểm" (Opinion Analysis - OA).

Phát biểu bài toán

Bài toán phân tích quan điểm

Trong lĩnh vực phân tích quan điểm, đã có nhiều nhiệm vụ được nghiên cứu và ứng dụng thực tiễn Có nhiều cách phân chia các nhiệm vụ này, nhưng chúng tôi sẽ đề cập đến 5 loại bài toán chính.

1 Phân loại chủ quan - Subjectivity classification

2 Phân loại quan điểm - Sentiment classification

3 Phân loại quan điểm theo khía cạnh - Aspect-based Sentiment Classifica- tion

4 Tóm tắt quan điểm - Opinion Summarization

5 Phát hiện quan điểm giả mạo hay lừa đảo - Detecting Fake or DeceptiveOpinions

Phân loại tính chủ quan (Subjectivity Classification

Phân loại tính chủ quan là quá trình xác định xem một câu hoặc tài liệu có tính chất chủ quan hay khách quan Đây là bài toán quan trọng đầu tiên trong việc phân tích quan điểm Kết quả của phân loại này sẽ được sử dụng làm đầu vào cho nhiều bước phân tích tiếp theo trong lĩnh vực này.

Phân loại quan điểm (Setiment classification)

Phân loại quan điểm là quá trình phân chia một câu hoặc tài liệu chứa ý kiến thành các mức độ phân cực, bao gồm tích cực, tiêu cực hoặc trung lập Các mức độ này có thể được biểu thị bằng các thứ hạng từ 1* đến 5*.

Phân loại quan điểm mức tài liệu có thể gặp hạn chế do một tài liệu bình luận thường chứa nhiều đánh giá khác nhau về nhiều thực thể Người đánh giá có thể có ý kiến tích cực về một số thực thể và tiêu cực về những thực thể khác, khiến cho việc gán một quan điểm chung cho toàn bộ tài liệu trở nên không phù hợp Vì vậy, phân loại quan điểm mức tài liệu chỉ là phân loại thô cho các ứng dụng thực tế Để cải thiện độ chính xác, cần thực hiện phân loại quan điểm mức câu, giúp trích xuất các khía cạnh thể hiện quan điểm và dần dần tiến đến mức khía cạnh.

Phân loại quan điểm mức câu về cơ bản giống như phân loại cấp tài liệu vì câu có thể được coi là văn bản ngắn.

Phân loại quan điểm theo khía cạnh (Aspect based sentiment classification)

Phân loại quan điểm khía cạnhgồm hai nhiệm vụ chính: trích khía cạnh (Aspect extraction) và phân loại quan điểm với khía cạnh được trích (Aspect sentiment classification).

Trích khía cạnh là quá trình xác định các khía cạnh và thực thể cần được đánh giá Phân loại quan điểm theo khía cạnh liên quan đến việc xác định tính chất của các quan điểm được trích ra, bao gồm các loại tích cực, tiêu cực hoặc trung lập.

Đặc trưng cho toán phân tích quan điểm

Một số đặc trưng sử dụng trong các bài toán phân tích quan điểm:

1.Tần suất xuất hiện - Term presence and Frequency

2 Mô hình ngôn ngữ - n-gram

3 Thông tin nhãn từ loại - Parts of Speech

3 Thông tin phân tích cú pháp - Syntax Passer

4 Biểu diễn véc tơ từ - Word Embedding

5 Véc tơ biểu diễn ký tự - Character Embedding

Các miền dữ liệu và dữ liệu Microblog

— Dữ liệu quan điểm và miền dữ liệu

Trong truyền thông xã hội, có hai loại văn bản chính: bài đăng độc lập, bao gồm đánh giá, nhận xét và bình luận về một thực thể cụ thể, và các đối thoại trực tuyến tương tác giữa nhiều người tham gia Nghiên cứu của chúng tôi chỉ tập trung vào các tài liệu và quan điểm độc lập.

Dữ liệu Microblog từ các bài viết đánh giá trên mạng xã hội, diễn đàn và blog thường chứa những câu ngắn và không tuân theo quy tắc ngữ pháp chuẩn Những từ viết tắt, ký hiệu và từ lóng thường xuyên xuất hiện, do đó việc chuẩn hóa dữ liệu này là cần thiết trước khi tiến hành phân tích quan điểm.

Các thảo luận và mục tiêu nghiên cứu của đề tài

Bài toán Phân loại tính chủ quan

Dựa trên các khảo cứu trước đây, chúng tôi nhận thấy việc nâng cao hiệu suất trong nhiệm vụ phân loại tính chủ quan là cần thiết cho các bước nghiên cứu tiếp theo trong phân tích quan điểm Chúng tôi đã tiến hành nghiên cứu để trích xuất thông tin hữu ích nhằm phân lớp câu thành khách quan hoặc chủ quan, áp dụng cho cả dữ liệu tiếng Anh và tiếng Việt Sự quan tâm của cộng đồng đối với phân tích quan điểm tiếng Việt đã gia tăng trong những năm gần đây, do đó, phát triển các nghiên cứu cho bài toán này là rất có ý nghĩa cả trong lĩnh vực nghiên cứu lẫn ứng dụng công nghiệp.

Bài toán phân loại quan điểm theo khía cạnh

Phân loại quan điểm theo đặc trưng là một phương pháp chi tiết hơn để phân loại các ý kiến trong bình luận, giúp xác định tình cảm liên quan đến từng khía cạnh của mục tiêu đánh giá Việc này không chỉ hỗ trợ trong việc tổng hợp và tóm tắt quan điểm mà còn cung cấp cho người dùng cái nhìn tổng quan về các nhận xét liên quan đến đối tượng quan tâm Nghiên cứu hiện tại áp dụng các thuật toán mạng nơ ron và học sâu đã cho thấy nhiều kết quả hứa hẹn, vì vậy chúng tôi tập trung vào việc tích hợp các đặc trưng giàu thông tin nhằm nâng cao hiệu suất của các mô hình này.

Phân tích quan điểm tiếng Việt và dữ liệu dạng Microblog

Dữ liệu đóng vai trò quan trọng trong việc phát triển thuật toán xử lý, đặc biệt là trong phân tích quan điểm cho tiếng Việt Các dữ liệu thu thập từ bình luận, đánh giá trên mạng xã hội, diễn đàn và blog thường không chuẩn và chứa nhiều lỗi chính tả, được gọi là dữ liệu Microblog Các công cụ hiện tại chủ yếu được thiết kế cho văn bản chính thống và chưa hiệu quả trong việc xử lý những lỗi này Việc sửa lỗi từ có ảnh hưởng trực tiếp đến bài toán tách từ cho dữ liệu Microblog Do đó, cần thiết phải thực hiện đồng thời hai nhiệm vụ là kiểm tra chính tả và tách từ để phù hợp với dữ liệu Microblog tiếng Việt.

PHÂN LOẠI TÍNH CHỦ QUAN

Giới thiệu

Trong chương này, chúng tôi giới thiệu nhiệm vụ phân loại chủ quan và các phương pháp mà chúng tôi đề xuất để giải quyết vấn đề này Phương pháp của chúng tôi tập trung vào việc xác định câu chủ quan thông qua việc trích xuất thông tin từ các mẫu ngữ pháp trong dữ liệu tiếng Anh Đồng thời, chúng tôi cũng trình bày một phương pháp thống kê nhằm giúp hệ thống học các mẫu cú pháp và tự động đánh giá chúng từ dữ liệu huấn luyện có gắn nhãn tiếng Việt.

Phương pháp đề xuất sử dụng các đặc trưng ngôn ngữ cho phân lớp khách

Trích các đặc trưng

Để trích xuất các đặc trưng ngôn ngữ từ câu, chúng tôi sử dụng thông tin ngữ pháp thông qua công cụ phân tích cú pháp Stanford Parser cho ngữ liệu đầu vào.

Trích các đặc trưng khách quan

Chúng tôi phân tích bốn từ loại chính: tính từ, trạng từ, động từ và một số dạng mở rộng của động từ và danh từ để xây dựng các mẫu cú pháp Bằng cách sử dụng các mẫu ngữ pháp, chúng tôi trích xuất các đặc trưng ngôn ngữ nhằm phân biệt giữa câu khách quan và câu chủ quan Thông tin trích xuất không chỉ phản ánh quan điểm chủ quan mà còn hỗ trợ trong việc phân loại câu khách quan Sự khác biệt này được phân loại thông qua phương pháp học phân loại có giám sát Maximum entropy.

1 Trích các mẫu dựa trên cú pháp chứa các tính từ

Tính từ trong mẫu thể hiện khả năng hoặc đánh giá của người dùng khi thực hiện một hành động nào đó Hai cụm tính từ được liên kết với nhau bằng từ nối.

Tính từ dạng động từ (VP) bao gồm các động từ nguyên mẫu (VBZ/VBG) và cung cấp thông tin hoặc đánh giá về một thực thể hay đối tượng Trong khi đó, tính từ dạng cảm thán (ADJP) chỉ chứa các tính từ (JJ) và được sử dụng để thể hiện tính chủ quan trong câu Bảng 3.1 trình bày các mẫu ngữ pháp chứa các loại tính từ này.

2 Trích các mẫu dựa trên cú pháp chứa các trạng từ

/[VB/VBN/VBG/VBZ/VBD]

Trạng từ bổ nghĩa cho động từ.

[VP][with[PRT] or not]

[ADVP][with[PP] or not]

Cụm trạng từ bổ nghĩa cho động từ chứa cụm giới từ.

[VP][ADVP][ADJP] Trạng từ bổ nghĩa cho tính từ.

[ADJP][ADVP][JJ] Cụm tính từ chưa các cụm trạng từ bổ nghĩa cho tính từ

[ADVP][VP] Cụm trạng từ bổ nghĩa cho nội động từ.

[PP contain RB] [NP] Cụm giới từ chứa trạng từ đứng trước cụm danh từ.

[ADVP] Trạng từ bổ nghĩa cho động từ đặt ở cuối câu.

Bảng 3.2: Các mẫu ngữ pháp chứa các trạng từ 3.Trích các mẫu ngữ pháp chứa các động từ.

4 Trích các mẫu dựa trên ngữ pháp chứa danh từ.

[VP][TO] [VP] Cụm động từ diễn tả mục đích

Động từ khuyết thiếu thường được sử dụng để diễn tả khả năng hoặc giả định, giúp thể hiện quan điểm một cách rõ ràng Mô tả về thực thể hoặc sự kiện thường đi kèm với trạng từ để nhấn mạnh ý nghĩa Cụm động từ có thể diễn tả hành động hoặc trạng thái của thực thể, tạo nên sự liên kết chặt chẽ trong câu.

Bảng 3.3: Các mẫu ngữ pháp chứa các động từ

[NPcontainsJJ/JJR/JJS/ Cụm danh từ bao gồm các nhãn từ loại là so sánh của các tính từ và

RB/RBR/RBS/VBG/VBN là các dạng từ liên quan đến trạng từ, tính từ, danh động từ và quá khứ phân từ Cấu trúc [NPcontainsJJ/VBN/VBG][CC][NP] kết nối hai cụm danh từ bằng từ "or", nhằm mô tả tính chất hoặc đánh giá một đối tượng.

[NPNN/NNSCCNN/NS] Hai cụm danh từ được kết nối bởi từ nối mô tả về một đối tượng.

Cụm danh từ sở hữu cách, được biểu thị bằng [NP][POS][NP], có thể phản ánh quan điểm cá nhân hoặc không Trong khi đó, hai cụm danh từ liên kết với nhau thông qua giới từ hoặc mối quan hệ kết nối phụ thuộc được thể hiện dưới dạng [NP][IN][NP].

[NPcontains[QP][NN]] Cụm danh từ bao gồm cụm chỉ số lượng có thể diễn đạt quan điểm

[NPcontainsNN/NNS] Cụm danh từ chứa hai danh từ có thể phản ánh quan điểm của người dùng.

Bảng 3.4: Các mẫu ngữ pháp chứa các danh từ

Thực nghiệm và đánh giá

Chúng tôi đã tiến hành thực nghiệm trên bộ dữ liệu Movie Review do Pang và Lee (2002) giới thiệu, bao gồm 5.000 câu chủ quan và 5.000 câu khách quan.

Chúng tôi tiến hành tiền xử lý dữ liệu và áp dụng bộ phân tích cú pháp Stanford Parser để thu thập thông tin ngữ pháp Sau đó, chúng tôi trích xuất các đặc trưng ngôn ngữ theo các mẫu đã đề xuất nhằm phân biệt giữa câu chủ quan và khách quan Sử dụng mô hình Maximum Entropy, chúng tôi phân loại câu thành hai lớp: chủ quan và khách quan Dữ liệu được chia thành 10 folds, trong đó 8 folds được sử dụng để huấn luyện mô hình và 2 folds còn lại dùng để đánh giá hiệu suất.

1 link: http://www.cs.cornell.edu/people/pabo/movie-review-data/

Chúng tôi đã so sánh kết quả của mình với baseline của Pang và Lee (2004) bằng cách sử dụng dữ liệu nhận xét phim, thực hiện 10 folds kiểm tra chéo và đối chiếu với nghiên cứu của Riloff và các cộng sự (2006), trong đó họ sử dụng hệ thống phân cấp để trích xuất đặc trưng và SVM để phân loại dữ liệu chủ quan Phương pháp của chúng tôi áp dụng ME để phân loại các đặc trưng ngôn ngữ dựa trên mẫu cú pháp Chúng tôi giữ lại 66% dữ liệu từ các đánh giá ban đầu và đạt được độ chính xác 92,1% trong việc xác định câu chủ quan Kết quả so sánh phương pháp của chúng tôi với một số nghiên cứu trước được trình bày trong bảng 3.5.

Phương pháp Độ chính xác

Phương pháp của chúng tôi 92.1%

NB+Prox (Pang and Lee, 2004) 86.4%

SVM+Prox (Pang and Lee, 2004) 86.15%

Bảng 3.5: Bảng so sánh độ chính xác của các phương pháp

Phương pháp đề xuất học tự động các mẫu cho bài toán xác định câu chủ

Dữ liệu huấn luyện

Trong dữ liệu huấn luyện, mỗi bình luận của chúng tôi được gán nhãn theo hai loại

Định nghĩa các khuôn dạng

Chúng tôi tập trung sử dụng các tính từ và các động từ là các đặc trưng cho phân

Các nhãn từ loại bao gồm danh từ (N), danh từ riêng (Np), tính từ (A), động từ (V), trạng từ (R), từ nối (Cc) và trợ động từ (T) Chúng tôi sẽ giới thiệu hai kiểu khuôn dạng để học tập hiệu quả.

Khuôn dạng đầu tiên được thiết kế để trích xuất các mẫu chỉ bao gồm nhãn từ loại Chúng tôi phân tích động từ và tình từ kèm theo các nhãn từ loại ở bên trái, bên phải hoặc cả hai phía.

Kiểu 2 tương tự như kiểu 1 nhưng có sự đặc biệt hơn, vì chúng tôi thiết kế khuôn dạng này để trích xuất các mẫu bao gồm từ (các tính từ và động từ) cùng với các nhãn từ loại xung quanh chúng.

Chúng tôi đã áp dụng các khuôn dạng kiểu 1 và kiểu 2 để trích xuất mẫu, và trong phần này, chúng tôi trình bày kết quả thực nghiệm Các ví dụ cho cả hai kiểu khuôn dạng được liệt kê trong bảng 3.6 và bảng 3.7.

Bảng 3.6: Các khuôn dạng của kiểu 1

Khi làm việc với các nhãn trong ngữ nghĩa, nếu nhãn hiện tại là tính từ hoặc động từ, có thể xem xét nhiều khuôn dạng khác nhau Đối với tag-tag[+1], xem xét khuôn dạng bao gồm nhãn hiện tại và nhãn tiếp theo Tương tự, với tag-tag[-1], cần xem xét nhãn hiện tại cùng với một nhãn trước đó Nếu áp dụng cả hai hướng, tag-tag[-1] & tag[+1] cho phép xem xét nhãn hiện tại, một nhãn trước và một nhãn tiếp theo Ngoài ra, tag-tag[+2] và tag-tag[-2] giúp mở rộng phân tích với nhãn hiện tại cùng hai nhãn tiếp theo hoặc hai nhãn trước đó.

Bảng 3.7: Các khuôn dạng của kiểu 2

Khuôn dạng mô tả cho thẻ hiện tại là tính từ hoặc động từ có thể được xác định qua nhiều cách Đầu tiên, nếu thẻ hiện tại là tính từ hoặc động từ, xem xét khuôn dạng gồm từ hiện tại và một nhãn tiếp theo (word-tag[+1]) Tiếp theo, nếu thẻ hiện tại là tính từ hoặc động từ, xem xét khuôn dạng với một nhãn trước đó (word-tag[-1]) Ngoài ra, có thể kết hợp cả hai nhãn ở hai phía của từ hiện tại (word-tag[-1] & tag[+1]) Đối với các khuôn dạng mở rộng, có thể xem xét hai nhãn tiếp theo (word-tag[+2]) hoặc hai nhãn trước đó (word-tag[-2]).

Trích xuất và đánh giá các mẫu

Các mẫu đã được xác định trước được áp dụng cho dữ liệu huấn luyện đã gán nhãn để trích xuất tất cả các mẫu khả thi Sau đó, chúng tôi tiến hành đánh giá để chọn ra tập hợp các mẫu tốt nhất Trong quá trình đánh giá, chúng tôi chỉ xem xét các mẫu đáp ứng hai tiêu chí nhất định.

• Một mẫu được cho là thể hiện chủ quan khi và chỉ khi:

Công thức sau được giới thiệu để lấy ra các tập các mẫu chấp nhận được:

Để thỏa mãn ràng buộc P (|pattern i )+P (|pattern i ) > threshold, ngưỡng được đặt ra lớn hơn 0.5, với dãy ngưỡng từ [0.5, 1.0) (0.5 ≤threshold “hỏi”

• Lỗi phụ âm đầu (Initial consonant error) Ví dụ: “bức chanh” -> “bức tranh”

• Lỗi phụ âm cuối (End consonant error) Ví dụ: “bắt buột” -> “bắt buộc”.

Lỗi vùng miền (Region error) là vấn đề phổ biến ở Việt Nam do sự đa dạng của các phương ngữ Để đảm bảo sự hiểu biết chung, cần chuyển đổi sang ngôn ngữ phổ thông, ví dụ như thay đổi từ "kím" thành "kiếm".

Mô hình kiểm tra chính tả đề xuất

Chúng tôi áp dụng phương pháp kiểm tra chính tả dựa trên ngữ cảnh, trong đó tính toán mối quan hệ giữa các âm tiết và láng giềng của chúng để xác định âm tiết chính xác nhất Bằng cách mở rộng ngữ cảnh hai phía và sử dụng kho ngữ liệu lớn, chúng tôi đã huấn luyện n-gram và nén nhằm tối ưu hóa bộ nhớ Kiến trúc hệ thống được minh họa rõ ràng trong bài viết.

Hình 5.1: Kiến trúc của hệ thống kiểm tra chính tả

Tiền xử lý dữ liệu

Giai đoạn tiền xử lý có ba bước:

• Bước 1: Nhận biết các âm tiết đặc biệt như địa chỉ web, email, số ˙ và thay thế chúng bằng ký hiệu đặc biệt.

• Bước 2: Tách tài liệu thành các câu vì hai âm tiết trong các câu khác nhau không có mối quan hệ với câu khác.

• Bước 3: Xóa tất cả các dấu ngắt câu trong các câu bởi vì chúng không có mối quan hệ của ý nghĩa với các từ.

Thuật toán kiểm tra chính tả mở rộng ngữ cảnh ở cả hai bên

Thành phần chính của hệ thống kiểm tra chính tả của chúng tôi bao gồm hai bước:

• Bước 1: Xây dựng tập hợp lỗi cho mỗi âm tiết dựa trên khoảng cách soạn thảo vàcác đặc điểm ngôn ngữ tiếng Việt được chọn.

Bước 2 trong quá trình xử lý âm tiết là tính toán mối quan hệ giữa âm tiết và các âm tiết láng giềng dựa trên mô hình N-gram Việc này giúp xác định tính chính xác của âm tiết hiện tại, từ đó lựa chọn ứng cử viên sửa chữa phù hợp nhất.

Hệ thống của chúng tôi áp dụng ngữ cảnh dưới dạng cửa sổ trượt bán kính 2 cho các âm tiết xung quanh Cụ thể, nếu âm tiết hiện tại được ký hiệu là w0, ngữ cảnh của nó sẽ bao gồm w-2, w-1, w1 và w2 Chúng tôi có thể mô hình hóa sự phụ thuộc của w0 vào các âm tiết lân cận thông qua xác suất có điều kiện.

P(w0 |w −2 ,w −1 ,w 1 ,w 2 ) Xác suất náy có thể ước lượng bằng hàm sau:

Để tính xác suất trong mô hình n-gram, chúng ta cần sử dụng 5-gram và 4-gram, nhưng điều này không khả thi do số lượng kết hợp quá lớn và dữ liệu quá rải rác Thay vào đó, chúng ta tính xác suất P(w0 | w1, w2) với các n-gram có xác suất p là logarit trung bình nhân của ba xác suất 3 Việc chọn hàm trung bình hình học là cần thiết vì tên thực thể như tên người hoặc tổ chức có thể làm yếu đi mối liên kết giữa âm tiết và ngữ cảnh Các lỗi xảy ra khi âm tiết được xác định là sai, nhưng thực chất chỉ là lỗi chính tả Để giảm thiểu các lỗi này, chúng tôi áp dụng các hệ số heuristic gọi là "ngưỡng lỗi" (e thresh) và "ngưỡng chênh lệch" (d thresh) Âm tiết hiện tại w0 có giá trị N-gram là p và một âm tiết từ tập lỗi w00 có giá trị N-gram là p’ sẽ được xem là "tốt hơn" w0 khi thỏa mãn hai bất đẳng thức nhất định.

p’ > p + d thresh e thresh là một hằng số được xác định từ dữ liệu phát triển, đảm bảo rằng xác suất của âm tiết được sử dụng để sửa âm tiết hiện tại phải vượt qua một ngưỡng nhất định Điều này giúp giảm thiểu sai số liên quan đến thực thể tên.

Mô hình N-gram lớn và nén N-gram

Để tính xác suất cho 3-gram, cần xác định tần suất của các bigram và trigram Trong quá trình mã hóa, chúng tôi đã xây dựng một từ điển âm tiết tiếng Việt với khoảng 6800 âm tiết, mỗi âm tiết được biểu diễn bằng một số từ 0 đến 6800, yêu cầu 2 byte để lưu trữ Đối với bigram, cần 4 byte cho mỗi mục, trong khi trigram yêu cầu 6 byte để mã hóa.

Thực nghiệm của chúng tôi

Để xây dựng mô hình N-gram, chúng tôi đã thu thập dữ liệu từ nhiều nguồn như Wikipedia, dantri.com.vn và vnExpress.net, bao gồm các chủ đề như toán học, vật lý, khoa học, văn học, triết học, lịch sử, kinh tế, thể thao, luật, tin tức và giải trí Kho ngữ liệu của chúng tôi có kích thước khoảng 2GB, và chúng tôi đã tính tần suất của unigram, bigram, trigram, sau đó loại bỏ các n-gram có tần suất nhỏ hơn 5.

Chúng tôi đã thiết lập hai bộ dữ liệu thử nghiệm để đánh giá hiệu suất của hệ thống Bộ dữ liệu đầu tiên được thu thập từ Internet và đã được kiểm tra thủ công để đảm bảo không có lỗi chính tả Tiếp theo, chúng tôi tạo ra các lỗi chính tả giả trong bộ kiểm tra và đánh dấu chúng để đánh giá hiệu suất Bộ dữ liệu thứ hai cũng được kiểm tra và đánh dấu lỗi chính tả Bộ đầu tiên gồm 2500 câu được sử dụng trong thử nghiệm 1 và 2, trong khi bộ thứ hai với 632 câu được áp dụng trong thử nghiệm 3.

5.2.6.2 Các kết quả thực nghiệm

Trước khi đánh giá hiệu suất của hệ thống kiểm tra chính tả, chúng tôi đã áp dụng phương pháp nén n-gram dựa trên dữ liệu đào tạo Kết quả nén này được thể hiện rõ ràng trong bảng dưới đây.

Phân tích ảnh hưởng của kích thước ngữ liệu huấn luyện n-gram đối với hiệu suất

Bảng 5.1: Các kết quả nén N-gram

Kết quả n-gram cho thấy kích thước dữ liệu trước và sau khi nén như sau: unigram với 6,776 từ có kích thước 77.9 KB giảm xuống còn 13.55 KB; bigram với 1,208,943 từ từ 15.6 MB giảm xuống 4.6 MB; và trigram với 4,886,364 từ từ 84 MB giảm xuống còn 28 MB Chúng tôi đã đánh giá F-score của hệ thống dựa trên từng ngữ liệu nhỏ.

Hình 5.2: Ảnh hưởng của kích thước ngữ liệu đến hiệu suất của hệ thống

Chúng tôi đánh giá ảnh hưởng của ngữ cảnh đến độ chính xác của hệ thống Bảng

2 đưa ra các kết quả đánh giá của mỗi ngữ cảnh.

Bảng 5.2: Ảnh hưởng của ngữ cảnh đến hiệu suất của hệ thống

Context DP DR CP DF FPR w−2,w−1 89.42% 52.22% 97.31% 65.93% 0.12% w−1,w 1 94.04% 91.53% 98.26% 92.76% 0.11% w 1 ,w 2 93.83% 73.63% 96.79% 82.51% 0.09% w −2 ,w −1 ,w 1 ,w 2 94.68% 94.26% 99.32% 94.46% 0.1%

Chúng tôi đã tiến hành so sánh hệ thống kiểm tra chính tả của mình với hệ thống copcon 5.0.3 beta (http://chinhta.vn) để đánh giá độ chính xác trong việc phát hiện và kiểm tra lỗi Kết quả so sánh được trình bày rõ ràng trong bảng 5.3.

Bảng 5.3: So sánh độ chính xác hệ thống của chúng tôi và hệ thống kiểm tra chính tả

DP DR CP DF FPR

Phương pháp tách từ cho dữ liệu Micro-blogs tiếng Việt

Tiếp cận của chúng tôi cho bài toán tách từ dữ liệu Micro-blogs 22

Chúng tôi đã giới thiệu một số cải tiến nhằm khắc phục nhược điểm của phương pháp kết hợp dài nhất Hệ thống cải tiến này bao gồm ba bước: (1) sử dụng phương pháp nhận dạng tên riêng (NER), (2) phát hiện nhập nhằng, và (3) lựa chọn khả năng thích hợp nhất Để phát hiện nhập nhằng, chúng tôi không chỉ dựa vào thuật toán kết hợp dài nhất mà còn xác định sự tồn tại của nhập nhằng trong câu đầu vào, từ đó tách các trường hợp và áp dụng mô hình N-gram để tính toán xác suất cho từng ứng cử viên Đối với nhập nhằng chồng chéo, chúng tôi tìm kiếm các từ có trong từ điển ở cả hai phía để phát hiện hai từ liên tiếp có âm tiết chung Nếu các ứng cử viên tách ra giống nhau, sẽ không có nhầm lẫn chồng chéo; ngược lại, chúng tôi sẽ tính toán xác suất của từng ứng cử để chọn ra khả năng thích hợp nhất.

Table 5.4 highlights the detection of overlapping ambiguities in segmented candidates, with a focus on the increasing speed of information transmission from both left to right and right to left.

Trong ví dụ này, có sự nhầm lẫn chồng chéo do các ứng cử được phân tách khác nhau Chúng tôi tính xác suất P(w1) và P(w2), sau đó chọn w2 nếu P(w2) lớn hơn P(w1), hoặc chọn w1 nếu P(w1) lớn hơn P(w2).

Để phát hiện nhập nhằng liên kết, chúng tôi tách mỗi từ dài thành các từ ngắn hơn bằng thuật toán ghép cặp lớn nhất Ví dụ, trong câu “Bàn là công cụ học tập”, chúng tôi thu được các từ ghép như “bàn là”, “công cụ”, “học tập” và tách chúng từ trái sang phải Sau đó, chúng tôi tính xác suất của các ứng cử và chọn ra cái tốt nhất, giúp tránh tạo ra nhiều kết hợp không cần thiết Chúng tôi cũng áp dụng mô hình N-gram để tính toán xác suất cho từng ứng cử Sau khi tách từ ghép “Bàn là”, chúng tôi có các ứng cử trong bảng 5.5.

Khi xác suất P(w2) lớn hơn P(w1), từ w2 sẽ được chọn làm câu có khả năng phân đoạn cao nhất tại thời điểm đó; nếu không, chúng tôi sẽ chọn w1 Quy trình này tiếp tục được áp dụng cho các từ tiếp theo như "công cụ" và "học tập" trên câu phân đoạn đã được chọn sau khi tách từ "Bàn là".

Bảng 5.5 trình bày việc phát hiện các nhập nhằng trong liên kết ứng cử, trong đó có sự phân tách giữa hai bàn, một bàn đóng vai trò là công cụ học tập và bàn còn lại cũng là công cụ học tập nhằm đạt được kết quả cuối cùng.

Trong hệ thống của chúng tôi, nhập nhằng chồng chéo được phát hiện trước nhập nhằng liên kêt.

Hình 5.3: Hệ thống tách từ có sử dụng sửa lỗi chính tả

Hệ thống tách từ có sử dụng kiểm tra chính tả (Adaption to word

segmentation by spell-checking system)

Chúng tôi đề xuất sử dụng kiểm tra chính tả để chuẩn hóa văn bản Micro-blogs nhằm nâng cao hiệu suất tách từ Đầu tiên, kiểm tra viết tắt sẽ giúp phát hiện và thay thế các từ viết tắt bằng từ hoặc cụm từ chính xác Thứ hai, kiểm tra chính tả dựa trên ngữ cảnh sẽ phát hiện và sửa các lỗi chính tả thường gặp.

Các thực nghiệm

Bảng 5.6: Dữ liệu huấn luyện của hệ thống kiểm tra chính tả

# Số phần tử Kích thước trước khi mã hóa Kích thước sau khi mã hóa

# Số câu kích thước # số lỗi

Chúng tôi sử dụng từ điển tiếng Việt VCL SP7.2 với khoảng 35,000 từ và tập dữ liệu huấn luyện gồm 77,000 câu đã được tách từ để xử lý nhập nhằng Để làm phong phú thêm từ điển, chúng tôi đã trích xuất 5,000 từ mới từ tập dữ liệu này Dữ liệu văn bản được thu thập từ nhiều nguồn, bao gồm 2 GB dữ liệu chính thống để huấn luyện n-gram cho hệ thống kiểm tra chính tả theo ngữ cảnh, cùng với dữ liệu Micro-blogs từ các diễn đàn kỹ thuật Từ điển các từ viết tắt được xây dựng từ dữ liệu Microblog với 281 từ viết tắt Dữ liệu kiểm tra bao gồm 2 bộ: 2,000 câu từ dữ liệu văn bản chính thức và 2,000 câu từ dữ liệu Microblog, trong đó bộ kiểm tra Microblog được kiểm tra chính tả thủ công.

5.3.3.2 Các kết quả thực nghiệm và thảo luận

Hiệu suất của tách từ thử nghiệm trên dữ liệu Microblog Hiệu suất của tách từ trên Bảng 5.8: Word segmentation on formal data and Microblog-Style data

Data Precsion Recall F-measure Formal data 97.48% 98.41% 97.94%

Microblog data 94.35% 95.21% 94.78% dữ liệu Microblog sau khi sử dụng tính năng kiểm tra chính tả theo ngữ cảnh và kiểm tra từ viết tắt.

Bảng 5.9: Tách từ trên dữ liệu Microblog-Style sau khi sử dụng kiểm tra chính tả

Dữ liêu Precsion Recall F-measure

Abbreviation correction and context-sensitive checking 97% 97.12% 97.06%

Định dạng
Số trang	30
Dung lượng	782,51 KB