1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân loại chủ Đề tài liệu tiếng việt theo khung phân loại thập phân dewey

63 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Loại Chủ Đề Tài Liệu Tiếng Việt Theo Khung Phân Loại Thập Phân Dewey
Tác giả Trịnh Quốc Vương
Người hướng dẫn TS. Trần Thanh Điền
Trường học Trường Đại Học Cần Thơ
Chuyên ngành Khoa Học Máy Tính
Thể loại Luận Văn Thạc Sĩ
Năm xuất bản 2024
Thành phố Cần Thơ
Định dạng
Số trang 63
Dung lượng 1,04 MB

Cấu trúc

  • CHƯƠNG 1: GIỚI THIỆU (12)
    • 1.1 Lý do chọn đề tài.............................................................................................1 1.2 Đối tượng và phạm vi nghiên cứu ................................................................2 1.2.1 Đối tượng nghiên cứu.................................................................................2 1.2.2 Phạm vi nghiên cứu và phương pháp nghiên cứu...................................2 1.3 Ý nghĩa (12)
      • 2.12.1 Thư viện Scikit-learn (37)
      • 2.12.2 Thư viện TensorFlow (37)
      • 2.12.3 Thư viện Keras (39)
      • 2.12.4 Thư viện Levenshtein (39)
      • 2.12.5 Telegram Bot (40)
  • CHƯƠNG 3: PHƯƠNG PHÁP NGHIÊN CỨU (40)
    • 3.1 Tổng quan hệ thống (40)
    • 3.2 Thu thập và tiền xử lý dữ liệu (41)
    • 3.3 Xây dựng và thử nghiệm mô hình (43)
  • CHƯƠNG 4: KẾT QUẢ VÀ ĐÁNH GIÁ (44)
    • 4.1 Tổng quan tập dữ liệu (44)
    • 4.2 Mô hình Bayes thơ ngây............................................................................. 36 4.3 Mô hình SVM............................................................................................... 39 4.4 Mô hình LSTM ............................................................................................ 44 4.5 Mô hình BiLSTM ........................................................................................ 48 4.6 Đánh giá kết quả (46)
  • CHƯƠNG 5: KẾT LUẬN VÀ ĐỀ XUẤT (60)
    • 5.1 Kết luận (60)
      • 5.1.1 Kết luận (60)
      • 5.1.2 Những đóng góp của đề tài..................................................................... 52 5.1.3 Hạn chế...................................................................................................... 52 5.2 Đề xuất.......................................................................................................... 52 TÀI LIỆU (61)
    • 2.14 Tầng cổng ra (0)

Nội dung

TÓM TẮTLuận văn “Phân loại chủ đề tài liệu tiếng Việt theo khung phân loại thập phânDewey” thực hiện tìm hiểu, phân tích, nghiên cứu các giải thuật nhằm tìm ra giảipháp tốt để xây dựng h

GIỚI THIỆU

Lý do chọn đề tài 1 1.2 Đối tượng và phạm vi nghiên cứu 2 1.2.1 Đối tượng nghiên cứu .2 1.2.2 Phạm vi nghiên cứu và phương pháp nghiên cứu 2 1.3 Ý nghĩa

Thư viện từ lâu đã là nguồn cung cấp thông tin học thuật và tài liệu phong phú cho người đọc Trung tâm Học liệu trường Đại học Cần Thơ đóng vai trò quan trọng như thư viện trung tâm, lưu trữ và quản lý nhiều tài liệu học thuật, phục vụ nhu cầu nghiên cứu và học tập của giảng viên và học viên.

Trong kỷ nguyên số, tài liệu in vẫn giữ vai trò quan trọng trong thư viện, cung cấp kiến thức chuyên sâu và trải nghiệm đọc độc đáo mà thiết bị điện tử khó có thể thay thế Để quản lý khối lượng tài liệu in lớn, thư viện áp dụng hệ thống phân loại khoa học, trong đó hệ thống phân loại thập phân Dewey (DDC) được sử dụng để sắp xếp tài liệu, giúp người dùng dễ dàng tìm kiếm thông tin DDC là hệ thống phân loại quốc tế, chia kiến thức thành các lĩnh vực khác nhau bằng các số thập phân.

Việc áp dụng hệ thống phân loại DDC trong thư viện giúp quản lý và sắp xếp tài liệu một cách có hệ thống và hiệu quả Nhờ vào các số hiệu phân loại và từ khóa, người đọc dễ dàng tìm thấy tài liệu cần thiết Hệ thống DDC cũng hỗ trợ xây dựng danh mục thư mục, cơ sở dữ liệu thư viện và các dịch vụ thông tin khác.

Việc biên mục tài liệu trong thư viện truyền thống thường được thực hiện thủ công, yêu cầu thư viện viên đọc kỹ tiêu đề và nội dung để phân loại theo hệ thống DDC Tuy nhiên, phương pháp này gặp nhiều thách thức, đặc biệt với tài liệu chuyên ngành phức tạp cần kiến thức sâu rộng, thường phải có sự hỗ trợ từ các chuyên gia Tính chủ quan của người biên mục cũng có thể dẫn đến sự phân loại không đồng nhất, gây khó khăn cho người dùng trong việc tìm kiếm thông tin Hơn nữa, biên mục thủ công tiêu tốn nhiều thời gian và công sức, đặc biệt với thư viện có lượng tài liệu lớn Do đó, cần tìm kiếm giải pháp tự động hóa để nâng cao hiệu quả quá trình biên mục.

Để giải quyết vấn đề phân loại tài liệu tiếng Việt theo hệ thống DDC, việc ứng dụng công nghệ thông tin là giải pháp tối ưu Đề tài này tập trung vào việc xây dựng hệ thống hỗ trợ gợi ý, sử dụng thuật toán xử lý ngôn ngữ tự nhiên và học máy để phân tích nội dung tài liệu Hệ thống này tự động đề xuất số hiệu phân loại phù hợp, giúp giảm thiểu sự chủ quan của người biên mục, tăng tốc độ phân loại, đồng thời đảm bảo tính nhất quán và chính xác của dữ liệu.

Hệ thống này sẽ tiếp tục phát triển và có khả năng tích hợp với các cơ sở dữ liệu thư viện hiện có, tạo ra một nền tảng quản lý tài liệu thông minh Điều này không chỉ hỗ trợ các hoạt động kiểm kê, thống kê và báo cáo mà còn nâng cao hiệu quả quản lý thư viện, đáp ứng tốt hơn nhu cầu của người dùng và tạo điều kiện thuận lợi cho công tác nghiên cứu khoa học.

1.2 Đối tượng và phạm vi nghiên cứu

1.2.1 Đối tượng nghiên cứu Đề tài nghiên cứu đặc trưng phương pháp TF-IDF kết hợp với các giải thuật học máy phổ biến Bayes thơ ngây và SVM, cùng với phương pháp Word2vec kết hợp với LSTM và BiLSTM Từ đó rút ra giải pháp phù hợp để xậy dựng hệ thống phân loại tài liệu tiếng Việt theo khung phân loại thập phân DDC ứng dụng trong biên mục tài liệu tiếng Việt tại Trung tâm Học liệu.

1.2.2 Phạm vi nghiên cứu và phương pháp nghiên cứu Để thực hiện nghiên cứu, đề tài đã thu thập tập dữ liệu từ kho sách của Trung tâm Học liệu, bao phủ 10 chủ đề theo khung phân loại DDC, mỗi tài liệu thuộc về duy nhất một nhóm được đánh dấu từ 0 đến 9. Đề tài tập trung thực hiện 4 phương pháp phân loại, trong đó là Bayes thơ ngây và SVM [1] là hai phương pháp hàng đầu thuộc lĩnh vực học máy, hai phương pháp học sâu là LSTM và BiLSTM cũng đã được chứng mình tính hiệu quả với nhiều tác vụ xử lý văn bản Đề tài cố gắng tìm ra phương pháp tối ưu trong các phương pháp trên đối với tập dữ liệu được đề tài thu thập.

1.3 Ý nghĩa khoa học và thực tiễn của đề tài Đề tài này được thực hiện nhằm tìm ra giải pháp xây dựng hệ thống phân loại tài liệu tiếng Việt sử dụng tại Trung tâm Học liệu – trường Đại học Cần Thơ, hỗ trợ cho việc biên mục tài liệu mới vào thư viện hiệu quả hơn, tiết kiệm thời gian, qua đó góp phần tăng năng suất biên mục để phục vụ bạn đọc Bên cạnh đó, hệ thống cũng có thể ứng dụng vào tra cứu tài liệu giúp bạn đọc xác định vị trí những tài liệu có liên quan đến nội dung mà bản thân quan tâm, qua đó có thể dễ dàng tìm đọc tham khảo tại kho sách của Trung tâm Học liệu.

Bài viết này tiến hành so sánh đặc trưng và hiệu quả của bốn mô hình phân loại văn bản phổ biến hiện nay, bao gồm Bayes thơ ngây, SVM, LSTM và một mô hình khác Việc phân tích này nhằm làm nổi bật ưu nhược điểm của từng mô hình trong lĩnh vực phân loại văn bản, từ đó giúp lựa chọn phương pháp phù hợp nhất cho các ứng dụng thực tiễn.

BiLSTM được áp dụng trên tập dữ liệu thực tế, là tài liệu tiếng Việt đã được các thư viện viên chuyên môn biên mục và lưu trữ tại Trung tâm Học liệu.

Trong thời đại hiện nay, trí tuệ nhân tạo đang ngày càng được áp dụng rộng rãi để giải quyết các vấn đề trong cuộc sống, thu hút sự chú ý từ cộng đồng khoa học và doanh nghiệp Các mô hình học máy như SVM và Bayes thơ ngây đã chứng minh khả năng vượt trội trong phân loại, từ phân tích ngôn ngữ đến dự đoán xu hướng Nhiều nghiên cứu đã thử nghiệm các mô hình này trên các tập dữ liệu đa dạng, cho thấy tính ổn định và độ chính xác cao.

Trong nghiên cứu của Trần Cao Đệ và Phạm Nguyên Khang, phương pháp “Phân loại văn bản với máy vector hỗ trợ và cây quyết định” đã được đề xuất, cho thấy SVM kết hợp với thuật toán tách từ MMSEG và SVD giúp rút gọn không gian đặc trưng, nâng cao độ chính xác Kết quả chỉ ra rằng SVM vượt trội hơn cây quyết định khi không gian đặc trưng được rút gọn hợp lý, đồng thời giảm thiểu không gian lưu trữ và thời gian phân lớp nhờ vào số chiều không gian đặc trưng nhỏ hơn đáng kể so với ban đầu.

Bên cạnh đó, trong nghiên cứu của nhóm tác giả Colas, F., Brazdil, P.

Bài viết "So sánh SVM và một số thuật toán phân loại cũ trong các tác vụ phân loại văn bản" đã chỉ ra rằng SVM không phải lúc nào cũng là lựa chọn tốt nhất, trong khi các mô hình truyền thống như kNN và Naive Bayes (NB) vẫn có hiệu quả nhất định So với SVM, kNN và NB có tính đơn giản, dễ hiểu và thực thi nhanh hơn Tuy nhiên, nhược điểm lớn của SVM là thời gian huấn luyện lâu khi làm việc với các bộ dữ liệu lớn.

The study "Article Classification using Natural Language Processing and Machine Learning" by T T Dien, B H Loc, and N Thai-Nghe concludes that Support Vector Machine (SVM) is effective for automatic article classification The authors compared the classification performance of SVM, Naive Bayes (NB), and k-Nearest Neighbors (kNN), ultimately finding that SVM outperforms the other algorithms in classification accuracy.

PHƯƠNG PHÁP NGHIÊN CỨU

Tổng quan hệ thống

Hình 3.1 Tổng quan hệ thống phân loại văn bản tiếng Việt

Hệ thống phân loại bao gồm hai giai đoạn chính là huấn luyện mô hình phân loại và phân loại văn bản tiếng Việt.

Quá trình huấn luyện mô hình bắt đầu bằng việc thu thập dữ liệu và thực hiện tiền xử lý để loại bỏ các đặc trưng không quan trọng, từ đó tạo ra tập dữ liệu phục vụ cho huấn luyện Các phương pháp trích đặc trưng văn bản được áp dụng để chuyển đổi văn bản thành dạng số học Chúng tôi đã thực hiện thử nghiệm với bốn mô hình gồm Bayes thơ ngây, SVM, LSTM và BiLSTM nhằm tìm ra các tham số tối ưu Cuối cùng, chất lượng của các mô hình phân loại được đánh giá và mô hình tối ưu sẽ được lưu lại để ứng dụng vào phân loại.

Giai đoạn phân loại văn bản sử dụng Telegram Bot, một tiện ích của ứng dụng Telegram chat, cho phép người dùng cuối dễ dàng nhập đoạn văn bản chứa thông tin tài liệu như tên và mô tả bằng tiếng Việt Sau khi người dùng gửi thông tin, bot sẽ phản hồi với kết quả dự đoán từ mô hình phân loại Telegram Bot nổi bật với tính linh hoạt và dễ triển khai, mang lại trải nghiệm thuận tiện cho người dùng.

Thu thập và tiền xử lý dữ liệu

Bộ dữ liệu thu thập được khoảng 125.700 tài liệu từ kho dữ liệu biên mục của Trung tâm Học liệu, bao gồm nhiều ngôn ngữ và các trường phân loại đa dạng Đề tài đã chọn lọc 4 thông tin chính từ bộ dữ liệu thô, bao gồm: nhan đề chính, nhan đề phụ, mô tả và vùng phân loại (lớp).

31 Bảng 3.1 và 3.2 minh họa về một số mẫu trong tập dữ liệu trước và sau khi tiền xử lý dữ liệu.

Bảng 3.1 Minh họa một số mẫu dữ liệu trước khi tiền xử lý dữ liệu

Nhan đề chính Nhan đề phụ Mô tả Lớp

Về trường phái kinh tế học pháp luật :

Sách tham khảo 3 Độc học môi trường :

Thực hành xử lý số tín hiệu với Matlab

Phần chuyên đề Giới thiệu tổng quát về độc học môi

Có năm loại độc chất điển hình và phổ biến trong môi trường, xuất phát từ chất thải công nghiệp, sinh hoạt đô thị, khu dân cư, và lối sống hàng ngày thiếu khoa học của con người.

Dioxin, thuốc bảo vệ thực vật, dicami, chì, arsen và thủy ngân là những chất độc hại có thể ảnh hưởng nghiêm trọng đến sự sinh trưởng của thực vật Nghiên cứu về tác động của kim loại nặng đối với cây trồng là rất cần thiết để hiểu rõ hơn về những rủi ro môi trường Việc xây dựng mô hình quản lý sự cố độc hại môi trường cũng đóng vai trò quan trọng trong việc bảo vệ hệ sinh thái và đảm bảo an toàn cho nông sản.

Trong bài viết này, chúng tôi giới thiệu 12 thí nghiệm mô phỏng và 6 mô hình hóa trên phần mềm MATLAB, bao gồm các lĩnh vực như xử lý số tín hiệu, xử lý đa tốc độ và dàn lọc, cũng như các máy quét tần số Những thí nghiệm này không chỉ giúp người học nắm vững kiến thức lý thuyết mà còn phát triển kỹ năng thực hành trong lĩnh vực kỹ thuật điện tử và tín hiệu.

Quá trình tiền xử lý dữ liệu gồm các bước:

Để loại bỏ dữ liệu không phải tiếng Việt, cần kiểm tra các ký tự đặc trưng như “ă”, “â”, “ơ”, “ô” và chỉ giữ lại tài liệu tiếng Việt Điều này bao gồm cả các tài liệu có chứa từ ngữ, tên riêng hoặc các yếu tố thuộc ngôn ngữ khác xuất hiện cùng với tiếng Việt trong nội dung mô tả.

- Gộp chung 3 cột: nhan đề chính, nhan đề phụ, mô tả thành một cột duy nhất - Chuyển ký tự viết hoa thành ký tự thường.

Để tối ưu hóa dữ liệu, chúng ta cần loại bỏ các từ vô nghĩa, ký tự đặc biệt và khoảng trắng thừa Đồng thời, cần xóa các dòng dữ liệu trùng lặp, không có nội dung và không có số phân loại Sau khi hoàn thành các bước này, tập dữ liệu còn lại sẽ có 62.380 mẫu.

Để giảm thiểu hiện tượng quá khớp (overfitting), chúng ta sử dụng thư viện Levenshtein để loại bỏ các dòng tương tự nhau Cụ thể, đối với các lớp 0, 1, 4, 5, 7, 8, 9, các mẫu dữ liệu ngắn hơn sẽ được loại bỏ khi phát hiện hai mẫu có tỉ lệ tương đồng trên 80% Đối với các lớp 3 và 6, hai lớp có số lượng mẫu lớn nhất, sẽ loại bỏ các mẫu có tỉ lệ tương đồng cao hơn 60% Riêng lớp 2, do số lượng mẫu rất ít, sẽ không thực hiện việc loại bỏ mẫu.

- Kiểm tra lần cuối một số từ lỗi chính tả, lỗi bộ gõ.

Nghiên cứu này không tách từ theo âm tiết trong tiếng Việt mà áp dụng phương pháp tách từ đơn dựa trên khoảng trắng Điều này được hỗ trợ bởi kết luận của các tác giả trong nghiên cứu [11], cho rằng phương pháp tách từ đơn âm tiết có thể được sử dụng tương tự như trong tiếng Anh.

Quá trình tiền xử lý dữ liệu đã hoàn tất, tạo ra tập dữ liệu gồm 48.085 tài liệu, phục vụ cho việc huấn luyện và kiểm thử các mô hình nhằm xây dựng hệ thống.

Bảng 3.2 Minh họa một số mẫu dữ liệu sau khi tiền xử lý dữ liệu

Lớp độc học môi trường cung cấp cái nhìn tổng quát về các loại độc chất phổ biến, bao gồm dioxin và thuốc, từ chất thải công nghiệp, sinh hoạt đô thị, và lối sống hàng ngày Nội dung lớp học giúp nâng cao nhận thức về tác động của các chất độc hại đối với môi trường và sức khỏe con người.

Nghiên cứu về ảnh hưởng của kim loại nặng như arsen và thủy ngân đối với sự sinh trưởng của thực vật đã chỉ ra tầm quan trọng của việc bảo vệ thực vật Bài viết giới thiệu mô hình quản lý sự cố độc hại môi trường và thực hành xử lý số tín hiệu bằng MATLAB Đặc biệt, 12 thí nghiệm mô phỏng và mô hình hóa mềm MATLAB được trình bày, bao gồm các phương pháp xử lý số tín hiệu, xử lý đa tốc độ và dàn lọc máy, nhằm nâng cao hiệu quả trong việc ứng phó với ô nhiễm môi trường.

Xây dựng và thử nghiệm mô hình

Sau khi thu thập và tiền xử lý dữ liệu, bộ dữ liệu được chia thành hai phần: 80% cho tập huấn luyện và 20% cho tập kiểm thử, nhằm đảm bảo so sánh khách quan giữa các mô hình phân loại Mô hình SVM và Bayes thơ ngây sử dụng phương thức kiểm tra chéo Stratified K-Fold với k = 5, trong đó dữ liệu được xáo trộn và chia thành 5 phần bằng nhau, mỗi phần sẽ lần lượt được sử dụng làm tập kiểm thử Kết quả phân loại là trung bình cộng của 5 lần thực nghiệm Đối với mô hình LSTM và BiLSTM, dữ liệu cũng được xáo trộn và chia theo tỷ lệ tương tự, với 80% cho tập huấn luyện và 20% cho tập kiểm thử, đảm bảo tỷ lệ các lớp tương đồng Các mô hình này sẽ được huấn luyện qua 100 epoch với kỹ thuật dừng sớm.

(early stopping) để lựa chọn epoch có thông số validation loss thấp

Nghiên cứu sử dụng 33 mô hình xây dựng, với kết quả phân loại được đánh giá tại epoch có validation loss thấp nhất Để đảm bảo đánh giá hiệu suất đồng đều trên tất cả các lớp chủ đề và giảm thiểu sự ảnh hưởng của các lớp phổ biến, các chỉ số macro-averaged precision, macro-averaged recall và macro-averaged F1-score được áp dụng Đây là giá trị trung bình cộng của các chỉ số precision, recall và F1-score của tất cả các lớp, và sẽ được gọi tắt là precision, recall và F1-score trong bảng kết quả Khi so sánh hiệu quả các mô hình, thứ tự ưu tiên sẽ là F1-score, độ chính xác (accuracy) và thời gian huấn luyện.

Các mô hình trong đề tài được xây dựng và chạy thực nghiệm trên máy tính chạy hệ điều hành Windows 10, chip Intel core i3-10105 4 nhân, tốc độ 3,7 GHz, 8

Đề tài này sử dụng Python 3.10 để thực hiện các tập lệnh cho các mô hình học máy và học sâu, nhằm so sánh hiệu quả phân loại của bốn mô hình khác nhau Kết quả thu được sẽ chỉ áp dụng cho tập dữ liệu mà đề tài đã thu thập, không thể chuyển giao cho các tập dữ liệu khác.

KẾT QUẢ VÀ ĐÁNH GIÁ

Tổng quan tập dữ liệu

Bộ dữ liệu bao gồm 48.085 mẫu, được phân loại thành 10 lớp từ 0 đến 9, tương ứng với 10 lĩnh vực chính trong hệ thống phân loại DDC Hình 4.1 minh họa sự phân bố số lượng của các lớp trong bộ dữ liệu này.

Bảng 4.1 Sự phân bố của tập dữ liệu

Hình 4.1 Sự phân bố của tập dữ liệu Qua biểu đồ ở hình 4.1 cho thấy rõ đây là tập dữ liệu mất cân bằng rất lớn:

- Lớp 3, 6 và 8 có số lượng mẫu lớn nhất, chiếm một phần lớn trong toàn bộ dữ liệu.

- Trong khi đó, lớp 2, lớp 7 và lớp 1 có số lượng mẫu thấp Đặc biệt lớp 2 chỉ có

374 mẫu, chiếm thấp hơn 1% của tập dữ liệu.

Sự phân bố không đồng đều của dữ liệu có thể ảnh hưởng đến tính đa dạng của nó, khiến cho các lớp có ít mẫu không thể đại diện đầy đủ cho các đặc điểm của lớp Điều này gây khó khăn cho các mô hình trong quá trình học và phát triển.

35 Thông tin thống kê của tập dữ liệu theo độ dài văn bản trong từng mẫu:

Bảng 4.2 Phân bố độ dài văn bản trong tập dữ liệu

Tổng số mẫu Độ dài trung bình Độ dài văn bản ngắn nhất 25% 50% 75% Độ dài văn bản dài nhất48.08536,9 2 9 33 54 369

Hình 4.2 Sự phân bố độ dài văn bản của trong tập dữ liệu

Theo bảng 4.2 và hình 4.2, phần lớn văn bản mô tả có độ dài ngắn, với 75% dữ liệu dưới 54 từ và văn bản dài nhất đạt 369 từ Nghiên cứu chỉ ra rằng mô tả cho tài liệu mới tại Trung tâm Học liệu thường không quá dài Do đó, khi huấn luyện các mô hình học sâu, chuỗi đầu vào có thể được giới hạn ở 100 từ.

Mô hình Bayes thơ ngây 36 4.3 Mô hình SVM 39 4.4 Mô hình LSTM 44 4.5 Mô hình BiLSTM 48 4.6 Đánh giá kết quả

Mô hình Bayes thơ ngây được áp dụng trong nghiên cứu là Multinomial Naive Bayes kết hợp với n-gram, thử nghiệm với n-gram từ 1 đến 4 Mỗi giá trị n tạo ra một tập từ vựng tương ứng với các “từ” từ gram, ví dụ với n=2, tập dữ liệu sẽ bao gồm TF-IDF của unigram và 2-gram, và tương tự với n=3 Do đó, tập từ vựng sẽ lớn hơn khi n-gram tăng Ngoài ra, nghiên cứu cũng giới hạn chỉ số max_df=0,8 và min_df=2.

Để tối ưu hóa quy trình xử lý và nâng cao độ chính xác của mô hình, cần loại bỏ các từ có tần suất xuất hiện cao hơn 0,8 và các từ xuất hiện quá ít (ít hơn 2 mẫu) Việc này giúp giảm kích thước của tập từ vựng và cải thiện hiệu suất tổng thể.

Khi áp dụng mô hình n-gram vào tập dữ liệu, bộ từ vựng thu được có kích thước được mô tả ở bảng 4.3.

Bảng 4.3 Kích thước tập từ vựng của các n-gram

Kích thước tập từ vựng (từ)

Mô hình NB được thử nghiệm với 2-gram, sử dụng tham số alpha để áp dụng phương pháp làm mượt Laplace nhằm xử lý xác suất bằng 0 cho các từ mới xuất hiện Các giá trị alpha được lựa chọn là 0,1, 0,5 và 1.

Bảng 4.4 Ảnh hưởng của alpha đối với mô hình Bayes thơ ngây 2-gramalpha Precision Recall F1-score Accuracy (%) 0,10,778 0,772 0,764 80,860,50,821 0,605 0,650 77,8310,824 0,522 0,566 73,99

0.1 0.5 1 Hình 4.3 Ảnh hưởng của alpha với mô hình Bayes thơ ngây 2-gram

Kết quả từ bảng 4.4 chỉ ra rằng tham số alpha tối ưu là 0,1 Do đó, đề tài áp dụng tham số alpha 0,1 cho các thực nghiệm n-gram từ 1 đến 4, như mô tả trong bảng 4.5 Tiếp theo, đề tài sẽ tiến hành thực nghiệm với các n-gram từ 1 đến 4 để xác định n-gram tối ưu cho mô hình Bayes thơ ngây.

Bảng 4.5 Kết quả huấn luyện mô hình Bayes thơ ngây với alpha=0,1 n-gram Precision Recall F1-score Accuracy (%) Thời gian (s) 10,637 0,738 0,668

Hình 4.4 Kết quả huấn luyện mô hình Bayes thơ ngây với alpha=0,1

Kết quả từ bảng 4.5 cho thấy khi tăng dần n-gram, chỉ số F1-score và độ chính xác (Accuracy) đều tăng Mô hình không có sự thay đổi đáng kể khi chuyển từ 3-gram sang 4-gram Đặc biệt, khi n-gram=4, F1-score và độ chính xác đạt mức cao nhất lần lượt là 0,78 và 83,1% Với thời gian huấn luyện nhanh chóng của mô hình Naive Bayes (NB), n-gram=4 sẽ được chọn làm đại diện cho phương pháp Bayes thơ ngây để so sánh với các phương pháp khác.

Mô hình SVM được nghiên cứu kết hợp với n-gram từ 1 đến 4, sử dụng thông số TF-IDF với max_df=0,8 và min_df=2, tương tự như trong thí nghiệm với Bayes thơ ngây Kernel được chọn là Linear, với giá trị C thử nghiệm từ 1 đến 100, và kết quả thực nghiệm được tính trung bình từ 5 lần chạy k-fold=5 Đầu tiên, mô hình SVM Linear được thử nghiệm với TF-IDF 1-gram, thay đổi tham số C để xác định giá trị tối ưu Tham số C là siêu tham số quan trọng, kiểm soát sự cân bằng giữa việc tối đa hóa khoảng cách đến siêu phẳng và giảm thiểu số lượng điểm dữ liệu bị phân loại sai Giá trị C lớn giúp mô hình phân loại chính xác tất cả điểm dữ liệu trong tập huấn luyện, trong khi C nhỏ cho phép chấp nhận một số dữ liệu sai để tạo ra đường biên đơn giản hơn, từ đó cải thiện khả năng tổng quát và giảm nguy cơ quá khớp.

Bảng 4.6 Ảnh hưởng của C đối với mô hình SVM Linear 1-gram

1 10 100 Hình 4.5 Ảnh hưởng của C đối với mô hình SVM Linear 1-gram

39 Thực nghiệm cho thấy kết quả ở bảng 4.6 thể hiện, giá trị F1-score giảm dần khi

C tăng từ C=1 đến C0, trong đó F1-score của mô hình có tham số C=1 là cao nhất

- đạt 0.762, độ chính xác đạt 80,26%, do đó tham số C=1 sẽ được chọn để chạy thực nghiệm mô hình SVM Linear với n-gram từ 1 đến 4.

Bảng 4.7 Kết quả huấn luyện mô hình SVM Linear với C=1 n-gram Precision Recall F1-score Accuracy (%) Thời gian (s) 10,788 0,743 0,762

Hình 4.6 Kết quả huấn luyện mô hình SVM Linear với C=1

Kết quả từ bảng 4.7 cho thấy việc tăng n-gram từ 2 đến 4 không ảnh hưởng đáng kể đến hiệu suất phân loại của mô hình SVM Linear Trong đó, mô hình SVM với 3-gram và tham số C=1 đạt được chỉ số F1-score cao nhất là 0,811, mặc dù độ chính xác của nó thấp hơn so với mô hình 4-gram, nhưng sự khác biệt giữa hai mô hình là rất nhỏ.

Chúng tôi đã tiến hành thử nghiệm với mô hình SVM sử dụng kernel RBF, với n gram bằng 1 và các giá trị tham số C lần lượt là 1, 10, 50 và 100, nhằm xác định tham số C tối ưu nhất cho mô hình SVM RBF.

40 Bảng 4.8 Ảnh hưởng của C đối với mô hình SVM RBF 1-gram

C Precision Recall F1-score Accuracy (%) Thời gian (s) 10,820 0,752 0,780 82,39 6.524100,828 0,778 0,800 83,33 9.393500,828 0,778 0,799 83,32 9.374

1 10 50 100 Hình 4.7 Ảnh hưởng của C đối với mô hình SVM RBF 1-gram

Dựa trên kết quả, tham số C cho kernel RBF đạt hiệu suất tốt nhất Do đó, C sẽ được lựa chọn để thử nghiệm mô hình SVM RBF với n-gram từ 1 đến 4, nhằm tìm ra mô hình SVM RBF tối ưu để so sánh với mô hình SVM Linear tốt nhất.

Bảng 4.9 Kết quả huấn luyện mô hình SVM RBF với C n-gram Precision Recall F1-score Accuracy (%) Thời gian (s) 10,828 0,778 0,800

1 2 3 4 Hình 4.8 Kết quả huấn luyện mô hình SVM RBF với C

Kết quả từ bảng 4.7 và 4.9 cho thấy mô hình SVM Linear kết hợp 3-gram đạt F1-score cao nhất là 0,811, vượt trội hơn so với SVM RBF kết hợp 2-gram với F1-score 0,807 và độ chính xác 84,56% so với 84,45% Do đó, SVM Linear 3-gram được chọn là mô hình tốt nhất Tiếp theo, đề tài thử nghiệm tham số class_weight với giá trị class_weight="balanced" nhằm tăng cường khả năng nhận diện các lớp có tỉ lệ mẫu thấp, với kết quả được trình bày trong bảng 4.10.

Bảng 4.10 So sánh mô hình SVM Linear khi cân bằng trọng số lớp

Class_weight Precision Recall F1-score Accuracy (%) Thời gian (s) None0,843

F1-score Accuracy class_weight None Balanced

Hình 4.9 So sánh mô hình SVM Linear khi cân bằng trọng số lớp

Kết quả cho thấy việc áp dụng trọng số cân bằng cho các lớp đã làm thay đổi hiệu quả của mô hình SVM Linear, đặc biệt là ở các chỉ số precision và recall Cụ thể, mô hình không sử dụng trọng số lớp có hiệu suất khác biệt so với mô hình có trọng số.

- Precision cao hơn ở mô hình không có trọng số lớp, mô hình ít dự đoán sai các trường hợp tích cực.

- Recall thấp hơn mô hình còn lại chứng tỏ mô hình dự đoán sai nhiều trường hợp tích cực hơn.

- F1-score cả hai mô hình gần như tương đương.

- Độ chính xác accuracy cao hơn cho thấy mô hình tổng thể chính xác hơn mô hình sử dụng trọng số lớp.

Trong thực tế, tài liệu ở các vùng thiểu số được bổ sung hàng năm rất hạn chế Nghiên cứu ưu tiên mô hình có độ chính xác cao và ít đưa ra dự đoán sai Do đó, mô hình SVM Linear với tham số C=1, n-gram=3 và weight=None đã được lựa chọn cho nghiên cứu này.

SVM khi so sánh với các phương pháp còn lại.

Mô hình LSTM được cải tiến bằng cách kết hợp với mô hình nhúng từ Word2vec Đầu tiên, dữ liệu được huấn luyện thông qua mô hình Word2vec (skip-gram) để tạo ra các vectơ từ Kết quả từ Word2vec sẽ được lưu trữ, tạo thành ma trận từ nhúng phục vụ cho quá trình huấn luyện mô hình LSTM.

Mô hình LSTM ban đầu được thiết kế với 1 tầng và 64 units, xử lý chuỗi đầu vào có độ dài tối đa 100 từ Để tối ưu hóa mô hình, các thí nghiệm được thực hiện với Word2vec, sử dụng các vectơ từ có độ dài 50, 100, 150, 200 và 300 Các tham số khác được giữ nguyên, bao gồm window=5, workers=4, negative=5 và epochs=5, nhằm mục tiêu xác định độ dài vectơ từ tối ưu cho mô hình.

Bảng 4.11 Ảnh hưởng của độ dài vectơ từ Word2vec đối với mô hình LSTMVector size Precision Recall F1-score Accuracy (%) 500,718 0,659 0,676 76,061000,741 0,689 0,708 77,841500,750 0,697 0,718 78,692000,730 0,707 0,716 77,88300

50 100 150 200 300Hình 4.10 Ảnh hưởng của độ dài vectơ từ Word2vec đối với mô hình LSTM

Nghiên cứu tiếp theo lựa chọn hàm tối ưu "adam" và thử nghiệm mô hình LSTM với 64 đơn vị, áp dụng các tốc độ học lần lượt là 0,01, 0,001 và 0,0001, trong khi giữ nguyên các tham số khác Kết quả của thí nghiệm được trình bày trong bảng 4.12.

Bảng 4.12 Ảnh hưởng của tốc độ học đối với mô hình LSTM

Learning rate Precision Recall F1-score Accuracy (%) 0,010,750 0,743 0,745

80,140,0010,778 0,761 0,767 82,120,0001Mô hình hội tụ rất chậm

Hình 4.11 Ảnh hưởng của tốc độ học đối với mô hình LSTM

Ngày đăng: 03/01/2025, 08:51

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
2. Trần Cao Đệ, Phạm Nguyên Khang (2012). Phân loại văn bản với máy học vector hỗ trợ và cây quyết định. Tạp Chí Khoa Học Đại Học Cần Thơ, (21a), 52–63 Sách, tạp chí
Tiêu đề: Tạp Chí Khoa Học Đại Học Cần Thơ
Tác giả: Trần Cao Đệ, Phạm Nguyên Khang
Năm: 2012
4. Tran Thanh D., Loc B., and Thai-Nghe N. (2019). Article Classification using Natural Language Processing and Machine Learning. 78–84, 78–84. 5. Frank E. and Bouckaert R.R. (2006). Naive Bayes for Text Classification with Unbalanced Classes.Knowledge Discovery in Databases: PKDD 2006, Berlin, Heidelberg, Springer Sách, tạp chí
Tiêu đề: Knowledge Discovery in Databases: PKDD 2006
Tác giả: Tran Thanh D., Loc B., and Thai-Nghe N. (2019). Article Classification using Natural Language Processing and Machine Learning. 78–84, 78–84. 5. Frank E. and Bouckaert R.R
Năm: 2006
7. Arifin S., WIJAYA A., Nariswari R., et al. (2023). Long Short-Term Memory (LSTM): Trends and Future Research Potential. Int J Emerg Technol Adv Eng, 13, 24–35 Sách, tạp chí
Tiêu đề: Int J Emerg Technol Adv Eng
Tác giả: Arifin S., WIJAYA A., Nariswari R., et al
Năm: 2023
8. Triyadi I., Prasetiyo B., and Nikmah T. (2023). News text classification using Long-Term Short Memory (LSTM) algorithm. J Soft Comput Explor, 4. 9. Asrawi H., Utami E., and Yaqin A. (2023). LSTM and Bidirectional GRU Comparison for Text Classification. sinkron, 8, 2264–2274 Sách, tạp chí
Tiêu đề: J Soft Comput Explor", 4. 9. Asrawi H.,Utami E., and Yaqin A. (2023). LSTM and Bidirectional GRU Comparison for TextClassification."sinkron
Tác giả: Triyadi I., Prasetiyo B., and Nikmah T. (2023). News text classification using Long-Term Short Memory (LSTM) algorithm. J Soft Comput Explor, 4. 9. Asrawi H., Utami E., and Yaqin A
Năm: 2023
11. Phạm Nguyên Khang, Trần Nguyễn Minh Thư, Phạm Thế Phi, Đỗ Thanh Nghị (2016). Sự ảnh hưởng của phương pháp tách từ trong bài toán phân lớp văn bản tiếng việt. Tạp Chí Khoa Học Trường Đại Học Cần Thơ, Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX ―Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR’9)ǁ Sách, tạp chí
Tiêu đề: Tạp Chí Khoa Học Trường Đại Học Cần Thơ
Tác giả: Phạm Nguyên Khang, Trần Nguyễn Minh Thư, Phạm Thế Phi, Đỗ Thanh Nghị
Năm: 2016
12. Sebastiani F. (2002). Machine Learning in Automated Text Categorization. ACM Comput Surv, 34(1), 1–47.13. Tạ Thị Thịnh (2003), Phân loại và tổ chức mục lục phân loại, Nhà xuất bản Đại học Quốc gia Hà Nội Sách, tạp chí
Tiêu đề: ACMComput Surv", 34(1), 1–47.13. Tạ Thị Thịnh (2003),"Phân loại và tổ chức mục lục phân loại
Tác giả: Sebastiani F. (2002). Machine Learning in Automated Text Categorization. ACM Comput Surv, 34(1), 1–47.13. Tạ Thị Thịnh
Nhà XB: Nhà xuất bản Đạihọc Quốc gia Hà Nội
Năm: 2003
3. Colas F. and Brazdil P. (2006). Comparison of SVM and Some Older Classification Algorithms in Text Classification Tasks Khác
6. Nguyen P., Hong T., Nguyen K., et al. (2019), Deep Learning versus Traditional Classifiers on Vietnamese Students’ Feedback Corpus Khác
10. Do H.T.-T., Huynh H.D., Van Nguyen K., et al. (2019). Hate Speech Detection on Vietnamese Social Media Text using the Bidirectional-LSTM Model.<http://arxiv.org/abs/1911.03648>, accessed: 07/01/2024 Khác

HÌNH ẢNH LIÊN QUAN

Hình 2.1 Quá trình huấn luyện - Phân loại chủ Đề tài liệu tiếng việt theo khung phân loại thập  phân dewey
Hình 2.1 Quá trình huấn luyện (Trang 18)
Hình 2.3 Mô hình CBOW - Phân loại chủ Đề tài liệu tiếng việt theo khung phân loại thập  phân dewey
Hình 2.3 Mô hình CBOW (Trang 22)
Hình 2.4 Mô hình skip-gram - Phân loại chủ Đề tài liệu tiếng việt theo khung phân loại thập  phân dewey
Hình 2.4 Mô hình skip-gram (Trang 23)
Hình 2.5 Phân lớp nhị phân tuyến tính - Phân loại chủ Đề tài liệu tiếng việt theo khung phân loại thập  phân dewey
Hình 2.5 Phân lớp nhị phân tuyến tính (Trang 25)
Hình 2.6 Phân lớp tuyến tính với SVM - Phân loại chủ Đề tài liệu tiếng việt theo khung phân loại thập  phân dewey
Hình 2.6 Phân lớp tuyến tính với SVM (Trang 26)
Hình 2.7 Phương pháp 1-vs-all của mô hình SVM đa lớp - Phân loại chủ Đề tài liệu tiếng việt theo khung phân loại thập  phân dewey
Hình 2.7 Phương pháp 1-vs-all của mô hình SVM đa lớp (Trang 27)
Hình 2.8 Phương pháp 1-vs-1 của mô hình SVM đa lớp - Phân loại chủ Đề tài liệu tiếng việt theo khung phân loại thập  phân dewey
Hình 2.8 Phương pháp 1-vs-1 của mô hình SVM đa lớp (Trang 28)
Hình 2.10 Kiến trúc của LSTM - Phân loại chủ Đề tài liệu tiếng việt theo khung phân loại thập  phân dewey
Hình 2.10 Kiến trúc của LSTM (Trang 29)
Hình 2.12 Tầng cổng vào - Phân loại chủ Đề tài liệu tiếng việt theo khung phân loại thập  phân dewey
Hình 2.12 Tầng cổng vào (Trang 30)
Hình 2.14 Tầng cổng ra - Phân loại chủ Đề tài liệu tiếng việt theo khung phân loại thập  phân dewey
Hình 2.14 Tầng cổng ra (Trang 31)
Hình 2.13 Cập nhật thông tin qua cổng vào và cổng quên - Phân loại chủ Đề tài liệu tiếng việt theo khung phân loại thập  phân dewey
Hình 2.13 Cập nhật thông tin qua cổng vào và cổng quên (Trang 31)
Hình 2.15 Mô hình mạng BiLSTM Kết hợp đầu ra từ cả hai LSTM cung cấp một cái nhìn toàn diện hơn về dữ liệu tuần tự, cho phép mô hình học được mối quan hệ giữa các phần của chuỗi dữ liệu không chỉ dựa vào ngữ cảnh hiện tại mà còn dựa vào các phần trước và  - Phân loại chủ Đề tài liệu tiếng việt theo khung phân loại thập  phân dewey
Hình 2.15 Mô hình mạng BiLSTM Kết hợp đầu ra từ cả hai LSTM cung cấp một cái nhìn toàn diện hơn về dữ liệu tuần tự, cho phép mô hình học được mối quan hệ giữa các phần của chuỗi dữ liệu không chỉ dựa vào ngữ cảnh hiện tại mà còn dựa vào các phần trước và (Trang 32)
Hình 2.16 Ma trận hỗn loạn - Phân loại chủ Đề tài liệu tiếng việt theo khung phân loại thập  phân dewey
Hình 2.16 Ma trận hỗn loạn (Trang 33)
Hình 3.1 Tổng quan hệ thống phân loại văn bản tiếng Việt - Phân loại chủ Đề tài liệu tiếng việt theo khung phân loại thập  phân dewey
Hình 3.1 Tổng quan hệ thống phân loại văn bản tiếng Việt (Trang 41)
Hình 4.2 Sự phân bố độ dài văn bản của trong tập dữ liệu - Phân loại chủ Đề tài liệu tiếng việt theo khung phân loại thập  phân dewey
Hình 4.2 Sự phân bố độ dài văn bản của trong tập dữ liệu (Trang 46)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w