TÌM HIỂU về NHẬN DẠNG CHỦ đề bài VIẾT BẰNG máy học

Cơ sở lí thuyết

Giới thiệu về Machine Learning

2.1.1 Các khái niệm cơ bản

Machine learning, hay học máy, là một lĩnh vực của trí tuệ nhân tạo (AI) với mục tiêu hiểu cấu trúc dữ liệu và chuyển đổi chúng thành các mô hình có thể sử dụng Học máy có mối liên hệ chặt chẽ với thống kê, vì cả hai đều phân tích dữ liệu, nhưng khác biệt ở chỗ học máy chú trọng vào sự phức tạp của các thuật toán tính toán Nhiều bài toán suy luận trong học máy được coi là rất khó, do đó, một phần quan trọng của lĩnh vực này là nghiên cứu phát triển các thuật toán suy luận xấp xỉ có khả năng xử lý các vấn đề phức tạp.

Quá trình học bắt đầu từ việc quan sát và thu thập dữ liệu, nhằm tìm kiếm các mẫu trong thông tin Điều này giúp đưa ra những quyết định tốt hơn trong tương lai dựa trên những hiểu biết đã có.

Chúng tôi cung cấp 9 ví dụ nhằm mục đích giúp các máy tính tự động học mà không cần sự can thiệp hay hỗ trợ từ con người, đồng thời điều chỉnh các hành động phù hợp.

Deep Learning là một nhánh của Machine Learning, nổi bật với khả năng xử lý các vấn đề phức tạp mà Machine Learning truyền thống không thể giải quyết Công nghệ này cho phép máy tính học hỏi và cải thiện hiệu suất qua thời gian, mở ra nhiều cơ hội ứng dụng trong các lĩnh vực khác nhau.

2.1.2 Các phương pháp Machine Learning

2.1.2.1 Supervised Learning – Học có giám sát

Trong học tập có giám sát, máy tính nhận các ví dụ đầu vào đã được gán nhãn cùng với đầu ra mong muốn, nhằm giúp thuật toán học cách so sánh kết quả đầu ra thực tế với các kết quả đã được dạy Mục tiêu là tìm ra lỗi và điều chỉnh mô hình cho phù hợp Phương pháp này cho phép học được giám sát dự đoán giá trị nhãn cho dữ liệu không gán nhãn bổ sung.

Trong học máy có giám sát, thuật toán được cung cấp dữ liệu với các văn bản đã được gán nhãn, như văn bản về nghệ thuật được gán nhãn "arts" và văn bản về Covid-19 gán nhãn "covid-19" Qua quá trình đào tạo với dữ liệu này, thuật toán có khả năng xác định các văn bản mới về nghệ thuật và Covid-19 theo các nhãn tương ứng "arts" và "covid-19".

Phương pháp này thường được sử dụng cho các bài toán phân lớp

2.1.2.2 Unsupervised Learning – Học không giám sát

Trong học tập không giám sát, dữ liệu không được gán nhãn, do đó thuật toán học sẽ tìm ra các điểm chung giữa các dữ liệu đầu vào Việc sử dụng dữ liệu không gán nhãn mang lại lợi thế lớn hơn so với dữ liệu đã được dán nhãn, khiến các phương pháp machine learning trong học tập không giám sát trở nên đặc biệt giá trị.

Không giám sát thường được sử dụng cho dữ liệu giao dịch.

Phương pháp Word Embedding

Word Embedding là một phương pháp quan trọng trong Xử lý ngôn ngữ tự nhiên (NLP), cho phép ánh xạ từ hoặc cụm từ thành các vector số thực Công cụ này đóng vai trò thiết yếu trong hầu hết các thuật toán và kiến trúc Machine Learning, Deep Learning, giúp xử lý dữ liệu văn bản bằng cách chuyển đổi chúng thành dạng số Nhờ đó, các mô hình có thể thực hiện các nhiệm vụ như phân loại và hồi quy một cách hiệu quả.

Word Embedding được phân chủ yếu thành 2 loại:

Frequency-based Embedding dựa vào tần số xuất hiện của các từ để tạo ra các vector từ, trong đó có 3 loại phổ biến nhất:

Count Vector là phương pháp cơ bản nhất trong Frequency-based Embedding, sử dụng D tài liệu d1, d2,…dD và N là kích thước của từ điển Vector đại diện cho một từ là một vector số nguyên có độ dài D, trong đó phần tử tại vị trí i thể hiện tần suất xuất hiện của từ trong tài liệu di Để tối ưu hóa, có thể loại bỏ các từ có tần suất thấp hoặc thay đổi cách biểu diễn của vector, như sử dụng giá trị nhị phân để thể hiện sự xuất hiện của từ, tùy thuộc vào mục đích sử dụng cụ thể.

Khác với Count Vector chỉ xem xét tần suất từ xuất hiện trong một tài liệu, tf-idf Vector lại chú trọng đến tần suất từ trong toàn bộ tập dữ liệu Nhờ vào đặc điểm này, tf-idf Vector có khả năng phân loại cao hơn so với Count Vector, giúp nâng cao hiệu quả trong việc xử lý và phân tích văn bản.

Vector tần suất là một vector số thực có độ dài D, trong đó D đại diện cho số lượng văn bản Vector này được tính toán dựa trên tích của hai thành phần chính: tf (tần suất từ) và idf (tần suất ngược tài liệu) Công thức tính cho mỗi phần tử trong vector được xác định dựa trên hai yếu tố này.

Tf-idf Vector có khả năng phân loại cao hơn Count Vector nhờ vào trọng số idf Công thức của tf-idf cho thấy rằng từ xuất hiện trong nhiều văn bản sẽ có giá trị thấp hơn, dẫn đến kết quả phân loại cuối cùng cũng giảm.

Mặc dù cả hai phương pháp trên có nhược điểm là chỉ tập trung vào tần số xuất hiện của từ, dẫn đến việc thiếu ý nghĩa ngữ cảnh, Co-occurrence Matrix đã phần nào khắc phục vấn đề này Phương pháp này bảo tồn mối quan hệ ngữ nghĩa giữa các từ, được xây dựng dựa trên số lần xuất hiện của các cặp từ trong Context Window Context Window được xác định bởi kích thước và hướng của nó, như được minh họa trong hình dưới đây.

Hình 2.1 Ví dụ về Context Window

Co-occurrence Matrix thường là một ma trận vuông đối xứng, trong đó mỗi hàng hoặc cột đại diện cho vector biểu thị của từ tương ứng Ví dụ, từ đó, ta có thể xây dựng ma trận Co-occurrence Matrix một cách rõ ràng và cụ thể.

Hình 2.2 Ví dụ về Co-occurrence Matrix

Trong thực tế, để tối ưu hóa việc sử dụng từ vựng, chúng ta thường loại bỏ những từ không cần thiết như stopwords hoặc áp dụng phân tách SVD (Singular Value Decomposition) Điều này không chỉ giúp làm rõ biểu diễn của từ mà còn tiết kiệm bộ nhớ cho việc lưu trữ Co-occurrence Matrix.

Matrix có kích thước rất lớn)

Prediction-based Embedding tạo ra các vector từ thông qua các mô hình dự đoán, trong đó Word2vec là một ví dụ nổi bật Word2vec bao gồm hai phương pháp chính: CBOW (Continuous Bag Of Words) và Skip-gram Cả hai phương pháp này được phát triển dựa trên một mạng neuron với ba lớp: một lớp đầu vào.

Mạng nơ-ron bao gồm một lớp ẩn và một lớp đầu ra, với mục tiêu chính là học các trọng số để biểu diễn vector từ Phần tiếp theo sẽ giải thích chi tiết về hai phương pháp liên quan đến word2vec.

Mô hình word2vec và mô hình doc2vec

Word2vec là một mô hình nổi bật giúp tạo ra các embedding từ trong không gian có số chiều thấp hơn nhiều so với số từ trong từ điển Mô hình này dựa trên hai ý chính: khả năng chuyển đổi từ thành các vector có ý nghĩa trong không gian, giúp cải thiện hiệu suất trong các tác vụ xử lý ngôn ngữ tự nhiên.

• Hai từ xuất hiện trong những văn cảnh giống nhau thường có ý nghĩa gần với nhau

• Ta có thể đoán được một từ nếu biết các từ xung quanh nó trong câu

Mô hình word2vec sử dụng để tạo embedding cho các từ trong câu, ví dụ như câu "Hà Nội là của Việt Nam", nhằm xác định từ phù hợp nhất cho dấu ba chấm, với khả năng cao là "thủ đô" Khi hoàn chỉnh, câu trở thành "Hà Nội là thủ đô của Việt Nam", trong đó word2vec tối ưu hóa xác suất để từ "thủ đô" là lựa chọn chính xác nhất.

• Trong ví dụ trên đây, từ “thủ đô” đang được xét và được gọi là target word hay từ đích

• Những từ xung quanh nó được gọi là context words hay từ ngữ cảnh Xét ví dụ: “The quick brown fox jump over the lazy dog” với C=4:

Hình 2.3 Ví dụ về context words

Mỗi từ đích trong câu được xác định kèm theo các từ ngữ cảnh, là những từ nằm trong khoảng cách không quá C/2 từ từ đích, với C là một số tự nhiên dương Do đó, mỗi từ đích sẽ tương ứng với một bộ từ ngữ cảnh không vượt quá C từ.

2.3.1.2 Các cách xây dựng mô hình word2vec

Có hai cách khác nhau xây dựng mô hình word2vec:

• Skip-gram: Dự đoán những từ ngữ cảnh nếu biết trước từ đích

• CBOW (Continuous Bag of Words): Dựa vào những từ ngữ cảnh để dự đoán từ đích

2.3.1.2.1 Skip-gram a Xây dựng hàm mất mát

Tính toán hàm mất mát trong xây dựng dựa trên ngữ cảnh sẽ bao gồm tổng hợp tất cả các hàm mất mát tương ứng với từng ngữ cảnh cụ thể.

Xét ví dụ ở trên với từ đích là ‘fox’ và các từ ngữ cảnh là ‘quick’,

‘brown’, ‘jumps’ và ‘over’ Việc tính toán xác suất xảy ra các từ ngữ cảnh khi biết từ đích được mô tả bởi mô hình:

P("quick","brown","jumps","over"|"fox")

Việc tính toán dựa trên mô hình hiện tại gặp nhiều khó khăn, vì vậy chúng ta giả định rằng mỗi từ trong ngữ cảnh xuất hiện độc lập Mặc dù giả thuyết này mâu thuẫn với ý tưởng rằng các từ trong cùng một ngữ cảnh có mối liên hệ với nhau, nhưng nó giúp đơn giản hóa quá trình tính toán.

Lúc này chúng ta có thể mô tả lại mô hình xác suất như sau:

P("quick"|"fox")P("brown"|"fox")P("jumps"|"fox")P("over"|"fox")

Trong bộ từ điển V, giả sử từ đích có chỉ số t, thì tập hợp các từ ngữ cảnh tương ứng là 𝐶 𝑡 Số lượng phần tử trong 𝐶 𝑡 sẽ thay đổi từ C/2 đến C, tùy thuộc vào vị trí của 𝑤 𝑡 trong câu.

Vậy chúng ta cần một mô hình sao cho xác suất dưới đây càng lớn càng tốt với mỗi từ ngữ cảnh 𝑤 𝑡

Để tránh sai số khi nhân các số nhỏ hơn 1, chúng ta cần chuyển đổi bài toán thành việc tối thiểu hóa đối số của hàm log, thường được gọi là negative log loss.

Xác xuất có điều kiện 𝑃(𝑤 𝐶 |𝑤 𝑡 ) được định nghĩa :

Với N là số phần tử trong bộ từ điển V, 𝑒𝑥𝑝(𝑢 𝑡 𝑇 𝑣 𝑐 ) thể hiện mối quan hệ giữa từ đích 𝑤 𝑡 và từ ngữ cảnh 𝑤 𝐶; khi giá trị này cao, xác suất thu được càng lớn Tích vô hướng 𝑢 𝑡 𝑇 𝑣 𝑐 cũng phản ánh sự tương tự của hai vector Việc xác định xác suất theo biểu thức (1) nhằm đảm bảo tính chính xác trong việc đánh giá mối liên hệ giữa các từ trong ngữ cảnh.

Nói tóm lại, hàm mất mát tương ứng với từ đích 𝑤 𝑡 theo U,V được cho bới công thức:

𝛴 ⅈ=1 𝑁 𝑒𝑥𝑝(𝑢 𝑡 𝑇 𝑣 𝐶 ) 𝐶∈𝐶 𝑡 b Biểu diễn dưới mạng neural Skip-gram word2vec là một mạng neural vô cùng đơn giản và chỉ có một tầng ẩn và không có hàm kích hoạt:

Hình 2.4 Mạng neural của phương pháp Skip-gram

Kết quả 𝑢 𝑡 được tính bằng cách nhân vector one-hot tương ứng với 𝑤 𝑡 với ma trận trọng số U, tạo ra đầu ra của tầng ẩn không hàm kích hoạt Tiếp theo, đầu ra này được nhân với ma trận trọng số V để thu được 𝑢 𝑡 𝑇 𝑽, đây là giá trị vector logit trước khi áp dụng hàm kích hoạt softmax.

Kiến trúc đơn giản này giúp cho word2vec hoạt động tốt ngay cả khi bộ từ điển của chúng ta rất lớn

Cuối cùng để đơn giản cho việc tính toán, ta có công thức như sau:

2.3.1.2.2 Continous Bag of Words (CBOW)

Mô hình Continuous Bag of Words (CBOW) xác định xác suất xuất hiện của từ mục tiêu dựa trên các từ ngữ cảnh xung quanh Để đạt được kết quả tối ưu, chúng ta cần mô hình hóa dữ liệu sao cho xác suất này đạt giá trị cao nhất.

P("fox"|"quick","brown","jumps","over")

Do có nhiều từ ngữ cảnh trong cùng một điều kiện nên chúng ta thay các từ ngữ cảnh bằng cách lấy một từ làm đại diện “trung bình’’

Biểu diễn mạng neural của CBOW dưới dạng mạng neural:

Hình 2.5 Mạng neural của phương pháp CBOW

Mô hình doc2vec tương tự như word2vec, nhưng thay vì chỉ biểu diễn từ dưới dạng vector, doc2vec biểu diễn toàn bộ văn bản dưới dạng vector Phương pháp này hoạt động ở cấp độ văn bản, không chỉ dừng lại ở các từ riêng lẻ và không dựa vào cấu trúc logic của ngữ nghĩa Giống như word2vec, doc2vec cũng có hai phương pháp để xây dựng mô hình.

• Distributed Memory version of Paragraph Vector (PV-DM)

• Distributed Bag of Words version of Paragraph Vector

2.3.2.1 Distributed Memory version of Paragraph Vector

Hình 2.6 Ví dụ về phương pháp PV-DM

Mô hình này chỉ khác với mô hình word2vec ở chỗ nó không chỉ sử dụng các input ngữ cảnh mà còn bổ sung thêm giá trị ID của các câu văn.

Mỗi câu văn được ánh xạ một cách độc nhất, và mô hình sử dụng các vector của câu kết hợp với vector của từng từ trong câu để thực hiện dự đoán.

Quá trình đào tạo các vector của câu giúp lưu trữ thông tin về ngữ cảnh và ý nghĩa, điều mà từng từ riêng lẻ không thể hiện Phương pháp này hoạt động như một bộ nhớ tạm thời cho câu, vì vậy nó được gọi là Distributed.

Mô hình bộ nhớ (PV-DM) cho phép tìm vector cho một câu mới bằng cách khởi tạo một vector đại diện ngẫu nhiên Trong quá trình này, trọng số của tất cả các phần còn lại trong mạng được giữ nguyên Sau một vài epoch trong quá trình suy diễn, chúng ta thu được một vector mới đại diện cho câu văn đầu vào Phiên bản Distributed Bag of Words của Paragraph Vector cũng hỗ trợ quá trình này.

Thực nghiệm

Phân tích bài toán

Nhóm chúng em sẽ giải quyết bài toán nhận dạng chủ đề bài viết, với khả năng xác định 8 chủ đề khác nhau.

Bảy chủ đề đầu tiên trong bài viết này là những chủ đề lớn và cơ bản thường gặp Riêng chủ đề Covid-19 là một bổ sung mới, phản ánh tình hình sự kiện gần đây Trong bài toán này, dữ liệu đầu vào là một đoạn văn bản, và đầu ra sẽ là danh sách các chủ đề cùng với độ tin cậy của hệ thống về việc xác định chủ đề chính của văn bản đó.

Chúng em sẽ tiến hành xây dựng và deploy một API đơn giản phục vụ cho việc giải quyết bài toán trên

Cùng bài toán này, một số công ty cũng có cách giải quyết tương tự (xây dựng API) như sau:

• Komprehend: tính chính xác trung bình, độ chi tiết thấp và thời gian phản hồi trung bình

• eventregistry: có vẻ như project này đã bị bỏ hoang

• bytesview: tính chính xác thấp, độ chi tiết ổn và thời gian phản hồi trung bình

• uClassify: tính chính xác và độ chi tiết thấp, tuy nhiên thời gian phản hồi rất nhanh

• IBM Watson: thuộc ông lớn IBM, độ chính xác và chi tiết đều rất cao, thời gian phản hồi rất nhanh.

Thu thập và xử lí dữ liệu

Ban đầu, nhóm chúng em dự định sử dụng bộ dữ liệu huấn luyện có sẵn từ Kaggle Tuy nhiên, sau khi thảo luận, chúng em nhận thấy rằng hầu hết các bộ dữ liệu này không đáp ứng đủ yêu cầu về số lượng chủ đề và số lượng bài viết trong mỗi chủ đề mà nhóm cần.

Vì thế chúng em tiến hành crawl dữ liệu từ trang theconversation.com theo 8 chủ đề lớn như ở phần Phân tích bài toán sử dụng thư viện

BeautifulSoup của ngôn ngữ Python bằng đoạn script cơ bản

Kết quả chúng em thu thập được 12.724 bài viết, với mỗi chủ đề là:

Hình 3.1 Bộ dữ liệu huấn luyện

Các bước tiền xử lí dữ liệu:

• Chuyển hoa thành thường: vì trong doc2vec (mô hình chúng em chọn cho việc phân loại) thì chữ hoa hay thường không ảnh hưởng đến kết quả cuối

• Loại bỏ số Hai bước đầu là gần như bắt buộc, còn ba bước sau là tuỳ chọn

Chúng em đã đào tạo hai mô hình doc2vec, một mô hình loại bỏ dấu câu, stopwords và số, và một mô hình giữ nguyên tất cả các yếu tố Kết quả cho thấy việc loại bỏ các yếu tố này có ảnh hưởng tích cực đến độ chính xác trong việc nhận diện chủ đề, với sự cải thiện khoảng 2-5%.

Việc gán chủ đề phụ thuộc nhiều vào cảm quan cá nhân, điều này ảnh hưởng đáng kể đến việc đánh giá độ chính xác và hiệu quả của mô hình.

Một số bài viết gặp khó khăn trong việc xác định chủ đề chính, dẫn đến tình trạng nhập nhằng Khi áp dụng mô hình phân tích, kết quả tỉ lệ chắc chắn giữa các chủ đề thường không chênh lệch nhiều, chỉ dưới 2%.

Huấn luyện mô hình

Nhóm chúng em đã sử dụng mô hình doc2vec để thực hiện phân loại văn bản Trong quá trình này, chúng em đã tiến hành huấn luyện với các thông số mô hình được xác định cụ thể.

Thông số vector_size xác định số chiều của các văn bản trong bộ dữ liệu huấn luyện Do mỗi bài viết trong bộ ngữ liệu có độ dài tương đối lớn (600-1500 từ), chúng tôi đã chọn giá trị vector_size lớn (300) để phù hợp với đặc điểm này.

Thông số window xác định ngữ cảnh của từng từ, trong khi thông số min_count quy định tần suất tối thiểu của từ trong bộ dữ liệu huấn luyện để từ đó được đưa vào vector văn bản đầu ra Nếu tần suất xuất hiện của một từ quá thấp, nó sẽ không được tính vào đặc trưng của vector văn bản Tùy thuộc vào kích thước của bộ ngữ liệu huấn luyện, thông số này sẽ được điều chỉnh phù hợp Sau nhiều lần thử nghiệm, chúng tôi nhận thấy con số 20 là hợp lý.

Thông số epochs xác định số lần lặp lại của mô hình trên một ngữ liệu trong bộ dữ liệu Số lần lặp này thường dao động từ 30 đến 100 để đạt được kết quả tối ưu, tùy thuộc vào kích thước của bộ huấn luyện Trong nghiên cứu này, chúng tôi đã chọn 80 epochs sau khi thực hiện một số điều chỉnh tăng dần.

Lưu ý rằng không phải số lượng epochs càng lớn thì càng tốt; vì khi số epochs quá cao, thời gian huấn luyện sẽ tăng lên đáng kể và có thể dẫn đến việc một văn bản không liên quan sẽ chiếm ưu thế trong mô hình.

Chúng tôi đã tiến hành huấn luyện hai mô hình phân loại doc2vec: một mô hình áp dụng các bước tiền xử lý dữ liệu đã nêu trước đó và một mô hình không sử dụng các bước tiền xử lý này.

Xây dựng API và demo

Sau khi hoàn thiện mô hình phân loại, chúng tôi đã xây dựng API bằng cách sử dụng thư viện Python Flask và Docker để tạo container Chúng tôi đã thiết lập endpoint /topic-classification để phục vụ việc phân loại.

Hình 3.2 Code endpoint /topic-classification

Các param có trong body của request lần lượt là:

• text:văn bản đầu vào

• top: số lượng chủ đề trả về

• remove_num: có loại bỏ số trong văn bản đầu vào hay không

Chúng em tiến hành deploy nó lên Heroku với đường dẫn: https://pisifer.herokuapp.com/topic-classification

Nhóm tiến hành test API đã deploy bằng Postman:

Hình 3.3 Demo API đã deploy

Source code: https://github.com/princ3od/pisifer

Định dạng
Số trang	31
Dung lượng	0,93 MB