Tổng hợp tiếng nói
Sự phát triển mạnh mẽ của trí tuệ nhân tạo trong cuộc cách mạng 4.0 đang thúc đẩy sự chú ý đối với hệ thống chuyển đổi văn bản thành giọng nói (Text-To-Speech - TTS) Các công nghệ này, nằm ở giao thoa giữa xử lý ngôn ngữ tự nhiên (NLP) và công nghệ tiếng nói, ngày càng trở nên phổ biến và được ứng dụng rộng rãi trong thực tế.
Công nghệ tổng hợp tiếng nói (TTS) đang thu hút sự quan tâm mạnh mẽ từ cả giới nghiên cứu và doanh nghiệp, từ nhỏ đến lớn TTS là quá trình sử dụng trí tuệ nhân tạo để hiểu văn bản và ngôn ngữ tự nhiên, tạo ra âm thanh tổng hợp với nhịp điệu và ngữ điệu tự nhiên Trong những năm gần đây, với sự phát triển nhanh chóng, các hệ thống TTS đã cải thiện đáng kể chất lượng, không còn phát âm giống như máy móc Khái niệm về hệ thống TTS chất lượng cao đã xuất hiện từ giữa những năm 80, nhờ vào những nghiên cứu quan trọng trong xử lý tiếng nói và ngôn ngữ tự nhiên Sự cải thiện vượt bậc về chất lượng đã mở ra nhiều ứng dụng mới cho TTS trong đời sống hàng ngày.
Hệ thống tổng hợp tiếng nói (TTS) đầu tiên được phát triển để hỗ trợ người khiếm thị đọc văn bản từ sách, chuyển đổi chúng thành tiếng nói Mặc dù giọng nói của những hệ thống sơ khai chưa tự nhiên, nhưng chúng đã mang lại sự thuận tiện cho người khiếm thị so với các phương pháp đọc truyền thống như chữ nổi hay nhờ người khác đọc Hiện nay, nhiều hệ thống TTS hỗ trợ người khiếm thị tương tác với máy tính, với một ứng dụng quan trọng là đọc tên các thành phần trên màn hình, giúp người dùng di chuyển chuột và điều khiển máy tính Ngoài ra, TTS còn hỗ trợ những người gặp khó khăn trong phát âm và bệnh nhân khiếm thính nặng thông qua các thiết bị giao tiếp đầu ra bằng giọng nói.
Hiện nay, nhiều sách nói và đồ chơi sử dụng công nghệ tổng hợp tiếng nói (TTS) chất lượng cao Công nghệ này được tích hợp vào hệ thống giáo dục, hỗ trợ người học trong việc tiếp cận và học các ngôn ngữ mới TTS không chỉ giúp nâng cao trải nghiệm học tập mà còn mở ra nhiều cơ hội giáo dục sáng tạo.
Trong cuộc cách mạng 4.0, công nghệ chuyển văn bản thành giọng nói (TTS) đã trở thành ứng dụng quan trọng, đặc biệt trong các tổng đài tự động, trợ lý ảo và voice-bot Những hệ thống này không chỉ giúp tự động hóa các trung tâm chăm sóc khách hàng mà còn hỗ trợ doanh nghiệp tăng doanh thu và giảm chi phí vận hành Trên điện thoại di động, các ứng dụng tương tác bằng giọng nói nổi tiếng như Google Now, Apple Siri và Samsung S-Voice đều sử dụng TTS đa ngôn ngữ.
Hệ thống tổng hợp tiếng nói bao gồm hai thành phần chính: thành phần tổng hợp mức cao (xử lý ngôn ngữ tự nhiên) và thành phần tổng hợp mức thấp (xử lý tiếng nói số) Thành phần đầu tiên xử lý văn bản đầu vào để tạo ra các đặc trưng âm học, trong khi thành phần thứ hai chuyển đổi các đặc trưng này thành tệp tiếng nói tương ứng Các thành phần này sẽ được mô tả chi tiết hơn ở phần 2.1.1.
Hiện nay, hệ thống tổng hợp tiếng nói được phân loại thành ba loại chính dựa trên công nghệ sử dụng: (i) Hệ thống dựa trên mô hình Markov ẩn (HMM), (ii) Hệ thống dựa trên mạng nơ-ron sâu (DNN), và (iii) Hệ thống đầu cuối (end-to-end) Chi tiết về các loại hệ thống này sẽ được trình bày ở phần 2.1.2.
Mô hình ngắt nghỉ trong tổng hợp tiếng nói
Mặc dù có nhiều ứng dụng thực tiễn, nhưng hệ thống tổng hợp tiếng nói nhân tạo nếu phát ra giọng nói máy móc, thiếu cảm xúc và tự nhiên sẽ gây nhàm chán và phản cảm cho người nghe Do đó, các nghiên cứu gần đây đang nỗ lực phát triển thuật toán và mô hình mới nhằm cải thiện chất lượng giọng nói, với mục tiêu tạo ra hệ thống tổng hợp tiếng nói có độ tự nhiên tương tự như giọng nói con người.
Trong hệ thống tổng hợp tiếng nói, mô hình ngắt nghỉ đóng vai trò quan trọng trong việc nâng cao độ tự nhiên và tính dễ hiểu của giọng nói Các yếu tố ngắt nghỉ được thiết kế để mô phỏng cách lấy hơi và cách đọc của người phát thanh viên, dựa trên ngữ cảnh thực tế Những yếu tố này giúp người nghe phân biệt giữa giọng nói tự nhiên và giọng máy móc Hiện nay, các nghiên cứu đang tập trung cải thiện chất lượng các thành phần trong hệ thống tổng hợp tiếng nói, trong đó có phần đoạn tiếng nói được tiếp cận từ nhiều góc độ và phương pháp khác nhau.
Các hệ thống tổng hợp tiếng nói dựa trên HMM và DNN không thể tự động nhận biết vị trí ngắt nghỉ trong câu mà cần được cung cấp trước Tuy nhiên, hệ thống DNN có khả năng dự đoán thời gian cho các vị trí ngắt nghỉ, điều mà hệ thống HMM không thể làm Một số hệ thống đầu-cuối như Tacotron cũng đang được phát triển để cải thiện khả năng này.
Tacotron2 và Wavenet có khả năng sử dụng lượng lớn dữ liệu từ các cặp văn bản và âm thanh để phát triển phương pháp phân đoạn tiếng nói hiệu quả Tuy nhiên, không phải tất cả các bộ dữ liệu đều phù hợp cho quá trình huấn luyện này.
Việc phân tích các vị trí ngắt nghỉ trong bước tiền xử lý không chỉ hỗ trợ mục đích này mà còn giúp các mô hình đầu cuối huấn luyện trở nên dễ dàng và nhanh chóng hội tụ hơn.
Nhiều nghiên cứu đã được thực hiện về mô hình phân đoạn tiếng nói trong tổng hợp tiếng nói, áp dụng các phương pháp khác nhau cho nhiều ngôn ngữ Các nghiên cứu này bao gồm kiến trúc sinh phân đoạn cho tiếng Trung và mô hình dự đoán ngắt nghỉ cho tiếng Đức.
Các nghiên cứu về ngôn ngữ như tiếng Nga, tiếng Pháp và tiếng Hindi thường áp dụng các mô hình luật hoặc mô hình học máy, sử dụng thông tin ngữ pháp và độ dài ngữ cảnh câu để phân tích.
Mặc dù có rất ít nghiên cứu về phân đoạn tiếng nói trong ngôn ngữ tiếng Việt, một số mô hình đã được phát triển Nghiên cứu [20] giới thiệu mô hình phân đoạn dựa trên luật, sử dụng thông tin ngữ pháp và lý thuyết cấu trúc phân cấp, đạt độ chính xác Precision 91% với dữ liệu gán nhãn tay và 82% với dữ liệu gán nhãn tự động, nhưng độ Recall chỉ đạt 54% và 27% do hạn chế về số lượng luật Nghiên cứu [7] đề xuất mô hình ngắt nghỉ cho hệ thống tổng hợp tiếng nói dựa trên HMM, sử dụng đặc trưng cây cú pháp thành phần và mô hình phân loại dựa trên cây quyết định, đạt độ chính xác F-score 81% trên bộ dữ liệu VietTreebank.
Mục tiêu và phạm vi đề tài
Mục tiêu của luận văn là nghiên cứu và xây dựng mô hình dự đoán ngắt nghỉ cho hệ thống tổng hợp tiếng nói tiếng Việt, dựa trên công nghệ DNN và End-to-end Các hệ thống này có khả năng dự đoán thời gian ngắt nghỉ dựa trên ngữ cảnh văn bản đầu vào Nhiệm vụ của mô hình là xác định các vị trí ngắt nghỉ phù hợp trong văn bản, nhằm tái hiện giống như cách đọc của người phát thanh viên thực tế Luận văn sẽ tập trung vào giải pháp xử lý văn bản đầu vào để dự đoán chính xác các vị trí ngắt nghỉ cần thiết.
Mô hình ngắt nghỉ được đề xuất nhằm ứng dụng trong các hệ thống dựa trên DNN và hệ thống End-to-end, cần có khả năng hoạt động như một bước tiền xử lý độc lập trước khi tổng hợp giọng nói Để đánh giá chất lượng mô hình, chúng tôi sẽ xây dựng hai hệ thống TTS: một dựa trên DNN và một End-to-end, sau đó tích hợp mô hình ngắt nghỉ để thực hiện các thử nghiệm.
Định hướng giải pháp
Luận văn này trình bày một mô hình dự đoán ngắt nghỉ dựa trên các phương pháp học máy Các hệ thống tổng hợp tiếng nói sử dụng DNN và phương pháp End-to-end cho phép dự đoán độ dài của các đoạn ngắt nghỉ dựa trên ngữ cảnh câu, từ đó nâng cao chất lượng tổng hợp âm thanh.
4 nên nhiệm vụ của mô hình ngắt nghỉ cần xây dựng là chỉ ra các vị trí ngắt nghỉ phù hợp trong câu
Luận văn này nghiên cứu cách xây dựng bộ dữ liệu thông tin để huấn luyện trong bài toán dự đoán ngắt nghỉ, dựa trên văn bản và đoạn âm thanh tương ứng Chúng tôi sẽ thử nghiệm và đề xuất các nhóm đặc trưng từ văn bản đầu vào, như đặc trưng ngữ pháp, từ loại và vị trí trong cây ngữ pháp Các thử nghiệm sẽ được thực hiện trên một mô hình học máy đơn giản và hiệu quả, nhằm đảm bảo quá trình thử nghiệm diễn ra nhanh chóng Sau khi xác định được tập đặc trưng tối ưu, chúng tôi sẽ huấn luyện dữ liệu đó với nhiều loại mô hình học máy khác nhau để tìm ra mô hình có độ chính xác tốt nhất, tập trung vào các mô hình học máy dựa trên cây và thuộc lớp thuật toán boosting vì tính đơn giản và hiệu quả của chúng.
Chúng tôi đã thiết kế và xây dựng hệ thống tổng hợp tiếng nói tiếng Việt dựa trên DNN và End-to-end, sau khi hoàn thiện mô hình ngắt nghỉ Để đảm bảo chất lượng giọng nói tốt nhất, chúng tôi sẽ áp dụng các mô hình hiện đại nhất phù hợp với từng loại hệ thống Các hệ thống này được phát triển độc lập với mô hình ngắt nghỉ, nhằm tạo điều kiện thuận lợi cho quá trình tích hợp.
Bố cục luận văn
Những phần còn lại của luận văn tốt nghiệp này sẽ được tổ chức như sao
Trong CHƯƠNG 2, tôi sẽ trình bày cơ sở lý thuyết cho các đề xuất và thực nghiệm trong luận văn, bắt đầu bằng tổng quan về tiếng nói và công nghệ tổng hợp tiếng nói từ truyền thống đến hiện đại Chương này cũng giới thiệu phương pháp đánh giá độ chính xác trong bài toán, cùng với lý thuyết về hai loại phân tích cú pháp thành phần và phụ thuộc trong tiếng Việt Cuối cùng, chương sẽ giải thích một số thuật toán họ tập hợp và dựa trên cây quyết định.
Chương 3 khám phá ảnh hưởng của phân tích ngữ pháp thành phần đến mô hình ngắt nghỉ trong tiếng Việt, đồng thời đề xuất các giải pháp cho vấn đề phân tích cú pháp thành phần Ngoài ra, chương này còn trình bày các thực nghiệm, so sánh và đánh giá độ chính xác của mô hình phân tích cú pháp thành phần.
CHƯƠNG 4 tập trung vào các bộ dữ liệu tiếng nói được sử dụng trong luận văn, sau đó áp dụng lý thuyết về cú pháp thành phần từ CHƯƠNG 3 để đề xuất mô hình ngắt nghỉ trong tổng hợp tiếng nói tiếng Việt Nhiều loại mô hình học máy và học sâu khác nhau được thử nghiệm nhằm so sánh và đánh giá, từ đó xác định mô hình có chất lượng tốt nhất.
Chương 5 giới thiệu các giải pháp cho việc xây dựng hai loại mô hình tổng hợp tiếng nói chất lượng cao: mô hình tổng hợp tiếng nói dựa trên DNN và mô hình tổng hợp tiếng nói End-to-end Ngoài ra, mô hình tổng hợp tiếng nói dựa trên HMM cũng được áp dụng để thực hiện các thử nghiệm Cuối cùng, chương này trình bày việc triển khai mô hình dự đoán ngắt nghỉ.
Trong bài viết này, chúng tôi sẽ khám phá 5 loại mô hình tổng hợp tiếng nói khác nhau Chúng tôi tiến hành thí nghiệm để đánh giá chất lượng và tác động của mô hình ngắt nghỉ đối với giọng đọc của các hệ thống TTS trong thực tế.
CHƯƠNG 6 sẽ tổng kết nội dung luận văn, đề xuất các hướng hoàn thiện cho mô hình dự đoán ngắt nghỉ đã được trình bày, đồng thời đưa ra những định hướng nghiên cứu và phát triển trong tương lai.
Sau đây, tôi sẽ đi vào trình bày chi tiết từng phần của luận văn
CƠ SỞ LÝ THUYẾT
Tổng hợp tiếng nói
Mặc dù hiện nay tồn tại nhiều kiến trúc hệ thống tổng hợp tiếng nói khác nhau, tất cả đều dựa trên kiến trúc cơ bản được mô tả trong Hình 2.1.
Hình 2.1 Kiến trúc tổng quan hệ thống tổng hợp tiếng nói [7]
Hệ thống TTS cơ bản bao gồm hai phần chính và bốn thành phần nhỏ Ba thành phần đầu tiên là (i) xử lý văn bản, (ii) chuyển đổi văn bản thành âm vị (G2P), và (iii) mô hình âm học, thuộc về phần tổng hợp tiếng nói mức cao hay xử lý ngôn ngữ tự nhiên (NLP) Phần tổng hợp tiếng nói mức thấp, hay xử lý tín hiệu số, là thành phần thứ tư, có nhiệm vụ tổng hợp tiếng nói từ thông tin đầu ra của phần tổng hợp mức cao Đầu vào của hệ thống TTS có thể là văn bản thô hoặc văn bản được gán nhãn, với các nhãn có thể là từ hỗ trợ, âm vị, hoặc phân tích phân đoạn tiếng nói.
Thành phần xử lý văn bản chuyển đổi văn bản thô thành dạng có thể phát âm Thành phần G2P chuyển đổi các ký tự và biểu tượng trong văn bản thành dãy âm vị tương ứng Mô hình âm học bổ sung thông tin về cao độ, trường độ và các tham số âm thanh khác vào dãy âm vị Cuối cùng, thành phần tổng hợp tiếng nói sử dụng các tham số này để tạo ra sóng âm thanh tương ứng, tùy thuộc vào từng loại ứng dụng và mục đích sử dụng khác nhau.
Có thể bỏ qua 7 yếu tố trong kiến trúc tổng hợp tiếng nói, chẳng hạn như thông tin về cao độ và trường độ của âm tiết, vì chúng có thể được đánh dấu trước trong văn bản, giúp hệ thống tổng hợp cải thiện chất lượng âm thanh Hơn nữa, nếu hệ thống không yêu cầu đầu vào là âm vị, thì thành phần chuyển đổi văn bản thành dãy âm vị (G2P) cũng có thể được loại bỏ.
Thành phần xử lý văn bản có vai trò quan trọng trong việc cung cấp thông tin và kiến thức về văn bản hoặc tin nhắn đầu vào Một trong những bước chính của thành phần này là chuẩn hoá văn bản, bao gồm việc chuyển đổi các kí tự đặc biệt, chữ số, ngày tháng, từ viết tắt và các thực thể không phải chữ thành dạng từ có thể đọc được Ngoài ra, thành phần này cũng phân tích khoảng trắng, dấu chấm câu và các dấu phân cách khác để xác định cấu trúc văn bản, từ đó cung cấp ngữ cảnh cho các bước xử lý tiếp theo Cấu trúc văn bản như ngắt câu và phân đoạn có ảnh hưởng trực tiếp đến thành phần phân đoạn tiếng nói Hơn nữa, phân tích cú pháp và ngữ nghĩa phức tạp có thể được thực hiện nếu cần thiết cho các quy trình tiếp theo, như đặc điểm cấu thành cú pháp và ngữ nghĩa của từ, cụm từ và mệnh đề câu.
Thành phần chuyển đổi G2P có nhiệm vụ chuyển đổi biểu diễn kí tự thành âm vị, bao gồm thông tin về trọng âm và thanh điệu, đặc biệt quan trọng đối với ngôn ngữ có thanh điệu như tiếng Việt Mặc dù các hệ thống tổng hợp tiếng nói hiện đại có thể sử dụng văn bản thô mà không cần chuyển đổi âm vị, việc phân định và chuyển đổi G2P cho các từ mới vẫn cần thiết để đảm bảo phát âm chính xác Chuyển đổi G2P có thể đơn giản với những ngôn ngữ có mối quan hệ rõ ràng giữa chính tả và âm vị, và có thể thực hiện bằng tay hoặc qua các quy tắc Việc chuyển đổi chữ cái thành âm thanh có thể được thực hiện thông qua các quy tắc cơ bản và tra cứu từ điển để tạo ra phát âm chính xác cho bất kỳ từ nào.
Mô hình âm học cung cấp thông tin quan trọng về âm thanh cho văn bản và dãy âm vị được phân tích Đầu tiên, văn bản được chia thành các đoạn và gán nhãn cho âm tiết hoặc từ trong từng cụm từ Thời gian (duration) được đo bằng centi-giây (cs) hoặc mili-giây (ms) và có thể được dự đoán bằng mô hình luật như Klatt hoặc các phương pháp học máy như CART Cao độ (pitch), tương ứng với tần số cơ bản (F0), được biểu diễn bằng Hz hoặc âm phân đoạn và có vai trò quan trọng trong nhận thức giai điệu F0 là đặc trưng nổi bật nhất trong các đặc trưng âm học, và việc tạo ra các đường viền cao độ rất phức tạp và phụ thuộc vào ngôn ngữ Cường độ, đo bằng đề-xi-ben (dB), cũng có thể được mô hình hóa, cùng với các đặc trưng âm học khác.
Ngữ điệu không chỉ bị ảnh hưởng bởi nội dung ngôn ngữ mà còn bởi người nói và tâm trạng của họ Các phong cách diễn đạt khác nhau có thể được áp dụng để tạo ra những đặc trưng âm học riêng biệt, thể hiện qua nhiều hình thức khác nhau.
Tổng hợp tiếng nói là thành phần cuối cùng trong quá trình tổng hợp mức thấp, sử dụng các dãy âm vị đã được gán nhãn để tạo ra sóng âm thanh tương ứng Có hai phương pháp chính trong kỹ thuật tổng hợp tiếng nói: (i) Tổng hợp nguồn/bộ lọc, nơi âm thanh được tạo ra hoàn toàn mới từ các mô hình tham số của tiếng nói, và (ii) Tổng hợp ghép nối, trong đó các đoạn âm thanh đã được ghi lại từ giọng nói tự nhiên được ghép nối để tạo thành câu hoàn chỉnh Phương pháp đầu tiên thường gặp khó khăn trong việc tái tạo giọng nói giống như người thật, trong khi phương pháp thứ hai yêu cầu áp dụng các điều chỉnh tín hiệu và thuật toán để đảm bảo âm thanh mượt mà và liên tục, đặc biệt trong các đoạn ghép nối.
Dựa trên hai phương pháp cơ bản, nhiều cải tiến đã được đưa ra để phát triển hệ thống tổng hợp tiếng nói chất lượng cao Bài viết tiếp theo sẽ giới thiệu lý thuyết về ba loại mô hình tổng hợp tiếng nói phổ biến nhất hiện nay.
2.1.2.1 Hệ thống dựa trên HMM
Hình 2.2 Kiến trúc tổng quan hệ thống tổng hợp tiếng nói dựa trên HMM [23]
Trong quá trình phát triển tổng hợp tiếng nói, đã có nhiều kiến trúc và mô hình khác nhau được nghiên cứu nhằm nâng cao chất lượng hệ thống này Luận văn này sẽ tập trung vào việc phân tích và đánh giá các phương pháp hiện có trong lĩnh vực tổng hợp tiếng nói.
Có ba loại hệ thống tổng hợp giọng nói chất lượng cao, bao gồm: (i) hệ thống dựa trên mô hình Markov ẩn (HMM), (ii) hệ thống dựa trên mạng nơ-ron sâu (DNN), và (iii) hệ thống tổng hợp giọng nói End-to-end.
Mô hình tổng hợp giọng nói dựa trên HMM đã có sự phát triển mạnh mẽ trong những thập kỷ qua, nổi bật với nhiều ưu điểm so với các hệ thống trước đó Những lợi ích chính của mô hình này bao gồm khả năng dễ dàng thay đổi các đặc trưng giọng nói, thiết kế mô-đun ngôn ngữ nhỏ gọn, và tính linh hoạt trong việc áp dụng cho nhiều loại ngôn ngữ khác nhau Hệ thống tổng hợp giọng nói HMM bao gồm hai phần chính: Phần huấn luyện và Phần tổng hợp.
Trong phần huấn luyện quang phổ âm thanh, các tham số âm học như trường độ và cao độ sẽ được trích xuất từ một tập audio chuẩn bị sẵn Các thành phần chi tiết của phần huấn luyện này đóng vai trò quan trọng trong việc cải thiện khả năng phân tích âm thanh.
Kho dữ liệu tiếng nói là tập dữ liệu audio đã được chuẩn hóa và lưu trữ dành cho quá trình huấn luyện
Mô hình hoá quang phổ đóng vai trò quan trọng trong việc điều khiển giọng nói tổng hợp thông qua vector đầu ra từ HMM Kỹ thuật phân tích mel-cepstral được áp dụng để xử lý các tín hiệu âm thanh, cho phép tổng hợp lại âm thanh trực tiếp từ các thông số mel-cepstral bằng cách sử dụng bộ lọc MLSA (Mel Log Spectrum Approximation).
Phương pháp đánh giá
Để đánh giá chất lượng mô hình phân loại, luận văn sử dụng các chỉ số như Precision, Recall và F-score Những chỉ số này rất phổ biến và được áp dụng rộng rãi trong các bài toán học máy, đặc biệt trong lĩnh vực phân loại.
Recall, hay còn gọi là giá trị dự đoán positive, là tỉ lệ giữa số lượng dương tính thật (TP) và tổng số dương tính thực tế (RP), phản ánh khả năng dự đoán đúng trên tổng số nhãn đúng Precision là tỉ lệ giữa số dương tính thật (TP) và tổng số nhãn dương tính dự đoán (PP), cho thấy độ chính xác của các dự đoán dương tính Các giá trị dương tính thật và dương tính giả (FP) thể hiện số lần dự đoán dương tính là chính xác hay không.
• 𝐹𝑃: Số lượng dương tính giả
• 𝑇𝑃: Số lượng dương tính thật
• 𝑃𝑃: Số lượng dương tính dự đoán
• 𝑅𝑃: Số lượng dương tính thực tế
Độ chính xác (Precision) của mô hình cho biết thông tin về khả năng dự đoán chính xác, trong khi độ nhạy (Recall) phản ánh tỉ lệ dự đoán bị bỏ sót Một mô hình được coi là chất lượng tốt khi có giá trị cao ở cả hai chỉ số Precision và Recall.
• 𝑏 : 𝑏 > 0 , 𝑏 càng lớn thì độ quan trọng của Precision so với Recall càng nhỏ
- 𝐹 #.% : Precision được coi trọng hơn Recall
- 𝐹 " : Recall được coi trọng hơn Precision
F-score là một chỉ số kết hợp giữa Precision và Recall, với trọng số của cả hai được coi trọng như nhau Được mô tả trong PT 2.3, độ đo này còn được gọi là độ đo F& Trong một số trường hợp đặc biệt, độ đo F! được sử dụng với giá trị b thực không âm, như nêu trong PT 2.4 Ngoài ra, còn có hai độ đo F khác thường gặp trong phân tích.
𝐹 " (trọng số của Recall lớn hơn Precision), và độ đo 𝐹 #.% (trọng số của Precision lớn hơn Recall).
Cây cú pháp tiếng Việt
Ngữ pháp, cấu tạo cú pháp và hình thái học đóng vai trò quan trọng trong việc phân tích và mô tả từ ngữ cũng như cấu trúc câu của một ngôn ngữ thông qua việc thiết lập các quy tắc liên quan Hình thái học tập trung vào nghiên cứu hình thức và cấu trúc của ngôn ngữ, trong khi cú pháp hướng dẫn cách xây dựng câu và sắp xếp các thành phần trong câu một cách hợp lý.
Danh mục ngữ pháp là bước đầu tiên giúp nắm bắt khái quát về từ, bao gồm thông tin từ loại như danh từ, động từ, giới từ và các loại cụm từ như cụm danh từ, cụm động từ, cụm giới từ Từ loại được xem là danh mục từ vựng, trong khi danh mục phi từ vựng đề cập đến loại cụm từ Cấu trúc cú pháp câu chia thành hai loại lớn: cấu trúc ngữ pháp thành phần và ngữ pháp phụ thuộc Cấu trúc ngữ pháp thành phần tập trung vào tổ chức các đơn vị cấu thành câu, còn ngữ pháp phụ thuộc quan tâm đến chức năng và mối quan hệ giữa các thành phần trong câu như chủ ngữ, vị ngữ và tân ngữ.
Danh mục ngữ pháp là bước đầu tiên quan trọng trong việc phân loại từ, giúp ngữ pháp nắm bắt các khái quát Thuật ngữ này không chỉ đề cập đến thông tin từ loại như danh từ, động từ, giới từ, mà còn bao gồm các loại cụm từ như cụm danh từ, cụm động từ và cụm giới từ Các từ loại chính bao gồm danh từ, động từ (V), tính từ (A), trạng từ (R) và giới từ (E) Danh từ có thể được chia thành nhiều loại nhỏ hơn, chẳng hạn như danh từ riêng (Np) và danh từ chung (N) Đại từ cũng có mối quan hệ gần gũi với danh từ, thường hỗ trợ hoặc thay thế cho danh từ trong câu.
Bảng 2.1 Bộ dữ liệu VietTreebank [31]
Tập dữ liệu Số câu Số từ Số âm tiết
Bộ dữ liệu Vietnamese Treebank
VietTreeBank là một bộ dữ liệu quan trọng được phát triển bởi dự án quốc gia VLSP (Xử lý ngôn ngữ và giọng nói tiếng Việt) Bộ dữ liệu này được hình thành qua năm bước chính, bao gồm nghiên cứu và chuẩn bị bản.
VietTreeBank là một trong những bộ dữ liệu nổi tiếng nhất trong lĩnh vực xử lý ngôn ngữ tự nhiên tiếng Việt, được xây dựng qua 15 hướng dẫn, bao gồm việc phát triển công cụ, thu thập dữ liệu văn bản thô từ báo Tuổi Trẻ, và gán nhãn cho các chủ đề liên quan đến xã hội và chính trị.
Tập dữ liệu gán nhãn từ loại
Trong VietTreebank, thứ tự từ tiếng Việt rất cố định, phản ánh cấu trúc cú pháp qua ba mức độ gán nhãn: tách từ, gán nhãn từ loại và gán nhãn cú pháp Tách từ giúp xác định ranh giới giữa các từ trong câu, trong khi gán nhãn từ loại chỉ ra loại từ phù hợp cho từng từ Gán nhãn cú pháp nhận diện các nhãn cấu trúc thành phần và chức năng Theo Bảng 2.1, kích thước của hai bộ dữ liệu trong VietTreebank bao gồm 10,368 câu được gán nhãn từ loại và 9,633 câu được gán nhãn cú pháp.
Trong luận văn này, tôi áp dụng tập nhãn từ loại tiếng Việt theo nghiên cứu tại [32], như được trình bày trong Bảng 2.2 Tập nhãn này được thiết kế nhằm mục đích gán nhãn cho tập dữ liệu Vietnamese treebank [31].
Bảng 2.2 Tập dữ liệu gán nhãn từ loại tiếng Việt
STT Loại Mô tả STT Loại Mô tả
1 Np Danh từ riêng 10 M Số từ
2 Nc Loại từ 11 E Giới từ
3 N Danh từ chung 12 C Liên từ phụ thuộc
4 P Đại từ 13 CC Liên từ kết hợp
5 Nu Danh từ đơn vị 14 I Thán từ
7 A Tính từ 16 Y Từ viết tắt
8 R Trạng từ 17 Z Hình thái từ
9 L Từ hạn định 18 X Không biết
Trong tiếng Việt, từ vựng chính bao gồm danh từ (gồm danh từ chung, danh từ riêng, danh từ đơn bị, và đại từ), động từ, tính từ, trạng từ, và giới từ Danh từ riêng có thể là tên riêng như "Quảng Ninh" hay từ vay mượn như "Luân-Đôn" Danh từ chung chỉ các thực thể duy nhất như "ghế" hay "chó" Ngoài ra, tiếng Việt còn có loại từ, một đặc điểm nổi bật trong các ngôn ngữ châu Á, đóng vai trò quan trọng trong các cụm danh từ nhưng không ảnh hưởng đến ý nghĩa của chúng Các loại từ này giúp phân loại các tham chiếu trong ngữ cảnh.
Trong tiếng Việt, danh từ thường dựa trên các thuộc tính như hình dạng và chức năng, và bắt buộc phải đi kèm với loại từ, điều này khác biệt so với các ngôn ngữ châu Âu Các loại từ trong tiếng Việt không có ý nghĩa khi đứng độc lập Tiếng Việt sở hữu một hệ thống loại từ phức tạp, với ví dụ điển hình là trong tiếng Anh, danh từ cần chọn giữa số ít và số nhiều, trong khi danh từ tiếng Việt không thay đổi hình thái và không có dấu hiệu nhận biết số lượng Hai loại từ phổ biến nhất trong tiếng Việt là “con” cho vật thể động và vật không phải con người.
“cái” (dùng cho các vật thể vô tri) [34]
Các danh từ thường kết hợp với các từ hạn định như "mấy cái chìa khóa", "nhiều cửa sổ", "những ngôi nhà", "chút tiền", hoặc với các số từ.
“ba chiếc kẹo” Đại từ trong tiếng Việt có thể thay thế cho danh từ, ví dụ “đó”,
Các đại từ như “đấy”, “ấy”, “kia”, “đây”, “này” và danh từ chỉ người ngôi thứ nhất và thứ hai rất phức tạp, phụ thuộc vào mối quan hệ, giới tính và tuổi tác giữa người nói và người nghe Ví dụ, cặp danh từ “I-you” trong tiếng Anh có thể tương ứng với “tôi-bạn” trong quan hệ bình thường, “mẹ-con” giữa mẹ và con, hay “ông-cháu” giữa ông và cháu Giới tính và tuổi tác ảnh hưởng lớn đến việc lựa chọn danh từ cho người ngôi thứ hai, như “chị” cho phụ nữ lớn tuổi hơn, “cô” cho phụ nữ lớn tuổi hơn nhiều, và “bà” cho phụ nữ lớn tuổi hơn rất nhiều.
Trong tiếng Việt, các danh từ chỉ giới tính nam bao gồm "anh", "chú" và "ông" Ngoài ra, còn có các danh từ đơn vị để chỉ các đơn vị đo lường như "phút", "đề-xi-mét", "km/h",
Hình thái từ (Z) đại diện cho các âm tiết không xuất hiện độc lập mà chỉ là thành phần của từ ghép, thường được áp dụng để xử lý các trường hợp phân đoạn không chính xác trong dữ liệu.
Hai loại cấu trúc cú pháp câu phổ biến nhất là cấu trúc ngữ pháp thành phần và ngữ pháp phụ thuộc, mỗi loại mang ý nghĩa và cách xây dựng riêng biệt.
Phân tích cú pháp thành phần
Câu không chỉ là một chuỗi từ đơn giản, mà các từ trong câu có mối quan hệ khác nhau với nhau Các từ có thể được nhóm thành các đơn vị ngữ pháp với độ dài khác nhau, trong đó mệnh đề là đơn vị quan trọng nhất, có khả năng diễn đạt một ý nghĩa hoàn chỉnh Một câu có thể bao gồm một hoặc nhiều mệnh đề, và mỗi mệnh đề có thể chứa nhiều cụm từ Cụm từ có thể bao gồm một hoặc nhiều từ, và một câu được cấu thành từ các thành phần ngữ pháp nhỏ hơn như mệnh đề và cụm từ Mặc dù có giới hạn về các loại đơn vị ngữ pháp, nhưng chúng vẫn đủ để sử dụng cho nhiều ngôn ngữ khác nhau.
Mô hình phân loại họ tập hợp và dựa trên cây quyết định
Luận văn này tập trung vào việc sử dụng các thuật toán phân loại có giám sát, đặc biệt là các thuật toán thuộc họ tập hợp và dựa trên cây quyết định Bộ phân loại tiếp nhận dữ liệu để học và dự đoán phân lớp của các mẫu dữ liệu mới Các thuật toán họ tập hợp, mặc dù đơn giản, nhưng rất hiệu quả trong việc kết hợp các đơn vị phân loại yếu thành một bộ phân loại mạnh mẽ hơn.
C4.5 là phiên bản nâng cấp của thuật toán học máy cây quyết định, được phát triển dựa trên nghiên cứu của thuật toán ID3 Thuật toán C4.5 nổi bật với khả năng phân lớp dữ liệu hiệu quả và được sử dụng rộng rãi trong các ứng dụng khai thác dữ liệu.
C4.5 là thuật toán phù hợp cho các cơ sở dữ liệu nhỏ do sử dụng cơ chế lưu trữ dữ liệu trong bộ nhớ Đặc điểm này khiến C4.5 không thích hợp với các cơ sở dữ liệu lớn, đồng thời yêu cầu sắp xếp lại dữ liệu tại mỗi nút trong quá trình phát triển cây quyết định Ngoài ra, C4.5 còn cung cấp kỹ thuật biểu diễn cây quyết định dưới dạng danh sách các luật if-then, giúp giảm kích thước tập luật và đơn giản hóa các quy tắc mà vẫn đảm bảo độ chính xác tương đương với cây quyết định gốc.
2.4.2 Thuật toán Rừng ngẫu nhiên (RandomForest)
Thuật toán rừng ngẫu nhiên được phát triển dựa trên cây quyết định, bao gồm nhiều cây quyết định được huấn luyện trên các phần dữ liệu và thuộc tính khác nhau, tạo ra cái nhìn khách quan cho từng cây Khi dự đoán, các cây này hoạt động độc lập và song song, và kết quả cuối cùng là sự đồng thuận từ số đông trong tập hợp cây quyết định Phương pháp này giúp rừng ngẫu nhiên trở thành một trong những mô hình phân loại hiệu quả nhất, giảm thiểu nguy cơ quá khớp với dữ liệu huấn luyện và mang lại độ chính xác cao trong dự đoán Thêm vào đó, rừng ngẫu nhiên có tốc độ huấn luyện nhanh nhờ vào việc các cây quyết định con được huấn luyện hoàn toàn song song.
AdaBoost là một thuật toán boosting dùng để xây dựng bộ phân loại lớp bằng cách kết hợp nhiều mô hình học yếu, như cây quyết định một cấp, nhằm tạo ra một mô hình học mạnh với độ chính xác cao Thuật toán này thực hiện huấn luyện theo tuần tự, bắt đầu với các mô hình học yếu và đánh giá độ chính xác của chúng trên bộ dữ liệu Các mẫu dữ liệu bị dự đoán sai sẽ được lưu lại và tăng trọng số để nâng cao khả năng học lại trong các lần huấn luyện tiếp theo Đồng thời, các mô hình học yếu có độ chính xác cao cũng được đánh trọng số dựa trên hiệu suất của chúng Kết quả là một mô hình phân loại có độ chính xác tốt nhất cho bộ dữ liệu.
2.4.4 Thuật toán XGBoost và thuật toán LightGBM
Thuật toán XGBoost và LightGBM được xây dựng dựa trên nguyên lý của Gradient boosting, kết hợp hai phương pháp Boosting và Gradient descent Cả hai đều nhằm cải thiện hiệu suất thông qua việc tối ưu hóa trong không gian hàm số Tuy nhiên, XGBoost nổi bật nhờ ba yếu tố chính: (i) các kỹ thuật ngăn ngừa quá khớp như trích xuất tập con, tách cột theo mức và áp dụng chuẩn hóa L1 và L2, (ii) khả năng tối ưu hóa tài nguyên hệ thống, và (iii) hiệu suất tính toán ấn tượng.
LightGBM là một thuật toán tiên tiến giúp tối ưu hóa quá trình huấn luyện với các bộ dữ liệu lớn và đa chiều Nó áp dụng hai kỹ thuật chính: trích xuất một chiều dựa trên Gradient để giảm số lượng dữ liệu và kết tập đặc trưng để giảm chiều của dữ liệu Điều này cho phép thực hiện tính toán song song trên CPU/GPU, phân tán trên nhiều máy chủ, và tối ưu hóa lưu trữ nhằm tăng tốc huấn luyện Ngoài ra, LightGBM còn có khả năng xử lý thiếu sót dữ liệu huấn luyện và tiếp tục huấn luyện từ mô hình đã xây dựng trước đó, giúp tiết kiệm thời gian và tài nguyên.
Kỹ thuật Trích xuất một chiều dựa trên Gradient (GOSS) giúp giảm số lượng dữ liệu trong tập dữ liệu bằng cách ưu tiên giữ lại các mẫu có gradient lớn, vì chúng đóng góp nhiều hơn vào lượng thông tin được giữ lại Trong giải thuật GBDT thông thường, các mẫu không có trọng số khiến việc đánh giá mức độ quan trọng của từng mẫu trở nên khó khăn Do đó, GOSS loại bỏ ngẫu nhiên một số mẫu có gradient nhỏ để tối ưu hóa thông tin trong quá trình tính toán.
GOSS (Gradient One-Side Sampling) là phương pháp đầu tiên sắp xếp các mẫu theo gradient và chọn ra những mẫu có gradient cao, đồng thời ngẫu nhiên chọn các mẫu có gradient thấp Sau đó, phương pháp này khuếch đại tập dữ liệu với các mẫu gradient thấp bằng cách nhân với một hằng số, nhằm giữ lại lượng thông tin cần thiết mà không làm thay đổi đáng kể phân phối của tập dữ liệu gốc.
Kết tập đặc trưng là một kỹ thuật hữu ích để giảm số chiều của dữ liệu, đặc biệt hiệu quả với dữ liệu thưa và có số chiều lớn Trong không gian dữ liệu thưa, một số đặc trưng có tính chất loại trừ nhau, nghĩa là chúng hiếm khi cùng nhận giá trị 0 đồng thời, như trong trường hợp đặc trưng véc-tơ từ nhị phân trong khai phá văn bản.
Chúng ta có thể kết hợp các đặc trưng bằng cách giải quyết bài toán tô màu đồ thị, trong đó các đặc trưng được coi như những đỉnh và các cạnh được thêm vào giữa hai đặc trưng nếu chúng không loại trừ lẫn nhau Bài toán này có thể được giải quyết thông qua một thuật toán tham lam với tỷ lệ xấp xỉ không đổi.
Dữ liệu có số chiều lớn thường rất thưa, và sự thưa thớt này cho phép chúng ta áp dụng các phương pháp giảm số lượng đặc trưng mà không mất mát nhiều thông tin Chúng ta có thể kết hợp các đặc trưng tương tự lại thành một đặc trưng duy nhất Bằng cách sử dụng thuật toán được thiết kế cẩn thận để quét các đặc trưng, thuật toán này xây dựng histogram từ các đặc trưng giống nhau, biến chúng thành các đơn vị riêng lẻ Phương pháp này giúp giảm chi phí tính toán từ O(#dữ liệu × #đặc trưng) xuống O(#dữ liệu × #kết tập), trong đó #kết tập nhỏ hơn nhiều so với #đặc trưng.
Trong mô hình, có hai vấn đề chính cần giải quyết: xác định các đặc trưng nào sẽ được kết tập và cách xây dựng các kết tập Theo LightGBM, bài toán phân chia các đặc trưng thành một số lượng nhỏ hơn của các kết tập được chứng minh là NP-khó Điều này cho thấy việc xác định các đặc trưng kết tập cùng nhau là một thách thức lớn, và việc tìm ra chiến lược tối ưu cho vấn đề này cũng thuộc loại NP-khó.
Để giải quyết bài toán tối ưu trong việc bó các đặc trưng, chúng ta cần chuyển đổi nó thành bài toán tô màu đồ thị, trong đó các đặc trưng được coi là các đỉnh và thêm các cạnh nếu chúng không loại trừ lẫn nhau Sử dụng thuật toán tham lam giúp tạo ra kết quả xấp xỉ tốt với tỉ lệ không đổi Sau khi xác định các đặc trưng cần kết tập, việc gộp chúng lại một cách tối ưu là cần thiết để giảm độ phức tạp trong quá trình huấn luyện Quan trọng là đảm bảo rằng giá trị trong đặc trưng gốc có thể xác định từ các đặc trưng đã được kết tập Bằng cách thêm các giá trị cộng vào các đặc trưng không loại trừ nhau, ta có thể xây dựng một tập đặc trưng hiệu quả Ví dụ, nếu đặc trưng A có giá trị từ [0,10) và B từ [0,20), việc thêm 10 vào tất cả giá trị của B sẽ tạo ra một kết tập mới từ [0,30] thay thế cho A và B.