CƠ SỞ LÝ THUYẾT VÀ CÁC CÔNG TRÌNH NGHIÊN CỨU 1 1.1 Gi ới thiệu chung
Sơ bộ nghiên cứu về các phương pháp truyền thống
Tổng hợp bằng ghép nối là phương pháp lựa chọn âm vị từ bộ từ điển và kết hợp chúng để tạo thành từ, câu Phương pháp này giúp tạo ra các tín hiệu ngôn ngữ một cách linh hoạt và hiệu quả.
Phương pháp tổng hợp âm thanh từ các đoạn giọng nói đã được thu âm trước đó sử dụng thuật toán ghép nối để cắt và ghép các đơn vị thành phần theo văn bản yêu cầu Tuy nhiên, phương pháp này gặp phải nhược điểm là sự không đồng nhất về âm lượng, ngắt nghỉ và cảm xúc giữa các thành phần trong câu Hơn nữa, nó chỉ có thể áp dụng cho một giọng nói cụ thể và yêu cầu kích thước lưu trữ lớn do lượng từ vựng phong phú.
Phương pháp mô phỏng bộ máy phát âm nhằm xây dựng mô hình chi tiết hệ thống phát âm của con người, bao gồm tất cả các thành phần và cách tạo ra tiếng nói Chất lượng tiếng nói phụ thuộc vào sự thành công của mô phỏng này, nhưng việc thực hiện rất khó khăn do cấu trúc hệ thống phát âm của con người rất phức tạp.
Phương pháp tổng hợp tần số Formant hay còn gọi là tổng hợp Formant
Tổng hợp tiếng nói dựa trên lý thuyết mô hình nguồn lọc là kỹ thuật cơ bản nhất, coi bộ máy phát âm của con người như một tập hợp các bộ lọc kết hợp Phương pháp này không cần mẫu giọng thật, với HMM (Hidden Markov Model) là phương pháp phổ biến nhất tại Việt Nam trước năm 2018 Nhiều nghiên cứu đã được thực hiện, như HMM-based cho tiếng Việt và nghiên cứu của Lương Chi Mai về tổng hợp tiếng nói bằng HMM, cũng như các yếu tố ảnh hưởng như MFCC và F0 HMM mô phỏng đồng thời tần số cơ bản, phổ và thời gian giọng nói, giúp tiết kiệm bộ nhớ và tài nguyên hệ thống, đồng thời cho phép điều chỉnh ngữ điệu Tuy nhiên, độ tự nhiên của tiếng nói tổng hợp vẫn kém hơn so với phương pháp tổng hợp ghép nối, dẫn đến âm thanh tổng hợp không tự nhiên.
Trước đây, các hệ thống tổng hợp tiếng nói thường xuyên sử dụng WaveNet
Trong nghiên cứu về WaveNet, tác giả đã chứng minh rằng mô hình này có khả năng dự đoán mẫu âm thanh dựa trên các mẫu trước đó, với hiệu suất hoạt động ấn tượng trên dữ liệu đạt 10,000 mẫu mỗi giây Được phát triển bởi NVIDIA, WaveNet cho phép tạo ra âm thanh với đặc trưng phong phú từ nhiều giọng nói và ngôn ngữ khác nhau Việc lập trình bằng ngôn ngữ Torch và huấn luyện trên phần cứng NVIDIA A100 hoặc P40 sẽ mang lại lợi thế tối ưu hóa cho các nhà sản xuất.
Năm 2018, tức là sau 1 năm ra mắt WaveNet, NVIDIA đã giới thiệu
WaveGlow là một mạng dựa trên luồng, có khả năng tạo ra giọng nói chất lượng cao từ quang phổ mel Nó kết hợp công nghệ Glow và WaveNet để sản sinh âm thanh chất lượng tốt hơn với yêu cầu tính toán thấp hơn nhờ vào việc giảm bớt kiến trúc mạng và số lượng tham số mô hình WaveGlow chỉ sử dụng một mạng duy nhất và được huấn luyện với một hàm chi phí duy nhất, giúp cải thiện độ phức tạp trong tính toán và lưu trữ.
1.2.3 T ổng hợp tiếng Việt có cảm xúc
Trong giao tiếp, cảm xúc được thể hiện qua nhiều yếu tố như cử chỉ, hành động và biểu cảm khuôn mặt Tuy nhiên, nghiên cứu này chỉ tập trung vào khả năng biểu đạt cảm xúc thông qua tiếng nói Nhiều tham số của tiếng nói, bao gồm đường bao phổ, thời gian phát âm, âm lượng, cấu trúc năng lượng phổ và chất lượng âm thanh, đều có ảnh hưởng trực tiếp đến cảm xúc trong ngôn ngữ.
Hiện nay, nghiên cứu về tổng hợp tiếng Việt giọng bình thường đã đạt được nhiều thành tựu với chất lượng âm thanh gần gũi với tiếng nói tự nhiên Tuy nhiên, các hệ thống tổng hợp tiếng Việt có cảm xúc vẫn còn hạn chế về số lượng công trình công bố Một số nghiên cứu đã kết hợp thông tin từ các nguồn bên ngoài như hình ảnh biểu cảm khuôn mặt và cử chỉ, điển hình là thử nghiệm mô hình hóa ngôn điệu tiếng Việt với ngữ liệu đa thể thức để tổng hợp tiếng Việt biểu cảm.
Nghiên cứu này tập trung vào sự tương tác giữa con người và nhân vật ảo, thu thập dữ liệu từ 19 câu khác nhau thể hiện 5 cảm xúc: bình thường, vui, buồn, hơi giận và rất giận, với sự thể hiện từ cả giọng nam và giọng nữ.
Trong khuôn khổ đề tài nghiên cứu “Xây dựng bộ ngữ liệu cảm xúc tiếng
Nhóm nghiên cứu từ Trường Đại học Bách Khoa Hà Nội, gồm các thầy/cô Lê Xuân Thành, Đặng Thị Thủy, Trịnh Văn Loan và Nguyễn Hồng Quang, đã công bố bài báo “Cảm xúc trong tiếng nói và phân tích thống kê ngữ liệu cảm xúc tiếng Việt” Bài báo giới thiệu bộ ngữ liệu BKEmo, thể hiện sự đa dạng về cảm xúc và số lượng người nói Đồng thời, nghiên cứu cũng trình bày các tham số đặc trưng như tần số cơ bản F0 và năng lượng tiếng nói, cũng như phân tích thống kê sự khác biệt của các cảm xúc dựa trên các tham số này.
Các nghiên c ứu trên thế giới
Mô hình Markov ẩn đã đóng vai trò quan trọng trong những thành công ban đầu của tổng hợp tiếng nói Hệ thống này cho phép tổng hợp âm thanh với cảm xúc mong muốn thông qua việc nội suy mô hình hoặc bằng cách tổng hợp các cụm biểu thức không được giám sát trong quá trình huấn luyện.
Mô hình mạng neural đã trở thành nền tảng cho sự phát triển của trí tuệ nhân tạo, đặc biệt trong lĩnh vực tổng hợp tiếng nói Các hệ thống mới này dần thay thế các nghiên cứu truyền thống dựa trên mô hình Markov ẩn, với WaveNet là mô hình tiên phong Tiếp theo là các mô hình thống kê sử dụng mạng neural như DeepVoice và DeepVoice 2 Giai đoạn tiếp theo là xây dựng mô hình end-to-end, cho phép chuyển đổi trực tiếp từ nội dung văn bản thành âm thanh dạng sóng mà không cần giai đoạn trung gian Một số hệ thống nổi bật trong giai đoạn này bao gồm Tacotron, Deep Voice 3 và FastSpeech, nổi bật với âm thanh chất lượng cao, dễ hiểu và tự nhiên, gần giống với giọng nói con người Hơn nữa, quy trình tiền xử lý trong các hệ thống này cũng đơn giản hơn so với các phương pháp truyền thống.
1.3.2 T ổng hợp tiếng nói có cảm xúc
Sự phát triển của học sâu đã cải thiện đáng kể nghiên cứu về tổng hợp tiếng nói, vượt trội hơn so với phương pháp mô hình Markov truyền thống trong việc biến đổi cảm xúc Các nhà nghiên cứu Trung Quốc đã tiên phong trong việc đề xuất phương pháp tổng hợp tiếng nói bán giám sát mã hóa các vector phong cách toàn cục (GST), nhằm điều chỉnh dữ liệu mang tính cảm xúc Nhiều nghiên cứu xung quanh GST đã được thực hiện, như [18], [19], [20].
Các nghiên cứu gần đây đã kết hợp các framework như Tacotron và Tacotron2 với Style Token để biểu diễn cảm xúc trong tổng hợp tiếng nói Một nghiên cứu cho thấy chỉ cần 5% dữ liệu huấn luyện có cảm xúc vẫn đạt hiệu suất ghi nhận gần bằng mô hình sử dụng toàn bộ nhãn cảm xúc Nghiên cứu khác đã sử dụng giọng nói của một nghệ sĩ nữ Hàn Quốc với 4 cảm xúc: vui, buồn, tức giận và bình thường, với tổng cộng 2668 câu cho huấn luyện và 288 câu cho kiểm thử WaveNet được sử dụng làm vocoder để tạo âm thanh dạng sóng từ phổ trên thang đo mel Kết quả đánh giá chủ quan từ 10 người Hàn Quốc cho thấy âm thanh đạt chất lượng tốt trong nghiên cứu.
Bảng 1-1 Thang đo MOS của hệ thống GST-Tacotron2 trên ngôn ngữ Hàn quốc
1.3.2.2 Mã hoá Style Token b ằng biểu diễn tiềm ẩn (Latent representation)
Building on the promising results of the voice synthesis model with Global Style Token (GST), the study "Learning latent representations for style control and transfer in end-to-end speech synthesis" introduces a method for feature representation of style, applied in emotion control and transformation To learn the latent representations of speaker style, the authors propose utilizing a Variational AutoEncoder (VAE) model These latent representations are then integrated into the Tacotron2 architecture for enhanced speech synthesis.
Trong nghiên cứu này, các hệ thống tổng hợp tiếng nói sử dụng WaveNet Vocoder để tái tạo âm thanh từ mel-spectrogram Một vấn đề quan trọng trong kiến trúc VAE là hiện tượng sụp đổ phân kỳ Kullback-Leibler (KL), khi hàm mất mát KL hội tụ nhanh chóng về 0 Để khắc phục điều này, tác giả đã áp dụng phương pháp cộng thêm giá trị trọng số vào KL, bắt đầu từ 0 và tăng dần trong quá trình huấn luyện, cũng như tính lại giá trị hàm mất mát sau một số bước huấn luyện nhất định Mô hình đề xuất có những phần tương tự như nghiên cứu trước đó, nhưng bổ sung hai lớp Fully Connected với hàm tuyến tính sau phần Reference Encoder để tính toán giá trị trung bình và phương sai của biến tiềm ẩn z Giá trị z, thuộc miền phân phối Gaussian, được suy ra thông qua thủ thuật “reparameterization” và kết hợp với nội dung văn bản trước khi đưa vào bộ mã hóa của kiến trúc Tacotron2.
Trong phần thực nghiệm, tác giả đã sử dụng bộ dữ liệu Blizzard Challenge 2013 với 105 giờ dữ liệu từ một giọng người Anh, bao gồm 58453 câu cho huấn luyện và 200 câu cho kiểm thử Giá trị K bắt đầu từ 100 trong 15000 bước huấn luyện đầu tiên và sau đó tăng lên 4000 Để đánh giá hiệu năng của mô hình, tác giả đã vẽ biểu đồ phổ mel của ba câu mẫu do người thật thực hiện và so sánh với ba câu tổng hợp có cùng nội dung, cho thấy sự tương đồng giữa các cặp biểu đồ ở cả ba phong cách nói khác nhau Ngoài ra, tác giả cũng thực hiện thử nghiệm với tham số ABX trên 60 câu ngẫu nhiên từ tập kiểm thử, bao gồm cả biến đổi song song và không song song.
GST là yếu tố quan trọng để tiến hành so sánh Trong quá trình kiểm thử song song, có 56 người tham gia đánh giá, trong khi phần còn lại có 57 người Tiêu chí đánh giá được lựa chọn nhằm xác định giọng nói gần gũi nhất với giọng mẫu.
GST win Neutral New model win
Bảng 1-2 Tham số ABX giữa mô hình GST và mô hình đề xuất
Kết quả đã chứng minh kết quả tốt của mô hình đề xuất
1.3.2.3 Ki ểm soát, biến đổi phong cách bằng các mã phong cách
Tháng 3 năm 2018, Yuxuan Wang và các công sự đã công bố nghiên cứu
“Style Token: Unsupervised Style Modeling, Control and Transfer in End-to-end
Nghiên cứu về "Speech Synthesis" giới thiệu khái niệm "global style tokens", một nhóm embedding được huấn luyện cùng với Tacotron, mô hình tổng hợp tiếng nói tiên tiến Mục tiêu là để thêm yếu tố biểu diễn cảm xúc, giúp kiểm soát và biến đổi âm thanh Các embedding này không được gán nhãn prosody cụ thể mà học cách mô hình hóa nhiều biểu diễn âm thanh khác nhau Kiến trúc mô hình bao gồm Tacotron để dự đoán phổ mel từ âm vị, tiếp theo là Vocoder WaveNet chuyển đổi phổ mel thành âm thanh Tác giả cũng bổ sung ba phần mới: reference encoder, style attention và style embedding Reference encoder nén prosody của âm thanh thành vector cố định gọi là reference embedding, được sử dụng trong lớp Style Token để học sự tương tự với các Global Style Token (GST) ngẫu nhiên Đầu ra từ module Attention là trọng số đại diện cho sự đóng góp của từng mã phong cách, được điều chỉnh qua bộ mã hóa văn bản Lớp Style Token được huấn luyện đồng thời với mô hình, sử dụng hàm mất mát chung với bộ giải mã trong Tacotron, do đó GST không cần đánh nhãn rõ ràng về phong cách hay cảm xúc.
Bài viết đề cập đến hai phương pháp điều chỉnh token trong việc tổng hợp âm thanh Phương pháp đầu tiên điều chỉnh trực tiếp trên bộ mã hóa văn bản thông qua việc thay đổi trọng số, trong khi phương pháp thứ hai cho phép tác giả truyền vào mô hình các mẫu âm thanh mang cảm xúc và phong cách mà không cần nội dung trùng lặp Tác giả đã sử dụng 147 giờ dữ liệu sách nói thu từ diễn viên Catherine Byers trong 2013 Blizzard Challenge để thực hiện các thí nghiệm chuyển đổi phong cách, bao gồm chuyển đổi phong cách song song và không song song Trong chuyển đổi phong cách song song, nội dung câu âm thanh mẫu và câu khởi tạo giống nhau, cho phép so sánh trực quan các kết quả từ mô hình Tacotron và các phương pháp điều chỉnh khác Ngược lại, trong chuyển đổi phong cách không song song, hệ thống tổng hợp câu văn bản từ một câu âm thanh mẫu duy nhất, với các câu mẫu khác nhau được kiểm tra để đánh giá mức độ sao chép phong cách Kết quả đánh giá chủ quan được so sánh với cơ sở Tacotron, với P-value được cung cấp cho cả hệ thống xếp hạng 3-điểm và 7-điểm.
Base Neutral GST 3-Point 7-Point Signal A 32.9 26.5 40.6 p=0.0552 p=0.0131
Bảng 1-3 Subject preference (%) và p-values của GST với Tacotron làm cơ sở
1.3.2.4 Bi ến đổi Prosody để biến đổi cảm xúc trong câu tổng hợp
Đầu vào hệ thống chỉ với văn bản đơn giản không đủ để tạo ra những câu nói có cảm xúc mạnh mẽ Nhiều yếu tố khác nhau ảnh hưởng đến khả năng biểu đạt cảm xúc trong ngôn ngữ.
Cảm xúc trong câu nói không thể hoàn toàn gán nhãn chỉ bằng ngữ điệu, trọng âm, nhịp điệu và phong cách của người nói Tất cả những yếu tố này đều góp phần tạo nên ý nghĩa và cảm nhận của lời nói.
The study evaluates various voice models, focusing on subjective assessments and performance metrics For single-speaker scenarios, the baseline model achieved a score of 10.63 with a 53.20% success rate, while the tanh-128 model recorded a score of 7.92 and a 28.10% success rate When tested with unseen speakers, the baseline model scored 11.22 (59.60%), and the tanh-128 model scored 8.89 (38.00%) In multi-speaker scenarios, the baseline model reached a score of 9.93 (48.50%) for the same speaker, while the tanh-128 model scored 6.99 (27.50%) The baseline model for unseen speakers scored 11.84 (60.00%), compared to 10.87 (41.30%) for the tanh-128 model Overall, the results indicate varying effectiveness between baseline and tanh-128 models across different speaker conditions.
Bảng 1-4 Tổng hợp điểm số đánh giá chủ quan và khách quan của mô hình đề xuất với mô hình cơ bản
1.3.2.5 S ử dụng mô hình hình nhận dạng tiếng nói được huấn luyện trước
Mô hình biểu diễn cảm xúc bằng vector one-hot gặp phải một số hạn chế, như không thể xử lý các cảm xúc chưa thấy trong dữ liệu huấn luyện Ngoài ra, các vector one-hot thường thiếu thông tin hữu ích cho mô hình Để khắc phục điều này, nhóm tác giả nghiên cứu “Seen and unseen emotional style transfer for voice conversion with a new emotional speech dataset” đã đề xuất một kiến trúc mô hình mới, sử dụng mô hình đã được huấn luyện sẵn để tái hiện các thuộc tính cảm xúc trong không gian khác Nghiên cứu này, được gọi tắt là DeepEST, bao gồm ba phần chính.
Tác giả đề xuất sử dụng mô hình nhận dạng cảm xúc giọng nói (SER) đã được huấn luyện trước với bộ dữ liệu lớn và công khai, giúp mô hình hóa cảm xúc trong các câu đầu vào Kiến trúc dựa trên framework VAW-GAN được sử dụng làm nền tảng so sánh trong các thí nghiệm Cuối cùng, tác giả giới thiệu bộ dữ liệu mới mang tên ESD, là bộ dữ liệu đa ngôn ngữ với tiếng Anh và tiếng Mandarin, bao gồm 10 người nói cho mỗi cảm xúc, trong đó 50% là giọng nam và 50% là giọng nữ Mạng DeepEST được cấu thành từ hai phần khác nhau.
Các nghiên c ứu đã công bố trong tiếng Việt
1.4.1 HMM-based TTS for hanoi Vietnamese: Issues in design and evaluation
Trong nghiên cứu này, trung tâm MICA thuộc Trường Đại học Bách Khoa Hà Nội, do cô Nguyễn Thị Thu Trang dẫn dắt, đã giới thiệu hệ thống TTS dựa trên HMM cho giọng miền Bắc, một ngôn ngữ có thanh điệu Bài báo phân tích sâu sắc đặc điểm ngữ âm của giọng Hà Nội Hệ thống VTed được phát triển dựa trên nền tảng MaryTTS, tuy nhiên, kết quả nghiên cứu chưa đạt được sự nổi bật về độ tự nhiên, độ chính xác và khả năng phát âm.
Nghiên cứu về 12 mức độ rõ ràng của giai điệu và thang đo MOS đã sử dụng bộ VNSpeechCorpus cho toàn bộ quá trình huấn luyện và kiểm thử Bộ kiểm thử gồm 48 câu, chiếm 8% tổng số, đã được đánh giá bởi nhiều người trẻ trong độ tuổi 20.
Bảng kết quả so sánh thang đo MOS
Bảng 1-7 Thang đo MOS của âm thanh tự nhiên, HMM-Vted và NUUS-HoaSung
Bảng so sánh mức độ dễ hiểu của âm thanh
Bảng 1-8 Bảng so sánh mức độ dễ hiểu giữa hệ thống VTed và âm thanh tự nhiên
1.4.2 Development of Vietnamese Speech Synthesis System using Deep Neural Networks
Hệ thống tổng hợp tiếng Việt dựa trên mạng neural sâu được phát triển bởi kỹ sư Viettel đã giành giải nhất tại hội nghị VLSP 2018, nổi bật với ba tiêu chí: tính tự nhiên, khả năng hiểu và điểm số trên thang đo MOS Nghiên cứu này đã mở ra hướng đi mới với chất lượng vượt trội so với các phương pháp truyền thống, đặc biệt là mô hình Markov ẩn Nhờ vào các phương pháp tiền xử lý dữ liệu, mô hình này mang lại hiệu quả rõ rệt trong việc tổng hợp tiếng Việt.
Hệ thống của nhóm kỹ sư Viettel bao gồm 5 phần chính:
Chuẩn hóa văn bản là quá trình chuyển đổi văn bản thành dạng có thể đọc được, bao gồm sửa lỗi chính tả, giải thích các từ viết tắt và chuyển đổi số thành chữ Sau khi văn bản được chuẩn hóa, module sẽ thực hiện trích xuất các đặc trưng ngôn ngữ, bao gồm thông tin về đơn vị âm, vị trí đơn âm vị trong âm tiết, vị trí âm tiết trong từ và vị trí của từ trong câu.
Mô hình thời lượng: Mô hình được sử dụng để ước lượng timestamp cho mỗi âm vị Mạng DNN được sử dụng cho việc ánh xạ này
Mô hình âm thanh, hay còn gọi là Vocoder, là một công nghệ chuyển đổi các đặc tính âm thanh thành tín hiệu tiếng nói.
Hệ thống sử dụng bộ dữ liệu gồm 7 giờ từ trang báo trực tuyến https://netnews.vn/baomoi.html Tuy nhiên, chất lượng âm thanh của bộ dữ liệu này chưa đạt yêu cầu, với âm lượng không đồng nhất, nhiều tiếng ồn và sự xuất hiện của các từ mượn cũng như từ viết tắt không có trong kho dữ liệu.
“làm sạch” bằng phương pháp thủ công còn 3504 tệp âm thanh tương đương 6.5 giờ Nhóm nghiên cứu thực hiện đánh giá với 6 người Kết quả thể hiện ở bảng sau
Naturalness Intelligibility MOS (dB) (dB) (Hz) (%)
Bảng 1-9 Kết quả đánh giá chủ quan và khách quan của mô hình đề xuất
Nghiên cứu của chúng tôi đã giành giải nhất tại hội nghị VLSP năm 2018, được đánh giá bởi 20 người tham gia Kết quả được trình bày trong Bảng 1.5 cho thấy sự vượt trội so với các đội còn lại trong nhóm.
Bảng 1-10 3 đội đạt giải cao nhất trong hội nghị VLSP 2019
1.4.3 Alternative Vietnamese Speech Synthesis with Phoneme Structure
Nghiên cứu của nhóm nhà khoa học tại Trường Đại học Khoa học Tự nhiên TP.HCM và Trường Đại học Bách khoa – Đại học Quốc gia TP.HCM được công bố tại hội nghị ISCIT năm 2019 Trong bài báo, tác giả trình bày một phương pháp tiếp cận mới cho cấu trúc âm vị trong tổng hợp tiếng Việt, áp dụng mô hình Tacotron2 và đề xuất một phần thay thế trong quy trình tổng hợp.
Trong bài viết này, chúng tôi giới thiệu về việc sử dụng nhúng ký tự trong mô hình âm vị tiếng Việt thay vì mã hóa ký tự như kiến trúc Tacotron2 thông thường Đồng thời, chúng tôi cũng công bố một công cụ chuyển đổi văn bản tiếng Việt thành chuỗi âm vị, được phát triển từ sự kết hợp của hai bộ.
Nghiên cứu về 14 âm vị trong tiếng Việt và tiếng Anh cho thấy phương pháp này có thể áp dụng cho nhiều ngôn ngữ khác nhau, đồng thời duy trì hiệu quả cao nhờ vào kiến trúc tiên tiến Tacotron2.
Trong bài viết, tác giả giới thiệu bộ dữ liệu Olli-Speech, minh họa quá trình biến đổi văn bản đầu vào ở cả mức âm vị và mức ký tự.
1.6 Bộ dữ liệu này bao gồm 45 giờ với dữ liệu chất lượng cao được thu một nghệ sĩ nữ người miền Nam Tần số lấy mẫu là 22050 kHz và đơn kênh tín hiệu Văn bản trong bộ dữ liệu được tải về từ các trang báo mạng như Tuổi trẻ, VnExpress,
Các bước tiền xử lý được áp dụng nhằm chuẩn hóa văn bản đầu vào Mô hình được đánh giá thông qua thang đo MOS từ 105 người tham gia, bao gồm cả nam và nữ Kết quả cho thấy điểm số đạt được vượt trội hơn so với mô hình cơ bản ban đầu.
Bảng 1-11 Thang đo MOS của hệ thống đề xuất so với mô hình ban đầu
1.4.4 Vietnamese Speech Synthesis with End-to-end Model
Nghiên cứu về tiếng Việt được thực hiện bởi các giảng viên và sinh viên trường Đại học Khoa học Tự nhiên, Thành phố Hồ Chí Minh, đã được công bố trên tạp chí IEEE vào tháng 2 năm 2021 Đây là một trong những công trình nghiên cứu có kết quả tốt nhất hiện nay Tác giả áp dụng công nghệ Tacotron2 và WaveGlow cho hệ thống tổng hợp tiếng Việt End-to-end Trước đó, công cụ Vinorm đã được sử dụng để chuẩn hóa văn bản và xử lý các ký tự đặc biệt, từ viết tắt, cùng với những từ ngữ không đọc được và từ địa phương Ngoài ra, công cụ Viphoneme được dùng để chuyển đổi tiếng Việt sang định dạng grapheme và từ grapheme sang Bảng chữ cái ngữ âm quốc tế (IPA).
Trong bài báo, tác giả có sử dụng âm thanh đầu vào với với tần số lấy mẫu là
Tần số 22050 Hz được sử dụng để loại bỏ các khoảng lặng ở đầu và cuối câu, đồng thời thêm một giây khoảng lặng ở cuối mỗi âm thanh nhằm cải thiện khả năng nhận dạng phần kết thúc của câu Dữ liệu sau khi được tiền xử lý sẽ được đưa vào biến thể mô hình Tacotron2, trong đó phần Character Embedding được thay thế bằng Phoneme Embedding để tác giả chuẩn hóa văn bản đầu vào.
Các b ộ dữ liệu được công bố
Sự phát triển của hệ thống tổng hợp tiếng nói đang diễn ra song song với việc gia tăng số lượng công bố về bộ dữ liệu Các bộ dữ liệu tiếng nói cảm xúc thường được phân loại thành hai nhóm, trong đó nhóm đầu tiên bao gồm âm thanh thu từ các nghệ sĩ chuyên nghiệp, chẳng hạn như bộ Emo-DB, một bộ dữ liệu được phát triển bởi một trường Đại học ở Berlin, Đức, với 7 cảm xúc khác nhau.
Có 17 nhóm dữ liệu khác nhau, trong đó nhóm thứ hai bao gồm các bộ dữ liệu thu thập từ kịch bản thực trong cuộc sống hàng ngày, mang tính tự phát Một ví dụ tiêu biểu trong nhóm này là bộ dữ liệu CHATR.
1.5.1 B ộ dữ liệu cảm xúc nước ngoài
Bộ Emo-DB là tập dữ liệu tiếng nói cảm xúc tiếng Đức, được thu thập bởi nhóm nghiên cứu từ Đại học Kỹ thuật Berlin Bộ dữ liệu này bao gồm gần 800 câu âm thanh từ 10 diễn viên (5 nam và 5 nữ), thể hiện 7 loại cảm xúc khác nhau: bình thường, buồn, vui vẻ, tức giận, lo lắng, sợ hãi và chán ghét Quá trình thu âm được thực hiện dưới sự giám sát của ba chuyên gia ngôn ngữ, nhằm đảm bảo diễn đạt cảm xúc chính xác trong từng câu nói.
Kịch bản bao gồm 10 câu khác nhau, bao gồm 5 câu ngắn và 5 câu dài Các diễn viên được thu âm trong phòng thu với thiết bị chuyên nghiệp Quá trình ghi âm sử dụng tần số 48kHz, sau đó được chuyển đổi xuống 16kHz.
CHATR là một dự án được phát triển bởi phòng thí nghiệm ATR ở Kyoto, Nhật Bản, ra mắt vào năm 1996 Bộ dữ liệu này bao gồm 1537 câu được tổng hợp từ 211 trang với nhiều chủ đề phong phú Mục tiêu chính của sản phẩm là tính đa ngôn ngữ, hỗ trợ các ngôn ngữ như tiếng Đức, tiếng Hàn, tiếng Trung, tiếng Nhật và tiếng Anh Tổng kích thước của bộ dữ liệu đạt 1,65GB.
1.5.2 B ộ dữ liệu cảm xúc trong nước
BKEmo là bộ dữ liệu tiếng Việt duy nhất tập trung vào 04 cảm xúc cơ bản: bình thường, buồn, vui và tức giận Bộ dữ liệu này bao gồm 55 câu cảm thán được thu âm bởi các nghệ sĩ nổi tiếng, với độ dài câu khác nhau, nhằm thể hiện rõ nét các cảm xúc Quy trình thu âm diễn ra trong phòng thu chuyên nghiệp, đảm bảo cách âm và lọc nhiễu tốt, với mỗi nghệ sĩ thu 220 câu cho mỗi cảm xúc qua 04 phiên Tất cả các câu được lưu dưới định dạng file “.wav”, với tần số lấy mẫu 16kHz và độ sâu bit 16 bit.
Các đề xuất giải quyết cho bài toán tổng hợp tiếng Việt có cảm xúc
Dựa trên các phân tích từ những nghiên cứu liên quan, tác giả đề xuất xây dựng một hệ thống tổng hợp tiếng Việt cho cảm xúc qua các bước cụ thể.
Để bắt đầu, cần chuẩn bị bộ ngữ liệu tiếng Việt trần thuật, bao gồm việc lọc nhiễu âm thanh và cắt bỏ khoảng lặng ở đầu và cuối câu Các đoạn văn bản cũng cần được tiền xử lý bằng cách loại bỏ ký tự đặc biệt và thay thế ký tự số bằng ký tự chữ Việc tìm kiếm bộ dữ liệu tiếng Việt chất lượng cao rất khó khăn, vì vậy tác giả xem xét xây dựng bộ ngữ liệu mới nhằm kiểm soát chất lượng âm thanh và sự đa dạng của từ điển ngôn ngữ, đồng thời giảm thiểu chi phí do dữ liệu đầu vào gây ra Tuy nhiên, phương pháp này có thể hạn chế về số lượng người nói trong bộ dữ liệu.
Bước 2 trong quá trình nghiên cứu là chuẩn bị bộ ngữ liệu tiếng Việt cảm xúc Bộ ngữ liệu BKEmo được đánh giá cao về chất lượng, với sự đa dạng trong người nói và khả năng biểu đạt cảm xúc tốt Do đó, tác giả đã lựa chọn một tập dữ liệu nhỏ nhằm đạt được kết quả tối ưu nhất.
Bước 3 trong quá trình xây dựng mô hình tổng hợp cảm xúc trần thuật là áp dụng kiến trúc end-to-end, giúp dễ dàng đánh giá và thân thiện trong quá trình sử dụng.
• Bước 4: Chuyển đổi từ cảm xúc bình thường sang cảm xúc mục tiêu
Bước 5 là xây dựng công cụ khảo sát để đánh giá chất lượng âm thanh và mức độ biểu đạt cảm xúc của người dùng theo thang MOS Đồng thời, cần trực quan hóa dữ liệu theo từng cảm xúc trong không gian Z, nhằm so sánh ảnh hưởng của dữ liệu huấn luyện chuyển đổi cảm xúc với cảm xúc ban đầu.
T ỔNG HỢP TIẾNG VIỆT CÓ CẢM XÚC
D ữ liệu
Trong nghiên cứu này, tác giả đã sử dụng hai bộ dữ liệu quan trọng là AnSpeech và BKEmo Đặc biệt, trong BKEmo, tác giả đã chọn một nghệ sĩ có giọng hát thể hiện xuất sắc cho từng cảm xúc riêng biệt, và tệp dữ liệu này được áp dụng trong quá trình chuyển đổi cảm xúc.
Việc xây dựng hệ thống tổng hợp tiếng nói từ BKEmo gặp khó khăn do sự đa dạng giọng nói, dẫn đến chất lượng mô hình không đạt yêu cầu Để cải thiện tình hình, tác giả đã quyết định tự tạo một bộ dữ liệu riêng, mang tên AnSpeech.
AnSpeech bao gồm 9796 câu được thu thập ngẫu nhiên từ các bài văn và bài thơ, với mỗi câu kết thúc bằng dấu chấm, dấu hỏi, hoặc dấu cảm thán, và được ngắt nghỉ bằng dấu phẩy Các câu đã được loại bỏ từ viết tắt, tiếng nước ngoài, lỗi chính tả, ký tự đặc biệt và số, đảm bảo rõ nghĩa Bộ văn bản này được chuẩn bị kỹ lưỡng để giảm thiểu nhiễu từ phần văn bản Do hạn chế về nguồn lực, tác giả đã sử dụng công cụ miễn phí trên https://ttsfree.com/ để tạo giọng nam trầm với cảm xúc, tốc độ và cao độ ở mức bình thường Tuy nhiên, do dữ liệu âm thanh được khởi tạo từ máy, sẽ có giới hạn về độ tự nhiên trong diễn đạt giọng nói.
Trong AnSpeech, bộ từ điển bao gồm các câu có độ dài từ 2 đến 80 từ Số lượng câu ngắn dưới 10 từ chiếm tỷ lệ lớn, với hơn 3500 câu Ngược lại, các câu dài từ 30 từ trở lên chỉ chiếm khoảng gần 1000 câu.
Hình 2 1: Histogram số lượng từ trong bộ ngữ liệu AnSpeech
Trong AnSpeech, tổng số từ là 4960, với nhiều từ xuất hiện thường xuyên như: là, có, một, không, tôi, của, người, những, và, trong, đã, mình, em, được, cho, anh, thế, lại, cũng, mà Sau khi loại bỏ khoảng lặng ở đầu và cuối câu, thời gian còn lại của các câu âm thanh là 15.97 giờ, tương ứng với 2.4 GB dữ liệu.
Từ Tần suất xuấn hiện là 1965 có 1870 một 1845 không 1809 tôi 1809 của 1693 người 1666 những 1582 và 1425 trong 1215
Bảng 2-1 Top 10 từ phổ biến nhất trong bộ từ điển
Sau khi thu thập hai bộ dữ liệu, tác giả tiến hành chia nhỏ các bộ dữ liệu này Đối với BKEmo, tác giả chọn ngẫu nhiên 30 câu từ hai nghệ sĩ Ngô Ngọc Trung và Nguyễn Đức Tâm, những câu này có khả năng thể hiện cảm xúc tốt nhất, nhằm phục vụ cho việc huấn luyện dữ liệu âm thanh Mục tiêu là cải thiện tính tự nhiên trong câu nói với cảm xúc bình thường và thêm phong cách, cảm xúc vào câu nói với cảm xúc vui và buồn Đối với bộ dữ liệu AnSpeech, tác giả chọn 100 câu ngẫu nhiên để kiểm thử, đảm bảo rằng các câu này không trùng lặp với các câu trong bộ dữ liệu cảm xúc, trong khi phần còn lại được sử dụng cho huấn luyện.
Mô hình đề xuất
Hình 2 2: Kiến thức mô hình tổng hợp tiếng Việt được đề xuất
Ti ền xử lý
Hình 2 3: Tiền xử lý dữ liệu âm thanh và transcripts
Tác giả đã tiến hành tiền xử lý bộ dữ liệu âm thanh để tối ưu hóa chất lượng, đặc biệt trong bối cảnh thiếu âm thanh tự nhiên chất lượng cao và số lượng nghiên cứu về tổng hợp tiếng Việt có cảm xúc còn hạn chế Bằng cách loại bỏ các khoảng lặng ở đầu câu, tác giả giúp mô hình tập trung vào nội dung chính và giảm kích thước bộ nhớ Mỗi file âm thanh được ghi với độ sâu bit 16 bit và tần số lấy mẫu 22050 Hz, tiêu chuẩn trong nghiên cứu âm thanh hiện nay, đảm bảo tín hiệu có tỉ lệ trên nhiễu tốt và khả năng suy luận âm thanh chất lượng Cấu hình này phù hợp với dải tần giọng nói của con người, với tần số cơ bản của nam giới từ 85-155 Hz và nữ giới từ 165-255 Hz, đồng thời âm thanh có tần số lấy mẫu cao cũng dễ dàng điều chỉnh cho các thiết lập âm thanh khác nhau.
Hu ấn luyện mô hình tổng hợp tiếng nói
2.4.1 Quy trình hu ấn luyện
Hình 2 4: Quy trình huấn luyện mô hình tổng hợp tiếng Việt trần thuật được đề xuất
2.4.2 Bi ến thể của Tacotron 2
Tacotron2, một mô hình SoTA ra mắt cách đây gần 3 năm, vẫn duy trì chất lượng và sức hấp dẫn của mình Đến cuối tháng 4 năm 2020, nghiên cứu đầu tiên đã áp dụng kiến trúc này vào lĩnh vực tổng hợp.
Tiếng Việt với bộ dữ liệu FPT Nghiên cứu được đăng trên IEEE vào tháng 2 năm nay [29] áp dụng kiến trúc nguyên thủy của Tacotron2
Hình 2 5: Kiến trúc mô hình Tacotron2 chỉnh sửa Tacotron2 là kiến trúc mạng sản sinh tiếng nói tổng hợp từ văn bản đầu vào
Hệ thống này bao gồm hai phần chính: dự đoán mel spectrogram từ văn bản và tái tạo âm thanh từ mel spectrogram Trong phần đầu, văn bản đầu vào được mã hóa theo mức ký tự với sự hỗ trợ của lớp chú ý để học các điểm trong âm thanh Mạng Sequence-to-sequence hồi quy được sử dụng để dự đoán mel spectrogram, từ đó truyền vào mô hình WaveNet hoạt động như bộ Vocoder, tạo ra tín hiệu dạng sóng trong miền thời gian Mạng dự đoán mel spectrogram bao gồm ba thành phần chính: bộ Mã hóa, bộ Giải mã và bộ Chú ý.
Bộ mã hóa chuyển đổi văn bản đầu vào thành các đặc trưng ẩn thông qua Character Embedding 512 chiều, kết hợp với 3 lớp Convolution kích thước 5*1, mỗi lớp chứa 512 bộ lọc Khác với Tacotron truyền thống, tác giả áp dụng instance-norm và hàm kích hoạt ReLU Đầu ra của bộ mã hóa được truyền vào bộ chú ý, nơi tổng hợp toàn bộ chuỗi mã hóa thành một vector ngữ cảnh cố định Mô hình này học được sự chú ý trong nội dung văn bản và mối liên hệ giữa các frame âm thanh.
Bộ giải mã là mạng nơ-ron, có nhiệm vụ dự đoán mel spectrogram dựa trên chuỗi đầu vào đã được mã hóa tại từng khung thời gian Quá trình dự đoán diễn ra từ các timestep phía trước.
Mạng Pre-Net bao gồm 2 lớp Fully Connected với 256 đơn vị ReLU, nơi đầu ra của mạng này được kết hợp với vector chú ý có ngữ cảnh và truyền qua 2 lớp LSTM với 1024 đơn vị Đầu ra từ LSTM và vector chú ý được chiếu qua một phép biến đổi tuyến tính để dự đoán khung phổ đích Sau đó, phổ trên thang đo mel được đưa vào Post-Net với 5 lớp Convolution, giúp cải thiện chất lượng độ phân giải của phổ thông qua dự đoán khối residual Cuối cùng, tác giả áp dụng WaveNet để khởi tạo âm thanh chất lượng cao, với mục tiêu tạo ra mô hình được huấn luyện trước, cung cấp điểm khởi đầu tốt cho mô hình Flowtron và nhanh chóng đạt được điểm hội tụ.
Hình 2 6: Sơ đồ kiến trúc Flowtron
Flowtron là thành phần cuối cùng trong kiến trúc đề xuất, được công bố vào giữa năm 2020 bằng tiếng Anh và chưa có nghiên cứu nào được công bố bằng tiếng Việt Đây là một mạng khởi tạo theo luồng tự đồng hồi quy cho tổng hợp tiếng nói, giúp nâng cao khả năng kiểm soát các đặc trưng của giọng nói và khả năng biến đổi giữa các giọng nói nhờ vào đặc trưng âm thanh Ưu điểm này đã giúp Flowtron vượt trội hơn so với kiến trúc Tacotron-2, từng là mô hình SoTA.
Để đạt được âm thanh tự nhiên giống con người, các yếu tố như cao độ, trường độ, nhấn nhá, nhịp điệu, phong cách và cảm xúc của người nói là rất quan trọng Tuy nhiên, Tacotron2 chưa kiểm soát tốt những yếu tố này, và Flowtron ra đời nhằm giải quyết vấn đề đó Flowtron có khả năng biến đổi phong cách và cảm xúc của người nói, giúp nội suy giọng nói mang cảm xúc và phong cách của người nói đích Điều này không chỉ tiết kiệm chi phí và nguồn lực mà còn tăng cường khả năng mở rộng của hệ thống.
Flowtron tạo ra chuỗi mel spectrogram bằng cách sản xuất từng mel spectrogram riêng lẻ Quy trình của Flowtron bao gồm ba phần chính: phần mã hóa, phần chú ý và phần giải mã.
Phần mã hóa đóng vai trò quan trọng trong việc biểu diễn nội dung văn bản và mã người nói, đồng thời chuẩn hóa đầu vào cho các bước tiếp theo.
Trong mô hình Tacotron2, instance-norm được áp dụng thay cho batch-norm nhằm tối ưu hóa quá trình huấn luyện Cả batch normalization và instance normalization đều là những phương pháp chuẩn hóa đặc trưng hiệu quả cho mạng neural, nhưng chúng khác nhau về cách thức hoạt động Batch-norm chuẩn hóa toàn bộ dữ liệu trong một batch, trong khi instance-norm thực hiện chuẩn hóa độc lập cho từng phần tử, giúp các phân phối riêng lẻ trở nên đồng nhất hơn Trong bài toán tổng hợp tiếng Việt có cảm xúc, việc sử dụng instance-norm giúp giảm nhiễu trong quá trình huấn luyện và cải thiện khả năng nhận diện các từ mang ý nghĩa cảm xúc và nhịp điệu trong câu.
Bộ giãi mã đã được triển khai, với nghiên cứu nhấn mạnh khả năng tổng quát hóa và khởi tạo các phổ mel bằng phương pháp Maximum Likelihood Kiến trúc này loại bỏ hai lớp Pre-net và Post-net, đồng thời áp dụng biến đổi Afin để cho phép mô hình đảo ngược thông qua các biến scale và bias Hệ thống sử dụng cơ chế gate nhằm giảm thiểu chi phí tính toán, cho phép biến đổi thời gian của câu khởi tạo một cách linh hoạt mà không bị cố định theo giá trị ban đầu.
Việc sử dụng 27 phân (0/1) cho cơ chế gate có thể gây ra vấn đề đạo hàm khi lan truyền ngược, với hệ thống áp dụng hàm sigmoid để đạt giá trị z gần nhất Lớp ghép nối Afin bao gồm ba phần: Attention, Decoder và biến đổi Afin Tác giả thực hiện lặp lại với lớp ghép nối Afin, trong đó với giá trị lẻ (K = 1, 3, 5 ), mạng sẽ lan truyền tiến từ đầu đến cuối câu và ngược lại, còn với giá trị chẵn (K = 2, 4, 6, ), mạng sẽ lan truyền ngược từ cuối câu về đầu Mục đích là kiểm soát khả năng học của mô hình, giúp nó học được các thành phần phía trước và phía sau tại từng vị trí câu Mô hình có khả năng học sự chú ý từ cả hai hướng trong cùng một thời điểm Trong quá trình thí nghiệm, tác giả bắt đầu với K=1 để tăng tốc độ hội tụ, sau đó là K=2 để nâng cao chất lượng và độ chính xác Nếu chất lượng chưa đạt yêu cầu, K có thể được tăng dần cho đến khi âm thanh thu được đạt kỳ vọng Nhờ vào phép biến đổi Afin, mô hình có khả năng học cách đảo ngược hàm ánh xạ phân phối đặc trưng của giọng nói (mel spectrogram, văn bản) tới không gian tiềm ẩn z với phân phối Gaussian, từ đó cho phép lựa chọn các vùng khác nhau để khởi tạo các mẫu đặc trưng giọng nói tương ứng.
Bi ến đổi phong cách, cảm xúc của tiếng nói
2.5.1 Sơ đồ quá trình tạo tiếng nói bình thường
Hình 2 7: Sơ đồ khởi tạo tiếng nói cảm xúc bình thường
2.5.2 Sơ đồ quá trình tạo tiếng nói cảm xúc
Hình 2 8: Quá trình chuyển đổi cảm xúc trong tiếng Việt
2.5.3 Quá trình ho ạt động
Flowtron nổi bật với khả năng chỉnh sửa và tạo ra các biến thể giọng nói mà vẫn giữ được chất lượng âm thanh cao, vượt trội so với các mô hình tổng hợp giọng nói khác Quá trình lấy mẫu từ nhiều phong cách giọng nói tương đương với việc lấy mẫu giá trị z từ toàn bộ không gian z của Flowtron Trong đó, không gian giọng nói ban đầu được coi là phân phối Gaussian với trung bình bằng 0, và giọng nói sẽ được lấy mẫu từ các giá trị z trong không gian đó Việc điều chỉnh phương sai là cần thiết để kiểm soát sự lan truyền của phân phối Gaussian.
Khả năng lấy mẫu gần trung tâm phân phối hình cầu cao hơn so với xa trung tâm Khi phương sai được đặt bằng 0, điểm trung tâm ban đầu không thay đổi, dẫn đến việc không có sự thay đổi trong lời nói được tạo ra Tăng phương sai sẽ làm tăng độ lan tỏa xung quanh trong không gian z được lấy mẫu, đồng thời giữ các mẫu gần trung tâm hơn so với các mẫu xa trung tâm Việc lấy mẫu từ một phong cách hoặc cảm xúc cụ thể tương đương với việc lấy mẫu từ một vùng cụ thể trong không gian z.
Flowtron 29 sử dụng âm thanh với cùng một cảm xúc và phong cách để tính toán trọng tâm, từ đó xác định giá trị trung bình cho phân phối Gaussian mới Bằng cách điều chỉnh phương sai, khoảng cách trong không gian mới được lấy mẫu cũng được tối ưu hóa Phương pháp này không chỉ tiết kiệm thời gian huấn luyện mà còn giảm thiểu tài nguyên dữ liệu cần thiết.
Hu ấn luyện mô hình
Với sự tiến bộ của học máy, các mô hình ngày càng trở nên phức tạp hơn, yêu cầu dung lượng lưu trữ và khả năng tính toán cao hơn Việc thiết lập môi trường thử nghiệm đóng vai trò quan trọng trong quá trình nghiên cứu Sử dụng siêu máy tính sẽ giúp tối ưu hóa thời gian nghiên cứu đáng kể.
Bảng dưới đây tác giả trình bày một số thông tin cơ bản về các môi trường được sử dụng
Máy tính vật lí Google Cloud
Loại Máy tính vật lí Máy ảo
- Huấn luyện với nhiều dữ liệu
- Thử nghiệm, điều chỉnh tham số
- Tổng hợp, suy luận và đánh giá
- Xây dựng chương trình đánh giá
Hệ điều hành Ubuntu 20.04 LTS
Bảng 2-2 So sánh thông tin cơ bản giữa các môi trường sử dụng
Ngoài ra, tác giả sử dụng một số bộ thư viện, phần mềm như sau:
• Ngôn ngữ chính Python, Jupyter Notebook, các thư viện đặc trưng như: torch 1.9.0, tensorboard, scikit-learn, matplotlib, librosa, pandas, numpy, six
• Shell Script: thực hiện xử lý file âm thanh, nội dung văn bản, chạy thử nghiệm chương trình
• Flask API, HTML, Java Script, MySQL: Xây dựng chương trình “Khảo sát chất lượng tiếng Việt tổng hợp có cảm xúc”
Trước khi bắt đầu chương trình, tác giả đã chọn ngẫu nhiên 100 câu từ bộ dữ liệu AnSpeech cho tập kiểm thử, với độ dài từ 10 đến 30 từ, trong khi phần còn lại được dùng cho tập huấn luyện Trong quá trình huấn luyện, tác giả theo dõi giá trị lỗi của mô hình và tiếp tục cho đến khi giá trị này giảm và ổn định Nếu giá trị lỗi không ổn định hoặc tăng, tác giả sẽ dừng chương trình để kiểm tra lại Khi giá trị lỗi hội tụ (chênh lệch không quá 0,001), mel-spectrogram được khởi tạo vào thời điểm đó sẽ được dùng để đánh giá Giai đoạn này sử dụng một số câu ngẫu nhiên, thường là từ câu nói hàng ngày hoặc bài báo trực tuyến Cuối cùng, mô hình WaveGlow sẽ tạo ra âm thanh từ mel-spectrogram, và tác giả sẽ thực hiện đánh giá bằng cách nghe trực tiếp.
Thi ết kế thử nghiệm
Tác giả xây dựng kịch bản thử nghiệm phân thành 03 nhóm:
• Nhóm 1: Thử nghiệm hệ thống tổng hợp tiếng Việt thông thường
• Nhóm 2: Thử nghiệm chuyển đổi cảm xúc cho tiếng Việt
• Nhóm 3: Thử nghiệm so sánh thời gian huấn luyện trên các phần cứng khác nhau
Nhóm 1 bao gồm các thí nghiệm … mục tiêu phát triển thành công mô hình tổng hợp tiếng Việt giọng trần thuật, có độ tư nhiên cao, dễ hiểu, phát âm rành mạch, rõ chữ Trong nhóm này, các thử nghiệm giữa Tacotron 2, Flowtron trong hai bộ dữ liệu AnSpeech và các câu bình thường của tất cả các nghệ sĩ trong bộ BKEmo
Nhóm 2 thực hiện nhiệm vụ phát triển hệ thống chuyển đổi cảm xúc cho tiếng Việt, dựa trên chất lượng âm thanh được cung cấp bởi Nhóm 1 Tác giả đã sử dụng 30 câu cho mỗi loại cảm xúc, với bộ dữ liệu BKEmo làm nền tảng cho nghiên cứu này.
Sau khi hoàn thành hệ thống tiếng nói, tác giả tiến hành thí nghiệm so sánh trên hai môi trường khác nhau, mặc dù phần cứng hoàn toàn giống nhau.
31 về phần mềm Trong thực tế, thời gian huấn luyện bị ảnh hưởng rất nhiều về tốc độ đọc ghi, xử lý, tính toán của thiết bị phần cứng
Hình 2 9: Các thí nghiệm nhóm 1 và luồng lưu trữ
2.7.2 Thí nghi ệm 01 – Mô hình M1
Bộ dữ liệu AnSpeech được sử dụng trong nghiên cứu này bao gồm 9696 câu cho huấn luyện và 100 câu cho kiểm thử Tác giả áp dụng kiến trúc mô hình Tacotron 2, thay thế hàm batch-norm bằng instance-norm ở bộ Decoder, đồng thời giữ nguyên các lớp PreNet và PostNet Thí nghiệm được thực hiện trên siêu máy tính NVIDIA A100 mà không sử dụng pretrained model, với các tham số cơ bản như learning rate = 1e-3, weight decay = 1e-6 và kích thước batch là 12 để tối ưu hóa dung lượng bộ nhớ 40GB GPU Hệ thống tự động lưu trữ mô hình sau mỗi 1.000 iteration, tương ứng với 24 phút, và quá trình huấn luyện dừng lại sau 302.000 iteration, với mô hình được đặt tên là M1.
2.7.3 Thí nghi ệm 02 – Mô hình M2
Tác giả áp dụng kiến trúc Flowtron trong hệ thống đề xuất, sử dụng bộ dữ liệu AnSpeech Trong ba lần thực nghiệm, lần đầu tiên không sử dụng mô hình đã được huấn luyện trước (pretrained-model), gọi là mô hình M1, trong khi hai lần còn lại sử dụng mô hình tốt nhất từ Thí nghiệm 01.
Trong lần thử nghiệm đầu tiên, kích thước của mỗi batch được giảm xuống
Sử dụng lớp Attention Conditioning thay vì chỉ lớp Location Attention và LinearNorm trong Tacotron2 làm tăng thời gian huấn luyện gấp 3 lần Sau 100,000 iteration, tác giả nhận thấy âm thanh tạo ra tương đối tự nhiên nhưng vẫn thiếu rõ ràng về ngữ nghĩa.
Trong lần thử nghiệm thứ hai, tác giả đã khởi đầu mô hình học với M1, giúp cải thiện sự chú ý và khả năng hội tụ nhanh hơn Không sử dụng lớp Attention Conditioning và tăng kích thước batch lên 12, thời gian huấn luyện là 28 phút cho mỗi 1,000 iterations, dừng lại ở 129,000 iterations với kết quả tốt hơn một chút so với Tacotron Tuy nhiên, mô hình vẫn gặp hiện tượng đầu ra có thời gian cố định dù văn bản đầu vào có độ dài khác nhau, có thể do chưa học được cơ chế gate Trong lần thử nghiệm cuối, tác giả điều chỉnh kích thước batch xuống 6 và tăng learning rate từ 1e-4 lên 5e-4, hoàn thành 1,000 iterations trong 14 phút Sau 200,000 iterations, cơ chế gate bắt đầu hội tụ với giá trị hàm mất mát rất thấp, và mô hình tốt nhất được lưu trữ với tên gọi M2.
2.7.4 Thí nghi ệm 03 – Mô hình M3
Tác giả tiếp tục nghiên cứu với bộ dữ liệu AnSpeech, tăng giá trị K, tương ứng với số lượng flows của lớp Afin ghép nối lên 2, và kết hợp với mô hình tốt nhất từ thí nghiệm.
Sau 39,000 lần lặp, mô hình M3 đã đạt được sự hội tụ và dừng lại sau tổng cộng 90,000 lần lặp Kết quả thu được vượt trội so với các kết quả khác, với tổng thời gian huấn luyện là 450 phút.
2.7.5 Thí nghi ệm 04 – Mô hình M4
Tác giả đã thực hiện thí nghiệm 04 với mô hình M3, tăng K lên 3 nhằm cải thiện chất lượng câu nói Kết quả cho thấy âm thanh trở nên tự nhiên và dễ hiểu, nhưng vẫn còn vấn đề về ngắt nghỉ Dấu câu ảnh hưởng đến một số thử nghiệm, tuy nhiên chưa rõ rệt trong toàn bộ tập kiểm thử Để khắc phục, tác giả đã xử lý dữ liệu văn bản của AnSpeech bằng cách sử dụng dấu phẩy “,” làm dấu ngắt nghỉ.
Tác giả đã quyết định sử dụng dấu câu “.” ở cuối tất cả các câu do bộ dữ liệu AnSpeech không phải dữ liệu tự nhiên, dẫn đến sự không khác biệt trong cách phát âm của các dấu câu khác như “?”, “!”, “;” Các dấu câu này sẽ bị loại bỏ hoàn toàn Độ dài câu được giới hạn từ 5 đến 25 từ Kết quả tốt nhất đạt được sau 7,000 iterations, tương đương 28 phút huấn luyện Sau các bước xử lý, câu tổng hợp đã có sự ngắt nghỉ Mô hình M4 đã được lưu trữ và chất lượng của mô hình được đảm bảo, với kích thước lưu trữ gần 1GB Vì vậy, tác giả quyết định dừng thử nghiệm để chuyển sang nhóm thử nghiệm thứ hai mà không tăng giá trị K.
2.7.6 Thí nghi ệm 05 – Chuyển đổi cảm xúc
Hình 2 10: Ví dụ minh họa quá trình chuyển đổi Z
Flowtron sử dụng một mạng neural với mô hình khởi tạo từ phân phối đơn giản p(z), trong đó có hai loại phân phối Gaussian: một là phân phối hình cầu trung bình bằng 0 và một là hỗn hợp Gaussian có tham số cố định Mô hình này có khả năng ánh xạ từ miền không gian phân phối các kiểu nói sang miền không gian tiềm ẩn Z, với miền không gian Z được biểu diễn bằng các hình tròn lớn, trong đó các điểm màu xanh đại diện cho các kiểu nói khác nhau, tất cả đều nằm trong một phân phối chuẩn với giá trị trung bình bằng 0 Thay đổi phương sai cho phép điều chỉnh sự lan tỏa xung quanh điểm trung tâm, trong khi phương sai bằng 0 dẫn đến không có sự thay đổi trong lời nói được tạo ra Việc lấy mẫu từ các phong cách nói cụ thể tương ứng với việc lấy mẫu từ một vùng nhất định trong miền không gian Z, với mỗi phong cách nói tương ứng với một phân phối Gaussian khác Các vùng phân phối phong cách và cảm xúc mục tiêu được đại diện bởi các hình tròn và điểm màu đỏ.
Tác giả nghiên cứu mối liên hệ giữa vùng phân phối cảm xúc bình thường trong lời nói trần thuật và vùng phân phối cảm xúc mục tiêu, nhằm làm sáng tỏ sự tương tác giữa hai khía cạnh này trong ngữ cảnh cảm xúc.
Bằng cách thực hiện tính toán mối liên hệ giữa tâm của hình cầu màu xanh và tâm của hình cầu đỏ, chúng ta có thể xác định sự chuyển biến cảm xúc (buồn hoặc vui) Các câu thu từ giọng nói thật sẽ được cung cấp cho Flowtron, công cụ này sẽ sử dụng khả năng đảo ngược hàm ánh xạ từ các lớp Afin để tìm ra các giá trị z tương ứng Cuối cùng, việc tính toán tâm của chúng và sử dụng giá trị này làm giá trị trung bình cho phân phối Gaussian mới sẽ giúp tối ưu hóa kết quả.
Tác giả sử dụng bộ ngữ liệu BKEmo để huấn luyện mô hình, chọn ngẫu nhiên 30 câu cảm xúc buồn từ Nghệ sĩ Ngô Ngọc Trung và 30 câu cảm xúc vui từ nghệ sĩ Nguyễn Đức Tâm Các câu văn bản được vector hóa qua mô hình M4, trong khi các file âm thanh được xử lý bằng công cụ stft trong ngôn ngữ Python để tính toán giá trị mel-spectrogram Cuối cùng, các giá trị mel-spectrogram này được đưa qua mô hình M4 để tìm ra các giá trị z tương ứng.
Kết thúc bước này tác giả có một tập các điểm z đại diện cho các câu cảm xúc mục