Nghiên cứu ứng dụng mạng nơ ron hồi quy trong nhận dạng tiếng nói

Nghiên cứu ứng dụng mạng nơ ron hồi quy trong nhận dạng tiếng nói Nghiên cứu ứng dụng mạng nơ ron hồi quy trong nhận dạng tiếng nói Nghiên cứu ứng dụng mạng nơ ron hồi quy trong nhận dạng tiếng nói Nghiên cứu ứng dụng mạng nơ ron hồi quy trong nhận dạng tiếng nói

TỔNG QUAN

Tổng quan về nghiên cứu trong và ngoài nước

Ứng dụng mạng học sâu, đặc biệt là kiến trúc mạng nơ-ron hồi quy, trong nhận dạng tiếng nói đã có những bước tiến đáng kể nhờ vào sự phát triển của công nghệ tính toán hiệu suất cao và khả năng xử lý của card đồ hoạ (GPU) Các trung tâm nghiên cứu lớn trên thế giới không ngừng đề xuất các kiến trúc tiên tiến nhằm nâng cao độ chính xác của các mô hình dự đoán Bài viết này tổng hợp những kiến trúc mới nhất được đề xuất trong lĩnh vực nhận dạng tiếng nói, trong đó có mô hình DeepSpeech 1, một giải pháp mở rộng cho nhận dạng tiếng nói đầu cuối.

(End-to-End Speech Recognition) Kiến trúc DeepSpeech 1 được đề xuất vào tháng

Vào năm 2014, nhóm tác giả từ phòng thí nghiệm AI của Baidu Research đã phát triển DeepSpeech 1, một kiến trúc nhận dạng tiếng nói hiệu quả trong môi trường ồn ào Mô hình này không cần bộ từ điển âm vị và sử dụng mạng hồi quy RNN tối ưu hóa trên nhiều GPU, đạt tỉ lệ lỗi 16.0% trên tập dữ liệu thử nghiệm 2000 Hub5 DeepSpeech 1 được huấn luyện trên dữ liệu tiếng Anh, chuyển đổi đầu vào thành chuỗi ký tự và dự đoán xác suất xuất hiện của chúng Kiến trúc bao gồm 5 lớp nơ-ron ẩn và sử dụng phương pháp tối ưu Nesterov’s Accelerated Gradient Đến tháng 12 năm 2015, Baidu Research giới thiệu DeepSpeech 2, cải tiến từ DeepSpeech 1, hỗ trợ nhận dạng tiếng Anh và tiếng Quan Thoại, có khả năng xử lý nhiều ngôn ngữ và trọng âm khác nhau, đồng thời hoạt động hiệu quả trong môi trường nhiễu nhờ vào mạng hồi quy RNN và mạng tích chập.

Kiến trúc CNN mới được đề xuất có đến 11 lớp, bao gồm các lớp lặp lại hai chiều và lớp tích chập, với khả năng tính toán cao gấp 8 lần so với DeepSpeech 1 Kiến trúc này sử dụng Layer Normalization để tối ưu hóa, hàm kích hoạt ReLu, và CTC ở đầu ra để dự đoán xác suất các ký tự Mô hình nhận dạng tiếng nói liên tục "First-Pass Large Vocabulary" sử dụng mạng hồi quy lặp hai hướng (Bi-Directional Recurrent DNNs) do nhóm tác giả từ đại học Stanford phát triển, đạt tỉ lệ lỗi ký tự (CER) dưới 10% trên tập CSR-II (WSJ1) và tích hợp mô hình ngôn ngữ n-gram Wav2Letter++, được nghiên cứu và phát triển bởi Facebook AI, cũng là một phần quan trọng trong lĩnh vực này.

Vào tháng 12 năm 2018, một framework mã nguồn mở sử dụng mạng học sâu cho nhận dạng tiếng nói đã được đề xuất, phát triển bằng ngôn ngữ C++ và thư viện ArrayFire tensor, tối ưu hóa tính toán trên GPU CUDA, đạt tỷ lệ lỗi WER 4.91% trên tập dữ liệu LibriSpeech Tiếp theo, vào tháng 7 năm 2019, nhóm tác giả từ Google Brain giới thiệu phương pháp tăng cường dữ liệu SpecAugment để huấn luyện mạng nhận dạng tiếng nói LAS (Listen, Attend and Spell), với tỷ lệ lỗi WER đạt 6.8% khi không có mô hình ngôn ngữ và 5.8% khi có mô hình ngôn ngữ Trong mạng LAS, các phổ Mel được đưa vào mạng CNN 2 lớp với bước trượt 2, và đầu ra của mạng CNN được chuyển qua một mạng LSTM hai chiều (Bi-Directional LSTM) Cuối cùng, Wav2vec, một công nghệ nhận dạng tiếng nói tiên tiến, đã được nghiên cứu và phát triển bởi Facebook AI.

Nghiên cứu vào tháng 9 năm 2019 đã đề xuất việc áp dụng học không giám sát trong nhận dạng tiếng nói bằng cách sử dụng âm thanh thô Mô hình huấn luyện được phát triển dựa trên một tập dữ liệu âm thanh khổng lồ không có nhãn Kết quả cho thấy Wav2vec đạt được tỷ lệ lỗi WER là 2.43% trên tập dữ liệu nov92 Tại Việt Nam, trong những năm gần đây, các trường và học viện đang tích cực nghiên cứu ứng dụng mạng nơ-ron trong lĩnh vực nhận dạng tiếng nói.

Nhóm nghiên cứu của PGS.TS Lương Chi Mai tại Viện Công Nghệ Thông Tin đang ứng dụng mạng nơ-ron nhân tạo, thuật toán Viterbi và công cụ CSLU để cải thiện nhận dạng tiếng nói Các đề tài nghiên cứu bao gồm phát triển hệ thống nhận dạng câu lệnh và chuỗi số tiếng Việt liên tục trên điện thoại di động, cũng như nâng cao độ chính xác của hệ thống mạng neuron trong nhận dạng tiếng Việt.

Nhóm nghiên cứu của PGS TS Vũ Hải Quân, thuộc trường Đại học Khoa học

Nhóm nghiên cứu AILab tại Trường Đại học Khoa học Tự nhiên – Đại học Quốc Gia Thành phố Hồ Chí Minh chuyên sâu vào các lĩnh vực như truy vấn thông tin tiếng Việt, nhận dạng tiếng nói và tìm kiếm giọng nói.

Các công ty lớn như Vingroup, VNG, FPT và Viettel đang tích cực phát triển hệ thống ASR và thương mại hóa các sản phẩm chuyển đổi giữa tiếng nói và văn bản FPT cung cấp dịch vụ chuyển đổi tại [fpt.ai](https://fpt.ai/), trong khi Viettel giới thiệu giải pháp đọc báo tiếng Việt trên Dân Trí VinAI Research cũng tham gia nghiên cứu và phát triển các mô hình ngôn ngữ, bao gồm các mô hình huấn luyện sẵn như PhoBert.

Giới thiệu luận văn

Giao tiếp là yếu tố quan trọng trong cuộc sống con người, trong đó tiếng nói đóng vai trò chủ đạo bên cạnh các hình thức khác như ánh mắt, nét mặt và ngôn ngữ cơ thể.

Nhận dạng tiếng nói đang được ứng dụng rộng rãi trong nhiều lĩnh vực, đặc biệt là tại các trung tâm liên lạc, nơi cung cấp dịch vụ tự động giúp người dùng hoàn thành giao dịch một cách nhanh chóng, giảm chi phí cho đại lý và nhân viên hỗ trợ Ngoài ra, các trợ lý ảo giúp người dùng tìm kiếm, quản lý và điều khiển hệ thống nhà thông minh hiệu quả Công nghệ này cũng hỗ trợ điều khiển bằng giọng nói cho người khuyết tật, đồng thời tạo ra các công cụ chuyển đổi lời nói thành văn bản, giúp tiết kiệm thời gian đánh máy Hơn nữa, các ứng dụng robot ngày càng trở nên thông minh hơn, có khả năng hiểu và thực thi các nhiệm vụ dựa trên lệnh thoại.

Trên thế giới, nhiều hệ thống nhận dạng tiếng nói lớn sử dụng mạng nơ-ron nhân tạo với độ chính xác cao, chủ yếu phát triển trên công nghệ hiện đại và máy tính lớn, tập trung vào tiếng Anh Tại Việt Nam, nghiên cứu và phát triển hệ thống nhận dạng tiếng nói còn mới mẻ, gặp nhiều thách thức như sự phụ thuộc vào tiếng địa phương, sự đa dạng giọng nói giữa các vùng miền, và hạn chế về kích thước bộ dữ liệu huấn luyện cũng như chất lượng dữ liệu thu thập, thường bị nhiễu tạp.

Để phát triển các mô hình nhận dạng tiếng Việt với độ chính xác cao, cần có đầu tư mạnh mẽ vào hạ tầng máy tính cũng như thời gian và công sức từ đội ngũ nghiên cứu có kinh nghiệm Hiện tại, các hệ thống đạt được kết quả tốt trên thị trường thường được các công ty thương mại hóa với mức giá khá cao.

Đề tài luận văn của tôi là “Nghiên cứu ứng dụng mạng nơ-ron hồi quy trong nhận dạng tiếng nói”, với mục tiêu áp dụng kiến trúc mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron hồi quy Nghiên cứu này nhằm đạt được kết quả chính xác trong việc nhận dạng tiếng nói tiếng Việt, dựa trên những thành tựu đã được đề xuất trên thế giới.

Mục tiêu, phạm vi nghiên cứu

Mục tiêu nghiên cứu là khám phá kiến trúc và hoạt động của mạng nơ-ron hồi quy, đồng thời áp dụng kiến trúc mô hình DeepSpeech 2 để nhận dạng tiếng nói tiếng Việt Nghiên cứu sẽ tạo tập mẫu, huấn luyện và kiểm thử hệ thống nhận dạng tiếng nói tiếng Việt, cũng như phát triển mô-đun hiệu chỉnh nhằm cải thiện độ chính xác của mô hình nhận dạng Phạm vi nghiên cứu bao gồm việc tìm hiểu kiến trúc và hoạt động của mạng RNN, LSTM, và cách thức liên kết giữa các lớp mạng nơ-ron trong kiến trúc DeepSpeech 2 Đặc biệt, nghiên cứu sẽ xây dựng bộ dữ liệu chất lượng từ ba nguồn mở: VIVOS, FPT, và VIN Data, nhằm phục vụ cho việc huấn luyện mô hình nhận dạng tiếng Việt với mục tiêu đạt gần 75% độ chính xác.

Nhiệm vụ nghiên cứu và giới hạn đề tài

Nghiên cứu về nhận dạng tiếng nói tại Việt Nam và trên thế giới đã có những bước tiến đáng kể, đặc biệt là việc áp dụng mô hình DeepSpeech 2 cho tiếng Việt Các nghiên cứu đã tập trung vào việc sử dụng thuật toán MFCC để xử lý và trích xuất đặc trưng tiếng nói Để đạt được độ chính xác cao, việc chuẩn bị bộ dữ liệu chất lượng cho huấn luyện mô hình là rất quan trọng Mô hình nhận dạng tiếng nói tiếng Việt được xây dựng dựa trên DeepSpeech 2, mặc dù dữ liệu huấn luyện còn hạn chế do chỉ sử dụng các bộ dữ liệu âm thanh mở Tuy nhiên, việc tích hợp mô-đun hiệu chỉnh đã giúp nâng cao độ chính xác lên 75% Mô hình này hoạt động hiệu quả trong môi trường ồn ào, đặc biệt với giọng nam cao và giọng miền Nam, miễn là tốc độ nói không quá nhanh.

Phương pháp nghiên cứu

Nghiên cứu các kỹ thuật, kiến trúc mô hình đang được được ứng dụng rộng trên thế giới về vấn đề nhận dạng tiếng nói

Nghiên cứu áp dụng kiến trúc mô hình phù hợp cho nhận dạng tiếng nói tiếng Việt.

Kế hoạch thực hiện

Chương trình xử lý tiếng nói được xây dựng dựa trên đặc trưng MFCC, nhằm tạo ra bộ dữ liệu sạch phục vụ cho việc huấn luyện nhận dạng tiếng nói tiếng Việt Mô hình nhận dạng được phát triển bằng cách áp dụng kiến trúc DeepSpeech2 trên bộ dữ liệu tiếng Việt Đồng thời, đề xuất một mô-đun hiệu chỉnh nhằm nâng cao độ chính xác của mô hình dự đoán.

Cấu trúc luận văn

Luận văn được phân thành 5 chương, trong đó:

Chương 1: Tổng quan – giới thiệu về sự phát triển của công nghệ nhận dạng tiếng nói, tình hình nghiên cứu của thế giới và trong nước

Chương 2: Cơ sở lý thuyết – giới thiệu về nhận dạng tiếng nói, mạng nơ-ron tích chập, mạng nơ-ron hồi quy

Chương 3: Thiết kế mô hình nhận dạng – trình bày kiến trúc mô hình, thu thập, xử lý dữ liệu, huấn luyện mạng, hiệu chỉnh văn bản đầu ra

Chương 4: Huấn luyện mô hình và kết quả đạt được

CƠ SỞ LÝ THUYẾT

Giới thiệu nhận dạng tiếng nói

2.1.1 Tổng quan về nhận dạng tiếng nói Âm thanh phát sinh từ nhiều nguồn ví dụ như tiếng nói, tiếng động vật kêu, tiếng trống, tiếng đàn từ các nhạc cụ, Âm thanh cần vật chất để lan truyền, do đó âm thanh không tồn tại trong môi trường chân không Âm thanh được biểu diễn trong miền thời gian và miền tần số Giả sử gọi t là thời gian, x là biên độ (độ biến thiên), thì ta có thể biểu diễn sự biến thiên biên độ theo thời gian của hàm sóng dạng Sin, với 𝑥(𝑡) = 𝐴𝑠𝑖𝑛(𝜔𝑡 + 𝜃) với A là biên độ, 𝜔 là tần số góc, 𝜃 là pha ban đầu, được minh họa ở Hình 2.1(a) bên dưới Và hình 2.1(b) là biểu diễn tín hiệu trong theo tần số Tương ứng với biên độ A trong miền thời gian là F0 trong miền tần số Trong thực tế, các tín hiệu có các dạng khác nhau, và để phân tích tính toán, người ta dùng phân tích Fourier

Hình 2.1: Biểu diễn tín hiệu theo thời gian và tần số

Tiếng nói là âm thanh phát ra từ miệng người, được truyền trong không khí đến tai người nghe Nghiên cứu cho thấy âm thanh mà con người có thể nghe nằm trong dải tần số từ 20Hz đến 20KHz Âm thanh có tần số cao hơn 20KHz được gọi là siêu âm, trong khi âm thanh dưới 20Hz được gọi là hạ âm.

Sự phát triển nhanh chóng của tốc độ xử lý máy tính đã thúc đẩy lĩnh vực xử lý tiếng nói trở nên quan trọng hơn Nhờ đó, các ứng dụng thực tiễn như tổng hợp âm thanh và nén âm thanh ngày càng được áp dụng rộng rãi, mang lại nhiều tiện ích cho người dùng.

(compression), nhận dạng tiếng nói, nhận dạng người nói, xác định giới tính người đang nói, … (Hình 2.2)

Hình 2.2: Ứng dụng xử lý tiếng nói trong thực tế

Quá trình nhận dạng tiếng nói tự động trên máy tính bao gồm nhiều bước nhằm xử lý và phân biệt các tín hiệu âm thanh Kết quả của quá trình này sẽ được sử dụng để tiếp tục thực hiện các xử lý ngôn ngữ ở mức cao hơn.

Quá trình nhận dạng tiếng nói bao gồm ba bước chính: đầu tiên là tiền xử lý và rút trích đặc trưng, trong đó tín hiệu tiếng nói được thu thập, khử nhiễu, điều chỉnh và rút trích các vec-tơ đặc trưng Tiếp theo là quá trình học mẫu và phân lớp, sử dụng các vec-tơ đặc trưng để huấn luyện mô hình và phân loại tín hiệu thông qua các thuật toán như Heristic, K-means hoặc mạng nơ-ron nhân tạo Cuối cùng, quá trình nhận dạng so khớp mẫu sẽ dựa vào các lớp đã phân loại trong mô hình huấn luyện để dự đoán tỷ lệ tín hiệu mới thuộc lớp nào, từ đó đưa ra kết quả nhận dạng chính xác.

Hiện nay, có ba phương pháp phổ biến trong nhận dạng tiếng nói, bao gồm phương pháp âm học, phương pháp nhận dạng mẫu và phương pháp ứng dụng trí tuệ nhân tạo.

2.1.2 Rút trích đặc trưng tín hiệu tiếng nói MFCC

Rút trích đặc trưng tiếng nói là bước quan trọng trong quá trình nhận dạng tiếng nói Dữ liệu âm thanh lưu trữ trên máy tính thường ở dạng sóng âm, gây khó khăn trong việc xử lý và huấn luyện Do đó, việc rút trích đặc trưng tiếng nói trở nên cần thiết để cải thiện hiệu quả nhận dạng.

Mục tiêu của công việc này là phân tích phổ spectral để xác định các thông tin quan trọng và đặc trưng của tiếng nói Quá trình rút trích đặc trưng sẽ tạo ra một hoặc nhiều vector đặc trưng, chứa các tham số giá trị quan trọng của tín hiệu tiếng nói.

Có nhiều phương pháp rút trích đặc trưng, trong đó hai phương pháp phổ biến là MFCC và LPC Quá trình rút trích đặc trưng tín hiệu tiếng nói được mô tả trong Hình 2.4, trong đó tín hiệu âm thanh lưu trữ trong máy tính ở dạng số Âm thanh được mô hình hóa dưới dạng toán học với hàm s(n), trong đó n đại diện cho thời gian (thường là ms) và s(n) là biên độ âm.

Bộ lọc tiền khuếch đại (pre-emphasis) được áp dụng để khuếch đại tần số cao, giúp làm rõ tín hiệu Việc sử dụng bộ lọc này rất quan trọng vì nó giúp cân bằng tần số phổ, khi mà tần số cao thường có cường độ nhỏ hơn tần số thấp Ngoài ra, bộ lọc tiền khuếch đại còn giúp tránh một số vấn đề trong quá trình biến đổi Fourier và cải thiện khả năng giảm thiểu tiếng ồn.

𝒚(𝒕) = 𝒙(𝒕) − 𝜶𝒙(𝒕 − 𝟏) 𝒗ớ𝒊: 𝟎 𝟗 ≤ 𝜶 ≤ 𝟏 Trong đó 𝛼 là hệ số khuếch đại, thường được lựa chọn 𝛼 = 0.97

Hình 2.5 và Hình 2.6 minh họa tín hiệu trước và sau khi khuếch đại

Hình 2.5: Tín hiệu trước khi khuếch đại [14]

Hình 2.6: Tín hiệu sau khi khuếch đại [14] v Phân đoạn tín hiệu thành các khung

Tín hiệu tiếng nói là đại lượng biến thiên theo thời gian và không ổn định, do đó không thể xử lý trực tiếp Để xử lý hiệu quả, tín hiệu được chia thành các khung nhỏ với kích thước khoảng 20-30 ms, giúp lấy được những đoạn tín hiệu tương đối ổn định Để tránh mất mát và gián đoạn tín hiệu ban đầu, các khung thường được chồng lấp lên nhau khoảng 10-15 ms.

Trong quá trình rút trích đặc trưng, để giảm thiểu gián đoạn tín hiệu ở đầu và cuối mỗi khung, một dãy tín hiệu con được lấy từ tín hiệu dài hơn x(n), gọi là cửa sổ tín hiệu Việc xem xét tín hiệu x(n) bằng đoạn xN(n) trong khoảng n0…(n0 + N – 1) tương đương với việc nhân x(n) với một hàm cửa sổ, giúp làm mượt khung tín hiệu và tăng cường sự xuất hiện của các thành phần tần số cao trong phổ.

Trong xử lý tín hiệu số, các cửa sổ thường dùng được biểu diễn thông qua cửa sổ Hamming tổng quát:

Tùy theo các giá trị của 𝛼 mà ta có các cửa sổ khác nhau:

Với 𝛼 = 0.54, là cửa sổ Hamming (Hamming Window), dạng cửa sổ thường dùng nhất

Với 𝛼 = 0.5, ta có cửa sổ Hanning:

Ngoài ra, còn có các cửa sổ khác: Hình chữ nhật, Cosine, Blackman, Kaiser, tam giác, …

Sau khi thu thập tín hiệu, quá trình tiếp theo là rút trích các đặc trưng của tín hiệu Bài viết này sẽ giới thiệu phương pháp rút trích đặc trưng MFCC, một kỹ thuật quan trọng trong mô hình nhận dạng tiếng nói tiếng Việt Rút trích đặc trưng tiếng nói MFCC đóng vai trò then chốt trong việc cải thiện độ chính xác của hệ thống nhận diện.

Mel-Frequency Cepstral Coefficients (MFCC) are the coefficients derived from the Mel frequency spectrum, which utilizes a nonlinear frequency scale based on human auditory perception This Mel Scale was introduced in 1980, emphasizing its significance in audio processing and analysis.

Tóm tắt phương pháp rút trích đặc trưng MFCC qua sơ đồ khối Hình 2.7

Hình 2.7: Thuật toán rút trích MFCC [15] ỉ Biến đổi FFT (Fast Fourier Transform)

Biến đổi FFT (Fast Fourier Transform) là một cải tiến của DFT (Biến đổi Fourier rời rạc) thông qua thuật toán nhanh, phục vụ cho việc xử lý âm thanh và hình ảnh FFT có tính chất thuận nghịch, bảo toàn tính tuyến tính, bất biến, tuần hoàn và tính trễ, giúp tối ưu hóa quá trình phân tích tín hiệu.

+ Biến đổi thuận (dùng khi phân tích tín hiệu):

(với k = 0, 1, 2, …N-1) + Biến đổi nghịch (dùng khi tổng hợp tính hiệu):

(với n = 0, 1, 2, …, N-1) Kết quả của sau khi thực hiện FFT, sẽ được đưa vào bộ lọc Mel ỉ Bộ lọc Mel

Mạng nơ-ron nhân tạo

2.2.1 Mạng nơ-ron sinh học

Hệ thống thần kinh sinh học của con người có thể được chia thành ba giai đoạn, biểu diễn bởi sơ đồ khối hình 2.12 bên dưới

Nơ-ron, hay tế bào thần kinh, là đơn vị cấu tạo cơ bản của hệ thần kinh và là phần quan trọng nhất của bộ não Chức năng chính của nơ-ron là cảm ứng và dẫn truyền xung thần kinh thông qua các tín hiệu hóa học Bộ não người chứa khoảng 10^11 nơ-ron, và mỗi nơ-ron có khả năng kết nối với hàng nghìn nơ-ron khác Mức năng lượng tiêu thụ của mỗi nơ-ron khoảng 10^-16 J cho mỗi thao tác mỗi giây.

Hình 2.12: Sơ đồ khối hệ thống thần kinh sinh học

Cấu tạo nơ-ron thần kinh sinh học gồm 3 thành phần chính: Dendrite; Soma (Cell Body); Axon

Hình 2.13: Các thành phần một Nơ-ron sinh học [17]

Dendrite là những sợi mỏng và phân nhánh rộng, có khả năng vươn ra theo nhiều hướng khác nhau, tạo ra một mạng lưới kết nối phong phú với các nơ-ron trong cụm Chúng đóng vai trò quan trọng trong việc nhận các kích hoạt từ các nơ-ron liên kết, góp phần vào quá trình truyền tải thông tin trong hệ thần kinh.

Axon là một sợi dài, có chức năng truyền tín hiệu đầu ra của nơ-ron dưới dạng xung điện đến nơ-ron khác Quá trình giao tiếp diễn ra giữa Axon và Dendrite thông qua các Synapses (khớp thần kinh).

(2) Soma (Cell Body): Xử lý các kích hoạt (activation) đầu vào (input), và chuyển chúng thành các kích hoạt đầu ra (output)

2.2.2 Mạng nơ-ron nhân tạo

Mạng thần kinh nhân tạo hay mạng nơ-ron nhân tạo (Artificial Neural Network

Mô hình ANN (Artificial Neural Network) là một hệ thống xử lý thông tin được thiết kế dựa trên hoạt động của hệ thần kinh sinh học, với hàng triệu nơ-ron liên kết để xử lý dữ liệu ANN hoạt động giống như bộ não con người, học hỏi từ kinh nghiệm thông qua quá trình huấn luyện, và có khả năng lưu trữ tri thức để dự đoán thông tin chưa biết.

Nơ-rơn nhân tạo là đơn vị tính toán cơ bản, được thiết kế dựa trên đặc điểm của nơ-ron sinh học Nó hoạt động qua hai giai đoạn: tổng trọng số các giá trị ngõ vào và áp dụng hàm phi tuyến Đơn vị này nhận một tập hợp ngõ vào, tính toán dựa trên các giá trị và trọng số tương ứng, sau đó chuyển kết quả qua hàm phi tuyến để tạo ra đầu ra.

Khác với các hệ thống tính toán truyền thống, mạng thần kinh nhân tạo cần được huấn luyện để hoạt động chính xác, thay vì sử dụng các chỉ thị cố định Hệ thống này có khả năng học các mẫu input-output mới và điều chỉnh tham số, giúp loại bỏ sự cần thiết của các chỉ thị cụ thể Người dùng chỉ cần cung cấp các mẫu input-output phù hợp cho mạng Mô hình của mạng thần kinh nhân tạo được xác định bởi cấu trúc liên kết, loại mô hình và các quy tắc học Mô hình nơ-ron McCulloch-Pitts là một trong những ví dụ tiêu biểu.

Mô hình toán học đầu tiên của nơ-ron, được đề xuất bởi Warren McCulloch và Walter Pitts vào năm 1943, là nơ-ron nhân tạo mang tên Threshold Logic Unit (TLU), hay Linear Threshold Unit (LTU), hay Linear Threshold Gate Nơ-ron này có tập các ngõ vào I1, I2, …, In với giá trị 0 hoặc 1, và một ngõ ra y có dạng nhị phân Hàm của nơ-ron có thể được mô tả toán học thông qua một phương trình.

Trong đó: W 1 , W 2 , …, W n là giá trị trọng số chuẩn hóa trong khoảng (0, 1) hoặc (-1, 1) và được liên kết với các input Sum là tổng trọng số (weighted sum) và

T là hằng số ngưỡng (Threshold Constant) Hàm f là hàm bước tuyến tính tại ngưỡng

T được mô tả ở hình 2.13 Biểu diễn tượng trưng về Linear Threshold Gate được trình bày ở hình 2.14

Hình 2.15: Mô hình của Linear Threshold Gate [17] v Perceptron

Mô hình nơ-ron perceptron của Rosenblatt là sự kết hợp giữa mô hình nơ-ron nhân tạo McCulloch-Pitts và quy luật học Hebbian, tập trung vào việc điều chỉnh các trọng số Ngoài việc điều chỉnh trọng số, perceptron còn bổ sung một yếu tố đầu vào gọi là bias Do đó, phương trình (2.13) được điều chỉnh để bao gồm giá trị bias, biểu diễn bằng ký hiệu b.

Mô hình perceptron tổng quát bao gồm hai giai đoạn chính Giai đoạn đầu tiên là quá trình tổng hợp (Sum-of-Product) các giá trị đầu vào với trọng số tương ứng (từ 0 đến 1) và giá trị bias Kết quả của quá trình này sẽ được chuyển đến giai đoạn thứ hai, nơi chức năng kích hoạt (activation function) được áp dụng để tạo ra đầu ra cuối cùng.

Hình 2.16: Mô hình Perceptron [17] v Các hàm kích hoạt

Hàm kích hoạt (Activation Function) là các hàm quyết định đầu ra của mạng nơ-ron Một số hàm kích hoạt phổ biến trong huấn luyện mạng nơ-ron bao gồm: Hàm bước (Step Function), với đầu vào 𝑥 cho đầu ra 𝑦 có hai giá trị 1 khi 𝑥 ≥ 0 và 0 khi 𝑥 < 0; hàm tuyến tính (Linear Function); hàm Sigmoid; hàm Tanh; và hàm Relu.

Mạng nơ-ron đơn giản bao gồm các ngõ vào X i và ngõ ra Y i, với tất cả các ngõ vào được kết nối trực tiếp đến ngõ ra qua các trọng số Để nâng cao khả năng tính toán, mạng nơ-ron cần có cấu trúc phức tạp hơn, gọi là mạng nhiều lớp Khác với mạng đơn lớp, mạng nhiều lớp có một hoặc nhiều lớp ẩn nằm giữa lớp ngõ vào và lớp ngõ ra, giúp cải thiện hiệu suất và khả năng học tập của mô hình.

Hình 2.17:Mô hình mạng nhiều lớp [17]

Mạng nơ-ron tích chập

Mạng nơ-ron tích chập (CNN) là một loại mạng nơ-ron nhiều lớp, trong đó có ít nhất một lớp thực hiện phép toán tích chập thay vì phép toán nhân thông thường CNN được thiết kế đặc biệt để xử lý dữ liệu trong không gian 2 chiều, với ứng dụng hiệu quả trong lĩnh vực thị giác máy tính Kiến trúc của mạng CNN rất phù hợp cho việc xử lý các đầu vào lớn, cho phép loại bỏ một số nơ-ron ở lớp đầu vào mà không làm giảm độ chính xác của mô hình.

Mạng CNN bao gồm các thành phần chính như lớp tích chập đầu tiên giữa ngõ vào và bộ lọc, tiếp theo là lớp Pooling, sau đó là các lớp kết nối đầy đủ (Full Connected Layer – FC), và cuối cùng là hàm Softmax để phân loại các ngõ ra dựa trên giá trị xác suất trong khoảng (0, 1) Kiến trúc cơ bản của mạng nơ-ron CNN được minh họa trong hình 2.18 bên dưới.

Hình 2.18: Mô tả kiến trức cơ bản của mạng CNN

Mạng CNN bao gồm các lớp cơ bản như lớp ngõ vào (Input Layer) để lưu trữ dữ liệu đầu vào, và lớp tích chập (Convolution Layer) thực hiện phép tích chập giữa các bộ lọc và lớp ngõ vào.

Bộ lọc (kernel) trong xử lý ảnh được xác định bởi kích thước (Filter size) thường là 3x3 hoặc 5x5, và độ sâu (Depth) tương ứng với độ sâu của đầu vào; ví dụ, đối với ảnh màu RGB, độ sâu của bộ lọc là 3 Thêm vào đó, stride là bước trượt, quyết định số lượng điểm ảnh sẽ thay đổi, trong khi thông số padding là việc gán các giá trị 0 dọc theo biên của ảnh.

Stride = 1 thì sau khi gán padding, ma trận tạo ra lúc kernel kết thúc trược có kích thước bằng với ma trận đầu vào

Bằng cách trượt bộ lọc qua ma trận đầu vào theo cả hai chiều, ta tạo ra một bản đồ đặc trưng (Feature Map) cho dữ liệu Mỗi bộ lọc sẽ tạo ra một ma trận riêng, do đó số lượng bộ lọc cần được chọn dựa trên số lượng đầu ra mong muốn Sau khi thu được danh sách các ma trận từ các bộ lọc, chúng sẽ được đưa qua hàm kích hoạt, thường là hàm ReLU.

Lớp Pooling nằm giữa các lớp tích chập, giúp giảm kích thước dữ liệu mà vẫn giữ lại các thuộc tính quan trọng Trong lớp Pooling, padding và bước trượt Stride được áp dụng tương tự như trên lớp tích chập Các hàm phổ biến trong lớp Pooling bao gồm Max Pooling, Average Pooling và Sum Pooling Max Pooling, thường được sử dụng trong xử lý phân loại ảnh, tạo ra ma trận mới bằng cách lấy giá trị lớn nhất trong không gian cửa sổ Hình 2.19 minh hoạ hàm Max Pooling với kích thước cửa sổ 2x2 và bước trượt Stride = 2, cho thấy ma trận mới được tạo ra bằng cách lấy giá trị lớn nhất sau 4 lần trượt.

Hình 2.19: Minh hoạ hàm Max Pooling

Lớp cuối cùng của mạng tích chập là lớp kết nối đầy đủ, nơi mà ma trận ngõ ra từ lớp Pooling được làm phẳng thành vector 1 chiều Sau khi trải qua nhiều lớp tích chập và lớp Pooling, mô hình đã học được nhiều đặc điểm quan trọng của dữ liệu đầu vào Tại lớp này, vector 1 chiều được đưa vào lớp kết nối như trong mạng nơ-ron thông thường, và hàm kích hoạt Softmax được áp dụng để phân loại ngõ ra.

Mạng nơ-ron hồi quy

Mạng nơ-ron hồi quy (RNN) là một loại mô hình mạng nơ-ron tương tự như mạng nơ-ron nhiều lớp, nhưng với khả năng kết nối các đơn vị ẩn có độ trễ thời gian Nhờ vào những kết nối này, RNN có khả năng lưu giữ thông tin từ các đầu vào trong quá khứ, giúp khám phá mối tương quan thời gian giữa các sự kiện có thể xa nhau trong dữ liệu.

Mạng nơ-ron hồi quy (RNN) đang thu hút sự chú ý lớn trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) nhờ vào hiệu quả vượt trội của nó RNN được ứng dụng phổ biến trong các mô hình ngôn ngữ, giúp đánh giá độ chính xác của câu dựa trên sự tương đồng thực tế, rất hữu ích cho các công cụ dịch máy và tự động sinh văn bản Điểm nổi bật của RNN là khả năng xử lý chuỗi thông tin, khác với các mạng nơ-ron truyền thống, nơi các đầu vào và đầu ra độc lập nhau Sự liên kết thông tin trước và sau trong RNN là yếu tố quan trọng, giúp giải quyết nhiều bài toán ngôn ngữ phức tạp.

Mặc dù mạng nơ-ron hồi quy lý thuyết là một mô hình đơn giản và hiệu quả, nhưng thực tế vẫn gặp nhiều vấn đề liên quan đến kích thước và chất lượng dữ liệu huấn luyện, thời gian huấn luyện, cũng như các khó khăn như mất đạo hàm và bùng nổ đạo hàm, dẫn đến độ chính xác của mô hình bị ảnh hưởng.

2.4.1 Kiến trúc mạng nơ-ron hồi quy

Một mạng RNN có thể được xem là sự lặp lại của một tế bào (Cell) Cấu trúc của RNN được mô tả ở hình 2.20

Hình 2.20:Minh họa về sơ đồ của mạng RNN [18]

Các kết nối bên trong lớp ẩn cho phép lưu trữ thông tin để tính toán ở bước tiếp theo Như quan sát trong hình 2.20, đầu ra tại thời điểm t được xác định bởi dữ liệu đầu vào x t, và đầu ra 𝑜 ! được tính dựa trên giá trị ngõ vào này.

, trọng số W và dữ liệu đã được tính toán của bước t-1 trước đó là S t-1

Hình 2.21: Các dạng của mô hình mạng nơ-ron hồi quy [18]

Mạng RNN cơ bản có 5 dạng được mô tả như hình 2.21:

- Dạng 1: Ngõ vào một, ngõ ra một (khối 1): Chế độ Vanilla xử lý với ngõ vào và ngõ ra cố định, ứng dụng trong phân loại ảnh

Dạng 2, hay còn gọi là ngõ vào một và ngõ ra nhiều (khối 2), cho phép đầu ra dưới dạng chuỗi, được ứng dụng trong việc nhận dạng tiêu đề mô tả cho một bức ảnh Đầu vào của mô hình này là một bức ảnh có kích cỡ cố định, từ đó tạo ra các mô tả chi tiết và chính xác về nội dung của bức ảnh đó.

- Dạng 3: Ngõ vào nhiều, ngõ ra một (khối 3): Đầu vào là một chuỗi, phân tích và dự đoán một giá trị ngõ ra tương ứng;

- Dạng 4: Ngõ vào nhiều, ngõ ra nhiều (khối 4): Ngõ vào và ra dạng chuỗi, ứng dụng trong dịch máy

- Dạng 5: Ngõ ra nhiều, ngõ ra nhiều (khối 5): Đồng bộ giữa chuỗi ngõ vào và ngõ ra

2.4.2 Tính toán bên trong mạng nơ-ron hồi quy

Mỗi tế bào nơ-ron trong mạng nơ-ron hồi tiếp (RNN) thực hiện các tính toán phức tạp dựa trên các yếu tố như trọng số W, giá trị ngõ vào tại thời điểm hiện tại x t, và giá trị đầu ra của tế bào trước đó a t-1 Dưới đây là mô tả chi tiết về các thông số liên quan đến quá trình tính toán bên trong của một tế bào RNN.

Hình 2.22: Mô tả tính toán bên trong 1 tế bào RNN [18]

Tại thời điểm t, giá trị dự đoán 𝒚s 𝒕 được tính toán dựa trên giá trị ngõ ra a t-1 từ nơ-ron trước đó và giá trị ngõ vào hiện tại x t Các trọng số tương ứng cho giá trị ngõ vào trước đó là W aa a (t-1), trong khi trọng số cho giá trị ngõ vào hiện tại là W aa x (t) Giá trị bias tại thời điểm t cũng được tính đến Giá trị tính được a t tại tế bào thời điểm t sẽ được sử dụng để tính toán cho tế bào ở thời điểm x t+1 tiếp theo Hàm kích hoạt được sử dụng trong quá trình này là hàm tanh.

(2.16) (2.17) dụng tính toán trong mạng RNN Mỗi đầu ra a t (sử dụng hàm tanh) và giá trị dự đoán y t (sử dụng hàm softmax) được xác định bởi công thức (2.16) và (2.17)

Huấn luyện mạng RNN gồm lan truyền tiến (forward) và lan truyền ngược (backward) để cập nhật các trọng số của mô hình v Lan truyền tiến trong mạng RNN

Với một tế bào RNN tính toán lan truyền tiến (rnn_cell_forward) được thực hiện như sau:

Bước 1: Tính các trạng thái ẩn bởi hàm kích hoạt tanh

𝑎 7 = tanh (𝑊 88 𝑎 7!) + 𝑊 89 𝑎 7 + 𝑏 8 ) Bước 2: Sử dụng trạng thái ẩn mới, tính giá trị dự đoán 𝒚s(𝒕) bởi hàm kích hoạt softmax:

𝑦y 7 = softmax(𝑊 :8 𝑎 7 + 𝑏 : ) Bước 3: Lưu trữ trạng thái tạm thời

Bước 4: Trả ra bộ giá trị gồm: 𝑎 7 , 𝑦y 7 , 𝑣à cache

Kiến trúc mạng RNN bao gồm các tế bào lặp lại, với các tế bào này kết nối với nhau để tạo thành mạng RNN Tổng quan về mạng RNN có thể được mô tả như sau:

Hình 2.23: Mô tả tính toán liên kết giữa các tế bào RNN [18]

Khi đó, việc tính toán lan truyền tiến toàn bộ mạng RNN được thực hiện bởi các bước sau:

Bước 1: Khởi tại vec-tơ zero cho ngõ ra a t , vec-tơ này được sử dụng lưu trữ các trạng thái được tính toán của mạng RNN

Bước 2: Khởi tạo trạng thái ẩn phía trước nơ-ron đầu tiên là a 0

Bước 3: Tiếp tục lặp lại quy trình với thời điểm t tăng dần bằng cách cập nhật trạng thái ẩn tiếp theo và cache thông qua hàm tính toán trên một tế bào (rnn_cell_forward) Lưu trữ trạng thái ẩn tại thời điểm t trên biến a, lưu lại giá trị dự đoán 𝒚s, và thêm cache vào danh sách caches đã có trước đó.

Bước 4: Trả ra 𝒂, 𝒚s, 𝑣à 𝑑𝑎𝑛ℎ 𝑠á𝑐ℎ 𝒄𝒂𝒄𝒉𝒆 v Lan truyền ngược liên hồi

Huấn luyện mạng nơ-ron hồi quy (RNN) sử dụng thuật toán lan truyền ngược liên hồi (BPTT) do đạo hàm tại mỗi đầu ra phụ thuộc vào các tính toán không chỉ ở bước hiện tại mà còn ở các bước trước đó Các tham số trong mạng RNN được chia sẻ cho tất cả các bước, điều này giúp tối ưu hóa quá trình huấn luyện và cải thiện khả năng dự đoán của mô hình.

Xem xét công thức tính ngõ ra tại mỗi tế bào RNN:

𝑦s = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥(𝑉𝑠 7 7 ) Với 𝑦 7 là giá trị đích (target) ở bước t, và 𝑦s 7 là giá trị dự đoán Định nghĩa hàm mất mát (hay hàm lỗi) dạng cross entropy như sau:

Mỗi chuỗi đầy đủ (một câu) là một mẫu Khi đó, tổng số lỗi chính là tổng của tất cả các lỗi ở mỗi bước (mỗi từ) – hình 2.24

Hình 2.24: Mô tả lỗi của toàn mạng RNN [18]

Mục tiêu của bài viết là tính đạo hàm của hàm lỗi theo các tham số U, V, W bằng cách sử dụng phương pháp SGD (Stochastic Gradient Descent - Gradient Descent ngẫu nhiên) Tương tự như việc tổng hợp các lỗi, chúng ta cũng sẽ tổng hợp các đạo hàm tại mỗi bước cho từng mẫu huấn luyện.

7𝜕𝑊 Áp dụng quy tắt vi phân (Chain Rule) để tính lan truyền ngược lỗi:

Trong đó, ⨂ là phép nhân 2 vectơ, 𝑧 ; = 𝑉 < ! Qua công thức này, 12 13 ! chỉ còn phụ thuộc vào 𝐲• , 𝑦 𝟑 ; và 𝑠 ; Nhưng với W và U thì được tính như sau:

𝜕𝑊 Với, 𝑠 ; = tanh (𝑈𝑥 7 + 𝑊𝑠 # ) phụ thuộc vào 𝑠 # và 𝑠 # lại phụ thuộc vào W, 𝑠 # không thể được xem là hằng số để tính toán với V được Vì thế biến đổi tiếp như sau:

Như vậy, với W, phải lan truyền từ t 3 về t 0 bằng cách phải cộng tất cả các đầu ra ở các bước trước

Hình 2.25: Mô tả tính lỗi lan truyền trong mạng RNN [18] Điểm khác với lan truyền ngược truyền thống là cộng tổng các đạo hàm của

W tại mỗi bước thời gian Tương tự lan truyền ngược dạng truyền thống, vec-tơ 𝜹 khi lan truyền ngược như sau

𝜕𝑧 # Với, 𝑧 # = 𝑈𝑥 # + 𝑊𝑠 # Các bước tiếp theo có thể tính toán tương tự như lan truyền ngược dạng truyền thống

2.4.3 Vấn đề bùng nổ đạo hàm và mất đạo hàm

Mạng RNN gặp khó khăn trong việc liên kết các từ khi chúng ở xa nhau, điều này xuất phát từ cách tính đạo hàm trong mô hình kiến trúc và hoạt động của mạng.

Kết quả thu được từ công thức này là một ma trận Jacobi :

Hàm kích hoạt, bao gồm hàm tanh và sigmoid, cho kết quả đầu ra trong khoảng [-1, 1] Đạo hàm của hàm tanh nằm trong khoảng [0, 1], trong khi đạo hàm của hàm sigmoid nằm trong khoảng [0, 0.25] Hình 2.26 và 2.27 minh họa rõ nét về hàm tanh và hàm sigmoid.

Hình 2.26: Biểu diễn hàm tanh và đạo hàm [19]

Hình 2.27:Biểu diễn hàm sigmoid và đạo hàm [19]

Bùng nổ đạo hàm có thể dẫn đến việc tạo ra các giá trị rất lớn (NaN), gây ra sự ngừng hoạt động của chương trình Tuy nhiên, chúng ta có thể thiết lập một ngưỡng giá trị cho đạo hàm để kiểm soát tình trạng này.

Mất mát đạo hàm (vanishing) là một vấn đề phức tạp trong học sâu, nhưng có thể được khắc phục bằng cách khởi tạo hợp lý các tham số W và sử dụng hàm kích hoạt ReLU thay vì tanh hay sigmoid Việc sử dụng ReLU giúp kiểm soát vấn đề mất mát đạo hàm nhờ vào giá trị đạo hàm của nó là 0 hoặc 1.

THIẾT KẾ MÔ HÌNH NHẬN DẠNG

Giới thiệu về kiến trúc mô hình nhận dạng

The end-to-end model in deep learning significantly impacts speech recognition by enabling direct conversion from audio to text Two popular models in this domain are Baidu Research's Deep Speech and Google's Listen, Attend and Spell (LAS) Both models utilize recurrent neural network (RNN) architectures but approach speech recognition differently Deep Speech employs Connectionist Temporal Classification (CTC) loss function for predictions, while LAS utilizes a Sequence-To-Sequence architecture for text prediction.

Luận văn này xây dựng mô hình nhận dạng tiếng Việt dựa trên ý tưởng của mô hình được trình bày trong bài báo “Deep Speech 2: End-to-End Speech

Recognition in English and Mandarin” [2] – mô hình cải tiến từ Deep Speech 1 của

Baidu Research, được công bố 2015, công trình nghiên cứu này trình thực hiện trên tiếng Anh và tiếng Trung - Quan Thoại ( Mandarin)

Kiến trúc mô hình DeepSpeech2 được Baidu Research đề xuất mô tả hình 3.1

Hình 3.1: Mô hình kiến trúc Deep Speech 2 [2]

Kiến trúc Deep Speech 2, do Baidu Research phát triển, sử dụng spectrogram của tín hiệu âm thanh làm dữ liệu đầu vào Kiến trúc này bao gồm từ 1 đến 3 lớp mạng nơ-rôn tích chập (CNN 1D hoặc 2D), tiếp theo là từ 1 đến 7 lớp mạng hồi quy (RNN hoặc GRU Bidirectional), và kết thúc với lớp Fully Connected Để dự đoán đầu ra, kiến trúc này áp dụng hàm mất mát CTC.

Đề tài nghiên cứu tập trung vào việc xây dựng bộ dữ liệu chất lượng cho huấn luyện nhận dạng tiếng nói tiếng Việt và phát triển mô hình dựa trên mạng nơ-ron hồi quy theo kiến trúc Deep Speech 2 Quá trình thực hiện bao gồm việc thử nghiệm và điều chỉnh các thông số mô hình để đạt được độ chính xác cao khi nhận diện tín hiệu âm thanh từ người nói trong môi trường tự nhiên Nghiên cứu được chia thành ba giai đoạn chính: tạo tập dữ liệu mẫu, huấn luyện mô hình nhận dạng tiếng nói và nhận dạng tiếng nói kèm theo hiệu chỉnh độ chính xác.

Sơ đồ khối của mô hình nhận dạng tiếng Việt được áp dụng trong đề tài minh hoạ ở hình 3.2, gồm 3 công đoạn chính:

• Công đoạn (1): Rút trích đặc trưng của tín hiệu tiếng nói sử dụng phương pháp MFCC, đầu ra là một bộ vec-tơ đặc trưng của tín hiệu

Công đoạn huấn luyện là bước quan trọng trong việc xây dựng mô hình nhận dạng tiếng nói, sử dụng đầu vào là bộ vectơ MFCC và tập nhãn dữ liệu Quá trình này bao gồm việc đưa dữ liệu qua các lớp mạng CNN và lớp LayerNorm để chuẩn hóa, sau đó sử dụng mạng nơ-ron RNN và lớp Fully Connected nhằm tìm kiếm bộ trọng số tối ưu Kết quả đầu ra là mô hình có khả năng nhận diện vectơ MFCC và cung cấp xác suất xuất hiện của các ký tự nhận dạng.

Công đoạn thứ ba là dự đoán kết quả, trong đó sử dụng bộ vec-tơ đặc trưng kết hợp với mô hình đã được huấn luyện ở công đoạn hai Quá trình này bao gồm việc ghép nối các ký tự đã được nhận dạng để tạo thành văn bản hoàn chỉnh, bao gồm các từ.

Trong công đoạn hiệu chỉnh, quá trình nhận dạng có thể gặp sai sót do độ chính xác của mô hình Do đó, các từ được nhận dạng sẽ được điều chỉnh để đảm bảo có được văn bản nhận dạng tốt nhất.

Hình 3.2: Sơ đồ khối hệ thống nhận dạng tiếng nói

Kiến trúc mô hình được trình bày trong hình 3.3 dựa trên đề xuất của DeepSpeech 2, trong đó đầu vào là tín hiệu âm thanh thô Quá trình tiền xử lý bao gồm giảm nhiễu, khuếch đại tín hiệu và rút trích đặc trưng, chuyển đổi tín hiệu thành biểu đồ phổ với kích thước (N_timesteps, N_frequency_features) Kích thước N_timesteps phụ thuộc vào độ dài tín hiệu âm thanh, trong khi N_frequency_features được xác định bởi số lượng đặc trưng được chọn Tiếp theo, mạng học sâu (Deep Neural Network - DNN) bao gồm nhiều lớp mạng nơ-ron CNN và RNN, với đầu ra là xác suất P_t(c) cho các ký tự tương ứng tại mỗi bước thời gian từ bộ ký tự cần nhận dạng.

Mô hình nhận dạng được huấn luyện bằng hàm mất mát CTC-Loss để nhận diện ký tự từ tín hiệu âm thanh Đặc biệt, với hướng nghiên cứu tập trung vào nhận dạng tiếng Việt, phương pháp đánh giá tỉ lệ lỗi từ (Word Error Rate - WER) đã được chọn để đo lường độ chính xác của mô hình trong quá trình huấn luyện.

Hình 3.3: Mô tả về kiến trúc mô hình nhận dạng [20]

Thông tin tính toán trên mạng nơ-ron thường ở dạng số, do đó, bước cuối cùng là sử dụng bộ giải mã (Decoder) để chuyển đổi xác suất số thành các ký tự và từ tương ứng Hai bộ giải mã phổ biến trong mô hình áp dụng CTC-loss là Greedy Search và Beam Search.

Bộ giải mã Greedy Search hoạt động bằng cách chọn ký tự có xác suất cao nhất tại mỗi bước thời gian và kết hợp chúng thành một chuỗi ký tự, gọi là path có xác suất lớn nhất Quá trình này loại bỏ các ký tự trùng nhau và các khoảng trắng để tạo ra kết quả cuối cùng là một chuỗi từ dự đoán Thuật toán này có ưu điểm là nhanh chóng, đơn giản và dễ áp dụng, nhưng nhược điểm là chưa được tối ưu, vì nếu một ký tự trong từ bị nhận dạng sai, toàn bộ từ đó sẽ bị xem là sai.

Bộ giải mã Beam Search thực hiện tìm kiếm toàn bộ không gian tại mỗi bước, lấy ra k kết quả có điểm số cao nhất, thường từ 5 đến 10, thay vì chỉ chọn 1 như Greedy Search Mặc dù giá trị k càng lớn thì thời gian tìm kiếm càng nhiều, nhưng với k = 1, Beam Search trở thành Greedy Search Nhược điểm chính của Beam Search là thời gian tìm kiếm, nhưng nó được lựa chọn trong luận văn này để tăng độ chính xác sau quá trình nhận dạng và hiệu chỉnh.

Các kỹ thuật áp dụng trong mô hình

Chuẩn hoá dữ liệu cho từng tính năng giúp duy trì sự đóng góp của mọi tính năng, đặc biệt khi giá trị của một số tính năng cao hơn đáng kể so với các tính năng khác Ngoài ra, chuẩn hoá còn giảm thiểu Internal Covariate Shift (ICS), tức là sự thay đổi phân phối của các hàm kích hoạt trong mô hình do sự thay đổi các tham số trong quá trình huấn luyện Việc này cũng giúp ngăn chặn tình trạng bùng nổ đạo hàm Hiện nay, có nhiều phương pháp chuẩn hoá như Batch Normalization và Layer Normalization.

Layer Normalization là một phương pháp cải thiện tốc độ huấn luyện mạng bằng cách tính toán các thống kê chuẩn hóa trực tiếp từ các đầu vào và tổng hợp chúng đến các nơ-ron trong lớp ẩn Phương pháp này thực hiện việc chuẩn hóa đầu vào dựa trên các đặc trưng (features), giúp nâng cao hiệu suất của mô hình.

3.2.2 Trình tối ưu và hệ số tốc độ học

Việc lựa chọn trình tối ưu (Optimizer) và hệ số tốc độ học (Learning Rate) là rất quan trọng để đưa mô hình hội tụ đến điểm tốt nhất, giúp tiết kiệm thời gian huấn luyện và cải thiện khả năng tổng quát của mô hình Trong nghiên cứu này, trình tối ưu AdamW kết hợp với OneCycleLR (One Cycle Learning Rate Scheduler) đã được lựa chọn cho mô hình AdamW, một cải tiến của Adam, giúp mô hình hội tụ nhanh hơn và khắc phục vấn đề tổng quát hóa của Adam, trong khi OneCycleLR, được giới thiệu trong bài báo “Super-convergence: very fast training of neural networks using large learning rates” năm 2019, cho thấy khả năng huấn luyện mạng nơ-ron nhanh chóng bằng cách sử dụng Learning Rate lớn Ý tưởng của OneCycleLR là bắt đầu với Learning Rate thấp, sau đó tăng tối đa và giảm tuyến tính về điểm ban đầu.

3.3.3 Đánh giá lỗi với CTC Loss

Mô hình được đào tạo nhằm nhận diện các ký tự và dự đoán xác suất xuất hiện của chúng trong bảng ký tự, cụ thể là xác định ký tự tương ứng với từng khung (frame) trong phổ đầu vào của mô hình.

CTC (Connectionist Temporal Classification) là một thuật toán quan trọng trong mạng học sâu, đặc biệt trong nhận dạng tiếng nói và chữ viết tay Khác với các mô hình truyền thống yêu cầu dán nhãn chính xác cho từng đoạn âm thanh, CTC cho phép tự động cân chỉnh khung và nhãn trong quá trình huấn luyện, với những chỗ không có nhãn được gán là “NULL” Đầu ra từ mạng RNN sẽ nhận diện một chuỗi ký tự theo thời gian, và hàm CTC loss sẽ đánh giá lỗi giữa đầu ra huấn luyện và kết quả dự đoán, từ đó cập nhật trọng số Ví dụ, trong mỗi bước thời gian, mạng RNN có thể dự đoán một ký tự, dẫn đến đầu ra như “HHHHHeeeeeelllllllloooooo”, và để so sánh với nhãn huấn luyện “Hello”, cần loại bỏ các giá trị trùng lặp.

“Helo” và rõ ràng là sai với nhãn so sánh là “Hello” Với CTC loss sẽ giúp chúng ta làm việc này

3.3.4 Đánh giá độ chính xác mô hình bởi WER

Mô hình áp dụng bộ giải mã tham lam (Greedy Search Decoder) để chuyển đổi dữ liệu thành văn bản cần nhận dạng, và sử dụng hệ số WER (Word Error Rate) để đánh giá độ chính xác của mô hình WER đo lường sự khác biệt giữa hai chuỗi ở cấp độ từ, giúp xác định hiệu quả của quá trình nhận dạng văn bản.

WER được tính bởi công thức sau:

Số từ bị thay thế (S), số từ được chèn vào (I), số từ bị xoá (D), và số lượng từ so sánh (N) là các yếu tố quan trọng trong việc đánh giá độ khác nhau giữa hai câu Hệ số WER sẽ lớn khi có sự khác biệt đáng kể giữa hai câu này.

Thu thập và xử lý dữ liệu

3.3.1 Thu thập bộ dữ liệu huấn luyện và thử nghiệm Độ chính xác mô hình nhận dạng tiếng nói phụ thuộc nhiều yếu tố, trong đó dữ liệu lớn và dữ liệu đủ tốt là một yếu tố hết sức quan trọng Quá trình thu thập dữ liệu từ các nguồn khác nhau sẽ xảy ra bất đồng bộ giữa các bộ dataset Để thuận lợi cho quá trình huấn luyện, tất cả các dữ liệu âm thanh thu thập được đều được chuẩn hoá về cùng một loại: ỉ Tập tin định dạng wav, tần số lấy mẫu 16Khz, và những mẫu tập tin õm thanh dữ liệu huấn luyện đều có độ dài 1.3 giây đến 15 giây và các tập tin chứa từ 5 từ đến 20 từ ỉ Tập tin chứa dữ liệu gỏn nhón theo định dạng: [TEN_AUDIO] [LABEL] ỉ Cỏc nhón (LABEL) của cõu viết in hoa, và mỗi dũng là thụng tin của một mẫu dữ liệu, bên dưới là minh hoa cho định dạng lưu trữ tập gán nhãn: Ở nghiên cứu này, em lựa chọn 3 bộ dữ liệu hỗ trợ cho việc huấn luyện mô hình nhận dạng tiếng Việt:

Bộ dữ liệu VIVOS Corpus bao gồm 12.420 tệp âm thanh định dạng wav, trong đó có 11.660 tệp dành cho huấn luyện và 760 tệp cho kiểm thử Mỗi tệp chứa số lượng câu được gán nhãn khác nhau, với độ dài từ 2 đến 35 từ Sau khi lọc các tệp rỗng và chuẩn hóa dữ liệu, bộ dữ liệu VIVOS hiện có 9.263 tệp âm thanh cho huấn luyện và 726 tệp cho kiểm thử.

Bộ dữ liệu VIN Data bao gồm 112.854 tập tin âm thanh Sau khi loại bỏ các tập tin quá dài, quá ngắn và dữ liệu rỗng, cùng với việc chuẩn hóa dữ liệu, bộ dữ liệu huấn luyện còn lại có 20.000 tập tin âm thanh, trong khi bộ dữ liệu kiểm tra có 6.426 tập tin âm thanh.

Bộ dữ liệu FPT bao gồm 109.218 tệp âm thanh định dạng mp3 với tần số lấy mẫu 48Khz Quá trình chuẩn hóa dữ liệu đã chuyển đổi các tệp mp3 sang định dạng wav, giảm tần số lấy mẫu xuống 16Khz, và loại bỏ những tệp quá dài, quá ngắn hoặc rỗng Kết quả cuối cùng là tập dữ liệu huấn luyện gồm 15.700 tệp âm thanh và tập dữ liệu kiểm tra gồm 7.213 tệp âm thanh.

3.3.2 Chuẩn bị bản đồ số ký tự cần nhận dạng tiếng Việt

Nghiên cứu này tập trung vào mô hình nhận dạng chuỗi ký tự tiếng Việt, với mục tiêu ghép nối các ký tự để tạo thành từ Bộ dữ liệu sử dụng bao gồm 95 ký tự, bao gồm cả ký tự không dấu và có dấu, cùng với dấu cách Mỗi ký tự được đánh số thứ tự để thuận tiện cho việc mã hóa nhãn tín hiệu Các ký tự trong bộ dữ liệu bao gồm: a, b, c, d, á, ả, à, ạ, ă, ắ, ằ, ẳ, ặ, â, ấ, ầ, e, ê, ế, ể, o, ô, ố, ổ, ơ, v.v Bộ dữ liệu này hoạt động như một bản đồ số, giúp mã hóa và lưu trữ ánh xạ giữa ký tự và số, đồng thời hỗ trợ việc xây dựng bộ mã hóa và giải mã ký tự.

Xây dựng công cụ mã hoá nhãn kí tự sang số và giải mã từ số sang kí tự để hiển thị văn bản Hàm mã hoá sẽ gán mỗi kí tự trong danh sách cần nhận dạng một số duy nhất Quá trình giải mã tìm kiếm ký tự tương ứng với số đã mã hoá Bản đồ số kí tự này đóng vai trò quan trọng trong huấn luyện và dự đoán của mô hình.

3.3.3 Rút trích đặt trưng MFCC của tín hiệu và chuẩn hoá độ dài

Mô hình sử dụng dữ liệu đầu vào là các bộ vectơ chứa các đặc trưng của tín hiệu âm thanh Phương pháp rút trích đặc trưng MFCC được áp dụng để lấy ra những thành phần quan trọng từ tập tin âm thanh đầu vào.

Mô tả về hình dạng tín hiệu số của một tập tin âm thanh gồm 5 từ chiều dài 1.9 giây như hình 3.4

Hình 3.4: Minh hoạ tín hiệu số [14]

Sau khi áp dụng phương pháp rút trích đặc trưng MFCC, luận văn này lựa chọn 128 bộ lọc để tạo ra kết quả phân tích âm thanh chính xác hơn.

128 đặc trưng của tín hiệu, quan sát phổ mô tả các hệ số MFCC ở hình 3.5

Hình 3.5: Minh hoạ dạng phổ các hệ số MFCC [14]

Để đảm bảo các tập tin audio đầu vào có độ dài đồng nhất cho quá trình huấn luyện mô hình, cần chuẩn hóa độ dài tín hiệu bằng cách sử dụng chiều dài của tín hiệu dài nhất làm chuẩn Giải pháp được đề xuất là bổ sung các dãy zero (padding) vào các tín hiệu có độ dài ngắn hơn, từ đó chuẩn hóa độ dài của bộ vector spectrogram, giúp quá trình huấn luyện diễn ra hiệu quả hơn.

3.3.4 Số hoá các nhãn văn bản

Máy tính không thể xử lý dữ liệu ở định dạng văn bản, do đó cần mã hóa các nhãn thành các vectơ số Mỗi từ được cấu thành từ các ký tự, và mỗi ký tự sẽ được mã hóa thành một số tương ứng theo bản đồ số ký tự đã đề cập Cuối cùng, các số này được ghép nối lại để tạo thành bộ số cho từng nhãn dữ liệu.

Sau khi mã hoá, các nhãn sẽ có độ dài khác nhau tùy thuộc vào số lượng từ Để chuẩn hóa, chiều dài bộ nhãn dài nhất sẽ được sử dụng làm chuẩn, và các bộ nhãn có độ dài ngắn hơn sẽ được bổ sung padding zero.

3.3.5 Tăng cường đa dạng dữ liệu

Trong quá trình huấn luyện mô hình, tăng cường dữ liệu là cần thiết để mở rộng kích thước và sự đa dạng của tín hiệu Kỹ thuật này đặc biệt quan trọng khi dữ liệu huấn luyện không đủ lớn, giúp ngăn ngừa tình trạng overfitting Nghiên cứu này chỉ sử dụng 3 bộ dữ liệu không đầy đủ, vì vậy việc áp dụng kỹ thuật tăng cường dữ liệu là cần thiết để giảm bớt tạp âm Một phương pháp hiệu quả là tăng cường phổ (SpecAugment), được chứng minh là đơn giản nhưng mang lại kết quả tốt trong việc cải thiện chất lượng dữ liệu.

Nghiên cứu về "Nhận diện giọng nói tự động" [5] cho thấy việc cắt bỏ các phần hoặc khối ngẫu nhiên từ phổ tín hiệu có thể nâng cao tính đa dạng và tổng quát của mô hình Hình 3.6 minh họa quá trình cắt ngẫu nhiên này trong phổ tín hiệu.

Hình 3.6: Mô tả ảnh phổ bị cắt ngẫu nhiên để tăng cường dữ liệu [14]

Xây dựng các lớp mạng nơ-ron

Mô hình được xây dựng bằng cách kết hợp nhiều lớp mạng CNN, GRU, LSTM và lớp Fully Connected, đồng thời tích hợp các lớp chuẩn hóa LayerNorm và Dropout Sơ đồ mô tả cấu trúc các lớp mạng trong quá trình phát triển mô hình được trình bày trong hình 3.7.

Mô hình nhận dạng được xây dựng với cấu trúc cụ thể, bao gồm 128 đặc trưng đầu vào và 96 lớp đầu ra, trong đó có 95 ký tự cần nhận dạng và một ký tự rỗng (NULL) Hệ số learning rate được thiết lập là 0.0005, và kích thước batch size được lựa chọn linh hoạt từ 3, 5, 20 đến 32, tùy thuộc vào số lượng dữ liệu và cấu hình máy tính trong quá trình thí nghiệm.

The neural network architecture consists of a pure CNN layer with an input of 1, an output of 32, a kernel size of 3x3, and a stride of 2 This is followed by three Residual Network (ResNet) layers, each designed to enhance the model's performance through skip connections.

• Hai lớp CNN (ngõ vào là: 32, ngõ ra: 32, kernel: 3x3, stride=1)

• Gắn thêm 2 Dropout với p=0.1 tương ứng với hai lớp CNN

Bài viết đề cập đến việc sử dụng hai lớp chuẩn hóa LayerNorm kết hợp với hai lớp CNN Sau đó, một lớp Fully Connected được thêm vào, với đầu ra là 512 hoặc 1024, tùy thuộc vào quá trình thử nghiệm trong xây dựng mô hình, nhằm phù hợp với số kênh đầu vào của lớp RNN tiếp theo Cuối cùng, mô hình bao gồm 5 lớp mạng Bidirectional GRU hoặc LSTM, mỗi lớp đóng vai trò quan trọng trong việc xử lý thông tin.

• Một lớp Bidirectional GRU hoặc Bidirectional LSTM

• Dropout (p=0.1) ỉ Cuối cựng là lớp phõn loại gồm:

• GELU (Gaussian Error Linear Units function);

• và một Full Connected cuối cùng (ngõ ra là 96 – tương ứng 95 kí tự cần nhận dạng và một kí tự rỗng “NULL”) v Hoạt động của mô hình

Mô hình bao gồm hai khối chính: khối mạng CNN và khối mạng RNN Mạng nơ-ron CNN rất hiệu quả trong việc phân tách và trích xuất các dữ liệu trừu tượng như hình ảnh và âm thanh Thay vì sử dụng lớp mạng CNN cơ bản (CNN Vanila), chúng ta áp dụng các lớp Residual CNN, được trình bày trong bài báo “Deep Residual Learning for”.

Bài báo "Image Recognition" được xuất bản năm 2016 bởi nhóm tác giả Kaiming He đã chỉ ra rằng việc sử dụng kết nối Residual trong các mạng CNN có thể nâng cao độ chính xác của mô hình.

Sau khối CNN sẽ cho ra bộ vec tơ là các feature của tín hiệu âm thanh, dữ liệu này là ngõ vào của khối RNN tiếp theo

Khối RNN được triển khai thông qua mạng hồi quy hai chiều (BiRNN), cho phép khai thác thông tin từ cả các thời điểm trước và sau thời điểm t Mô hình Bi-RNN bao gồm hai mạng RNN hoạt động ngược chiều nhau, với việc tính toán dựa trên hai trạng thái ẩn của chúng Luận văn nghiên cứu sử dụng hai kiến trúc mạng RNN mở rộng là GRU và LSTM Mạng GRU có tốc độ thực thi nhanh và tiết kiệm tài nguyên, trong khi mạng LSTM phức tạp hơn, yêu cầu nhiều tài nguyên hơn nhưng mang lại độ chính xác cao hơn cho mô hình.

Các lớp mạng CNN sử dụng lớp chuẩn hoá LayerNorm và áp dụng kỹ thuật Dropout với p=0.1 để giảm thiểu hiện tượng quá phù hợp (overfitting) Việc gắn Dropout giúp loại bỏ ngẫu nhiên một số nơ-ron trong lớp ẩn, từ đó giảm khối lượng tính toán trong mỗi epoch và tăng số lượng epoch cần thiết để hội tụ.

3.5 Hiệu chỉnh văn bản đầu ra

Hình 6.2 trình bày sơ đồ khối của toàn bộ mô hình, trong đó chuỗi từ được dự đoán sẽ được chuyển đến mô-đun hiệu chỉnh để cải thiện độ chính xác của mô hình.

Beam Search là một thuật toán quan trọng trong huấn luyện và kiểm thử mô hình nhận dạng Với giới hạn tìm kiếm là 10, thuật toán này sẽ chọn ra tối đa 10 câu có xác suất xuất hiện từ cao nhất tại mỗi thời điểm nhận dạng Sau đó, các câu này sẽ được ghép nối với nhau và loại bỏ các câu trùng lặp để đảm bảo tính chính xác và hiệu quả trong quá trình nhận dạng.

Tương ứng với 10 câu được đưa ra này, sẽ lần lượt tạo ra các bộ 2-gram, bởi vì trong tiếng Việt từ ghép có ý nghĩa hơn là từ đơn

Quá trình tạo 2-gram bao gồm việc kết hợp tất cả các cặp từ có thể từ 10 câu, với mỗi cụm chứa các tổ hợp 2-gram riêng biệt Đối với câu có độ dài L, sẽ có (L-1) số cụm được hình thành từ việc kết hợp từ ở vị trí thứ n với từ ở vị trí thứ n+1, bắt đầu từ n = 0 Trong mỗi cụm, các 2-gram được tạo ra từ các câu sẽ được tổng hợp, đồng thời loại bỏ những 2-gram trùng lặp.

Gọi X là số câu, Y là số từ trên mỗi câu thì số cụm là (Y-1) Mỗi cụm, sẽ có số tổ hợp 2-gram là (X^2), và lúc này tổng số 2-gram là: (Y-1) * (X^2)

Ví dụ: Có 3 câu được Beam Search đưa ra, mỗi câu gồm 6 từ như sau:

Câu 1: “húng ta làm việc hăm chỉ”

Câu 2: “chúng ca làm diệc chăm chi”

Câu 3: “chúng ta lam viêc hăm hỉ”

Khi đó, sẽ có các tổ hợp 2-gram như sau: “húng ta”, “húng ca”, “chúng ta”,

Bộ từ điển 2-gram được xây dựng từ dữ liệu thu thập từ các trang báo mạng và wiki tiếng Việt, bao gồm các chủ đề như kinh tế, văn hóa, xã hội, đời sống và giải trí Qua việc sử dụng công cụ mã nguồn mở Word Tokenize, các cụm từ ghép có nghĩa được phân tích và xác định xác suất xuất hiện trong bộ dữ liệu Kết quả là bộ từ điển 2-gram chứa 20.217 cụm từ ghép, được tổng hợp từ 2,514 tỷ từ, mỗi cụm từ đều đi kèm với xác suất xuất hiện, thể hiện sự phổ biến của chúng.

“đoàn thể,0.0001000418” => xác suất xuất hiện, phổ biến là: “0.0001000418”;

“nguyên tắc,0.00010016” => xác suất xuất hiện, phổ biến là: “0.00010016”;

“phụ huynh,0.00001404” => xác suất xuất hiện, phổ biến là: “0.00001404”;

Mô-đun hiệu chỉnh sẽ phân tích từng cụm và so sánh các tổ hợp 2-gram với bộ từ điển cùng các thuật toán khác nhau nhằm tìm ra 2-gram mới phù hợp nhất để hiệu chỉnh Quá trình này được thực hiện qua ba công đoạn.

Trong công đoạn đầu tiên, chúng ta lấy từng 2-gram trong mỗi cụm và so sánh với bộ từ điển Sử dụng thuật toán Levenshtein, chúng ta tính khoảng cách giữa các 2-gram 2-gram có khoảng cách nhỏ nhất, tức là độ tương đồng lớn nhất, sẽ được chọn để thay thế cho 2-gram cần hiệu chỉnh Số lượng tối đa được chọn ra là 10 bộ 2-gram.

HUẤN LUYỆN MÔ HÌNH VÀ KẾT QUẢ ĐẠT ĐƯỢC

Định dạng
Số trang	74
Dung lượng	5,2 MB