GIỚI THIỆU
Tổng Quan Về Nhận Dạng Tiếng Nói
Trong thời đại công nghệ thông tin hiện nay, máy móc tự động ngày càng thay thế con người trong nhiều công việc nhờ vào khả năng làm việc hiệu quả và độ chính xác cao Chúng đặc biệt hữu ích trong các môi trường nguy hiểm cho con người, với tốc độ xử lý ngày càng nhanh Tuy nhiên, giao tiếp giữa con người và máy móc vẫn còn khá thủ công, chủ yếu thông qua bàn phím và các thiết bị nhập dữ liệu.
Con người đang khao khát các thiết bị thông minh hơn, với tốc độ xử lý nhanh và khả năng tương tác bằng giọng nói Hiện nay, công nghệ xử lý tiếng nói đã phát triển mạnh mẽ và được ứng dụng rộng rãi, với độ chính xác ngày càng cao trong các hệ thống này.
Hệ thống nhận dạng tiếng nói (ASR) có tiềm năng ứng dụng rộng rãi trong nhiều lĩnh vực của đời sống, từ công nghiệp đến an ninh và giải trí Nếu được triển khai thành công, ASR sẽ cách mạng hóa giao tiếp giữa con người và máy móc.
Tình Hình Nghiên Cứu Trong Và Ngoài Nước
Tiếng nói là phương tiện giao tiếp tự nhiên nhất của con người, do đó, nghiên cứu để máy tính hiểu được tiếng nói, hay còn gọi là nhận dạng tiếng nói tự động (ASR), đang phát triển mạnh mẽ Trong những năm gần đây, nhiều hệ thống nhận dạng tiếng nói đã được đề xuất và phát triển, nhằm ứng dụng thực tiễn trong cuộc sống cũng như cải thiện độ chính xác của các thuật toán nhận dạng.
- Nghiên cứu của Masakiyo Fujimoto và Yasuo Ariki [13] về việc nhận dạng tiếng nói trong môi trường lái xe ô tô sử dụng thuật toán GMM dựa trên
Chương 1: Giới Thiệu phương pháp ước lượng tiếng nói và thuật toán EM dựa trên phương pháp ước lượng tiếng ồn.
Nghiên cứu của J C Segura, A de la Torre, M C Benite và A M Peinado tập trung vào việc áp dụng mô hình dựa trên phương pháp lấy bù nhằm loại bỏ ảnh hưởng của nhiễu trong hệ thống nhận dạng tiếng nói tự động Phương pháp này được kiểm tra thông qua các thí nghiệm sử dụng cơ sở dữ liệu AURORA II.
Phương pháp mô hình kết hợp song song (PMC) do M.J.F và S.J Young đề xuất được áp dụng cho hệ thống nhận dạng giọng nói trong môi trường có tiếng ồn, nhưng yêu cầu tính toán lớn Một phương pháp khác, gọi là “Spectral subtraction” (SS), cũng được sử dụng để giảm nhiễu thông thường, tuy nhiên, việc áp dụng SS có thể làm giảm tỷ lệ nhận dạng do hiện tượng biến dạng quang phổ.
Tại thời điểm này, tiếng nói được cho là đã được ghi âm trong môi trường tự nhiên, không bị ảnh hưởng bởi các điều kiện hạn chế Trước đây, các điều kiện này thường yêu cầu ghi âm trong phòng cách âm và do người bản xứ thực hiện.
Tại Việt Nam, nghiên cứu về nhận dạng tiếng nói liên tục với bộ từ vựng lớn (LVCRS) chủ yếu được thực hiện bởi hai nhóm Nhóm đầu tiên là Viện CNTT thuộc Viện KHCN Việt Nam, dẫn dắt bởi PGS.TS Lương Chi Mai, với đề tài trọng điểm cấp nhà nước về phát triển sản phẩm xử lý tiếng nói và văn bản Tiếng Việt Nhóm thứ hai là từ Đại học Khoa học Tự nhiên TP Hồ Chí Minh, do PGS.TS Vũ Hải Quân đứng đầu, tập trung vào các phương pháp như HMM và công cụ HTK, nghiên cứu các lĩnh vực như truy vấn thông tin Tiếng Việt, nhận dạng tiếng nói và hệ thống giao tiếp giữa người và máy Ngoài ra, còn có các đề tài khác liên quan đến chip nhận dạng Tiếng Việt trên nền công nghệ FPGA, sử dụng phương pháp trích đặc trưng MFCC và mô hình Markov ẩn (HMM) với nhiều cải tiến mới.
Hồ Chí Minh, website tra cứu địa điểm dựa trên công nghệ nhận dạng tiếng nóiTiếng Việt với tổng đài Asterisk [19].
Ý Nghĩa Của Đề Tài
Đề tài "Nhận dạng tiếng nói sử dụng kỹ thuật MFCC - Mạng nơron" của nhóm nghiên cứu nhằm thúc đẩy sự phát triển trong lĩnh vực nhận dạng tiếng nói, đồng thời tìm hiểu các thành tựu tiên tiến của các quốc gia khác.
Sau khi hoàn thành đề tài này, nhóm nghiên cứu hy vọng tài liệu sẽ hữu ích cho các ứng dụng trong lĩnh vực nhận dạng tiếng nói Hiện nay, nhiều nghiên cứu về nhận dạng giọng nói đã đạt được những kết quả tích cực và có ý nghĩa quan trọng trong một số lĩnh vực khác nhau.
Công nghệ nhận dạng tiếng nói đã cách mạng hóa cách thức tương tác giữa con người và thiết bị, chuyển từ các phương pháp truyền thống như bàn phím sang giao tiếp trực tiếp bằng giọng nói Trong bối cảnh kinh tế cạnh tranh, các thiết bị cho phép người dùng tương tác bằng âm thanh một cách tự nhiên và thuận tiện đang ngày càng thu hút sự chú ý.
Các hệ thống nhận dạng tiếng nói hiện nay chủ yếu dựa vào phương pháp thống kê và so khớp mẫu, yêu cầu kiến thức về ngữ âm và một lượng lớn dữ liệu huấn luyện Dữ liệu này bao gồm cả âm thanh và văn bản, giúp cải thiện độ chính xác của bộ nhận dạng Số lượng dữ liệu huấn luyện càng lớn, khả năng đưa ra kết quả chính xác của bộ nhận dạng càng cao.
Mục Tiêu Và Phương Pháp Nghiên Cứu
- Trích chọn được đặc trưng của tiếng nói tạo thành tập mẫu cho huấn luyện và nhận dạng.
- Xây dựng mô hình nhận dạng tiếng nói bằng mạng nơron trên matlab.
- Tìm hiểu các bước thực hiện phương pháp trích chọn đặc trưng MFCC
- Thực hiện trích chọn các đặc trưng của tiếng nói trên matlab.
- Nghiên cứu tổng quan về mạng nơron nhân tạo và đi sâu vào nghiên cứu thuật toán lan truyền ngược.
- Mô phỏng mô hình nhận dạng tiếng nói sử dụng mạng nơron nhân tạo.
Nội Dung Nghiên Cứu Của Đề Tài
Với đề tài “Nhận dạng tiếng nói sử dụng kỹ thuật MFCC - Mạng nơron” nhóm tập trung nghiên cứu các vấn đề cụ thể sau:
Chương 1:Giới thiệu tổng quan về nhận dạng tiếng nói, tình hình nghiên cứu trong và ngoài nước.
Chương 2: Các đặc điểm âm học của tiếng nói, nguyên tắc hoạt động của hệ thống nhận dạng tiếng nói.
Chương 3: Phương pháp trích chọn đặc trưng MFCC.
Chương 4: Mạng nơron nhân tạo và thuật toán lan truyền ngược.
Chương 5: Nhận dạng tiếng nói dùng MFCC và mạng nơron nhân tạo.
CƠ SỞ THUYẾT
Lịch Sử Phát Triển Của Các Hệ Thống Nhận Dạng Tiếng Nói
Nghiên cứu về nhận dạng tiếng nói đã tồn tại gần một thế kỷ và trải qua nhiều giai đoạn phát triển công nghệ khác nhau Các công nghệ nhận dạng tiếng nói có thể được phân loại thành nhiều giai đoạn theo tiến trình nghiên cứu và ứng dụng của chúng.
Giai đoạn đầu tiên của công nghệ nhận dạng giọng nói diễn ra từ những năm 30 đến những năm 50, tập trung vào việc nhận diện âm thanh và các bộ từ vựng với số lượng từ tách biệt hạn chế.
Giai đoạn thứ hai của công nghệ nhận diện âm thanh diễn ra từ những năm 50 đến những năm 60, trong đó áp dụng các phương pháp ngữ âm học âm thanh để nhận dạng phonemes, âm tiết và từ vựng.
Giai đoạn thứ ba trong nhận dạng tiếng nói diễn ra từ những năm 60 đến 80, tập trung vào việc sử dụng các biện pháp nhận dạng mẫu để nhận diện tín hiệu tiếng nói với các bộ từ vựng nhỏ và vừa Phương pháp này bao gồm việc áp dụng phân tích LPC để tìm ra điểm tương đồng giữa các mẫu thông qua các đo lượng khoảng cách LPC Đồng thời, các giải pháp lập trình động được sử dụng để chỉnh sửa thời gian, và nhận dạng mẫu được áp dụng để phân loại các mẫu thành các mẫu tham chiếu nhất quán Cuối cùng, phương pháp mã hóa lượng tử hóa vector giúp giảm kích thước dữ liệu và tối ưu hóa tính toán.
Giai đoạn thứ tư của công nghệ nhận dạng tiếng nói, bắt đầu từ những năm 80, áp dụng các phương pháp thống kê với mô hình Markov ẩn (HMM) để mô phỏng tính chất động và thống kê của tín hiệu Các kỹ thuật huấn luyện lan truyền xuôi – ngược và phân đoạn K – trung bình được sử dụng, cùng với phương pháp chỉnh thời gian Viterbi và thuật toán độ tương đồng tối đa Hệ thống này cũng tích hợp nhiều tiêu chuẩn chất lượng để tối ưu hóa các mô hình thống kê, sử dụng mạng nơron để ước lượng các hàm mật độ xác suất có điều kiện và các thuật toán thích nghi để điều chỉnh các tham số liên quan đến tín hiệu tiếng nói.
Chương 2: Cơ Sở Lý Thuyết với mô hình thống kê để nâng cao tính tương thích giữa mô hình và dữ liệu nhằm tăng tính chính xác của phép nhận dạng.
Giai đoạn thứ năm đánh dấu sự phát triển của công nghệ nhận dạng tiếng nói thế hệ mới, với việc áp dụng các giải pháp xử lý song song nhằm nâng cao độ tin cậy của kết quả nhận dạng Công nghệ này kết hợp giữa mô hình Markov ẩn (HMM) và các phương pháp âm vị học để phát hiện và khắc phục các ngôn ngữ ngoại lệ, đồng thời cải thiện độ chính xác trong môi trường có nhiễu Ngoài ra, việc sử dụng học máy giúp xây dựng các kết hợp tối ưu giữa các mô hình, tạo ra một hệ thống nhận dạng mạnh mẽ và hiệu quả hơn.
Việc phân chia các giai đoạn trong nghiên cứu công nghệ chỉ mang tính tương đối về thời gian, vì các giai đoạn không tách rời mà thường kế thừa các ý tưởng cốt lõi từ giai đoạn trước Sự phân chia này nhằm mục đích làm nổi bật các kết quả nghiên cứu quan trọng liên quan đến công nghệ của từng giai đoạn, từ đó trở thành tiêu chuẩn cho hầu hết các hệ thống nhận dạng trong giai đoạn đó.
Các Khái Niệm Và Đặc Điểm Âm Học Của Tiếng Nói
Tiếng nói là sóng âm truyền tải thông tin qua các dao động, đi đến tai người nhận Nó được coi là phương thức truyền tin nhanh nhất trong các khả năng tự nhiên của con người.
Khác với sách, báo và thư tín, tiếng nói cho phép truyền tải thông tin theo chiều hai chiều, giúp thể hiện bản thân một cách sinh động Trong khi sách báo ghi lại thông tin để tham khảo sau này, tiếng nói phản ánh cách giao tiếp và khả năng ứng xử của mỗi người, từ đó đánh giá được trình độ và nhân cách Tiếng nói chính là phương tiện truyền tin nhanh chóng và hiệu quả nhất của con người.
Tiếng nói có rất nhiều đặc tính:
- Đặc tính của sóng âm gồm các đặc tính sinh lý , vật lý như: cường độ, tần số, biên độ, năng lượng, âm sắc, độ cao,…
- Đặc tính xã hội như: ngữ điệu, sắc thái tình cảm, địa phương,…
Trong giao tiếp hàng ngày, một người thường sử dụng từ vựng dao động từ 2000 đến 3000 từ Trung bình, số lượng từ được sử dụng rơi vào khoảng 5000 đến 10000 từ.
Nghiên cứu về nhận dạng tiếng nói trên máy tính, ta sẽ xem xét chủ yếu đến tần số, biên độ (hay năng lượng) [4]
2.2.1 Sự Phân Bố Về Biên Độ
Khi tiến hành thống kê trên 80 người, mỗi ngôn ngữ có 4 người tham gia, kết quả cho thấy biên độ tối đa của một tiếng nói có thể vượt quá 50dB Trong một chuỗi tiếng nói, âm thanh sẽ phân bố liên tục theo hình sin.
2.2.2 Sự Phân Bố Về Tần Số
Nghiên cứu về phát âm cho thấy khi tần số từ thấp đến cao, biên độ âm thanh giảm dần Cả nam và nữ đều có đặc điểm này, với tiếng nói của chúng ta theo tần số tạo thành một đường cong có độ dốc khoảng -10 dB/Octave.
2.2.3 Sự Biến Đổi Các Tần Số Cơ Bản
Thống kê cho thấy tần số giọng nữ có giá trị trung bình và độ lệch gấp đôi so với giọng nam Ngoài ra, khoảng lặng giữa các từ trong tiếng nói giúp làm cho giọng nói nghe êm ái hơn, với tần số ổn định trong khoảng 10Hz.
Chương 2: Cơ Sở Lý Thuyết
Trong chuỗi âm thanh của con người, ngoài các âm thanh, còn có những khoảng lặng được chèn vào Tỷ lệ giữa thời gian phát ra âm thanh và tổng thời gian của chuỗi âm này được gọi là tỷ số tiếng nói.
Nghiên cứu cho thấy rằng khi tăng tốc độ nói, khoảng cách giữa các từ sẽ bị rút ngắn Ngược lại, khi giảm tốc độ nói, khoảng trống giữa các từ sẽ trở nên dài hơn.
2.2.5 Ngữ Âm Tiếng Việt a Thanh Điệu
Thanh điệu là một đặc trưng quan trọng của tiếng Việt, đóng vai trò là thành phần ngữ âm giúp phân biệt các từ đồng âm Khác với nhấn giọng, thanh điệu là yếu tố cần thiết trong việc nhận diện và hiểu nghĩa của từ Tuy nhiên, nhiều hệ thống nhận dạng tiếng Việt trước đây chưa chú trọng đến đặc điểm này.
Trong tiếng Việt, thanh điệu là một đặc điểm quan trọng, phản ánh tính địa phương Mặc dù có tổng cộng 6 thanh điệu, nhưng ở một số vùng, số lượng này có thể giảm xuống còn 5 hoặc 4 do sự kết hợp của một số thanh.
Người ta phân biệt thanh điệu dựa vào 2 yếu tố: âm điệu và âm vực
- Âm điệu là sự thay đổi tần số cơ bản của thanh điệu, hay đường nét của thanh điệu.
- Âm vực là miền giá trị của tần số cơ bản. b Âm Vị
Trong ngôn ngữ nói, tiếng nói được cấu thành từ nhiều câu, mỗi câu chứa đựng nhiều từ, và mỗi từ lại bao gồm nhiều âm vị Âm vị, theo quan điểm ngữ âm, là đơn vị nhỏ nhất của tiếng nói, và chúng kết hợp với nhau để tạo ra các âm thanh khác nhau Có hai loại âm vị chính: nguyên âm và phụ âm Nguyên âm là những âm thanh mà luồng không khí thoát ra không bị cản trở, được xác định bởi hốc cộng hưởng trong khoang miệng và hốc yết hầu, tạo ra các Formant Ngược lại, phụ âm là những âm mà luồng không khí bị cản trở tại một số bộ phận của bộ máy phát âm.
Ngoài ra, âm vị còn được phân loại thành bán nguyên âm, trong đó sự cản trở luồng không khí là rất nhỏ Bán nguyên âm có đặc điểm tương tự như nguyên âm nhưng thường không đứng độc lập và chỉ xuất hiện trong các âm tiết khác.
Các nguyên âm và phụ âm được phân loại thành nhiều nhóm nhỏ dựa trên các đặc điểm vật lý, sinh học, cũng như vị trí và cách phát âm của bộ máy phát âm Trường độ cũng là một yếu tố quan trọng trong việc phân biệt âm thanh.
Trường độ tiếng nói đề cập đến thời gian phát âm của một âm thanh Âm tắc, hay còn gọi là âm khép, thường làm giảm trường độ của tiếng nói do sự tắc nghẽn tại thanh quản.
Hệ Thống Nhận Dạng Tiếng Nói
2.3.1 Sơ Đồ Khối Hệ Thống Nhận Dạng Tiếng Nói
Tín hiệu tiếng nói được xử lý thông qua các phương pháp phân tích phổ ngắn hạn, hay còn gọi là quá trình trích chọn đặc trưng Kết quả của quá trình này là một tập hợp các đặc trưng âm học, được tổ chức thành một vector.
Việc so sánh trong hệ thống nhận dạng âm thanh bắt đầu bằng việc huấn luyện để xây dựng các đặc trưng, sau đó sử dụng chúng để so sánh với các tham số đầu vào nhằm nhận diện Mẫu tham khảo có thể là một từ, đơn âm hoặc đơn vị tiếng nói Tùy vào loại hệ thống, quá trình huấn luyện có thể đơn giản hoặc phức tạp Ví dụ, với hệ thống nhận dạng phụ thuộc vào người nói, chỉ cần một hoặc vài biểu diễn cho mỗi từ Ngược lại, hệ thống độc lập với người nói có thể yêu cầu hàng ngàn biểu diễn từ cơ sở dữ liệu tiếng nói đã được thu thập Quá trình trích chọn đặc trưng và xây dựng mô hình tham khảo là công việc phức tạp và tốn thời gian.
Chương 2: Cơ Sở Lý Thuyết
Trong quá trình nhận dạng, các vector đặc trưng sẽ được so sánh với mẫu tham khảo Hệ thống sẽ tính toán độ tương đồng giữa dãy vector đặc trưng và mẫu hoặc chuỗi mẫu tham khảo.
Hiện nay, các phương pháp trích chọn đặc trưng phổ biến bao gồm việc sử dụng mạch lọc Mel (Mel Filterbank) kết hợp với biến đổi từ phổ Mel sang miền Cepstrum.
Hình 2 1 Sơ đồ khối hệ thống nhận dạng tiếng nói
Thu nhận tín hiệu và trích đặc trưng là quá trình quan trọng trong nhận dạng tín hiệu Đầu tiên, tín hiệu cần được thu nhận và khử nhiễu để lọc sạch thông tin (tiền xử lý) Sau đó, các đặc trưng của tín hiệu sẽ được rút ra, tạo thành vector đặc trưng giúp nhận diện chính xác hơn.
Quá trình học mẫu bao gồm việc kết nhóm và phân lớp các nhóm vector đặc trưng cho từng nhóm tín hiệu Điều này dẫn đến việc tạo ra các lớp tín hiệu, mỗi lớp đại diện cho một nhóm tín hiệu riêng biệt.
Nhận dạng và so khớp mẫu là quá trình tìm kiếm mối liên hệ giữa tín hiệu cần nhận dạng và các lớp tín hiệu đã được tạo ra trước đó Điều này có thể thực hiện thông qua quy tắc người láng giềng gần nhất (Nearest Neighbor Search) Nếu tín hiệu nào có độ so khớp cao nhất và đạt ngưỡng nhất định, hệ thống sẽ xác định tín hiệu đó là kết quả nhận dạng.
Trong nhận dạng tiếng nói, việc trích chọn đặc trưng của tín hiệu đóng vai trò quan trọng trong kết quả nhận dạng Ngoài phương pháp MFCC, hai phương pháp phổ biến khác là LPC (Mã hóa Dự đoán Tuyến tính) và PLP cũng được sử dụng rộng rãi trong lĩnh vực này.
Phương pháp LPC sử dụng một mẫu tiếng nói được mô phỏng bằng tổ hợp tuyến tính của các mẫu trước đó Bằng cách tối thiểu hóa bình phương sai số giữa các mẫu hiện tại và mẫu dự đoán, ta có thể xác định một tập hợp duy nhất các hệ số dự báo Những hệ số này đóng vai trò là trọng số trong tổ hợp tuyến tính.
Hình 2 2 Các bước thực hiện phương pháp LPC
Các bước thực hiện phương pháp LPC được thực hiện như hình 2.2.
- Tiền xử lý: Tín hiệu sau khi lọc nhiễu sẽ được pre – emphasic để làm phẳng phổ. s
- Phân khung: Sau đó được phân thành các khung, mỗi khung N mẫu, chồng lấp giữa các khung là M mẫu, L là các frame có tín hiệu tiếng nói. x l =s ~ ( Ml+n ) (2.2)
Sau khi phân khung, bước tiếp theo là cửa sổ hóa các khung để giảm thiểu sự gián đoạn ở đầu và cuối mỗi khung Cửa sổ thường được sử dụng trong quá trình này là cửa sổ Hamming, được định nghĩa bởi công thức w(n) = 0.54 - 0.46cos(2πn).
Chương 2: Cơ Sở Lý Thuyết
Tiền xử lý Phân khung Cửa sổ
Phân tích tự tương quan
Phân tích LPC Chuyển đổi hệ số LPC
- Phân tích tự tương quan: Kết quả tự tương quan của mỗi khung tín hiệu sau khi lấy cửa sổ là : r l (m)= ∑ n =0
Trong đó, giá trị tự tương quan cao nhất p chính là bậc của LPC.
Phân tích LPC là bước chuyển đổi kết quả tự tương quan thành hệ số LPC thông qua phương pháp Durbin Phương pháp này được thực hiện bằng cách áp dụng các công thức thống kê để đảm bảo tính chính xác và hiệu quả trong việc phân tích dữ liệu.
Hệ phương trình trên được giải theo phương pháp truy hồi với i=1 , 2, …, p và kết quả thu được là: a m =α ( m p) (2.10)
- Chuyển đổi hệ số LPC: Các hệ số cepstral LPC có thể lấy trực tiếp các hệ số LPC thông qua công thức: c m =a m +∑ k=1 m−1 ( m k ) c k a m−k 1≤m≤ p (2.11) c m = ∑ k =m− p m−1 ( m k ) c k a m−k m> p (2.12)
Hệ số cepstal LPC là các đặc trưng được trích chọn và được sử dụng để đi nhận dạng. b Phương pháp PLP
Phương pháp này là sự kết hợp giữa phương pháp MFCC và LPC.
Hình 2 3 Sơ đồ xử lý PLP dùng cho trích chọn đặc trưng
Biến đổi Fourier nhanh (FFT) là một phương pháp quan trọng trong xử lý tín hiệu, tương tự như MFCC, giúp chia tín hiệu tiếng nói thành các khung và chuyển đổi chúng sang miền tần số thông qua thuật toán FFT.
- Khối lọc tần số Bark:
Lọc tín hiệu tiếng nói theo thang tần số Bark sử dụng các bộ lọc phân bố phi tuyến, giúp cải thiện khả năng nhận diện âm thanh.
- Khối nhấn mạnh tín hiệu:
Dùng hàm cân bằng độ ồn (equal- loudnes) Hàm này mô phỏng đường cong cân bằng độ ồn (Equal – Loudnes Curve).
Chương 2: Cơ Sở Lý Thuyết
FFT Lọc tần số bark Nhấn mạnh tín hiệu
Thuật toán Durbin Tính các giá trị
Dùng luật cường độ nghe (Power Law of Hearing) Hàm căn lập phương được dùng có dạng: φ(f)=φ(f) 0.33 (2.15)
- Khối biến đổi fourier ngược:
Biến đổi fourier ngược (Inverse DFT): các hệ số tương quan được biến đổi fourier ngược là giá trị vào cho LPC.
Thuật toán Durbin được sử dụng để tính các hệ số dự báo tuyến tính như phương pháp LPC
- Khối tính các giá trị :
Phương pháp tính tương tự như phương pháp hệ số MFCC.
2.3.2 Nguyên Tắc Hoạt Động Của Hệ Thống Nhận Dạng
Hệ thống ARS (Audio Recognition Speech) có thể phân thành 2 loại nhận dạng: a Nhận Dạng Từng Từ Và Nhận Dạng Liên Tục
Nhận dạng liên tục là quá trình nhận diện tiếng nói trong một chuỗi tín hiệu, như câu lệnh hoặc câu nói, nhưng gặp khó khăn do các từ được phát ra liên tục mà không có khoảng nghỉ Việc tách từ trong mô hình này rất phức tạp và ảnh hưởng lớn đến các bước xử lý sau Ngược lại, mô hình nhận dạng từng từ yêu cầu phát âm rời rạc với khoảng nghỉ giữa các từ, giúp đơn giản hóa quá trình và nâng cao độ chính xác Tuy nhiên, mô hình này khó áp dụng rộng rãi hơn so với nhận dạng liên tục Đối với nhận dạng phụ thuộc người nói, mỗi hệ thống chỉ phục vụ cho một người nhất định và không thể hiểu được người khác nếu chưa được huấn luyện lại, điều này đòi hỏi kiến thức và kiên nhẫn từ người dùng.
Hệ thống nhận dạng độc lập người nói được coi là lý tưởng và có ứng dụng rộng rãi, đáp ứng hầu hết các yêu cầu Tuy nhiên, hệ thống này vẫn gặp phải một số vấn đề, đặc biệt là về độ chính xác.
PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG MFCC
Phương Pháp Trích Chọn Đặc Trưng Của Tiếng Nói
Phương pháp tính các hệ số MFCC là một kỹ thuật trích chọn tham số tiếng nói phổ biến nhờ vào hiệu quả của nó trong phân tích cepstral theo thang đo Mel Phương pháp này được phát triển dựa trên cách mà tai người cảm nhận các dải tần số khác nhau, đặc biệt là với các tần số thấp dưới 1000 Hz, nơi mà độ cảm nhận của tai người là tuyến tính.
3.1.1 Sơ Đồ Khối Trích Chọn Đặc Trưng MFCC
Các bước tiến hành rút trích các hệ số MFCCs – Mel Frequency Cepstral Coefficients được mô tả trong hình 3.1.
Hình 3 1 Sơ đồ khối trích chọn đặc trưng MFCC
Sau khi hiệu chỉnh và phân khung tín hiệu đầu vào, các frame được nhân với hàm cửa sổ nhằm giảm thiểu tính không liên tục tại các cạnh Tiếp theo, biến đổi Fourier được áp dụng để chuyển đổi các frame từ miền thời gian sang miền tần số, trong đó cường độ (Magnitude) được tính bằng bình phương biên độ (Amplitude) tại mỗi tần số Các hệ số này sau đó được chuyển đổi sang mức Mel thông qua dải bộ lọc (Filterbank) Năng lượng đầu ra từ từng bộ lọc được lấy log và chuyển đổi thành các hệ số MFCCs qua biến đổi cosin rời rạc (DCT) Bước đầu tiên trong trích xuất đặc trưng MFCC là bộ lọc hiệu chỉnh (Preemphasic), nhằm tăng cường biên độ của tần số cao, giúp thông tin âm thanh rõ ràng hơn và nâng cao độ chính xác trong việc nhận dạng âm thanh.
Tín hiệu tiếng nói s(n) được đưa qua bộ lọc số thông thấp bậc cao (bậc một), có dạng:
Quan hệ giữa tín hiệu ra với tín hiệu vào tuân theo phương trình: s(n)=s(n)−a.s(n−1) (3.2)
Giá trị thường chọn là a=0.97 b Frame – Blocking (Khối Phân Khung)
Tiếng nói là tín hiệu không ổn định, do đó, việc phân tích lời nói bằng FFT cần được thực hiện trên các đoạn ngắn mà trong đó tín hiệu được coi là ổn định Tín hiệu sẽ được chia thành các khung, mỗi khung chứa N mẫu, với các khung liền kề lệch nhau M mẫu Khung đầu tiên chứa N mẫu, trong khi khung thứ hai bắt đầu chậm hơn khung đầu tiên M mẫu và chồng lên khung đầu tiên N-M mẫu Tương tự, khung thứ ba sẽ chậm hơn khung đầu tiên 2M mẫu và chồng lên khung đầu tiên N-2M mẫu Quá trình này tiếp tục cho đến khi tất cả các mẫu tiếng nói cần phân tích được phân bố vào một hoặc nhiều khung.
Tín hiệu âm thanh thay đổi nhanh chóng, dẫn đến các thuộc tính như biên độ và chu kỳ không ổn định Khi tín hiệu được chia thành các đoạn nhỏ, mỗi đoạn có thể được coi là ổn định, với các đặc trưng không thay đổi theo thời gian, giúp giảm gián đoạn trong tín hiệu tiếng nói ở đầu và cuối mỗi đoạn.
Chương 3: Phương Pháp Trích Chọn Đặc Trưng MFCC Để thực hiện việc này, chúng ta sử dụng một hàm cửa sổ chạy dọc tín hiệu tiếng nói và chia ra các đoạn tìn hiệu nằm trong cửa sổ đó Khi thiết kế hàm cửa sổ ta cần quan tâm đến các thông số:
- Frame size: độ rộng của cửa sổ cũng chính là độ lớn của frame tín hiệu sẽ được cắt ra.
- Frame shift: bước nhảy của cửa sổ, là độ dài đoạn mà cửa sổ sẽ trượt để cắt ra frame tiếp theo.
Cửa sổ Hamming thường được sử dụng trong xử lý tín hiệu, với đặc điểm là giá trị tín hiệu giảm dần về 0 khi tiến đến hai biên của frame Hệ số của cửa sổ Hamming được biểu diễn bằng công thức: w(n) = 0.54 - 0.46cos(2πn).
Khi N là số mẫu của mỗi khung thì kết quả của hàm cửa sổ sẽ là: y(n)=w(n) ∗x(n) (3.4) d FFT (Biến Đổi Fourier Rời Rạc)
Bước tiếp theo là thực hiện biến đổi Fourier rời rạc cho từng mẫu tín hiệu đã phân đoạn, nhằm chuyển đổi tín hiệu sang không gian tần số Tuy nhiên, việc tính toán trực tiếp sẽ không hiệu quả do khối lượng tính toán lớn Để giảm bớt số phép toán và độ phức tạp, thường sử dụng phép biến đổi Fourier nhanh (FFT - Fast Fourier Transform).
X(n): một số phức biểu diễn cường độ và pha của một thành phần tần số trong tín hiệu gốc. x k : giá trị của mẫu thứ k trong frame.
N: số mẫu trong một frame.
Vì X(n) là một số phức nên nó sẽ được lấy giá trị tuyệt đối:
S(n)=|X ( n )|=√ real [ X ( n ) ] 2 + imaginary [ X ( n ) ] 2 (3.6) e Khối Biến Đổi Sang Thang Mel
Kết quả của quá trình biến đổi Fourier cho thấy năng lượng tín hiệu ở các dải tần số khác nhau, nhưng tai người không nhạy cảm như nhau với tất cả các tần số Việc mô hình hóa đặc tính này trong quá trình trích xuất đặc trưng giúp cải thiện khả năng nhận dạng của hệ thống Thang Mel có tần số tuyến tính dưới 1000 Hz, với tần số 1 kHz tương ứng là 1000 Mel ở mức 40 dB trên ngưỡng nghe Trong mô hình trích xuất đặc trưng MFCC, tần số được chuyển đổi sang thang đo Mel theo công thức: f Mel = 2595 * log10(f + 700).
Trong đó: f : tần số ở thang đo thường. f Mel : tần số ở thang đo Mel.
Băng lọc được sử dụng để tính toán các hệ số Mel, với số lượng băng lọc tương ứng với số hệ số Mel thu được, đóng vai trò quan trọng trong quá trình trích chọn đặc trưng MFCC Mỗi bộ lọc có đáp ứng tần số hình tam giác, trong đó tần số trung tâm f m được xác định theo logarit Số băng lọc thường được sử dụng trong quá trình này là
Như vậy đầu vào filterbank mel là năng lượng phổ tín hiệu của mỗi khung,
X Frame [ k ] như vậy cho mỗi khung một vector năng lượng phổ logarit,
E frame [m] là kết quả của phân tích dải bộ lọc, trong đó vector năng lượng phổ thể hiện năng lượng tại tần số trung tâm của từng bộ lọc Năng lượng phổ logarit tại mỗi ngõ ra của bộ lọc được tính toán theo công thức cụ thể.
Chương 3: Phương Pháp Trích Chọn Đặc Trưng MFCC
N: chiều dài tín hiệu đầu vào
H m [k] :có chức năng chuyển đổi số bộ lọc và nó được tính toán theo biểu thức:
Hình 3 2 Dải bộ lọc tần số hình tam giác
Hình 3 3 Dải bộ lọc hình tam giác với tần số trung tâm f m f DCT (Discrete Cosine Transform – Biến Đổi Cosine Rời Rạc)
Sau khi âm thanh đi qua bộ lọc, ta thu được dải âm thanh theo tần số Mel Tiếp theo, lấy log của dải âm thanh đầu ra và áp dụng phép biến đổi trưng để rút trích thông tin Để tính toán nhanh chóng, phép biến đổi cosine rời rạc (DCT) được sử dụng, đặc biệt là DCT II, vì nó giúp nén năng lượng hiệu quả, làm cho các hệ số tập trung hơn tại chỉ số thấp so với IDFT Công thức DCT được thể hiện như sau: c(n) = √(M/2) ∑(m=1 đến M) E(m) cos(πn(m - 1/2)/M).
Trong đó, E (m ) là tín hiệu ngõ ra của bộ lọc thứ m, M là số bộ lọc, n là các đặc trưng cần rút trích [4]
Phương pháp MFCC cho phép trích xuất đặc trưng âm thanh dựa trên cảm thụ tần số của tai người đối với các dải tần khác nhau Những đặc trưng này sẽ được sử dụng làm tập mẫu cho việc huấn luyện và nhận dạng trong mạng nơron Chất lượng của các đặc trưng này ảnh hưởng trực tiếp đến hiệu suất của mô hình nhận dạng.
Chương 3: Phương Pháp Trích Chọn Đặc Trưng MFCC
MẠNG NƠRON NHÂN TẠO
Mạng Nơron
Dưới đây là các mốc đáng chú ý trong lịch sử phát triển của mạng nơron [5]:
Cuối thế kỷ 19 và đầu thế kỷ 20, sự phát triển trong nghiên cứu chủ yếu liên quan đến Vật lý học, Tâm lý học và Thần kinh học, với sự tham gia của các nhà khoa học như Herman von Helmholtz, Ernst Mach và Ivan Pavlov Các công trình của họ tập trung vào các lý thuyết tổng quát về học tập, thị giác và lập luận, nhưng không cung cấp các mô hình toán học cụ thể để mô tả hoạt động của các nơron.
Vào những năm 1940, Warren McCulloch và Walter Pitts đã phát triển một công trình quan trọng, trong đó họ chứng minh rằng mạng nơron nhân tạo có khả năng tính toán mọi hàm học hoặc logic.
Donald Hebb đã khẳng định rằng luật cổ điển (Classical conditioning) mà Pavlov đề xuất thực sự tồn tại nhờ vào các đặc tính của từng nơron riêng biệt Ông cũng giới thiệu một phương pháp học cho các nơron nhân tạo Ứng dụng thực nghiệm đầu tiên của nơron nhân tạo xuất hiện vào cuối những năm 50 với sự phát minh của mạng nhận thức (Perceptron network) và luật học của Frank Rosenblatt, cho phép nhận dạng các mẫu Mặc dù điều này mở ra nhiều hy vọng cho nghiên cứu mạng nơron, nhưng mạng này vẫn có giới hạn trong việc giải quyết chỉ một số lớp bài toán hữu hạn.
Vào thời điểm đó, Bernard Widrow và Ted Hoff đã phát triển một thuật toán học mới, áp dụng để huấn luyện các mạng nơron tuyến tính thích nghi, có cấu trúc và chức năng tương tự như mạng của Rosenblatt Luật học Widrow-Hoff vẫn được sử dụng cho đến ngày nay.
Cả Rosenblatt và Widrow – Hoff đều gặp phải vấn đề mà Marvin Minsky và Seymour Papert phát hiện, đó là các mạng nhận thức chỉ có khả năng giải quyết những bài toán khả phân tuyến tính Dù họ đã nỗ lực cải tiến luật học và cấu trúc mạng để vượt qua hạn chế này, nhưng không thành công trong việc phát triển luật học để huấn luyện các mạng phức tạp hơn.
Kết quả nghiên cứu của Minsky và Papert đã làm chậm lại việc nghiên cứu mạng nơron trong suốt một thập kỷ, do thiếu máy tính đủ mạnh để thực hiện các thí nghiệm cần thiết.
Mặc dù vậy, cũng có một vài sáng kiến quan trọng vào những năm 70 Năm
In 1972, Teuvo Kohonen and James Anderson independently developed a new type of network capable of functioning as a memory system Additionally, Stephen Grossberg was actively involved in researching self-organizing networks.
Vào những năm 80, sự phát triển mạnh mẽ của nghiên cứu mạng nơron gắn liền với sự ra đời của máy tính cá nhân (PC) Hai khái niệm chính liên quan đến sự phát triển này là
Việc áp dụng các phương pháp thống kê để phân tích hoạt động của mạng hồi quy có thể được coi là một hình thức bộ nhớ liên hợp, theo nghiên cứu của nhà vật lý học John Hopfield.
Thuật toán lan truyền ngược (Back Propagation) đã được phát triển bởi một số nhà nghiên cứu độc lập như David Rumelhart và James McClelland để huấn luyện các mạng nơ-ron nhiều lớp, đánh dấu một bước tiến quan trọng trong lĩnh vực trí tuệ nhân tạo Sự ra đời của thuật toán này cũng chính là lời đáp cho những câu hỏi của Minsky và Papert về khả năng học tập của các mạng nơ-ron.
4.1.2 Cấu Trúc Mạng Nơron Sinh Học
Bộ não người được cấu thành từ khoảng 10 đến 11 triệu tế bào thần kinh (nơron) liên kết với nhau qua một mạng lưới phức tạp Mỗi tế bào thần kinh bao gồm ba thành phần chính: thân tế bào thần kinh, hệ thống dây thần kinh tiếp nhận (dendrites) và sợi trục thần kinh (axon).
Chương 4: Mạng Nơron Nhân Tạo
Hình 4 1 Mạng nơron sinh học
Khả năng của mạng nơron sinh học (bộ não):
Bộ nhớ được cấu trúc thành các bó thông tin, cho phép truy cập dựa trên nội dung, tức là thông tin có thể được truy xuất dựa trên các giá trị thuộc tính của đối tượng.
Bộ não con người có khả năng tổng quát hóa, cho phép truy xuất tri thức và nhận diện các mối liên kết chung giữa các đối tượng liên quan đến một khái niệm cụ thể.
- Bộ não có khả năng học.
Mạng Nơron Nhân Tạo (ANN – Artificial Neural Network)
Mạng nơron nhân tạo (ANN) là mô hình xử lý thông tin được thiết kế dựa trên cách thức hoạt động của hệ thống nơron sinh học Nó bao gồm nhiều nơron kết nối với nhau qua các trọng số liên kết, hoạt động đồng bộ để giải quyết các vấn đề cụ thể.
Mạng nơron nhân tạo được tùy chỉnh cho các ứng dụng cụ thể thông qua việc học từ các tập mẫu huấn luyện Quá trình học này chủ yếu là hiệu chỉnh trọng số liên kết giữa các nơron.
Mạng nơron nhân tạo có cấu trúc đơn giản hơn rất nhiều so với não bộ và các liên kết giữa các nơron quyết định chức năng của mạng.
Các đặc trưng cơ bản của mạng nơron nhân tạo:
- Tập các đơn vị xử lý.
- Liên kết giữa các đơn vị được định nghĩa bởi một trọng số (weight).
- Đơn vị điều chỉnh độ lệch (bias) của mỗi đơn vị.
- Hàm truyền, hàm kích hoạt (Transfer Function, Activation Function).
- Phương pháp thu thập thông tin (Learning rule).
- Luật lan truyền quyết định cách tính tín hiệu ra của từng đơn vị từ đầu vào của nó
4.2.1 Đơn Vị Xử Lý Đơn vị xử lý là một nơron Nhiệm vụ của nó là nhận tín hiệu vào từ các đơn vị phía trước hay một nguồn bên ngoài Sau đó sử dụng chúng để tín hiệu ra được lan truyền sang các đơn vị khác.
Hình 4 2 Cấu trúc mạng nơron
Trong đó: a j : Đầu vào mạng (net - input) x 0 : Các ngõ vào (input) w j : Các trọng số tương ứng với mỗi đầu vào (weight) θ j : Độ lệch (bias) g(x) : Hàm truyền (Transfer Function)
Z j : Đầu ra của nơron (output)
Chương 4: Mạng Nơron Nhân Tạo
Giải thích các thông số của mạng:
Mỗi nơron trong mạng nơron có một giá trị ngưỡng (bias) riêng Giá trị này kết hợp với tổng trọng số của các tín hiệu đầu vào để tạo ra tín hiệu đầu vào cho mạng.
Mỗi nơron nhân tạo trong mạng nơron có nhiều đầu vào và đầu ra, với mỗi đầu vào được gán một giá trị trọng số Trọng số này thể hiện mức độ liên kết giữa các nơron, tương tự như các khớp nối trong mạng nơron sinh học, có thể là kích thích hoặc ức chế, với trọng số có thể dương hoặc âm.
- Transfer function (g(x)) : Hàm truyền sẽ nhận tín hiệu net input và tạo ra tín hiệu đầu ra của nơron ( Z j : output).
Có 3 hàm truyền được sử dủng phổ biến nhất là [5] [1]: a Hard Limit Function a(n)=hardlim(n)
Hình 4 3 Hàm Hard Limit a ( n )={ 10 ,n≥0 , n