Tìm hiểu một số phương pháp tăng cường chất lượng tiếng nói

TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI

Tổng quan tiếng nói

1.1.1 Tổng quan về tiếng nói con người

1.1.1.1 Bộ máy phát âm của con người a) Bộ máy phát âm

Bộ máy phát âm bao gồm các thành phần riêng rẽ nhƣ phổi, khí quản, thanh quản, và các đường dẫn miệng, mũi Trong đó:

Thanh quản chứa hai dây thanh có thể dao động tạo ra sự cộng hưởng cần thiết để tạo ra tiếng nói

Tuyến âm là ống không đều bắt đầu từ môi, kết thúc bởi dây thanh

Khoang mũi là ống không đều bắt đầu từ môi, kết thúc bởi vòm miệng, có độ dài cố định khoảng 12cm đối với người lớn

Vòm miệng là các nếp cơ chuyển động

1.Hốc mũi 2.Vòm miệng trên 3.Ổ răng

4.Vòm miệng mềm 5.Đầu lƣỡi

6.Thân lƣỡi 7.Lƣỡi gà 8.Cơ miệng 9.Yết hầu 10.Nắp đóng của thanh quản 11.Dây thanh giả

12.Dây thanh 13.Thanh quản 14.Thực quản b) Cơ chế phát âm

Trong quá trình phát âm, khi tạo ra âm thanh không phải là âm mũi, vòm miệng sẽ mở và khoang mũi sẽ đóng lại, cho phép dòng khí chỉ đi qua khoang miệng Ngược lại, khi phát âm mũi, vòm miệng hạ thấp, khiến dòng khí chỉ đi qua khoang mũi.

Tuyến âm được kích thích bởi năng lượng tại thanh môn, nơi tạo ra tiếng nói thông qua tín hiệu nguồn Khi không khí từ phổi được đẩy lên, nó va chạm với hai dây thanh trong tuyến âm, khiến chúng dao động và tạo ra cộng hưởng Dao động âm này sau đó lan truyền qua tuyến âm, đi qua khoang miệng, khoang mũi và môi, từ đó hình thành nên âm tiết và tiếng nói.

Chuỗi lời nói mà con người phát ra gồm nhiều khúc đoạn dài ngắn khác nhau Đơn vị phát âm ngắn nhất là âm tiết (syllable)

Âm tiết có tính chất toàn vẹn và không thể phân chia, bởi vì nó được phát âm thông qua một đợt căng của cơ thịt trong bộ máy phát âm.

Khi phát âm một âm tiết, bộ máy phát âm trải qua ba giai đoạn chính: tăng cường độ căng, đạt đỉnh điểm căng thẳng và sau đó giảm độ căng.

Âm tiết được chia thành hai loại lớn dựa vào cách kết thúc: âm tiết mở và âm tiết khép Mỗi loại này lại được phân chia thành hai loại nhỏ hơn, tạo thành tổng cộng bốn loại âm tiết khác nhau.

- Những âm tiết đƣợc kết thúc bằng một phụ âm vang (/m, n, ŋ/ ) đƣợc gọi là những âm tiết nửa khép

- Những âm tiết đƣợc kết thúc bằng một phụ âm không vang (/p, t, k/) đƣợc gọi là những âm tiết khép

- Những âm tiết đựợc kết thúc bằng một bán nguyên âm (/w, j/) đƣợc gọi là những âm tiết nửa mở

Âm tiết mở trong tiếng Việt là những âm tiết kết thúc bằng cách giữ nguyên âm sắc của nguyên âm ở đỉnh âm tiết Đặc điểm này tạo nên sự phong phú và đa dạng trong cách phát âm và cấu trúc âm tiết của ngôn ngữ.

- Có tính độc lập cao:

+ Trong dòng lời nói, âm tiết tiếng Việt bao giờ cũng thể hiện khá đầy đủ, rõ ràng, đựợc tách và ngắt ra thành từng khúc đoạn riêng biệt

+ Khác với âm tiết các ngôn ngữ châu Âu, âm tiết nào của tiếng Việt cũng mang một thanh điệu nhất định

+ Do đƣợc thể hiện rõ ràng nhƣ vậy nên việc vạch ranh giới âm tiết tiếng

Việt trở nên rất dễ dàng

- Có khả năng biểu hiện ý nghĩa:

+ Ở tiếng Việt, tuyệt đại đa số các âm tiết đều có ý nghĩa

Âm tiết trong tiếng Việt không chỉ là một đơn vị ngữ âm mà còn là một thành phần quan trọng trong từ vựng và ngữ pháp Mối quan hệ giữa âm và nghĩa trong âm tiết rất chặt chẽ, tương tự như trong các ngôn ngữ châu Âu, điều này thể hiện một đặc trưng nổi bật của tiếng Việt.

- Có một cấu trúc chặt chẽ:

Mô hình âm tiết tiếng Việt là một cấu trúc hai bậc, không phải là một khối không thể chia cắt Cấu trúc này ở dạng đầy đủ nhất bao gồm 5 thành tố, mỗi thành tố đảm nhận một chức năng riêng biệt.

1.1.1.2 Mô hình tạo tiếng nói

Hình 1.1 Mô hình tạo tiếng nói

Glottal pulse generator : Bộ tạo xung thanh môn

Random noise generator: Tạo nhiễu ngẫu nhiên

Vocal tract parameters : Các tham số đường tuyến âm

Vocal tract model : Mô hình tuyến âm

Radiation model : Mô hình bức xạ tiếng nói

Trong quá trình tạo tiếng nói, tần số cộng hưởng của tuyến âm được gọi là tần số formant, phản ánh dạng và kích thước của tuyến âm Mỗi dạng tuyến âm có một tổ hợp tần số formant riêng, dẫn đến sự khác biệt trong âm thanh khi tuyến âm thay đổi Tính chất phổ của tín hiệu tiếng nói cũng thay đổi theo thời gian tương ứng với sự biến đổi của tuyến âm Quá trình truyền âm qua tuyến âm tạo ra sự cộng hưởng ở một số tần số, mang lại những đặc trưng riêng biệt cho mỗi âm, được gọi là quá trình phát âm Âm thanh phát ra mang thông tin về âm vị, có thể tán xạ từ môi hoặc mũi, đặc biệt đối với các âm mũi như /m/ và /n/ Tóm lại, sóng tín hiệu được hình thành qua ba bước: tạo nguồn âm, phát âm qua tuyến âm, và tán xạ âm từ môi hoặc mũi.

1.1.2 Tổng quan về nâng cao chất lƣợng tiếng nói

Nâng cao chất lượng tiếng nói là cần thiết để cải thiện cảm nhận về giọng nói khi chất lượng bị suy giảm do nhiễu Việc giảm thiểu ảnh hưởng của nhiễu trong tiếng nói sẽ giúp nâng cao trải nghiệm nghe và giao tiếp hiệu quả hơn.

Trong hầu hết các ứng dụng, nâng cao chất lượng tiếng nói nhằm cải thiện tính dễ nghe và chất lượng âm thanh bị suy giảm do nhiễu Việc cải thiện này không chỉ giúp người nghe dễ dàng tiếp nhận thông tin mà còn cho phép họ nghe rõ trong môi trường có nhiễu cao và kéo dài Các thuật toán nâng cao chất lượng tiếng nói hoạt động bằng cách giảm và nén nhiễu nền, được xem như các thuật toán nén nhiễu hiệu quả.

Giải pháp tổng quát trong các vấn đề cải thiện chất lƣợng tiếng nói phụ thuộc

Nguồn âm và tín hiệu tiếng nói có thể bị ảnh hưởng bởi nhiễu và giao thoa, dẫn đến sự suy giảm chất lượng âm thanh Việc hiểu rõ mối liên hệ giữa nhiễu và tín hiệu sạch là rất quan trọng, đồng thời cần xem xét số lượng micro và cảm biến có thể sử dụng để tối ưu hóa ứng dụng.

Sự giao thoa âm thanh có thể được hiểu là nhiễu hoặc tín hiệu tiếng nói, tùy thuộc vào ngữ cảnh Nó thể hiện sự tranh chấp giữa các nguồn âm thanh khác nhau Đặc tính âm của nhiễu có thể làm ảnh hưởng đến tín hiệu sạch, đặc biệt khi âm thanh phát ra trong một không gian có hiện tượng dội âm.

Nhiễu có thể có mối tương quan hoặc không tương quan với tín hiệu sạch, và số lượng micro ảnh hưởng đến hiệu quả của các thuật toán nâng cao chất lượng tiếng nói Mục tiêu của các thuật toán này phụ thuộc vào ứng dụng cụ thể Lý tưởng nhất, chúng ta mong muốn cải thiện chất lượng và tính dễ nghe, cũng như sự trong suốt của tiếng nói.

Các thuật toán tăng cường chất lượng tiếng nói có khả năng cải thiện chất lượng âm thanh bằng cách giảm nhiễu nền Tuy nhiên, việc này cũng có thể dẫn đến sự gia tăng độ méo của tín hiệu, làm giảm tính dễ nghe của tiếng nói Do đó, khi thiết kế thuật toán tăng cường chất lượng tiếng nói, cần phải đảm bảo rằng nhiễu được nén mà không gây ra méo trong quá trình cảm nhận âm thanh.

Tìm hiểu về tín hiệu và nhiễu

1.2.1 Tìm hiểu về tín hiệu

1.2.1.1 Các khái niệm và phân loại tín hiệu

Tín hiệu là đại lượng vật lý mang thông tin, cho phép trao đổi và xử lý dữ liệu cần thiết Các chức năng xử lý này biến đổi thông tin thành một đại lượng vật lý trung gian, được gọi là tín hiệu.

Có nhiều quan điểm phân loại tín hiệu khác nhau trong viễn thông Một số quan điểm phân loại thường gặp như sau :

Tín hiệu được phân loại theo đặc tính hàm số thành hai loại chính: tín hiệu liên tục (hay tín hiệu tương tự - Analog) và tín hiệu xung Trong nhóm tín hiệu xung, tín hiệu số (Digital) là một loại tín hiệu quan trọng Tín hiệu tương tự và tín hiệu số có các chức năng xử lý khác nhau, phục vụ cho những ứng dụng đa dạng trong công nghệ.

+ Tín hiệu tương tự (analog signal), với các chức năng xử lý như : khuếch đại tuyến tính, lọc, điều chế, nén giãn

+ Tín hiệu kỹ thuật số (digital signal), với các chức năng xử lý nhƣ: mã hóa, tái tạo, lưu trữ, điều chế, xáo trộn, nén giãn, sửa lỗi

Phân loại tín hiệu theo thông tin nguồn tin rất quan trọng để hiểu bản chất của chúng Các thuật ngữ phổ biến bao gồm tín hiệu âm thanh, bao gồm tín hiệu thoại và tín hiệu ca nhạc, tín hiệu hình ảnh với hình ảnh tĩnh và hình ảnh động, cùng với tín hiệu dữ liệu.

Tín hiệu được phân loại dựa trên dạng năng lượng mà chúng sử dụng để truyền tải thông tin, chẳng hạn như tín hiệu điện và tín hiệu quang.

Tín hiệu được phân loại theo vùng tần số, bao gồm tín hiệu âm tần, tín hiệu cao tần và tín hiệu siêu cao tần, tương ứng với các phổ tần số mà chúng chiếm giữ.

Hình 1.2 Tín hiệu tiếng nói

Tín hiệu có thể được mô tả toán học dưới dạng hàm theo biến thời gian, không gian hoặc các biến độc lập khác Ví dụ, hàm số có thể thể hiện sự biến thiên của tín hiệu theo thời gian.

Hàm mô tả tín hiệu là hàm phụ thuộc vào hai biến độc lập, thể hiện qua hai tọa độ trên mặt phẳng Tuy nhiên, trong thực tế, mối quan hệ giữa các đại lượng vật lý và các biến độc lập thường rất phức tạp, khiến cho tín hiệu không thể được biểu diễn đơn giản như trong các ví dụ trước Thay vào đó, tín hiệu thường là sự biến thiên của áp suất không khí theo thời gian.

1.2.1.2 Hệ thống và xử lý tín hiệu

Hệ thống là một thiết bị vật lý thực hiện một tác động nào đó lên tín hiệu

Bộ lọc được sử dụng để giảm nhiễu trong tín hiệu mang thông tin được gọi là một hệ thống Khi tín hiệu được truyền qua hệ thống như bộ lọc, chúng ta nói rằng tín hiệu đã được xử lý.

Xử lý tín hiệu đề cập đến các công việc và phép toán thực hiện trên tín hiệu để đạt được mục tiêu nhất định Mục đích có thể là tách thông tin từ tín hiệu hoặc truyền tải tín hiệu chứa thông tin từ vị trí này đến vị trí khác.

1.2.2.1 Nhiễu và đặc trƣng của nhiễu

Nhiễu là một hiện tượng phổ biến tồn tại khắp nơi trong cuộc sống hàng ngày, từ tiếng xe cộ trên đường phố, tiếng ồn từ công trường xây dựng, đến âm thanh phát ra từ quạt máy tính và chuông điện thoại Nó xuất hiện dưới nhiều hình thức khác nhau, ảnh hưởng đến môi trường sống của chúng ta trong văn phòng, nhà hàng và các tòa nhà.

Nhiễu âm thanh có thể xuất hiện ở một vị trí cố định và không thay đổi theo thời gian, như tiếng quạt hoặc tiếng động cơ quay Ngoài ra, nhiễu cũng có thể di chuyển và phát ra từ nhiều vị trí khác nhau trong một tòa nhà, chẳng hạn như tiếng nói của nhiều người trong một phòng.

Nhiễu có những đặc trưng không cố định, với phổ và thời gian biến đổi không theo quy luật nhất định Điều này khiến việc nén nhiễu trong các môi trường thay đổi trở nên khó khăn hơn so với các nguồn nhiễu cố định và ổn định.

Hình 1.3 minh họa sự phân bố phổ năng lượng trung bình của nhiễu trên xe, cho thấy rằng mỗi loại nhiễu có hình dạng và phân bố năng lượng khác nhau trong miền tần số Cụ thể, nhiễu do gió chủ yếu tập trung ở tần số thấp dưới 500Hz, trong khi nhiễu trong môi trường như nhà hàng, xe cộ, và tàu lại phân bố trên một dải tần số rộng hơn.

1.2.2.2 Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau Điểm tới hạn trong việc thiết kế các thuật toán của tăng cường chất lượng tiếng nói là sự nhận biết dải biến thiên của tiếng nói và mức độ cường độ nhiễu trong môi trường thực tế Từ đó, chúng ta có thể mô tả miền biến thiên của mức độ tỷ số tín hiệu trên nhiễu (SNR) được bắt gặp trong môi trường thực tế Điều này rất quan trọng để đánh giá tính hiệu quả của các thuật toán tăng cường chất lượng tiếng nói trong việc nén nhiễu và cải thiện chất lƣợng của tiếng nói trong dải biến thiên của mức SNR

Mức độ tiếng nói và nhiễu được xác định qua mức độ âm thanh, được đo bằng dB SPL (mức áp suất âm thanh) Khoảng cách giữa người nói và người nghe cũng ảnh hưởng đến cường độ âm thanh, với phép đo thực hiện khi microphone được đặt ở các vị trí khác nhau Trong giao tiếp đối mặt, khoảng cách điển hình là 1m; nếu khoảng cách này tăng gấp đôi, mức cường độ âm sẽ giảm 6 dB.

Tín hiệu rời rạc theo thời gian

Tín hiệu rời rạc theo thời gian được tạo ra thông qua việc lấy mẫu tín hiệu liên tục với chu kỳ lấy mẫu là Ts Tần số lấy mẫu được xác định bằng công thức Fs = 1/Ts.

Biến nguyên là hàm được xác định tại các giá trị nguyên; khi n không phải là số nguyên, giá trị này không được xác định, không phải là 0 Trong nhiều tài liệu về xử lý tín hiệu số, quy ước được áp dụng là biến nguyên sẽ được đặt trong dấu ngoặc vuông, trong khi biến liên tục sẽ được đặt trong dấu ngoặc tròn Từ đây, tín hiệu rời rạc sẽ được ký hiệu là: [9].

1.3.1 Tín hiệu xung đơn vị

(1.4) Tín hiệu xung dịch chuyển có dạng sau

1.3.2.Tín hiệu bậc đơn vị

Tín hiệu bước nhảy dịch chuyển có dạng sau:

Chúng ta có thể biểu diễn tín hiệu rời rạc theo thời gian thông qua tín hiệu xung đơn vị nhƣ sau:

1.3.3 Tín hiệu hàm sin rời rạc

Tín hiệu hàm mũ phía phải :

Tín hiệu hàm mũ phía trái :

XỬ LÝ VÀ ĐÁNH GIÁ CHẤT LƯỢNG TÍN HIỆU TIẾNG NÓI

Xử lý tiếng nói

2.1.1 Xử lý tín hiệu số

The analysis and design of linear systems are greatly facilitated by the frequency-domain representation of both signals and systems.

Do vậy, cần xét các biểu diễn của biến đổi Fourier (Fourier Transform, FT) và của biến đổi Z (Z - Transform, ZT) của các tín hiệu và hệ thống rời rạc

Biến đổi Z (ZT): Biểu diễn ZT của dãy được xác định bởi 2 phương trình:

Chuỗi lũy thừa vô hạn theo biến z bao gồm các giá trị với các hệ số tương ứng Các chuỗi này chỉ hội tụ đến giá trị hữu hạn khi z đạt các giá trị xác định Điều kiện cần thiết để đảm bảo sự hội tụ của chuỗi lũy thừa là rất quan trọng.

Tập hợp các giá trị mà chuỗi hội tụ xác định một miền trên mặt phẳng phức

Z gọi là miền hội tụ

Nói chung, miền này có dạng:

Biểu diễn ZT có nhiều định lý và tính chất hữu ích cho việc nghiên cứu các hệ thống thời gian rời rạc Danh sách các định lý quan trọng được trình bày trong bảng 1.

Các định lý liên quan đến biến đổi Z có hình thức tương tự như các định lý của biến đổi Laplace dành cho hàm thời gian liên tục Tuy nhiên, điều này không đồng nghĩa với việc biến đổi Z là một dạng xấp xỉ của biến đổi Laplace Biến đổi Laplace cung cấp một biểu diễn chính xác cho các hàm thời gian liên tục, trong khi biến đổi Z là biểu diễn chính xác cho dãy số.

Bảng 2.1 Các định lý biểu diễn dãy số

Các định lý Dẫy ZT

Trọng số tuyến tính Đảo ngƣợc thời gian

2.1.2 Phép biến đổi Fourier a Phép biến đổi Fourier rời rạc DTFT

Phép biến đổi này được sử dụng để phân tích tín hiệu và hệ thống, đặc biệt trong trường hợp dãy rời rạc dài vô hạn và không tuần hoàn.

DTFT là phép biến đổi Fourier rời rạc, cho phép tín hiệu rời rạc x[n] biểu diễn dưới dạng hàm phức trong miền tần số Mặc dù tín hiệu trong miền thời gian là rời rạc, nhưng DTFT lại tạo ra một phổ liên tục và tuần hoàn Điều này cho thấy sự hội tụ của phép biến đổi Fourier, giúp phân tích và hiểu rõ hơn về các đặc tính tần số của tín hiệu.

DTFT chỉ hội tụ khi :

Nhƣ vậy, nếu x[n] thoả điều kiện: < thì biến đổi Fourier hội tụ

Các thuật toán sử dụng nâng cao chất lƣợng tín hiệu tiếng nói

Trừ phổ (Spectral-subtraction - SS) là một thuật toán giảm nhiễu đơn giản, hoạt động dựa trên nguyên lý mô tả và cập nhật nhiễu trong tín hiệu có nhiễu bằng cách thu thập nhiễu khi không có tín hiệu Nhiễu này sau đó sẽ được trừ khỏi tín hiệu có nhiễu, dẫn đến tín hiệu sau khi xử lý trở nên sạch hơn Thuật toán SS ban đầu được đề xuất bởi Weiss trong miền tương quan và sau đó được Boll phát triển trong miền chuyển đổi Fourier.

2.2.2 Thuật toán Mô hình thống kê

Để nâng cao chất lượng tiếng nói, cần xây dựng một khung mô tả thống kê, bao gồm các phép đo tương ứng với hệ chuyển đổi Fourier của nhiễu Mục tiêu là tìm ra phương pháp ước lượng tuyến tính hoặc phi tuyến cho các tham số có lợi, tương ứng với hệ chuyển đổi của tín hiệu sạch Hai thuật toán chính được áp dụng trong quá trình này là thuật toán Wiener và minium mean-squared error (MMSE).

Đánh giá chất lƣợng tiếng nói

Để đánh giá hiệu quả của các thuật toán nâng cao chất lượng tiếng nói, nhiều phương pháp khác nhau đã được áp dụng Hai phương pháp chính là đánh giá theo cảm nhận của người nghe (Subjective Evaluation - SE) và đánh giá dựa trên các thuộc tính của tín hiệu (Objective Evaluation - OE) Mặc dù đánh giá khách quan có giá trị, nhưng nó cần phải được liên kết với cảm nhận của người nghe để đảm bảo tính chính xác.

2.3.1 Phương pháp đánh giá chủ quan Đánh giá chất lƣợng chủ quan là đánh giá chất lƣợng dựa trên cảm nhận nghe của con người đối với tiếng nóiChất lượng là một trong các thuộc tính của tín hiệu tiếng nói Về bản chất thì chất lƣợng có tính chủ quan cao và khó có thể đánh giá một cách đáng tin cậy Để kết quả đánh giá là đáng tin cậy thì sự lựa chọn đúng đắn các tham số cho việc đánh giá là điều cần thiết Dựa trên thực tế đó ITU-T đã đƣa ra các khuyến nghị ban hành trong các chuẩn từ ITU-T Rec P.800 đến ITU-T Rec P.899 Có hai loại đánh giá chính là tuyệt đối và tương đối Sự đánh giá dựa trên các thang điểm chuẩn đã đƣợc đề ra trong chuẩn ITU-T Rec.P.800[17]

2.3.1.1 Phương pháp đánh giá tuyệt đối

- Phương pháp đánh giá tuyệt đối ACR

ACR (Adaptive Content Rating) được áp dụng rộng rãi và được ITU-T khuyến nghị cho hầu hết các ứng dụng Thang đo chất lượng được sử dụng chủ yếu là Mean Opinion Scores (MOS), được mô tả trong khuyến nghị P.800 của ITU-T MOS là một phương pháp đo lường chất lượng thoại nổi tiếng và mang tính chất chủ quan Có hai phương pháp kiểm tra chính là đánh giá đàm thoại và đánh giá độ nghe.

Bảng 2.2 Thang điểm đánh giá chất lƣợng tiếng nói theo MOS[12]

Score Quality of the Speech Level of Distortion

4 Good Just perceptible, but not annoying

3 Fair Perceptible and slight annoying

2 Poor Annoying but not Objectinable

1 Bad Very annoying and Objectionable

2.3.1.2 Phương pháp đánh giá tương đối

- Đánh giá bằng phương pháp so sánh mẫu tín hiệu

Phương pháp đơn giản nhất để đánh giá sở thích âm thanh là thử nghiệm so sánh, hay còn gọi là Preference test Trong phương pháp này, người nghe sẽ được nghe hai mẫu thoại và đánh giá mẫu nào họ thích hơn Đánh giá được thực hiện thông qua CCR (Comparison Category Rating), một tiêu chuẩn được ITU-T khuyến nghị nhằm nâng cao chất lượng âm thanh trong các hệ thống.

Bảng 2.3 Thang điểm đánh giá chất lƣợng tín hiệu tiếng nói theo CCR

Theshold Test, hay còn gọi là Isopreference Test, là một biến thể của Preference Test Phương pháp này được sử dụng để so sánh tín hiệu đã qua xử lý với tín hiệu gốc chuẩn, giúp kiểm soát độ suy giảm chất lượng của tín hiệu.

Phương pháp đánh giá sự suy giảm chất lượng (Degradation Category Rating - DCR) là cách xác định mức độ giảm sút chất lượng của tín hiệu đã qua xử lý so với tín hiệu chất lượng cao chưa qua xử lý Đánh giá này được thực hiện thông qua năm thang điểm, giúp phân loại rõ ràng mức độ suy giảm chất lượng tín hiệu.

Bảng 2.4 Thang đánh giá DCR

2.3.2 Phương pháp đánh giá khách quan

Đo tỷ số tín hiệu trên nhiễu (SNR) trong từng khung thời gian là một phương pháp đơn giản để đánh giá chất lượng tín hiệu Để đạt hiệu quả cao, tín hiệu gốc và tín hiệu đã xử lý cần phải ở cùng một miền thời gian, và độ lệch pha phải được hiệu chỉnh chính xác.

Trong đó: :Tín hiệu gốc (tín hiệu sạch)

: Tín hiệu đã được tăng cường

: Chiều dài khung (thường được chọn từ 15-20ms) : số khung của tín hiệu

Một vấn đề tiềm ẩn trong phương pháp đánh giá là năng lượng tín hiệu trong khoảng lặng của tín hiệu thoại thường rất thấp, dẫn đến sai số lớn và làm sai lệch toàn bộ đánh giá Giải pháp duy nhất là loại trừ các khung lặng bằng cách đo mức năng lượng trong thời gian ngắn và nén giá trị ngưỡng xuống mức thấp Nếu giá trị được giới hạn trong khoảng [-10dB, ], sẽ giúp cải thiện độ chính xác của đánh giá.

35dB] [18] sẽ tránh đƣợc việc cần phải dùng bộ tách tín hiệu thoại và khoảng lặng

Sự xác định trước dựa vào tín hiệu gốc và tín hiệu đã qua xử lý, thường sử dụng bộ lọc dự đoán trong thuật toán CELP Bằng cách áp dụng các bộ lọc này cho tín hiệu gốc và tín hiệu đã xử lý, ta có thể tính toán dựa trên tín hiệu ra của chúng Ước tính SNR thu được từ quá trình này cho hệ số tương quan cao với các phương pháp đánh giá chủ quan.

Một cách xác định khác đƣợc đề xuất bởi Richards trong đó hàm log có thay đổi so với công thức 2.1

Việc xác định trước phân đoạn tỷ lệ tín hiệu trên nhiễu (SNR) giúp tránh các giá trị sai lệch lớn trong các khoảng lặng của tín hiệu tiếng nói Giá trị nhỏ nhất hiện tại là 0, điều này tốt hơn nhiều so với các giá trị âm vô cùng Ưu điểm chính của phương pháp này là không cần làm rõ ràng giữa các khoảng tiếng nói và khoảng lặng Hơn nữa, việc đo SNR cho từng khung có thể được mở rộng trong miền tần số.

: Trọng lƣợng tại dải tần số thứ j

: Tổng số khung tín hiệu : Dãy tín hiệu gốc qua bọ lọc đã đƣợc khuếch đại tại dải lần thứ j và khung thứ

Dãy tín hiệu đã được cải thiện thông qua lọc khuếch đại trong cùng một dải tần, mang lại lợi ích nổi bật khi sử dụng trên miền tần số Điều này không chỉ tăng cường tính linh động mà còn cho phép phân bố trọng số khác nhau cho các dải tần khác nhau, tối ưu hóa hiệu suất tín hiệu.

Một phương pháp khác để xác định trọng số cho từng dải là sử dụng phân tích hồi quy, hay còn gọi là phương pháp đánh giá chủ quan biến đổi tần số Phương pháp này cho phép chọn trọng số nhằm đạt được hệ số tương quan cao nhất giữa đánh giá khách quan và chủ quan Qua đó, tổng K cho mỗi dải từ các phương pháp đánh giá khách quan khác nhau sẽ được ước tính, với Dj được xác định theo cách sau:

Trọng lượng tối ưu cho từng DJ trong mỗi dải tần được xác định thông qua phương pháp phân tích hồi quy tuyến tính bậc K, từ đó cung cấp đánh giá chủ quan về sự biến đổi tần số.

+ Đo khoảng cách phổ dựa trên LPC

LPC (Linear Prediction Coefficient): Hệ số dự đoán tuyến tính

Gồm các phương pháp phổ biến là LLR (Log Likelihood Ratio), IS (Itakura Saito) và đo theo khoảng cách cepstrum

(2.8) hệ số LPC của tín hiệu sạch hệ số của tín hiệu đã được tăng cường chất lƣợng là (p+1)*(p+1) ma trận tự tương quan (Toeplitz) của tín hiệu sạch

Biểu thức trên đƣợc viết lại trong miền tần số nhƣ sau:

=( ) = ) 2 (2.9) Với A và lần lượt là phổ của phổ tín hiệu và phổ tăng cường

Biểu thức trên cho thấy sự khác biệt giữa phổ tín hiệu và phổ tăng cường, với ảnh hưởng rõ rệt hơn khi giá trị lớn gần với đỉnh tần số formant Vì vậy, phương pháp đo này giúp xác định sự khác biệt về vị trí của đỉnh tần số formant.

+ Phương pháp đo IS Đo IS đƣợc xác định nhƣ sau:

Trong đó : và lần lƣợt là hệ số khuếch đại của tín hiệu sạch và tín hiệu sạch tăng cường

+ Phương pháp đo theo khoảng cách cepstrum

Khác với phương pháp đo LLR, IS tập trung vào sự khác biệt giữa hệ số khuếch đại và mức phổ của tín hiệu sạch so với tín hiệu tăng cường Tuy nhiên, một hạn chế của đánh giá IS là sự khác biệt giữa các mức phổ có thể ảnh hưởng không đáng kể đến chất lượng tín hiệu.

MỘT SỐ THUẬT TOÁN TRONG XỬ LÝ VÀ TĂNG CƯỜNG CHẤT LƢỢNG TÍN HIỆU TIẾNG NÓI

Thuật toán Trừ phổ

3.1.1 Sơ đồ khối chung của thuật toán

Hình 3.1 Sơ đồ khối cho hai thuật toán SS và WF

Cả 2 thuật toán Spectralsubtraction và Wiener filter chỉ khác nhau ở khối hàm xử lý triệt nhiễu, tất cả các khối còn lại thì giống nhau

3.1.2 Thuật toán Spectral Subtraction (thuật toán trừ phổ)

Thuật toán Spectral-subtraction là một trong những phương pháp đầu tiên được phát triển để giảm nhiễu trong tín hiệu Nó hoạt động dựa trên nguyên tắc thừa nhận sự hiện diện của nhiễu và ước lượng phổ của tiếng nói sạch bằng cách trừ đi phổ nhiễu từ phổ tiếng nói bị nhiễu Phổ nhiễu có thể được ước lượng và cập nhật trong nhiều chu kỳ khi không có tín hiệu, với điều kiện phổ nhiễu không thay đổi đáng kể Việc tăng cường tín hiệu được thực hiện thông qua biến đổi Fourier rời rạc ngược (IDFT) của phổ tín hiệu đã ước lượng, sử dụng pha của tín hiệu có nhiễu Thuật toán này được coi là một phép tính ước lượng đơn giản, chỉ bao gồm biến đổi DFT thuận và DFT ngược.

Phân tích tín hiệu thành các

Hàm xử lý giảm nhiễu

Và Addin gg Tín hiệu bị nhiễu

Quá trình xử lý hiệu đơn giản có thể dẫn đến méo tiếng nói nếu không được thực hiện cẩn thận Việc lấy hiệu lớn có thể làm mất thông tin quan trọng, trong khi lấy hiệu nhỏ sẽ giữ lại nhiễu trong tín hiệu Nhiều phương pháp đã được đề xuất nhằm giảm thiểu méo trong xử lý tiếng nói, đặc biệt là thông qua trừ phổ, nhưng vẫn có một số trường hợp không được loại bỏ.

3.1.2.2 Spectral subtraction đối với phổ biên độ

Giả thiết rằng là tín hiệu vào đã bị nhiễu, nó tổng của tín hiệu sạch x[n] và tín hiệu nhiễu

Thực hiện biến đổi Fourier rời rạc cả 2 vế,ta đƣợc

Chúng ta có thể biểu diễn Y( ) dưới dạng phức như sau:

Khi đó là biên độ, và là pha của tín hiệu đã bị nhiễu

Phổ của nhiễu có thể đƣợc biểu diễn theo dạng biên độ và pha:

Biên độ phổ của nhiễu không thể xác định chính xác, nhưng có thể sử dụng giá trị trung bình của nó được tính trong điều kiện không có tiếng nói Pha của nhiễu có thể được thay thế bằng pha của tín hiệu bị nhiễu mà không làm ảnh hưởng đáng kể đến tính dễ nghe của tiếng nói Tuy nhiên, việc thay đổi pha của tiếng nói chỉ ảnh hưởng một chút, khoảng vài độ, và từ đó, chúng ta có thể ước lượng phổ của tín hiệu sạch.

3.1.2.3 Trừ phổ đối với phổ công suất

Thuật toán trừ phổ có thể áp dụng cho phổ công suất, mang lại hiệu quả tốt hơn trong một số trường hợp so với phổ biên độ Để thực hiện điều này, ta cần lấy phổ công suất của tín hiệu bị nhiễu trong một khoảng thời gian ngắn và bình phương nó.

Khi không thể tính toán trực tiếp, ta sử dụng xấp xỉ để ước lượng, đặc biệt khi đối diện với toán tử kỳ vọng Thông thường, giá trị này được ước lượng khi không có tiếng nói và được biểu thị bằng ký hiệu cụ thể Nếu chúng ta giả định rằng = 0 và không có sự tương quan nào với tín hiệu sạch, quá trình ước lượng sẽ trở nên rõ ràng hơn.

, thì và xem là 0 Khi đó phổ công suất của tín hiệu sạch có thể tính đƣợc nhƣ sau:

Thuật toán trừ phổ công suất được biểu diễn qua công thức trên, cho phép ước lượng phổ công suất Mặc dù kết quả ước lượng không đảm bảo luôn là số dương, nhưng có thể áp dụng phương pháp chỉnh lưu bán sóng để xử lý vấn đề này.

Tín hiệu được tăng cường có thể thu được bằng cách tính IDFT, sử dụng căn bậc hai và pha của tín hiệu tiếng nói bị nhiễu Nếu thực hiện IDFT cho cả hai vế của công thức (3.7), chúng ta sẽ có một phương trình tương tự trong miền tự tương quan.

, , là các hệ số tự tương quan của tín hiệu sạch, tín hiệu tiếng nói bị nhiễu, và tín hiệu nhiễu đã đƣợc ƣớc lƣợng

Tín hiệu sau tăng cương Ƣớc lƣợng và câp nhật nhiễu

Trong lý thuyết hệ thống tuyến tính, là hàm truyền đạt của hệ thống

Trong lý thuyết tăng cường chất lượng tiếng nói, hàm độ lợi hay hàm nén được xác định là một số thực dương trong khoảng 0 ≤ ≤ 1 Giá trị âm có thể xuất hiện do sai sót trong ước lượng phổ nhiễu Hàm nén cho thấy tỷ số giữa phổ công suất của tín hiệu được tăng cường và phổ công suất của tín hiệu nhiễu Hình dạng của hàm nén là đặc trưng riêng biệt cho mỗi thuật toán tăng cường chất lượng tiếng nói.

Chúng ta thường so sánh các thuật toán thông qua đáp ứng của hàm nén của chúng Hệ số thực của biến đổi IDFT tạo ra h[n] có tính đối xứng qua điểm 0 và không nhân quả Trong miền thời gian, h[n] được coi là bộ lọc không nhân quả Do đó, một phương pháp sẽ được đề xuất để điều chỉnh hàm, nhằm biến đáp ứng của nó thành bộ lọc nhân quả trong miền thời gian.

Trường hợp chung thì thuật toán trừ phổ có thể đượcbiểu diễn:

Trong đó là số mũ công suất, với = 1 là đó là phương pháp trừ phổ biên độ điển hình, = 2 là phương pháp trừ phổ công suất

Sơ đồ khối của thuật toán Trừ phổ :

Hình 3.2 Sơ đồ khối của thuật toán Trừ phổ

3.1.2.4 Thuật toán dự đoán thích nghi tiếng ồn

- Phân loại tín hiệu tiếng nói hiện tại và tiếng nói ẩn

Trong bất kỳ câu nói nào có tạm dừng, giữa các từ sẽ không có âm thanh mà chỉ có tiếng ồn xung quanh Để xác định các khung này, một quy trình đơn giản được áp dụng để tính tỷ lệ ồn phổ điện thoại và năng lượng tiếng ồn ở ba băng tần khác nhau, tương ứng với tần số 1 KHz, 3 KHz và tần số lấy mẫu Nếu cả ba tỷ lệ đều nhỏ hơn ngưỡng, khung được coi là chỉ có tiếng ồn; ngược lại, nếu một hoặc tất cả các tỷ lệ lớn hơn ngưỡng, khung sẽ được xem là có tiếng nói.

- Tối thiểu hóa tiếng tạp âm:

Phương pháp này dựa trên số liệu thống kê và sự tối ưu của việc làm mịn nhiễu Phương pháp này dựa trên hai phương pháp chủ yếu:

Độc lập với tiếng nói của nhiễu, phổ công suất của tiếng nói có nhiễu được xác định bằng tổng phổ công suất của tiếng nói sạch và tiếng nói có nhiễu tương ứng.

Trong bài viết này, chúng ta sẽ phân tích phổ công suất của tín hiệu âm thanh, bao gồm tiếng nói bị nhiễu, tiếng nói sạch và nhiễu Đồng thời, chúng ta cũng sẽ xem xét chỉ số thời gian và tần số tương ứng để hiểu rõ hơn về sự ảnh hưởng của nhiễu đến chất lượng âm thanh.

Trong quá trình phân tích tiếng nói, phổ công suất của tiếng nói có thể bị nhiễu, đôi khi bằng với phổ công suất của nhiễu Hiện tượng này thường xảy ra khi tiếng nói dừng lại hoặc giữa các âm tiết Để đánh giá mật độ phổ của công suất nhiễu, cần tìm cực tiểu của tiếng nói trong từng tần số riêng biệt Do giá trị cực tiểu thường hướng về những giá trị nhỏ hơn, việc đánh giá thường yêu cầu nhân với một hệ số dẫn suất thống kê cực tiểu cục bộ.

- Các hằng số làm mịn phụ thuộc vào tần số[6]

Bằng cách áp dụng đánh giá xác suất để xác định sự hiện diện của tiếng nói, chúng ta có thể tính toán hệ số làm mịn phụ thuộc vào thời gian tần số theo công thức: a(α,K) = d +(1-d)P(α,k), trong đó d là một hằng số.

(α, K) có giá trị trong phạm vi của một d≤ (α, K) ≤ 1.[6]

- Cập nhật giá trị phổ nhiễu

Sau khi tính hệ số làm mịn phụ thuộc tần số phổ, việc đánh giá phổ nhiễu đƣợc cập nhật nhƣ sau:

D(α, k) = a(α, k) D(α -1, k) +(1 -(α, k)) | Y(α, K)| 2 (3.12) Trong đó D(α, k) là đánh giá phổ công suất nhiễu

Bởi vậy, toàn bộ thuật giải đƣợc tóm tắt nhƣ sau:

Sau khi phân loại các tần số của tiếng nói có mặt và vắng mặt, hệ số làm mịn phụ thuộc thời gian tần số được cập nhật Việc đánh giá phổ nhiễu cũng được thực hiện bằng cách sử dụng hệ số làm mịn này Nhờ vào phương pháp này, nhiễu sẽ được loại bỏ khỏi tiếng nói có nhiễu ở đầu vào thông qua phép trừ, từ đó cho ra đánh giá của tiếng nói sạch.

3.1.3 Đo lường khách quan để đánh giá hiệu năng

Thuật toán bộ lọc Wiener

Sơ đồ khối chung của thuật toán

Thuật toán Trừ phổ, dựa trên trực giác và kinh nghiệm, phát triển từ việc cộng nhiễu thực tế vào tín hiệu sạch, cho phép ước lượng tín hiệu tiếng nói bằng cách trừ phổ nhiễu Tuy nhiên, phương pháp này không tối ưu hoàn toàn để thu được tín hiệu tiếng nói sạch Để cải thiện nhược điểm này, thuật toán bộ lọc Wiener (WF) được áp dụng.

Thuật toán WF được sử dụng phổ biến để nâng cao chất lượng tiếng nói bằng cách tạo ra tín hiệu tiếng nói sạch thông qua việc nén nhiễu Cơ chế hoạt động của thuật toán này là ước lượng tín hiệu bằng cách giảm thiểu sai số bình phương trung bình (Mean Square Error) giữa tín hiệu mong muốn và tín hiệu ước lượng.

3.2.2 Nguyên lý cơ bản của lọc Wiener

Giả thiết rằng là tín hiệu vào đã bị nhiễu, nó tổng của tín hiệu sạch x[n] và tín hiệu nhiễu

Thực hiện biến đổi Fourier rời rạc cả 2 vế,ta đƣợc

(3.14) Chúng ta có thể biểu diễn Y( ) dưới dạng phức như sau:

Phân tích tín hiệu thành các

Và Addin gg Tín hiệu bị nhiễu

Khi đó là biên độ, và là pha của tín hiệu đã bị nhiễu

Phổ của nhiễu có thể đƣợc biểu diễn theo dạng biên độ và pha:

Biên độ phổ của nhiễu không thể xác định chính xác, nhưng có thể sử dụng giá trị trung bình của nó được tính toán trong điều kiện không có tiếng nói Pha của nhiễu có thể được thay thế bằng pha của tín hiệu bị nhiễu mà không làm ảnh hưởng đến khả năng nghe của tiếng nói Tuy nhiên, việc thay đổi pha của tiếng nói có thể ảnh hưởng đến chất lượng của nó, nhưng chỉ ở mức độ nhỏ, khoảng vài độ.

Ta có thể ƣớc lƣợng đƣợc biên độ của phổ tín hiệu sạch từ bằng một hàm phi tuyến đƣợc xác định nhƣ sau :

(3.17) có thể đƣợc áp dụng theo lọc Wiener

(3.18) Đặt Priori SNR và Posteriori SNR nhƣ sau:

(3.20) (3.21) có thể đƣợc áp dụng theo lọc Wiener

Pha của tín hiệu IFFT

SNRpri Ƣớc lƣợng cập nhật nhiễu

Tín hiệu bị nhiễu FFT

Tín hiệu sau khi tăng cường

Sơ đồ khối của thuật toán lọc Wiener:

Hình 3.3 Sơ đồ khối của thuật toán lọc Wiener.

Xếp chồng và cộng trong quá trình xử lý tín hiệu tiếng nói

3.3.1 Phân tích tín hiệu theo từng khung

Do tín hiệu cần xử lý là tín hiệu liên tục, việc biến đổi FFT trực tiếp từ miền thời gian mà không qua tiền xử lý sẽ dẫn đến tín hiệu biến đổi nhanh Khi đó, chúng ta không thể áp dụng các thuật toán xử lý triệt nhiễu, vì tín hiệu được xem là động.

Để phân tích tín hiệu hiệu quả, chúng ta cần chia tín hiệu thành các khung liên tục trong miền thời gian trước khi chuyển sang miền tần số bằng biến đổi FFT Mỗi khung tín hiệu sẽ biến đổi chậm và được coi là tĩnh, cho phép các thuật toán xử lý triệt nhiễu hoạt động hiệu quả hơn Phương pháp phân tích tín hiệu của chúng ta là "theo từng khung một" Để thực hiện việc này, cần sử dụng các loại cửa sổ phù hợp, và trong trường hợp này, chúng ta áp dụng cửa sổ Hamming với N = 256 mẫu trong mỗi khung.

Hình 3.4 Phân tích tín hiệu thành các khung[5]

Tín hiệu có nhiễu được chia thành nhiều Segment (hay Frame) dài 25 ms với độ dịch 40% của cửa sổ Cửa sổ có thể là Rectangle, Hamming, Blackman, và việc chọn loại cửa sổ ảnh hưởng đến khả năng khôi phục tín hiệu sau này Trong trường hợp này, cửa sổ Hamming được chọn, nhưng do Hamming là cửa sổ phi tuyến, nên khi thực hiện biến đổi FFT, tín hiệu có thể bị suy giảm Do đó, các Segment cần được sắp xếp chồng lên nhau theo một tỉ lệ dịch phù hợp, với vùng chồng lấp giữa hai Segment liên tiếp được gọi là "overlap".

Minh họa quá trình phân khung bằng cửa sổ chữ nhật : tín hiệu có nhiễu cộng vào

: shift percentage-Tỷ lệ dịch

: Window Length: chiều dài cửa sổ

Noisy Length : Chiều dài nhiễu

Số Segment có thể đƣợc tính dựa vào công thức sau:

Number of noisy signal Segments = (LengthSignal - WindowLength)/(Shift Percentage* WindowLength) + 1

Dấu ▪ để chỉ là lấy giá trị nguyên nhỏ hơn và gần kết quả nhất

Khi tín hiệu được phân tích thành các Segment liên tục, mỗi Segment sẽ có sự biến đổi chậm và được coi là tĩnh Điều này cho phép các thuật toán xử lý triệt nhiễu trong tín hiệu hoạt động hiệu quả hơn Phương pháp phân tích tín hiệu được thực hiện bằng cách nhân với hàm cửa sổ, trong đó mỗi vector Segment có kích thước WindowLength sẽ được lưu vào một cột của ma trận Do đó, ma trận Segment sẽ có kích thước WindowLength x.

Thuật toán phân đoạn tín hiệu

Hình 3.4 Sơ đồ thuật toán phân tích tín hiệu thành các khung

3.3.2 Xếp chồng và cộng (Overlap and adding)

Sau khi phân tích tín hiệu thành các khung liên tục trong miền thời gian bằng cửa sổ Hamming, việc các frame này liên tục mà không tuân theo điều kiện nào có thể dẫn đến suy giảm tín hiệu khi thực hiện biến đổi FFT, do Hamming là cửa sổ phi tuyến.

Khi phân tích tín hiệu thành các frame, việc sắp xếp chồng lên nhau, hay còn gọi là “overlap”, là rất quan trọng Tỷ lệ chồng lấp thường được áp dụng là 40% hoặc 50%, giúp tối ưu hóa quá trình phân tích và cải thiện độ chính xác của kết quả.

Tính ma trận Index Indexnew =( M1+M2)’

Tính ma trận Segment Seg=Signal(Index).hw

Sau khi các frame tín hiệu được xử lý triệt nhiễu trong miền tần số, chúng được liên kết với nhau bằng phương pháp thích hợp, được gọi là “adding”, để phân tích tín hiệu từ đầu vào.

Một “segment” là tập hợp các mẫu tín hiệu trong cùng một frame sau khi được phân tích Phương pháp overlap và adding giúp phân tích và liên kết các frame, đảm bảo tín hiệu sau khi xử lý triệt nhiễu không bị méo dạng và không xuất hiện hiện tượng “giả nhiễu”.

Hình 3.5 Quá trình thực hiện xếp chồng và cộng [5]

Mô tả xây dựng phương thức xếp chồng và cộng:

Từ đó ta xây dựng lưu đồ thuật toán như sau:

Khôi phục tínt hiệu với đầy đủ biên độ và pha

FreqNum= số cột của Spec

Khôi phục một nửa liên hợp đối xứng của Spec

Xếp chồng từng cột của tỷ lệ dịch

SP ban đầu và Add các vùng Overlap lại với nhau

Hình 3.5 Thuật toán xếp chồng và cộng

3.3.3 Ƣớc lƣợng và cập nhật nhiễu

Phương thức ước lượng nhiễu đóng vai trò quan trọng trong việc cải thiện chất lượng tín hiệu Nếu nhiễu được ước lượng quá thấp, nó sẽ vẫn hiện hữu trong tín hiệu và có thể gây khó khăn khi nghe Ngược lại, nếu nhiễu được ước lượng quá cao, tín hiệu giọng nói sẽ bị biến dạng, ảnh hưởng đến tính dễ nghe Một phương pháp đơn giản để ước lượng và cập nhật phổ nhiễu trong đoạn tín hiệu không có giọng nói là sử dụng thuật toán phát hiện tiếng nói.

Phát hiện hoạt động (VAD) là một phương pháp hữu ích, nhưng chỉ hiệu quả với nhiễu không thay đổi như nhiễu trắng Trong thực tế, đặc biệt là ở những môi trường như nhà hàng, nơi mà đặc tính phổ của nhiễu thay đổi liên tục, phương pháp này không đạt hiệu quả cao Bài viết này sẽ giới thiệu một thuật toán ước lượng nhiễu có khả năng thay đổi liên tục và hoạt động đồng thời với tiếng nói, giúp cải thiện hiệu suất trong các môi trường có nhiễu biến động lớn.

3.3.4 Phát hiện tiếng nói (Voice activity detection)

Phát hiện tiếng nói (Voice Activity Detection - VAD) là quá trình phân biệt giữa âm thanh có tiếng nói và im lặng Thuật toán VAD đưa ra tín hiệu nhị phân cho từng khung âm thanh, với mỗi khung có thời gian khoảng 20-40 ms Khi có tiếng nói, VAD sẽ cho kết quả là 1, trong khi khi không có tiếng nói hoặc có nhiễu, kết quả sẽ là 0.

Có nhiều thuật toán phát hiện âm thanh (VAD) được phát triển dựa trên các đặc tính của tín hiệu, trong đó những thuật toán đầu tiên chủ yếu dựa vào các yếu tố như mức năng lượng, zero-crossing, đặc tính cepstral, phép đo khoảng cách phổ Itakura LPC và đo chu kỳ.

Hầu hết các thuật toán VAD gặp khó khăn với điều kiện SNR thấp, đặc biệt khi nhiễu thay đổi Độ chính xác của một thuật toán VAD trong môi trường biến đổi không đủ cho các ứng dụng tăng cường chất lượng âm thanh Tuy nhiên, việc ước lượng nhiễu một cách chính xác là rất quan trọng trong mọi thời điểm có tiếng nói.

Tính khoảng phổ của Segment/Frame SpectraSist = max(20*lg(signal)-20*lg(noise)),0)

Tính giá trị trung bình của SpectraDist Dist = SpectralDist/length(SpectralDist)

Dist( Khoảng cách phổ ngƣỡng

NoiseCounter  Số Segment liên tiếp ngƣỡng để quy định nhiễu

NoiseCount>Số Sai Segment liên tiếp ngƣỡng để quy định nhiễu

3.3.5 Quá trình ƣớc lƣợng và cập nhật nhiễu

Nhiễu sẽ đƣợc ƣớc lƣợng lúc ban đầu bằng cách lấy trung bình biên độ phổ của tín hiệu bị nhiễu

Sau khi áp dụng phương pháp VAD, chúng ta có thể xác định các frame tiếp theo và phân loại frame nào là nhiễu Để nhận diện frame nhiễu, cần thực hiện so sánh biên độ phổ của nhiễu ước lượng với biên độ phổ của tín hiệu bị nhiễu, từ đó cập nhật thông tin nhiễu cho các frame tiếp theo.

THỰC HIỆN VÀ ĐÁNH GIÁ CÁC THUẬT TOÁN

Chương này sẽ xây dựng các lưu đồ thuật toán và thực hiện các thuật toán giảm nhiễu mô phỏng bằng Matlab, đồng thời đánh giá kết quả thu được chủ yếu thông qua phương pháp đánh giá khách quan.

4.2 Lưu đồ thực hiện và đánh giá thuật toán

Hình 4.1.Sơ đồ thực hiện và đánh giá thuật toán tăng cường

Xây dựng thuật toán xử lý nhiễu trong tiếng nói dựa trên các nguyên tắc toán học và các phép biến đổi trong miền thời gian và tần số Các thuật toán này được thiết kế nhằm cải thiện chất lượng tín hiệu âm thanh bằng cách loại bỏ nhiễu hiệu quả.

Triển khai trên Matlab bao gồm việc viết mã nguồn dựa trên thuật toán đã xây dựng, sử dụng ngôn ngữ lập trình và các công cụ trên Matlab để phát triển chương trình xử lý nhiễu trong tiếng nói.

Xử lý tiếng nói bằng các thuật toán giúp triệt nhiễu hiệu quả trong các file âm thanh bị nhiễu, sử dụng chương trình đã được xây dựng.

Để đánh giá hiệu quả của các phương pháp xử lý âm thanh, chúng ta cần so sánh các file âm thanh bị nhiễu với các mức độ và loại nhiễu khác nhau sau khi đã được triệt nhiễu Bên cạnh đó, việc sử dụng các file âm thanh sạch tương ứng sẽ giúp xác định độ chính xác và hiệu quả của quá trình xử lý.

Xây dựng thuật toán Triển khai thuật toán trên Matlab

Thực hiện xử lý tiếng nói bằng các thuật toán

Thực hiện các thuật toán đánh giá dựa trên các kết quả đạt đƣợc sau khi xử lý

Nhận xét đánh giá các phương pháp đánh giá của tăng cường chất lượng tiếng nói để thực kiểm tra, đánh giá tính hiệu của thuật toán

Dựa trên các kết quả từ các phương pháp đánh giá đã thực hiện, chúng ta có thể rút ra những kết luận quan trọng về sự phù hợp của các thuật toán với từng loại nhiễu Cụ thể, cần xác định thuật toán nào tối ưu cho từng mức độ nhiễu và thuật toán nào có khả năng xử lý nhiễu tốt nhất trong mọi tình huống.

4.3 Lưu đồ thuật toán Trừ phổ

VAD I=0, nhập Frame đầu tiên

Biến đổi FFT cho các Frame Tính công suất trung bình ban đầu

Phân chia Frame tín hiệu đầu vào

Cập nhật và làm trơn nhiễu

End I> Number of Frame Speech Flag =0 Đ

Suy giảm tín hiệu S[k]= Beta*[k] Đ

4.4 Lưu đồ thuật toán lọc Wiener

Hình 4.3 Lưu đồ thuật toán WF Đ

Phân chia Frame tín hiệu đầu

Biến đổi FFT cho các Frame vào

Tính công suất nhiễu trung bình ban đầu VAD

SpeechFlag = =0 Tính toán lại mức nhiễu trung bình

Tính Gain Funtion G Ƣớc lƣợng tín hiệu sạch

Thực hiện IFFT và nối các

Chúng tôi tiến hành xử lý các file âm thanh bị nhiễu, bao gồm nhiễu từ tiếng xe hơi và nhiễu do người nói xung quanh, tương ứng với SNRdB Để đánh giá hiệu quả xử lý, chúng tôi sử dụng tiêu chí cảm quan MOS.

Quality of Speech ( Chất lƣợng)

* Xét file âm thanh c0dBF1_NOISY.waw tín hiệu có nhiễu là do tiếng ồn môi trường xung quanh tạo ra

Tín hiệu và nhiễu do đám đông gây ra trước khi khử nhiễu

Tín hiệu sau khi khử nhiễu bằng phương pháp lọc WF

Hình 4.4 Tín hiệu có nhiễu và sau khi lọc nhiễu bằng WF

- Trước khi xử lý nhiễu bằng thuật toán Trừ phổ:

- Sau khi xử lý triệt nhiễu bằng thuật toán Trừ phổ

Hình 4.5 Tín hiệu sạch sau khi đã lọc nhiễu

File âm thanh đường hầm3.waw và file âm thanh nhiễu4.waw cho thấy tín hiệu bị nhiễu do tiếng ồn môi trường xung quanh, cụ thể là tiếng ô tô phát ra trong đường hầm.

Tín hiệu và nhiễu do đám đông gây ra trước khi khử nhiễu

Tín hiệu sau khi khử nhiễu bằng phương pháp lọc WF

+ Tín hiệu trước khi xử lý nhiễu

+ Tín hiệu sau khi xử lý nhiễu

Sau khi phân tích các file âm thanh của tín hiệu sạch và tín hiệu đã xử lý nhiễu, dựa trên dạng sóng và spectrogram, chúng tôi đã thực hiện so sánh giữa tín hiệu sạch và tín hiệu được triệt nhiễu bằng hai thuật toán SS và WF Qua đó, chúng tôi có thể rút ra một số nhận xét quan trọng về hiệu quả của các phương pháp xử lý tín hiệu.

Cả hai thuật toán đều hiệu quả trong việc triệt nhiễu khi môi trường có tỷ lệ tín hiệu trên nhiễu (SNR) cao, đồng thời xử lý tốt hơn với các tín hiệu nhiễu có biến đổi chậm và phân bố đều.

Cả hai thuật toán đều có hiệu quả tương đương trong việc xử lý nhiễu ở mức SNR thấp; tuy nhiên, trong môi trường có SNR cao, thuật toán Wiener cho kết quả triệt nhiễu tốt hơn.

Đánh giá tín hiệu đã xử lý cho thấy kết quả đạt 0 so với trước khi xử lý, có thể do cập nhật nhiễu chưa chính xác Để cải thiện chất lượng xử lý, cần điều chỉnh một số thông số trong đoạn Code.

4.6 Các thông số ảnh hưởng đến thuật toán

* Các thông số chung ảnh hưởng đến cả 2 thuật toán:

- SP ( Shift Percentage ): là độ dịch khi chia tín hiệu ra từng Segment Nếu

SP không thích hợp thì khi cộng gộp các Segments lại sẽ gây ra hiện tƣợng méo dạng

IS (Initial Silence) là khoảng lặng ban đầu trong một quá trình Nếu IS quá lớn, tiếng nói ban đầu có thể bị coi là nhiễu, trong khi nếu IS quá nhỏ, lượng nhiễu cập nhật ban đầu sẽ bị thiếu hụt.

NoiseMargin và Hangover là những thông số quan trọng để xác định xem một Segment là nhiễu hay tiếng nói Nếu một Segment được đánh giá không chính xác, việc cập nhật nhiễu sẽ bị sai lệch, dẫn đến ảnh hưởng tiêu cực đến kết quả.

* Các thông số ảnh hưởng đến thuật toán Spectral Subtraction

- NoiseLength: hệ số làm trơn cho quá trình cập nhật nhiễu

- Gamma ( PowExp ): hệ số dùng để chọn thuật toán là trừ phổ biên độ hay trừ phổ công suất

* Các thông số ảnh hưởng đến thuật toán Wiener:

- Alpha: là hệ số làm trơn cho SNRpriori

4.7 Phát triển thuật toán Trừ phổ từ thuật toán Lọc Wiener

Trừ phổ độ : PowExp=1 Trừ phổ công suất: PowExp=2

Tính Công suất trung bình đầu vào I=1, nhập Frame đầu tiên Phân Chia khung (Segment)

Cập nhật và làm trơn biên độ

Và phương sai của nhiễu Đ Đ SpeechFlag==0? Đ

Gain Funtion G=Sqrt(SNRpri/(SNRpri+1)) Ƣớc lƣợng tín hiếu sạch S[k]=G.*Y[k] Đ

S I > Số Frame phân chia Đ Đ Thực hiện IFT và nối các Frame

4.8 Nhận xét và kết luận

Qua kết quả đánh giá bằng OE và SE đƣa ra đƣợc kết luận là :

- Đối với từng loại nhiễu khác nhau thì tác động của các thuật toán tăng cường là khác nhau

- Đối với từng mức nhiễu khác nhau thì thuật toán cũng tác động cũng khác nhau

- Ở môi trường có SNR thấp thì phần tiếng bị mất nhiều, nhiều lúc bị ngắt quãng do nén quá lớn

- Ở môi trường SNR lớn, nhiễu được nén triệt để hơn nhưng vẫn giữ được chất lƣợng tiếng nói

- Ở phương pháp lọc Wiener phần tiếng được khuếch đại lớn hơn so với phương pháp trừ phổ nên có cảm giác nhiễu ít hơn

KẾT LUẬN LUẬN VĂN VÀ HƯỚNG PHÁT TRIỂN TRIỂN TIẾP THEO

Chất lượng tiếng nói thường bị ảnh hưởng bởi nhiễu từ môi trường xung quanh, đây là một vấn đề cần được giải quyết Việc nghiên cứu và áp dụng các phương pháp triệt nhiễu để cải thiện chất lượng tiếng nói là rất quan trọng, đặc biệt trong các dịch vụ truyền thông Cải thiện chất lượng tiếng nói bị nhiễu giúp người nghe tiếp nhận thông tin một cách rõ ràng và chính xác hơn.

Luận văn đã thực hiện đƣợc các vấn đề:

Định dạng
Số trang	76
Dung lượng	2,89 MB