Nghiên cứu các mô hình xấp xỉ và nội suy để xây dựng các thuật toán lọc và nén âm thanh

Giới thiệu

Sự phát triển của công nghệ vi điện tử và máy tính, cùng với thuật toán tính toán nhanh, đã thúc đẩy mạnh mẽ ứng dụng của xử lý tín hiệu số (Digital Signal Processing) Hiện nay, xử lý tín hiệu số đã trở thành một trong những ứng dụng cơ bản trong kỹ thuật mạch tích hợp hiện đại, với các chip lập trình tốc độ cao Ứng dụng của xử lý tín hiệu số rất đa dạng, bao gồm nhiều lĩnh vực khác nhau.

- Xử lý tín hiệu âm thanh, tiếng nói: nhận dạng lời nói, giọng nói; tổng hợp tiếng nói; biến văn bản thành tiếng nói; kỹ thuật âm thanh số ; .

Xử lý ảnh bao gồm nhiều kỹ thuật quan trọng như thu nhận và khôi phục ảnh, làm nổi đường biên, lọc nhiễu, nhận dạng và thị giác máy Ngoài ra, nó còn áp dụng trong hoạt hình, các kỹ xảo hình ảnh và tạo bản đồ, giúp nâng cao chất lượng và tính ứng dụng của hình ảnh trong nhiều lĩnh vực khác nhau.

- Viễn thông: xử lý tín hiệu thoại và tín hiệu hình ảnh, video; truyền dữ liệu; khử xuyên kênh; điều chế, mã hóa tín hiệu;

- Thiết bị đo lường và điều khiển: phân tích phổ; đo lường địa chấn; điều khiển vị trí và tốc độ; điều khiển tự động; .

- Quân sự: truyền thông bảo mật; xử lý tín hiệu rada, sonar; dẫn đường tên lửa; .

- Y học: não đồ; điện tim; chụp X quang; chụp CT(Computed TomographyScans); nội soi; .

Xử lý tín hiệu số là nền tảng quan trọng cho nhiều lĩnh vực và vẫn đang tiếp tục phát triển mạnh mẽ Hệ thống rời rạc thực hiện việc xử lý tín hiệu rời rạc, và trong chương 1, chúng ta sẽ khám phá các vấn đề liên quan đến biểu diễn, phân tích, nhận dạng, thiết kế và thực hiện hệ thống này.

Tín hiệu rời rạc

Định nghĩa tín hiệu

Tín hiệu là đại lượng vật lý chứa thông tin, được biểu diễn toán học qua hàm của một hay nhiều biến độc lập Ví dụ, tín hiệu tiếng nói là hàm theo thời gian, trong khi tín hiệu hình ảnh là hàm theo hai biến không gian Mỗi loại tín hiệu có tham số đặc trưng riêng, nhưng đều có các tham số cơ bản như độ lớn, năng lượng và công suất, phản ánh bản chất vật chất của tín hiệu Tín hiệu có thể được biểu diễn dưới dạng hàm thời gian x(t) hoặc hàm tần số X(ω) Trong nghiên cứu này, tín hiệu được xác định là hàm của biến thời gian, với giá trị hàm tương ứng gọi là biên độ, không phải là giá trị cực đại mà tín hiệu có thể đạt được.

Phân loại tín hiệu

Có nhiều cách để phân loại tín hiệu, dưới đây là cách phân chia theo cặp thuộc tính:

Thời gian rời rạc - Thời gian liên tục

Tín hiệu rời rạc về mặt thời gian được định nghĩa là tín hiệu chỉ tồn tại tại những thời điểm cụ thể và rời rạc Về mặt toán học, tín hiệu này có thể được coi là một hàm liên kết từ tập số tự nhiên đến tập số thực hoặc phức, với các giá trị thực hoặc phức.

Tín hiệu liên tục về mặt thời gian là tín hiệu có giá trị thực hoặc phức xác định tại mọi thời điểm trong một khoảng thời gian, thường là vô hạn Cần lưu ý rằng một hàm không liên tục về mặt toán học, như hàm sóng vuông hay sóng răng cưa, vẫn có thể được coi là hàm liên tục về mặt thời gian.

- Tín hiệu tương tự: là tín hiệu có giá trị thay đổi liên tục theo thời gian.

- Tín hiệu số: là tín hiệu đã được lấy mẫu và lượng tử hóa.

Định lý lấy mẫu Nyquist–Shannon

Nếu x=x(t) là tín hiệu liên tục theo thời gian t, tín hiệu này được lấy mẫu đều với khoảng thời gian T s Biên độ của mẫu thứ n được biểu diễn là x(nT s ) hoặc x(n), với giả định rằng trục thời gian đã được chuẩn hóa theo T s.

T s gọi là chu kỳ lấy mẫu (Sampling period) f s = 1/T s được gọi là tần số lấy mẫu (Sampling frequency) Định lý lấy mẫu được phát biểu như sau:

Một tín hiệu x(t) không có thành phần tần số nào lớn hơn hoặc bằng giá trị f max có thể được biểu diễn chính xác bằng cách sử dụng tập hợp các giá trị của nó với chu kỳ lấy mẫu T s = 1/(2f max).

Như vậy, tần số lấy mẫu phải thoả mãn điều kiện f s ≥ 2f max Tần số giới hạnf s /2này được gọi là tần số Nyquist và khoảng (−f s /2;f s /2)gọi là khoảng Nyquist.

Định lý cho thấy rằng một tín hiệu tương tự có tần số giới hạn có thể được tái tạo hoàn toàn từ chuỗi vô số mẫu, với điều kiện tỷ lệ lấy mẫu phải lớn hơn 2f max mẫu mỗi giây, trong đó f max là tần số cao nhất của tín hiệu gốc.

Cách biểu diễn tín hiệu rời rạc

Một tín hiệu rời rạc có thể được biểu diễn dưới dạng một dãy các giá trị thực hoặc phức Phần tử thứ n trong dãy được ký hiệu là x(n), và toàn bộ dãy được ký hiệu là x = x(n) với n nằm trong khoảng từ −∞ đến ∞ Trong đó, x(n) được gọi là mẫu thứ n của tín hiệu x.

- Từ đây về sau, trục thời gian sẽ được chuẩn hóa theo T s , khi cần trở về thời gian thực, ta thay biến n bằng nTs.

- Tín hiệu rời rạc chỉ có giá trị xác định ở các thời điểm nguyên n.

- Để đơn giản, sau này, thay vì ký hiệu đầy đủ, ta chỉ cần viết x(n) và hiểu đây là dãy x = x(n).

Các tín hiệu rời rạc cơ bản

Tín hiệu xung đơn vị (unit impulse) Đây là dãy cơ bản nhất được biểu diễn như sau: δ(n) 

Hình 1.1: Tín hiệu xung đơn vị δ(n)

Tín hiệu này có giá trị bằng nhau với tất cả các giá trị của n: x(n) =a với− ∞ ≤ n ≤ ∞ (1.3)

Tín hiệu nhảy bậc đơn vị

Dãy này thường được ký hiệu là u(n) và được định nghĩa như sau: u(n) 

Hình 1.2: Tín hiệu nhảy bậc đơn vị u(n)

Mối quan hệ giữa tín hiệu nhảy bậc đơn vị với tín hiệu xung đơn vị: u(n) n

Một tín hiệu x(n) được gọi là tuần hoàn với chu kỳ N khi: x(n+N) =x(n),∀n (1.6)

Hình 1.3: Tín hiệu tuần hoàn x(n)

Các phép toán cơ bản của dãy

Cho 2 dãy x 1 = {x 1 (n)} và x 2 = {x 2 (n)} các phép toán cơ bản trên hai dãy được định nghĩa như sau:

• Phép nhân 1 dãy với 1 hệ số: y =a.x= {a.x(n)}

• Phép dịch một dãy: (Shifting):

- Dịch phải: Gọi y là dãy kết quả trong phép dịch phải n 0 mẫu một dãy x ta có: y(n) =x(n−n 0 ) (1.7)

Phép dịch phải còn gọi là phép làm trễ (delay) Phép làm trễ một mẫu thường được ký hiệu bằng chữ D hoặc Z −1

- Dịch trái: Gọi z là dãy kết quả trong phép dịch trái n 0 mẫu một dãy x ta có: y(n) =x(n+n 0 ) (1.8)

Nhận xét: Ta thấy, một tín hiệu x(n) bất kỳ có thể biểu diễn bởi tín hiệu xung đơn vị như sau: x(n) ∞

Hệ thống rời rạc

Khái niệm

Hệ thống rời rạc là một toán tử hoặc thuật toán tác động lên tín hiệu vào để tạo ra tín hiệu ra theo một quy luật hoặc thủ tục tính toán nhất định Trong toán học, đây được định nghĩa là một phép biến đổi, biến đổi một dãy vào x(n) thành dãy ra y(n) Ký hiệu của hệ thống rời rạc được thể hiện như sau: y(n) = {T x(n)}.

Tín hiệu vào trong hệ thống được gọi là tác động hay kích thích (excitation), trong khi tín hiệu ra được gọi là đáp ứng (response) Mối quan hệ giữa kích thích và đáp ứng được biểu diễn qua quan hệ vào ra của hệ thống Đáp ứng xung (Impulse response) h(n) của một hệ thống rời rạc là đáp ứng của hệ thống khi kích thích là tín hiệu xung đơn vị δ(n), được biểu diễn bằng công thức h(n) = T δ(n).

Để biểu diễn một hệ thống bằng sơ đồ khối, cần xác định các phần tử cơ bản Hệ thống phức tạp được hình thành từ sự kết hợp của những phần tử này.

- Phần tử nhân dãy với dãy (signal multiplier): tương ứng với phép nhân hai dãy, có sơ đồ khối như sau:

Hình 1.4: Sơ đồ nhân dãy với dãy

- Phần tử nhân một dãy với một hằng số (Constant multiplier): tương ứng với phép nhân một hệ số với một dãy, có sơ đồ khối như sau:

Hình 1.5: Sơ đồ nhân một dãy với với một hằng số

- Phần tử cộng (Adder): tương ứng với phép cộng hai dãy, có sơ đồ khối như sau:

Hình 1.6: Sơ đồ cộng hai dãy

- Phần tử làm trễ một mẫu (Unit Delay Element): tương ứng với phép làm trễ một mẫu, có sơ đồ khối như sau:

Hình 1.7: Sơ đồ làm trễ một dãy

Phân loại hệ thống rời rạc

Các hệ thống rời rạc được phân loại dựa vào các thuộc tính của nó, cụ thể là các thuộc tính của toán tử biểu diễn hệ thống (T).

Hệ thống không nhớ (Memoryless systems):

Hệ thống không nhớ, hay còn gọi là hệ thống tĩnh, là loại hệ thống mà đầu ra y(n) tại mỗi thời điểm n chỉ phụ thuộc vào giá trị của đầu vào x(n) tại thời điểm đó.

Một hệ thống không thỏa mãn định nghĩa trên được gọi là hệ thống có nhớ hay hệ thống động (Dynamic systems).

Hệ thống tuyến tính (Linear systems)

Một hệ thống được coi là tuyến tính khi nó tuân theo nguyên lý chồng chất (Principle of superposition) Cụ thể, nếu y1(n) và y2(n) là các đáp ứng của hệ thống tương ứng với các tác động x1(n) và x2(n), thì hệ thống sẽ được xem là tuyến tính nếu và chỉ nếu thỏa mãn điều kiện này.

Một hệ thống tuyến tính được định nghĩa bởi tính chất tổng quát rằng đáp ứng của tổng các tác động là bằng tổng đáp ứng của từng tác động riêng lẻ Cụ thể, với hai hằng số a và b, và mọi n, ta có công thức T{ax1(n) + bx2(n)} = aT{x1(n)} + bT{x2(n)} = ay1(n) + by2(n) Ngược lại, nếu một hệ thống không thỏa mãn điều kiện này, nó được gọi là hệ thống phi tuyến.

Hệ thống bất biến theo thời gian (Time-Invariant systems)

Một hệ thống là bất biến theo thời gian nếu và chỉ nếu tín hiệu vào bị dịch n d mẫu thì đáp ứng cũng dịch n d mẫu, ta có:

Hệ thống ổn định (Stable systems)

Một hệ thống được coi là ổn định, hay còn gọi là hệ thống BIBO (Bounded-Input Bounded-Output), nếu và chỉ nếu mọi tín hiệu đầu vào bị giới hạn sẽ tạo ra tín hiệu đầu ra cũng bị giới hạn.

Một dãy vào x(n) bị giới hạn nếu tồn tại một số dương hữu hạn B x sao cho:

Một hệ thống ổn định đòi hỏi rằng, ứng với mỗi dãy vào hữu hạn, tồn tại một số dương B y hữu hạn sao cho:

Hệ thống tuyến tính bất biến theo thời gian (LTI: Linear time- invariant system)

Hệ thống tuyến tính bất biến theo thời gian là hệ thống thỏa mãn đồng thời hai tính chất tuyến tính và bất biến.

Gọi T là một hệ thống LTI Giã sử tín hiệu y(n) là đáp ứng của tín hiệu x(n) theo phương trình (1.9) ta có: y(n) =T{x(n)}=T{

Hệ thống LTI có thể được mô tả hoàn toàn qua đáp ứng xung, cho phép tính toán đáp ứng của hệ thống với bất kỳ kích thích nào Với cách biểu diễn và tính toán thuận lợi, hệ thống LTI đóng vai trò quan trọng trong nhiều ứng dụng xử lý tín hiệu.

Tổng chập (Convolution)

Định nghĩa

Tổng chập của hai dãy x 1 (n) và x 2 (n) bất kỳ, ký hiệu: * , được định nghĩa bởi biểu thức sau: y(n) =x 1 (n)∗x 1 (n) ∞

Theo phương trình (1.15) ta có: y(n) ∞

Vậy đáp ứng của một hệ thống bằng tổng chập tín hiệu vào với đáp ứng xung của hệ thống đó.

Các tính chất của tổng chập

Cho 2 dãyx 1 (n) và x 2 (n) bất kỳ, ta có: y(n) =x 1 (n)∗x 2 (n) =x 2 (n)∗x 1 (n) (1.18)

Cho 3 dãyx 1 (n), x 2 (n) và x 2 (n) bất kỳ, ta có: y(n) = [x 1 (n)∗x 2 (n)]∗x 3 (n) =x 1 (n)∗[x 2 (n)∗x 3 (n)] (1.19)

Khi xét hai hệ thống LTI có đáp ứng xung lần lượt là h1(n) và h2(n) mắc liên tiếp, đáp ứng của hệ thống thứ nhất trở thành kích thích cho hệ thống thứ hai Áp dụng tính chất kết hợp, ta có y(n) = x(n) * h(n) = [x(n) * h1(n)] * h2(n) = x(n) * [h1(n) * h2(n)], từ đó suy ra h(n) = [h1(n) * h2(n)].

Hình 1.8: Tính chất của hệ thống mắc liên tiếp

Tính chất phân bố với phép cộng (Distributes over addition)

Tính chất này được biểu diễn bởi biểu thức sau: y(n) =x 1 (n)∗[x 2 (n) +x 3 (n)] =x 1 (n)∗x 2 (n) +x 1 (n)∗x 3 (n) (1.21)

Khi xét hai hệ thống LTI với đáp ứng xung lần lượt là h1(n) và h2(n) được kết nối song song, đáp ứng xung của hệ thống tương đương sẽ được tính bằng công thức h(n) = h1(n) + h2(n).

Hình 1.9: Tính chất của hệ thống mắc song song

Tương quan giữa các tính hiệu rời rạc

Các định nghĩa

Xét 2 dãy x(n) và y(n), giả sử rằng ít nhất một trong hai dãy có năng lượng hữu hạn, khi đó tương quan chéo của x(n) và y(n)) được định nghĩa như sau: r xy (n) ∞

Trong định nghĩa tương quan chéo, nếu x(n) = y(n) thì ta sẽ có tự tương quan Vậy tự tương quan của tín hiệu x(n) được định nghĩa như sau: r xx (n) ∞

Các Phép Biến Đổi Quan Trọng

Giới thiệu

Kỹ thuật biến đổi Z là một công cụ quan trọng trong phân tích hệ thống LTI, tương tự như biến đổi Laplace đối với tín hiệu liên tục Biến đổi Z giúp chuyển đổi tổng chập của hai dãy trong miền thời gian thành tích của hai biến đổi Z trong miền biến phức z, từ đó đơn giản hóa việc tính toán đáp ứng của hệ thống với các tín hiệu đầu vào khác nhau.

Biến đổi Fourier đóng vai trò quan trọng trong việc biểu diễn và phân tích các hệ thống rời rạc Tuy nhiên, trong một số trường hợp, cần áp dụng dạng tổng quát hóa của nó, được gọi là biến đổi Z.

Biến đổi Z (Z transform)

Biến đổi Z của một dãy x(n) được định nghĩa như là chuỗi lũy thừa:

X n=−∞ x(n)z −n (2.1) với z là một biến phức.

Ta có thể coi biến đổi Z như là một toán tử (operator) mà nó biến một dãy thành một hàm, ký hiệu ZT, ta viết lại:

Biến đổi Z hai phía, được định nghĩa bởi (2.3), là một công cụ quan trọng trong phân tích tín hiệu, với biến n chạy từ −∞ đến ∞ Trong khi đó, biến đổi Z một phía được định nghĩa khác biệt và có ứng dụng riêng trong các hệ thống tín hiệu.

X n=0 x(n)z −n (2.4) trong trường hợp này biến n chạy từ 0 đến ∞.

Ta thấy biến đổi Z hai phía và một phía chỉ bằng nhau khi x(n) = 0 với mọi n≤ 0 Nếu biểu diễn Z theo tọa độ cực z =re jω ,(2.1) trở thành:

X n=−∞ x(n)r(e jω ) −n (2.5) Đặc biệt, nếu r = 1 ( nghĩa là |z| = 1), thì biến đổi Z trở thành biến đổi Fourier:

2.2.2 Miền hội tụ (ROC: Region of Convergence)

Biến đổi Z của một tín hiệu x(n) là một chuỗi lũy thừa, được gọi là chuỗi Laurent Tuy nhiên, biến đổi Z không phải lúc nào cũng hội tụ với mọi tín hiệu hoặc mọi giá trị của z, vì vậy cần xem xét miền hội tụ của nó Định nghĩa: Với mọi dãy x(n) xác định, tập hợp các giá trị của z sao cho chuỗi hội tụ là rất quan trọng để đảm bảo tính chính xác của biến đổi Z.

X n=−∞ x(n)z −n (2.7) hội tụ được gọi là miền hội tụ của biến đối Z.

Kí hiệu: ROC(Region of Convergence)

< ∞} (2.8) Điều kiện đủ để biến đổi Z hội tụ là:

Nếu một giá trị z = z 1 nào đó ở trong ROC, thì vòng tròn có bán kính là

|z| =z 1 cũng nằm trong ROC Điều này cho thấy rằng ROC là một miền hình vành khăn bao quanh góc tọa độ như biểu diễn trong hình 2.1

Hình 2.1: Miền hội tụ của biến đổi Z

Một loại biến đổi Z thông dụng và quan trọng đó là biến đổi Z mà X(z) của nó có dạng là một hàm hữu tỉ với mọi z trong ROC, nghĩa là:

Trong lĩnh vực toán học, P(z) và Q(z) là các đa thức với biến z hoặc z −1 Các giá trị của z mà tại đó X(z) = 0 được gọi là các zeros của X(z), trong khi các giá trị của z mà tại đó X(z) = ∞ được gọi là các cực (poles) của X(z) Các cực này là các nghiệm xác định của đa thức mẫu số Q(z) và bao gồm cả các giá trị z = 0 hoặc z = ∞.

2.2.4 Biến đổi Z ngược (The inverse Z -transform) Định nghĩa: Nếu X(z) là biến đổi Z của x(n), thì x(n) là biến đổi Z ngược của X(z), ta có cặp biến đổi Z: x(n) ←−→ TZ

Biến đổi Z ngược là một quy trình chuyển đổi từ miền Z sang miền thời gian Về mặt toán học, nó là một toán tử chuyển đổi hàm X(z) thành dãy x(n).

Công thức để tính dãy x(n) từ X(z) được thành lập dựa vào định lý tích phân Cauchy.

Theo định nghĩa biến đổi Z ở phần trên ta có:

Nhân hai vế cho Z k−1 ta có z k−1 X(z) ∞

Lấy tích phân hai vế trên đường cong kín C bao quanh gốc tọa độ, ngược chiều kim đồng hồ và nằm trong miền hội tụ của X(z), ta được:

Tích phân đường trong công thức(2.14) được tính bằng định lý giá trị thặng dư của Cauchy.

Với Res(f, z) là giá trị thặng giư tại các cực năm trong C.

2.2.5 Các tính chất của biến đổi Z

Giả sử ta có các cặp biến đổi Z như sau: x(n) −−→ ZT X(Z) với ROC x =R x x 1 (n)−−→ ZT X 1 (Z) với ROC x−1 =R x 1 x 2 (n)−−→ ZT X 2 (Z) với ROC x−2 =R x 2 y(n) −−→ ZT Y(Z) với ROC x =R y

Tuyến tính (Linearity) ax 1 (n) +bx 2 (n) −−→ ZT aX 1 (Z) +bX 2 (Z) (2.16) trong đó a và b là các hằng số bất kỳ.

Dịch thời gian (Time shifting) x(n−k)−−→ ZT z −k X(Z) (2.17)

Dịch phải k mẫu tương ứng với việc làm trễ tín hiệu k mẫu, được thể hiện qua nhân với z^(-k) trong phép biến đổi z Với k = 1, toán tử z biểu diễn phép làm trễ một mẫu, điều này giúp phân tích hệ thống LTI trở nên hiệu quả nhờ vào tính chất tuyến tính và tính chất dịch thời gian Đổi thang đo trong miền z cho phép chuyển đổi tín hiệu từ x(n) thành X(z^a), trong khi đảo thời gian chuyển đổi x(−n) thành X(z^1) Tích chập giữa hai tín hiệu x(n) và x_1(n) dẫn đến X(z) = X_1(z)X_2(z) trong miền z.

Tính chất tổng chập cho phép tính toán hiệu quả bằng cách biến đổi phép tổng chập trong miền thời gian thành phép nhân trong miền z.

2.2.6 Các cặp biến đổi Z cơ bản

Các cặp biến đổi Z cơ bản được liệt kê trong bảng 2.1

Bảng 2.1: Các cặp biến đổi Z cơ bản

Tin hiệu x(n) Biến đổi Z, X(z) ROC δ(n) 1 Tất cả mặt phẳng z u(n) 1

2.2.7 Hàm truyền đạt của hệ thống LTI

Từ chương 1, chúng ta đã nhận thấy rằng một hệ thống LTI có thể được đặc trưng trong miền thời gian thông qua đáp ứng xung h(n) Đối với tín hiệu đầu vào x(n), đáp ứng của hệ thống có thể được tính toán bằng tổng chập, được biểu diễn qua công thức y(n) = x(n) * h(n).

Chúng ta cũng thấy được các khó khăn khi xác định đáp ứng của hệ thống trực tiếp bằng tổng chập.

Gọi X(z) và H(z) lần lượt là biến đổi z của x(n) và h(n), áp dụng tính chất chập của biến đổi Z, ta được biến đổi Z của y(n) như sau:

Y(z) =X(z)H(z) (2.23) với một miền hội tụ thích hợp.

Thông qua phép biến đổi Z, tổng chập của hai dãy được chuyển đổi thành phép nhân đơn giản Sau khi tính được Y(z), ta áp dụng phép biến đổi Z ngược để tìm đáp ứng y(n) Phương pháp này rõ ràng đơn giản hơn so với việc tính toán trực tiếp từ tổng chập.

Phương trình 2.23 có thể được viết lại:

H(z) là hàm hệ thống hay hàm truyền đạt, và nó cùng với h(n) tạo thành một cặp duy nhất Do đó, bất kỳ hệ thống LTI nào cũng có thể được đặc tả hoàn toàn bằng hàm truyền đạt của nó.

Biến đổi Fourier (Fourier transform)

2.3.1 Chuổi Fourier của một tín hiệu liên tục tuần hoàn theo thời gian

Một tín hiệu tuần hoàn liên tục có thể được phân tích thành tổ hợp tuyến tính của các tín hiệu hình sin hoặc hàm mũ phức Chúng tôi sẽ tóm tắt lại khái niệm này.

Xét một tín hệu tuần hoànx(t) với chu kỳ cơ bản là Tp được khai triển bởi chuỗi Fourier như sau:

Các hệ số Fourier X k có giá trị phức, thể hiện biên độ và pha của các thành phần tần số F = kF p Đối với tín hiệu tuần hoàn là thực, các hệ số này đóng vai trò quan trọng trong việc phân tích tần số.

X k và X −k là các liên hợp phức.

Ta có thể xem phổ biên độ của tín hiệu là một hàm rời rạc, với đồ thị đối xứng qua trục tung khi tín hiệu tuần hoàn là tín hiệu thực Do đó, khi nghiên cứu phổ biên độ của các tín hiệu tuần hoàn thực, chỉ cần khảo sát trong miền tần số dương.

Một tín hiệu không tuần hoàn có độ dài hữu hạn x(t) có thể được chuyển đổi thành tín hiệu tuần hoàn x p(t) với chu kỳ T p bằng cách lặp lại tín hiệu x(t) với chu kỳ T p Khi chu kỳ T p tiến tới vô cùng, tín hiệu tuần hoàn x p(t) sẽ trở thành tín hiệu gốc x(t).

Hình 2.2: Tạo tín hiệu tuần hoàn từ tín hiệu không tuần hoàn có độ dài hữu hạn.

Chuỗi Fourier của tín hiệu tuần hoàn x p (t) là :

2 nên ta có thể thay x p (t) bằng x(t) trong tích phân 2.3.24 và khi đó miền lấy tích phân trở thành: (−∞,∞):

T p khi k chạy từ −∞ → ∞, F k sẽ nhận các giá trị:

Như vậy có thể xem X k như là một hàm của biến rời rạc F k Khi T p → ∞

F k sẽ nhận các giá trị liên tục trong R và ta định nghĩa Biến đổi Fourier của tín hiện liên tục không tuần hoàn như sau:

Biến đổi Fourier của tín hiệu liên tục không tuần hoàn x(t)là một hàm X(F) của biến tần số liên tục F được xác định bởi tích phân :

2.3.3 Biến đổi Fourier ngược của tín hiệu liên tục

Như đã đề cập ở trên khi T p → ∞ thì x p (t) → x(t) ∆F trở thành vi phân dF và k∆F trở thành biến tần số liên tục F Phương trình 2.33 trở thành: x(t) ∞

Nếu X(F) là biến đổi Fourier của tín hiệu x(t) thì: x(t) ∞

X(F)e 2πjF t dF (2.35) cách tính x(t) từ X(F) như trên được gọi là biến đổi Fourier ngược của X(F)

Biến đổi Fourier rời rạc-DFT

2.4.1 Biến đổi Fourier rời rạc-DFT

Máy tính chỉ có khả năng xử lý các tổng hữu hạn, và để chuyển đổi tín hiệu liên tục thành tín hiệu rời rạc, tín hiệu đó cần có giá trị compact trong cả miền thời gian và tần số Mặc dù về lý thuyết điều này không khả thi, nhưng thực tế cho thấy hầu hết các tín hiệu đều có giá trị compact ở cả hai miền.

Giả sử x(t) là tín hiệu có giá trị 0 ngoài khoảng [0, L] và biến đổi Fourier X(F) của x(t) cũng bằng 0 ngoài đoạn [0, 2B] Theo định lý lấy mẫu, để nội suy x(t), cần thực hiện lấy mẫu với chu kỳ phù hợp.

2B Như vậy số mẫu tối thiểu cần phải lấy là:

Và ta cần lấy mẫu ở những vị trí sao: t 0 = 0;t 1 = 1

Dạng rời rạc củax(t) là một dãy các giá trị: x(t 0 );x(t 2 );x(t 2 ); .;x(t N −1 ).

Vì ở miền thời gian x(t) là hàm có giá trị 0 với mọi t ở ngoài đoạn [0, L],

Nên nếu muốn nội suy X(F) ta phải lấy mẫu ở miền tần số với chu kỳ là 1

L Vậy số mẫu cần phải lấy là:

Và ta cần lấy mẫu ở những vị trí sau:

L Dạng rời rạc củaX(F)là một dãy các giá trị:X(F 0 );X(F 2 );X(F 2 ); .;X(F N−1 )

Cho tín hiệu rời rạc: x(n) ={x(0), x(1), x(2), , x(N −1)}

Biến đổi Fourier rời rạc của x(n) là tín hiệu:

Dạng ma trận của biến đổi Fourier rời rạc: Đặt: ωN =e

Trong trường hợp tổng quát khi không quan tâm tới giá trị của N ta có thể viết ω thay cho ω N

Dạng ma trận của phương trình trên là:

 được gọi là ma trận của biến đổi DFT và:

X D [F D ] = W N x(n) (2.40) được gọi là dạng ma trận của của biến đổi DFT.

2.4.2 Biến đổi Fourier rời rạc ngược Đặt: Ω = 1, ω 1 , ω 2 ,ã ã ã , ω (N −1)

• Nếu k là một bội của N thì:

• Nếu k không phải là bội của N thì:

• Với hai số nguyên k, l ta có:

N nếu k ≡l mod N Gọi W N ∗ là ma trận chuyển vị của ma trận DFT W N :

Từ dạng ma trận của biến đổi DFT:

Khai triển phép nhân ma trận bên trên ta được: x(n) = 1

X D (F D ) ={X(0), X(1), X(2), , X(N −1)} là biến đổi Fourier rời rạc của tín hiệu: x(n) ={x(0), x(1), x(2), , x(N −1)}

Cách tính x(n) từ X D (F D ) như trên được gọi là biến đổi Fourier rời rạc ngược của X D (F D )

Mô Hình Toán Học Của Hệ Thống Phát Âm Của Người - Phương pháp LPC (Linear Prediction Coding)

Giới thiệu

Tiếng nói là phương tiện giao tiếp chính của con người, được hình thành từ tư duy và điều khiển bởi trung khu thần kinh Âm thanh của tiếng nói là sóng âm thanh lan truyền trong không khí, xuất phát từ sự dãn nở của không khí Tín hiệu âm thanh có tính biến thiên liên tục về thời gian và biên độ, với dải tần số rộng, nhưng tai người chỉ nhận biết được sóng âm trong khoảng 20 - 20.000 Hz Sóng có tần số trên 20.000 Hz được gọi là sóng siêu âm, trong khi sóng dưới 20 Hz là sóng hạ âm Dải tần số của tín hiệu tiếng nói thường được giới hạn trong khoảng này để tối ưu hóa khả năng giao tiếp.

Tần số của tín hiệu tiếng nói nằm trong khoảng từ 300 đến 3500 Hz, cho thấy rằng việc phân tích và tổng hợp âm thanh chỉ cần một số tham số nhất định là đủ để biểu diễn hiệu quả tín hiệu tiếng nói mà não người có khả năng xử lý.

Xử lý tiếng nói, mặc dù còn mới mẻ, đã đạt được nhiều thành tựu đáng kể và được áp dụng rộng rãi trong các lĩnh vực như nhận dạng, tổng hợp tiếng nói, tương tác người máy, truyền thông và giáo dục Công nghệ này giúp tạo ra các máy móc thông minh có khả năng hiểu và giao tiếp bằng lời nói với con người Một trong những phương pháp quan trọng trong xử lý tiếng nói là mã hóa dự đoán tuyến tính (LPC), được sử dụng trong phân tích, mã hóa và tổng hợp tiếng nói.

Bộ máy phát âm và cơ chế phát âm

Hình 3.1: Bộ máy phát âm của người

Bộ máy phát âm gồm:

- Các cơ quan tạo năng lượng cho hoạt động phát âm là phổi, khí quản (Trachead).

Các cơ quan chịu trách nhiệm tạo lập, khuếch đại và phát ra âm thanh bao gồm thanh hầu (larynx), khoang hầu (pharynx), khoang miệng (oral cavity) và khoang mũi (nasal cavity).

Thanh hầu và các khoang nói trên là những cộng minh trường (hộp cộng hưởng) chứa nhiều bộ phận, và sự vận động của chúng tạo ra âm thanh với âm sắc đa dạng.

Thanh hầu là một cấu trúc giống như hộp nằm trên khí quản, được hình thành từ bốn miếng sụn kết hợp lại Chức năng chính của thanh hầu là khuếch đại âm thanh phát ra từ sự dao động của dây thanh.

Hình 3.2: Mô phỏng khoang hầu, khoang miệng và khoang mũi

Dây thanh, hay còn gọi là dây thanh âm, là hai cơ thịt dài khoảng 2cm nằm song song trong thanh hầu, có khả năng mở, khép, căng và chùng nhờ sự điều khiển của hệ thần kinh Dây thanh của nam giới thường dày hơn so với nữ giới và có xu hướng dày lên theo độ tuổi, đặc biệt là trong giai đoạn dậy thì, dẫn đến hiện tượng vỡ tiếng.

Khoang hầu nằm ngay trên thanh hầu, dưới khoang miệng và có đường thông lên khoang mũi, cho phép thay đổi linh hoạt thể tích và hình dáng của khí nhờ vào hoạt động của lưỡi và môi Lưỡi con (velum) đóng vai trò như van thoát khí, tạo sự khác biệt giữa âm miệng và âm mũi Vòm miệng (palate) ngăn cách khoang miệng và khoang mũi, trong khi sự phối hợp của môi, lưỡi, răng, lợi và ngạc tạo ra những chỗ cản đa dạng, là cơ sở để hình thành các phụ âm.

3.2.2 Cơ chế phát âm Để phát âm, dưới sự điều khiển của hệ thần kinh, nói chung không khí từ phổi được đẩy qua khí quản, vào thanh hầu rồi thoát qua các cộng minh trường phía trên thanh hầu để thoát ra ngoài Có thể thấy hai trường hợp.

Không khí thoát ra từ phổi làm rung dây thanh với một tần số nhất định, tạo ra âm thanh có thanh điệu cụ thể Âm thanh này nhỏ và được khuếch đại nhờ các cộng minh trường như thanh hầu, khoang hầu, khoang miệng và khoang mũi, hình thành âm lời nói Những âm này được gọi là âm hữu thanh (voiced sounds) và nếu dây thanh rung đều đặn, âm sẽ chứa nhiều tiếng thanh, được gọi là âm vang Các nguyên âm, phụ âm mũi, phụ âm bên và phụ âm rung thuộc loại âm vang Trong trường hợp nói thì thào, không khí thoát ra mạnh nhưng dây thanh xa nhau và chỉ rung động nhẹ, tạo ra âm giọng thở (breathed sounds).

Hình 3.3: Hoạt động của hai dây thanh

Không khí thoát ra không làm rung dây thanh sẽ cọ xát và phá vỡ chỗ cản của bộ máy phát âm, tạo ra âm thanh Khoang hầu, khoang miệng và khoang mũi sẽ cộng hưởng và khuếch đại âm thanh lời nói Các bộ phận như thanh hầu chứa dây thanh và các cộng minh trường khác có tác dụng khống chế và tăng cường một số tần số, tạo nên hòa âm Khi không khí cọ xát hoặc bật phá chỗ cản, sẽ tạo ra dao động không đều, dẫn đến tiếng động (tiếng ồn) Những âm thanh này, không có sự tham gia của tiếng thanh, được gọi là âm vô thanh.

Hệ thống tạo âm thanh của con người được biểu diễn bởi sơ đồ 3.4:

Hình 3.4: Sơ đồ biểu diễn hệ thống phát âm của người

Trong phổ tần số của tín hiệu tiếng nói, mỗi đỉnh có biên độ cao nhất trong một khoảng nhất định, được gọi là cực trị địa phương, xác định một formant.

Các tần số formant tương ứng với tần số cộng hưởng của khoang hầu, đóng vai trò quan trọng trong xử lý và tổng hợp tiếng nói Để mô phỏng chính xác âm thanh của con người, cần xác định các tham số formant cho từng loại âm vị, vì vậy việc đánh giá và ước lượng các formant là rất cần thiết.

Hình 3.5: Các formant của một đoạn tín hiệu tiếng nói

Tần số formant biến đổi rộng rãi tùy thuộc vào giới tính người nói và các âm vị liên quan Ngoài ra, formant cũng chịu ảnh hưởng từ các âm vị trước và sau Cấu trúc tự nhiên của tần số formant gắn liền với hình dạng và kích thước của tuyến âm Trong phổ tần số tín hiệu, có khoảng 6 formant, nhưng chỉ 3 formant đầu tiên có ảnh hưởng quan trọng đến đặc tính âm vị, trong khi các formant còn lại có ảnh hưởng rất ít Giá trị tần số của các formant dao động từ vài trăm đến vài nghìn Hz.

Mô hình toán học của hệ thống phát âm của người

Các bộ phận trong sơ đồ 3.4 hoạt động như các hợp cộng hưởng, cho phép chúng ta rời rạc hóa và thay thế từng đoạn bằng các ống cơ bản ngắn (ống hình trụ hình 3.2) Qua việc tính toán trên các ống này, chúng ta có thể sử dụng các bộ lọc số để mô phỏng chúng Hơn nữa, do quá trình tạo ra âm hữu thanh và âm vô thanh khác nhau, sơ đồ 3.4 có thể được biểu diễn lại dưới dạng mô hình toán học.

Hình 3.6: Mô hình toán học của hệ thống phát âm của người

Mô hình 3.6 được Gunnar Fant phát triển vào năm 1960, liên quan đến âm hữu thanh Tín hiệu đầu vào của hệ thống là chuỗi xung đơn vị với chu kỳ P, được biểu diễn bởi phương trình e(n) = δ(n−kP) với k = 0, 1, 2, Trong miền z, điều này tạo ra những đặc điểm quan trọng cho phân tích âm thanh.

Tín hiệu này được cho bộ lọc thông thấp đóng vai trò của thanh hầu có hàm truyền đạt là:

Đầu ra của bộ lọc là tín hiệu nguồn của hệ thống, với tín hiệu này có chu kỳ P và được nhân với hệ số khuếch đại A v Tín hiệu sau đó được đưa qua khoang hầu, được mô hình hóa như một hợp cộng hưởng với K mạch cộng hưởng mắc nối tiếp, có hàm truyền đạt đặc trưng.

Với p= 2K và K là số tần số cộng hưởng muốn xác định.

Cuối cùng âm thanh được phát ra ở môi, nơi được coi như một tải âm học.

Sự tán xạ ở môi được mô phỏng như là bộ lọc thông cao có hàm truyền đạt:

Hình 3.7: Mô hình toán học tạo âm hữu thanh

Như vậy hàm truyền đạt của cả mô hình 3.7 là:

Hàm truyền đạt của hệ thống phát âm là hàm toàn cực, điều này giúp tính toán dễ dàng hơn Đối với âm vô thanh, khoang hầu không hoạt động, hai dây thanh không rung, và khí sẽ cọ xát hoặc phá vỡ trở ngại từ các bộ phận hoạt động của bộ máy phát âm để tạo ra âm thanh Âm thanh này sau đó được khoang hầu, khoang miệng và khoang mũi cộng hưởng, khuếch đại thành lời nói Trong một số trường hợp, lưỡi con sẽ đóng lại, khiến âm thanh thoát ra qua khoang mũi, tạo ra âm mũi Do đó, cần đưa bộ lọc khoang mũi với hàm truyền đạt C(z) vào mô hình, nhưng đây không phải là hàm toàn cực.

Hình 3.8: Mô hình toán học tạo âm vô thanh

Hàm truyền đạtC(z) của bộ lọc khoang mũi không phải là hàm toàn cực. Như vậy hàm truyền đạt của cả mô hình 3.8 là:

Như vậy, ta có thể biểu diễn gần đúng một điểm zero bằng hai điểm cực, hàm truyền đạt của mô hình trở thành:

Từ (3.4) và (3.10) có thể xây dựng một công thức chung cho hàm truyền đạt cho cả hai mô hình tạo âm hữu thanh và âm vô thanh:

• G là hệ số khuếch đại.

Bậc của mô hình, ký hiệu là q, là một số nguyên dương và theo kinh nghiệm thực tiễn, giá trị q = 12 được cho là đủ để đảm bảo mô hình hoạt động hiệu quả.

Các hệ số tiên đoán a k của hàm truyền đạt đại diện cho sự biến đổi của các bộ phận trong hệ thống tạo âm thanh của con người, cho phép tạo ra những âm thanh đa dạng khác nhau.

Hình 3.9: Mô hình toán học tạo âm thanh

Mô hình 3.9 cho kết quả tốt trong việc khảo sát âm thanh trong khoảng thời gian ngắn từ 10-30ms, vì con người cần thời gian này để tạo ra âm thanh, mặc dù các hệ số của mô hình có thể biến đổi Trong khoảng thời gian này, các hệ số vẫn giữ nguyên Bài viết sẽ tiếp tục khám phá cách tính các hệ số để xây dựng thuật toán LPC nhằm nén và giải nén âm thanh.

Phương pháp CELP (Code excited linear prediction) 54 4.1.Giới thiệu

Phương pháp CELP

Ý tưởng cơ bản của phương pháp được thể hiện bằng sơ đồ trong hình 4.1.

Phương pháp CELP bắt đầu bằng việc tạo ra nguồn âm và đưa âm thanh qua bộ lọc LPC để tổng hợp âm thanh s(n) Sau đó, âm thanh gốc được trừ đi âm thanh tổng hợp để tạo ra dãy sai số Dãy sai số này tiếp tục được xử lý qua bộ lọc cảm nhận, cho ra dãy a w (n) Cuối cùng, bằng cách cực tiểu hóa dãy a w (n), chúng ta xác định được nguồn âm phù hợp cho đoạn âm thanh ban đầu.

4.2.1 Bộ lọc nhấn cảm nhận

Ngoài việc sử dụng các đặc tính của tiếng nói để nén âm thanh, việc khai thác khả năng cảm nhận âm thanh của tai người cũng rất quan trọng Tai người không thể nhận diện những âm thanh bị che khuất bởi các âm thanh khác có năng lượng lớn hơn một ngưỡng nhất định.

Hình 4.2: Biểu diễn hiệu ứng của bộ lọc nhấn cảm nhận

Bộ lọc nhấn cảm nhận W(z) tác động đến phổ nhiễu bằng cách nâng biên độ của nhiễu trong vùng tần số formant, đồng thời nén biên độ của nhiễu ở các vùng trũng của đáp ứng tần số bộ lọc LPC Hậu quả là, phổ nhiễu sau khi qua W(z) có hình dạng tương tự như phổ của bộ lọc LPC, giúp các tần số formant dễ dàng che lấp năng lượng của nhiễu Do đó, W(z) định dạng nhiễu và sai số sao cho chúng bị che khuất bởi các tần số formant có năng lượng cao.

Hàm truyền đạt của bộ lọc nhấn cảm nhận là:

• a k là các hệ số tiên đoán cho bộ lọc LPC ở frame tương ứng.

• γ D ∈ (0,1) trong thực tế lựa chọn tốt nhất cho γ D nằm trong khoảng

4.2.2 Bộ lọc dự đoán thời gian dài - Long term prediction filter

Bộ lọc được thiết kế để xử lý dãy sai số dự đoán, giúp loại bỏ các đỉnh xung và biến đổi dãy này thành dãy nhiễu trắng Điều này rất quan trọng trong phương pháp CELP, vì nó đồng nhất nguồn âm của âm hữu thanh và âm vô thanh thành nhiễu trắng Sơ đồ minh họa cho ý tưởng của bộ lọc được trình bày trong hình 4.3.

Hình 4.3: Bộ lọc dự đoán dài LTP

Hàm truyền đạt của bộ lọc:

Bộ lọc hoạt động bằng cách làm trễ dãy sai số dự đoán α mẫu, sau đó nhân với hệ số b 0 và trừ đi dãy sai số ban đầu Nếu xác định được α phù hợp với chu kỳ khởi tạo xung, đỉnh xung sẽ bị triệt tiêu sau phép trừ Do đó, việc tìm ra α đồng nghĩa với việc xác định chu kỳ khởi tạo xung.

Hình 4.4: Nguyên tắc hoạt động của bộ lọc dự đoán dài LTP

Hệ số α được xác định trong khoảng từ 20 đến 147, tương ứng với ngưỡng tần số của giọng nói con người, nằm trong khoảng 50 đến 400Hz Trong phần tiếp theo, chúng ta sẽ khám phá cách tìm kiếm các giá trị α và b0.

Từ hình 4.3 ta có sơ đồ trong hình 4.5:

Hình 4.5: Bộ lọc dự đoán dài ngược

Như vậy sơ đồ trong hình 4.1 trở thành sơ đồ trong hình 4.6

Hình 4.6: Phương pháp CELP với Bộ lọc LTP ngược

Từ sơ đồ 4.6, nguồn âm hiện tại là nhiễu, dẫn đến khái niệm codebook, nơi lưu trữ các vectơ kích thích có độ dài cố định, được tạo thành từ các dãy nhiễu Gaussian Tín hiệu kích thích cho mỗi đoạn tiếng nói sẽ được tìm kiếm trong codebook với mục tiêu tối thiểu hóa năng lượng của dãy sai số a w (n).

Hình 4.7: Sơ đồ CELP hoàn chỉnh

Một codebook thường chứa 1024 vectơ, mỗi vectơ có độ dài bằng 1

Trong bài viết này, chúng ta sẽ thảo luận về việc chia các frame thành các subframe dài khoảng 5ms do sự ổn định của các thông số khởi tạo xung và hệ số khuếch đại chỉ duy trì trong khoảng thời gian ngắn này Mỗi subframe sẽ được cập nhật nguồn âm và sử dụng bộ lọc LPC bậc 10 Đối với mỗi subframe, cần phải cập nhật chỉ số vectơ nguồn âm trong codebook, hệ số khuếch đại β, cùng với hai thông số b0 và α để xây dựng bộ lọc dự đoán dài 1.

Hình 4.8: Các thông số cần cho mỗi frame và subframe

4.2.4 Cách tính các thông số cho một subframe

Theo sơ đồ 4.7 ta có: e(n) =s(n)−s(n)ˆ

Như vậy chúng ta có thể thay thế vị trí đặt bộ lọc nhấn cảm nhận và cái tiến sơ đồ 4.7 thành sơ đồ 4.9:

Hình 4.9: Phương pháp CELP sau khi di chuyển bộ lọc nhấn cảm nhận

D) nên ta có thể thu gọn hai bộ lọcH(z) và W(z) thành bộ lọc 1

Hình 4.10: Phương pháp CELP sau khi thu gọn các bộ lọc

• h(n) là đáp ứng xung của bộ lọc 1

• w(n) là đáp ứng xung của bộ lọc nhấn cảm nhận W(z)

=⇒ a w (n) =ζ w0 (n)−βζ w1 (n, k)−b 0 ζ w2 (n, α) Để đơn giản quá trình cực tiểu năng lượng của dãy aw(n) ta chia quá trình thành hai bước:

Bước 1: Chúng ta tìm giá trị tối ưu của b 0 và α để cực tiểu hàm: ξ 2 (b 0 , α) n

Với α cho trước, giá trị tối ưuˆb 0 (α) của b 0 phải thỏa: δξ 2 δb 0 ˆb 0 (α) n

P i=1 ζ w0 (n)ζ w2 (n, α) ζ w2 (n, α) Thay giá trị ˆb0(α) vừa tìm được vào 4.3 ta có: ξ 2 (α) n

Giá trị tối ưu của α để cực tiểu ξ 2 (α) được tìm trong khoảng 20 → 147. Điều này được thực hiện dễ dàng trên máy tính.

Sau khi xác định các giá trị của b 0 và α, chúng ta tính toán giá trị của hàm ζ w0 0 (n) = ζ w0 (n) − b 0 ζ w2 (n, α) Tiếp theo, nhiệm vụ ở bước 2 là tìm giá trị tối ưu của k và β nhằm cực tiểu hàm ξ 1 (β, k) n.

[ζ w0 0 (n)−βζ w1 (n, k)] 2 (4.6) Điều này được thực hiện tương tự như ở bước 1 Tuy nhiên, trong trường hợp này giá trị của k được tìm trong 1024 chỉ số của codebook.

Thuật toán nén và giải nén theo phương pháp CELP

Trong phần này, chúng ta sẽ xây dựng thuật toán nén và giải nén âm thanh CELP, sử dụng đầu vào là một dãy tín hiệu âm thanh Đầu ra của thuật toán sẽ là ma trận chứa các thông số quan trọng của hệ thống LPC và các thông số cần thiết cho các subframe, từ đó cho phép nội suy tín hiệu âm thanh ban đầu.

4.3.1 Nén Đầu tiên ta chia đoạn âm thanh thanh nhiều đoạn ngắn (frame) mỗi frame khoảng 20ms, mỗi frame được chia thành các subframe (5ms) Sau đó dùng các phương pháp đã trình bài ở phần trên để tính các thông số ak cho mỗi frame và k, β, b 0 , α cho mỗi subframe (hinh 4.11).

Khi sử dụng tần số lấy mẫu 16000 mẫu/giây, một đoạn âm thanh 20ms sẽ chứa 320 mẫu Phương pháp nén CELP chỉ cần lưu trữ 26 thông số cho đoạn âm thanh này, dẫn đến tỉ lệ nén 12.3:1 Tỉ lệ nén này vượt trội hơn so với các phương pháp nén âm thanh hiện tại như MP3, WMA, AAC, và M4A, trong khi vẫn đảm bảo chất lượng âm thanh tương đương.

Hình 4.11: Thuật toán nén CELP

Trong quá trình giải nén, hệ thống cập nhật các thông số quan trọng như tần số lấy mẫu và độ dài frame Dữ liệu được chia thành từng bộ thông số, mỗi bộ bao gồm thông số bộ lọc LPC và các thông số k, β, b0, α của từng subframe Các thông số này được sử dụng để khởi tạo nguồn âm, sau đó nguồn âm được đưa qua bộ lọc LPC để tổng hợp tín hiệu âm thanh cho từng subframe Cuối cùng, khi nối các frame lại với nhau, ta thu được đoạn âm thanh ban đầu.

Hình 4.12: Thuật toán giải nén CELP cho mỗi frame

Bảng 4.1: Kết quả nén CELP cho một số đoạn âm thanh

Tỉ lệ nén W WAV:LPC

Để chứng minh khả năng nén của thuật toán CELP, chúng tôi đã tiến hành nén 5 đoạn âm thanh với dung lượng và giọng nói khác nhau Kết quả cho thấy, mặc dù tỉ lệ nén của CELP thấp hơn so với LPC, nhưng vẫn cao hơn nhiều so với các định dạng âm thanh phổ biến hiện nay Đặc biệt, thuật toán CELP cải thiện chất lượng âm thanh một cách rõ rệt.

Trong nghiên cứu này, chúng tôi đã phát triển thành công các thuật toán lọc và nén âm thanh dựa trên các mô hình xấp xỉ và nội suy, đạt được tỉ lệ nén cao hơn nhiều so với các định dạng nén phổ biến hiện nay như MP3, WMA, AAC, M4A, đồng thời vẫn duy trì chất lượng âm thanh tốt.

Với thuật toán LPC đề tài đã đạt được tỉ lệ nén cao nhất là:

Tỷ lệ nén 22,81:1 vẫn đảm bảo chất lượng giọng nói và nội dung thông tin Để cải thiện chất lượng âm thanh so với thuật toán LPC trong khi vẫn duy trì tỷ lệ nén cao, đề tài đã phát triển thuật toán CELP, đạt được tỷ lệ nén tối ưu nhất.

Các kết quả đạt được từ đề tài không chỉ mang ý nghĩa khoa học mà còn có ứng dụng thực tiễn quan trọng trong lĩnh vực sách nói, ghi âm các bài phỏng vấn và phát biểu.

Phân tích LPC không chỉ có ứng dụng trong nén tiếng nói mà còn trong các thuật toán nhận dạng âm thanh Hướng phát triển tiếp theo là sử dụng các thông số từ phân tích LPC để nhận dạng tiếng Việt Nghiên cứu này mang lại ý nghĩa lớn trong việc điều khiển thiết bị bằng giọng nói, dịch thuật và chuyển đổi giọng nói thành văn bản.

Định dạng
Số trang	76
Dung lượng	3,08 MB