TỔNG QUAN VỀ TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI
Tổng quan về tiếng nói
Âm thanh của lời nói và âm thanh trong tự nhiên đều là sóng âm lan truyền trong không khí Khi nói, dây thanh âm tạo ra sóng âm, truyền đến màng nhĩ và kích thích dây thần kinh, cho phép chúng ta cảm nhận âm thanh Tai người chỉ cảm nhận được tần số dao động từ 16Hz đến 20,000Hz, gọi là âm thanh Sóng có tần số dưới 16Hz được gọi là hạ âm, trong khi sóng trên 20,000Hz là siêu âm, mà con người không nghe thấy Sóng âm, hạ âm và siêu âm có khả năng lan truyền không chỉ trong không khí mà còn trong các môi trường rắn và lỏng, được ứng dụng rộng rãi trong công nghệ máy móc hiện đại.
Hình 1.1 Tín hiệu tiếng nói
Phân chia Frame tín hiệu đầu vào
Thực hiên IFFT và nối các frame
Về bản chất vật lý, sóng âm, sóng siêu âm và sóng hạ âm đều giống nhau và thuộc loại sóng cơ học Sự phân biệt giữa chúng chủ yếu dựa vào khả năng cảm thụ của tai con người, do các đặc tính sinh lý của tai quyết định Do đó, sóng âm thanh được phân loại thành hai đặc tính chính: đặc tính vật lý và đặc tính âm học.
1.1.1 Cơ chế phát âm của con người
Hình 1.2 Bộ máy phát âm của con người
Quá trình phát âm của con người bắt đầu từ áp lực của phổi, tạo ra các rung động tại thanh quản Lỗ giãn giữa các thanh quản, gọi là thanh môn, đóng vai trò quan trọng trong việc kích thích tuyến âm Khi thanh môn được kích thích, nó tạo ra sóng âm học, đẩy không khí từ phổi lên và tạo thành dòng khí va chạm vào hai dây thanh Sự dao động của hai dây thanh này sẽ tạo ra âm thanh.
Phân chia Frame tín hiệu đầu vào
Thực hiện IFFT và kết nối các frame cộng hưởng, dao động âm sẽ được truyền theo tuyến âm từ khoang miệng Sau khi đi qua khoang mũi, âm thanh sẽ tạo ra tiếng nói.
Thanh quản có khả năng làm cứng hoặc nới lỏng nhờ sự điều khiển của thần kinh, từ đó thay đổi tốc độ dãn Cơ quan chắn giữa khoang mũi và khoang miệng hoạt động như một cổng, có thể đóng hoặc mở để kết hợp hài hòa với gốc âm miệng trong các tình huống và ngôn ngữ khác nhau Vị trí của lưỡi, quai hàm, răng và môi được điều chỉnh để thay đổi hình dạng của hốc âm miệng, ảnh hưởng đến sóng áp lực âm thanh phát ra từ miệng, tùy thuộc vào sự liên kết giữa các âm và sự suy hao trên các cơ quan phản xạ.
Sóng áp lực âm thanh là sự di chuyển liên tục của các luồng khí, và khi chúng đến cơ quan thính giác, chúng được phản ánh qua các thông số như độ rõ, âm sắc, độ cao và độ lớn của âm.
1.1.2 Đặc tính vật lý của âm thanh
Âm thanh tiếng nói là sóng cơ học, do đó nó có các tính chất cơ bản của sóng cơ học Khi xem xét âm thanh tiếng nói, những tính chất này mang ý nghĩa đặc biệt Tín hiệu âm thanh tiếng nói là tín hiệu ngẫu nhiên không dừng, nhưng các đặc tính của nó tương đối ổn định trong khoảng thời gian ngắn, thường chỉ vài chục mili giây Trong khoảng thời gian này, tín hiệu gần như tuần hoàn và có thể được coi là tuần hoàn.
Tần số của sóng cơ học, hay còn gọi là độ cao và độ trầm bổng của âm thanh, là đặc trưng vật lý quan trọng nhất của âm Mỗi âm thanh phát ra đều có một độ cao nhất định, phụ thuộc vào sự chấn động nhanh hay chậm của các phần tử trong không khí trong một đơn vị thời gian Độ cao của âm liên quan trực tiếp đến tần số dao động: âm trầm có tần số nhỏ trong khi âm cao có tần số lớn Thêm vào đó, độ cao của âm thanh nữ thường cao hơn so với nam.
Phân chia Frame tín hiệu đầu vào
Thực hiện IFFT cho thấy rằng tần số giọng nói của trẻ em cao hơn so với người lớn, điều này cũng phản ánh sự khác biệt trong tần số của dây thanh.
Cường độ âm thanh là độ to nhỏ của âm, với cường độ càng lớn thì âm thanh có thể truyền xa hơn trong môi trường nhiễu Biên độ dao động quyết định cường độ, trong đó phụ âm thường mạnh hơn nguyên âm, giúp phân biệt chúng trong âm thanh Đối với tai người, giá trị tuyệt đối của cường độ âm không quan trọng bằng giá trị tỉ đối so với một chuẩn I0 Mức cường độ âm L được định nghĩa là logarit thập phân của tỉ số I/I0, với đơn vị là Ben (ký hiệu B).
Trường độ âm thanh phụ thuộc vào sự chấn động của các phần tử không khí, với âm cùng loại nhưng có độ dài khác nhau trong các từ khác nhau Độ dài âm thanh được sử dụng để phân biệt các nguyên âm dài và ngắn, như trong trường hợp phân biệt “a” với “ă” hay “ơ” với “â” trong tiếng Việt.
Âm sắc là đặc trưng riêng của âm thanh được hình thành từ sự kết hợp của nhiều cá thể khác nhau, đóng vai trò quan trọng trong việc phân biệt giọng nói giữa các người Sự khác biệt này chủ yếu được tạo ra bởi hiện tượng cổng hưởng.
1.1.3 Đặc tính âm học của âm
Tín hiệu tiếng nói là dạng tín hiệu tương tự thể hiện thông tin ngôn ngữ thông qua các âm vị khác nhau Số lượng âm vị này có thể thay đổi tùy theo từng ngôn ngữ cụ thể, nhưng thường dao động trong khoảng nhất định.
20 – 30 và nhỏ hơn 50 đối với mọi ngôn ngữ Đối với từng loại âm vị mà có các
Phân chia Frame tín hiệu đầu vào
Thực hiện IFFT và kết nối các khung âm thanh khác nhau, âm vị được phân loại thành nguyên âm và phụ âm Sự kết hợp của các âm vị tạo thành âm tiết, trong đó âm tiết đóng vai trò như một từ hoàn chỉnh có ý nghĩa.
Nguyên âm là một phần thú vị và quan trọng trong âm thanh tiếng nói, đặc biệt trong tiếng Anh, đóng vai trò lớn trong nhận dạng tiếng nói Hầu hết các hệ thống nhận dạng dựa vào nguyên âm đều hoạt động hiệu quả Nguyên âm được tạo ra thông qua việc kích thích ống dẫn âm thanh với các xung áp lực khí từ sự rung động của dây thanh Hình dạng của ống dẫn âm xác định các tần số cộng hưởng, hay còn gọi là formants, tạo ra âm thanh Việc tạo ra từng nguyên âm phụ thuộc vào vị trí của lưỡi, hàm và môi Nguyên âm thường tồn tại lâu hơn so với phụ âm và dễ dàng xác định trong phổ âm thanh, điều này giúp cho việc nhận dạng trở nên dễ dàng hơn Có nhiều cách để biểu diễn nguyên âm, bao gồm cấu hình khoang miệng, đồ thị dạng sóng và đồ thị phổ.
Hệ thống xử lý số tín hiệu
Quá trình biến đổi tín hiệu thành dạng khác bằng phương pháp số nhằm phục vụ các mục đích cụ thể được gọi là xử lý tín hiệu Để thực hiện quá trình này, tín hiệu, đặc biệt là tín hiệu tiếng nói, thường được đưa qua một hệ thống phức tạp gọi là hệ thống xử lý số tín hiệu, có thể được triển khai bằng cả phần cứng lẫn phần mềm.
Hình 1.3 Mô hình hệ thống xử lý số tín hiệu.
LPF : bộ lọc thông thấp.
S&H : bộ lấy mẫu tín hiệu vào và giữ mẫu.
ADC : bộ chuyển đối tín hiệu tương tự ra tín hiệu số.
DSP : bộ xử lý tín hiệu số.
DAC : bộ chuyển đổi tín hiệu số thành tín hiệu tương tự
Các ưu điểm của việc xử lý tín hiệu số so với việc xử lý tín hiệu tương tự:
Tín hiệu số được lưu trữ một cách dễ dàng và có độ tin cậy cao, đồng thời có khả năng xử lý linh hoạt bằng máy tính Điều này giúp cho việc sửa đổi tín hiệu và thực hiện các tác vụ xử lý trở nên đơn giản hơn so với tín hiệu tương tự.
- Vấn đề nhiễu trong tín hiệu số được hạn chế, do vậy tín hiệu có tính chính xác khá cao.
Biểu diễn tín hiệu tiếng nói
Biểu diễn dạng sóng Biểu diễn dạng tham số
Các tham số kích thước
Các tham số của bộ máy
Phân chia Frame tín hiệu đầu vào
Thực hiên IFFT và nối các frame
Với tín hiệu số, chúng ta có khả năng thiết kế các thuật toán xử lý phức tạp, nhờ vào sự tiến bộ nhanh chóng của công nghệ máy tính, việc xử lý tín hiệu số trở nên nhanh chóng và tiết kiệm chi phí hơn.
Biểu diễn số tín hiệu tiếng nói
Tín hiệu tiếng nói là tín hiệu tương tự, vì vậy việc biểu diễn và lưu trữ tín hiệu tiếng nói trong môi trường tính toán số rất quan trọng để đảm bảo không mất mát thông tin trong các hệ thống thông tin sử dụng tiếng nói.
Việc xem xét các vấn đề xử lý tín hiệu tiếng nói trong các hệ thống này được dựa trên ba vấn đề chính:
- Biểu diễn tín hiệu tiếng nói dạng số.
- Cài đặt các kỹ thuật xử lý tinh vi.
Các lớp ứng dụng dựa trên kỹ thuật xử lý số tín hiệu yêu cầu chúng ta phải chuyển đổi tín hiệu tiếng nói thành dạng rời rạc để có thể áp dụng các phương pháp xử lý tín hiệu số hiệu quả.
Phân chia Frame tín hiệu đầu vào
Thực hiên IFFT và nối các frame
Hình 1.4 Biểu diễn tín hiệu tiếng nói
Quá trình rời rạc hoá tín hiệu tiếng nói bao gồm các bước sau:
- Lấy mẫu tín hiệu tiếng nói với tần số lấy mẫu f0.
- Lượng tử hoá các mẫu với bước lượng tử q.
- Mã hoá và nén tín hiệu.
1.3.1 Lấy mẫu tín hiệu tiếng nói
Quá trình chuyển đổi tín hiệu liên tục, như tiếng nói, thành tín hiệu số rời rạc và sau đó tái tạo thông tin ban đầu được gọi là lấy mẫu Trong quá trình này, các phần tử thông tin được rút ra tuần tự từ tín hiệu tương tự.
Hình 1.5 Biểu diễn sự lấy mẫu tín hiệu
Theo lý thuyết lấy mẫu của Shannon, để khôi phục tín hiệu ban đầu, tần số lấy mẫu cần phải lớn hơn hoặc bằng hai lần tần số cao nhất của tín hiệu Điều này có nghĩa là điều kiện cần và đủ để tái tạo tín hiệu tương tự từ tín hiệu đã được rời rạc là tần số lấy mẫu f0 phải đạt yêu cầu này.
Trong thực tế, phổ tín hiệu của tiếng nói trải rộng đến 12kHz, theo định lý Shannon, tần số lấy mẫu tối thiểu cần thiết là 24kHz Điều này dẫn đến khối lượng bộ nhớ lớn cho việc ghi âm và làm tăng độ phức tạp trong quá trình tính toán.
Phân chia Frame tín hiệu đầu vào
Để khắc phục việc thực hiện IFFT và nối các frame, chúng ta có thể chấp nhận giới hạn phổ bằng cách sử dụng bộ lọc tần số phù hợp Phổ của tín hiệu tiếng nói điện thoại vẫn đảm bảo chất lượng cần thiết ở mức 3400Hz, với tần số lấy mẫu là 8000Hz Trong kỹ thuật phân tích, tổng hợp và nhận dạng tiếng nói, tần số lấy mẫu có thể dao động từ 6000 đến 16000Hz.
Biểu diễn số tín hiệu yêu cầu phải lượng tử hóa mỗi mẫu tín hiệu thành các giá trị rời rạc hữu hạn Mục tiêu chính của quá trình này là nhằm truyền tải hoặc xử lý tín hiệu một cách hiệu quả.
Trong quá trình truyền tín hiệu, mẫu tín hiệu được lượng tử hóa và mã hóa trước khi được gửi đi, sau đó bên nhận sẽ giải mã để thu lại tín hiệu tương tự Tính thống kê của tín hiệu là yếu tố quan trọng ảnh hưởng đến thuật toán lượng tử hóa Hệ thống xử lý quy định luật lượng tử, có thể sử dụng dấu phẩy tĩnh hoặc dấu phẩy động Xử lý bằng dấu phẩy động mang lại sự linh hoạt cho tín hiệu nhưng tốn kém về chi phí tính toán, trong khi xử lý bằng dấu phẩy tĩnh đơn giản hơn nhưng yêu cầu điều kiện nghiêm ngặt cho các thuật toán.
Trong các hệ thống liên lạc, việc hạn chế phổ tần tín hiệu là rất quan trọng, ảnh hưởng đến hiệu quả xử lý, lưu trữ và truyền dẫn tín hiệu Sự phát triển của công nghệ tích hợp IC đã dẫn đến sự ra đời của các vi mạch cỡ rất lớn VLSI và công nghệ xử lý tín hiệu số DSP, thúc đẩy xu hướng số hóa trong các hệ thống thông tin Quá trình này biến đổi tín hiệu từ nguồn liên tục thành chuỗi tín hiệu số, giúp dễ dàng áp dụng các thuật toán xử lý khác nhau, từ đó nâng cao chất lượng tín hiệu và tối ưu hóa việc sử dụng phổ tần trong truyền dẫn Cuối cùng, hệ thống thông tin số sẽ chuyển đổi tín hiệu đã xử lý trở lại thành dạng tương tự để phù hợp với tín hiệu tự nhiên.
Phân chia Frame tín hiệu đầu vào
Thực hiên IFFT và nối các frame
Các bộ nén tín hiệu tiếng nói bao gồm các bước quan trọng, với tỷ lệ giữa tốc độ bit truyền đi và chất lượng âm thanh là yếu tố cốt lõi Tín hiệu tiếng nói có độ dư thừa cao, cho phép giảm tốc độ tín hiệu tùy thuộc vào mục đích xử lý, đồng thời cần cân nhắc độ phức tạp của thuật toán và chất lượng biểu diễn Nhiều kỹ thuật đã được phát triển để đạt được mục tiêu này, và việc chọn phương pháp biểu diễn số phải đảm bảo tiêu chuẩn về chất lượng, tốc độ truyền hoặc lưu trữ, cũng như thích ứng với các điều kiện môi trường.
Hình 1.6 Sự phụ thuộc của chất lượng tiếng nói vào tốc độ bit
Mã hóa tiếng nói
Mã hóa tiếng nói hay nén tiếng nói là quá trình số hóa tín hiệu âm thanh nhằm tối ưu hóa việc truyền dẫn và lưu trữ Mục tiêu chính của mã hóa tiếng nói là biểu diễn tín hiệu bằng số bit tối thiểu mà vẫn đảm bảo chất lượng âm thanh đạt yêu cầu Các chỉ tiêu đánh giá thuật toán mã hóa rất quan trọng để đảm bảo hiệu quả của quá trình này.
Hai mục tiêu quan trọng trong lĩnh vực xử lý tín hiệu là tối thiểu hóa tốc độ bit (bps) và tối ưu hóa chất lượng Tuy nhiên, hai mục tiêu này thường mâu thuẫn với nhau Chất lượng tín hiệu được đánh giá dựa trên khả năng tái tạo tín hiệu ở dạng tương tự với sai số càng nhỏ càng tốt Mặc dù việc lấy mẫu không ảnh hưởng đến chất lượng, nhưng quá trình lượng tử hóa có thể gây ra sai số và dẫn đến mất mát thông tin so với tín hiệu gốc.
Phân chia Frame tín hiệu đầu vào
Thực hiện IFFT và nối các frame ban đầu tạo ra nhiễu lượng tử, ảnh hưởng đến tỷ số tín hiệu trên nhiễu (SNR) dùng để đánh giá chất lượng tiếng nói Tỷ số SNR càng thấp thì chất lượng tiếng nói càng kém, với mức chấp nhận được là khoảng trên 30 dB Việc thêm 1 bit biểu diễn giá trị lượng tử có thể tăng SNR lên khoảng 6 dB Để so sánh chất lượng mã hóa tiếng nói, người ta sử dụng tiêu chuẩn MOS (Mean Opinion Score) với thang điểm từ 1 đến 5, cho phép đánh giá mức độ gần gũi của thuật toán điều chế với tiếng nói tự nhiên.
Về cơ bản bộ mã hóa tiếng nói có 3 loại:
Mã hóa dạng sóng (waveform).
Mã hóa lại (hybrid) là sự kết hợp của mã hóa dạng sóng và mã hóa nguồn.
Mã hóa dạng sóng là phương pháp tái tạo tín hiệu đầu vào của tiếng nói bằng cách chia thành các tín hiệu độc lập, cho phép mã hóa nhiều loại tín hiệu khác nhau Nguyên lý của nó là số hóa dạng sóng tiếng nói một cách hiệu quả, với bộ mã hóa chuyển đổi tín hiệu nói tương tự thành tín hiệu số trước khi truyền đi Tại phía thu, quá trình được thực hiện ngược lại để khôi phục tín hiệu nói Khi không có lỗi truyền dẫn, dạng sóng khôi phục rất giống với dạng sóng gốc Ưu điểm của mã hóa dạng sóng bao gồm độ phức tạp thấp, chi phí thiết kế hợp lý, độ trễ thấp và tiêu thụ năng lượng ít Phương pháp này có thể thực hiện trên cả miền tần số và miền thời gian.
1.4.1.1 Mã hóa trên miền thời gian
Mã hóa trên miền thời gian là quá trình thực hiện mã hóa tín hiệu trong khoảng thời gian lấy mẫu Các phương pháp mã hóa phổ biến bao gồm điều chế mã xung (PCM), điều chế mã xung thích ứng (APCM), điều chế mã xung vi phân (DPCM), điều chế mã xung vi phân thích ứng (ADPCM), điều chế Delta (DM), điều chế Delta thích ứng và mã hóa dự đoán thích ứng (APC).
Phân chia Frame tín hiệu đầu vào
Thực hiên IFFT và nối các frame theo ta sẽ xem xét một vài phương pháp mã hoá quan trọng trong miền thời gian.
Điều chế mã xung (PCM) là phương pháp đơn giản nhất trong mã hóa dạng sóng, với điểm cốt yếu là quá trình lượng tử hóa Hiện nay, lượng tử hóa logarithm được sử dụng phổ biến, nhằm duy trì tỷ số SNR ổn định trong phạm vi biên độ Thay vì lượng tử hóa giá trị tương tự của tín hiệu, ta tính toán hàm logarithm trước, sau đó mới tiến hành lượng tử hóa SNR sẽ chỉ phụ thuộc vào bước lượng tử, và lượng tử logarithm thực hiện quá trình nén, giảm đáng kể miền giá trị đầu vào Cuối cùng, quá trình mũ hóa được áp dụng để tái tạo tín hiệu nguyên thủy ban đầu.
Là một phương pháp điều chế vi sai, kỹ thuật này dựa vào tính chất tín hiệu tiếng nói, cho phép dự đoán tín hiệu hiện tại dựa trên các tín hiệu trước đó Nhờ vậy, chỉ cần lưu trữ giá trị tín hiệu trước đó để tái tạo tín hiệu trong hiện tại.
Phân chia Frame tín hiệu đầu vào
Thực hiện IFFT và so sánh các khung trị khác biệt giữa giá trị thực và giá trị dự đoán của tín hiệu giúp tiết kiệm băng thông, nâng cao hiệu quả truyền tải Phương pháp điều chế delta chỉ truyền giá trị thay đổi tuyệt đối của tín hiệu, dựa vào sự khác biệt giữa các tín hiệu tại các thời điểm liền kề Điều này cho phép tính toán tín hiệu cần truyền trên đường dây, sử dụng chỉ 1 bit mã để mã hóa sự sai khác, cho biết tín hiệu tại thời điểm t+1 lớn hơn hay nhỏ hơn tín hiệu tại thời điểm t.
Mã hóa DPCM là phương pháp truyền tải chỉ sự khác biệt giữa tín hiệu tại hai thời điểm liên tiếp t và t+1 Khác với DM sử dụng 1 bit để giải mã, DPCM sử dụng N bit để biểu diễn giá trị sai khác, mang lại chất lượng điều chế tốt hơn với lượng bit cần thiết ít hơn so với PCM.
Phương pháp mở rộng của DPCM cho phép mã hóa sự sai khác giữa tín hiệu tại hai thời điểm kề nhau bằng cách sử dụng một số bit nhất định Điểm đặc biệt là bước lượng tử có thể được điều chỉnh linh hoạt tại các thời điểm khác nhau, nhằm tối ưu hóa quá trình điều chế tín hiệu.
1.4.1.2 Mã hóa trong miền tần số
Mã hóa dạng sóng trong miền tần số phân chia tín hiệu thành các thành phần tần số riêng biệt, sau đó tiến hành mã hóa từng thành phần này Số bít sử dụng cho việc mã hóa từng thành phần tần số có thể thay đổi linh hoạt.
Mã hoá trong miền tần số được chia ra làm hai nhóm là: mã hoá băng con (subband) và mã hoá biến đổi (transform).
Mã hóa băng con sử dụng bộ lọc dải thông để phân chia tín hiệu đầu vào thành các tín hiệu con đã được mã hóa Tại bộ thu, các tín hiệu con này được giải mã và kết hợp lại để phục hồi tín hiệu gốc.
Phân chia Frame tín hiệu đầu vào
Phương pháp mã hoá băng con thông qua việc thực hiện IFFT và nối các frame mang lại ưu điểm nổi bật, đó là khả năng hạn chế nhiễu lượng tử hóa trong cùng một dải tần số.
Kỹ thuật này yêu cầu chuyển đổi tín hiệu đầu vào thành các thành phần tần số thông qua một khối chuyển đổi Sau đó, mã hoá thích ứng sẽ phân bổ bít cho các thành phần hệ số quan trọng hơn Tại bộ thu, quá trình giải mã sẽ thực hiện chuyển đổi ngược để phục hồi tín hiệu Một số phép biến đổi có thể được sử dụng bao gồm phép biến đổi Fourier rời rạc (DFT) và phép biến đổi cosine rời rạc (DCT).
Bộ mã hóa nguồn tiếng nói là phương pháp mã hóa tín hiệu âm thanh, trong đó tín hiệu được phân tích tại bộ phát và tái tạo tại bộ thu bằng cách sử dụng các thông số suy ra từ phân tích Nguyên lý hoạt động dựa trên việc mô phỏng trạng thái và cấu hình của âm thanh tại bất kỳ thời điểm nào bằng một tập nhỏ các tham số, cho phép đại diện cho trạng thái âm thanh trong khoảng thời gian 25 ms Hầu hết các mã hóa nguồn chỉ sử dụng một tập tham số để biểu diễn đặc tính của nguồn kích thích và tuyến âm Mã hóa nguồn có khả năng chuyển đổi giữa hai kiểu nguồn kích thích: nguồn xung đối âm hữu thanh và nhiễu trắng cho âm vô thanh Tại bộ tổng hợp, một trong hai nguồn này sẽ được sử dụng qua bộ lọc với các hệ số của khung dữ liệu để tạo ra âm thanh.
Tổng hợp tiếng nói
Tổng hợp tiếng nói là quá trình tạo ra âm thanh từ biểu diễn ngữ âm và cơ chế sản sinh tiếng nói Trong những thập niên gần đây, công nghệ tổng hợp tiếng nói đã cải thiện đáng kể về chất lượng Tuy nhiên, hiện tại, chất lượng của các phương pháp này vẫn chỉ phù hợp cho một số ứng dụng nhất định, như trong lĩnh vực đa phương tiện và truyền thông.
Hiện nay có nhiều phương pháp tổng hợp tiếng nói, dưới đây ta sẽ xét các phương pháp đặc trưng trong tổng hợp tiếng nói.
Phân chia Frame tín hiệu đầu vào
Thực hiên IFFT và nối các frame
Phương pháp tổng hợp trực tiếp là một cách đơn giản để tạo ra bản tin bằng cách chắp nối các phần của bản tin với các đơn vị tiếng nói của con người Đặc điểm nổi bật của phương pháp này là sự tham gia của con người, tạo ra giọng nói tự nhiên Tuy nhiên, nó đòi hỏi một lượng lớn dữ liệu ghi âm, dẫn đến yêu cầu cao về bộ nhớ lưu trữ Các đơn vị tiếng nói thường là từ hoặc cụm từ được lưu trữ và bản tin được tổng hợp bằng cách lựa chọn và chắp nối các đơn vị phù hợp Có nhiều kỹ thuật tổng hợp trực tiếp, được phân loại dựa trên kích thước của các đơn vị chắp nối và loại biểu diễn tín hiệu, trong đó các phương pháp phổ biến bao gồm chắp nối từ, chắp nối các đơn vị từ con, và chắp nối các phân đoạn sóng tín hiệu.
1.5.2 Tổng hợp tiếng nói theo Formant
Hình 1.8 mô tả sơ đồ tổng quát của một hệ thống tổng hợp theo formant.
Nguyên lý tổng quát của hệ thống âm thanh bao gồm việc âm thanh phát ra từ một nguồn Đối với nguyên âm và phụ âm hữu thanh, nguồn âm có thể được tạo ra bằng hàm tuần hoàn trong miền thời gian hoặc thông qua dãy đáp ứng xung qua mạch lọc tuyến tính mô phỏng khe thanh Trong khi đó, âm vô thanh phát ra từ bộ phát ngẫu nhiên Đối với âm tắc, nguồn âm được hình thành từ sự kết hợp giữa nguồn cho âm hữu thanh và nguồn cho âm vô thanh.
Tín hiệu âm thanh từ nguồn cơ bản được đưa vào mô hình tuyến âm, trong đó khoang miệng và khoang mũi được mô phỏng riêng biệt Khi tín hiệu đi qua hệ thống, nó sẽ đi qua mô hình khoang miệng, và nếu cần tái tạo âm mũi, tín hiệu cũng sẽ đi qua mô hình khoang mũi Cuối cùng, các thành phần âm thanh từ các mô hình này được kết hợp để tạo ra âm thanh hoàn chỉnh.
Nguồn lưu lượng vận tốc
Môi/Mũi Lưu lượng vận tốc
Tiếng nói áp suất dạng lỏng
Phân chia Frame tín hiệu đầu vào
Thực hiện IFFT và kết nối các khung hình của khoang miệng và mũi, sau đó đưa qua hệ thống phát xạ, nhằm mô phỏng các đặc tính lan truyền và tải trọng của môi và mũi.
Mặc dù phương pháp tổng hợp theo formant đơn giản và thường cho âm thanh rõ ràng, nhưng nó gặp khó khăn trong việc tái tạo tính tự nhiên của tín hiệu tiếng nói Nguyên nhân là do mô hình nguồn và mô hình chuyển đổi đã bị đơn giản hóa quá mức, dẫn đến việc bỏ qua nhiều yếu tố phụ trợ quan trọng trong việc tạo ra đặc tính động của tín hiệu.
Hình 1.8 Sơ đồ phương pháp tổng hợp theo formant
1.5.3 Tổng hợp dùng bộ máy phát âm
Ngày nay, các bộ tổng hợp ngày càng sử dụng nguyên lý mô phỏng bộ máy phát âm một cách phức tạp và hoàn thiện hơn Các hình dạng ống phức tạp được xấp xỉ bằng những ống đơn giản nhỏ hơn Nhờ vào các mô hình ống đơn giản, chúng ta có thể hiểu rõ hơn về đặc tính truyền âm và từ đó xây dựng các mô hình bộ máy phát âm tổng quát phức tạp.
Phương pháp tổng hợp mô phỏng bộ máy phát âm mang lại lợi thế trong việc tạo ra giọng nói một cách tự nhiên hơn Tuy nhiên, nó cũng tồn tại một số nhược điểm cần được xem xét.
- Thứ nhất đó là việc quyết định làm thể nào để có được các tham số điều khiển từ các yêu cầu tín hiệu cần tổng hợp
Việc cân bằng giữa việc xây dựng một mô hình mô phỏng chính xác cao nhất giống với bộ máy phát âm sinh học của con người và một mô hình hiệu quả là rất quan trọng.
Phân chia Frame tín hiệu đầu vào
Việc thực hiện IFFT và kết nối các frame hình thực tiễn dễ dàng thiết kế và thực hiện là lý do chính dẫn đến việc rất ít hệ thống tổng hợp âm thanh theo nguyên lý mô phỏng bộ máy phát âm đạt chất lượng cao so với các bộ tổng hợp theo nguyên lý khác.
Hình 1.9 Mô hình tổng hợp tiếng nói bằng phương pháp mô phỏng nguồn âm
Mô phỏng nguồn âm, hay nguồn tuần hoàn, là quá trình tái hiện hoạt động của dây thanh Các phương pháp phổ biến trong mô phỏng dây thanh bao gồm mô hình một khối, mô hình hai khối, mô hình nhiều khối và mô hình dầm.
Mô phỏng tuyến âm là quá trình tái tạo bộ máy phát âm từ thanh môn trở lên Quá trình này được thực hiện bằng cách phân đoạn tuyến âm thành các ống cơ bản ngắn, hình trụ, và sau đó tiến hành các phép tính trên các ống này để mô phỏng âm thanh.
Hình 1.10 Mô hình tổng hợp bằng tiếng nói bằng phương pháp LPC
- Khối tạo xung: Khối này để tạo các tín hiệu tuần hoàn
- Khối tạo tạp âm: Khối này để tạo các tín hiệu không tuần hoàn
Phân chia Frame tín hiệu đầu vào
Thực hiên IFFT và nối các frame
- Khối A: Khối thay đổi biên độ
- Bộ lọc bậc p xác định các tham số a1 đến ap
LPC (Linear Prediction Coefficient): hệ số dự đoán tuyến tính.
Phương pháp này hoàn toàn tự động nhờ vào việc xác định các hệ số AI Tuy nhiên, nhược điểm lớn nhất là chất lượng âm mũi tổng hợp kém, do LPC chỉ dựa trên mô hình toàn điểm cực mà không có điểm không, tức là chỉ chú trọng vào khoang miệng mà bỏ qua khoang mũi, nên chỉ phù hợp với khoang miệng.
Kết luận chương
Ngày nay, tín hiệu tiếng nói đã trở thành nguồn tải lớn nhất trong mạng viễn thông, thúc đẩy sự phát triển mạnh mẽ của các phương pháp xử lý tín hiệu tiếng nói Với sự tiến bộ của công nghệ kỹ thuật số, việc tìm hiểu tín hiệu tiếng nói, bao gồm các đặc tính vật lý, âm học và cơ chế phát âm, trở nên vô cùng quan trọng Chương 1 của đồ án đã tập trung nghiên cứu các phương pháp xử lý tiếng nói, như mã hóa và tổng hợp tiếng nói.
Một số phương pháp cụ thể về xử lý tiếng nói sẽ được đề cập đến ở chương tiếp theo.
Phân tích tín hiệu thành các frame
FFT Hàm xử lý giảm nhiễu IDFT Overlap và adding Ước lượng nhiễu
Phân chia Frame tín hiệu đầu vào
Thực hiên IFFT và nối các frame
MỘT SỐ THUẬT TOÁN VÀ PHƯƠNG PHÁP TRONG XỬ LÝ TÍN HIỆU TIẾNG NÓI
Thuật toán Spectral Subtration và Wiener Filtering
Tiếng nói là yếu tố quan trọng trong giao tiếp, nhưng quá trình truyền tín hiệu âm thanh thường bị ảnh hưởng bởi nhiễu, dẫn đến suy giảm chất lượng Để cải thiện tình hình này, các kỹ thuật giảm nhiễu đã được phát triển Trong chương này, chúng ta sẽ nghiên cứu hai thuật toán ước lượng phổ kinh điển để khử nhiễu: Phép trừ phổ (Spectral Subtraction) và Lọc Wiener (Wiener Filtering).
Cả hai thuật toán đều dựa trên một sơ đồ khối chung, bao gồm các bước: phân tích tín hiệu thành các frame, thực hiện biến đổi FFT và IDFT, áp dụng hàm xử lý giảm nhiễu, thực hiện overlap và adding, cùng với ước lượng nhiễu Sự khác biệt duy nhất giữa hai thuật toán nằm ở khối hàm xử lý triệt nhiễu, trong khi tất cả các khối khác đều tương tự nhau.
Tín hiệu bị nhiễu Tín hiệu đã xử lý
Hình 2.1 Sơ đồ khối 2 thuật toán Spectral Subtraction và Wiener Filtering
Thuật toán Trừ phổ (Spectral Subtraction) là một trong những thuật toán kinh điển và đầu tiên được nghiên cứu trong lĩnh vực giảm nhiễu tín hiệu, đặc biệt phổ biến trong việc cải thiện chất lượng âm thanh của tiếng nói Sự đơn giản của thuật toán này giúp cho việc triển khai và ứng dụng nó trở nên dễ dàng hơn.
Phân chia Frame tín hiệu đầu vào
Thực hiên IFFT và nối các frame
Thuật toán này phục hồi tiếng nói bằng cách trừ đi phổ ước lượng của tạp âm từ phổ của tín hiệu có nhiễu Tạp âm được ước lượng từ các khoảng tạm dừng hoặc khoảng lặng của tín hiệu, nơi không có tiếng nói hoặc chỉ có tạp âm Việc cập nhật tạp âm diễn ra từ các khoảng lặng hoặc khoảng tạp âm trong tín hiệu tiếng nói Tuy nhiên, thuật toán chỉ hoạt động hiệu quả với nhiễu không đổi hoặc có tốc độ xử lý biến đổi chậm, đảm bảo rằng phổ của nhiễu không thay đổi đáng kể giữa các khoảng thời gian cập nhật.
Trừ phổ thường được thực hiện trong miền tần số thông qua các phép biến đổi DFT thuận và DFT ngược Mặc dù phương pháp này đơn giản, nhưng nó có thể ảnh hưởng tiêu cực đến chất lượng tiếng nói nếu không thực hiện cẩn thận, dẫn đến nguy cơ gây méo tiếng Việc trừ quá mức tạp âm có thể gây mất thông tin, trong khi nếu không đủ, tạp âm vẫn còn tồn tại trong tín hiệu.
2.1.1.1 Đối với phổ biên độ
Gọi tiếng nói bị tác động của tạp âm là y[n], tín hiệu sạch s[n], nhiễu n[n], ta biểu diễn được y[n]: y[n] = s[n] + n[n] (2.1)
Biểu thức (2.1) biểu diễn tín hiệu trên miền thời gian, thuật toán trừ phổ yêu cầu biến đổi sang miền tần số Biến đổi fourier biểu thức (2.1) ta được:
Tiếp tục biểu diễn phổ của tín hiệu vào đã bị nhiễuY(ω) và phổ của tín hiệu nhiễu N(ω) dưới dạng phổ phức:
Phân chia Frame tín hiệu đầu vào
Thực hiên IFFT và nối các frame
Khi đó | Y ( ω) | là phổ biên độ, ∅ y (ω) là phổ pha của tín hiệu đã bị nhiễu
| N ( ω) |là biên độ phổ của nhiễu, ∅ n (ω) là pha của nhiễu.
Bộ lọc trừ phổ được tính toán dựa trên cơ sở:
Biên độ phổ của nhiễu | N (ω) | có thể được thay thế bằng giá trị trung bình của nó và ước lượng khi không có tiếng nói hoạt động Pha ∅ n (ω) của nhiễu | N (ω) | được thay thế bằng pha ∅ y (ω) của tín hiệu đã có nhiễu | Y (ω) | Như vậy, giá trị | N ^ (ω) | sẽ là biên độ phổ ước lượng trong điều kiện không có tiếng nói hoạt động, từ đó giúp ước lượng phổ của tín hiệu sạch.
Khi ước lượng phổ của nhiễu, cần lưu ý rằng tạp âm là ngẫu nhiên, có thể dẫn đến sai sót trong biên độ phổ của tín hiệu đã được tăng cường, cụ thể là | S ^ (ω )| có thể bị âm Để khắc phục tình trạng này, cần thực hiện chỉnh lưu bán sóng hiệu của phổ, gán giá trị bằng 0 cho các thành phần phổ âm Phương pháp này đảm bảo rằng khi thực hiện phép trừ hai phổ, | S ^ (ω)| luôn không âm.
2.1.1.2 Đối với phổ công suất
Trong một số trường hợp, để nâng cao hiệu quả tính toán và làm việc, thuật toán Subtraction Spectral có thể được áp dụng cho phổ công suất Điều này cho phép chúng ta xử lý phổ công suất của tín hiệu bị nhiễu một cách hiệu quả hơn.
Phân chia Frame tín hiệu đầu vào
Thực hiên IFFT và nối các frame
Bình phương cả 2 vế ta có:
S ¿ ( ω ) N (ω ) ≈ E { S ¿ ( ω) N ( ω )} (2.13) Điều trên có thể giải thích được là do | N ( ω )| 2 , S (ω) N ¿ (ω ) , S ¿ (ω ) N ( ω) không thể tính toán trực tiếp.
E {| N ( ω) | 2 } được ước lượng khi không có tiếng nói hoạt động và được biểu diễn là | N ( ω)| 2
Mặt khác, ta lại không thấy sự tương quan nào nữa nhiễu n[n] và tín hiệu sạch s[n] nên:
Từ đó, công thức (2.9) có thể được viết lại như sau:
| S( ^ ω) | 2 = | Y ( ω) | 2 − | N ^ ( ω)| 2 (2.17) Công thức (2.17) là công thức biểu diễn phổ công suất của tín hiệu sạch mà ta cần tính.
Tín hiệu bị nhiễu Ước lượng, cập nhật nhiễu
Phân chia Frame tín hiệu đầu vào
Thực hiên IFFT và nối các frame
Phổ công suất | S ^ (ω)| 2 có thể có giá trị âm, nhưng chúng ta có thể khắc phục điều này bằng cách sử dụng phương pháp chỉnh lưu bán sóng như đã trình bày trước đó.
Tính IDFT của | S ^ (ω )|, có sử dụng pha của tín hiệu tiếng nói bị nhiễu, ta sẽ được tín hiệu tăng cường.
H(ω) là hàm truyền đạt của hệ thống, được xem như hàm độ lợi hay hàm nén Hàm này cung cấp thông tin về tỷ số giữa phổ công suất của tín hiệu được tăng cường và phổ công suất của tín hiệu bị nhiễu.
Tổng quát ta có thể biểu diễn thuật toán Spectral Subtration:
Với { p=1 : ph ươ ng ph á ptr ừ ph ổ bi ê n đ ộ p=2 : ph ươ ng ph á p tr ừ ph ổ c ô ng su ấ t
Tùy vào từng trường hợp cụ thể, ta sẽ lựa chọn thực hiện thuật toán Spectral Subtration theo phương pháp trừ phổ hay phương pháp trừ công suất.
Sơ đồ khối thuật toán Spectral Subtration:
IFFT Tín hiệu được tăng cường
Phân chia Frame tín hiệu đầu vào
Thực hiên IFFT và nối các frame
Hình 2.2 Sơ đồ khối thuật toán Spectral Subtration
Hiện nay, thuật toán Wiener Filtering là một trong những phương pháp phổ biến nhất để nâng cao chất lượng tiếng nói, khắc phục nhược điểm của thuật toán Spectral Subtraction Ý tưởng chính của thuật toán này là tạo ra tín hiệu tiếng nói sạch bằng cách nén nhiễu, tức là tối thiểu hóa sai số bình phương trung bình (Mean Square Error) giữa tín hiệu thực và tín hiệu được ước lượng Trong đó, tín hiệu tiếng nói bị tác động bởi tạp âm được biểu diễn là y[n] = s[n] + n[n], với s[n] là tín hiệu sạch và n[n] là nhiễu.
Biểu thức (2.1) biểu diễn tín hiệu trên miền thời gian, thuật toán trừ phổ yêu cầu biến đổi sang miền tần số Biến đổi fourier biểu thức (2.1) ta được:
Tiếp tục biểu diễn phổ của tín hiệu vào đã bị nhiễuY(ω) và phổ của tín hiệu nhiễu N(ω) dưới dạng phổ phức:
Phân chia Frame tín hiệu đầu vào
Thực hiên IFFT và nối các frame
N ( ω)=| N (ω)| e j ∅ n (ω) (2.24) Khi đó | Y ( ω) | là phổ biên độ, ∅ y (ω) là phổ pha của tín hiệu đã bị nhiễu
| N ( ω) |là biên độ phổ của nhiễu, ∅ n (ω) là pha của nhiễu.
Biên độ phổ của nhiễu | N (ω) | có thể được thay thế bằng giá trị trung bình và được ước lượng khi không có tiếng nói hoạt động, vì không thể xác định chính xác.
Pha ∅ n (ω) của nhiễu | N ( ω) | được thay thế bằng pha ∅ y (ω) của tín hiệu đã có nhiễu | Y ( ω) |.
Ta có thể ước lượng biên độ của phổ tín hiệu sạch ^ S( ω) từ tín hiệu bị nhiễu Y( ω ¿ bằng một hàm phi tuyến được xác định
Ta đặt Priori SNR và Posteriori SNR như sau:
Trong các hệ thống nâng cao chất lượng tiếng nói, việc thiếu tín hiệu sạch s[n] khiến chúng ta không thể xác định phổ của nó, dẫn đến không tính toán được SNR pri SNR pri là tham số quan trọng để ước lượng tín hiệu sạch, và trong quá trình cải thiện chất lượng tiếng nói, việc ước lượng và cập nhật nhiễu là rất cần thiết.
Phân chia Frame tín hiệu đầu vào
Thực hiên IFFT và nối các frame lượng được SNR pri và SNR post bằng cách cho các thông số thích hợp vào các phương trình
Trong đó chỉ số [ ] t để tín hiệu tại khoảng thời gian đang xử lý và P[.] là hàm chỉnh lưu bán sóng có dạng như sau:
Trong phương trình (2.31), SNR pri có thể được ước lượng bằng SNR post nếu biết hệ số α Thực tế cho thấy, hệ số α = 0,98 là phù hợp cho các tín hiệu có SNR < 4dB Tổng quát, G(ω) theo phương pháp lọc Weiner được biểu diễn như sau:
Sơ đồ khối thuật toán Wiener Filtering:
Phân chia Frame tín hiệu đầu vào
Thực hiên IFFT và nối các frame
Tín hiệu được tăng cường
Hình 2.3 Sơ đồ khối thuật toán Wiener Filtering
2.1.3 Phân tích tín hiệu thành Segment/frame
Tín hiệu tiếng nói là tín hiệu liên tục, do đó việc biến đổi FFT trực tiếp từ miền thời gian mà không qua tiền xử lý sẽ dẫn đến tín hiệu biến đổi nhanh và được xem là động Điều này khiến cho việc áp dụng các thuật toán triệt nhiễu trở nên khó khăn, vì vậy cần có phương pháp thích hợp để giải quyết vấn đề này.
Phương pháp LPC trong tổng hợp tiếng nói
Tiếng nói là một tín hiệu biến đổi theo thời gian, nhưng trong khoảng thời gian ngắn từ 20ms đến 50ms, tín hiệu này gần như không thay đổi Có sự tương quan cao giữa các mẫu tín hiệu tiếng nói liền kề, điều này là cơ sở cho mô hình phân tích và tổng hợp LPC Mô hình này dựa trên dự đoán tuyến tính, cho rằng mẫu tín hiệu tiếng nói tại thời điểm n, ký hiệu là s(n), có thể được biểu diễn như tổ hợp tuyến tính của p mẫu tín hiệu trong quá khứ.
Từ đó, mô hình phân tích và tổng hợp LPC sẽ bao gồm hai phần cơ bản:
Phân tích tín hiệu tiếng nói ban đầu là bước quan trọng để xác định các tham số liên quan, và các tham số này sẽ được xác định theo mô hình LPC Sau khi phân tích, các tham số này sẽ được chuyển tiếp đến phần tổng hợp để tạo ra âm thanh.
- Phần tổng hợp: nhận các tham số từ phần phân tích và tổng hợp lại tín hiệu tiếng nói ban đầu từ các tham số này.
Phân chia Frame tín hiệu đầu vào
Thực hiên IFFT và nối các frame
Hình 2.6 Mô hình vật lý của tuyến âm
Khi chúng ta phát âm:
Không khí được đẩy từ phổi xuyên qua tuyến âm và ra khỏi miệng từ đó hình thành nên tiếng nói.
Âm thanh hữu thanh được tạo ra khi dây thanh dao động, với tốc độ dao động này xác định tông giọng Phụ nữ và trẻ em thường có tông giọng cao do dây thanh dao động nhanh, trong khi đàn ông trưởng thành thường có tông giọng thấp hơn với tốc độ dao động chậm.
Với những phụ âm xát và âm bật (âm vô thanh) thì dây thanh không dao động nhưng những phần còn lại thì luôn luôn mở.
Hình dạng của tuyến âm ảnh hưởng trực tiếp đến âm thanh được phát ra Khi chúng ta phát âm, tuyến âm sẽ thay đổi hình dạng để tạo ra những âm thanh khác nhau.
Hình dạng của tuyến âm thay đổi chậm, trong khoảng từ 10 ms đến 100 ms Độ lớn của âm thanh phụ thuộc vào lưu lượng không khí từ phổi.
Theo mô hình, tín hiệu số tiếng nói được tạo ra từ đầu ra của bộ lọc số LPC, với đầu vào là chuỗi xung hoặc dãy nhiễu trắng.
Mối quan hệ giữa mô hình vật lý và mô hình toán học
Phân chia Frame tín hiệu đầu vào
Thực hiên IFFT và nối các frame Ống âm thanh H(z) ( bộ lọc LPC)
Sự dao động của dây thanh V (voiced – hữu thanh )
Chu kỳ dao động của dây thanh T ( chu kỳ pitch)
Các phụ âm xát và âm bật UV (unvoiced – vô thanh)
Thông lượng không khí G (gain – trọng số kích thích)
Bộ lọc LPC được xác định bời hàm truyền đạt
Khi đó mối quan hệ giữa đầu vào và đầu ra của bộ lọc được xác định bởi phương trình sai phân tuyến tính:
Các tham số cần thiết cho một bộ tổng hợp LPC bao gồm các hệ số LPC, đại diện cho bộ lọc LPC, cùng với tín hiệu nguồn kích thích.
Hình 2.7 Mô hình tạo tiếng nói LPC
Mô hình LPC có thể được cài đặt theo bộ lọc sau (Hình 2.7)
Trong đó các hệ số ai của bộ lọc chính là các hệ số dự đoán.
Phân chia Frame tín hiệu đầu vào
Thực hiên IFFT và nối các frame
Hình 2.8 Mô hình bộ lọc
Các hệ số của bộ lọc này chính là hệ số phản xạ Ki
Từ hệ số phản xạ ta có thể tính trực tiếp ra hệ số dự đoán và ngược lại.
Từ hệ số dự đoán tính ra hệ số phản xạ:
Từ hệ số phản xạ tính ra hệ số dự đoán:
Phân tích Tổng hợp s(n) u(n), ai (i= 0,1, ,p)
Tín hiệu tiếng nói Tín hiệu nguồn
Phân chia Frame tín hiệu đầu vào
Thực hiên IFFT và nối các frame
2.2.3 Mô hình phân tích và tổng hợp LPC
Mô hình phân tích và tổng hợp LPC sẽ bao gồm 2 phần được mô tả
Hình 2.9 Mô hình phân tích và tổng hợp LPC
Quá trình phân tích sẽ sử dụng bộ lọc đảo LPC để tìm lại tín hiệu nguồn từ tín hiệu tiếng nói nhận được:
Hình 2.10 Sơ đồ phân tích LPC
Sau đó tín hiệu nguồn và các hệ số LPC được truyền đi đến phần tổng hợp để tổng hợp lại tín hiệu ban đầu
Mối quan hệ giữa đầu vào và đầu ra của bộ lọc được thể hiện qua phương trình
Trong đó A(z) là hàm truyền đạt của bộ lọc đảo được tính theo công thức sau với p là bậc của bộ lọc:
Y ( z )=( 1−a 1 z −1 −a 2 z −2 −…−a p z −p ) X ( z ) (2.44) y ( n)=x ( n)−a 1 x ( n−1 )−a 2 x (n−2)−…−a p x (n− p) (2.45) Đây là một hệ không truy hồi bậc p, dựa trên mô hình toàn điểm không, hình sau minh họa cách thực hiện của hệ:
Tín hiệu nguồn Tín hiệu tiếng nói
Phân chia Frame tín hiệu đầu vào
Thực hiên IFFT và nối các frame
Hình 2.11 Sơ đồ thực hiện phân tích LPC
Tổng hợp là quá trình ngược lại của phân tích, trong đó tín hiệu nguồn sau khi được phân tích sẽ được khôi phục lại thành tín hiệu tiếng nói ban đầu Mô hình tổng quát của quá trình này được mô tả rõ ràng.
Hình 2.12 Sơ đồ tổng hợp LPC
Thực chất đây chính là một hệ đảo của hệ thống phân tích, do đó hàm truyền của hệ thống có dạng:
Trong đó các hệ số ai và p có giá trị giống như các hệ số ai và p trong quá trình phân tích
Phân chia Frame tín hiệu đầu vào
Thực hiên IFFT và nối các frame
Do đó tín hiệu đầu ra của hệ thống tổng hợp được xác định như sau:
Từ phương trình (2.50), ta có thể biểu diễn y(n) dưới dạng y(n) = x(n) + a1y(n-1) + a2y(n-2) + + apy(n-p) (2.51) Sơ đồ tổng hợp LPC yêu cầu các tham số như nguồn âm (tín hiệu kích thích) và các hệ số LPC để thực hiện quá trình tổng hợp.
Hình 2.13 Sơ đồ thực hiện tổng hợp LPC
Các tham số này sẽ được xác định trong pha phân tích.
Kết luận chương
Phân chia Frame tín hiệu đầu vào
Thực hiên IFFT và nối các frame
Chương 2 giúp ta tìm hiểu về sử dụng phương pháp LPC trong tồng hợp tiếng nói và 2 thuật toán phổ biến Spectral Subtration và Wiener Filtering để nâng cao chất lượng tiếng nói.
Phương pháp LPC (Linear Predictive Coding) trong tổng hợp tiếng nói bao gồm hai phần chính: phân tích và tổng hợp Trong phần phân tích, tín hiệu tiếng nói ban đầu được sử dụng để rút ra các tham số LPC và tín hiệu dư (nguồn âm), sau đó các tham số này được truyền qua một kênh Phần tổng hợp, diễn ra ở phần nhận của hệ thống, sẽ tái tạo lại tín hiệu tiếng nói ban đầu từ các tham số và tín hiệu dư đã nhận được từ phần phân tích.
Chương 2 đã nghiên cứu nguyên lý của hai thuật toán Spectral Subtration và Wiener Filtering Chúng ta cần phân tích tín hiệu thành các frame được xếp chồng lên nhau, sau khi các frame được xử lý trong miền tần số và chuyển đội lại về miền thời gian thì các frame đó phải được liên kết với nhau theo đúng phương pháp tương tứng với phương pháp phân tích tín hiệu đầu vào Chương 3 sẽ thực hiện phần mô phỏng và đánh giá chi tiết 2 thuật toán này.
Phân chia Frame tín hiệu đầu vào
Thực hiên IFFT và nối các frame