Giới thiệu
Nhu cầu thu phát âm thanh
Việc thu tín hiệu âm thanh và chuyển đổi chúng thành tín hiệu điện là bước đầu tiên trong quá trình xử lý âm thanh, bao gồm lọc nhiễu và thêm hiệu ứng trước khi phát lại qua hệ thống loa Ngành viễn thông từng là lĩnh vực chủ yếu trong xử lý âm thanh, nhưng sự phát triển của ngành công nghiệp thu âm và phát thanh truyền hình đã tạo ra nhu cầu cao hơn về microphone chất lượng, bộ khuếch đại tốt và hệ thống thu phát âm thanh toàn diện.
Trong giai đoạn đầu, xử lý âm thanh chủ yếu diễn ra trong môi trường tương tự với thiết bị cồng kềnh và tiêu tốn nhiều năng lượng Sự xuất hiện của máy tính số và bộ xử lý tín hiệu số đã đơn giản hóa việc áp dụng các thuật toán xử lý âm thanh Khi nhu cầu thưởng thức âm nhạc và phát thanh gia tăng, ngành công nghiệp âm thanh phát triển nhanh chóng Hiện nay, hầu hết các thiết bị số như điện thoại, máy tính xách tay và TV đều được trang bị hệ thống thu phát âm thanh tinh vi Kết nối băng rộng tốc độ cao đã giúp thông tin, âm thanh và hình ảnh trở nên phổ biến trong cuộc sống Tuy nhiên, nhiễu và can nhiễu vẫn là thách thức lớn trong hệ thống thu phát âm thanh, dẫn đến việc cần có nhiều giải pháp để giảm thiểu tác động của tín hiệu không mong muốn Cuộc chiến chống nhiễu vẫn còn dài, và chưa có giải pháp tổng quát nào cho vấn đề này.
Lọc nhiễu trong âm thanh (Audio Signal)
Sự đa dạng trong các giải thuật lọc nhiễu xuất phát từ các loại nhiễu khác nhau như nhiễu trắng, nhiễu màu, và các đặc tính của chúng như dừng hay không dừng, băng rộng hay băng hẹp Người thiết kế hệ thống cần lựa chọn giải thuật phù hợp với yêu cầu cụ thể của ứng dụng, bao gồm cả yêu cầu thời gian thực Các giải thuật như trừ phổ vẫn được sử dụng phổ biến, ví dụ như trong kỹ thuật khử tiếng kèn Vuvuzela trong các trận đấu bóng đá World Cup 2010.
Giới thiệu về 7 Mai Văn Trung, nổi bật với tần số tương đối cố định Nghiên cứu phức tạp thường yêu cầu mô hình hóa nhiễu qua thực nghiệm và đánh giá, phân loại nhiễu thành nhiều tầng khác nhau Một số giải thuật lọc nhiễu phức tạp dựa trên cấu trúc đại số của ma trận Hankel và phương trình vi phân đạo hàm riêng cho hiệu quả cao Hầu hết các giải thuật lọc nhiễu hiện nay được mô tả trong miền thời gian hoặc tần số, tùy thuộc vào sự thuận tiện của người thiết kế Gần đây, nhiều nhà nghiên cứu âm thanh đã áp dụng các giải thuật lọc nhiễu trong miền này.
Biến đổi Wavelet cung cấp độ phân giải cao, giúp nắm bắt các biến đổi phức tạp của tín hiệu âm thanh, đặc biệt là tín hiệu thoại Tuy nhiên, thời gian tính toán dài của nó khiến cho việc áp dụng trong các ứng dụng thời gian thực trở nên không phù hợp Do đó, việc xác định giới hạn về đặc tính của nhiễu là cần thiết để tránh những bài toán quá tổng quát hoặc quá đơn giản, không phản ánh đúng thực tế.
Phát biểu bài toán
Hình 1.1 : Mô hình bài toán lọc nhiễu dùng dải microphone
Bài toán đặt ra là thiết kế một dải microphone có khả năng thu tín hiệu âm thanh từ các nguồn mong muốn như TV, diễn giả, nhạc công và bảng điều khiển ô tô.
… và tín hiệu từ một nguồn nhiễu : người trong phòng, khán thính giả trong phòng hòa
Bài viết giới thiệu về việc xác định góc tới của nguồn tín hiệu, như nhạc và tiếng ồn từ động cơ xe hơi, trong trường hợp nguồn tín hiệu mong muốn cần di chuyển Để giải quyết bài toán này, cần ước lượng góc tới (Direction of Arrivals), nhưng để đơn giản hóa, bài toán giả định rằng nguồn tín hiệu mong muốn và nhiễu là cố định, tức là góc tới được biết trước.
Trong bất kỳ môi trường nào, hiện tượng đa đường (multipath) thường xảy ra, dẫn đến reverberation và tiếng vọng (echo) tại ngõ thu của bộ xử lý Để đơn giản hóa giải thuật, giả sử không có hiện tượng đa đường và tiếng vọng Tuy nhiên, tiếng vọng và nhiễu tạo ra nhiều đường khác nhau, làm cho bài toán trở nên phức tạp và khó giải quyết trong thực tế Một yếu tố quan trọng trong mô hình xử lý âm thanh là mô hình sóng truyền trong môi trường Luận văn này áp dụng mô hình sóng trường xa (far-field), trong đó sóng tới tại microphone được xem là sóng phẳng với góc tới (incident angle) đã biết.
Hình 1.2 : Các hiệu ứng ảnh hưởng đến hệ thống thu phát âm thanh
(© Benesty et al Microphone Array Signal Processing, Springer 2008)
C1 Giới thiệu 9 Mai Văn Trung
Yêu cầu của bài toán và những giả sử được trình bày trong bảng 1.1 bên dưới :
Bảng 1.1 : Tóm tắt giả sử và yêu cầu của bài toán
Giả sử Mô tả Ghi chú
Dạng sóng ( Waveform ) Sóng phẳng (Plane wave), trường xa (far – field)
Góc tới ( Incident Angle ) Cố định Không cần ước lượng hướng đến
Băng thông ( BandWidth ) 20 Hz – 20 KHz Băng rộng (Wideband)
Nhiễu đa đường ( multi- path )
Loại nhiễu ( Noise Type ) Nhiễu nền phân bố Gauss Background hay Ambient
Thời gian thực ( Real – time )
Thời gian xử lý 1 frame thấp hơn 80 ms
Tai người không nghe thấy sự đứt quãng (discontinuity)
Miền xử lý Miền thời gian (Time –
Mô phỏng Phần mềm Matlab Đánh giá kết quả
So sánh SNR trước và sau xử lý
Tổ chức luận văn
Phần còn lại của luận văn được cấu trúc như sau: Chương 2 sẽ trình bày các công trình và giải thuật liên quan đến bài toán, đặc biệt nhấn mạnh việc xây dựng mô hình toán học cần thiết cho toàn bộ phần lý thuyết và cài đặt thuật toán ở các chương tiếp theo Ngoài ra, chương này cũng sẽ mô tả các giải thuật lọc nhiễu quan trọng.
Chương 3 của bài viết giới thiệu về 10 Mai Văn Trung và các bài toán trong miền thời gian Chương 4 trình bày chi tiết các kết quả mô phỏng bằng Matlab, bao gồm dạng sóng và bảng so sánh SNR trước và sau xử lý, kèm theo các bình luận liên quan Cuối cùng, chương 5 tổng kết và đánh giá kết quả của các giải thuật cũng như hướng phát triển của đề tài.
C2 Tổng quan công trình liên quan 11 Mai Văn Trung
Tổng quan công trình liên quan
Mô hình toán trong môi trường tương tự
Để trình bày các công trình nghiên cứu liên quan đến đề tài, chúng ta cần xây dựng một mô hình toán học tham khảo Hệ thống bao gồm M microphone, với khoảng cách giữa hai microphone liên tiếp được xác định bởi vận tốc truyền sóng âm thanh trong môi trường, thường là không khí, và tần số của tín hiệu cần xử lý Nếu gọi là bước sóng của sóng tới, để tránh hiện tượng chồng lấn (aliasing), các yếu tố này cần được xem xét kỹ lưỡng.
Trong đó, đặc trưng cho sóng tới dải microphone có tần số lớn nhất trong dải tần số của tín hiệu đến [10]
Hình 2.1 : Mô hình lọc nhiễu băng rộng gồm M microphone
(© Dr Andrew Greensted, http://www.labbookpages.co.uk, 2012)
C2 Tổng quan công trình liên quan 12 Mai Văn Trung
Ký hiệu với là các tín hiệu thu được từ từng microphone trong dải Giả sử có một nguồn tín hiệu đến dải microphone, thì biểu thức liên hệ giữa các tín hiệu thu được có thể được diễn đạt như sau.
Trong môi trường truyền tín hiệu, sự đáp ứng và nhiễu tại mỗi microphone được ký hiệu bằng phép toán tích chập (*) Hàm truyền từ nguồn đến microphone thể hiện sự suy hao biên độ do khoảng cách, với microphone càng xa nguồn thì tín hiệu nhận được càng bị suy hao Khoảng cách này cũng tạo ra sự dịch pha của tín hiệu thu tại microphone so với nguồn, được ký hiệu là thời gian truyền sóng Hai thông số này là cơ sở trong mô hình toán của luận văn, bên cạnh các yếu tố như hiệu ứng đa đường, độ định hướng của microphone, và đáp ứng của các bộ xử lý cao tần Tuy nhiên, để đơn giản, các hiệu ứng này sẽ không được xem xét.
Khoảng cách từ nguồn đến microphone là yếu tố quan trọng trong việc đặc trưng hóa một dải microphone Để mô tả dải microphone, người ta sử dụng đại lượng gọi là vector lái (steering vector), phụ thuộc vào tần số và vị trí tương đối của dải microphone so với nguồn trong mô hình trường gần (near-field) Trong khi đó, trong mô hình trường xa, chỉ cần quan tâm đến hướng của nguồn âm thanh so với dải microphone, được ký hiệu là góc tới (theta).
Hình 2.2 : Mô hình trường xa với góc tới
C2 Tổng quan công trình liên quan 13 Mai Văn Trung
Khi tín hiệu từ xa đến dải microphone, nó sẽ đến microphone trên cùng trước Thời gian trễ của sóng truyền từ nguồn đến các microphone khác trong dãy được tính tương đối so với microphone này.
Các thời gian trễ phụ thuộc vào góc tới từ nguồn âm thanh đến dải microphone Kết hợp với phương trình (2.3), vector lái của dải microphone được biểu diễn như một hàm của tần số và hướng đến.
Tại mỗi ngõ ra của ta dùng một bộ lọc FIR gồm có J taps ký hiệu là , với
Các phương trình từ (2.1) đến (2.5) được dẫn giải trong miền tương tự để làm rõ sự phụ thuộc vào môi trường truyền sóng và vị trí giữa dải microphone và nguồn âm thanh Thông tin chi tiết về các dẫn giải này có thể tham khảo trong tài liệu [10], trong khi các dẫn giải tương tự trong miền tần số được trình bày đầy đủ trong tài liệu [1] Luận văn này tập trung vào việc phân tích các tín hiệu trong miền thời gian.
Mô hình trong miền thời gian
Trong mô hình thời gian, ta gọi vector tín hiệu thu ở một thời điểm là
Tín hiệu này được xác định bởi tổng của các tín hiệu từ hướng mong muốn (signal of interest) và nhiễu từ các hướng khác Ký hiệu của phép toán chuyển vị (transpose) được sử dụng để biểu diễn điều này.
(2.7) Vector có kích thước của tín hiệu mong muốn tại mẫu thứ
C2 Tổng quan công trình liên quan 14 Mai Văn Trung
Vector đặc trưng cho nhiễu hay can nhiễu được ký hiệu là
(2.9) Vector trọng số (weights) sau các ngõ vào
Ma trận hiệp phương sai của tín hiệu thu, tín hiệu nhiễu và tín hiệu mong muốn lần lượt cho bởi
Ta giả sử rằng, tín nhiễu không tương quan với tín hiệu mong muốn
Trong đó, là ký hiệu của phép toán lấy kì vọng (expectation operator) Với các ký hiệu như trên thì ngõ của mạch dải microphone cho mẫu thứ là
Mục tiêu của việc lọc nhiễu bằng dải microphone là xác định các trọng số phù hợp với một tiêu chuẩn tối ưu cụ thể Các tiêu chuẩn này có thể khác nhau tùy thuộc vào từng ứng dụng và thông tin mà người thiết kế hệ thống sở hữu.
2.2.1 Bộ lọc Delay and Sum
Bộ lọc Delay and Sum là loại bộ lọc đơn giản nhất, hoạt động bằng cách làm trễ tín hiệu từ mỗi microphone dựa trên hướng và khoảng cách đến nguồn âm thanh Các tín hiệu này sau đó được cộng lại và lấy trung bình để tạo ra tín hiệu đầu ra Mặc dù bộ lọc này giúp định hướng búp sóng về phía mong muốn, nhưng nó không có khả năng hạn chế nhiễu và can nhiễu từ các hướng khác Do cấu trúc đơn giản, Delay and Sum thường được sử dụng trong các giai đoạn đầu của hệ thống lọc nhiều tầng và là tiêu chuẩn để so sánh chất lượng với các bộ lọc khác.
C2 Tổng quan công trình liên quan 15 Mai Văn Trung
Hình 2.3 : Cấu trúc bộ lọc Delay and Sum
(© Dr Andrew Greensted, http://www.labbookpages.co.uk, 2012)
Nobert Wiener đã phát triển mô hình bộ lọc nhằm giảm thiểu sai số giữa tín hiệu thu được và tín hiệu mong muốn, với tín hiệu mong muốn đóng vai trò tham chiếu Sai số được xác định thông qua một công thức cụ thể.
(2.14) Định nghĩa hàm chi phí
(2.15) Bằng các phép biến đổi toán học ta có [2]
Lấy đạo hàm theo biểu thức trong phương trình (2.16) rồi cho đạo hàm đó bằng 0 ta tìm được trọng số tối ưu
C2 Tổng quan công trình liên quan 16 Mai Văn Trung
Trong đó, là vector tương quan chéo giữa tín hiệu thu và tín hiệu tham khảo ; là công suất của tín hiệu thu
Việc áp dụng bộ lọc Wiener trong thực tế gặp khó khăn do yêu cầu tính toán nghịch đảo ma trận, điều này tốn nhiều thời gian và không phù hợp cho các ứng dụng thời gian thực Hơn nữa, trong lĩnh vực xử lý âm thanh, thường thiếu tín hiệu tham khảo để thực hiện các phép toán cần thiết.
Bộ lọc này được phát triển cho các ứng dụng Radar, luôn có tín hiệu tham khảo Theo [13], thuật toán thích nghi (adaptive) được mô tả cho (2.17) Dựa vào thiết kế bộ lọc Wiener, nhiều mô hình lọc khác đã được phát triển với ít thông tin hơn về tín hiệu mong muốn.
Trong bài báo của Otis Lamont Frost, một giải thuật thích nghi cho bộ lọc Linearly Contraints Minimum Variance (LCMV) đã được giới thiệu Giải thuật này nhằm mục đích tối thiểu hóa công suất ngõ ra của mạch lọc, đồng thời đảm bảo điều kiện về độ lợi hướng đến tín hiệu mong muốn được giữ ổn định.
Từ (2.13) ta có công suất ngõ ra của mạch lọc được tính theo công thức
Các ràng buộc về trọng số được thể hiện qua phản ứng của mạch đối với hướng mong muốn và các hướng nhiễu hoặc can nhiễu khác.
Như vậy bài toán được tóm tắt lại như sau : giới hạn bởi (2.20) được tìm dực trên phương pháp nhân tử Lagrange
(2.21) Lấy đạo hàm (2.21) theo và cho đạo hàm đó bằng 0
C2 Tổng quan công trình liên quan 17 Mai Văn Trung
Ta tìm được giá trị tối ưu cho các trọng số
(2.24) Nhân tử Lagrange được cho bởi
Để xác định trọng số tối ưu trong ma trận tương quan của tín hiệu thu chưa biết, chúng ta sẽ sử dụng giải thuật thích nghi (adaptive algorithm) để tính toán ma trận này Việc thay thế ước lượng của ma trận tương quan vào công thức yêu cầu số phép nhân tỷ lệ với lập phương của số trọng số, điều này gây ra sự phức tạp do phép nghịch đảo ma trận Otis Lamont Frost đã đề xuất một giải thuật thích nghi để cập nhật trọng số, như được mô tả dưới đây.
Trọng số tại thời điểm thứ được cập nhật thông qua
= (2.27) Để tìm nhân tử Lagrange ta thay (2.27) vào (2.19)
(2.28) Giải và thay thế vào phương trình (2.27)
C2 Tổng quan công trình liên quan 18 Mai Văn Trung Định nghĩa vector có kích thước
Giải thuật cập nhật trọng số được tóm tắt như sau
Lời giải cho bài toán dựa trên phép toán nghịch đảo ma trận được tìm thấy trong tài liệu [10], trong khi tính hội tụ của giải thuật phụ thuộc vào việc lựa chọn bước cập nhật, được thảo luận chi tiết trong [15] Giải thuật Least Mean Square (LMS) được mô tả trong (2.32) rất đơn giản, nhưng nếu bước cập nhật không được chọn đúng, hiệu suất của giải thuật sẽ bị giảm Ngoài ra, các giải thuật khác dựa trên LMS cũng được trình bày trong các tài liệu [15] và [16].
2.2.4 Bộ lọc Generalized Sidelobe Canceller (GSC)
Bộ lọc GSC và bộ lọc Frost đều giải quyết bài toán dựa trên mô hình LCMV, trong đó MVDR (Minimum Variance Distortionless Response) đạt được độ lợi đơn vị cho tín hiệu mong muốn Vector trọng số được chia thành hai thành phần tương ứng với hai không gian con của ma trận ràng buộc Trong thuật toán LCMV, trọng số cần thỏa mãn đồng thời hai điều kiện: điều kiện ràng buộc trọng số và điều kiện cực tiểu công suất ngõ ra Để đạt được điều này, vector trọng số được phân chia thành hai thành phần trực giao, một nằm trong không gian miền và một nằm trong không gian trống của C, đảm bảo rằng cả hai không gian con chứa toàn bộ không gian mong muốn và có thể biểu diễn được vector trọng số.
C2 Tổng quan công trình liên quan 19 Mai Văn Trung
Hình 2.4 : Cách thức chuyển từ giải thuật ràng buộc LCMV sang cấu trúc không ràng buộc GSC
(© Stephan Weiss and Wei Liu, Wideband Beamforming : Concepts and Techniques, 2010) Để thỏa mãn phương trình (2.19) ta phải có
Trong không gian con trống, các vector có thể được biểu diễn thông qua tổ hợp tuyến tính của các vector cơ sở Chúng ta ký hiệu ma trận chứa các vector cơ sở của không gian này.
Bằng cách này, việc xác định trọng số tối ưu cho giải thuật LCMV trở thành bài toán tìm kiếm lời giải tối ưu trong điều kiện không có ràng buộc.
(2.36) Lời giải chi tiết cho bộ lọc này được cho trong [10] [2]
C2 Tổng quan công trình liên quan 20 Mai Văn Trung cho thấy sự xuất hiện của các phép toán nghịch đảo ma trận, điều này gây khó khăn trong quá trình tính toán Đây là cấu trúc cơ bản từ đó các bộ lọc thích nghi được phát triển sau này.
2.2.5 Bộ lọc thích nghi tối ưu ( Robust Adaptive Beamformer)
Trong quá trình thích nghi của các bộ lọc, góc tới của các nguồn âm thanh, bao gồm cả nhiễu và can nhiễu, được giả định là không đổi Tuy nhiên, do hạn chế kỹ thuật và thay đổi điều kiện môi trường, việc định hướng của microphone có thể không chính xác, do đó cần thiết phải phát triển các thuật toán bù đắp cho những giới hạn này Đối với nhiễu trắng phân bố theo thời gian và không gian, công suất ngõ ra của nó tại mạch lọc băng rộng sẽ được khuếch đại tỷ lệ với, và khi áp dụng thuật toán LCMV để cực tiểu hóa công suất ngõ ra, thành phần nhiễu cũng sẽ giảm, dẫn đến chuẩn (norm) của trọng số bộ lọc cũng giảm Nếu có một lượng nhiễu trắng được đưa vào tín hiệu thu được, sự gia tăng của chuẩn (norm) trọng số sẽ bị giảm nhờ vào thuật toán cực tiểu ngõ ra của LCMV, từ đó tránh được việc loại bỏ tín hiệu mong muốn do sai lệch trong ước lượng hướng đến.
Phương pháp giải quyết vấn đề
Tạo tín hiệu (Signal Generation)
Do các hạn chế kỹ thuật, phần trình bày luận văn chỉ thực hiện mô phỏng trên phần mềm Matlab với các tín hiệu âm thanh đã được thu sẵn dưới dạng tập tin wav, định dạng được Matlab hỗ trợ Tín hiệu nhiễu được tạo ra từ các chuỗi giả ngẫu nhiên được cài đặt sẵn trong Matlab Mặc dù có nhiều loại phân bố nhiễu khác nhau như Gaussian, Laplace hay Gamma, nhưng trong phần trình bày này, chúng ta chỉ tập trung vào nhiễu nền có phân bố Gaussian.
Hình 3.1 : Xấp xỉ phân bố Gauss của mô hình tín hiệu nhiễu
Tín hiệu mong muốn được chọn là khoảng 20 giây trong bài hát có tên là Birthday của
Ben Lee có phổ tần số được phân bố rộng trong khoảng từ 20 Hz đến 22 KHz như trong hình 3.2 bên dưới
C3 Giải quyết vấn đề 24 Mai Văn Trung
Hình 3.2 : Phổ tần số của tín hiệu mong muốn
Nhiễu trắng phân bố Gauss được tạo ra từ phần mềm Matlab bằng hàm randn(), với đặc điểm phân bố chuẩn, trung bình 0 và phương sai 1 Phổ tần số theo thời gian, như thể hiện trong hình 3.3, cho thấy nhiễu này có phân bố rộng trong khoảng 20 Hz đến 22 KHz, phù hợp với yêu cầu Tuy nhiên, nhiễu nền có phổ tần số trùng với phổ tần số của tín hiệu mong muốn, điều này gây khó khăn cho việc áp dụng giải thuật đơn giản trừ phổ.
Subtraction) không sử dụng được vì việc ước lượng phổ trải rộng như thế này là điều rất khó khăn
C3 Giải quyết vấn đề 25 Mai Văn Trung
Hình 3.0.3 Phổ tần số của tín hiệu nhiễu
Dải microphone
Matlab cung cấp Phased Array Toolbox, cho phép người dùng tạo dải microphone và thu tín hiệu từ nhiều góc khác nhau trong môi trường trường xa.
Việc kiểm soát cách thức thu tín hiệu của toolbox không cho phép người dùng truy cập, do đó trong luận văn này, chúng tôi sử dụng mô hình thu tín hiệu như đã trình bày trong phần 2.1 Các tín hiệu thu từ microphone được mô tả là những phiên bản trễ của tín hiệu ban đầu, phụ thuộc vào khoảng cách từ microphone đến nguồn tín hiệu, khoảng cách từ microphone đến điểm giữa của dải microphone, và góc tới của nguồn âm thanh so với pháp tuyến.
(normal vector) của dải microphone Công thức tính thời gian trễ được minh họa như hình 3.4
Khoảng cách từ các nguồn tín hiệu đến microphone được đánh chỉ số từ 1 để tương thích với hệ thống đánh chỉ số của Matlab Tọa độ của các microphone trong không gian ba chiều được xác định cùng với tọa độ của nguồn tín hiệu, trong đó góc tới cũng được tính đến.
C3 Giải quyết vấn đề 26 Mai Văn Trung
Hình 3.0.4 : Cấu hình hình học của dải microphone và nguồn âm thanh
Trước tiên ta tính tọa độ của điểm giữa dải microphone theo công thức trong không gian
Khoảng cách từ một microphone đến nguồn và khoảng cách đến điểm giữa của dải được tính bằng khoảng cách Euclide
Khi khoảng cách giữa nguồn âm và microphone được xác định, thời gian trễ từ nguồn đến microphone có thể được tính toán theo phương trình (3.3), với vận tốc truyền âm thanh trong môi trường đang được xem xét.
C3 Giải quyết vấn đề 27 Mai Văn Trung
Bằng cách sử dụng các khoảng cách đã xác định cho tín hiệu mong muốn và tín hiệu nhiễu, cùng với tần số lấy mẫu trong xử lý tín hiệu âm thanh có dải tần rộng, ta có thể tính toán lượng trễ theo mẫu cho từng microphone.
Các tín hiệu mong muốn, nhiễu và can nhiễu sẽ được thu thập và tính toán lượng mẫu trễ trước khi kết hợp thành tín hiệu có nhiễu Phương pháp này giúp mô hình hóa tín hiệu thu tại các ngõ vào microphone một cách tương đối, bỏ qua các hiệu ứng đa đường và đáp ứng định hướng của từng microphone cùng bộ chuyển đổi ADC Chúng ta coi những quá trình này là lý tưởng với đáp ứng đều bằng 1.
Tỉ số tín hiệu trên nhiễu (SNR)
Luận văn này đánh giá chất lượng các bộ lọc dựa trên hai phương pháp định tính là quan sát dạng sóng (waveform) và nghe thử (listening), kết hợp với các chỉ số định lượng như tỉ số tín hiệu trên nhiễu (SNR) và tỉ số tín hiệu trên nhiễu cộng can nhiễu (SINR).
Tỉ số tín hiệu trên nhiễu đầu vào được tính theo công thức
Trong đó công suất của tín hiệu được tính như sau, với là số mẫu có trong tín hiệu
Nhiễu ngõ ra được xác định thông qua quy trình kiểm tra tín hiệu ngõ vào chưa có nhiễu, qua đó tín hiệu sẽ được đưa vào mạch lọc để đánh giá mức độ méo dạng (distortion) của tín hiệu Kết quả đầu ra từ quá trình này sẽ được gọi là nhiễu ngõ ra.
C3 Giải quyết vấn đề 28 Mai Văn Trung: Tín hiệu bị nhiễu được đưa qua mạch lọc để kiểm tra khả năng lọc nhiễu của hệ thống, với ngõ ra được ký hiệu là Phần nhiễu còn dư trong ngõ ra được tính bằng Tỉ số tín hiệu trên nhiễu ngõ ra được xác định theo công thức.
Cách làm tương tự cho tỉ số , trong đó thay bằng
Thiết kế các bộ lọc
3.4.1 : Bộ lọc Delay and Sum
Bộ lọc Delay and Sum là một phương pháp đơn giản, trong đó tín hiệu từ mỗi microphone được tạo trễ theo khoảng cách từ nguồn âm thanh Tín hiệu từ các kênh được canh lại trước khi cộng lại để tăng cường công suất tín hiệu mong muốn, với trọng số cho mỗi microphone đều bằng nhau Chất lượng bộ lọc tăng theo số lượng microphone sử dụng, nhưng nó nhạy cảm với sai lệch trong ước lượng hướng đến Tuy nhiên, với dải microphone cố định và chỉ hai nguồn âm thanh (một nguồn nhiễu và một nguồn mong muốn), bộ lọc Delay and Sum hoạt động hiệu quả.
3.4.2 : Bộ lọc Frost hai ràng buộ c
Bộ lọc theo giải thuật Frost được ưa chuộng nhờ khả năng áp dụng nhiều ràng buộc khác nhau, cho phép điều khiển vector trọng số để đáp ứng các yêu cầu như tối thiểu hóa công suất ngõ ra, duy trì độ lợi đơn vị cho hướng mong muốn, tạo búp sóng hẹp cho các ngõ vào không mong muốn, và kiểm soát độ rộng búp sóng Những ràng buộc này có thể được thực hiện thông qua các giải thuật tối ưu hóa hỗ trợ bởi Matlab Tuy nhiên, một nhược điểm của phương pháp thiết kế bộ lọc cố định dạng này là nguy cơ rơi vào các cực trị địa phương nếu người thiết kế thiếu kinh nghiệm.
C3 Giải quyết vấn đề 29 Mai Văn Trung
Để đáp ứng yêu cầu thời gian thực và tính bất ổn của môi trường, các giải thuật thích nghi đã được chi tiết hóa trong phần 2.2.3 Một trong những yếu tố quan trọng nhất trong quá trình này là thiết kế ma trận ràng buộc, nhằm thu tín hiệu từ các nguồn khác nhau.
Để đạt được nguồn âm thanh mong muốn, cần tập trung vào việc giảm thiểu tín hiệu nhiễu nền từ các hướng không mong muốn Trong phần trình bày về can nhiễu, chúng ta giả định rằng tín hiệu nhiễu đến từ một góc xác định Tất cả các giá trị liên quan được nhập vào Matlab thông qua các tập tin Excel, tuy nhiên, chúng tôi sẽ không đi sâu vào chi tiết các giá trị góc.
Phần 3.2 đã chỉ ra cách tín số mẫu trễ cho từng microphone đối với từng tín hiệu âm thanh, những thông tin này được dùng để xây dựng ma trận ràng buộc Giả sử ta dùng trọng số cho mỗi kênh với số lượng mẫu trễ ở từng kênh cho tín hiệu mong muốn là với Ta tiến hành tính số dư trong phép chia của các cho , các số dư này có kết quả trong tập hợp Ma trận có kích thước trong đó là số ràng buộc Mỗi hàng của ma trận sẽ bao gồm thành phần có phần tử mỗi phần Mỗi phần này có một phần tử ở vị trí tương ứng với độ trễ của kênh còn lại là các phần tử Ma trận đáp ứng của dải microphone có kích thước với phần tử có giá trị tương ứng với góc tới mong muốn, phần tử có giá trị với góc tới không mong muốn Nếu biểu diễn trong miền tần số ta có biểu thức toán học sau cho góc tới cho góc tới và
(3.8) với là các frequency bin tương ứng trong phép biến đổi FFT
Sau khi hoàn tất việc xây dựng ma trận ràng buộc, quá trình thực thi sẽ tương tự như mô tả trong phần 2.2.3 Tuy nhiên, trong bước cập nhật vector trọng số, chúng ta sẽ áp dụng giải thuật Normalized Least Mean Squared (NLMS) thay vì LMS như trong phương trình (2.32) để đảm bảo tính hội tụ của đáp ứng.
Ngoài LMS và NLMS, còn có giải thuật thích nghi Recursive Least Squares (RLS) cùng với các biến thể không thay đổi của chúng Tuy nhiên, RLS có độ phức tạp tính toán cao, khiến nó không phù hợp cho các ứng dụng thời gian thực Trong khi đó, NLMS thể hiện mức độ hiệu quả trung bình.
LMS và RLS cho nên thường được sử dụng rộng rãi [10]
C3 Giải quyết vấn đề 30 Mai Văn Trung
3.4.3 : Bộ lọc GSC kết hợp nạp đường chéo (Diagonal Loading)
Bộ lọc GSC là một phương pháp biến đổi bài toán LCMV có ràng buộc thành bài toán tối ưu không ràng buộc bằng cách chiếu vector trọng số lên không gian con miền và không gian con trống của ma trận ràng buộc Luận văn kết hợp phương pháp nạp đường chéo để giải quyết vấn đề sai lệch trong ước lượng hướng đến mong muốn, với ma trận ràng buộc được tính toán dựa trên hướng ước lượng không chính xác và sai số trong khoảng.
Việc sai lệnh này sẽ được bù đắp bằng hệ số nạp đường chéo , thông thường được tính bằng công thức cho trong [19] Với là công suất của nhiễu
Ngoài ra, phần quan trọng trong sơ đồ GSC là việc chọn ma trận blocking [22]
Với là ma trận giả nghịch đảo (pseudoinverse) của và là ma trận đơn vị đường chéo [17]
Phần thực thi của thuật toán Leaky NLMS điều chỉnh khác với phương trình (2.41) bằng cách chuẩn hóa bước cập nhật dựa trên công suất tức thời của tín hiệu đầu vào.
Với cách chuẩn hóa này giá trị thuộc vào khoảng sẽ đảm bảo việc hội tụ
(3.14) Trong đó được cập nhật như trong phương trình (2.41) với cho trong phương trình (3.13).
C4 Kết quả mô phỏng 31 Mai Văn Trung
Kết quả mô phỏng
Mô hình mô phỏng
Hệ thống lọc nhiễu sử dụng nhiều microphone thường có khả năng lọc nhiễu tốt hơn, với khả năng chọn lọc không gian được cải thiện theo số lượng microphone.
Spatial filtering và số lượng trọng số trong mỗi kênh tăng cường khả năng chọn lọc theo thời gian (temporal filtering) và tần số (frequency filtering) thông qua phép biến đổi Fourier, liên kết giữa miền thời gian và tần số Trong phần mô phỏng, chúng tôi thiết lập cấu hình dải microphone với số lượng tăng dần theo vị trí trong không gian, như được trình bày trong các bảng.
Bảng dưới đây trình bày vị trí của microphone và nguồn âm thanh cho các trường hợp sử dụng 4, 6, 8 và 10 microphone, với các thành phần tọa độ được tính bằng cm Đây cũng là cấu trúc hình học cho hệ thống lọc nhiễu áp dụng trong tất cả các mô phỏng tiếp theo.
Bảng 4.1 : Cấu trúc hình học của dải 10 microphone
Microphone Mic1 Mic2 Mic3 Mic4 Mic5 Mic6 Mic7 Mic8 Mic9 Mic10
Bảng 4.2 : Cấu hình hình học của dải 8 microphone
Microphone Mic1 Mic2 Mic3 Mic4 Mic5 Mic6 Mic7 Mic8
C4 Kết quả mô phỏng 32 Mai Văn Trung
Bảng 4.3 : Cấu hình hình học của dải 6 microphone
Microphone Mic1 Mic2 Mic3 Mic4 Mic5 Mic6
Bảng 4.4 : Cấu hình hình học của dải 4 microphone
Microphone Mic1 Mic2 Mic3 Mic4
Bảng 4.5 : Vị trí của hai nguồn âm thanh
Tỉ số tín hiệu trên nhiễu đầu vào được lấy mẫu trong khoảng từ đến với bước tăng Trong bộ lọc Delay and Sum, các trọng số ở mỗi microphone đều giống nhau và tỉ lệ với số lượng microphone trong dải, do đó, chúng tôi không đề cập đến tác động của số lượng tap ở mỗi kênh đối với chất lượng của bộ lọc.
Các microphone và nguồn âm thanh được đặt trong một phòng có kích thước , với các microphone đặt song song với trục như trình bày trong hình bên dưới
Bảng 4.6 : Vị trí của ba nguồn âm thanh
Sound Source Signal Noise Interference
C4 Kết quả mô phỏng 33 Mai Văn Trung
Hình 4.1 : Vị trí của các microphone và nguồn trong không gian Với dấu x là vị trí các nguồn âm thanh.
Mô phỏng bộ lọc Delay and Sum
Bộ lọc Delay and Sum có cấu trúc đơn giản nhưng hiệu quả lọc nhiễu không cao trong môi trường có nhiễu nặng và hiệu ứng đa đường Tuy nhiên, khi gặp nhiễu nền không có hiệu ứng đa đường với góc tới cố định, bộ lọc này hoạt động hiệu quả Khả năng lọc nhiễu của bộ lọc này tăng lên tỉ lệ thuận với số lượng microphone sử dụng, đặc biệt khi nguồn nhiễu có phân bố chuẩn, trung bình bằng 0 và phương sai đơn vị.
Bảng bên dưới mô tả khả năng lọc nhiễu của bộ Delay and Sum trong hai trường hợp
C4 Kết quả mô phỏng 34 Mai Văn Trung
Bảng 4.7 : Bảng so sánh tỉ số tín hiệu trên nhiễu (SNR) của bộ lọc Delay and Sum với 1 nguồn âm thanh và 1 nguồn nhiễu
Hình 4.2 : Dạng sóng của tín hiệu mong muốn, tín hiệu đã bị nhiễu và tín hiệu đã qua xử lý với dải 10 microphone
C4 Kết quả mô phỏng 35 Mai Văn Trung
Hình 4.3 : Dạng sóng của tín hiệu mong muốn, tín hiệu đã bị nhiễu và tín hiệu đã qua xử lý với dải 8 microphone
C4 Kết quả mô phỏng 36 Mai Văn Trung
Hình 4.4 : Dạng sóng của tín hiệu mong muốn, tín hiệu bị nhiễu và tín hiệu đã qua xử lý với 6 microphone
C4 Kết quả mô phỏng 37 Mai Văn Trung
Hình 4.5 : Dạng sóng của tín hiệu mong muốn, tín hiệu bị nhiễu và tín hiệu đã qua xử lý với 4 microphone
Theo bảng 4.7, bộ lọc Delay and Sum cho thấy hiệu quả lọc nhiễu được cải thiện khi số lượng microphone tăng Quan sát các dạng sóng của bốn mô phỏng khác nhau, chúng ta nhận thấy rằng dạng sóng ban đầu đã được phục hồi tương đối giống với hình dạng ban đầu.
Trong phần mô phỏng tiếp theo, chúng ta sẽ áp dụng bộ lọc Delay and Sum để lọc nhiễu và can nhiễu, đồng thời xác định vị trí và hướng của các nguồn âm thanh như được trình bày trong bảng 4.6.
C4 Kết quả mô phỏng 38 Mai Văn Trung
Bảng 4.8 : Kết quả mô phỏng bộ lọc Delay and Sum với 3 nguồn âm thanh : 1 nguồn nhiễu và 1 nguồn can nhiễu
Hình 4.6 : Dạng sóng của tín hiệu mong muốn, tín hiệu bị nhiễu và tín hiệu đã qua xử lý với 10 microphone
C4 Kết quả mô phỏng 39 Mai Văn Trung
Hình 4.7 : Dạng sóng của tín hiệu mong muốn, tín hiệu bị nhiễu và tín hiệu đã xử lý với 8 microphone
C4 Kết quả mô phỏng 40 Mai Văn Trung
Hình 4.8 : Dạng sóng của tín hiệu mong muốn, tín hiệu bị nhiễu và tín hiệu đã qua xử lý với 6 microphone
C4 Kết quả mô phỏng 41 Mai Văn Trung
Hình 4.9 : Dạng sóng của tín hiệu mong muốn, tín hiệu đã bị nhiễu và tín hiệu đã xử lý với 4 microphone
Kết quả từ bảng 4.8 cho thấy rằng việc lọc nhiễu trong bộ lọc Delay and Sum được cải thiện khi số lượng microphone tăng lên, như đã đề cập trong phần 3.4.1 Tuy nhiên, chất lượng của bộ lọc này chủ yếu phụ thuộc vào khả năng thu tín hiệu mong muốn, trong khi khả năng hạn chế nhiễu từ các góc không mong muốn vẫn còn hạn chế Phần tiếp theo sẽ trình bày giải thuật Frost, trong đó thiết kế một bộ lọc với một búp sóng hướng đến tín hiệu mong muốn và một búp sóng hẹp (nullbeam) để giảm thiểu nguồn nhiễu hoặc can nhiễu.
C4 Kết quả mô phỏng 42 Mai Văn Trung
Mô phỏng bộ lọc Frost
Bộ lọc Frost, như đã trình bày trong phần 3.4.2, sử dụng thuật toán thích nghi cực tiểu hóa công suất ngõ ra, đảm bảo đáp ứng không đổi với độ lợi đơn vị cho tín hiệu mong muốn và độ lợi bằng 0 với các góc tới không mong muốn Điều này giúp bộ lọc Frost lọc nhiễu không mong muốn hiệu quả hơn so với phương pháp Delay and Sum, nhờ vào khả năng ngăn chặn nhiễu và can nhiễu từ các nguồn không mong muốn.
Bảng bên dưới trình bày so sánh tỉ số tín hiệu trên nhiễu trong hai trường hợp : 2 nguồn tín hiệu đến và 3 nguồn tín hiệu đến
Bảng 4.9 : Kết quả mô phỏng bộ lọc Frost với hai nguồn âm thanh : 1 nguồn mong muốn và 1 nguồn nhiễu nền
So sánh kết quả ở hai bảng 4.8 và 4.9 cho thấy bộ lọc Frost, nhờ khả năng hạn chế nhiễu với góc đến biết trước, đã cải thiện đáng kể chất lượng Thế mạnh của bộ lọc này là nâng cao công suất tín hiệu mong muốn khi công suất vào thấp, tức tỉ số tín hiệu trên nhiễu thấp Tuy nhiên, để đạt được điều này, bộ lọc Frost gây ra méo dạng tín hiệu mong muốn do quá trình cực tiểu hóa công suất ngõ ra Khuyết điểm này có thể được khắc phục bằng cách thực hiện Over-lapped and Add tín hiệu ngõ vào trước khi đưa vào bộ lọc Việc méo dạng tín hiệu không thể quan sát qua tỉ số tín hiệu trên nhiễu hay dạng sóng, mà chỉ có thể nhận biết thông qua việc nghe thử tín hiệu ngõ ra.
C4 Kết quả mô phỏng 43 Mai Văn Trung
Hình 4.10 : Dạng sóng tín hiệu vào mong muốn, tín hiệu vào đã bị nhiễu và tín hiệu đã qua xử lý với 10 microphone, SNR in = -10 dB
C4 Kết quả mô phỏng 44 Mai Văn Trung
Hình 4.11 : Dạng sóng ngõ vào mong muốn, tín hiệu đã bị nhiễu và tín hiệu đã qua xử lý với 10 microphone, SNR in = 5 dB
C4 Kết quả mô phỏng 45 Mai Văn Trung
Hình 4.12 : Dạng sóng tín hiệu mong muốn, tín hiệu đã bị nhiễu và tín hiệu đã qua xử lý với 6 microphone, SNR in = -10 dB
C4 Kết quả mô phỏng 46 Mai Văn Trung
Hình 4.13 trình bày dạng sóng tín hiệu ngõ vào mong muốn, tín hiệu bị nhiễu và tín hiệu đã qua xử lý từ 4 microphone Trong đó, tỷ lệ tín hiệu trên nhiễu (SNR) là -10 dB và số taps mỗi kênh được đặt là 60.
Bộ lọc Frost có khả năng cải thiện tỉ số tín hiệu trên nhiễu nhờ vào việc tăng số lượng taps tại mỗi kênh Điều này được thể hiện trong bảng dưới đây, trong trường hợp sử dụng 4 microphone với tỉ số tín hiệu trên nhiễu đầu vào.
Bảng 4.10 : So sánh khả năng chống nhiễu của bộ lọc với số lượng taps khác nhau ở mỗi kênh
C4 Kết quả mô phỏng 47 Mai Văn Trung
Mặc dù hệ thống đã cải thiện khả năng lọc nhiễu, nhưng mức độ tăng cường này không đáng kể Việc tăng gấp đôi số lượng taps ở mỗi kênh chủ yếu ảnh hưởng đến khả năng lọc theo tần số Tuy nhiên, do dải tần của nhiễu và tín hiệu mong muốn gần như tương đồng, nên việc tăng số lượng taps không mang lại hiệu quả như mong đợi.
Trong phần tiếp theo, chúng ta sẽ thảo luận về việc lọc nhiễu khi có ba nguồn âm thanh: một nguồn tín hiệu mong muốn, một nguồn nhiễu nền và một nguồn can nhiễu từ cuộc đối thoại giữa hai người Vị trí và hướng của các nguồn âm thanh này được trình bày trong bảng 4.6.
Bảng 4.11 : Kết quả mô phỏng bộ lọc Frost với 1 nguồn mong muốn, 1 nguồn nhiễu và 1 nguồn can nhiễu
Kết quả từ việc nghe thử và quan sát dạng sóng của bộ lọc Delay and Sum và Frost cho thấy rằng nhiễu nền đã được khử ở mức độ nhất định, nhưng can nhiễu vẫn chưa được khử đáng kể Nguyên nhân là do sự khác biệt về bản chất giữa nhiễu nền và can nhiễu, trong đó can nhiễu là tín hiệu thoại có phân bố không đồng đều, dẫn đến hiệu quả hoạt động kém của bộ lọc.
C4 Kết quả mô phỏng 48 Mai Văn Trung
Hình 4.14 : Dạng sóng của tín hiệu mong muốn, tín hiệu bị nhiễu và can nhiễu, tín hiệu sau khi đã xử lý với 10 microphone, SINR in = -10 dB
C4 Kết quả mô phỏng 49 Mai Văn Trung
Hình 4.15 : Dạng sóng của tín hiệu mong muốn, tín hiệu bị nhiễu và can nhiễu, tín hiệu sau khi đã xử lý với 8 microphone, SINR in = -10 dB
Mô phỏng bộ lọc GSC kết hợp nạp đường chéo
Bộ lọc GSC và kỹ thuật nạp đường chéo được trình bày trong các phần 2.2.5, 2.2.6 và 3.4.3 nhằm bù đắp sai lệch trong ước lượng hướng của bộ lọc Kỹ thuật nạp đường chéo (diagonal loading) giúp điều chỉnh ma trận hợp phương sai của tín hiệu thu Cấu trúc GSC (Generalized Sidelobe Canceller) thực chất là một cách hiện thực hóa khác của bộ lọc Frost.
Trong phần mô phỏng này, bộ lọc thực hiện việc lọc với với góc tới nhưng thực tế góc tới sai lệch thành
C4 Kết quả mô phỏng 50 Mai Văn Trung
Bảng 4.12 : So sánh tỉ số tín hiệu trên nhiễu của bộ lọc GSC kết hợp nạp đường chéo
Bảng trên cho thấy rằng bộ lọc có thể cải thiện tỉ số tín hiệu trên nhiễu, đặc biệt khi ước lượng sai hướng Tuy nhiên, mức độ cải thiện này không đáng kể Để đạt được sự cải thiện rõ rệt hơn, cần áp dụng các kỹ thuật tối ưu hóa với các điều kiện ràng buộc phức tạp hơn liên quan đến xác suất thống kê.
Hình 4.16 : Dạng sóng ngõ vào mong muốn, ngõ vào đã bị nhiễu và tín hiệu đã qua xử lý với 4 microphone, SNR in = -5 dB
C4 Kết quả mô phỏng 51 Mai Văn Trung
Hình 4.17 : Dạng sóng ngõ vào mong muốn, ngõ vào bị nhiễu và ngõ ra đã qua xử lý với 10 microphone, SNR in = -5 dB
Bảng 4.13 : So sánh tỉ số tín hiệu trên nhiễu cộng can nhiễu của bộ lọc GSC kết hợp nạp đường chéo
C4 Kết quả mô phỏng 52 Mai Văn Trung
Hình 4.18 : Dạng sóng mong muốn, dạng sóng đã bị nhiễu và dạng sóng ngõ ra đã qua xử lý với 10 microphone, SINR in = -10 dB
Thời gian thực
Do hạn chế kỹ thuật, việc mô tả thời gian thực chỉ có thể xác minh qua đo lường thời gian tính toán của khung dữ liệu trong bộ lọc Delay and Sum hoặc thời gian thích nghi của mẫu tín hiệu trong các bộ lọc khác Thời gian đáp ứng cần thiết để tai người không nhận ra sự đứt quãng là dưới một mức nhất định.
C4 Kết quả mô phỏng 53 Mai Văn Trung
Hình 4.19 : Minh họa thời gian tính toán của các bộ lọc thích nghi
Thời gian tính toán trung bình cho một khung hình rộng 1024 mẫu tín hiệu được lấy mẫu với tần số khoảng, nhằm đảm bảo khoảng thời gian cho phép để tai người không nhận ra sự đứt quãng Tuy nhiên, những tính toán này chỉ mang tính tương đối, vì các yếu tố như sai khác và trễ do nhiễu nhiệt trong hệ thống phần cứng có thể làm gia tăng thời gian tính toán.
C5 Kết luận và hướng phát triển 54 Mai Văn Trung