Multi channel speech enhancement using graph neural networks

MULTI-CHANNEL SPEECH ENHANCEMENT USING GRAPH NEURAL NETWORKS MỤC LỤC • I GIỚI THIỆU • II SƠ LƯỢC VỀ GRAPH • III MƠ HÌNH MẠNG END-TO-END • IV XÂY DỰNG GRAPH • V THIẾT LẬP HUẤN LUYỆN I GIỚI THIỆU • Nâng cao chất lượng giọng nói sử dụng tín hiệu thu từ nhiều micro mơi trường nhiễu vấn đề gần nghiên cứu chủ yếu theo hướng MVDR beamformer (sử dụng mạng neuron học sâu kết hợp với phép lọc không gian – spatial filtering) • Bài báo đưa hướng tiếp cận mới: Coi kênh (micro) nốt (node) đồ thị (graph) sử dụng mạng end-to-end để học tính chất đồ thị II SƠ LƯỢC VỀ GRAPH • V tập nút đồ thị (node) • E tập cạnh đồ thị (edge) • Ma trận kề (Adjacency matrix) kích thước nxn Undirected graph G = (V, E) • Ma trận bậc (Degree matrix) nxn chứa thông tin bậc nút III MƠ HÌNH MẠNG END-TO-END III MƠ HÌNH MẠNG END-TO-END • Loss function tính miền khác phổ biên độ, phổ phức waveform Tổng có hàm loss khác nhau: IV XÂY DỰNG GRAPH • Coi M micro M nút đồ thị, nút liền với N đặc trưng Mỗi nút nối với tất (M-1) nút lại (10 x x 1000 x 161) (10 x 256 x 14 x 1) (10 x 3584) • Mỗi cạnh nối nút Vi Vj đồ thị gán trọng số cách nối tensor đặc trưng nút tổng hợp kết qua hàm phi tuyến (3584)||(3584) mean(7168) weight (Vi,Vj) IV XÂY DỰNG GRAPH • Xây dựng ma trận kề cách chuẩn hóa cho trọng số nút có tổng • Ma trận bậc đồ thị • Dữ liệu sau xây dựng với cấu trúc graph đưa qua lớp GCN có cơng thức: V THIẾT LẬP HUẤN LUYỆN • Sử dụng LibriSpeech dataset bao gồm 1000h (16 kHz) • Tiến hành mơ âm phòng với kiểu theo loại mảng linear, circular and distributed • Với dạng distributed chọn ngẫu nhiên vị trí microphone phịng • Thí nghiệm với M (2-4) microphones bao gồm giọng nói M-1 tín hiệu nhiễu, chọn ngẫu nhiên từ AudioSet phân bố ngẫu nhiên phịng • SNR tín hiệu tổng hợp chọn từ -7.5 – 7.5 dB • Dữ liệu train/ development / test khởi tạo từ 3/2/1 phòng khác 10 THANK YOU ! 11

Định dạng
Số trang	11
Dung lượng	755,14 KB