Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt

Sơ lược về tấn công đối kháng

Tấn công đối kháng (adversarial attacks) lần đầu tiên được giới thiệu vào năm 2014 bởi nhóm nghiên cứu trí tuệ nhân tạo của Google, thông qua việc chèn nhiễu vào hình ảnh từ cơ sở dữ liệu ImageNet Kết quả là, hệ thống học máy đã phân loại sai các hình ảnh này, mặc dù nó được xây dựng dựa trên mạng nơ-ron tích chập AlexNet, một trong những mạng CNN nổi bật trong phân loại ảnh.

Quá trình chèn nhiễu vào dữ liệu trước khi đưa vào mô hình học máy và trí tuệ nhân tạo có thể dẫn đến những dự đoán sai lệch, được gọi là tấn công đối kháng Các mẫu dữ liệu bị thay đổi này, hay còn gọi là mẫu đối kháng, đã trở thành chủ đề nghiên cứu quan trọng không chỉ trong lĩnh vực hình ảnh mà còn mở rộng sang âm thanh và văn bản Những phương pháp chèn nhiễu ngày càng tinh vi khiến con người khó nhận diện dữ liệu đã bị thay đổi, trong khi các mô hình học máy lại có khả năng hiểu và thực hiện các lệnh theo mục đích của kẻ tấn công.

Phạm vi và mục tiêu của luận văn

Mục tiêu

Trong nghiên cứu này, chúng tôi phân tích các cuộc tấn công đối kháng nhằm vào các mô hình nhận diện giọng nói tiếng Việt Có hai hướng tấn công chính: tấn công mô hình hộp trắng, nơi kẻ tấn công có quyền truy cập và chỉnh sửa dữ liệu, và tấn công mô hình hộp đen, như Google Assistant và Microsoft Cortana, trong đó kẻ tấn công chỉ có thể gửi dữ liệu và nhận kết quả mà không biết cấu trúc của mô hình.

Nghiên cứu về các cuộc tấn công vào mô hình nhận diện giọng nói tiếng Anh đã được thực hiện nhiều trong giai đoạn 2014-2021, nhưng các nghiên cứu tương tự trên mô hình tiếng Việt còn rất hạn chế Do đó, chúng tôi quyết định phát triển các cuộc tấn công cơ bản trên các mô hình nhận diện giọng nói tiếng Việt hộp trắng Chúng tôi áp dụng phương thức tấn công cơ bản do nhóm nghiên cứu của Google giới thiệu và cải tiến phương pháp này để tăng hiệu quả và tốc độ tấn công Mục tiêu của chúng tôi là xây dựng nền tảng cho các cuộc tấn công đối kháng vào các mô hình chuyển đổi giọng nói thành chữ viết và các mô hình hộp đen trong tiếng Việt.

Phạm vi

Trong nghiên cứu này, chúng tôi tập trung vào một ngữ cảnh tấn công cụ thể, giả định rằng chúng tôi là kẻ tấn công đã truy cập thành công vào một hệ thống trí tuệ nhân tạo Chúng tôi có khả năng xem cấu trúc và thông số của mô hình, cũng như truy cập, tải về và chỉnh sửa dữ liệu huấn luyện Từ đó, chúng tôi xây dựng một mô hình bản sao của mô hình mục tiêu, sử dụng nó để tạo ra các mẫu âm thanh đối kháng từ những mẫu âm thanh mà mô hình gốc đã nhận diện chính xác Các mẫu âm thanh đối kháng này sẽ được gửi đến mô hình gốc để thực hiện quá trình dự đoán, với điều kiện phải đáp ứng hai tiêu chí quan trọng mà chúng tôi đã đặt ra.

1 Các mẫu tấn công phải có ảnh hưởng đến quá trình dự đoán của mô hình Các mẫu tấn công sẽ làm độ chính xác quá trình dự đoán của mô hình giảm đối với các cuộc tấn công không mục tiêu Ngược lại, đối với các cuộc tấn công có mục tiêu do chúng tôi chỉ định, thì các mẫu tấn công phải được dự đoán vào lớp mục tiêu chỉ định ban đầu.

2 Nội dung ban đầu của các mẫu âm thanh gốc ban đầu vẫn sẽ được bảo toàn, không thay đổi Ví dụ, với một mẫu âm thanh gốc có nội dung là “xin chào”, thì mẫu tấn công khi phát ra tai người vẫn nghe là “xin chào” nhưng mô hình lại nhận diện phân loại sai lệch thành “chuyển tiền” và thực hiện giao dịch.

Cấu trúc luận văn

Luận văn bao gồm bảy chương, có bố cục như sau:

Chương 1 của bài viết cung cấp cái nhìn tổng quan về nghiên cứu và phát triển các kỹ thuật tấn công đối kháng trong mô hình nhận diện phân loại giọng nói tiếng Việt Bài viết nêu rõ tầm quan trọng của việc cải tiến các phương pháp nhận diện giọng nói nhằm nâng cao độ chính xác và khả năng chống lại các tấn công Thông qua việc phân tích các kỹ thuật tấn công đối kháng, chương này đặt nền tảng cho các nghiên cứu tiếp theo, đồng thời nhấn mạnh sự cần thiết của việc bảo mật trong công nghệ nhận diện giọng nói.

• Chương 2: Cơ sở lý thuyết nền tảng cho các phương pháp, quá trình thực hiện đề tài.

Chương 3 trình bày các nghiên cứu và phương pháp tiếp cận liên quan đến các cuộc tấn công đối kháng trên các mô hình nhận diện giọng nói, bao gồm cả mô hình hộp trắng và hộp đen Nội dung sẽ tập trung vào việc phân tích các kỹ thuật tấn công, đánh giá hiệu quả và tính bảo mật của các hệ thống nhận diện giọng nói trong bối cảnh an ninh mạng ngày càng gia tăng Thông qua việc tổng hợp các nghiên cứu hiện có, chương này nhằm cung cấp cái nhìn sâu sắc về thách thức và giải pháp trong việc bảo vệ các mô hình nhận diện giọng nói trước các mối đe dọa từ tấn công đối kháng.

Chương 4 và Chương 5 là phần nội dung quan trọng nhất của luận văn, trong đó Chương 4 trình bày phương pháp đề xuất, còn Chương 5 mô tả quá trình hiện thực hóa mô hình.

• Chương 6: Thực nghiệm và đánh giá kết quả từ các cuộc tấn công do chúng tôi thực hiện

• Chương 7:Tổng kết lại toàn bộ quá trình thực hiện, kết quả đạt được,những hạn chế và hướng mở rộng trong tương lai.

Tiền xử lý âm thanh

Âm học

Mô hình trí tuệ nhân tạo, đặc biệt là trong nhận diện và phân loại giọng nói, được xây dựng dựa trên các đặc tính của giác quan con người Mắt xử lý hình ảnh, tai tiếp nhận âm thanh, và miệng phát ra âm thanh để truyền đạt thông tin Để hiểu cách hoạt động của mô hình nhận diện giọng nói, cần nắm vững kiến thức về âm thanh và giọng nói con người, cũng như lý do tại sao mỗi cá nhân có giọng nói khác nhau và khả năng phân biệt âm thanh của tai người Những câu hỏi này cần được phân tích kỹ lưỡng trước khi tìm hiểu sâu về mô hình nhận diện giọng nói.

Giọng nói hình thành thông qua quá trình giao tiếp hàng ngày, trong đó mỗi câu chữ đều được phát ra nhờ luồng hơi từ phổi tạo áp lực lên thanh quản Khi áp lực này tăng, thanh quản mở ra cho không khí thoát ra, và khi áp lực giảm, thanh quản tự động đóng lại Quá trình này lặp đi lặp lại, tạo ra các chu kỳ đóng mở liên tục, tạo ra rung động với tần số cơ bản, hình thành nên sóng âm.

Thanh quản tạo ra các tần số âm cơ bản, nhưng để hình thành giọng nói, cần sự phối hợp của các cơ quan khác như vòm họng, khoang miệng, lưỡi, răng, môi và mũi Những cơ quan này hoạt động như bộ cộng hưởng, tương tự như hộp đàn guitar, với khả năng thay đổi linh hoạt để tạo ra âm thanh đa dạng.

Bộ cộng hưởng có khả năng khuếch đại và triệt tiêu các tần số âm thanh, từ đó tạo ra sóng âm mới Sự linh hoạt trong khả năng thay đổi của bộ cộng hưởng cho phép tạo ra nhiều sóng âm khác nhau, kết hợp lại để hình thành giọng nói.

Hình 2.1 minh họa cơ chế hình thành giọng nói ở con người, trong đó luồng khí từ phổi đi lên thanh quản tạo ra âm thanh với tần số khác nhau Các âm thanh này sau đó được các cơ quan trong cơ thể điều chỉnh như một bộ lọc, biến đổi thành giọng nói mà con người có thể nghe và hiểu.

Nguồn âm + Bộ lọc → Giọng nói con người.

Cơ chế hoạt động của tai liên quan đến việc tiếp nhận âm thanh và giọng nói, được hình thành từ nhiều sóng âm với các tần số khác nhau, thường nằm trong khoảng 20Hz đến 20.000Hz Tai người và các loài động vật hoạt động phi tuyến tính, nghĩa là âm thanh có tần số 20.000Hz không nhất thiết sẽ được nghe to và rõ hơn âm thanh 20Hz gấp 1000 lần Thực tế, tai người rất nhạy cảm với âm thanh tần số thấp nhưng lại kém nhạy cảm với tần số cao.

Âm thanh do con người phát ra là các sóng lan truyền trong môi trường Khi sóng âm tới tai, chúng tác động lên màng nhĩ, khiến màng nhĩ rung động Rung động này được truyền qua ba xương nhỏ là malleus, incus và stapes, đến ốc tai, một bộ phận xoắn và rỗng.

Ốc tai chứa dịch nhầy giúp truyền âm thanh và có các tế bào lông cảm nhận âm thanh Khi có sóng âm, các tế bào lông rung lên và gửi tín hiệu tới não Các tế bào ở đầu ốc tai cứng hơn và nhạy với tần số cao, trong khi các tế bào sâu hơn đáp ứng với tần số thấp Cấu trúc này khiến tai người và động vật nhạy cảm hơn với tần số thấp và kém nhạy với tần số cao Để xử lý giọng nói, cần một cơ chế ánh xạ giữa tín hiệu âm thanh và độ cảm nhận của tai, được thực hiện bởi Mel filterbank.

Biến đổi Fourier rời rạc

Xử lý tín hiệu số, đặc biệt là biến đổi Fourier, là kiến thức thiết yếu khi làm việc với tín hiệu âm thanh Âm thanh được hình thành từ nhiều sóng có tần số khác nhau, nhưng hàm lượng thông tin trong nó không quá lớn Để phân giải một đoạn âm thanh ngắn thành các sóng với tần số và biên độ cụ thể, biến đổi Fourier được sử dụng để chuyển đổi thông tin từ miền thời gian sang miền tần số Biến đổi Fourier có hai dạng chính: biến đổi Fourier liên tục và biến đổi Fourier rời rạc (DFT).

Biến đổi Fourier rời rạc (DFT) là một phép biến đổi quan trọng trong xử lý tín hiệu, nhận đầu vào là một dãy N số phức x0, , xN−1 và chuyển đổi thành chuỗi N số phức X0, , XN−1 thông qua một công thức cụ thể.

Và ta cũng có phép biến đổi Fourier rời rạc ngược (inverse discrete Fourier transform - IDFT) được cho bởi công thức sau x n = 1

Các số phức X k đại diện cho biên độ và pha của tín hiệu vào x n ở các bước sóng khác nhau Việc viết các phương trình dưới dạng số phức với cơ số e được thực hiện nhờ công thức Euler e φi = cosφ + isinφ, giúp biểu diễn các hàm lượng giác dưới dạng lũy thừa số phức một cách dễ dàng hơn Nhờ đó, biên độ và pha ở các bước sóng khác nhau được thể hiện rõ ràng.

• Real(X k ) là giá trị phần thực của X k

• Image(X k ) là giá trị phần ảo của X k

Dựa vào công thức biến đổi Fourier rời rạc phía trên, ta thấy có N số

Để tính giá trị X k, cần thực hiện tổng N số hạng, dẫn đến độ phức tạp thuật toán là O(N²) Để cải thiện độ phức tạp này và rút ngắn thời gian tính toán, thuật toán biến đổi Fourier nhanh (Fast Fourier Transform - FFT) đã được phát triển, giúp giảm độ phức tạp xuống còn O(N log N).

Phương pháp O(NlogN) được đặc biệt chú trọng trong các mô hình nhận diện giọng nói, vì nó đảm bảo thời gian tính toán nhanh chóng trong thời gian thực.

FFT là một thuật toán chia để trị dùng đệ quy để chia bài toán tínhDFT có kích thước hợp sốN =N 1 N 2 Giả thiết N = 2 M vàW N kn =e − 2 N π i kn , ta có

Thay n =2r khi n chẵn và n =2r+1 khi n lẻ vào công thức(2.1) ta được

W N 2kr =e − 2 N π i k2r = e − N/ 2 π i 2 kr =W N kr / 2 , cho nên

Khi đó công thức (2.2) được biểu diễn như sau

DFT của N/2 điểm cho n chẵn và lẻ được ký hiệu lần lượt là X k,0 và X k,1 Bằng cách tiếp tục phân chia các tập mới, chúng ta thu được giải thuật FFT.

Biến đổi Fourier thời gian ngắn

Để khắc phục nhược điểm của phân tích tín hiệu, biến đổi Fourier thời gian ngắn (STFT) ra đời, cho phép phân tích một vùng nhỏ của tín hiệu tại một thời điểm Kỹ thuật này, được gọi là kỹ thuật lấy cửa sổ tín hiệu, thực hiện ánh xạ tín hiệu từ miền thời gian sang các giá trị thuộc cả miền thời gian và tần số.

Để thu được STFT, tín hiệu được nhân với hàm cửa sổ w(t−τ) và sau đó thực hiện biến đổi Fourier trên các cửa sổ này Kết quả là một biến đổi hai chiều STFT(ω,τ).

Để đạt được phân giải thời gian và tần số tốt trong phân tích tín hiệu, chúng ta sử dụng biến đổi Gabor, một dạng của STFT với cửa sổ Gaussian Trong phân tích thoại, STFT thường được áp dụng để tạo ra giản đồ phổ, trong đó cửa sổ Hamming được ưa chuộng hơn do yêu cầu tính toán thấp hơn so với cửa sổ Gaussian.

Biến đổi wavelet

Biến đổi wavelet vượt trội hơn so với STFT nhờ vào khả năng điều chỉnh kích thước cửa sổ linh hoạt Kỹ thuật này cho phép phân tích một đoạn tín hiệu với khoảng thời gian dài để thu thập thông tin tần số thấp chính xác hơn, đồng thời sử dụng khoảng thời gian ngắn để nắm bắt thông tin tần số cao rõ ràng hơn Điều này mang lại khả năng định vị tần số và thời gian tốt hơn cho phân tích Cốt lõi của phép biến đổi wavelet là khả năng thay đổi vị trí và độ giãn nở của sóng trong miền thời gian mà không làm thay đổi hình dạng của nó, dẫn đến việc ánh xạ tín hiệu sang miền thời gian và tỷ lệ thay vì miền thời gian và tần số.

Wavelet mẹ ψ ∈ L 2 (R) là một sóng nhỏ được định vị, có đặc điểm là suy giảm nhanh về không thay vì dao động mãi mãi Thông thường, wavelet này bắt đầu tại thời điểm t = 0 và kết thúc tại t = N Chúng ta có thể xây dựng một họ wavelet {ψ jk : j, k ∈ Z} với j là hệ số dịch chuyển và k là hệ số giãn, được định nghĩa bởi công thức ψ jk (t) = 2^(j/2) ψ(2^j t - k).

Wavelet dịch chuyển ψ 0k (t) bắt đầu từ t = k đến t = k+N, với đồ thị được dịch chuyển sang phải k lần Trong khi đó, wavelet tỷ lệ ψ j0 (t) bắt đầu tại t = 0 và kết thúc tại t = N.2 j, với đồ thị được nén lại 2 j lần.

Wavelet là các hàm cơ sở ψ jk (t) liên tục theo thời gian, đóng vai trò quan trọng trong việc phân tích tín hiệu Tập hợp các hàm này là độc lập tuyến tính, cho phép tạo ra hàm f(t) thông qua biểu thức f(t) = ∞ Σ j,k = −∞ c jk ψ jk (t).

Hình 2.3: So sánh giữa STFT và biến đổi wavelet (nguồn [16])

Biến đổi wavelet liên tục (CWT) là một công cụ mạnh mẽ trong phân tích tín hiệu một chiều f(t), được thực hiện thông qua tích phân với hàm wavelet ψ.

• W là hệ số biến đổi wavelet liên tục của hàm f(t)

• ψ¯ là hàm liên hợp phức của wavelet ψ được gọi là hàm wavelet phân tích

• a là hệ số tỷ lệ (a ∈ R ∗ ), b là hệ số dịch chuyển (b ∈ R) của hàm wavelet ψ.

Khi đó ta có những hệ số wavelet c jk được tính như sau c jk =W ψ (2 −j ,k2 −j ).

Biến đổi wavelet liên tục (CWT) là quá trình tổng hợp tín hiệu trong khoảng thời gian, sử dụng phiên bản tỉ lệ và dịch chuyển của wavelet Quá trình này tạo ra các hệ số wavelet phụ thuộc vào tỉ lệ và vị trí, và bao gồm năm bước chính để thực hiện.

1 Lấy một wavelet và so sánh với khởi đầu của một tín hiệu gốc

2 Tính toán giá trịc, đặc trưng cho tương quan gần của wavelet với đoạn tín hiệu này:c càng lớn, càng có sự tương tự Chính xác hơn, nếu năng lượng của tín hiệu và wavelet là bằng nhau,ccó thể hiểu là hệ số tương quan Kết quả sẽ phụ thuộc vào wavelet mẹ

3 Dịch chuyển wavelet về phía bên phải và lặp lại bước 1 và 2 cho đến khi hết tín hiệu

4 Định tỉ lệ kéo dãn wavelet là lặp lại tự bước 1 đến bước 3

5 Lặp lại các bước từ 1 đến 4 cho mọi tỉ lệ.

Sau khi hoàn thành, chúng ta sẽ thu được các hệ số ở các tỉ lệ khác nhau từ các đoạn khác nhau của tín hiệu Các hệ số này tạo thành kết quả hồi quy của tín hiệu gốc thông qua các wavelet Để trực quan hóa các hệ số, chúng ta có thể tạo đồ thị với trục x thể hiện vị trí tín hiệu theo thời gian, trục y đại diện cho tỉ lệ, và màu sắc tại mỗi điểm (x, y) thể hiện độ lớn của hệ số c Đồ thị này được gọi là Scalogram của biến đổi wavelet liên tục, cho phép hình dung chính xác hình ảnh thời gian và tỉ lệ của tín hiệu.

Đặc trưng âm thanh sử dụng Mel frequency cepstral

Hình 2.4 trình bày các bước cơ bản để trích xuất đặc trưng âm thanh thông qua hệ số cepstral tần số Mel (MFCC), từ đó tạo ra các véc-tơ đặc trưng phục vụ cho quá trình xử lý trong các mô hình học máy.

Pre-emphasis là quá trình cần thiết để tăng cường các tín hiệu âm thanh ở tần số cao, do cấu tạo của thanh quản và các bộ phận phát âm khiến giọng nói của chúng ta có đặc điểm là âm tần số thấp có năng lượng cao, trong khi âm tần số cao lại có năng lượng thấp Mặc dù tần số cao chứa nhiều thông tin về âm vị, nhưng để cải thiện chất lượng âm thanh, việc áp dụng pre-emphasis là rất quan trọng.

Trong nghiên cứu ngôn ngữ tiếng Anh, phương pháp framing được sử dụng để xử lý âm thanh bằng cách trượt một cửa sổ dọc theo tín hiệu, từ đó tạo ra các frame trước khi áp dụng biến đổi Fourier nhanh (FFT) cho từng frame Với tốc độ nói trung bình của con người khoảng 3-4 từ mỗi giây, mỗi từ gồm 3-4 âm, và mỗi âm lại được chia thành 3-4 phần, 1 giây âm thanh sẽ được chia thành 36-40 phần Độ rộng của mỗi frame được chọn khoảng 20-25ms, đủ để bao quát một phần âm thanh, trong khi các frame chồng lên nhau khoảng 10ms để duy trì sự liên tục và thay đổi giữa các nội dung âm thanh.

Việc cắt frame trong quá trình windowing có thể gây ra sự giảm đột ngột giá trị ở hai biên của frame, dẫn đến hiện tượng nhiễu tần số cao khi thực hiện FFT Để khắc phục vấn đề này, cần áp dụng các phương pháp làm mượt bằng cách nhân chập frame với các loại cửa sổ khác nhau.

Sơ đồ quá trình trích xuất đặc trưng âm thanh cho thấy một số loại cửa sổ phổ biến như cửa sổ Hamming và Hanning, có tác dụng giảm dần giá trị biên của frame.

Áp dụng FFT trên từng frame, chúng ta thu được danh sách các giá trị biên độ (magnitude) tương ứng với tần số từ 0 đến N, tạo ra một spectrogram như Hình 2.5 Trong đó, trục x đại diện cho thời gian (thứ tự các frame) và trục y biểu thị dải tần số, với giá trị biên độ tại mỗi tần số được thể hiện bằng màu sắc Qua phân tích spectrogram, ta nhận thấy rằng các tần số thấp thường có biên độ cao, trong khi các tần số cao lại có biên độ thấp.

Hình 2.5: Hình ảnh về spectrogram (nguồn [18])

Bộ lọc Mel là một công cụ quan trọng trong việc mô phỏng cách tai người cảm nhận âm thanh Như đã đề cập, tai người có khả năng cảm nhận tần số một cách phi tuyến tính, với độ nhạy cao ở các tần số thấp và kém nhạy hơn ở các tần số cao Do đó, cần thiết phải có một cơ chế ánh xạ âm thanh tương tự để phản ánh chính xác sự cảm nhận của tai người.

Đầu tiên, chúng ta bình phương các giá trị trong spectrogram để thu được phổ công suất (DFT power spectrum) Tiếp theo, áp dụng bộ lọc thông dải Mel-scale cho từng khoảng tần số, với mỗi bộ lọc tương ứng với một dải tần xác định Giá trị đầu ra từ mỗi bộ lọc phản ánh năng lượng của dải tần số mà nó bao phủ, từ đó tạo ra phổ công suất Mel-scale Đáng lưu ý, các bộ lọc cho dải tần thấp thường có bề rộng hẹp hơn so với các bộ lọc cho dải tần số cao.

Hình 2.6: Quá trình thực hiện các bộ lọc Mel-scale (nguồn [11])

Bộ lọc Mel trả về phổ công suất âm thanh, hay còn gọi là phổ năng lượng Con người ít nhạy cảm với sự thay đổi năng lượng ở tần số cao và nhạy cảm hơn ở tần số thấp, vì vậy việc tính toán log trên phổ công suất theo thang Mel giúp giảm thiểu các biến thể âm thanh không đáng kể, hỗ trợ cho việc nhận diện giọng nói hiệu quả hơn.

IDFT, hay phép biến đổi ngược rời rạc, tương đương với phép biến đổi cosine rời rạc (DCT), một loại phép biến đổi trực giao Về mặt toán học, DCT tạo ra các đặc trưng không có quan hệ, tức là các đặc trưng độc lập hoặc có độ tương quan thấp Trong các thuật toán học máy, việc sử dụng các đặc trưng không có quan hệ thường mang lại hiệu quả cao hơn.

Mô hình Gaussian hỗn hợp

Trong học máy, phân cụm (clustering) là một bài toán học không giám sát nhằm tìm các cụm điểm trong tập dữ liệu có chung đặc điểm Thuật toán k-means là một trong những phương pháp phân cụm phổ biến, hoạt động dựa trên việc lặp đi lặp lại để cập nhật các tham số của từng cụm Cụ thể, k-means tính toán giá trị trung bình của mỗi cụm và khoảng cách của các điểm dữ liệu đến các điểm trung tâm Cuối cùng, các điểm dữ liệu được gán vào cụm gần nhất với điểm trung tâm Quá trình này tiếp tục cho đến khi đạt được tiêu chí hội tụ, chẳng hạn như không còn thay đổi trong phân loại các cụm.

K-means là một phương pháp phân cụm cứng, nghĩa là mỗi điểm dữ liệu chỉ thuộc về một cụm duy nhất Tuy nhiên, phương pháp này không cung cấp giá trị đo lường hay xác suất chính xác để đánh giá mức độ liên kết của một điểm với cụm Để khắc phục hạn chế này, phương pháp phân cụm mềm, như mô hình Gaussian hỗn hợp (GMMs), được sử dụng Mô hình Gaussian hỗn hợp kết hợp nhiều hàm Gaussian, với N là số cụm trong tập dữ liệu ban đầu, và mỗi hàm được xác định bởi một hệ số k trong khoảng {1, , K}.

Gaussian k trong mô hình hỗn hợp, sẽ công thức tổng quát như sau [20]

• Giỏ trị kỡ vọng (giỏ trị trung bỡnh) à k

• Phương sai σ k đối phân loại một biến, hay ma trận hiệp phương sai Σ k đối với phân loại đa biến

• D là số chiều của dữ liệu ban đầu

• Xác suất các điểm cho trước thuộc vào một cụm π k = Số điểm thuộc cụm k

Tổng số điểm dữ liệu ban đầu, với K

Giả sử chúng ta muốn xác định xác suất của một điểm dữ liệu x_n, với n thuộc tập {1, , N} và N là tổng số điểm dữ liệu ban đầu, có thuộc về một phân phối Gaussian k hay không, thì mệnh đề quan trọng cần xem xét là p(z_nk = 1 | x_n).

Biến tiềm ẩn z chỉ nhận hai giá trị: 1 nếu x n thuộc Gaussian k và 0 nếu không Do đó, ta có thể xác định xác suất π k bằng p(z k = 1).

Với Z = {z₁, , zₖ} là tập hợp các biến tiềm ẩn, khi một điểm thuộc một cụm dữ liệu Gaussian, nó không thể đồng thời thuộc về một cụm khác Do đó, giả thiết các giá trị của z xảy ra độc lập, dẫn đến công thức xác suất p(Z) = p(z₁ = 1) * p(z₂ = 1) * * p(zₖ = 1).

Dễ dàng nhận thấy xác xuất của một điểm x n có thuộc Gaussian k hay không lại chính là hàm phân phối xác suất Gaussian p(x n |z k =1) = P(x n |à k ,Σ k ), p(x n | Z ) K

Sử dụng quy tắc Bayes, ta có p(x n ) K

Hàm mục tiêu cho mô hình Gaussian hỗn hợp được biểu diễn bởi công thức X k = 1 π k P(x n |à k ,Σ k ) Hàm này phụ thuộc vào các tham số à k , Σ k , π k đã đề cập trước đó Để tối ưu hóa các tham số này, cần xác định giá trị lớn nhất của mô hình (maximum likelihood) thông qua hàm xác suất tổng hợp của tất cả các điểm dữ liệu x n ban đầu.

Mô hình Markov ẩn 24 2.4 Mô hình mạng tích chập và mô hình long short term memory 27

Mạng tích chập

Mạng nhân tạo (ANN) bao gồm các lớp ẩn hoàn toàn liên kết với nhau, trong đó các nơ-ron đầu vào trả về kết quả riêng lẻ, tạo thành giá trị đầu vào cho các nơ-ron ở các lớp tiếp theo Khi xử lý hình ảnh, ví dụ với hình ảnh màu kích thước 64×64, cần 12288 nút ở lớp đầu vào để biểu thị nội dung của bức ảnh Tuy nhiên, số lượng tham số tăng nhanh chóng khi mạng có nhiều lớp, ảnh hưởng đến độ chính xác dự đoán Hơn nữa, mạng nhân tạo truyền thống không thể nhận diện sự tương tác giữa các vùng điểm ảnh Do đó, mạng tích chập (CNN) được phát triển để khắc phục những hạn chế này.

Tích chập là một quá trình quan trọng trong xử lý hình ảnh, sử dụng hình ảnh đầu vào I(u,v) và ma trận bộ lọc H có kích thước (2r+1)×(2r+1) Phép tích chập tại điểm ảnh (x,y) của hình ảnh I được định nghĩa dựa trên sự kết hợp giữa ma trận bộ lọc và giá trị pixel trong vùng lân cận.

Phép tích chập được thực hiện liên tục trên các điểm ảnh của ảnh I bằng cách dịch chuyển ma trận lọc H qua từng điểm ảnh để tính giá trị Kết quả là một ma trận mới mang các tính chất cục bộ của vùng điểm ảnh, trừu tượng hơn hình ảnh ban đầu Một ma trận lọc có thể được sử dụng để trích xuất đặc trưng của toàn bộ bức ảnh, cho phép các điểm ảnh chia sẻ hệ số với nhau Điều này giúp mô hình giải quyết hai vấn đề lớn của mạng nơ-ron truyền thống: giảm số lượng hệ số và lấy được đặc trưng cục bộ của hình ảnh.

Mạng tích chập (CNN) bao gồm nhiều lớp tích chập chồng lên nhau, sử dụng các hàm kích hoạt phi tuyến như ReLU và tanh để điều chỉnh trọng số trong các nút Khi ma trận hình ảnh đầu vào đi qua từng lớp và các hàm kích hoạt, nó sẽ tạo ra thông tin trừu tượng hơn cho các lớp tiếp theo.

Trong mô hình CNN, hai yếu tố quan trọng cần chú ý là tính bất biến và tính kết hợp Đối với cùng một đối tượng, việc biểu diễn qua các góc độ khác nhau như dịch chuyển, xoay hay co giãn có thể ảnh hưởng đáng kể đến độ chính xác của thuật toán tích chập.

Trong mạng nơ-ron tích chập (CNN), các lớp tổng hợp (pooling layer) được thêm vào để đảm bảo tính bất biến của đối tượng trước các phép biến đổi Những lớp này thường được đặt sau các lớp tích chập nhằm đơn giản hóa thông tin bằng cách lấy các giá trị nổi bật hoặc giá trị trung bình của một vùng Nhờ đó, số lượng nơ-ron có thể giảm, nhưng vẫn giữ được các đặc điểm quan trọng của đối tượng.

Mạng hồi quy

Nhiều loại dữ liệu cần phải được phân tích qua một chuỗi liên tiếp để hiểu rõ thông tin mà chúng mang lại, thay vì chỉ xem xét một thời điểm cụ thể Các dữ liệu này, có tính chất liên quan và thời gian, được gọi là dữ liệu dạng chuỗi, bao gồm video, dữ liệu tim mạch, hoặc thậm chí là văn bản Trong khi CNN không thể xử lý hiệu quả sự ảnh hưởng của các dữ liệu liên tiếp, mô hình HMM truyền thống chỉ sử dụng xác suất liên tục mà không khai thác tốt các đặc trưng của dữ liệu Điều này đã dẫn đến sự phát triển của mạng hồi quy (recurrent neural network), một giải pháp hiệu quả hơn cho việc xử lý dữ liệu dạng chuỗi.

Hình 2.8: Hình ảnh minh họa về RNN (nguồn [22])

Hình 2.8 ta có mạng RNN gồm các thuộc tính quan trọng sau:

• x là dữ liệu đầu vào dạng chuỗi, hoặc dữ liệu theo thời gian

• o là giá trị đầu ra, o t là giá trị đầu ra tại thời điểm t

• V biểu diễn quá trình trao đổi thông tin giữa các thời gian liên tiếp nhau theo một trình tự

Khối h trong mạng nơ-ron hồi tiếp (RNN) là thành phần chính, chứa các hệ số và hàm kích hoạt của mạng Tại thời điểm t, khối h t sẽ tạo ra hai giá trị: giá trị đầu ra o t và một giá trị đầu ra khác được truyền tiếp qua đường giao tiếp V, trở thành đầu vào cùng với x ở thời điểm kế tiếp Tùy thuộc vào từng bài toán cụ thể, sẽ có những loại RNN khác nhau được áp dụng.

Bài toán một-một thường được giải quyết bởi các mạng nơ-ron truyền thống và CNN, trong đó mỗi giá trị đầu vào sẽ tương ứng với một giá trị đầu ra duy nhất.

Bài toán một-nhiều đề cập đến tình huống khi một giá trị đầu vào dẫn đến nhiều giá trị đầu ra Ví dụ điển hình bao gồm việc đánh chú thích cho hình ảnh và chuyển đổi giọng nói thành văn bản.

• Bài toán nhiều-một:bài toán nổi bật là phân loại hành động từ một video.

Bài toán nhiều-nhiều là một khái niệm phổ biến trong xử lý ngôn ngữ tự nhiên, trong đó nhiều giá trị đầu vào tương ứng với nhiều giá trị đầu ra Một ví dụ điển hình của bài toán này là trong lĩnh vực dịch ngôn ngữ, nơi mà một câu có thể được dịch thành nhiều cách khác nhau tùy thuộc vào ngữ cảnh và ngôn ngữ đích.

Hình 2.9: Hình ảnh một khối tại thời điểm t của RNN (nguồn [23])

Hình 2.9 minh họa cấu trúc bên trong của một khối RNN cơ bản, trong đó hàm tanh được áp dụng cho tổng hợp giữa giá trị đầu vào x_t và kết quả từ khối RNN trước đó h_{t-1}.

Với Hình 2.8 và 2.9 ta có

 h 0 =0 h t =f(U ∗x t +W ∗h t−1 ), Với t≥1 và f(x) = tanh(x). Khi đó

Y j = i h W j + 1 ∗(1−h 2 j + 1 ) i và 1−h 2 j + 1

Tiêu đề	Nghiên Cứu Và Phát Triển Một Số Kỹ Thuật Tấn Công Đối Kháng Trong Một Số Mô Hình Nhận Diện Phân Loại Giọng Nói Tiếng Việt
Tác giả	Nguyễn Hữu Hồng Huy
Người hướng dẫn	TS. Nguyễn An Khương, TS. Nguyễn Tiến Thịnh, KS. Nguyễn Văn Thành, KS. Nguyễn Tấn Đức
Trường học	Đại học Bách Khoa
Chuyên ngành	Khoa học Máy tính
Thể loại	Luận văn tốt nghiệp
Năm xuất bản	2021
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	104
Dung lượng	2,11 MB