Tiểu luận môn chuyên nghiệp trong công nghệ CÔNG NGHỆ NHẬN DIỆN GIỌNG nói sử DỤNG NEURAL NETWORK

TỔNG QUAN VỀ CÔNG NGHỆ NHẬN DIỆN GIỌNG NÓI

Công nghệ nhận diện giọng nói là gì?

Nhận dạng giọng nói là khả năng của thiết bị trong việc nhận diện và hiểu các lệnh bằng giọng nói Công nghệ này cho phép thiết bị tương tác và phản hồi lại các yêu cầu từ người dùng một cách hiệu quả.

Lịch sử phát triển của công nghệ nhận diện giọng nói

Trước đây, điều khiển máy móc bằng giọng nói chỉ là tưởng tượng trong khoa học viễn tưởng Tuy nhiên, nhờ sự phát triển nhanh chóng của công nghệ, đặc biệt là trí tuệ nhân tạo (AI), viễn tưởng này đang trở thành hiện thực Những nền tảng mới đã được phát triển để tạo ra giao diện người dùng, cho phép người dùng điều khiển thiết bị công nghệ chỉ bằng giọng nói.

Lịch sử nhận diện giọng nói bắt đầu từ năm 1877 với phát minh của Thomas Edison về máy ghi âm, thiết bị đầu tiên có khả năng ghi lại và tái tạo âm thanh.

Vào năm 1952, công nghệ nhận diện giọng nói đã có bước tiến đáng kể với sự phát triển của thiết bị nhận dạng chữ số tự động mang tên Audrey tại Bell Labs Audrey, với chiều cao 6 feet và nhiều đặc điểm giống tụ điện như bộ khuếch đại và bộ lọc, có khả năng nhận diện 10 chữ số từ một giọng nói duy nhất Mặc dù đạt độ chính xác cao từ 97-99% trong việc nhận diện giọng nói, nhưng do kích thước lớn, chi phí cao và thiết bị điện tử phức tạp, Audrey không thể trở thành sản phẩm thương mại Tuy nhiên, thiết bị này đã đánh dấu sự khởi đầu cho công nghệ nhận diện giọng nói và mở đường cho các nghiên cứu tiếp theo, được coi là thiết bị nhận diện giọng nói đầu tiên.

Năm 1962, máy Shoebox được IBM phát triển, có thể nhận ra 16 từ tiếng anh, 10 chữ số và 6 lệnh số học

Từ năm 1971 đến 1976, Bộ Quốc phòng Mỹ đã đầu tư vào chương trình DARPA SUR (Nghiên cứu hiểu về lời nói), kết quả là sự phát triển của Harpy do Carnegie Mellon tạo ra, có khả năng hiểu 1011 từ.

Vào năm 1984, Công nghệ nhận dạng giọng nói thế hệ đầu tiên đã được giới thiệu bởi SpeechWorks và Nuance thông qua các hệ thống tổng đài trả lời tự động (IVR) Những hệ thống IVR này có khả năng nhận diện giọng nói con người qua cuộc gọi và thực hiện các nhiệm vụ được giao Bất kỳ ai sở hữu điện thoại đều có thể dễ dàng truy cập thông tin như lịch chiếu phim địa phương và nghe các thông tin cần thiết.

Phần 1: Tổng quan về Công nghệ nhận diện giọng nói | 8 giao thông, báo giá cổ phiếu, đặt chuyến bay máy bay, chuyển tiền giữa các tài khoản, đặt mua thuốc theo toa,… Mọi thứ chỉ xoay quanh chiếc điện thoại cầm tay và giọng nói của con người Các hệ thống IVR đã trở thành xu hướng chủ đạo trong những năm 2000 và là một phần chính của các dịch vụ chăm sóc và hỗ trợ khách hàng ngày nay.[1]

Năm 1992, Apple cũng sản xuất hệ thống nhận dạng giọng nói liên tục theo thời gian thực hiện, có thể nhận ra lên đến 20000 từ

Vào năm 2006, Apple đã ra mắt Siri, cho phép người dùng tương tác với sản phẩm bằng giọng nói Năm 2007, Google giới thiệu nghiên cứu hỗ trợ giọng nói, và đến năm 2008, họ gây ấn tượng mạnh với ứng dụng Google Voice Search dành cho iPhone.

Năm 2010, Google ra mắt hệ thống nhận diện giọng nói cá nhân hóa, cho phép các thiết bị Android ghi lại truy vấn giọng nói của người dùng để cải thiện mô hình giọng nói Hệ thống này bao gồm 230 tỷ từ tiếng Anh.

Năm 2011, cuối cùng Siri của Apple đã được triển khai trong Iphone4S, dựa trên điện toán đám mây

Vào năm 2014, Amazon đã ra mắt Amazon Echo, một loa thông minh tích hợp trợ lý ảo Alexa, cho phép kết nối với các ứng dụng di động Để nâng cao trải nghiệm người dùng tại văn phòng, nhà ở hoặc trung tâm mua sắm, các đối thủ lớn như Google và Apple cũng đã giới thiệu sản phẩm của họ là Google Home và Apple Homepod.

Vào năm 2015, Microsoft đã giới thiệu Cortana trên máy tính để bàn và thiết bị di động chạy Windows 10, đánh dấu bước tiến quan trọng trong việc hợp nhất Windows Phone và hệ điều hành máy tính của hãng Sự ra mắt này đã đưa Microsoft trở thành một đối thủ mạnh trong lĩnh vực công nghệ nhận diện giọng nói.

Vào tháng 5 năm 2016, Google đã ra mắt Trợ lý Google (Google Assistant), một trợ lý ảo dành cho thiết bị di động và nhà thông minh, tại hội nghị nhà phát triển Khác với Google Now, Trợ lý Google có khả năng tham gia vào các cuộc trò chuyện hai chiều Trợ lý này được tích hợp vào ứng dụng nhắn tin Google Allo và loa thông minh Google Home.

Từ năm 2017, Google Assistant đã mở rộng hỗ trợ cho nhiều thiết bị, bao gồm xe hơi và thiết bị nhà thông minh Ngoài ra, các nhà phát triển bên thứ ba cũng có thể bổ sung thêm chức năng cho Assistant.

Phần 1: Tổng quan về Công nghệ nhận diện giọng nói | 9

Mô hình vận hành của công nghệ nhận diện giọng nói

Tín hiệu-> Tín hiệu được mã hóa(dạng số)->Xử lý và nhận dạng >Đầu ra

Có hai phương thức phổ biến như sau:

Điện toán đám mây hoạt động bằng cách nhận diện và xử lý ngôn ngữ trên máy chủ của các nhà cung cấp dịch vụ như Google, Facebook, Zalo thông qua kết nối internet Phương pháp này mang lại hiệu quả cao và độ chính xác tốt, tuy nhiên, nó thường chậm hơn và yêu cầu người dùng phải luôn có kết nối internet.

Tích hợp ứng dụng diễn ra nội bộ, giúp tăng tốc độ xử lý và cho phép người dùng sử dụng công nghệ nhận dạng và giả lập giọng nói mà không cần kết nối internet Tuy nhiên, để đảm bảo hiệu suất tối ưu, người dùng cần thường xuyên cập nhật ứng dụng.

Công nghệ nhận diện giọng nói được áp dụng vào ứng dụng nào?

Tốc độ là yếu tố quan trọng khi nói đến việc nhập liệu Thay vì phải tốn thời gian gõ email, soạn thảo văn bản hay đặt lịch hẹn trên điện thoại hoặc máy tính, giờ đây chúng ta có thể sử dụng giọng nói để nhập liệu Phương pháp này không chỉ nhanh chóng và đơn giản mà còn rất thuận tiện và dễ dàng.

Nhận dạng giọng nói không chỉ dừng lại ở việc nhập liệu mà còn được ứng dụng rộng rãi trong hệ thống điều khiển của hệ sinh thái SMARTHOME Công nghệ này cũng đóng vai trò quan trọng trong lĩnh vực trí tuệ nhân tạo (AI), với những ví dụ tiêu biểu như Siri, Google Assistant và Amazon Alexa.

Công nghệ nhận dạng giọng nói được coi là một giải pháp tuyệt vời cho người khiếm thị, giúp họ tiếp cận những tiến bộ công nghệ tương tự như người bình thường, xóa bỏ rào cản do khiếm khuyết về giác quan.

Phần 1: Tổng quan về Công nghệ nhận diện giọng nói | 10

Sự cần thiết của việc phát triển công nghệ nhận diện giọng nói

Công nghệ nhận diện giọng nói đang phát triển nhanh chóng, đáp ứng nhu cầu ngày càng tăng của người dùng Mặc dù đã đạt được nhiều thành tựu, nhưng vẫn còn nhiều hạn chế cần khắc phục Điều này tạo ra thách thức cho các nhà phát triển trong việc nâng cao hiệu suất và độ chính xác của công nghệ nhận diện giọng nói.

Sự gia tăng về số lượng và chất lượng của các hệ thống nhà thông minh, trợ lý ảo và robot sử dụng trí tuệ nhân tạo đang thúc đẩy sự phát triển của công nghệ nhận diện giọng nói Điều này nhằm đáp ứng nhu cầu cải tiến cho các hệ thống thông minh ngày càng phổ biến.

CÔNG NGHỆ NHẬN DIỆN GIỌNG NÓI SỬ DỤNG NEURAL NETWORK 11

Vài nét về Neural Network

Mạng nơ-ron (Neural Network) là hệ thống mô phỏng hoạt động của hệ thần kinh con người, bao gồm một mạng lưới các nút được đặt tại những địa chỉ chung Mỗi nút hoạt động như một đơn vị địa chỉ cơ bản và có khả năng tương tác song song với nhau Sự liên kết này tạo ra những ứng dụng tiềm năng trong các nghiên cứu khoa học.

- Mô hình Toán học biểu diễn cấu trúc hệ thống xử lý thông tin Sinh học với các phần tử tương đối đơn giản

- Các lớp thực thể của các thuật toán đơn giản được xây dựng dưới dạng biểu đồ

Ý tưởng về Mạng Nơ-ron được Warren McCulloch và Walter Pitts giới thiệu vào năm 1943 thông qua một mô hình đơn giản sử dụng mạch điện tử Kể từ đó, nhiều nhà khoa học đã nghiên cứu và phát triển công nghệ này, dẫn đến nhiều thành tựu quan trọng Hiện nay, Mạng Nơ-ron đã trở thành một công nghệ hiện đại, được ứng dụng rộng rãi trong lĩnh vực trí tuệ nhân tạo.

Neural Network nổi bật với khả năng phân loại và mã hóa, giúp tăng cường khả năng chống ồn và nhận diện dữ liệu bị bóp méo Hệ thống này cũng cải thiện khả năng làm việc song song và dự đoán phân loại tiếng ồn thông qua các phép toán tuyến tính Do đó, Neural Network là phương pháp lý tưởng cho nhận diện giọng nói.

Nhận diện giọng nói sử dụng Neural Network

Trong mô hình nhận diện giọng nói, nhiều quá trình cần thiết để đạt được kết quả chính xác, nhưng xử lý và phân loại tín hiệu là yếu tố quan trọng nhất Tiểu luận này sẽ trình bày giải pháp cho vấn đề xử lý và phân loại tín hiệu bằng cách sử dụng Neural Network.

Giải pháp này được thực hiện thông qua việc đánh giá và tạo ra nhiều dự đoán tín hiệu Nếu một dự đoán lệch xa khỏi giá trị trung bình với một mức nhất định, nó sẽ được xem xét kỹ lưỡng.

Phần 2: Công nghệ nhận diện giọng nói sử dụng Neural Network | 12 bị loại bỏ và các giá trị trung bình được tính toán lại Điều này lặp đi lặp lại cho tới khi tìm được một giá trị duy nhất gần với giá trị của dữ liệu nhập vào nhất [3]

Tiểu luận này sẽ khám phá việc áp dụng Mạng Nơ-ron Tái diễn (Recurrent Neural Network), một biến thể của Mạng Nơ-ron, kết nối các nút trong hệ thống thông qua biểu đồ định hướng theo thời gian Phương pháp này cho phép tạo ra trạng thái nội bộ của mạng, từ đó cung cấp khả năng đánh giá theo thời gian hiệu quả.

Recurrent Neutral Network được coi là biện pháp hiện đại và hiệu quả nhất của công nghệ nhận diện giọng nói [7]

Cách thực hiện cho Recurrent Neural Network có thể biểu diễn như sau:

Hình 2.1 Các nút mạng trong Recurrent Neural Network [8]

Trong một mô hình mạng nơ-ron, có N nút đầu vào được ký hiệu là x1, x2, , xn, tương ứng với các trọng số w1, w2, , wn Thông tin từ lớp dữ liệu đầu vào được truyền đến lớp ẩn, trong đó h1 được tính bằng công thức h1 = (x1 * w1) + (x2 * w4) và h2 được tính bằng h2 = (x1 * w2) + (x2 * w3).

Sau đó thông tin tiếp tục được truyền tới lớp gián đoạn thời gian hoặc lớp dữ liệu đầu ra: c 1 = h 1 ; c 2 = h 2 y 1 = (h 1  w 5 ) + (h 2  w 6 )

Dữ liệu sẽ được ghi vào lớp gián đoạn thời gian và các tín hiệu sẽ được xử lý lại Chỉ các tín hiệu từ lớp gián đoạn thời gian sẽ được thêm vào với công thức: h 1 = (x 1 w 1 ) + (x 2 w 4 ) + (c c 1 – w 1 ) + (c c 2 - w 3 ).

Phần 2: Công nghệ nhận diện giọng nói sử dụng Neural Network | 13 h 2 = (x 1 w 2 ) + (x 2 w 3 )+(c c 1 – w 2 ) + (c c 2 – w 4 )

Dữ liệu nhận được lại một lần nữa được gửi tới lớp gián đoạn thời gian và lớp dữ liệu đầu ra c 1 = h 1 ; c 2 = h 2 y 1 = (h 1  w 5 ) + (h 2  w 6 )

Nút dữ liệu chứa trọng số được nhân với dữ liệu nhận được, tạo ra sự thay đổi trong giá trị phản hồi [7]

Các giá trị phản hồi này sau đó được chuyển tới chức năng kích hoạt, chuyển đổi thành văn bản hoặc lệnh kích hoạt cho hệ thống

Khi sử dụng làm lệnh kích hoạt hệ thống, có thể sử dụng hàm số ngưỡng (threshold function,THF) hoặc sigmodal (bao gồm tiếp tuyến hyperbol và hàm logistic) [7]

THF được áp dụng để so sánh một giá trị tổng quát với các ngưỡng xác định Khi giá trị tổng quát lớn hơn ngưỡng, kết quả trả về là 1; nếu không, kết quả sẽ là 0.

Hàm tiếp tuyến hyperbol trả lại kết quả về trong khoảng (-1;1), với công thức: [8] exp(out) − exp(−out) / exp(out) + exp(−out);

Hàm logistic trả kết quả về giá trị trong khoảng (0;1) với công thức: [8]

Trong đó, exp là hàm số mũ cơ số tự nhiên

Khác với các mạng Neural Network truyền thống, Recurrent Neural Network (RNN) sử dụng bộ nhớ ngắn hạn để xử lý các chuỗi dữ liệu đầu vào một cách linh hoạt RNN có cấu trúc đặc biệt với các vòng lặp, cho phép nó ghi nhớ thông tin từ các bước trước đó trong quá trình xử lý dữ liệu.

Hình 2.2 Cấu trúc Recurrent Neural Network [9]

Phần 2: Công nghệ nhận diện giọng nói sử dụng Neural Network | 14

Hệ thống Recurrent Neural Network (RNN) được hình thành từ nhiều bản sao của mạng, cho phép truyền dữ liệu giữa các mạng RNN có khả năng truy xuất các giá trị cũ, điều này rất hữu ích trong nhận diện giọng nói Các vòng lặp trong RNN sử dụng một trong N giá trị đầu vào trước đó thông qua hàm kích hoạt sigmoidal Lớp đầu ra y(t) có cùng kích thước với trọng số w(t), và quá trình học diễn ra thông qua các thuật toán gradient.

2.2.2 Ngôn ngữ lập trình, thư viện luyện tập

Python là một ngôn ngữ lập trình bậc cao, nổi bật với khả năng lập trình hướng đối tượng và kiểu dữ liệu ổn định Đặc biệt, Python không yêu cầu khai báo biến với nhãn, điều này cho phép lập trình viên linh hoạt hơn trong việc sử dụng biến (được gọi là Strong Dynamic Typing).

Trong nhận diện giọng nói, Python được đánh giá là ngôn ngữ lập trình phù hợp nhất bởi nó có các ưu điểm như sau:

- Thuận tiện cho việc giải quyết các bài toán

- Có nhiều các thư viện của bên thứ ba

Khi xây dựng hệ thống nhận diện giọng nói, mạng Neural Network cần xử lý phân loại ở giai đoạn đầu với một thư viện đào tạo lớn để đạt độ chính xác cao Thư viện TIMIT được sử dụng để phân loại tín hiệu giọng nói, cung cấp dữ liệu cần thiết cho việc thu nhận ngữ điệu và phát triển hệ thống nhận diện giọng nói tự động.

Các âm vị sẽ được số hóa với ngưỡng tín hiệu 20kHz, sau đó được sàng lọc qua điều chỉnh 10kHz và đưa về 16kHz Mỗi âm vị sẽ mang một nhãn, đại diện cho mức độ thông tin trung gian giữa âm vị và tín hiệu âm thanh Những âm vị này sẽ là các mẫu ngôn ngữ cho hệ thống mạng học tập và nhận diện giọng nói, được gọi là Mô hình ngôn ngữ Recurrent Neural Network (Khung RNNLM, Recurrent Neural Network Language Model).

Một hàm đánh giá mức độ phù hợp của dự đoán có thể được hình thành như sau:

1 Trọng số được đặt trên vector, gọi là vector trọng số

2 Đánh giá dự đoán bằng quá trình đã đào tạo

Trong quá trình đào tạo, tổng bình phương của sự khác biệt giữa giá trị dự đoán và giá trị mục tiêu thường được sử dụng để đánh giá độ chính xác của dự đoán trên vector trọng số.

3 Để tối ưu hóa hàm đánh giá trên, có thể sử dụng thuật toán tối ưu hóa toàn cầu tùy ý (Arbitrary Methods of Global Optimization) [7]

Một thuật toán hoàn chỉnh có thể được xây dựng từ sơ đồ khối trong hình 2 dưới đây:

Hình 2.3 Sơ đồ khối miêu tả đơn giản thuật toán [7]

Hiệu quả, ưu điểm và hạn chế

2.3.1 Hiệu quả Để chứng minh tính hiệu quả và chính xác của Recurrent Neural Network, trong tiểu luận này dẫn nguồn kết quả khảo sát của Edward James và cộng sự

Trong nghiên cứu của James và cộng sự, độ sâu của lớp ẩn trong mạng Recurrent Neural Network được thay đổi với các mức 20, 42 và 60 Bộ thử nghiệm gồm 20 câu với tổng cộng 81 từ, và có 20 đơn vị đầu ra dựa trên các lớp nhãn Sử dụng phương pháp truyền ngược để tính toán và cập nhật trọng số gradient bằng cách giảm thiểu hàm chi phí Độ chính xác được tính bằng cách lấy trung bình sau 10 lần thử cho mỗi câu, và độ chính xác tổng thể của hệ thống được tính bằng trung bình độ chính xác của tất cả các câu Kết quả độ chính xác cụ thể cho từng cụm từ được trình bày trong bảng 1 và biểu đồ hình 4.

Bảng 2.1 Độ chính xác cụ thể của từng cụm từ thử nghiệm [9]

Hình 2.4 Biểu đồ so sánh độ chính xác giữa các độ sâu của lớp ẩn [9]

Thời gian phản hồi và độ chính xác trung bình của các độ sâu khác nhau được chỉ ra trong bảng dưới đây:

Thông số Độ sâu 20 Độ sâu 42 Độ sâu 60

Thời gian phản hổi (s) 13,41 17.13 22.38 Độ chính xác(%) 83,5 89 86,5

Bảng 2.2 Độ chính xác và thời gian phản hồi [9]

Thời gian phản hồi trong quá trình đào tạo tăng theo độ sâu của lớp ẩn, nhưng độ chính xác chỉ cải thiện đến một ngưỡng nhất định trước khi giảm xuống Hiện tượng này xảy ra do hiện tượng quá khớp (overfitting).

Việc tăng số lượng lớp ẩn có thể cải thiện hiệu suất, nhưng cũng dẫn đến thời gian phản hồi lâu hơn Giải pháp cho vấn đề này là sử dụng các thiết bị phần cứng chuyên dụng.

So với các phương pháp khác, Mạng Nơ-ron Tái diễn (Recurrent Neural Network - RNN) cho thấy sự vượt trội đáng kể Bảng dưới đây trình bày sự so sánh giữa RNN và các phương pháp khác, làm nổi bật những ưu điểm của RNN trong việc xử lý dữ liệu tuần tự.

STT Mô hình áp dụng Độ chính xác(%)

Bảng 2.3 So sánh độ chính xác của các mô hình nhận diện giọng nói [13]

Từ các số liệu trên có thể thấy, Recurrent Neural Network có độ chính xác cao hơn các mô hình nhận diện giọng nói khác

Con người hiểu giọng nói dựa trên ngữ cảnh và suy nghĩ liên tục, vì vậy công nghệ nhận diện giọng nói cần được thiết kế để xử lý trong các ngữ cảnh cụ thể Các hệ thống Neural Network khác không thể giải quyết vấn đề này, trong khi Recurrent Neural Network (RNN) với khả năng tạo ra các vòng lặp thông tin, cung cấp bộ nhớ ngắn hạn, là công cụ hiệu quả để khắc phục vấn đề trên Cấu trúc của vòng lặp trong RNN đã được mô tả chi tiết ở phần 2.2.1.

Trong quá trình hoạt động của các hàm giá trị, hiện tượng triệt tiêu hoặc gia tăng đột biến gradient có thể xảy ra khi phương sai giữa đầu vào và đầu ra quá lớn Điều này dẫn đến sai lệch trong giá trị nhận được hoặc tạo ra các giá trị tràn bộ nhớ và giá trị rác Để khắc phục vấn đề này, một số giải pháp được đề xuất bao gồm khởi tạo trọng lượng hợp lý, sử dụng chức năng kích hoạt không bão hòa và áp dụng đơn vị tuyến tính chỉnh sửa (ReLU).

Giống như các mạng Neural Network khác, Recurrent Neural Network (RNN) yêu cầu một quá trình học tập phức tạp và kéo dài Hơn nữa, RNN gặp khó khăn trong việc xử lý các chuỗi dài nếu sử dụng hàm kích hoạt tanh hoặc ReLU.

TƯƠNG LAI CỦA CÔNG NGHỆ NHẬN DIỆN GIỌNG NÓI

Khắc phục những hạn chế

Như đã đề cập đến ở phần 2, hiện tại RNN đang có những hạn chế mà chúng ta sẽ đề cập đến cách xử lí nó sau đây

Gradient là một khái niệm tương tự như đạo hàm, nhưng khác ở chỗ đạo hàm là giá trị vô hướng còn gradient là một vector Cả hai đều được sử dụng để biểu diễn tốc độ thay đổi của hàm Gradient đóng vai trò quan trọng trong việc tối ưu hóa trọng số trong mạng nơ-ron (neural network).

Có 2 phương pháp cơ bản để hạn chế vấn đề triệt tiêu gradient và gia tăng đột biến gradient:

Gradient Clipping là kỹ thuật điều chỉnh đạo hàm lỗi trong quá trình lan truyền ngược, giúp cắt giảm giá trị đạo hàm đến một ngưỡng nhất định Phương pháp này sử dụng các gradient đã được cắt để cập nhật trọng số, từ đó giảm thiểu nguy cơ mất mát hoặc bùng nổ gradient Việc tính toán lại đạo hàm lỗi không chỉ giúp ổn định quá trình huấn luyện mà còn cải thiện hiệu suất của mô hình.

Hàm đồng nhất f(x) = x là một hàm đặc biệt có thể lặp lại nhiều lần mà không gây ra sự phức tạp, giúp tính toán gradient luôn ổn định Hàm này giữ mọi thứ ổn định bằng cách duy trì các tính toán gần với nó Kiến trúc RNN đồng nhất là một loại RNN với các phương trình kích hoạt sử dụng ReLU và trọng số truy hồi được khởi tạo thành ma trận đơn vị.

Ngoài ra, mô hình LSTM và biến thể GRU của RNN được sử dụng để giải quyết vấn đề gradient, đồng thời giúp rút ngắn thời gian học tập hoặc tăng số chuỗi mà mạng nơ-ron có thể xử lý, tùy thuộc vào yêu cầu công việc.

Phần 3: Tương lai của công nghệ nhận diện giọng nói | 20

3.1.3 LSTM (Long-Short term memory)

LSTM, ngoài khả năng lưu trữ bộ nhớ ngắn hạn, còn cung cấp bộ nhớ dài hạn, điều mà RNN truyền thống thiếu Điều này cho phép LSTM lưu trữ nhiều thông tin hơn trong quá trình xử lý, giúp xử lý nhiều chuỗi dữ liệu và cải thiện khả năng truy xuất, từ đó nâng cao độ chính xác Tuy nhiên, thời gian học tập và xử lý của LSTM thường kéo dài.

Hình 3.1 Ví dụ về một đơn vị LSTM [16]

Là 1 biến thể của LSTM, GRU có cấu trúc có phần đơn giản hơn, sử dụng ít tham số huấn luyện hơn, nhờ đó mà tốc độ xử lí nhanh hơn và tốn ít thời gian học tập hơn.Tuy nhiên, GRU không thể xử lí chuỗi thông tin quá dài và độ chính xác không cao như LSTM [15]

Hình 3.2 Một ví dụ về đơn vị GRU [17]

Định hướng phát triển

3.2.1 Cá nhân hóa trải nghiệm người dùng

Hiện nay, Google Home hỗ trợ tối đa sáu tài khoản người dùng và có khả năng nhận diện giọng nói riêng biệt, cho phép tùy chỉnh nhiều tính năng Người dùng có thể hỏi về lịch trình, thời tiết và thông tin cá nhân, với trợ lý cung cấp dữ liệu cho từng người riêng biệt Ngoài ra, Google Home còn tích hợp các tính năng như biệt danh, địa điểm làm việc, thông tin thanh toán và các tài khoản liên kết như Google Play, Spotify và Netflix Tương tự, Alexa cũng cho phép người dùng tạo cấu hình giọng nói riêng biệt chỉ bằng câu lệnh "học giọng nói của tôi", giúp nhận diện và phục vụ chính xác người dùng Trong tương lai, trợ lý ảo hứa hẹn sẽ mang đến trải nghiệm cá nhân hóa tốt hơn khi khả năng phân biệt giọng nói ngày càng cải thiện.

3.2.2 Áp dụng rộng rãi cho nhiều lĩnh vực, đặc biệt là lĩnh vực y tế

Trong những năm qua, đại dịch Covid-19 đã thúc đẩy sự phát triển mạnh mẽ của công nghệ nhận diện giọng nói, nhờ vào nhu cầu giao tiếp không tiếp xúc Chatbot đã đóng vai trò quan trọng trong việc sàng lọc và phân loại bệnh nhân, trong khi Siri của Apple hỗ trợ người dùng qua các câu hỏi đánh giá COVID-19 của CDC và đề xuất các ứng dụng telehealth Công nghệ AI giọng nói và đàm thoại đã giúp dịch vụ y tế trở nên dễ tiếp cận hơn cho những người không thể rời khỏi nhà trong thời gian dịch bệnh Với những ứng dụng thiết thực và tình hình dịch bệnh phức tạp hiện nay, công nghệ nhận diện giọng nói chắc chắn sẽ tiếp tục được mở rộng và phát triển, bao gồm cả các dự án cho robot và xe tự lái.

Một trong những khác biệt chính giữa công nghệ nhận diện giọng nói và giao tiếp của con người là khả năng thích nghi với ngữ cảnh Con người sử dụng nhiều yếu tố bối cảnh như chủ đề cuộc trò chuyện, thông tin đã được chia sẻ trước đó, tiếng ồn xung quanh và biểu cảm để hiểu nhau tốt hơn Hiện tại, tỷ lệ lỗi Bayes trong nhận dạng giọng nói cho các phát ngôn ngắn (dưới mười giây) vẫn còn cao khi không có ngữ cảnh Để nâng cao khả năng hiểu biết của máy móc về lời nói của con người, việc tích hợp bối cảnh vào quá trình nhận dạng là điều cần thiết.

3.2.4 Độ chính xác tuyệt đối

Theo từng năm, tỷ lệ nhận diện và phản hồi chính xác của các trợ lý ảo đã chứng minh sự tiến bộ rõ rệt của công nghệ nhận diện giọng nói.

Hình 3.3 Khảo sát độ chính xác của các trợ lý ảo năm 2019 [20]

Và mục tiêu của các nhà khoa học là sẽ làm ra một hệ thống nhận diện giọng nói không 1 lỗi trong tương lai.

Công nghệ mới tiềm năng – Spike Neural Networks

Hiện nay, hầu hết các thiết bị sử dụng công nghệ nhận diện giọng nói dựa vào điện toán đám mây, điều này gây ra lo ngại về bảo mật và tốc độ xử lý với lượng dữ liệu lớn Để giải quyết vấn đề này, nhiều nỗ lực đã được thực hiện để phát triển hệ thống nhận diện giọng nói tích hợp, sử dụng tài nguyên trên chính thiết bị để xử lý tín hiệu giọng nói Trong vài năm qua, Spike Neural Networks (SNN), một loại mạng nơ-ron lấy cảm hứng từ não bộ con người, đã thu hút sự chú ý đáng kể trong lĩnh vực này.

Spike Neural Networks được xem là thế hệ thứ ba của mạng nơ ron nhân tạo, với cơ chế xử lý tương tự như hệ thống dây thần kinh tự nhiên.

Hình 3.4 Một ví dụ về SNN [21]

Khác với Mạng Nơ-ron Nhân tạo (ANN), quá trình xử lý thông tin của Mạng Nơ-ron Spike (SNN) mô phỏng cách thức hoạt động của não người, với việc tiêu thụ năng lượng tương ứng với mức độ kích thích Điều này cho phép SNN đạt hiệu suất xử lý cao hơn so với ANN đối với các loại thông tin khác nhau.

SNN rất lý tưởng cho việc đại diện và xử lý các tín hiệu không-thời gian, mang lại tiềm năng lớn cho các nhiệm vụ nhận dạng giọng nói.

Mạng nơ-ron hồi quy (SNN) có khả năng lưu trữ thông tin vượt trội hơn so với các loại mạng nơ-ron khác, cho phép chúng nắm bắt hiệu quả các thông tin dài hạn, đặc biệt hữu ích trong nhận dạng giọng nói.

Tiêu đề	Công Nghệ Nhận Diện Giọng Nói Sử Dụng Neural Network
Tác giả	Nguyễn Quy Thành An, Nguyễn Duy Hùng, Phạm Tường Minh, Trần Đăng Minh Tâm, Nguyễn Công Trình, Vũ Thành Vân
Người hướng dẫn	PGS.TS. Nguyễn Nam Hoàng
Trường học	Đại Học Quốc Gia Hà Nội
Chuyên ngành	Công Nghệ
Thể loại	tiểu luận
Năm xuất bản	2021
Thành phố	Hà Nội

Định dạng
Số trang	66
Dung lượng	1,7 MB