1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học dữ liệu: Nghiên cứu về phân loại và nhận dạng giọng nói tiếng Việt đa phương ngữ

76 17 1
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Về Phân Loại Và Nhận Dạng Giọng Nói Tiếng Việt Đa Phương Ngữ
Tác giả Đinh Văn Nguyên, Đặng Chí Thành
Người hướng dẫn ThS. Nguyễn Văn Kiệt, ThS. Nguyễn Thành Luôn
Trường học Đại Học Quốc Gia TP. Hồ Chí Minh
Chuyên ngành Cử Nhân Ngành Khoa Học Dữ Liệu
Thể loại Khóa Luận Tốt Nghiệp
Năm xuất bản 2024
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 76
Dung lượng 83,87 MB

Nội dung

LỜI MỞ ĐẦULý do chọn đề tài: Trong bối cảnh hiện nay, với sự phát triển vượt bậc của công nghệ, các ứngdụng về xử lý dit liệu âm thanh nói chung, phân loại và nhận dạng giọng nói nói riê

Trang 1

ĐẠI HỌC QUÓC GIA TP HÒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN

ĐINH VĂN NGUYÊN - 20520657

ĐẶNG CHÍ THÀNH - 20520761

KHÓA LUẬN TÓT NGHIỆP

NGHIÊN CỨU VE PHAN LOẠI VÀ NHAN DẠNG

GIỌNG NÓI TIENG VIỆT ĐA PHƯƠNG NGỮ

A Comprehensive Investigation for Vietnamese Dialects Speech

Recognition and Identification

CU NHAN NGANH KHOA HOC DU LIEU

GIANG VIEN HUONG DAN

ThS Nguyễn Văn Kiệt ThS Nguyễn Thành Luân

TP HÒ CHÍ MINH, 2024

Trang 2

LỜI CẢM ƠN

Chúng tôi xin bày tỏ lòng biết ơn sâu sắc tới khoa Khoa học và Kỹ thuật Thông

tin, trường Đại học Công nghệ Thông tin, DHQG-HCM, nơi đã cung cấp môi trường

học tập lý tưởng, giúp chúng tôi phát triển vững vàng trong suốt quá trình đào tạo.

Đặc biệt, chúng tôi muốn gửi lời cảm ơn chân thành đến ThS Nguyễn Văn Kiệt

và ThS Nguyễn Thành Luân Sự hướng dẫn nhiệt tình, những lời khuyên bổ ích va

các định hướng phát triển từ hai Thầy đã luôn là kim chỉ nam quý báu, giúp nhóm

chúng tôi triển khai và hoàn thành khóa luận một cách thành công

Chúng tôi cũng xin gửi lời cảm ơn đến tất cả quý Thầy, Cô đang công tác tạikhoa Khoa học và Kỹ thuật Thông tin Những kiến thức quý báu mà Thay, Cô đãtruyền đạt không chỉ là hành trang vững chắc cho chúng tôi trong hành trình sắp tới

mà còn là nguồn cảm hứng dồi dao trong suốt quá trình học tập và nghiên cứu

Cuối cùng, không thê không nhắc đến gia đình và bạn bè - những người đã luôn

ở bên cạnh, động viên và đồng hành cùng chúng tôi Sự quan tâm, hỗ trợ là nguồnđộng lực quan trọng giúp nhóm chúng tôi vượt qua mọi khó khan dé hoàn thành khóaluận tốt nghiệp này

Xin chân thành cảm on!

Đinh Văn Nguyên

Đặng Chí Thành

Trang 3

MỤC LỤC

TOM TAT KHÓA LUAN -es< 2s ©Ss£©ss£EssEEssEEsetrseEvseErserssersserssers 1

09)8//967100057 — 2

Chương1 GIỚI THIỆU CHUNG VE PHAN LOẠI PHƯƠNG NGỮ VA

NHAN DẠNG GIỌNG NÓI - 2< 2s<©ss£S+ssEESseE+sEExseEvaetrkseorssersssore 7

1.1 Tổng quan về phân loại phương ngữ s s- 5s <sssessessessesses 7

1.1.1 Phương pháp truyền thống: - 2-2 2 £S£+S£+E£+E£E2E+EzEerrrrxerreee 7

1.1.2 Phương pháp hiện đại - 2c 2+ 322 E 31333 *EESEEetrrrrrrrersrrrerrrree 8

1.2 Tổng quan về nhận dạng giọng nói -s- 5-5 << se sessessessesses 8

1.2.1 Phương pháp truyền thống -¿ 2¿- 2¿©+¿++2£+2E+vEEEerxeerxeerxrer 9

1.2.2 Phương pháp hiện đại - 5c 2c 322333133 E£EESEEEeererrrerrrerrerek 10 1.3 Các thach (ỨCC d- << 5< 2 9 9 99 99.999 999.9998999049889.989409488406968.8 12 1.4 Tính ứng dụng của nghiên CỨU s- << «%4 %4 %4 4545454 59 13 1.5 Phân công thurc lhÏỆH d G5 G 2 2 9 S9 99.9.9990 9809 905806588406968.8 14

Chương2 CÁC CÔNG TRÌNH NGHIÊN CUU LIEN QUAN 15

2.1 Các bộ dữ liệu đa phương ngữ trên thé giới .s s s-s<sesses<e 15

2.2 Các bộ dữ liệu đa phương ngữ trên tiếng Việt -. -s-sscs«e 17

Chương 3 NGỮ ÂM VIỆT NAM -s<-s<ccscssersserseerserrssrrssrrsee 20

3.1 Sơ lược về âm tiết tiếng VIỆC 5-5 scscsessessessessessessessessessssee 20

3.2 Sự khác biệt giữa phương ngữ Bắc Bộ, Trung Bộ và Nam Bộ, 20

Chương 4 BỘ DU LIEU ViMD - 5< 5< 55s sSseEsessetsersessessessee 23

4.1 Định nghĩa bộ dif lIỆU œ- 5< 5 2 3 9 9 9.000 08089186 23

4.2 Quy trình xây dựng bộ dif liỆu 5 <5 5< 5% S455 959919196 234.3 Thong cm 6 26

Trang 4

4.3.1 Thống kê tổng quan ¿- + +56 S£+SE+SE£EE£EEEEEEEEEEEEEEEEEEEEEEEErrrrrrrei 26

4.3.2 Thống kê theo phương ngữ : 2¿ 2 5++2++£E++£x+2EEtzrxrzrxrrrxee 28

4.3.2 Thống kê theo giới tính - 2: + +2+++E++Ex+EE++EEtEE++Exerxrreerxrree 33

4.4 Đánh giá chất lượng bộ dữ liệu -s-s- 5s sessessessessessessessesse 34

4.5 Hạn chế bộ dữ liệu 2s sssss£ssessersEssexsersersserserssrssrrssrsee 35

Chương 5 CÀI ĐẶT, KET QUA VÀ DANH GIÁ .s s- 5 s<se< 36

5.1 Các mô hình sử dung << s< «<< s9 9 9.9 9.09009089669056 36

SLL WaV2VOEC 2.0 a 36 5.1.2 XLSR & XLS-R occ 37

5.1.3 WHSDCT 527777722 72500 OOO LH HH HH ng ng vn 38

5.2 Thiết kế thứ nghiện 2£ 2£ 2£ 5° 2£ s2 s seEsSseEsexsessexsessessessesse 40

5.2.1 Phân loại phương ng - c- c2 322112113 119111211111 EEkrrkrree 40

5.2.2 Nhận dang SiON nỐI 5c 1193189111391 8331 1 91 911 vn nrn 40

5.3 Tiền xử lý dit liệu s° se 2£ ©s£ ©s£Ss£©s£EseEs£EseEseEseEsersessessessessessesse 41

5.3.1 Phan loai phurong 0n 41

5.3.2 Nhan dang SiON 2011 41

5.4 Độ đo đánh giá << << sọ HH TH TH TH TH HH HH 0000000690 g0 42

5.4.1 Phân loại phương ng - - 2c 11x 912v 9 1v HH ng rưy 42 5.4.2 Nhận dạng SiOng TỐI - - G2 111893183111 9311311 11 11 11 rrv rry 42 5.5 Lựa chọn mô hình, cài đặt thử nghiém 5-5555 «55s s59 sses+ 43

b3 i0 i00 án ằ 43 5.5.2 Nhận dạng ØlQnE nỐI - - 2c 2139911839111 183111111111 erre 44

5.6 Kết quả thử nghiệm 5° 5£ 5£ s£s£©s£ sEseSseSeEseEsessexsessessessesse 45

5.6.1 Phan loai phuong nett oo ao 45

Trang 5

5.6.2 j0 3300320 46

5.7 Phân tích lỗi «-s<-s£ss©rteoraeerreeretrrietraetordeerrerorrerrrrorree 49

5.7.1 Phân loại phương ng - 2c 1S 912v 1 1 9v 1v ng ng Hy 49

5.7.2 Nhận dạng SiON TỒỐI - 2 c3 8891183111811 1 1111k krre 55

Chương 6 THẢO LUẬN 5° s<°sevse£+seEvseEveExetxserseetsersssersee 60

5.1 Ảnh hưởng của yếu tố địa lý đến các phương ngữ .s-.5 <- 60

5.2 Hạn chê của mô hình hiện nay đôi với tác vụ nhận dạng giọng nói có yêu

t6 da phuong NET 0 61

Chuong 7 KET LUẬN VÀ HUONG PHAT TRIEN ° -«- 62

TL KKẾC luậnn << 2° 2£ s2 se EseEsE39E3EE325 25 23330350350350250350350350350350550 62

7.2 Hạn chế ế ssốZ2/62.assốẩẩ eo Lo cocec0 0 222 009569569566566568886566565586 63

7.3 Hướng phat trÏỄn 2 << s2 ©s£©s£Es£Es£ESEseEseEseEseEsersetsersersessessesse 64

TÀI LIEU THAM KHAO 2-2-2552 s2ssSsssseExseEsserssersserssersee 65

Trang 6

DANH MỤC HÌNH

Hình 3.1 Cấu tạo của âm tiết tiếng VIiỆt 2-52-5222 2 2122121121221 20

Hình 3.2 Quỹ đạo cao độ của các thanh điệu trong tiếng VIỆ( 20

Hình 4.1 Minh họa thông tin của một mẫu it liệu 2 2- 25252552522 23

Hình 4.2 Quy trình xây dựng bộ dữ liệu . 5 S55 S + ‡+kEeeerseeeesereees 23

Hình 4.3 Phân bố độ dài của mẫu âm thanh trong bộ dữ liệu - - 27

Hình 4.4 Biéu đồ chồng thể hiện sự phân bó dữ liệu trên 63 tỉnh, thành 28

Hình 4.5 Biéu đồ chồng thé hiện sự phân bố dữ liệu trên 3 miền - 29

Hình 4.6 Sự giao thoa về từ vựng giữa 3 miền ¿- 5 cx+xerxerxrreerxee 29

Hình 4.7 Ty trọng giới tinh trong bộ dữ liỆu 55552 +*+<*++++eeeeseereeess 33

Hình 4.8 Sự giao thoa về từ vựng giữa giới tính nam và nữ . : 34 Hình 5.1 Kiến trúc tong quan mô hình wav2vec 2.0, XLSR và XLS-R 38

Hình 5.2 Kiến trúc mô hình Whisper -2¿ 22 + ©++x++£x++£x++zx+zzxzrxerrxee 39

Hình 5.3 Cấu hình thử nghiệm tác vu phân loại phương ngữ - 44

Hình 5.4 Cấu hình thử nghiệm tác vụ nhận dạng giọng NOL . - -‹ +5 44

Hình 5.5 Ma trận nhầm lẫn của thử nghiệm [DI_VN_ 3] -<<<<<+2 51

Hình 5.6 Ma trận nhằm lẫn của thử nghiệm [DI_ North] -«<- 52

Hình 5.7 Ma trận nhằm lẫn của thử nghiệm [DI_ Central] - -«+ << «<2 53

Hình 5.8 Ma trận nhằm lẫn của thử nghiệm [DI_South] . . -<<- 54

Hình 5.9 Ma trận nhằm lẫn của thử nghiệm [DI_VN 63] -2- 5522 55

Hình 5.10 Lỗi phiên âm của các mô hình thể hiện tốt nhất trên 3 thử nghiệm

[SR_North], [SR_ Central] và [SR_ South], - - - << << c* EScS**+++‡£*sS S5 ee 58

Hình 5.11 Sự chênh lệch về chỉ số WER khi tinh chỉnh mô hình trên toàn bộ ngữ liệuViệt Nam so với trên ba tập dữ liệu vùng THIỂN 5G SE kSEEEEEEEEEeEkrrrrkrrkee 59

Trang 7

DANH MỤC BẢNGBảng 1.1 Phân công, quản lý quá trình thực hiện khóa luận - - 14

Bang 2.1 So sánh các bộ dữ liệu nói đa phương ngữ tiếng Việt - 19

Bang 3.1 Từ ngữ vùng miền mang cùng một ý nghĩa - 2 2 2 22522522 22

Bảng 4.1 Thông tin các thuộc tính trong bộ dit liệu . - «+ « «<< «+2 25

Bảng 4.2 Sự khác nhau giữa lời thoại được viết trong ngôn ngữ thông thường và lời

thoai GuOc gan MAAN 8000108 33D 25

Bang 4.3 Thống kê tổng quan về bộ dữ liệu 2-2 2 2 2+£+£++£z+£z+£zzx+ez 27

Bảng 4.4 Danh sách và thống kê ngữ liệu theo từng tỉnh, thành của Việt Nam .30

Bảng 5.1 Kết quả của tác vụ phân loại phương ngữ . . : ¿+©5sz55s+¿ 46

Bang 5.2 Kết quả của tác vụ nhận điện giọng nói - 2 2 2 2+£+£2+££+£z+sz£š 48

Bảng 5.3 Sự cải thiện về khả năng dự đoán trên thử nghiệm [SR_VN_63] đối với các

thử nghiệm CON Ìại - <6 2 E2 1E 1121011191189 1 91 91119 ng 59

Trang 8

DANH MỤC TU VIET TAT

STT Chữ viết tat Chữ viết đầy đủ

1 ASR Automatic Speech Recognition

2 AED Attention-based Encoder-Decoder

3 CNN Convolutional Neural Network

4 CTC Connectionist Temporal Classification

5 DI Dialect Identification

6 DNN Deep Neural Network

7 GMM Gaussian Mixture Model

8 GRU Gated Recurrent Unit

9 HMM Hidden Markov Model

10 LSTM Long Short-Term Memory

11 RNN Recurrent Neural Network

12 SOTA State-of-the-art

13 TDNN Time Delay Neural Network

13 ViMD Vietnamese Multi-Dialect

14 WER Word Error Rate

Trang 9

TÓM TẮT KHÓA LUẬN

Tiếng Việt là ngôn ngữ phong phú, thường được phân thành 3 nhóm phươngngữ chính: Bắc Bộ, Trung Bộ, và Nam Bộ tương ứng với ba miền địa lý Tuy nhiên,

mỗi tỉnh trong các vùng này lại có biến thể phát âm đặc trưng riêng, gây thách thức

và ảnh hưởng đến hiệu suất các hệ thống xử lý giọng nói tiếng Việt Mặc dù một số

bộ dữ liệu giọng nói đã được công bố, nhưng các bộ dữ liệu có yếu tố phương ngữnhìn chung vẫn còn rất khiêm tốn, đa số chỉ tập trung vào 3 nhóm phương ngữ chính.Cho đến nay, chưa có bộ dữ liệu nào tập trung chỉ tiết và có khả năng bao quát đầy

đủ phương ngữ tỉnh tương ứng với 63 tỉnh, thành phố của nước ta

Nhận thay được những điều đó, chúng tôi đã xây dựng và giới thiệu bộ dữ liệugiọng nói tiếng Việt đa phương ngữ (ViMD: Vietnamese Multi-Dialect), bao gồm

các ghi âm và phiên âm tương ứng của tất cả 63 tỉnh thành của nước ta Bộ dữ liệu

này gồm 102,56 giờ âm thanh đến từ gần 19.000 bản ghi với lời thoại tương ứng baogồm hơn 1,2 triệu âm tiết

Đề kiểm chứng chất lượng bộ dữ liệu cũng như tạo điểm chuẩn (benchmarks)cho các nghiên cứu sau này, chúng tôi đã tinh chỉnh các mô hình tiền huấn luyện tiêntiến dé thực hiện hai nhiệm vụ: phân loại phương ngữ và nhận dạng giọng nói Kếtqua cho thấy các mô hình thé hiện kết quả tốt hơn sau khi tinh chỉnh trên bộ dữ liệucủa chúng tôi Tuy nhiên, kết quả của mô hình vẫn còn một số mặt hạn chế gây ra bởi

sự đa dạng của phương ngữ của tiếng Việt Chúng tôi phân tích sâu hơn về kết quảsuy luận hai nội dung Thứ nhất, yếu tố địa lý có tac động đến phương ngữ, đặc biệt

là Trung Bộ và các phương ngữ gần biên Thứ hai, cách tiếp cận của các mô hình tiên

tiên trong nhận dạng giọng nói có yêu tô phương ngữ là chưa tôi ưu về hiệu suât.

Dé có cái nhìn toàn diện hơn, chúng tôi cũng cung cấp các thống kê từ chỉ tiếtđến tông quan, cũng như các hạn chế của bộ dit liệu nói riêng và đề tài nói chung Hyvọng, những đóng góp của chúng tôi sẽ tạo cơ sở cho sự phát triển cho các nghiêncứu sâu hơn về phương ngữ cấp tỉnh, cấp vùng miễn nói riêng và ngôn ngữ tiếng Việt

nói chung.

Trang 10

LỜI MỞ ĐẦU

Lý do chọn đề tài:

Trong bối cảnh hiện nay, với sự phát triển vượt bậc của công nghệ, các ứngdụng về xử lý dit liệu âm thanh nói chung, phân loại và nhận dạng giọng nói nói riêng

đã trở thành một trong những lĩnh vực nghiên cứu và phát triển quan trọng nhằm tối

ưu trải nghiệm cuộc sống của con người Nhiều nghiên cứu phân loại và nhận dạng

âm thanh đã đạt được những thành tựu chưa từng có, làm nền tảng cho các ứng dụng

thực tiễn phát triển mạnh mẽ Các hệ thống phân loại và nhận dạng giọng nói tiên tiến

đã và đang hỗ trợ đa ngôn ngữ, góp phần tạo điều kiện thuận lợi cho việc giao tiếp và

tương tac øg1ữa con người và máy.

Tuy nhiên, hoạt động nghiên cứu và triển khai các ứng dụng phân loại và nhậndạng giọng nói trên dữ liệu tiếng Việt vẫn còn gặp nhiều thách thức, đặc biệt là do sự

đa dạng về phương ngữ Cụ thể, ngôn ngữ tiếng Việt gồm 3 vùng phương ngữ chính:Bắc Bộ, Trung Bộ và Nam Bộ, tuy nhiên mỗi tỉnh, thành phố hay khu vực trong cácvùng này lại có những biến thê phát âm đặc trưng riêng Sự khác biệt này không chỉxuất hiện ở từ vựng mà còn ở ngữ âm, tạo ra những rào cản lớn cho các hệ thống nhậndạng giọng nói, làm giảm độ chính xác của các mô hình và ứng dụng Đồng thời,những khác biệt này gây khó khăn ngay cả cho con người khi giao tiếp với nhau Do

đó, việc nghiên cứu phân loại phương ngữ và nhận dạng giọng nói cho các phương ngữ khác nhau của tiêng Việt là một nhiệm vụ vô cùng cân thiệt.

Nhận thức được những thách thức và nhu cầu thực tế ké trên, chúng tôi tiễn

hành nghiên cứu đề tai PHAN LOẠI VÀ NHAN DẠNG GIỌNG NÓI TIENG

VIỆT ĐA PHƯƠNG NGỮ Đề tài này tạo ra một bộ dữ liệu đa phương ngữ chỉ tiếttrên 63 tỉnh thành của nước ta Tiếp đó, thực hiện thử nghiệm nhằm tìm hiểu sâu hơn

về sự tác động của giọng nói phương ngữ tiếng Việt đến các hệ thống nhận dạng vàphân loại Bên cạnh giải quyết một số hạn chế hiện tại, nghiên cứu này đồng thời góp

phan thúc đây sự phát triển của các ứng dụng công nghệ sử dụng giọng nói tiếng Việt

khác như xác thực người nói, tương tác giữa người - máy và các ứng dụng khác.

Trang 11

Mục tiêu nghiên cứu:

Nhăm xây dựng một nên tảng cho việc nghiên cứu và phát triên các hệ thông xử

lý ngôn ngữ tiếng Việt, nghiên cứu này đặt ra những mục tiêu quan trọng như sau:

*

“Ww

>

+

Xây dựng bộ dữ liệu đa phương ngữ: Xây dựng bộ dữ liệu toàn diện,

chất lượng, bao gồm giọng nói và phiên âm tương ứng từ 63 phương ngữtương ứng với toàn bộ 63 tỉnh, thành phố trên khắp Việt Nam

Thử nghiệm các mô hình: Tiến hành thử nghiệm hai tác vụ bao gồmphân loại phương ngữ và nhận dạng giọng nói trên bộ dữ liệu Cụ thẻ,mỗi mô hình sẽ được đánh giá qua 04 và 05 thử nghiệm lần lượt cho từngtác vụ, đảm bảo kiểm tra toàn diện của mô hình đối với đa dạng phươngngữ và nhóm phương ngữ Từ đó, so sánh kết quả của các mô hình, đồngthời phân tích lỗi và đánh giá tác động thực tế của phương ngữ đến quá

trình nhận dạng và phân loại giọng nói.

Đặt ra vấn đề: Từ những kết quả thu được, chúng tôi sẽ tiến hành phân

tích sâu hơn về phương ngữ và các yếu tố khác ảnh hưởng đến phươngngữ Đồng thời, chúng tôi đặt ra một số thách thức của bộ dữ liệu đối với

các mô hình hiện đại.

Đôi tượng và phạm vi nghiên cứu:

Đối tượng trọng tâm của nghiên cứu là xây dựng một bộ dữ liệu đa phương ngữ

trên tiêng Việt Làm nên tảng cho việc nâng cao hiệu suât của các hệ thông xử lý

giọng nói, đặc biệt trong phân loại phương ngữ và nhận dạng giọng nói tiếng Việt

Về phạm vi nghiên cứu, tuy nhận biết rằng phương ngữ tiếng Việt vô cùng đadạng và phức tạp, có khả năng thay đổi đáng kế ngay cả giữa các khu vực địa lý nhỏtrong cùng một địa phương Song, do những hạn chế về thời gian và nguồn lực, nghiên

cứu này sẽ chỉ tập trung vào 63 phương ngữ tại Việt Nam, tương ứng với 63 tỉnh,

thành phố trên khắp cả nước

Trang 12

Ket quả nghiên cứu:

Nghiên cứu này đã đạt được những kết quả đáng khích lệ, với những đóng góp

quan trọng như sau:

Thử nghiệm các mô hình tiên tiến: Các mô hình tiên tiến đã được tinhchỉnh nhằm thực hiện hai tác vụ phân loại phương ngữ và nhận dạnggiọng nói, đặt ra điểm số chuẩn (benchmarks) cho bộ dữ liệu Nghiêncứu đã phân các lỗi xuất hiện trong quá trình phân loại phương ngữ vànhận dạng giọng nói, từ đó cho thấy ảnh hưởng của phương ngữ và nhómphương ngữ đến hiệu suất của các hệ thống xử lý giọng nói Những phân

tích này không chỉ cung cấp cái nhìn sâu sắc vào sự khác biệt giữa các

phương ngữ Việt Nam, mà còn chỉ ra sự cải thiện đáng kế trong hiệu suấtcủa các mô hình tiên tiến hiện nay trên cả hai tác vụ, đồng thời cũngchứng minh được tính thách thức của bộ dữ liệu đối với các mô hình tiêntiễn hiện nay

Suy đoán và đặt ra vấn đề cho các nghiên cứu tiếp theo: Dựa vào kếtquả thử nghiệm, chúng tôi suy đoán hai nội dung Thứ nhất, đặc điểm địa

lý có ảnh hưởng đến phương ngữ: Vị trí địa lý đặc biệt của miền TrungViệt Nam so với miền Bắc và miền Nam; Các tỉnh có đặc điểm ngôn ngữ

rõ ràng đều ven biển hoặc cận ven biển Thứ hai, chúng tôi đưa ra được

minh chứng cho thấy răng phương pháp tiếp cận bài toán nhận dạng

giọng nói đa phương ngữ của các mô hình tiên tiến được thử nghiệmchưa tối ưu về mặt hiệu suất Từ đó, đặt ra van đề nhằm phát trién nhữngnghiên cứu tiếp theo về ngôn ngữ tiếng Việt nói chung và phương ngữ,

nhóm phương ngữ nói riêng trong tương lai.

Trang 13

Bo cục nội dung:

Nội dung chính của khóa luận này được trình bày qua Ø7 chương, với nội dung

khái quát của mỗi chương như sau:

Chương 2: Các công trình liên quan - Giới thiệu và phân tích các bộ

dữ liệu về phương ngữ đã được xây dựng trên toàn cầu và trong nước

Xem xét và nhận định các mặt hạn chế của những nghiên cứu ổi trước,rút ra kinh nghiệm quan trọng cho việc thiết lập và xây dựng bộ dữ liệugiọng nói phương ngữ tiếng Việt, cung cấp tiền đề vững chắc, chất lượngcho các công việc trong đề tài

Chương 3: Ngữ âm Việt Nam - Tổng hợp các nội dung cơ bản, quantrọng về cấu trúc và các đặc trưng âm tiết tiếng Việt, bao gồm các thànhphần như âm đầu, âm cuối và thanh điệu Đồng thời, trình bày sự đặctrưng của các yếu tô này giữa các phương ngữ khác nhau, thông qua đócung cấp cơ sở cho quá trình đánh giá kết quả và phân tích lỗi

Chương 4: Bộ dữ liệu ViMD - Mô tả chỉ tiết về quy trình xây dựng bộ

dữ liệu đa phương ngữ Từ dữ liệu đó, chúng tôi trực quan các thống kê

từ tông quan cho đến chi tiết về phương ngữ tỉnh, phương ngữ vùng, giớitính Ngoài ra, chúng tôi còn đề cập đến những mặt hạn chế mà bộ dit

liệu gặp phải.

Chương 5: Cài đặt, thử nghiệm và đánh giá — Giới thiệu về các môhình được sử dụng, cách thức thiết kế thử nghiệm cụ thé và phương pháptiền xử lý dữ liệu trên hai tác vụ là Phân loại phương ngữ và Nhận dạnggiọng nói Bên cạnh đó, chúng tôi cũng trình bày chi tiết về độ đo, môhình cụ thé cũng như phân tích các kết quả nồi bật và lỗi trong quá trìnhthử nghiệm nhằm chứng minh sự thách thức cũng như tầm quan trọng

Trang 14

>

2€

+,

của bộ dữ liệu trong việc cải thiện các mô hình tiên tiến Các siêu tham

số của mô hình cũng sẽ được chúng tôi trình bày, nhằm bảo đảm tínhminh bạch va kha năng tai tạo két qua

Chương 6: Thao luận — Một s6 thao luan, suy đoán được tiến hành dựatrên kết quả thu được nhằm tìm hiểu kỹ hơn về các yếu tổ tác động đếnphương ngữ Đồng thời, hạn chế của cách tiếp cận hiện nay đối với tác

vụ nhận dạng giọng nói đa phương ngữ cũng được chúng tôi trình bày.

Chương 7: Kết luận và hướng phát triển - Tổng hợp, đánh giá cácđóng góp của đề tài Nêu ra hạn chế, từ đó đề xuất các hướng phát triển

tiếp theo trong tương lai với mục tiêu tối ưu hiệu suất cho các tác vụ liênquan đến giọng nói tiếng Việt, đặc biệt là tác vụ nhận dạng giọng nói cóyếu tố phương ngữ

Trang 15

Chương 1 GIỚI THIEU CHUNG VE PHAN LOẠI PHƯƠNG NGỮ

VÀ NHAN DẠNG GIỌNG NÓI

1.1 Tổng quan về phân loại phương ngữ

Phương ngữ, hay còn gọi là tiếng địa phương, là một khái niệm quan trọng

trong ngôn ngữ học và xử lý tín hiệu giọng nói Khái niệm này đề cập đến sự khác

biệt trong cách ngữ điệu, từ vựng và cách phát âm giữa các vùng địa lý khác nhau

trong cùng một ngôn ngữ Việc phân loại phương ngữ là quá trình xác định vùng địa

lý hoặc nguồn gốc của một mẫu giọng nói dựa trên các đặc điểm ngôn ngữ và âm

thanh đặc trưng.

Định nghĩa về phân loại phương ngữ có thé được hiểu là quá trình xác định vàphân biệt các phương ngữ khác nhau trong cùng một ngôn ngữ dựa trên các đặc điểm

ngôn ngữ và âm thanh đặc trưng Điều này đóng vai trò quan trọng trong nhiều ứng

dụng như nhận dạng giọng nói, dịch máy

1.1.1 Phương pháp truyền thống:

Trong giai đoạn đầu, các phương pháp cô điền chủ yếu dựa trên việc trích xuất

các đặc trưng âm thanh từ tín hiệu giọng nói MFCCs là một trong những đặc trưng

rất quan trọng, cho phép mô hình hóa các đặc điểm cơ bản của giọng nói như âm sắc,

âm lượng va năng lượng âm thanh Chromagram cung cấp thông tin về sự xuất hiệncủa các thông tin nốt trong tín hiệu, trong khi Zero-crossing và FO liên quan đến tan

số và chu kỳ của sóng âm thanh Các đặc trưng như Spectral centroid và Spectral off mô tả phân bố năng lượng trên miễn tần số Những đặc trưng này được kết hợpvới các mô hình học máy (Machine learning) truyền thống như mô hình Markov ân

roll-(HMM), mô hình hỗn hợp Gaussian (GMM) va máy véc-tơ hỗ trợ (SVM) dé xay

dựng các hệ thống phân loại phương ngữ ban dau

Tiếp theo, với sự phát triển của các mạng nơ-ron nhân tạo (neural networks),một số nghiên cứu đã sử dụng các mô hình mạng nơ-ron như mạng nơ-ron sâu (Deep

Neural Network DNN), mạng nơron tích chap (Convolutional Neural Network

-CNN), mạng nơ-ron hồi quy (Recurrent Neural Network - RNN) hay bộ nhớ dài-ngắn

Trang 16

hạn (Long-Short Term Memory - LSTM) với các đặc trưng âm thanh nêu trên, thậm

chí là các đặc trưng thô (raw features) từ tín hiệu âm thanh Các mạng CNN thường

được sử dụng dé trích xuất các đặc trưng tần số và thời gian từ tín hiệu âm thanh,RNN và LSTM giúp mô hình học được các mẫu dài hạn và phụ thuộc ngữ cảnh trong

dữ liệu Các mô hình DNN sâu hơn cũng được sử dụng dé học các biểu diễn phức tạphơn từ đữ liệu đầu vào Một kiến trúc đáng chú ý là mạng nơ-ron trễ thời gian (TimeDelay Neural Network - TDNN), được ứng dụng thành công trong các hệ thống nhậndạng giọng nói và phân loại phương ngữ TDNN kết hợp các lớp convolution và cáclớp fully-connected, cho phép mô hình học được cả các đặc trưng tần số và thời gian

từ tín hiệu âm thanh.

1.1.2 Phương pháp hiện đại

Gần đây, với sự bùng nỗ của kỹ thuật Attention, rất nhiều mô hình mới đã rađời trong lĩnh vực phân loại phương ngữ Một trong những kiến trúc tiên tiễn là

ECAPA-TDNN (Emphatic Channel-Attention, Propagation, and Aggregation in

TDNN), kết hợp cơ chế Attention với TDNN dé tăng cường khả năng hoc các đặctrưng liên quan đến phương ngữ và giảm thiêu tác động của các đặc trưng không liênquan Cơ chế Attention trong ECAPA-TDNN cho phép mô hình tập trung vào cácđặc trưng quan trọng nhất trong tín hiệu đầu vào, và bỏ qua các đặc trưng ít liên quanđến phương ngữ như tiếng ồn nền hay biến thể giọng nói cá nhân Ngoài ra, các môhình sử dung Attentive Statistic Pooling (ASP) ban đầu được sử dụng dé nhận dangngười nói, chúng có thé tinh chỉnh dé ứng dụng dé phân loại phương ngữ ASP ápdụng Attention trong việc trích xuất và tổng hợp các đặc trưng thống kê từ tín hiệu

âm thanh Các kiến trúc Multi-head Attention cho phép sử dụng nhiều đầu Attention

có thể giúp mô hình ghi nhận thông tin từ nhiều khía cạnh của tín hiệu như ngữ điệu,

ngữ âm, hay ngữ pháp.

1.2 Tổng quan về nhận dạng giọng nói

Ban đầu, lĩnh vực này chủ yếu dựa vào các kỹ thuật xử lý tín hiệu truyền thống,

tập trung vào việc phân tích và xử lý các đặc tính thô của tín hiệu âm thanh Tuy

Trang 17

nhiên, cùng với sự phát triển của công nghệ, các phương pháp mới dựa trên học sâu

đã được áp dụng phổ biến, mang lại hiệu quả đáng kể trong việc cải thiện độ chínhxác và khả năng thích ứng của các hệ thống ASR hiện đại

1.2.1 Phương pháp truyền thống

Trong kiến trúc của các hệ thống nhận dạng giọng nói truyền thống, ba thành phầncốt lõi là mô hình âm thanh, mô hình phát âm, và mô hình ngôn ngữ Mỗi mô hìnhnày có vai trò và chức năng đặc biệt, được huấn luyện một cách độc lập dé đảm bảo

răng chúng có thê xử lý và phân tích các yêu tô riêng biệt của giọng nói.

Mô hình âm thanh: Trong lĩnh vực nhận dạng giọng nói tự động, mô hình

âm thanh đã trải qua nhiều bước phát triển đột phá trong vài thập kỷ qua Trong thờigian dài, HMM phối hợp cùng GMM đã trở thành nền tảng chủ đạo, với khả năngkhai thác mối liên hệ thống kê giữa các đặc trưng âm thanh và âm vị một cách hiệuquả Tuy nhiên, sự bùng nỗ của học sâu đã mở ra một kỷ nguyên mới cho lĩnh vựcnày, với sự thống trị của các mạng nơ-ron sâu Các mô hình DNN này có khả nănghọc những kiến thức phức tạp, trừu tượng từ lượng dữ liệu lớn, khiến chúng trở thành

công cụ lý tưởng cho nhiệm vụ mô hình hóa âm thanh vô cùng phức tạp trong ASR.

Ngoài ra, các phương pháp lai ghép giữa DNN với các mô hình truyền thống cũng đãchứng minh được khả năng nhận dạng ấn tượng của mình, đặc biệt trong việc xử lýcác bộ từ vựng đa dạng Các kiến trúc mạng nơ-ron sâu mới như CNN và RNN khôngngừng được phát triển và cải tiến, từ đó làm phong phú thêm các kỹ thuật mô hình

hóa âm thanh.

Mô hình ngôn ngữ: Đóng vai trò vô cùng quan trọng trong các hệ thống ASR,cung cấp khả năng dự đoán sự xuất hiện của chuỗi từ và liên kết các từ với nhau mộtcách có ý nghĩa Từ lâu, mô hình n-gram đã là công cụ chủ đạo, dựa vào sự xuất hiện

của các từ trước đó trong cùng một chuỗi và phân tích, ước lượng xác suất xuất hiệntiếp theo của một từ Tuy nhiên, phương pháp này chỉ hiệu quả với ngữ liệu hạn chế

và cú pháp đơn giản Với những âm thanh có mối quan hệ phức tạp, nó thường khôngbắt kịp các đặc thù ngôn ngữ, cụ thể như ngữ pháp và ngữ nghĩa Cùng với sự phát

Trang 18

triển của công nghệ và những tiến bộ trong kiến trúc mạng nơ-ron, Transformer, RNN

và các biến thé của chúng như LSTM và GRU đã cung cấp khả năng xử lý tốt hơn

các phụ thuộc dài hạn trong ngữ liệu Không chỉ vậy, các mô hình này còn khai thác

sức mạnh của học sâu, cho phép chúng nắm bắt được các mối quan hệ phức tạp giữacác từ vượt ra ngoài ngữ cảnh trực tiếp Những ưu điểm này đã gia tăng đáng kể khả

năng của mô hình ngôn ngữ trong việc tích hợp liên tục thông tin ngữ cảnh dài hạn

và cung cấp khả năng dự đoán chuỗi từ với độ chính xác cao hơn, đặc biệt là trong

và ngữ cảnh ngữ âm, giúp hệ thống nhận dạng giọng nói có thể xử lý các biến thể

phát âm khác nhau nhằm tạo nên sự chuyên đổi chuẩn xác từ âm thanh sang văn bản.

Một từ điển tốt sẽ bao gồm các quy tắc phát âm cho các từ đa âm, các từ có nhiềucách phát âm và các từ có âm cuối bị ảnh hưởng bởi âm đầu của từ kế tiếp

Tuy nhiên, việc phát trién một hệ thống nhận dạng giọng nói truyền thống với

3 mô hình thành phần kề trên không phải là một quá trình đơn giản; nó đòi hỏi mộtlượng kiến thức chuyên môn sâu rộng và kỹ thuật cao bởi tính chất phức tạp cũngnhư yêu cầu cao về độ chính xác Trong bối cảnh đó, cộng đồng nghiên cứu đã khôngngừng nỗ lực trong việc tìm kiếm các giải pháp tối ưu hóa và đơn giản hóa quá trình

phát triển hệ thống, dẫn đến sự ra đời của các mô hình đầu cuối (end-to-end), một

bước tiễn đáng kể trong lĩnh vực nhận dạng giọng nói

1.2.2 Phương pháp hiện đại

Nhận dạng giọng nói đầu cuối (end-to-end ASR) là một hệ thống tiên tiến,

được thiết kế dé trực tiếp chuyền đổi chuỗi các đặc trưng âm thanh đầu vào thành văn

bản tương ứng mà không cần qua các bước trung gian phức tạp Đối với tác vụ ASR,

các mô hình đâu cuôi này đã mở ra một hướng tiêp cận mới, tôi giản hóa quy trình

10

Trang 19

xử lý va cải thiện tốc độ huấn luyện Các mô hình này chủ yêu được phân thành haidạng chính: mô hình dựa trên CTC (CTC-based) và mô hình dựa trên cơ chế Attention

(Attention-based).

CTC-based: Phương pháp phân loại thời gian kết nối (CTC), được đề xuất

bởi Graves và các cộng sự, đã mang lại một bước đột phá trong lĩnh vực huấn luyện

mô hình cho các hệ thống nhận dạng giọng nói tự động Điểm nổi bật của CTC là khảnăng loại bỏ hoàn toàn nhu cầu về việc căn chỉnh theo khung giữa tín hiệu âm thanh

và phiên âm, một yêu cầu thường gặp trong các mô hình truyền thống Thay vào đó,CTC sử dụng một thuật toán học sâu dé tự động học cách liên kết trực tiếp giữa dữliệu âm thanh đầu vào và văn bản đầu ra mong muốn, từ đó giảm thiểu đáng ké sựphức tạp trong quá trình thiết lập mô hình và cải thiện hiệu quả huấn luyện, đặc biệt

là trong các tình huông có nhiêu biên sô và sự không chắc chăn cao.

Attention-based: Mô hình mã hóa - giải mã dựa trên cơ chế Attention (AED)

là một phương pháp tiên tiến và có ảnh hưởng lớn trong lĩnh vực nhận dạng giọngnói Trái ngược với các phương pháp truyền thong thường yêu cầu việc mô hình hóacác căn chỉnh cụ thể, mô hình AED tận dụng cơ chế Attention dé học hỏi cách thứccăn chỉnh mềm mại, linh hoạt giữa chuỗi âm thanh đầu vào và phiên âm đầu ra Nhờvào khả năng này, mô hình có thé chon lọc và tập trung vào những phan quan trọngcủa đữ liệu đầu vào trong quá trình sinh từng phần tử đầu ra, đáp ứng tốt các tháchthức về độ phức tạp cũng như sự đa dạng của ngôn ngữ trong các ứng dụng thực tế

và cải thiện khả năng xử lý ngôn ngữ tự nhiên Sự linh hoạt và hiệu quả này của mô

hình AED đã khiến nó trở thành một trong những kiến trúc hàng đầu trong lĩnh vực

trí tuệ nhân tao trong những năm gan đây.

Các phương pháp nhận dạng giọng nói đầu cuối, bao gồm CTC-based vàAttention-based, thường biết đến với tên gọi chung là các mô hình Transformer Điểnhình cho mỗi phương pháp, wav2vec 2.0 là một ví dụ xuất sắc của mô hình dựa trênCTC, Whisper đại diện cho các mô hình AED Sự phát triển của những mô hình này

11

Trang 20

đã mở ra những cánh cửa mới trong việc xử lý ngôn ngữ tự nhiên, cung câp khả năng nhận dạng giọng nói chính xác và nhanh chóng.

1.3 Các thách thức

Sự đa dạng của tiếng Việt: Phân loại phương ngữ và nhận dạng giọng nói là

hai nhiệm vụ thách thức trong lĩnh vực xử lý ngôn ngữ tự nhiên, đặc biệt là với ngôn

ngữ tiếng Việt Tiếng Việt được xem là một ngôn ngữ phong phú về phương ngữ, với

sự phong phú, đa dang trong ngữ, từ vựng giữa các vùng miền khác nhau Sự đa dangnày đến từ nhiều yếu tô như lịch sử, địa lý, văn hóa và di cư của các cộng đồng ngườiViệt Việc mô hình có thé năm bắt toàn bộ đặc trưng của tat cả các phương ngữ tiếngViệt là rất khó khăn, đòi hỏi một lượng lớn dữ liệu đại diện cho tất cả các phươngngữ và các kỹ thuật máy học tiên tiến dé xử lý sự phức tạp của ngôn ngữ

Thiếu dữ liệu: Một trong những thách thức lớn nhất trong việc xây dựng các

hệ thông phân loại phương ngữ và nhận dạng giọng nói cho tiếng Việt là thiếu dữ liệuhuấn luyện Tiếng Việt được coi là một ngôn ngữ "low-resource", có nghĩa là có it ditliệu phục vụ cho việc huấn luyện các mô hình Điều này có thé được giải thích bởinhiều lý do như nguồn lực hạn ché cho việc thu thập và phiên âm, gán nhãn dữ liệu,

sự phức tạp của ngôn ngữ, cũng như đa dạng về phương ngữ Bên cạnh đó, đa số các

bộ dữ liệu hiện nay chỉ tập trung vào phân loại phương ngữ theo ba nhóm chính: Bắc

Bộ, Trung Bộ và Nam Bộ Tuy nhiên, trong thực tế, có nhiều phương ngữ khác nhau

trong mỗi nhóm này, và việc phân loại phương ngữ một cách chỉ tiết hơn là rất khókhăn Mỗi tỉnh, thành phố thậm chí có thể có những đặc trưng phương ngữ riêng biệt,gây khó khăn cho việc nhận diện chính xác Tình trạng thiếu dữ liệu này làm cho việcxây dựng các hệ thống hiệu quả trở nên khó khăn hơn, đặc biệt khi các mô hình máyhọc ngày càng phức tạp và đòi hỏi nhiều dữ liệu hon dé đạt được hiệu suất tốt nhất.Việc thu thập dữ liệu đại diện cho tất cả các phương ngữ tiếng Việt cũng là một tháchthức lớn, vì điều này đòi hỏi nguồn lực đáng ké dé thu thập, ghi âm dữ liệu, chuyển

đôi và gan nhãn dữ liệu.

12

Trang 21

1.4 Tính ứng dụng của nghiên cứu

Nhận thấy những thách thức từ sự đa dạng của tiếng Việt và thiếu tài nguyên,chúng tôi quyết định xây dựng bộ dữ liệu ViMD (Vietnamese Multi-Dialect) nhằm

giải quyết các vấn đề nêu trên

Thứ nhất, bộ dữ liệu ViMD bao gồm 63 phương ngữ, đại diện cho toàn bộ 63tỉnh thành của Việt Nam Điều này đảm bảo tính đa dạng và đầy đủ của dữ liệu, chophép các nghiên cứu về phân loại phương ngữ được thực hiện một cách toàn diện Vềquy mô của đữ liệu, ViMD bao gồm 102,56 giờ âm thanh với 19.000 bản ghi âm kèmtheo, bao gồm hon 1,2 triệu âm tiết tiếng Việt Dữ liệu này cung cấp một nguồn tàinguyên chất lượng cho các nghiên cứu về giọng nói tiếng Việt Với lượng dữ liệu nhưvậy, các mô hình nhận dạng giọng nói có thé được tinh chỉnh hoặc huấn luyện dé đạt

hiệu suât cao hơn.

Thứ hai, những suy luận của chúng tôi từ kết quả thử nghiệm cho cung cấpmột cái nhìn mới, sâu sắc hơn về các yếu tố tác động đến phương ngữ trong tiếngViệt Đây có thé là cơ sở cho các nghiên cứu trong các hệ thống ứng dụng công nghệthông tin và xa hơn là nghiên cứu về ngôn ngữ liên quan đến phương ngữ tiếng Việt

Thứ ba, ngoài hai tác vụ chính là phân loại phương ngữ và nhận dạng giọng

nói, bộ đữ liệu ViMD còn cung cấp các thuộc tính bổ sung như thông tin về người

nói, giới tính Những thuộc tính này tạo điều kiện cho các nghiên cứu về nhận dạng

người nói, xác thực người nói, và các ứng dụng liên quan đến xử lý giọng nói như

xác thực danh tính trong các ứng dụng an ninh, thanh toán hoặc cá nhân hóa các tiện ích trong cuộc sông.

Tóm lại, bộ dit liệu ViMD là một bộ dữ liệu chất lượng, đáp ứng nhiều yêucầu về xử lý ngôn ngữ giọng nói tiếng Việt, đặc biệt là phân loại phương ngữ và nhậndạng giọng nói Với dit liệu đầy đủ và đa dang, bao gồm các thuộc tính bổ sung, bộ

dữ liệu này sẽ thúc đây sự phát triển của các ứng dụng và công nghệ mới, giúp giảiquyết các thách thức hiện tại và tạo ra nhiều bước tiến mới cho các nghiên cứu trong

tương lai.

13

Trang 22

1.5 Phân công thực hiện

Sau khi xác định đề tài một cách rõ ràng, chúng tôi tiến hành lên kế hoạch, tô

chức và quản lý thực hiện khóa luận Bên cạnh việc phân công rõ ràng, trong suôt

thời gian thực hiện, chúng tôi liên tục báo cáo tiên độ và xin góp ý từ Giảng viên

hướng dẫn dé hoàn thiện khóa luận một cách tốt nhất Chi tiết về phân công được

trình bày trong bảng

Bảng 1.1 Phân công, quản lý quá trình thực hiện khóa luận.

STT Nội dung Thoi gian Phan công

Theo dõi, báo cáo tiến độ với

1 GVHD 1 — 7/2024

2 Tìm hiệu tông quan đê tài, các công 1/2024

trình liên quan.

3 | Xây dựng bộ dữ liệu 1 — 3/2024

4 | Thiết kế va tiên hành thử nghiệm 3 4/2024

Dinh Văn Nguyên

, - Đặng Chí Thành

5 | Phân tích kết quả thử nghiệm 4/2024

6 | Tổng hợp và viết báo cáo 5 - 6/2024

Trang 23

Chương 2 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

Trong những năm gần đây, các tác vụ xử lý giọng nói, đặc biệt là phân loại vànhận dạng phương ngữ, đã trở thành xu hướng nỗi bật, thu hút sự quan tâm của cộngđồng nghiên cứu trên thế giới Sự gia tăng đáng kể trong số lượng nghiên cứu quantrọng về lĩnh vực này đã được ghi nhận, với mục tiêu nhằm nâng cao hiệu suất củacác hệ thống mô hình hóa Thông thường, các đóng góp tập trung vào hai khía cạnhchính: xây dựng các bộ dit liệu giọng nói phương ngữ và đề xuất các kỹ thuật, phươngpháp tiếp cận mới

Nhiều bộ dữ liệu ngôn ngữ được xây dựng nhằm hỗ trợ các tác vụ phân loại

phương ngữ và nhận dạng giọng nói tự động Những bộ dữ liệu này đóng góp không

nhỏ trong việc thúc đây tiến trình nghiên cứu lĩnh vực này bằng cách cung cấp nhiềunguồn tài nguyên ngôn ngữ đa dạng, phù hợp với nhiều nền tảng ngôn ngữ và phương

ngữ khác nhau Sự phong phú và đa dạng của các bộ dữ liệu này không chỉ giúp cải

thiện đáng kể hiệu suất, mở rộng khả năng các mô hình phân loại phương ngữ vànhận dạng giọng nói mà còn tạo nền móng vững chắc dé phát triển các công nghệmới trong tương lai, góp phần làm giàu thêm lĩnh vực ngôn ngữ học ứng dụng

2.1 Các bộ dữ liệu đa phương ngữ trên thế giới

QASR [1], công bố bởi Mubarak và các cộng sự, là bộ dữ liệu giọng nói vàphiên âm tiếng A Rap quy mô lớn nhất hiện nay, với 2.000 giờ ghi âm từ kênh truyềnhình Aljazeera, tốc độ lay mau là 16kHz Bộ dit liệu nay đặc biệt quan trọng bởi nócung cấp một tập hợp đa dạng các mẫu ghi âm giọng nói theo 5 phương ngữ tiếng ẢRập, là tài nguyên không thé thiếu cho việc phát triển và kiêm nghiệm các hệ thống

phân loại và nhận dạng giọng nói tự động Bên cạnh việc ghi nhận sự đa dạng của

giọng nói phương ngữ và thu thập từ 19.000 người nói, QASR còn bao gồm thông tinliên quan và các đặc điểm ngôn ngữ khác, làm tăng giá trị cho bộ đữ liệu này Tuynhiên, bộ dữ liệu này phản ánh sự mắt cân bằng về tỉ lệ giới tính với 69% mẫu là nam

và 6% mẫu là nữ, các người nói có dưới 20 mẫu âm thanh không được tác giả xác

định giới tính.

15

Trang 24

KeSpeech [2], phát triển bởi Tang Zhiyuan và cộng sự, là một bộ dit liệu vềgiọng nói quy mô lớn khác với 1.542 giờ ghi âm, bao gồm tiếng Quan Thoại chuẩn

và tám phương ngữ con của nó, với dữ liệu thu thập từ 27.237 người sống tại 34 thànhphố khác nhau Bộ dữ liệu này đặc biệt giá trị cho nhiều tác vụ như phân loại, nhậndiện người nói hay xác định phương ngữ Một ưu điểm nổi bật của KeSpeech là việcghi âm song song giọng Quan Thoại chuan và các phương ngữ cụ thé trong quá trìnhxây dựng bộ dữ liệu, mở ra những hướng ứng dụng mới như chuyền đổi giọng nói

theo phương ngữ Bộ dit liệu có sự phân bố giới tính khá chênh lệch ở các giới tính

với 17.498 nam và 9.739 nữ.

STT4SG-350 [3] là một bộ di liệu quan trong trong việc phát triển công nghệ

xử lý giọng nói cho các phương ngữ của tiếng Đức chuẩn Thụy Sĩ (Swiss German).Đây là một trong những bộ dữ liệu phong phú và toàn diện nhất trong lĩnh vực này,bao gồm 343 giờ ghi âm đến từ 316 người, trải rộng trên 7 phương ngữ khác nhau.Phiên âm của bộ dữ liệu chứa 217.687 câu và có kích thước từ vựng lên đến 42.980

từ Đặc biệt, STT4SG-350 được chú thích và gán nhãn dựa trên ngữ pháp tiếng Đứcchuẩn, giúp giải quyết thách thức của từng phương ngữ Bên cạnh đó, bộ dữ liệu nàycòn duy trì được sự cân băng giới tính với 51% người nói là nữ và 49% là nam, cung

cấp nguồn tài nguyên lớn và chất lượng, thúc đây công nghệ xử lý giọng nói tiếng

Đức chuẩn Thụy Sĩ một cách toàn diện và hiệu quả.

Thai Dialect Corpus [4], một tài nguyên quan trong cho các nghiên cứu vềnhận dạng giọng nói và phân loại phương ngữ tiếng Thái Dữ liệu này bao gồmkhoảng 840 giờ ghi âm: Thai-central với 700 giờ của tiếng Thái chính (main Thai

dialect); Thai-dialect bao gồm ba phương ngữ của tiếng Thái bao gồm Khummuang,

Korat và Pattani được ghi âm từ những người địa phương đến từ ba vùng tương ứng

là Bắc, Đông Bắc và Nam Thái Lan, mỗi phương ngữ bao gồm khoảng 40 giờ ditliệu Tuy nhiên, tương tự như phần lớn các bộ dữ liệu khác, bộ dữ liệu này gặp phải

sự mat cân bằng giới tính đáng kẻ, với tỷ lệ 80% nam và 20% nữ

16

Trang 25

2.2 Các bộ dữ liệu đa phương ngữ trên tiếng Việt

Tại Việt Nam, nhiều bộ ngữ liệu phong phú đã được công bố nhằm hỗ trợ các

tác vụ xử lý giọng nói, chăng hạn như VIVOS [5], bộ dữ liệu của [6],

VinBigdata-VLSP2020!, FPT Open Speech Dataset (FOSD)’ Tuy nhiên, trong số đó, rất ít bộ dữliệu tập trung đến yếu tố phương ngữ vùng miễn, đặt ra một thách thức lớn cho các

tác vụ xử lý giọng nói đa phương ngữ.

VNSpeechCorpus [7], được xuất bản vào năm 2004, một trong những bộ dữ

liệu đầu tiên về phương ngữ trên tiếng Việt Bộ đữ liệu này bao phủ ba phương ngữ

chính của Việt Nam, tuy nhiên các ghi âm chỉ được thực hiện giới hạn ở 04 tỉnh: Hà

Nội đại diện cho phương ngữ miền Bắc; Nghệ An, Hà Tĩnh đại diện cho phương ngữmiền Trung; và Thành phố Hồ Chí Minh biểu trưng cho phương ngữ miền Nam Vềtổng quát, VNSpeechCorpus bao gồm 100 giờ đữ liệu âm thanh kiểu đọc, được ghi

âm trong môi trường yên tĩnh với sự tham gia của 50 người Phiên âm của bộ dữ liệu

chứa khoảng 10 triệu câu Trong dé tài này, tác giả không thử nghiệm phân loạiphương ngữ hay nhận dang giọng nói nhưng tác giả đã thiết kế một từ điển từ vựng

và phiên âm chất lượng Quyên truy cập bộ đữ liệu này là hạn chế

VDSPEC [8], được xuất bản vào năm 2016 với tổng thời lượng 45,12 giờ.Tương tự VNSpeechCorpus, bộ dữ liệu này bao gồm ba phương ngữ chính của Việt

Nam, đại diện cho đặc trưng về phương ngữ của ba miễn Tuy nhiên, khác với bộ

VNSpeechCorpus, đối với miền Trung, các tác giả sử dụng giọng nói của thành phốHuế làm đại diện Mỗi phương ngữ được ghi âm bởi 50 người chia đều cho cả nam

và nữ, mỗi người đọc 25 câu với thời lượng khoảng 10 giây/câu Các văn bản được

thu thập từ các tài liệu về lĩnh vực điện tử (electronic documents), đảm bảo sự cânđối về dấu thanh, với số lượng từ vựng cần đọc cho mỗi thanh là đồng đều Tác giả

sử dụng bộ dữ liệu này dé thực hiện tác vụ phân loại phương ngữ dựa trên mô hình

! https://v]sp.org.vn/resources

? https://data.mendeley.com/datasets/k9sxg2twv4/4

17

Trang 26

LDA và GMM Mặc dù đây là bộ dữ liệu rất chất lượng, nhưng cũng giống như

VNSpeechCorpus, VDSPEC không được công khai.

ViASR [9], một bộ dữ liệu giọng nói được công bố vào năm 2023 với kích

thước 32 giờ âm thanh và cũng chỉ bao gồm ba phương ngữ chính của Việt Nam Dữliệu được thu thập từ các nguồn công khai trực tuyến, tập trung vào các chủ đề liênquan đến tài chính Bộ dit liệu bao gồm 4.276 bản ghi được chuyên đổi từ các videotin tức lớn của Việt Nam với độ dài trung bình của bản ghi khoảng 26 giây và số

lượng từ trung bình của bản ghi là khoảng 90 từ Tác giả thực hiện sử dụng các mô

hình tiên tiến như Whisper [10], Wav2vec 2.0 [11] va MMS [12] dé thuc hién nhan

dang giọng nói trên bộ đữ liệu này Bộ dữ liệu này chưa được công khai?.

LSVSC [13] được xuất bản vào năm 2024 Bộ dữ liệu bao gồm 100,5 giờ giọngnói với phong cách tự nhiên, tác giả chia dữ liệu thành năm phương ngữ: Bắc Bộ,Trung Bộ, Nam Bộ, Tây Nguyên và các phương ngữ của nhóm dân tộc thiểu số Tuynhiên, ty trọng các phương ngữ có sự chênh lệch đáng kề, với phương ngữ miền Bắcchiếm đến 88,1% bộ dữ liệu LSVSC chứa tông cộng gần 57.000 bản ghi Bộ dữ liệucũng đã chia các bản ghi thành 10 chủ đề, tuy nhiên các chủ đề vẫn còn sự chênh lệch

lớn khi chủ đề tin tức (News) chiếm đến 78,9% Sau khi xây dựng bộ dữ liệu, tác giả

đã cài đặt LAS [14] và mô hình Speech-Transformer [15] trong tác vụ nhận dạng

giọng nói Đặc biệt, bộ dữ liệu này đã được công bó rong rãi

Nhìn chung, tất cả các bộ sưu tập văn bản nói tiếng Việt đã nói trên chỉ phânloại các phương ngữ thành các nhóm khu vực Do đó, việc phân chia chỉ tiết hơn

những nhóm này thành các phương ngữ tỉnh thành nhỏ hơn là một nhiệm vụ vô cùng

thách thức Hơn nữa, một số tập dir liệu này có quy mô khiêm tốn, không được côngkhai hoặc có sự mat cân bang giữa các phương ngữ, gây trở ngại cho sự phát triển

nghiên cứu về các phương ngữ tiếng Việt Điều này thúc đây chúng tôi xây dựng một

bộ dữ liệu giải quyết những thiếu sót này, với tong thời lượng là 102,56 giờ, đại diện

3 Truy cập lần cuối vào ngày 21 tháng 4 năm 2024.

18

Trang 27

khá cân bằng cho các phương ngữ từ nhiều thuộc tính khác nhau Điều quan trọngnhất, ViMD bao gồm tat cả 63 phương ngữ tỉnh thành của tiếng Việt và từ nhữngphương ngữ này, chúng ta có thê tổ chức thành 3 phương ngữ vùng miền hoặc bất kỳ

nhóm phương ngữ nào khác dựa trên mục đích của nghiên cứu Bang 2.1 trình bày sự

so sánh của các bộ dữ liệu nói tiếng Việt đa phương ngữ

Bang 2.1 So sánh các bộ dit liệu nói đa phương ngữ tiếng Việt

` À k Phan loai Nhan

Tên bộ dữ liệu Phong Thúy Quyền S0 Trợ ~ phuong dang

cach luong truy cap phương ngữ = n Fe

ngữ giọng nói

VNSpeechCorpus Doc 100 giờ Hạn chế 3

VDSPEC Đọc 45,12 giờ Hạn chế 3 v

ViASR Tự nhiên 32 giờ Hạn chế 3 v

LSVSC Tu nhién 100,5 giờ | Công khai 5 v

_ViMD | Tếnhiên | 102/36 giờ | Công khái 3/63 v v

(của chúng tdi)

19

Trang 28

Chương 3 NGỮ ÂM VIỆT NAM

3.1 Sơ lược về âm tiết tiếng Việt

Tiếng Việt là một ngôn ngữ đơn âm tự đặc trưng bởi cấu trúc vần và thanh điệuphức tạp Cấu trúc của một âm tiết tiếng Việt bao gồm ba thành phần chính (xemHình 3.1): phụ âm đầu (Initial), vần (Final), và thanh điệu (Tone) Vần lại được chiathành ba yêu tố nhỏ hơn: nguyên âm đầu (Onset), nguyên âm chính (Nucleus), và phụ

âm cuối (Coda) [16] Những phan in đậm và tô xám: Thanh điệu, Nguyên âm chính

là những thành phan bắt buộc có dé cấu thành nên âm tiết tiếng Việt

Tiếng Việt có tất cả sáu thanh điệu khác nhau: thanh ngang, thanh sắc, thanhhuyền, thanh hỏi, thanh ngã và thanh nặng Khi kết hợp với các âm tiết, từng thanhđiệu sẽ mang một ý nghĩa riêng biệt Sự khác biệt về quỹ đạo cao độ của các thanh

điệu [17] được minh họa trong Hình 3.2.

Thanh điệu

Vân

Phu âm dau =

-Nguyên âm đâu | -Nguyên âm chính Phụ âm cuoi

Hình 3.1 Cau tạo của âm tiết tiếng Việt

5 Khong bang

Quỹ dao cao độ Bang

-Gap khúc Không gap khúc

Cao Thanh ngang Thanh ngã Thanh sắc

Thấp Thanh huyền Thanh hỏi Thanh nặng

Hình 3.2 Quỹ đạo cao độ của các thanh điệu trong tiếng Việt

3.2 Sự khác biệt giữa phương ngữ Bắc Bộ, Trung Bộ và Nam Bộ

Ngôn ngữ Việt Nam được phân chia thành ba phương ngữ chính, bao gồmphương ngữ Bắc Bộ, Trung Bộ và Nam Bộ [17, 18, 19], tương ứng với ba miền địa

lý là miền Bắc, miền Trung và miền Nam Mỗi phương ngữ đều có những đặc trưng

riêng biệt trong cách phát âm và sử dụng thanh điệu.

20

Trang 29

Trong phụ âm dau, phương ngữ miền Bắc sử dụng 20 phụ âm, phương ngữmiền Nam có 21 phụ âm, và phương ngữ miền Trung đa dạng nhất với 23 phụ âmđầu Điều dang chú ý khác là sự khác biệt trong sự đa dạng thanh điệu giữa cácphương ngữ: Phương ngữ miền Bắc có đầy đủ 6 thanh điệu khác nhau; trong khiphương ngữ miền Trung chỉ có 5 thanh điệu, thanh ngã được phát âm gần giống vớithanh nặng, thậm chí, một số địa phương như Nghệ An chỉ có 3 hoặc 4 thanh điệutrong cách phát âm; Phương ngữ miền Nam cũng chỉ có 5 thanh điệu, với thanh hỏi

và thanh ngã được phát âm giống nhau Về phu âm cuối, tiếng Bắc có 10 phụ âm

cuối, tiếng Trung có 10 phụ âm cuối, và tiếng Nam chỉ có 8 phụ âm cuối Cách phát

âm nguyên âm cũng có sự khác biệt giữa các phương ngữ, tuy nhiên chúng tuân theo

ngữ cảnh và từng từ cụ thể [17]

Những thay đôi trong cách phát âm, đặc biệt là phát âm sai so với chuẩn mực,

có khả năng dẫn đến hiéu lầm và truyền đạt thông tin không chính xác Ở miền Bắc,

một số vùng có cách phát âm nhằm lẫn giữa nhau đối với phụ âm đầu "1" và "n" [20].

Chăng hạn, từ "lầm" (sai lầm) có thể được phát âm thành "nằm" (thuật ngữ chỉ phầnthịt vú của một số động vật) Một đại diện của phương ngữ Trung bộ là Quảng Nam,lại có sự thay đổi khi nguyên âm 'a' được phát âm thành 'o' [21], ví dụ như từ "tám"

(số tám) được phát âm thành "tóm" (bắt) Ở miền Nam, người ta thường phát âm

giống nhau giữa phụ âm cuối 'm' và 'ng' [13], như từ "lươn" (con lươn) và "lương"(tiền lương) Sự khác biệt trong phát âm không chỉ tồn tại giữa các phương ngữ vùng

mà còn xuất hiện giữa các phương ngữ tinh trong cùng một miễn Ví dụ, trong giọngmiền Trung, các tinh Bắc Trung Bộ phát âm chữ 'gi' là [z], trong khi một số tinh NamTrung Bộ, điển hình là Quang Nam, lai phát âm là [/] Hơn nữa, trong một tỉnh cũng

có sự khác biệt về phát âm Chang han, ở tỉnh Nghệ An, cách phát âm từ "bat lửa" cóthé khác nhau giữa các huyện [22]

Ngoài việc một từ có nhiêu cách phát âm, các vùng miên khác nhau còn có

những từ ngữ riêng biệt để diễn đạt cùng một ý nghĩa Bảng 3.1 mô tả một số từ ngữkhác nhau giữa các vùng miền nhưng lại mang cùng một ý nghĩa [23, 24]

21

Trang 30

Bảng 3.1 Từ ngữ vùng miền mang cùng một ý nghĩa.

Phương ngữ Bắc Bộ Phương Ngữ Trung Bộ | Phương ngữ Nam Bộ

bó, thầy bọ ba, tía

u, mẹ mé, bam, ma ma, me

chúng tui bay tui tui tui

may mi may

gi chi gi

dau thé mô rứa đâu vậy

nào răng sao

22

Trang 31

Chương 4 BỘ DỮ LIỆU ViMD

4.1 Định nghĩa bộ dữ liệu

Qua các nghiên cứu về các bộ dữ liệu trong và ngoài nước Chúng tôi tiến hànhxây dựng bộ dữ liệu bao gồm âm thanh và lời thoại tương ứng Ngoài ra, các bản ghicòn có thêm các thuộc tính khác như mã người nói (mỗi người sẽ mang một mã khác

nhau), giới tính của người nói và độ dài cua bản ghi Hình 4.1 minh họa thông tin của một bản ghi trong bộ dữ liệu.

Chúng tôi giả định người sinh sống tại địa phương nào sẽ nói phương ngữ tạiđịa phương đó Do đó, đữ liệu âm thanh của người dân trên bản tin của Đài truyền

hình phát thanh của địa phương sẽ đại diện cho phương ngữ tỉnh, thành.

4.2 Quy trình xây dựng bộ dữ liệu

Quy trình xây dựng của chúng tôi được mô tả như Hình 4.2, gồm 5 bước: Thuthập đoạn phim (video), Trích xuất âm thanh, Phiên âm âm thanh, Đánh giá chất

lượng phiên âm và Chia dữ liệu thành các tập con.

£ THU THẬP VIDEO À/“ TRÍCHXUẤT ì i PHIEN AM Noy ĐÁNH GIA \ /ˆ PHANCHIA y

p ị ÂM THANH Ẳ ' ÂM THANH ¡ — CHẤTLƯỢNG ì DỮ LIỆU y

¬ h ‘ mm h '

1 h ‘ ' ot h

rot Người gan nhãn ' Người gán nhãn i 4 it l Tổng hi ủ

Video rot Pea hee) ! ' (Nhóm A) Loi thoai ' ' Tinh toán WER ng hợp '

› h Pr

" an H ‘ ES mm ot h ' ' H = it rot ) H

\ h h

tot h NgbbiebisininrbinninnbinininibininininbisiniiENG h ot h

¬ i “

" h

Đài PTTH rol Am thanh ' | Tập dữ liệu con Người gán nhãn Lời thoại In Các tập dữ liệu ,

tot § (20% mẫu) (Nhóm B) ° h nhỏ hơn 4

1 1 i h

tot h h tot ' h

/

Hình 4.2 Quy trình xây dựng bộ dữ liệu.

23

Trang 32

Thu thập video: Bộ dữ liệu về giọng nói được chúng tôi xây dựng bao gồm 63tinh thành trên Việt Nam và thời lượng mỗi tỉnh là xấp xi bằng nhau, do đó chúng tôicần tìm một nguồn dữ liệu dồi dào và mang tính ôn định đối với tat cả các địa phương.

Vì vậy, chúng tôi quyết định lấy dữ liệu từ các thước phim (thời sự, phóng sự, chuyênmục ) của kênh (channel) đài truyền hình phát thanh các tỉnh trên nền tảng YouTubehoặc website Đài phát thanh và truyền hình của tỉnh Chúng tôi sử dụng ngôn ngữ lậptrình Python với sự hỗ trợ của một số thư viện như: pytube*, beautifulsoup4Ÿ và

selenium’ cho quá trình tải xuông những video này.

Trích xuất âm thanh: Trong các thước phim mà chúng tôi thu thập, khi phỏngvan người dân, thước phim sẽ chiếu hình ảnh của người dân đó Chúng tôi tận dụngđiều này dé cắt các đoạn âm thanh có người dân ra một cách nhanh chóng hon so với

việc nghe âm thanh truyền thống Công việc được hỗ trợ bởi Label Studio [25] Công

cụ này cho phép người dùng dé dang tạo ra các khu vực cắt trực quan trên video bang

cách sử dụng chuột hoặc giao diện cảm ứng, g1úp tối ưu nguồn lực trong quá trình

xây dựng bộ dữ liệu Đề đảm bảo chất lượng, các đoạn âm thanh tương ứng với đoạnphim sau khi tách phải đảm bảo 4 yêu tố sau: (1) Mỗi đoạn âm thanh chỉ chứa giọng

một người nói; (2) Không chứa giọng của biên tập viên, phát thanh viên, do giọng

của họ có xu hướng phô thông, ít mang tính đặc trưng phương ngữ; (3) Không có bảnghi nào dai quá 30 giây; (4) Thời lượng âm thanh của mỗi người không quá 180 giây.

Sau đó, các đoạn phim sẽ được chuyên từ định dạng mp4 sang định dạng wav.Tốc độ lấy mẫu (sample rate) được giữ nguyên, không chuẩn hóa về một sample ratenhất định Sau đó, mỗi mẫu âm thanh sẽ được gán thêm các thuộc tính khác Chỉ tiết

thông tin các thuộc tính này được trình bày ở Bảng 4.1 Tên tỉnh, Mã tỉnh được quy

ước theo mã biển số xe được quy định bởi Thông tư 58/2020/TT-BCA’ tại Bảng 4.4

Trang 33

Bảng 4.1 Thông tin các thuộc tính trong bộ dữ liệu.

Tên thuộc tính Mô tả

‘set’ Tap dữ liệu của audio với các giá tri là ‘train’, ‘valid’ hoặc ‘test’

‘filename’ Tén cua ban ghi ;

Cú pháp: <Mã tinh>_<So thứ tự>.wav

‘text’ Lời thoại cua ban ghi đó.

‘length’ D6 dai cua ban ghi.

‘province’ Phuong ngữ tinh của bản ghi.

‘region’ Phương ngữ miền của bản ghi.

SpeakerID' củ nhân, coh Ma tah «Số thứ tu>.wav

‘gender’ Giới tinh Gia tri 0 là giới tính nữ, giá tri | là giới tính nam.

Phiên âm âm thanh: Chúng tôi tuyên chọn 10 người gan nhãn (nhóm A), đảmbảo có quê quán đến từ 3 miền của Việt Nam Việc gán nhãn được tiễn hành bán tựđộng, bao gồm 2 giai đoạn Đầu tiên, chúng tôi sử dụng API của AssemblyAI® dé tạolời thoại cho dit liệu âm thanh Sau đó, nhóm A chỉnh sửa lỗi sai của bản phiên âm

dé hoàn thiện lời thoại chính xác Một số tiêu chi cũng được quy định nhăm đảm bảochất lượng lời thoại: (1) Các chữ số phải được chuyền thành dạng chữ; (2) Đơn vị đođược phiên âm đầy đủ theo dạng chữ, không viết tắt; (3) Các từ vựng mang đặc trưngphương ngữ được giữ nguyên, không chuyền về từ vựng phô thông Bảng 4.2 là một

ví dụ về việc phiên âm bản ghi theo 3 quy tắc bên trên Màu xanh lá cây, xanh dương

và đỏ lần lượt thê hiện quy tắc (1), (2), (3)

Bảng 4.2 Sự khác nhau giữa lời thoại được viết trong ngôn ngữ thông thường và lời

thoại được gán nhãn.

Cách viết thông thường | Chúng tôi đã làm được trên 50 ha lúa

Lời thoại Chúng tui đã man được trên năm chục héc ta lúa

8 https://www.assemblyai.com/

25

Trang 34

Đánh giá chất lượng phiên âm: Chúng tôi tuyển chọn thêm 2 người gán nhãn(nhóm B), đảm bảo 2 người này không nằm trong số 10 người đã gán nhãn ở nhóm

A Nhóm B sẽ được gán nhãn ngẫu nhiên 20% số lượng bản ghi Sau đó, độ đo tỉ lệlỗi từ (WER) được tính toán giữa hai nhóm này Lời thoại của nhóm A chỉ được chấpnhận khi WER dưới 8%, nếu không thỏa yêu cầu, người gán nhãn ở nhóm A sẽ gán

lại toàn bộ phương ngữ của tỉnh đó.

Phân chia dữ liệu: Chúng tôi chia tập dữ liệu thành 3 tập con: Tập huấn luyện,tập phát triển và tập đánh giá với tỉ lệ 8:1:1 dựa trên 3 tiêu chí: Thời lượng, tỉ lệ giớitính và sự duy nhất của người nói (có nghĩa là mỗi người nói chỉ xuất hiện ở một tập

giờ ghi âm, với gần 18.949 bản ghi thu thập từ 12.955 người nói Các lời thoại đi kèm

bản ghi bao gồm 1.239.167 từ, với tập từ vựng là 5.155 từ duy nhất Số lượng từ cũngtương ứng với các đơn vị âm tiết do đặc điểm của tiếng Việt là ngôn ngữ đơn âm tiết.Tập dữ liệu được chia thành tập huấn luyện, kiểm định và kiểm tra theo ty lệ 8:1:1,

tương ứng với 81,43 giờ, 10,26 giờ và 10,87 giờ Ngoài ra, tỷ lệ này cũng được áp

dụng cho số bản ghi, người nói và từ giữa 3 tập dữ liệu Mặc dù tỷ lệ chênh lệch làkhá lớn, số từ vựng duy nhất trong tập kiểm định (2.660 từ duy nhất) và tập kiểm tra(2.723 từ duy nhất) không khác biệt đáng ké so với tập huấn luyện (4.813 từ duynhất) Điều này chứng duy trì được sự đa dạng về từ vựng giữa các tập dữ liệu Đốivol thống kê theo từng phương ngữ tỉnh, ngoại trừ có sự mắt cân bằng nhẹ về số lượng

26

Trang 35

người nói, các thuộc tính còn lại - thời lượng, số bản ghi, từ và từ duy nhất - đều có

sự cân bang Các thống kê được trình bày ở Bảng 4.3

Bang 4.3 Thống kê tong quan về bộ dữ liệu

Theo từng phương ngữ tỉnh Theo tập dữ liệu 2

Tong

Nhỏ | Lớn | Trung | Độlệch| Huấn | Phát | Kiểm | cộng

nhât nhât bình chuân luyện trién thir

Hình 4.3 minh hoa phân bố thời lượng của các ban ghi, cho thấy da số các bản

ghi có thời lượng khoảng từ 10 đến 30 giây Thời lượng âm thanh trung bình là 19,5

giây, với độ lệch chuẩn là 6,2 giây

Số lượng

Hình 4.3 Phân bố độ dài của mẫu âm thanh trong bộ dữ liệu

27

Trang 36

4.3.2 Thống kê theo phương ngữ.

Quan sát Hình 4.4, chúng ta thấy được bức tranh về thời lượng âm thanh trên

63 phương ngữ tỉnh ở Việt Nam Ở đáy là phần màu xanh dương thể hiện thời lượng

dữ liệu âm thanh của nam giới, phần phía trên màu xanh là thời lượng âm thanh của

nữ giới Kèm theo đó là hai đường biểu thị số lượng người nói nam (màu xanh đương)

và nữ (màu cam) Mặc dù tổng thời lượng khá đồng đều giữa các tỉnh, nhưng có sự

chênh lệch đáng kê vê thời lượng và sô người nói nam và nữ.

Khi so sánh ba miền Bắc, Trung, Nam trong Hình 4.5, chúng ta thấy sự phân bố

khá cân bằng về các chi số như tổng thời lượng (total_ dur), số bản ghi (records), thời

lượng âm thanh của nam (male_ dur), thời lượng âm thanh của nữ (female_ dur), sỐngười nói (speakers), và số từ (words) Miền Bắc có tỉ lệ cao hon so với 2 miền cònlại, do miền Bắc của Việt Nam bao gồm 25 tỉnh thành, trong khi đó miền Trung và

Nam mỗi miền chỉ bao gồm 19 tỉnh thành Hình 4.6 cho thấy sự giao thoa về từ vựnggiữa các vùng Sự giao thoa chung không quá lớn, chỉ 2.503 từ trong tổng số 5.167

từ Các vùng liền kề như Bắc-Trung, Trung-Nam có sự chồng chéo nhiều hơn (lầnlượt 319 và 226 từ) so với hai miền xa nhau là Bắc-Nam (215 từ) Số từ riêng biệt ởmỗi vùng cũng tương đối tương đồng nhau với miền Bắc là 701 từ, miền Trung là

Trang 37

Hình 4.5 Biêu đô chong thê hiện sự phân bô dữ liệu trên 3 miên.

Bắc BO Trung Bộ #4 Số từ duy nhất phương ngữ Bắc Bộ

Số từ duy nhất phương ngữ Trung Bộ

fm Số từ duy nhất phương ngữ Nam Bộ

Hình 4.6 Sự giao thoa về từ vựng giữa 3 miền

29

Trang 38

Bảng 4.4 Danh sách và thống kê ngữ liệu theo từng tỉnh, thành của Việt Nam.

STT Tên tỉnh Miền ảnh — nhàn Bản ghi | Số từ petra

Ngày đăng: 08/12/2024, 15:38

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[7] V.B. Le, D. D. Tran, E. Castelli, L. Besacier and J.-F. Serignat, "Spoken and Written Language Resources for Vietnamese.," in LREC, 2004 Sách, tạp chí
Tiêu đề: Spoken andWritten Language Resources for Vietnamese
[8] P.N. Hung, T. Van Loan and N. H. Quang, "Statistical Analysis of Vietnamese Dialect Corpus and Dialect Identification Experiments," International Journal of Scientific Engineering and Applied Science/(IJSEAS)—Volume-2, Issue-8, 2016 Sách, tạp chí
Tiêu đề: Statistical Analysis of VietnameseDialect Corpus and Dialect Identification Experiments
[9] B. Nguyen, S. Huynh, Q. K. Tran, A. Le Tran-Hoai, T. A. Nguyen, N. T. D.Tran, T. A. P. Thi, H. N. Nguyen, D. Huynh and others, "ViASR: A Novel Benchmark Dataset and Methods for Vietnamese Automatic Speech Recognition," in Proceedings of the 37th Pacific Asia Conference on Language, Information and Computation, 2023 Sách, tạp chí
Tiêu đề: ViASR: A NovelBenchmark Dataset and Methods for Vietnamese Automatic SpeechRecognition
[10] A. Radford, J. W. Kim, T. Xu, G. Brockman, C. McLeavey and I. Sutskever,"Robust speech recognition via large-scale weak supervision," in Proceedings of the 40th International Conference on Machine Learning, , Honolulu, Hawaii, USA, , 2023 Sách, tạp chí
Tiêu đề: Robust speech recognition via large-scale weak supervision
[11] A. Baevski, Y. Zhou, A. Mohamed and M. Auli, "wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations," in Advances in Neural Information Processing Systems, 2020 Sách, tạp chí
Tiêu đề: wav2vec 2.0: A Frameworkfor Self-Supervised Learning of Speech Representations
[12] V. Pratap, A. Tjandra, B. Shi, P. Tomasello, A. Babu, S. Kundu, A. Elkahky, Z.Ni, A. Vyas, M. Fazel-Zarandi and others, "Scaling speech technology to 1,000+ languages," Journal of Machine Learning Research, vol. 25, p. 1-52, 2024 Sách, tạp chí
Tiêu đề: Scaling speech technology to1,000+ languages
[13] L. T. T. Tran, H.-G. Kim, H. M. La and S. Van Pham, "Automatic Speech Recognition of Vietnamese for a New Large-Scale Corpus," Electronics, vol.13, p. 977, 2024 Sách, tạp chí
Tiêu đề: Automatic SpeechRecognition of Vietnamese for a New Large-Scale Corpus
[14] W. Chan, N. Jaitly, Q. Le and O. Vinyals, "Listen, attend and spell: A neural network for large vocabulary conversational speech recognition," in 2016 IEEEinternational conference on acoustics, speech and signal processing (ICASSP), 2016 Sách, tạp chí
Tiêu đề: Listen, attend and spell: A neuralnetwork for large vocabulary conversational speech recognition
[15] L. Dong, S. Xu and B. Xu, "Speech-transformer: a no-recurrence sequence-to- sequence model for speech recognition," in 20/8 IEEE international conference on acoustics, speech and signal processing (ICASSP), 2018 Sách, tạp chí
Tiêu đề: Speech-transformer: a no-recurrence sequence-to-sequence model for speech recognition
[16] T. Doan, "Ngữ âm tiéng Việt," Vietnamese Phonetics), Hanoi NationalUniversity Publishing House, pp. 99-148, 1999 Sách, tạp chí
Tiêu đề: Ngữ âm tiéng Việt
[17] B. Pham and S. McLeod, "Consonants, vowels and tones across Vietnamese dialects," International Journal of Speech-Language Pathology, vol. 18, p.122-134, 2016 Sách, tạp chí
Tiêu đề: Consonants, vowels and tones across Vietnamesedialects
[18] V. U. Thanh Phương, "Phonetic properties of Vietnamese tones across dialects," n Bradley. D.(Edt.), Tonation (see Bradley, 1982), 1982 Sách, tạp chí
Tiêu đề: Phonetic properties of Vietnamese tones acrossdialects
[20] T. B. Pham, "Phát âm nhằm /1/-/n/ trong tiếng Việt: Tình huống điều chỉnh va cần thiết," Ngdn ngữ, vol. 10, p. 25-32, 2013 Sách, tạp chí
Tiêu đề: Phát âm nhằm /1/-/n/ trong tiếng Việt: Tình huống điều chỉnh vacần thiết
[21] M. Shimizu, "Vị trí của tiếng Quảng Nam trong quá trình biến đổi âm cuối gốc lưỡi," in Hội thảo ngôn ngữ học toàn quốc lan thứ IT năm 2013, Hà Nội, ViệtNam, 2013 Sách, tạp chí
Tiêu đề: Vị trí của tiếng Quảng Nam trong quá trình biến đổi âm cuối gốclưỡi
[22] M. J. Alves, "A look at north-central Vietnamese," in Proceedings of the 12th Annual Meeting of the Southeast Asian Linguistics Society 2002 (SEALS XI),Canberra, Australia, 2007 Sách, tạp chí
Tiêu đề: A look at north-central Vietnamese
[23] P. N. Hung, N. T. Ha, T. Van Loan, V. X. Thang and N. D. Chien, "Vietnamese dialect identification on embedded system," UTEHY Journal of Science andTechnology, vol. 24, p. 82-87, 2019 Sách, tạp chí
Tiêu đề: Vietnamesedialect identification on embedded system
[24] B. T. Ta, N. M. Le and others, "Transfer learning methods for low-resource speech accent recognition: A case study on Vietnamese language," Engineering Applications of Artificial Intelligence, vol. 132, p. 107895, 2024 Sách, tạp chí
Tiêu đề: Transfer learning methods for low-resourcespeech accent recognition: A case study on Vietnamese language
[26]S. Ruder, A. Sứgaard and I. Vuliộộ, "Unsupervised Cross-Lingual Representation Learning," in Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics: Tutorial Abstracts, Florence, 2019 Sách, tạp chí
Tiêu đề: Unsupervised Cross-LingualRepresentation Learning
[27] A. Babu, C. Wang, A. Tjandra, K. Lakhotia, Q. Xu, N. Goyal, K. Singh, P. von Platen, Y. Saraf, J. Pino, A. Baevski, A. Conneau and M. Auli, "XLS-R: Self- supervised Cross-lingual Speech Representation Learning at Scale," arXiv, vol.abs/2111.09296, 2021 Sách, tạp chí
Tiêu đề: XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale
[28] A. Fujino, H. Isozaki and J. Suzuki, "Multi-label text categorization with model combination based on fl-score maximization," in Proceedings of the Third International Joint Conference on Natural Language Processing: Volume-I, 2008 Sách, tạp chí
Tiêu đề: Multi-label text categorization with modelcombination based on fl-score maximization

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN