1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận dạng chuỗi ý kiến cho phân tích cảm xúc dựa trên khía cạnh bình luận điện thoại thông minh trên tiếng Việt

97 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nhận dạng chuỗi ý kiến cho phân tích cảm xúc dựa trên khía cạnh bình luận điện thoại thông minh trên tiếng Việt
Tác giả Nguyễn Thị Thanh Kim, Huỳnh Khải Siêu
Người hướng dẫn ThS. Nguyễn Văn Kiệt, ThS. Nguyễn Đức Vũ
Trường học Trường Đại học Công nghệ Thông tin
Chuyên ngành Khoa học dữ liệu
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2022
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 97
Dung lượng 53,93 MB

Nội dung

Bộ dữ liệu được phát triển với mục tiêu làm nền tảng giải quyết cả ba yêu cau trên, từ một nhận xét của người dùng chúng ta có thé tríchxuất ra được khía cạnh được nhắc tới, cảm xúc của

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HỌC CÔNG NGHỆ THONG TIN

KHOA KHOA HOC VA KY THUAT THONG TIN

NGUYEN THI THANH KIM

HUYNH KHAI SIEU

KHOA LUAN TOT NGHIEP

NHAN DANG CHUOI Ý KIEN CHO PHAN TÍCH CẢM XÚC

DUA TREN KHIA CANH BINH LUAN DIEN THOAI THONG MINH TREN TIENG VIET

SPAN DETECTION FOR ASPECT-BASED SENTIMENT ANALYSIS

IN VIETNAMESE

TP HO CHi MINH, 2022

Trang 2

ĐẠI HOC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HOC VA KY THUAT THONG TIN

NGUYEN THỊ THANH KIM - 18520963

HUỲNH KHÁI SIEU -18520348

KHÓA LUẬN TÓT NGHIỆP

NHAN DANG CHUOI Ý KIEN CHO PHAN TÍCH CÁM XÚC

DUA TREN KHIA CANH BINH LUAN DIEN THOAI THONG MINH TREN TIENG VIET

SPAN DETECTION FOR ASPECT-BASED SENTIMENT ANALYSIS

IN VIETNAMESE

CU NHAN NGANH KHOA HOC DU LIEU

GIANG VIEN HUONG DAN

ThS Nguyễn Văn Kiệt ThS Nguyễn Đức Vũ

TP HÒ CHÍ MINH, 2022

Trang 3

THONG TIN HỘI DONG CHAM KHÓA LUẬN TOT NGHIỆP

Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số

HĐẢầY của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

Trang 4

LỜI CẢM ƠN

Nhóm chúng em xin gửi lời cảm ơn chân thành đến ThS Nguyễn Văn Kiệt và

ThS Nguyễn Đức Vũ, cảm ơn hai Thầy đã luôn quan tâm, động viên chúng em

từng ngày để có thể hoàn thành tốt được khóa luận này Hai Thay cũng là

những người đã truyền dat cho chúng em những kiến thức bồ ích và động viênchúng em dé chúng em có đủ tự tin và bản lĩnh đạt được kết quả tot

Nhóm cũng xin chân thành cảm ơn quý thay cô của Trường Đại học Công nghệThông tin nói chung và quý thay cô cua Khoa Khoa hoc va Kỹ thuật Thông tinnói riêng đã tận tâm, nhiệt huyết truyền đạt cho chúng em những kiến thức hữu

ích cũng như các kỹ năng cân thiết để hoàn thành tốt khóa luận

Nhóm cũng xin gửi lời cảm ơn đến gia đình và bạn bè đã luôn bên cạnh động

viên, giúp ao chúng em và đưa ra những lời khuyên hữu ích.

Xin chân thành cảm on!

Nhóm tác giả

Nguyễn Thị Thanh Kim

Huỳnh Khải Siêu

Trang 5

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH CỘNG HÒA XÃ HOI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHỆ THÔNG TIN

DE CUONG CHI TIET

TEN DE TAI: NHAN DANG CHUOI Ý KIÊN CHO PHAN TÍCH CAM XUC

DUA TREN KHIA CANH BINH LUAN DIEN THOAI THONG MINH TREN

TIENG VIET

TEN DE TAI TIENG ANH: SPAN DETECTION FOR ASPECT-BASEDSENTIMENT ANALYSIS IN VIETNAMESE

Ngôn ngữ thực hiện: Tiếng Việt

Cán bộ hướng dẫn: ThS Nguyễn Văn Kiệt

ThS Nguyễn Đức Vũ

Thời gian thực hiện: Từ ngày 06/09/2021 đến ngày 01/01/2022

Sinh viên thực hiện:

Nguyễn Thị Thanh Kim - 18520963 Lớp: KHDL2018

Email: 18520963 @ gm.uit.edu.vn Dién thoai: 0822863327

Huynh Khai Siéu - 18520348 Lớp: KHDL2018Email: 18520348 @ gm.uit.edu.vn Dién thoai: 0367145578

Nội dung dé tai:(M6 ta chỉ tiết mục tiêu, phạm vi, đối tượng, phương pháp thực hiện,kết quả mong đợi của dé tai)

e Mục tiêu, phạm vi va đối tượng của đề tài:

Xây dựng bộ dit liệu chuẩn cho nhận dạng chuỗi ý kiến người dùng về điện thoại thôngminh trong tiếng Việt phục vụ mục đích nghiên cứu và phát triển ứng dụng thực tế Hỗ

Trang 6

trợ cải thiện giao diện người dùng ở các trang web thương mại điện tử, giúp khách hàng

có thể tập trung vào các bài đánh giá đã được chỉ rõ khía cạnh mà khách hàng quan tâm,

hỗ trợ chủ sở hữu trang web theo dõi chất lượng sản phẩm và dịch vụ.

Đề xuất thuật toán giải quyết bài toán nhận dạng chuỗi ý kiến phục vụ cho phân tích cảm

xúc dựa trên khía cạnh (aspect-based sentiment analysis-ABSA) Các công trình nghiên

cứu trước đó liên quan đến ABSA thường chỉ nhắn mạnh vào phát hiện khía cạnh được

đề cập và nhãn cảm xúc tương ứng mà bỏ qua nhiệm vụ phát hiện khoảng ý kiến, vốn lànhiệm vụ có tiềm năng ứng dụng cao Bộ dữ liệu được phát triển với mục tiêu làm nền

tảng giải quyết cả ba yêu cau trên, từ một nhận xét của người dùng chúng ta có thé tríchxuất ra được khía cạnh được nhắc tới, cảm xúc của người dùng đối với từng khía cạnh và

ý kiến cụ thê

Nghiên cứu các mô hình, kỹ thuật có liên quan cho bài toán nhận dạng chuỗi ý kiến và

bài toán phân tích cảm xúc theo khía cạnh trong tiếng Việt (Nguyễn và các cộng sự [5]).

Từ đó đề xuất hướng tiếp cận giải quyết bài toán nhận dạng chuỗi ý kiến cấp độ đoạn

văn bản cho tiếng Việt theo hướng nhận dạng thực thê có tên

Phân tích bộ dữ liệu và đánh giá hiệu suat của các mô hình trên hướng tiép cận được dé xuat trên từng khía cạnh và cảm xúc.

Phát triển bộ Kiểm tra bộ

dữ liệu dữ liệu mới Bộ dữ liệu

bộ dữ liệu mới (UIT-ViSD4SA) và giai đoạn thực nghiệm bộ dữ liệu trên các mô hình

máy học và đánh giá kết quả

1 Xây dựng bộ dữ liệu UIT- ViSD4SA

Trang 7

Quá trình xây dựng dit liệu của chúng tôi gồm có 3 giai đoạn: Xây dựng hướngdẫn gán nhãn và huấn luyện, gán nhãn đữ liệu, kiểm tra lại dữ liệu.

Giai đoạn 1: Xây dựng hướng dẫn gán nhãn và huấn luyện

Chúng tôi tiến hành đọc và nghiên cứu về các thành phan và thông số của bộ dữliệu UIT-ViFSD (Phan và các cộng sự [1]) Dựa theo hướng dẫn chú thích của bộ

dữ liệu UIT-ViFSD, chúng tôi thêm một số định nghĩa và quy tắc để tạo cơ sởcho việc xây dựng dữ liệu Sau đó tiến hành xây dựng lại bộ dữ liệu nhằm phục

vụ cho bài toán nhận dạng chuỗi ý kiến.

Giai đoạn 2: Gán nhãn dữ liệu.

Trong giai đoạn này, chúng tôi đào tạo người chú thích với các nguyên tắc gánnhãn được xây dựng ở giai đoạn 1, sau khi dat được độ đồng thuận trên 80%chúng tôi chia dữ liệu gán riêng dé tiến hành phát triển bộ dữ liệu UIT-ViFSDthành bộ dữ liệu UIT- ViSD4SA Cấu trúc biểu diễn dữ liệu được lưu dưới dạng

json bao gồm nhận xét của người dùng, và nhãn theo cấu trúc [vị trí bắt đầu, vị trí

kết thúc, khía cạnh#cực cảm xúc] Bang | cho thay một vi dụ minh hoa cho dữ

tA

liéu.

Giai đoạn 3: Kiểm tra lại dữ liệu

Nhăm cung câp một bộ dữ liệu cho cộng đông nghiên cứu nên việc cung câp một

bộ dữ liệu chuân, chính xác và sạch là điêu cân thiệt Vì thé sau khi hoàn thành bộ

dữ liệu chúng tôi tiên hành rà soát lại tât cả các mâu dữ liệu băng cách kiêm tra

lại các vị trí bắt đầu và kết thúc của nhãn xem đã chuẩn và chính xác hay không

2 Thực hiện giải quyết bài toán với các mô hình

2.1 Bài toán:

Bài toán nhận dạng chuỗi ý kiến khách hàng cho tiếng Việt

Đầu vào: Một bình luận c của khách hàng về điện thoại thông minh gồm n kí tự

Đầu ra: Một hoặc nhiều chuỗi thể hiện ý kiến của khách hàng ứng với từng khía

Trang 8

cạnh được rút trích trực tiếp từ bình luận c Mỗi chuỗi được được rút trích từ vịtrí thứ i đến vị trí thứ j sao cho 0 <i, j <n và ¡ <j.

Ví dụ:

Đầu vào Đầu ra

0, 13,

Máy đẹp, sangprsioxzposrrive, sd thì rat là "DESIGN#POSITIVE"

OKGENERAL#POSITIVE máy m0f›r:sroaMAxCE+POSITIVE Pin | 15,31,

sd cũng rat lâu mới hết, nhiều khi cả ngày va qua "GENERAL#POSITIVE"

luôn ngày hôm sau mới sạc, sạc rất nhanh khoảng 32, 40,

chừng 1 tiếng 5 phút là đầy rồi, ko lâu như iphone | "PERFORMANCE#POSI

mat gần 3 đến 4 tiếng đầysarrrnvzposrrrvz Chỉ sd để | TIVE"

lướt web, facebook, youtube Nghe nhạc rất hay đặc 42,175,

biệt là nghe bằng tai nghe AKG Rất xứng đáng với số | "BATTERY#POSITIVE"

tiền bồ raoenERAI #POSITIVE 315, 346,

"GENERAL#POSITIVE"

Bang I Vi du minh hoa cho đữ liệu

2.2 Phương pháp giải quyết bài toán

Đối với bài toán phát hiện chuỗi ý kiến cho phân tích cảm xúc dựa trên khía cạnhcho tiếng Việt, chúng tôi đề xuất phương pháp tiếp cận giải quyết bài toán bằngcác thuật toán giải quyết bài toán nhận dạng thực thể có tên (named entity

recognition).

Dau tiên, chúng tôi coi việc phát hiện chuỗi ý kiên cho phân tích cảm xúc dựa

trên khía cạnh như một bài toán sequence labeling ở cấp độ âm tiết

Chúng tôi sử dụng mô hình BiLSTM-CRF (Huang và các cộng sự [3]) kết hợp

với các mô hình nhúng từ tiên tiến (syllable embedding, character embedding,XLM-R embedding (Conneau và các cộng sự [2]) dé giải quyết bài toán Môhình BiLSTM-CRE bao gồm ba lớp: lớp embedding cung cấp biểu diễn vectơ

Trang 9

được ngữ cảnh hóa của input, được chuyên vào trình gán nhãn BiLSTM-CRF

như được mô tả trong Hình 2.

fe) fe) B-CAMERA I-CAMERA

chuẩn ban dau Dé có được cái nhìn tổng quan, chúng tôi tính các thông số đánh

giá này trên cả trung bình micro và macro.

Kết quả mong đợi của đề tài

Tạo ra được bộ dữ liệu nhận dạng chuỗi ý kiên cảm xúc dựa trên khía cạnh cho

tiếng Việt để phục vụ cho nghiên cứu và phát triển ứng dụng thực tế

Đề xuất phương pháp tiếp cận cho bài toán nhận dạng chuỗi ý kiến cảm xúc dựatrên khía cạnh cho tiếng Việt (tiếp cận dựa trên phương pháp giải quyết bài toánnhận dạng thực thể có tên sử dụng mô hình BiLSTM-CRF kết hợp với các mô

Trang 10

hình nhúng từ tiên tiến).

Phân tích hiệu suat của từng mô hình trên moi hướng tiép cận va làm rõ đặc diém

và nguyên nhân gây ra sự ảnh hưởng.

Tài Liệu tham khảo

Luc Phan, K (2021) SA2SL: From Aspect-Based Sentiment Analysis to Social

Listening System for Business Intelligence In Knowledge Science, Engineering and Management (pp 647-658) Springer International Publishing.

Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary,

Guillaume Wenzek, Francisco Guzman, Edouard Grave, Myle Ott, Luke Zettlemoyer, & Veselin Stoyanov (2020) Unsupervised Cross-lingual

Representation Learning at Scale.

Zhiheng Huang, W Xu, & Kailiang Yu (2015) Bidirectional LSTM-CRF Models

for Sequence Tagging ArXiv, abs/1508.01991.

Hu, Y (2019) Open-Domain Targeted Sentiment Analysis via Span-Based

Extraction and Classification In Proceedings of the 57th Annual Meeting of the

Association for Computational Linguistics (pp 537-546) Association for

Computational Linguistics.

Nguyen, Huyen & Nguyen, Hung & Ngo, Quyen & Vu, Luong & Xuan Bach,

Ngo & Le, Cuong (2019) VLSP SHARED TASK: SENTIMENT ANALYSIS.

Journal of Computer Science and Cybernetics 34 295-310 9663/34/4/13160.

10.15625/1813-Kế hoạch thực hiện: (Mô ta tớm tắt kế hoạch làm việc và phân công công việc cho từng

sinh viên tham gia)

® Mô tả tóm tắt kế hoạch làm việc: Kế hoạch làm việc được chúng tôi thực hiện chi

tiết trong bảng sau:

Trang 11

e Phân công công việc cho từng thành viên:

Nghiên cứu phương pháp

thực nghiệm và triển khai

Đánh giá hiệu suat mô

hình và cải thiện

Công việc Nguyễn Thị Huỳnh Khải

Thanh Kim Siéu

Khao sát bài toán và tìm hiểu tổng quan

Phát triển bộ dit liệu từ dữ liệu gốc

Kiểm tra bộ dữ liệu

Trang 12

Triển khai mô hình thực nghiệm

Viét báo cáo và báo cáo

Xác nhận của CBHD TP HCM, ngày 04 tháng 09 năm 2021

(Ký tên và ghi rõ họ tên) Sinh viên

(Ký tên và ghi rõ họ tên)

Nguyễn Văn Kiệt

Nguyễn Thị Thanh Kim Nguyễn Đức Vũ

Huỳnh Khải Siéu

Trang 13

MỤC LỤC

TÓM TAT KHÓA LUẬN 2¿2¿+2E+SE22E2EEEEEEEEE21121171711211211 7121 1.cExcrxe 1

MO DAU wieceecesscssessssssessessessssssscsessecssssssesecsessusssessssessusssessessessussusssessessesssessessesseseaeesess 2Chương 1 _ TONG QUAN ooeeeecsecsscsssssssssssessessesssssessssecsecsessessesscsesssesessessesseesesseaeees 6

LL GiGi thigu na 6

1.2 Tính ứng dụng của đề tai c ceeceeeecceccecseesessessessesseessessessessessessessessessesssesseesess 8

1.3 K@tuaieiccccccccccccccscessessesssssessessessusssessssessusssessessessesssesseeseesussuessessessesseeeseesess 9

Chuong 2 | CAC CONG TRINH NGHIÊN CUU LIEN QUAN 10

2.1 Tình hình nghiên cứu trên thé giới 2 2 £+£+£++£x+£x+zEzzrxerxerxeee 10

2.2 Tình hình nghiên cứu trong THƯỚC 5: <5 2 3E +*vEE+eeexeeeeeeeereees 13

, LG nh sẽ 7 ta l6Chương3 BO DU LIEU UIT-ViSD4SA 2-55-5225£+E2+E££EerEerxersersrree 18

3.1 Xây dựng dữ lIỆU - Ă Q11 11v HT, 18

3.1.1 _ Định nghĩa chuỗi ý kiến và hướng dan gán nhãn -. 20

3.1.2 _ Quá trình gan nhãn - - - 11v ng grt 21 3.2 Phân tích dữ LU ceccecccsssesssesssesseessesssessvessesssecssessuessesssesssessesssessseesseseessess 22kcio‹.s san naa3 26

Chương 4 | PHUONG PHÁP TIẾP CẬN :- 2 ++5++E+E2Eerkerkerkersrree 27

4.1 Word embedding - << x11 HH ng 28 4.2 Bidirectional Long Short-Term Memory 55+ +-<s++s++seeeesess 29 4.3 Conditional Random FIeÌd - + << 113333325111 EExsessese 31

"TT Nn.g(nagdẮ ứŸĂẼ 31

Chương 5 CÀI ĐẶT THU NGHIỆM VÀ DANH GIÁ - 5-52 33

5.1 Cài đặt thử nghiỆm - - G1 v19 TH HH Hi HH, 33

Trang 14

5.1.1 Mô hình cơ SỞ - - - << << << k1 S SĐT n5 511 kh 33 5.1.2 Cài đặt mô hình BiLSTM-CRE -22-©22+2E22ExczExerrserxeerxee 35 5.2 Phuong phap damh 914 nh aẳặỪỪO 36

5.3 Kết quả thử nghiệm va đánh giá - -©s©s+Sk+EE£EE+E2EEEerkerkerkrrsree 37

5.3.1 _ Kết quả thử nghiệm trên mô hình cơ SỞ 2 ¿52 + s+cs+s+2 37

5.3.2 _ Kết quả thử nghiệm trên mô hình BiLSTM-CRE 41

5.4 Phân tích kết Qua c.ccecceccccscssssssessesssessessessecsssssessessesssessessessesssessessessesssesseesess 46

5.4.1 _ Phân tích kết quả dựa trên đặc điểm bộ dit liệu -. - 465.4.2 Phân tích kết quả dựa trên kết quả thử nghiệm - 465.4.3 Phân tích một số trường hợp lỗi -2 22z+s+zzs+zxz+cse+ 465.5 Kết luận c Ă SA E222 1011111111 111ececrrrrrrrreee 48Chương 6 KÉT LUẬN VÀ HƯỚNG PHAT TRIEN . : -: 50

6.1 Kết luận ẤP 1Ý ~ve / ⁄4 50

VN: c8 5 ố 516.3 Hướng phat triển -¿- 2 2© 2E22EE9EE£EE2E1271E7171121127121211 2111, 51DANH MỤC CÔNG TRINH TÁC GIA - 2-2 5+2E+2££+EE+£Eezxzreerxerxeres 52TÀI LIEU THAM KHẢO - - St EESE+EEEEEESEEEEEESEEEEEESESEEEEEESEEEEEESErrkrkrree 54

Trang 15

DANH MỤC HÌNH

Hình | Hệ thống đánh giá cua một trang thương mại điện tử ở Việt Nam 9

Hình 2 Quy trình tổng quan xây dựng bộ đữ liệu . - 2: 5¿©5+22++cx+zxe>s+ 18

Hình 3 Quy trình gán nhãn chi tiẾ - 2: 2 5¿5S¿2SE+2EE+EE+2EE2EEtEEEerxzrxrrrecree 21Hình 4 Kết quả 4 lần đo độ đồng thuận F]-scOre ¿2©5¿2cxz2c++cs+sc+z 22Hình 5 Biểu đồ thống kê bộ dữ liệu theo 10 nhãn khía cạnh và 3 nhãn cảm xtic 24Hình 6 Mô hình BiISTM-CRE kết hợp với lớp embedding từ syllable embedding,

character embedding và XLM-R embedding - - <5 + * + +skEsseersseeeee 27

Hình 7 Sơ đồ biểu diễn kiến trúc bên trong một tế bào LSTM -. 29Hình 8 Cấu trúc hoạt động của một mạng BiLSTM so sánh với mạng LSTM 30

Hình 9 Mô tả bộ mã hóa TranSfOrImCT - - - -c 5 2 1113333222 EEEE+++eeeeeeeezee 34

Hình 10 Lượng dữ liệu theo GiB cho 88 ngôn ngữ xuất hiện trong cả kho ngữ liệu

Wiki-100 được sử dụng cho mBERT và XLM-100 và CommonCrawl-100 được sử dung Cho XLMGCR 2221212177 35

Trang 16

DANH MỤC BANGBang 1 Danh sách 10 khía cạnh và định nghĩa ngắn 550) | 2S eseskes 19

Bảng 2 Ví dụ minh họa các khoảng ý kiến để phân tích tình cảm dựa trên khía cạnh

Bang 3 Tổng quan thống kê của bộ dữ liệu UIT-ViSD4SA -. :2-5¿ 23Bảng 4 Thống kê số lượng chỉ tiết nhãn khía cạnh và cảm xúc - 25

Bang 5 Kết quả tong quan của mô hình cơ SỞ . 2- 2222 ++x+zE+£++zxerxzez 37

Bảng 6 Kết quả mô hình XLM-RoBERTa của từng nhãn khía cạnh 38Bảng 7 Kết quả mô hình XLM-RoBERTa của từng nhãn cảm xúc 39Bang 8 Kết quả mô hình XLM-RoBERTa trên 30 cặp nhãn khía cạnh#cảm xúc .40Bảng 9 Kết quả tong quan của mô hình BiLSTM-CRE 2- 52552552552 41Bảng 10 Kết quả mô hình BiLSTM-CRE của từng nhãn khía cạnh 43Bảng 11 Kết quả mô hình BiLSTM-CRE của từng nhãn cảm xúc - 44Bảng 12 Kết quả mô hình BiLSTM-CRE trên 30 cặp nhãn khía cạnh#cảm xúc 44Bang 13 Phân tích một số trường hop lỗi - 2 ++z+£+zx+£x+zx++z++zxerxezsz 47

Trang 17

DANH MỤC TỪ VIET TATSTT | Từ viết tắt Ý nghĩa

1 ABSA Aspect-based sentiment analysis

2 OTE Opinion Target Expression

3 LSTM Mô hình Long Short-Term Memory

4 BiLSTM M6 hinh Bi-Directional Long Short-Term Memory

5 CRF Conditional random field

6 BERT Bidirectional Encoder Representations from

Transformers

7 XLM-R XLM-RoBERTa

Trang 18

TÓM TẮT KHÓA LUẬNPhân tích tình cảm dựa trên khía cạnh đóng một vai trò thiết yêu trong xử lý ngôn

ngữ tự nhiên và trí tuệ nhân tạo Tuy nhiên, các nhà nghiên cứu chỉ tập trung vào phát hiện khía cạnh và phân loại tình cảm mà bỏ qua nhiệm vụ phụ là phát hiện

khoảng ý kiến người dùng, vốn có tiềm năng ứng dụng thực tế rất lớn Trong khóaluận này, chúng tôi trình bày một tập dit liệu tiếng Việt mới bao gồm 35.396 khoảng

ý kiến được chú thích bằng tay trên 11.122 nhận xét của người dùng để giải quyếtnhiệm vụ phát hiện khoảng ý kiến trong phân tích cảm tính dựa trên khía cạnh Bêncạnh đó, chúng tôi cũng đề xuất một hệ thống mới sử dụng BiLSTM-CRF cho

nhiệm vụ phát hiện khoảng cách trong phân tích tình cảm dựa trên khía cạnh trong

tiếng Việt Kết quả tốt nhất là 62,76 điểm F1 macro cho phát hiện ý kiến khía cạnhbang cách sử dụng BiLSTM-CRF với đặc trưng từ syllable embedding, character

embedding và nhúng theo ngữ cảnh từ XLM-RoBERTa Bộ dữ liệu của chúng tôi

được cung cấp miễn phí cho các mục đích nghiên cứu.

Trang 19

MO DAUDat van dé

Theo khảo sát của Statista, doanh số bán điện thoại thông minh trên thé giới đã tănggấp 3 lần từ năm 2009 đến năm 2015, sau đó thị trường dần ôn định với mức tăngkhoảng 1,5 triệu chiếc mỗi năm Vào năm 2020, khoảng 1,38 tỷ chiếc điện thoại

thông minh được bán ra trên toàn cầu và con số liên tục tăng vào năm 2021 Trong

năm 2021, tại Việt Nam có khoảng 61,3 triệu chiếc điện thoại thông minh đangđược sử dụng tương đương 64% dân số và Việt Nam nam trong top 10 quốc gia có

số lượng điện thoại thông minh được sử dụng cao nhất Từ đó cho thấy nhu cầu sửdụng điện thoại thông minh của mọi người ngày càng tăng đồng nghĩa với việc cácnhà bán lẻ sẽ đễ đàng bán được 1 chiếc điện thoại khi nó phù hợp với nhu cầu người

dùng Vậy làm sao để biết một chiếc điện thoại như thế nào sẽ phù hợp với nhu cầu

người dùng? Với sự phổ biến của mạng internet ngày nay, muốn tham khảo 1 chiếcđiện thoại trước khi sở hữu chúng, người dùng có thể dễ dàng tìm thấy những đánhgiá cho chiếc điện thoại đó từ những người sử dụng trước Các đánh giá này dễ

dàng tìm thấy từ các trang web bán lẻ Đó là nguồn dữ liệu quan trọng, thông qua

các bình luận đánh giá ta có thé nắm bắt được ưu điểm và nhược điểm của chiếcđiện thoại thông minh một cách chân thật nhất Đó là lợi thế to lớn không chỉ chongười dùng có cái nhìn khách quan về sản pham điện thoại mà còn cho các doanhnghiệp, các nhà sản xuất dé họ nhận ra các khía cạnh cần được cải thiện giúp chosản phẩm của họ ngày càng hoàn thiện hơn Hiện nay, vấn đề phát hiện ý kiến ngườidùng cho phân tích cảm xúc dựa trên khía cạnh đang được quan tâm bởi các nhànghiên cứu và nhiều tô chức trên thế giới Chúng ta có thé tìm thấy nhiều nghiêncứu tương tự từ phân tích cảm xúc dựa trên khía cạnh đến phát hiện khoảng văn bản

cho phân tích cảm xúc dựa trên khía cạnh ở tiếng Anh Tuy nhiên, vấn đề này vẫn

còn mới mẻ với ngôn ngữ Tiếng Việt dù có tiềm năng trong ứng dụng thực tế Điều

đó giải thích cho việc chúng tôi quyết định thực hiện đề tài về phát hiện chuỗi ý

kiến cho phân tích cảm xúc dựa trên khía cạnh từ các bình luận điện thoại thông

minh trên Tiếng Việt Mục tiêu chính của chúng tôi trong khóa luận này là xây dựng

bộ dữ liệu chuẩn cho tiếng Việt nhằm phục vụ cho vấn đề đặt ra và đưa ra phương

2

Trang 20

pháp phát hiện chuỗi ý kiến đạt kết quả tốt trên bộ dữ liệu tiếng Việt về bình luận

đánh giá điện thoại thông minh.

Mục tiêu khóa luận

Trong khóa luận này, chúng tôi tập trung nghiên cứu quy trình xây dựng một bộ dữ

liệu chuẩn, các kỹ thuật xử lý ngôn ngữ tự nhiên và các thuật toán học máy Chúngtôi đã đặt ra các mục tiêu sau:

e Thứ nhất, chúng tôi tạo ra một bộ dữ liệu điểm chuẩn phục vụ các bài toán

cho phân tích cảm xúc dựa trên khía cạnh cho Tiếng Việt, có tên làViSD4SA Bộ dit liệu bao gồm hơn 35.000 khoảng ý kiến của người dùng

được chú thích dựa trên 10 khía cạnh được định nghĩa rõ ràng Bộ dữ liệu có

sẵn miễn phí cho mục đích nghiên cứu.

e Thứ hai, chúng tôi tiễn hành cài đặt, thử nghiệm các phương pháp học sâu

(BiLSTM) trên bộ dữ liệu, đánh giá và phân tích kết qua dé tìm ra mô hình

phù hợp cho bộ dữ liệu.

e_ Thứ ba, chúng tôi cung cấp một số trường hợp điển hình của bài toán và dé

xuất trong tương lai cho bài toán phát hiện khoảng ý kiến Tiếng Việt

Đối tượng và phạm vi nghiên cứu

> Đối tượng: Phương pháp xây dựng dữ liệu, các phương pháp học sâu cho

phát hiện khoảng ý kiến về cảm xúc khía cạnh tiếng Việt

> Phạm vi: Đề tài tập trung chủ yêu vào xây dựng bộ dữ liệu và phân tích cảm

xúc trên tiếng Việt, cụ thé giới hạn trên bài toán phát hiện khoảng ý kiến chophân tích cảm xúc dựa trên khía cạnh.

Về giới hạn nghiên cứu, chúng tôi chủ yếu tập trung khai thác các van đề:

- _ Nghiên cứu quy trình xây dựng bộ dữ liệu, các thuật toán và phương pháp

phân tích cảm xúc.

- Cai tiến mô hình dé đạt được kết quả tốt hơn

Kết quả nghiên cứu

Nghiên cứu của chúng tôi đạt được các kêt quả sau:

Trang 21

Xây dựng được bộ dữ liệu UIT-ViSD4SA phục vu cho bài toán phân tíchcảm xúc dựa trên khía cạnh nói chung và nhiệm vụ phát hiện chuỗi ý kiến

người dùng nói riêng.

Thực hiện phân tích đặc điểm bộ dữ liệu UIT-ViSD4SA về đánh giá ngườidùng cho điện thoại thông minh trên khía cạnh

Cài đặt các phương pháp học sâu để giải quyết bài toán phát hiện chuỗi ýkiến người dùng, đánh giá ưu nhược điểm các phương pháp

Cau trúc khóa luận

Khóa luận gôm 6 chương với các các nội dung chính sau:

> Chương 1: Tổng quan

Giới thiệu về lĩnh vực phân tích cảm xúc, phân tích cảm xúc dựa trên khíacạnh, và tầm quan trọng của các kỹ thuật này hiện nay, đặt biệt là tính ứngdụng trong các hệ thong, dich vu

Chương 2: Các công trình nghiên cứu liên quan

Chúng tôi giới thiệu một số công trình nghiên cứu trong và ngoài nước liênquan đến quy trình xây dựng dữ liệu và giải quyết bài toán phân tích cảm xúc

dựa trên khía cạnh.

Chương 3: Bộ dữ liệu nghiên cứu

Trong chương này, chúng tôi trình bày quy trình xây dựng bộ dữ liệu đạt

chuẩn quy định và chất lượng, phân tích các đặc điểm của dữ liệu dé dé xuất

được các phương pháp cho bài toán và bộ dữ liệu.

Chương 4: Phương pháp tiếp cận

Trình bảy phương pháp học sâu mà chúng tôi đã nghiên cứu và áp dụng trên

bộ dữ liệu.

Chương 5: Cài đặt, thử nghiệm, và đánh gia

Trong chương này, chúng tôi trình bày các cách đánh giá, các bước cài đặt

mô hình và phân tích các trường hợp giải thích cho kết quả đạt đượcChương 6: Kết luận và hướng phát triển

Trang 22

Tổng kết các kết quả đã đạt được và đề xuất các hướng phát triển trong

tương lai đê cải thiện được hiệu suât của mô hình.

Trang 23

Chương 1 TONG QUAN

1.1 Giới thiệu đề tài

Ngày nay lĩnh vực công nghệ phát triển mạnh mẽ, các nhà sản xuất đua nhau ra matsản phẩm mới với nhiều tính năng nỗi bật và nhu cầu sở hữu điện thoại thông minhcủa người dân cũng ngày một tăng lên Tùy vào nhu cầu cá nhân của mỗi kháchhàng mà lựa chọn các sản phẩm điện thoại thông minh có ưu điểm và nhược điểmphù hợp Chính vì thế, trước khi mua một sản phẩm hoặc quyết định sử dụng mộtdịch vụ nào đó, khách hàng có xu hướng tham khảo thông tin từ người dùng có kinh

nghiệm sử dụng sản phẩm hoặc dịch vụ đó Cùng với sự phát triển nhanh chóng của

Internet, ngày càng nhiều người lựa chọn tham khảo thông tin từ các trang web,trang thương mại điện tử, các diễn đàn, hoặc các kênh đánh giá sản phẩm, sé luongđánh giá và phản hồi không lồ từ các nén tảng trên trở thành nguồn tài nguyên gidtrị đối với cả khách hàng và doanh nghiệp Với đối tượng là khách hàng, nguồn dữliệu này cung cấp thông tin về sản phâm cũng như lời khuyên hữu ích giúp họ tránh

trường hợp mua phải sản phâm hoặc đăng ký dịch vụ không phù hợp với nhu cầu cánhân, tệ hơn nữa là bị lừa đảo Mặc khác, đánh giá của người dùng cũng là thông tin

có giá trị đối với các doanh nghiệp, nếu sử dụng đúng và có hiệu quả, dữ liệu này cóthể giúp các doanh nghiệp cải thiện chất lượng sản phâm, xác định chính xác đối

tượng khách hàng cho từng phân khúc.

Ở Việt Nam, các nhà nghiên cứu thường quan tâm đến bài toán phân tích cảm xúcdựa trên khía cạnh mà lãng quên nhiệm vụ nhận dạng chuỗi ý kiến, vì vậy nhiệm vụ

này vẫn chưa có nhiều công trình nghiên cứu trên tiếng Việt Đó là lý do chúng tôiquyết định thực hiện dé tài này dé có thé đóng góp một phan nhỏ cho lĩnh vực xử lýngôn ngữ tự nhiên ở nước ta.

Phân tích cảm xúc dựa trên khía cạnh (Aspect-based sentiment analysis-ABSA) [1]

là một nhiệm vụ đầy thách thức thu hút cả giới học thuật và doanh nghiệp [2], [3],[4].Với một đánh giá cụ thể về một sản pham hoặc dich vụ, yêu cầu chính của bài

toán là phát hiện khía cạnh nào đang được thảo luận, sau đó thực hiện phân tích cảm

xúc cho khía cạnh đã được khám phá Bài toán ABSA có thể được chia thành 3

Trang 24

nhiệm vụ cơ bản: phát hiện khía cạnh, biểu thị mục tiêu ý kiến (OTE), và phân cựccảm xúc Trong khóa luận này, chúng tôi tập trung vào phát hiện ý kiến của người

dùng dựa trên khía cạnh và cảm xúc tương ứng, cái mà chúng tôi gọi là phát hiện ý

kiến người dùng cho ABSA Một cách cụ thể, với một nhận xét như sau “Mặc dùdịch vụ rất tot, nhưng sản phẩm thì dở tệ!”, bài toán phát hiện chuỗi ý kién ngườidùng cho ABSA hướng tới phát hiện hai ý kiến “dich vu tot” và “sản phẩm dở tệ”,sau đó phân loại hai ý kiên này vào khía cạnh và cảm xúc cụ thê Nhiệm vụ được

định nghĩa như sau:

Phân tích cảm xúc dựa trên khía cạnh (aspect-based sentiment

analysis-ABSA) [1] là một nhiệm vụ đầy thách thức thu hút cả giới học thuật và

doanh nghiệp [2], [3], [4].Với một đánh giá cụ thể về một sản phẩm hoặcdịch vụ, yêu cầu chính của bài toán là phát hiện khía cạnh nào đang được

thảo luận, sau đó thực hiện phân tích cảm xúc cho khía cạnh đã được khám

phá Bài toán ABSA có thé được chia thành 3 nhiệm vụ cơ bản: phát hiệnkhía cạnh, phát hiện mục tiêu ý kiến (Opinion Target Expression-OTE), và

phân cực cảm xúc Trong khóa luận này, chúng tôi tập trung vào phát hiện ý

kiến của người dùng dựa trên khía cạnh và cảm xúc tương ứng, cái mà chúngtôi gọi là phát hiện ý kiến người ding cho ABSA Một cách cụ thé, với mộtnhận xét như sau “Mặc đà dich vụ rất tot, nhưng sản phẩm thì dở tệ!”, bài

toán phát hiện chuỗi ý kiến người dùng cho ABSA hướng tới phát hiện hai ý

kiến “dich vụ tốt” và “sản phẩm do tệ”, sau đó phân loại hai ý kiến này vàokhía cạnh và cảm xúc cụ thé Nhiệm vụ được định nghĩa như sau:

o Đầu vào: Một bình luận c của khách hàng về điện thoại thông minh

gồm n kí tự

o Đầu ra: Một hoặc nhiều chuỗi thể hiện ý kiến của khách hang ứng với

từng khía cạnh được rút trích trực tiếp từ bình luận c Mỗi chuỗi được

được rút trích từ vị trí thứ i đến vị trí thứ j sao cho 0 <i, j <n và ¡ <j

Trang 25

1.2 Tính ứng dụng của đề tài

Giao diện người dùng đóng một vai trò quan trọng trong trải nghiệm khách hàngtrên các nền tảng thương mại điện tử Giao diện người dùng của các trang thươngmại điện tử hiện tại ngày càng thuận tiện hơn bao giờ hết nhờ vào sự giúp sức của

các kỹ thuật ABSA Nếu một trang thương mại điện tử áp dụng công nghệ ABSA,

khách hàng có thể tập trung vào các đánh giá hiệu quả hơn bằng cách lựa chọn khíacạnh mà họ quan tâm Bên cạnh đó, các doanh nghiệp có thể theo dõi chất lượngsản phẩm và dịch vụ nhờ có ABSA Một vài nền tảng thương mại điện tử nồi tiếngcủa Trung Quốc như Taobao, Dianping cung cấp giao diện người dùng dựa trênABSA để cải thiện trải nghiệm khách hàng Vì thế, tiềm năng của kỹ thuật ABSAtrong lĩnh vực này là rất lớn Mặt khác, các trang thương mại điện tử đang hiện diện

ở Việt Nam vẫn còn kém cỏi trong việc cung cấp thông tin cho người dùng Hau hếtcác nền tảng ở Việt Nam cung cấp một hệ thống đánh giá đơn giản: khách hang délại nhận xét, bình luận trên hệ thống và một đánh giá trên thang điểm 5 sao như ví

dụ ở hình 1 Những nền tảng cung cấp hệ thống như thế có thể ké đến nhưthegioididong, fptshop, tiki, shopee, lazada Khác biệt với phần còn lại, foody (mộtnên tảng đánh giá nhà hang) cho phép người dùng dé lại bình luận, đánh giá trênthang điểm 10 và cung cấp điểm số trên một số khía cạnh cụ thể (địa điểm, giá cả,

chất lượng, dịch vụ và không gian) Ở lĩnh vực điện thoại thông minh, vẫn chưa có

tính năng đánh giá trên khía cạnh cụ thê và có nhiều bình luận đánh giá thườngkhông nhận xét thắng vào trọng tâm sản phẩm, người dùng nhận xét lang mang vàkhông nhắc đến khía cạnh sản pham một cách rõ ranh Vì thế, chúng tôi tập trungvào nhiệm vụ phát hiện khoảng ý kiến người dùng cho ABSA, vốn không chỉ pháthiện khía cạnh và cảm xúc mà còn phát hiện ra ý kiến cụ thé được đề cập trong bìnhluận, có thể hiểu đơn giản là khi một đánh giá được đưa ra, phương pháp của chúngtôi sẽ chỉ ra được vị trí cụ thé của khía cạnh được nhắc đến trong câu, điều này sẽ

cung cấp cái nhìn toàn diện và rõ ràng về sản phẩm và dịch vụ một cách hoàn toàn

tự động.

Trang 26

Đánh giá Điện thoại X

Mới đầu dùng rat chậm Nhưng sau minh xoá đi các ứng dụng không cần thiết Dùng face lite Messenger

lite Xoá chrome( cách xoá trên Google) dùng trình duyệt Via Browser Và tôi cũng không có nhu cau chơi

game Vậy là bây giờ OKe

tÖ Hữu ích Q Thảo luận ' Đã dùng khoảng 5 thái

Hình 1 Hệ thong đánh gia của một trang thương mai điện tử ở Việt Nam.

1.3 Kết luận

Phân loại văn bản nói chung và phân tích cảm xúc nói riêng là một trong những chìa

khóa quan trọng dé đạt được thành công trong nhiều lĩnh vực như kinh tế, xã hội,

giáo dục Nắm bắt được những cảm xúc của khách hàng sẽ giúp cho các doanhnghiệp dé dang hơn trong việc đề xuất ra các phương án giúp tiếp cận khách hàng,làm hài lòng khách hàng, từ đó nhiều khách hàng đến với doanh nghiệp hơn, đạt

được doanh thu cao hơn Khi các nhà quản lý nắm bắt được cảm xúc nhân viên của

mình thi sẽ dé dàng hơn trong việc thấu hiểu nhân viên, từ đó mối quan hệ giữa cấptrên và cấp dưới ngày càng trở nên gần gũi và nhân viên sẽ cảm thay muốn cốnghiến vì công ty nhiều hơn Hay trên các trang mạng xã hội, khi các bình luận có nội

dung không lành mạnh, mang ý nghĩa tiêu cực được phân loại một cách chính xác

và nhanh chóng thì các quản trị viên dễ dàng quản lý các nội dung cũng như xử lý

các bình luận một cách hiệu quả, tạo một môi trường lành mạnh hơn cho ngườidùng Chính vì thế, đề tài của chúng tôi sẽ giúp ích cho nhiều người, cho nhiều lĩnhvực trong xã hội Dé thực hiện được đề tài này, chúng tôi cần tìm hiểu về cácphương pháp phân lớp học sâu, cài đặt, áp dụng và cải tiến chúng để mang lại kết

quả phân loại tốt hơn

Trang 27

Chương 2 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

Với sự cải tiến không ngừng của các kỹ thuật học máy học sâu, học chuyền tiếp, bài

toán phân tích cảm xúc đã đạt được kết quả cao và xem như hoàn thiện Do đó, bài

toán phân tích cảm xúc dựa trên khía cạnh đã và đang thu hút sự chú ý của cả giới

học thuật và doanh nghiệp Phân tích cảm xúc nói chung và phân tích cảm xúc dựa

trên khía cạnh nói riêng là một công cụ quan trọng dé khai thác nguồn tài nguyên dữ

liệu déi dào mà cuộc cách mạng 4.0 mang lại Phân tích cảm xúc dựa trên khía cạnh

là một nhiệm vu day thách thức va đóng vai trò quan trọng trong nhiều lĩnh vực Vìvậy đã đang và sẽ có nhiều công trình nghiên cứu liên quan đến chủ đề này được

công bô.

2.1 Tình hình nghiên cứu trên thế giới

Hiện nay, với sự phát triển của cách mạng công nghiệp 4.0, các ngành nghề đang

được công nghệ thông tin hóa, dẫn đến cuộc bùng nổ nguồn tài nguyên só-dữ liệu,đây là nguồn tài nguyên quan trọng, đầy tiềm năng cần được khai thác Trong đó,

dữ liệu văn bản chiếm một phần quan trọng và mang lại nhiều giá trị khi khai thác

Chính vì thế, đây là một lĩnh vực nghiên cứu có sức hấp dẫn lớn đối với cộng dong.

Các cường quốc công nghệ trên thé giới như Mỹ và Trung Quốc đây mạnh việc thuthập và khai thác dữ liệu Xử lý ngôn ngữ tự nhiên là lĩnh vực quan trọng được quan

tâm bởi cả giới nghiên cứu học thuật và các doanh nghiệp Vì có quá nhiều thôngtin trong từng lĩnh vực nên khi cần tìm kiếm theo một chủ đề nhất định nào đó,chúng ta không thể tự mình đọc qua tất cả các tài liệu, xử lý ngôn ngữ tự nhiênkhiến việc này trở nên dé dang hon Thay vi dùng sức người, tự mình tìm kiếm, vớiviệc sử dụng máy học, các văn bản được phân loại với độ chính xác cao, tốc độ

nhanh chóng, mang lại hiệu quả cao trong những bài toán liên quan đến vấn đề này.

Bên cạnh đó, để có được những mô hình tốt và chính xác thì dữ liệu cho khâu huấnluyện và kiểm tra mô hình là hết sức quan trọng Tuy nhiên, công việc xây dựng dữliệu là một nhiệm vụ tốn nhiều thời gian và công sức, trên thế giới đã có một sỐ

nghiên cứu tiêu biêu về chu đê này:

10

Trang 28

(1) Phân tích cảm xúc được coi là một nhiệm vụ quan trọng cả từ quan điểm học

thuật và thương mại Tuy nhiên, phần lớn các phương pháp tiếp cận trước kia

có gắng đánh giá cảm xúc tổng thé của một câu, đoạn văn hoặc khoảng văn

bản, bất kế các khía cạnh được đề cập Vì vậy, vào năm 2014 SemEval [5](SE-ABSA14) giới thiệu một nhiệm vu cộng đồng liên quan đến phân tích

cảm xúc dựa trên khía cạnh (ABSA), trong đó mục tiêu là xác định các khíacạnh của các thực thể mục tiêu nhất định và tình cảm được thê hiện đối vớitừng khía cạnh SE-ABSA14 cung cấp hai tập dữ liệu dành riêng cho 2 lĩnh

vực máy tính xách tay và nhà hàng, bao gồm hơn 6.000 câu đánh giá đượcgán nhãn thủ công Tập dữ liệu nhà hàng SE-ABSA14 bao gồm hơn 3.000câu đánh giá tiếng Anh từ các bài đánh giá về nhà hàng SE-ABSA14 cũng

đã sửa một số lỗi (ví dụ: lỗi tách câu) và thêm vào các chú thích thuật ngữ

khía cạnh trên tập dữ liệu gốc.Tập dữ liệu máy tính xách tay SE-ABSA14

bao gồm hơn 3.000 câu đánh giá tiếng Anh được trích xuất từ các đánh giá

của khách hàng về máy tính xách tay chỉ bao gồm nhãn khía cạnh và cảm

xúc Nhiệm vụ SemEval ABSA năm 2015 SE-ABSAI5 [6] tập trung vào các lĩnh vực tương tự như SE-ABSA14 (nha hàng và máy tính xách tay) Tuy

nhiên, không giống như SE-ABSA14, bộ dữ liệu của SE-ABSAI5 sẽ là toàn

bộ đoạn văn bản đánh giá Nhiệm vụ SemEval ABSA năm 2016

(SE-ABSA196) [7] tạo cơ hội cho những người tham gia thử nghiệm thêm dữ liệutiếng Anh từ các lĩnh vực của SE-ABSAI5 (máy tính xách tay, nhà hàng,khách sạn) bằng cách cung cấp bộ dữ liệu thử nghiệm mới Ngoài ra, SE-ABSA16 cung cấp bộ dữ liệu bằng các ngôn ngữ khác ngoài tiếng Anh Đốivới mỗi miền (ví dụ: nhà hàng, laptop, thiết bị điện tử), một bộ nguyên tắcchú thích chung sẽ được sử dụng cho tất cả các ngôn ngữ

Kể từ khi các bộ dit liệu ABSA được giới thiệu vào năm 2014, các nhiệm vụ phụ

của bài toán đã lân lượt được cộng đông nghiên cứu và giải quyêt.

(2) Wang và các cộng sự [8] đề xuất sử dụng mô hình LSTM có chú ý để phân

loại tình cảm ở cấp độ khía cạnh Ý tưởng chính của những đề xuất này là

lãi

Trang 29

học cách nhúng khía cạnh và dé các khía cạnh tham gia vào tính toán trọng

số chú ý Các mô hình được đề xuất của tập trung vào các phần khác nhau

của một câu khi các khía cạnh khác nhau được đưa ra để chúng phù hợp hơn

cho việc phân loại ở cấp độ khía cạnh Nghiên cứu này được thực hiện trên

dữ liệu SE-ABSA14 và đã đạt được kết quả phân loại cảm xúc khía cạnh

84% accuracy, với nhiệm vụ phân loại cảm xúc cho các thuật ngữ khía cạnh(aspect term) mô hình đạt kết quả 77,2% trên dữ liệu nhà hàng và 68,9%accuracy trên dit liệu laptop.

(3) Sun và các cộng sự [9] xây dựng một câu bồ trợ từ khía cạnh và chuyên đôi

ABSA thành một nhiệm vụ phân loại theo cặp câu, chăng hạn như trả lời câu

hỏi (QA) và suy luận ngôn ngữ tự nhiên (NLI) Tác gia tinh chỉnh mô hình

BERT và đạt được kết quả hiện đại vào thời diém bài báo được công bồ trên

bộ dữ liệu SentiHood và SE-ABSA14 Với SE-ABSA14, công trình đạt được

92,18% Fl-score cho phát hiện khía cạnh Với bộ dữ liệu SentiHood, công trình đạt được 87,9 % F1-score cho phát hiện khía cạnh.

Gần đây các công trình nghiên cứu về phát hiện thuật ngữ khía cạnh đang được

quan tâm nhiêu hơn.

(4) Yang và các cộng sự [10] giải quyết vấn đề trích xuất thuật ngữ khía cạnh,

đặc biệt là trích xuất thuật ngữ khía cạnh cấp độ cụm từ cho ABSA Được

thúc đây bởi các nghiên cứu về bài toán ghi nhãn theo trình tự, chăng hạnnhư nhận dạng thực thé có tên trong tiếng Trung Quốc, tác giả đề xuất kết

hợp các mạng cấu thành trong mô hình học sâu dé tận dụng thông tin cú pháp

một cách rõ ràng cho việc trích xuất cụm từ khía cạnh Các tác giả mô tả

cách thu được mang constituency từ cây phân tích cú pháp constituency va

mã hóa chúng trong hai mô hình học sâu là BILSTM-CRE và BERT Các thi

nghiệm mở rộng được thực hiện trên hai bộ dữ liệu điểm chuẩn dé đánh giáhai mô hình và kết quả thử nghiệm xác nhận mức độ hiệu quả của chúng với

1,35 điểm Fl-Measure cao hơn so với các phương pháp hiện đại tại thời

điêm bài báo được công bô.

12

Trang 30

(5) Hu va các cộng sự [11] dé xuất một framework trích xuất-sau đó phân loại

dựa trên khoảng (span), trong đó nhiều chuỗi ý kiến mục tiêu được trích xuất

trực tiếp từ câu đánh giá dưới sự giám sát của các ranh giới, và các phân cực

cảm xúc tương ứng sau đó được phân loại băng cách sử dụng biéu diễn chuỗi

ý kiến của chúng Các tác giả nghiên cứu thêm ba cách tiếp cận với

framework nay, đó là mô hình pipeline, mô hình joint và mô hình thu gọn.Công trình được lấy cảm hứng từ các bước tiến trong lĩnh vực đọc hiểu tự

động và trả lời câu hỏi tự động[12], trong đó mục tiêu của bài toán là phát

hiện ra một khoảng trong văn bản như là câu trả lời cho câu hỏi được đưa ra [13], [14].

(6) Xu va các cộng su [15] trình bày một mô hình chú ý có cau trúc gọn gàng và

hiệu quả bằng cách tông hợp nhiều chuỗi CRE tuyến tính Một thiết kế nhưvậy cho phép mô hình trích xuất các khoảng ý kiến theo khía cạnh cụ thể và

sau đó đánh giá tính phân cực của cảm xúc bằng cách khai thác các đặc điểm

ý kiến đã trích xuất Kết quả thử nghiệm trên bốn tập dữ liệu chứng minhtính hiệu quả của mô hình được đề xuất và phân tích của chúng tôi chứngminh rằng mô hình của chúng tôi có thể nắm bắt được các khoảng ý kiếntheo từng khía cạnh cụ thê

2.2 Tình hình nghiên cứu trong nước

Trong những năm gan đây, Việt Nam đang có gắng nỗ lực vươn lên trong lĩnh vựccông nghệ thông tin, xử lý ngôn ngữ tự nhiên là một vấn đề đang được quan tâm,

ngày càng có nhiều cộng đồng, tổ chức nghiên cứu và nhiều cuộc thi được tổ chức

để giúp đây mạnh việc phát triển lĩnh vực này Dữ liệu văn bản có mặt khắp mọinơi: nền tảng thương mại điện tử, các trang mạng xã hội, trang web, các khảo sát

Đây là một nguồn tài nguyên chứa những thông tin rất hữu ích Nhưng việc trích

xuất và phân loại rất tốn thời gian thực hiện, nhu cầu phân loại dữ liệu văn bản mộtcách hiệu quả để dễ dàng đưa ra quyết định và tự động hóa đã và đang được cácdoanh nghiệp ngày càng đây mạnh Hiện nay, có nhiều vấn đề liên quan đến xử lý

ngôn ngữ tự nhiên cân được đây mạnh nghiên cứu như:

13

Trang 31

e Ngày càng có nhiều người sử dụng các trang mạng xã hội, với việc ân danh

trên mạng Internet và tự do ngôn luận, mọi người có cơ hội thể hiện bảnthân, kéo theo đó có nhiều cá nhân có những bình luận tiêu cực, ảnh hưởngđến người khác, quản trị viên không thể tự mình xem xét và xóa từng bìnhluận có nội dung xấu Vì vậy, cần áp dụng một hệ thống tự động dé giúp đỡ

cho việc này.

e Thuong mại điện tử ngày càng phổ biến va phát triển tại Việt Nam, các

thông tin về khách hàng như các bình luận trên mạng xã hội, các thông tin vềcác trang mà khách hàng đã quan tâm là một nguồn dữ liệu quan trọng để

các nhà phân tích có thể nghiên cứu và đề xuất ra các sản phẩm phù hợp vớinhu cầu của người dùng bằng cách áp dụng các phương pháp về phân loại

văn bản.

So sánh với một số ngôn ngữ có tiềm lực và được nghiên cứu rộng rãi như TiếngAnh, tiếng Trung Quốc hay tiếng Tây Ban Nha Tiếng Việt vẫn còn là một ngônngữ nghèo, nghèo ở đây là về nguồn đữ liệu đã được khai thác (các bộ dữ liệu phục

vụ cộng đồng nghiên cứu) và về các giải thuật mô hình đã được áp dụng, triển khai

Ở Việt Nam đã có một số nghiên cứu nồi bật trong lĩnh vực này có thé kề đến như:

(1) Mai và cộng sự [16] đã thu thập đánh giá của người dùng về điện thoại thông

minh và chú thích một bộ ngữ liệu ABSA cho tiếng Việt bao gồm 2.098 câucho hai nhiệm vụ: OTE và phân tích cảm xúc Tác giả đề xuất một sơ đồ gắn

nhãn trình tự được kết hợp với mạng Bidirectional recurrent neural networks

(BRNN) và trường ngẫu nhiên có điều kiện (CRF) dé trích xuất ý kiến mục

tiêu đồng thời phát hiện cảm xúc của ý kiến người dùng Các thử nghiệm trêntập dữ liệu này cho thấy kiến trúc BRNN-CRE đạt được hiệu suất khá(BGRU-CRF 71,79% Fl-score) vượt trội hơn CRF với các đặc trưng lựa

chon thủ công (CRF 54,91% F1-score).

(2) Vào năm 2018, Câu lạc bộ xử lý ngôn ngữ và Tiếng nói tiếng Việt- The

Vietnamese Language and Speech Processing (VLSP) đã giới thiệu nhiệm vụcộng đồng đầu tiên ở Việt Nam về ABSA [17] VLSP 2018 cung cấp một bộ

14

Trang 32

dữ liệu ABSA trên tiếng Việt bao gồm các đánh giá về nhà hàng và khách

sạn được thu thập từ một trang đánh giá trực tuyến Bộ dữ liệu bao gồm 6

nhãn thực thé (RESTAURANT (in general), AMBIENCE, LOCATION,

FOOD, DRINKS, SERVICE) và 5 nhãn thuộc tính (GENERAL, QUALITY, PRICE, STYLE_OPTIONS, MISCELLANEOUS) That không may, bộ dữ

liệu ABSA tiếng Việt của VLSP 2018 vốn được lấy cảm hứng từ ABSAI5 chỉ được chú thích nhãn thực thê#thuộc tính và nhãn cảm xúc cho

SE-khía cạnh mà loại bỏ nhiệm vụ OTE

(3) Nguyễn và các cộng sự [18] trình bày một kho ngữ liệu được chú thích thủ

công cho các nghiên cứu về hai nhiệm vụ: phát hiện khía cạnh và phát hiệnphân cực cảm xúc Ngữ liệu này bao gồm 7.828 đánh giá về nhà hàng ở cấp

độ tài liệu Các tác giả cũng thực hiện một phương pháp học có giám sát với

các tính năng phong phú, dat được điểm FI là 87,13% cho phát hiện khía

cạnh và điểm F1 là 59,20% cho phát hiện phân cực cảm xúc.

(4) Đặng và các cộng sự [19] giới thiệu một ngữ liệu ở cấp độ câu được chú

thích với độ đồng thuận cao dé phân tích tình cảm dựa trên khía cạnh băng

tiếng Việt cho lĩnh vực nhà hàng và khách sạn Kho tài liệu của chúng tôi

bao gồm 10.005 và 9.737 câu đánh giá tương ứng cho lĩnh vực khách sạn vàlĩnh vực nhà hàng Kho ngữ liệu này được xây dựng cho hai nhiệm vụ phụ:

phát hiện danh mục khía cạnh và phân loại phân cực cảm xúc khía cạnh Ngoài ra, các tác giả cũng khám phá hiệu quả của các mô hình học máy đatác vụ và đơn lẻ khác nhau dựa trên kiến trúc thần kinh CNN, LSTM,BiLSTM và BERT Kết quả thí nghiệm cho thấy những kết luận quan trọng

Cách tiếp cận đa tác vụ tốt hơn cách tiếp cận đơn lẻ cho hầu hết các kiếntrúc Kiến trúc BERT đạt kết quả tốt nhất cho cả hai tác vụ và cả hai miền(86,96% Fl-score và 79,10% Fl-score cho nhiệm vụ phát hiện danh mục

khía cạnh tương ứng với dữ liệu nhà hàng và khách sạn; 74,88% Fl-score va

73,69% F1-score cho nhiệm vụ phân loại phân cực cảm xúc khía cạnh tương

ứng với dữ liệu nhà hàng và khách sạn).

15

Trang 33

(5) Đề nghiên cứu các mô hình ABSA cho thương mại điện tử, Phan và các cộng

sự [20] đã xây dựng bộ dữ liệu UIT-ViSFD, một bộ dữ liệu điểm chuẩn choABSA tiếng Việt được xây dựng trên những nguyên tắc khắt khe UIT-ViSFD gồm 11.122 bình luận về điện thoại thông minh trên nền tảng thương

mại điện tử được chú thích thủ công hoàn toàn Tác giả cũng trình bày một

phương pháp dựa trên kiến trúc BiLSTM với một mô hình world embedding

đào tạo trước là fastText cho bài toán ABSA tiếng Việt Các thử nghiệm của

tác giả đạt 84,48% Fl-score cho nhiệm vụ phát hiện khía cạnh và 63,06%

Fl-score cho nhiệm vụ phát hiện cảm xúc cho khía cạnh Bên cạnh đó, tác

giả cũng xây dựng SA2SL, một hệ thống lắng nghe mạng xã hội dựa trên môhình đạt hiệu suất tốt nhất trên UIT-ViSED với mong muốn tạo động lực chocác hệ thống lang nghe xã hội trong tương lai

Tuy đã nhận được sự quan tâm của cả cộng đông nghiên cứu học thuật và các doanh

nghiệp, các bài toán về ABSA vẫn chưa được giải quyết triệt để và vẫn còn nhiều

thách thức đòi hỏi cân có nhiêu công trình nghiên cứu hơn đê các mô hình đạt kêtquả tốt, từ đó áp dụng vào các hệ thông phục vụ cho kinh doanh, xã hội

2.3 Kết luận

Nhờ có cách mạng công nghiệp 4.0, dữ liệu trở thành một kho báu vô giá, công

cuộc số hóa dẫn đến việc các hướng nghiên cứu công nghệ thông tin ngày càng

được quan tâm Xử lý ngôn ngữ tự nhiên ngày nay đang thu hút được rất nhiều sự

quan tâm trên toàn thế giới, đặc biệt bài toán phân tích cảm xúc là tiền đề quantrọng cho việc khai thác nhiều lĩnh vực trong đời sống Khi mà bài toán phân tíchcảm xúc xem như đã được giải quyết một phần khi có kết quả khá cao, các nhà

nghiên cứu đã tìm ra hướng đi mới, phân tích cảm xúc chỉ tiết vào từng khía cạnh

của thực thể, đây là một bài toán khó và vẫn còn gây thách thức Do vậy thông qua

việc nghiên cứu, tham khảo các công trình liên quan về chủ đề phân tích cảm xúc

cho khía cạnh, chúng tôi thây được vẫn còn một vài hạn chế:

16

Trang 34

e Trên thế giới, đã có một số công trình nghiên cứu xây dựng dữ liệu phục vụ

cộng đồng nghiên cứu cho bài toán phân tích cảm xúc trên khía cạnh trênmột số lĩnh vực cụ thé như dữ liệu đánh giá nhà hàng khách sạn, laptop, điệnthoại thông minh, thiết bị điện tử, Tuy nhiên, đối với một ngôn ngữ còn khánghèo nàn về mặt tài nguyên nghiên cứu, chỉ có một số bộ dữ liệu về lĩnh

vực nhà hàng khách sạn và điện thoại thông minh với quy mô đữ liệu vừa và

nhỏ được công bồ

e_ Bên cạnh đó, các bộ dữ liệu ABSA tiếng Việt hầu như chỉ cho phép cộng

đồng nghiên cứu các bài toán thuộc các nhiệm vụ phụ là phát hiện khía cạnh

và phân tích cảm xúc mà bỏ qua một phần trong bài toán được giới thiệu từ

lâu ở SE-ABSA14 là phát hiện mục tiêu ý kiến

e Nguyên nhân do hạn chế về dữ liệu phục vụ phát hiện ý kiến người dùng

trong bài toán ABSA tiếng Việt nên các phương pháp, mô hình phục vụ cho

nhiệm vụ nay cũng chưa được nghiên cứu kỹ lưỡng.

17

Trang 35

Chương 3 BO DU LIEU UIT-ViSD4SA

Đến với giai đoạn đầu tiên trong quá trình thực hiện dé tài, chúng tôi sé tạo bộ dữliệu mới dựa trên bộ dit liệu chuẩn do Phan và các cộng sự [20] đề xuất Chúng tôi

phát triển bộ dữ liệu phân tích cảm xúc dựa trên khía cạnh thành bộ dữ liệu phát

hiện chuỗi ý kiến cho phân tích cảm xúc dựa trên khía cạnh Quy trình phát triển bộdit liệu được tiên hành như sau:

Hình 2 Quy trình tổng quan xây dựng bộ dữ liệu

Dé bat đầu, đội ngũ chú thích chỉnh sửa và bổ sung các nguyên tắc chú thích từPhan và các cộng sự [20] để hiểu rõ định nghĩa khoảng ý kiến cho từng cặp khíacạnh cảm xúc và cách chú thích đúng nhãn cho chuỗi ý kiến Tiếp theo, các thànhviên trong nhóm chú thích được đảo tạo với hướng dẫn gán nhãn đã được xây dựng.

Quá trình đảo tạo này phải đảm bảo 2 yếu tố: các thành viên được đảo tạo đồng thời

và như nhau, kết thúc quá trình đào tạo độ đồng thuận được tính bằng F1-score phảiđạt trên 80% Dữ liệu được chia đều cho các thành viên trong nhóm để chú thíchđộc lập nhằm đạt được hiệu suất tối đa trong quá trình chú thích Cuối cùng chúngtôi kiểm tra chất lượng bộ dữ liệu và đưa ra phân tích tập dữ liệu giúp các chuyêngia có các nhìn tổng quan về phân tích dữ liệu của bộ dữ liệu này

3.1 Xây dựng dữ liệu

Chúng tôi sử dụng tập dữ liệu UIT-VISED [20] được thu thập từ một trang web thương mại điện tử dành cho điện thoại thông minh tại Việt Nam, trang web nàycho phép khách hàng viết các bài đánh giá chỉ tiết về điện thoại thông minh họ đã

mua hoặc sử dụng Trong các bài đánh giá, người dùng đưa ra ý kiến tích cực, trung

lập hoặc tiêu cực về nhiều khía cạnh một cách rõ ràng hoặc an ý, chăng hạn như

máy ảnh, giá cả, pin, dich vụ, tinh năng, hiệu suất, v.v Tập dữ liệu bao gồm 11.122phản hồi với bốn thuộc tính: comment (đánh giá của người dùng điện thoại), n_star

(mức độ hài lòng), date_ time (thời gian người dùng đăng tải đánh giá), và label (chú

18

Trang 36

thích của đánh giá) Bang 1 tóm tắt mười khía cạnh trong hướng dẫn gán nhãn, va

mỗi khía cạnh có một trong ba phân cực cam xúc: positive (tích cực), negative (tiêu

màu sắc hoặc công nghệ hiên thi.

Các nhận xét đề cập đến chất lượng của máy ảnh, độ rung,

CAMERA ~ ; ,

độ tré, tiêu điêm hoặc màu sac hình anh.

Người dùng đề cập đến các tính năng, cảm biến vân tay,FEATURES kết nối wifi, cảm ứng hoặc nhận diện khuôn mặt của điện

thoại.

BATTERY Các nhận xét mô tả dung lượng pin hoặc chất lượng pin

Cac bài đánh gia mô tả khả năng hoạt động, chip xử lý,

PERFORMANCE ; : ; ;

hiệu suât sử dung hoặc độ mượt cua điện thoại.

Các ý kiến đề cập đến dung lượng lưu trữ, khả năng mở

STORAGE

rộng dung lượng qua thẻ nhớ.

Các bài đánh giá đề cập đến kiểu dáng, thiết kế hoặc vỏ

DESIGN

bọc.

PRICE Các bình luận đề cập đến giá của điện thoại

Các đánh giá của khách hàng thường nhận xét về điện

Trang 37

3.1.1 Định nghĩa chuỗi ý kiến và hướng dẫn gán nhãn

Dựa trên định nghĩa rõ ràng và chỉ tiết trong hướng dẫn gán nhãn đã được xây dựngbởi Phan và các cộng sự [20], chúng tôi định nghĩa chuỗi ý kiến cho từng khía cạnh

và chỉnh sửa hướng dẫn gán nhãn của Phan và các cộng sự để những người chú

thích dé dàng xác định được chuỗi ý kiến và chú thích chính xác Chúng tôi sử dụng

lại mười khía cạnh được định nghĩa như trong Bảng 1, với mỗi khía cạnh được đềcập trong bài đánh giá, phân cực cảm xúc cho khía cạnh được gắn nhãn làPOSITIVE, NEUTRAL hoặc NEGATIVE Chuỗi ý kiến được định nghĩa là khoảng

ký tự ngăn nhất chứa ý kiến của người dùng liên quan đến các khía cạnh Với mườikhía cạnh được định nghĩa từ trước, người chú thích được yêu cầu chú thích các

khoảng ý kiến hướng tới các khía cạnh với các phân cực cảm xúc của mỗi bài đánh

giá.

Với mỗi đoạn đánh giá về điện thoại thông minh có nhắc tới các khía cạnh trongBảng | rõ ràng hoặc ấn ý, ý kiến về khía cạnh đó và cảm xúc của người dùng về

khía cạnh được chú thích là khía cạnh#cảm xúc như Bảng 2 dưới đây.

Bảng 2 Ví dụ minh họa các khoảng ý kiến dé phân tích tình cảm dựa trên khía cạnh

băng tiêng Việt.

Bình luận Nhãn

May đẹp, sang, sd thì rat là ok máy mượt.

Pin sd cũng rất lâu mới hết, nhiều khi cả 0, 13, "DESIGN#POSITIVE"

ngày và qua luôn ngày hôm sau mới sạc, 15, 31, "GENERAL#POSITIVE"

sạc rat nhanh khoảng chừng 1 tiếng 5 phút

32, 40,

"PERFORMANCE#POSITIVE"

là đầy rồi, ko lâu như iPhones mat gần 3

đến 4 tiếng day Chi sd dé lướt web,

facebook, youtube Nghe nhạc rất hay đặc | 42 175, "BATTERY#POSITIVE"

biệt là nghe bằng tai nghe AKG Rấtxứng | 315, 346, "GENERAL#POSITIVE"

đáng với sô tiên bỏ ra.,

20

Trang 38

Quá trình gan nhãn được chia thành các giai đoạn chi tiết như sau Dé bắt đầu,

chúng tôi đào tạo người chú thích với hướng dẫn gán nhãn đã xác định trong phần3.1.1 bằng cách gan nhãn cùng nhau dé cùng làm rõ những thắc mắc về hướng dan

gán nhãn Sau đó chúng tôi tiến hành gán nhãn thử nghiệm và tính độ đồng thuậnFl-score giữa các thành viên ở mỗi lần thử nghiệm, chúng tôi lấy ngẫu nhiênkhoảng 30-70 bài đánh giá trong tập dữ liệu và chú thích dựa theo nguyên tắc chú

thích Tiếp theo, chúng tôi tính toán F1- score trên mỗi bài đánh giá cho những dữ

liệu đã được chú thích đó Khi độ đồng thuận chưa đạt trên 80%, chúng tôi mở cuộchọp giữa những người chú thích cùng thảo luận dé quyết định nhãn cuối cùng và tổchức một cuộc thăm dò bỏ phiếu đối các trường hợp không thống nhất, sau đó làm

rõ thuật ngữ mở hồ hoặc bồ sung thuật ngữ chưa biết trong hướng dẫn Các thànhviên trong nhóm chú thích đã trải qua 4 lần thử nghiệm dé đạt được điểm F1 cao

trên 80% trước khi thực hiện chú thích dữ liệu một cách độc lập Hình 4 cho thấy

điểm F1 trong các giai đoạn thử nghiệm Lan thử nghiệm đầu tiên cho thay sự thốngnhất giữa các thành viên chưa tốt, tuy nhiên sau mỗi lần thử nghiệm điểm F1 đềutăng đáng kẻ, đến lần thứ 4 chúng tôi đạt được sự thống nhất trên 80% và tiến hànhchia ngẫu nhiên dữ liệu dé gan nhãn độc lập

21

Trang 39

Lan I Lan 2 Lan 3 Lan 4

Hình 4 Kết quả 4 lần đo độ đồng thuận F1-score

Xem một chú thích là một bộ ba thành phần (d,l,o), trong đó:

- d laid tài liệu,

- llànhãn

- 0 là danh sách các bộ ký tự đầu cuối

Một người chú thích í đóng góp một tập gồm nhiều 4; các chuỗi ý kiến Chúng tôitính độ đồng thuận theo công thức (1) cho mỗi tổ hợp hai người chú thích và lấy ra

trung bình cộng F1 trên tất cả các tô hợp này [2I] Nhóm các chú thích theo đoạn

bình luận hoặc nhãn cho phép chúng tôi tính toán F1 theo đoạn bình luận hoặc theo nhãn.

Bang 3 dưới đây cho thấy số liệu thống kê tổng thé của các tập huấn luyện (train),

tập phát triển (dev) và tập kiểm tra (test) trong bộ dữ liệu của chúng tôi Tập dữ liệu

22

Trang 40

UIT- ViSD4SA của chúng tôi bao gồm 35.396 khoảng trên 11.122 bình luận Các

sỐ lượng đánh giá, số nhãn khía cạnh trung bình trên mỗi nhận xét và nhãn có chứacác phân cực cảm xúc được trình bày trong Bảng 3 dưới đây.

Bảng 3 Tổng quan thống kê của bộ dữ liệu UIT-ViSD4SA

Train Dev Test

Số đánh giá 7784| 1.113] 2.225

Số nhãn khía cạnh trung bình trên mỗi nhận xét 3,2 3,1 3,2

Chiéu dai trung binh chuỗi 32,6 324 32,5

Số nhãn có cảm xúc POSITIVE 15.356 2.1101 4.366

Số nhãn có cảm xúc NEGATIVE 7.937 1.144 | 2.269

Số nhãn có cảm xúc NEUTRAL 1.560 241 413

Tổng số chuối ý kiến được gan nhãn 35.396

Thông qua phân tích cơ bản, tập dữ liệu có sự phân bổ không đồng đồng đều giữa

các nhãn cảm xúc Các nhãn tích cực (POSITIVE) chiếm số lượng đáng kể là61,68%, tiếp theo là là nhãn tiêu cực (NEGATIVE) chiếm 32,07% và nhãn cảm xúc

có số lượng thấp nhất là nhãn trung tính (NEUTRAL) chiếm 6,25% Trung bình,các bài đánh giá có 3 nhãn khía cạnh, với mỗi nhãn được gán có độ dài khoảng 32

ký tự.

23

Ngày đăng: 03/11/2024, 17:37

HÌNH ẢNH LIÊN QUAN

Hình 1 cho thấy quy trình nghiên cứu nhận dạng chuỗi ý kiến của chúng tôi. Quy trình gồm hai giai đoạn lớn là phát triển bộ dữ liệu UIT-ViFSD (Phan và các cộng sự) thành - Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận dạng chuỗi ý kiến cho phân tích cảm xúc dựa trên khía cạnh bình luận điện thoại thông minh trên tiếng Việt
Hình 1 cho thấy quy trình nghiên cứu nhận dạng chuỗi ý kiến của chúng tôi. Quy trình gồm hai giai đoạn lớn là phát triển bộ dữ liệu UIT-ViFSD (Phan và các cộng sự) thành (Trang 6)
Hình 2 Mạng BILSTM-CRE với lớp nhúng từ - Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận dạng chuỗi ý kiến cho phân tích cảm xúc dựa trên khía cạnh bình luận điện thoại thông minh trên tiếng Việt
Hình 2 Mạng BILSTM-CRE với lớp nhúng từ (Trang 9)
Hình nhúng từ tiên tiến). - Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận dạng chuỗi ý kiến cho phân tích cảm xúc dựa trên khía cạnh bình luận điện thoại thông minh trên tiếng Việt
Hình nh úng từ tiên tiến) (Trang 10)
Hình và cải thiện - Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận dạng chuỗi ý kiến cho phân tích cảm xúc dựa trên khía cạnh bình luận điện thoại thông minh trên tiếng Việt
Hình v à cải thiện (Trang 11)
Hình 1 Hệ thong đánh gia của một trang thương mai điện tử ở Việt Nam. - Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận dạng chuỗi ý kiến cho phân tích cảm xúc dựa trên khía cạnh bình luận điện thoại thông minh trên tiếng Việt
Hình 1 Hệ thong đánh gia của một trang thương mai điện tử ở Việt Nam (Trang 26)
Bảng 1 Danh sách 10 khía cạnh và định nghĩa ngắn gọn. - Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận dạng chuỗi ý kiến cho phân tích cảm xúc dựa trên khía cạnh bình luận điện thoại thông minh trên tiếng Việt
Bảng 1 Danh sách 10 khía cạnh và định nghĩa ngắn gọn (Trang 36)
Bảng 2 Ví dụ minh họa các khoảng  ý kiến dé phân tích tình cảm dựa trên khía cạnh - Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận dạng chuỗi ý kiến cho phân tích cảm xúc dựa trên khía cạnh bình luận điện thoại thông minh trên tiếng Việt
Bảng 2 Ví dụ minh họa các khoảng ý kiến dé phân tích tình cảm dựa trên khía cạnh (Trang 37)
Hình 3 Quy trình gán nhãn chỉ tiết. - Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận dạng chuỗi ý kiến cho phân tích cảm xúc dựa trên khía cạnh bình luận điện thoại thông minh trên tiếng Việt
Hình 3 Quy trình gán nhãn chỉ tiết (Trang 38)
Hình 4 Kết quả 4 lần đo độ đồng thuận F1-score. - Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận dạng chuỗi ý kiến cho phân tích cảm xúc dựa trên khía cạnh bình luận điện thoại thông minh trên tiếng Việt
Hình 4 Kết quả 4 lần đo độ đồng thuận F1-score (Trang 39)
Bảng 3 Tổng quan thống kê của bộ dữ liệu UIT-ViSD4SA - Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận dạng chuỗi ý kiến cho phân tích cảm xúc dựa trên khía cạnh bình luận điện thoại thông minh trên tiếng Việt
Bảng 3 Tổng quan thống kê của bộ dữ liệu UIT-ViSD4SA (Trang 40)
Hình 5 Biéu đồ thống kê bộ dữ liệu theo 10 nhãn khía cạnh va 3 nhãn cảm xúc. - Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận dạng chuỗi ý kiến cho phân tích cảm xúc dựa trên khía cạnh bình luận điện thoại thông minh trên tiếng Việt
Hình 5 Biéu đồ thống kê bộ dữ liệu theo 10 nhãn khía cạnh va 3 nhãn cảm xúc (Trang 41)
Bảng 4 Thống kê số lượng chỉ tiết nhãn khía cạnh và cảm xúc. - Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận dạng chuỗi ý kiến cho phân tích cảm xúc dựa trên khía cạnh bình luận điện thoại thông minh trên tiếng Việt
Bảng 4 Thống kê số lượng chỉ tiết nhãn khía cạnh và cảm xúc (Trang 42)
Hình 6 Mô hình BilSTM-CRF kết hop với lớp embedding từ syllable embedding, - Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận dạng chuỗi ý kiến cho phân tích cảm xúc dựa trên khía cạnh bình luận điện thoại thông minh trên tiếng Việt
Hình 6 Mô hình BilSTM-CRF kết hop với lớp embedding từ syllable embedding, (Trang 44)
Hình 8 Cấu trúc hoạt động của một mạng BiLSTM so sánh với mạng LSTM - Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận dạng chuỗi ý kiến cho phân tích cảm xúc dựa trên khía cạnh bình luận điện thoại thông minh trên tiếng Việt
Hình 8 Cấu trúc hoạt động của một mạng BiLSTM so sánh với mạng LSTM (Trang 47)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN