Bang cách tận dụng các nghiên cứu mới, sử dụng AI cùng với các dữ liệu phát sinh trong quá trình cung cấp dịch vụ, ta có thé phân tích các mẫu dữ liệu phức tạp và dự đoán khả năng rời mạ
Trang 1ĐẠI HỌC QUỐC GIA TP HCMTRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
HOANG HAI NAM
LUAN VAN THAC SINGANH CONG NGHE THONG TIN
Trang 2LỜI CAM ĐOAN
Tôi xin cam đoan những nội dung trình bày trong luận văn “Ứng dụng AI dựđoán thuê bao rời mạng dịch vụ internet VNPT” là kết quả của sự phân tích nghiên
cứu và quá trình thực nghiệm do bản thân tôi tự thực hiện.
Pham vi tìm hiểu, tim doc va lam luận văn này tôi có dùng và trích dẫn cáccông trình khoa học từ một số nguồn lược khảo nhất định, các nội dung lược khảođều được tôi viện dẫn và ghi rõ nguồn gốc
Trong luận văn không có bat kỳ các thông tin hay nguồn tai liệu nghiên cứu
từ các nhà khoa học khác được viện dẫn trong lúc thực hiện đề tài này khi không
có ghi rõ trích dẫn theo đúng các quy định đã ban hành của trường.
Thành phó Hồ Chí Minh, ngày 7 tháng 6 năm 2024
Tác giả
Hoàng Hải Nam
Trang 3LỜI CẢM ƠN
Từ thời điểm tìm kiếm đến khi thực hiện xong bài luận văn, tôi rất biết ơn tất
cả sự hướng dẫn, động viên và sự hỗ trợ từ phía Nhà trường, Thầy Cô, bạn bè,
đồng nghiệp và Gia đình
Tôi xin gửi lời chân thành cảm ơn đến Thầy hướng dẫn là TS Nguyễn ThanhBình và TS Nguyễn Vũ Anh Quang đã nhiệt tình chỉ dẫn trong suốt thời gian tìmhiểu, nghiên cứu thực ngiệm cho đến thời điểm hoàn thành bài luận văn tại trường
Tôi chân thành gửi lời tri ân đến các Quý Thầy Cô trong Phòng Đảo tạo SauĐại học của trường Đại học Công nghệ Thông tin đã hỗ trợ cũng như cung cấp chotôi những tri thức, kiến thức, hướng dẫn các thủ tục và các kinh nghiệm quý giácho tôi trong suốt quá trình học tập nghiên cứu ở trường
Đồng thời, tôi cũng muốn gởi những lời cảm ơn chân thành tới Gia đình, bạn
bè và các đồng nghiệp Công ty đã hỗ trợ tôi trong suốt toàn bộ quá trình học vàthực nghiệm nhằm hoan thành nội dung bai luận văn nay
Với khoảng thời gian ngắn đồng thời kiến thức bản thân tôi còn có nhiều hạnchế, do đó bài luận văn chắc chắn vẫn còn các thiếu sót Tôi rất mong sẽ nhận đượcnhững lời khuyên, góp ý của quý Thầy Cô
Trang 4MỤC LỤC
Lời Cam đOan - c9 000 0 0000080301080 080003018003.108018 3
LOT CAM ƠP có THỌ cọ Họ HT 4
Danh mục các ký hiệu và chữ viết tắt cac gseexersesere 9
1.4 Phạm vi của nghiên CỨU ccsccesssscsssccesseecssssecssesecsseeeessneeessseeesseeeeseeeeens 18
1.5 So sánh với các nghiên cứu liên quan << << « s S1 S331 1# 19
1.6 Cấu trúc luận VAN - 22 0E 2 030101030 E13 9 E030 KH E03 5 8875 E25 20 CHƯƠNG 2 CƠ SỞ LÝ THUYET 2-5252 cve+rsrrrsrrrsrrrsrrrrrrerrree 21
2.1 Các bước quá trình chăm sóc khách hàng của VNPT . - «««<« 21
2.1.1 Tim hi€u thong 01077 21
2.1.2 LUa CHON i0 0a a 21
2.1.3 Ký kết hợp đồng - tt HH1 1111011111111 rree 21
2.1.4 Lắp đặt dịch vụ ¿-::Sc tk tt HH1 111111111111 10111 HH ưêt 22
2.1.5 Bảo tri, sỬa ChẴỮa - ¿Là E11 3113123115151 H1 TH TH TT TT TH TH HH Hư 22
Và NT 1830331510-000 22 2.1.7 Thanh lý hợp đồng +: + 12t v3 v cv vn ng gi 22
2.2 Tổng quan về AI và Ứng dụng - c< se sssessseerseessessssersserse 22
Trang 52.2.1 Khái niệm về Al vce cececcescescecceccccesceccsccssvscesscsscescaecasersvsevsecescescauessenatsatase 22
2.2.2 (hàn NẠI 24
2.2.3 Quy trình phân tích dữ liệU 5 S1 k SH TT Hư 25
2.2.4 Một số khái niệm khác trong quy trình phân tích máy học 29
CHƯƠNG 3 Bài toán dự đoán thuê bao rời mạng - cscSSs<<<<+ 34
EhNc 1.0 27 ÔỎ 34
3.2 Các mô hình máy học được sử dụng - - - «<< S191 118 12s, 34
3.2.1 Thuật toán K láng giềng gần - KNN -¿- 2S 22t v22 xrereeererree 34
3.2.2 Mô hình Naive Bayes [9] - - k2 n HH TH TH ng ng giếng 36
3.2.3 Hồi quy Logistic [10] ¿+2 +22232t23E2+3xx£vStxexexexexessrrkererexexrersre 37
3.2.4 Mô hình SVM [11] - tt kén H21 rệt 37
3.2.5 Mô hình cây quyết định - DT [12] ¿- ¿5+ ©+S+++x+x+ezeEsrexexexsesexsrsse 39
3.2.6 Mô hình rừng ngẫu nhiên [13] - +5 + +52 5£ £rxerereersrerxrseree 40
3.2.7 Phương pháp tang CƯỜng - + n1 TH HH ng ng ng ng 41
3.3 Các mô hình học sâu được sử AUN - - (<< S1 1 91189 1 me 47
3.3.1 Mạng nơ-ron nhân tạo - LG 2 1111111 11 9 1H ng vn HH 47
3.3.2 Mạng nơ ron tích chập [20] - - 2c 3 2 E3 net 49
3.4 Hiện trạng bài toán về dự đoán thuê bao rời mạng dịch vụ viễn thông 51
3.4.1 Mô hình dự đoán thuê bao rời mạng sử dụng các thuật toán phân tích hồi quy, cây quyết định và mạng nơ-ron nhân tạo ¿- 5 22 Se Sex crreeersresrereree 51
3.4.2 Dự đoán khách hàng rời bỏ trong ngành Viễn thông sử dụng thuật toán bộ
phân loại rừng ngẫu nhiên - 5< 1S St 2 22121112111111111111121.1.1111.111121 1111 52
3.4.3 Mô hình dự đoán khách hàng rời mạng trong ngành Viễn thông sử dụng kỹ
Thuat 8r 832121117077 53
3.4.4 Kết hợp XGBoost và Smote-enn để cải thiện độ chính xác của dự đoán
khách hàng rời bỏ trong ngành viễn thông - ¿- 52 St E2vErrrrrkrrrrrerrvee 54
Trang 63.4.5 Các mô hình CCP trên nhiều bộ dữ liệu khác nhau 5-5 -s+ 55 CHƯƠNG 4 CHI TIẾT THỰC NGHIỆM VÀ KẾT QUA - << <2 56
4.1 Môi trường thực nghiệm và các bộ dữ liệu 2 << <5 S5 s35 56
4.2 Tổng quan quy trình tiến hành thực nghiệm - . «5< << sesssss 57
4.3 Tiền xử lý dữ liỆU (Ăn HT TH TT TH TT TH ng 58
4.3.1 Làm sạch dữ liỆU - LG 11 S119 112111 11 0110111 111v HH HH Hy nườn 58
4.3.2 ChUy@n GO: 0 8n dA Ô 61
4.4 Phân tích dữ liệu khám phá - - -G - S0 HH g0 65
4.4.1 Truc Quan N6a AT 1 65
4.4.2 Các trường hợp thuê bao có khả năng cao rời bỏ - +: +5 +52 70
4.5.5 Kết quả mô hình rừng ngẫu nhiên - 22 ¿552 SS++x+Ecrexereresresrxee 85
4.5.6 Kết quả mô hình cây quyết định -¿- + sc 22t se Exeerxrrrrrerexexree 86
4.5.7 Kết quả mô hình dự đoán Adaboost ¿5c S2 +x+t+txvsessrssercee 88 4.5.8 Kết quả mô hình Gradient BOost ¿- 5s S2 St S2 SEsxeevrxvrrererrxerree 90
4.5.9 Kết quả mô hình XGBOOSE - (c2 S122 SEE E3 121211152 11111112111xckrke 91 4.5.10 Kết quả model mạng nơ-ron nhân tạo 2-5252 c+c+s+s+ssesesecse+ 93
4.5.11 Kết quả mô hình mạng neural tích chập -. -¿- - +52 +++s++s+s+sss2 95 4.6 So sánh kết quả các mô hình dự đoán «c5 sssesseerseesse 98
4.6.1 Về độ chính Xác - E5 k SE SE kE S3 E1 1 E31 11 1T T1 HH Tưng 99
4.6.2 Khả năng dự đoán tỉ lệ thuê bao rời mạng . -¿- ¿5+ c+++<+x++<+2 99
Trang 7CN in 100
4.6.4 Thời gian huấn luyện - -¿- 6L 1221212114141 1 121181111111 0111 61 tre, 100
CHƯƠNG 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .- 5-5-5556 csc+ 102
5.1 c8 102
5.2 Dinh hurGng 1 2,0 102
TÀI LIEU THAM KHẢO 5-11 v.v HH he 103
Trang 8DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIET TAT
Ký hiệu Nghĩa tiếng Việt Nghĩa tiếng Anh
AI Trí tuệ nhân tạo Artificial intelligence
ARPU Don vị doanh thu trung bình | Average Revenue per Unit
ANN Mang noron nhan tao Artificial neural networks
ML May hoc Machine learning
MSE Trung binh cua b inh phương Mean Squared Error
Các sai sO
CNN Mang no-ron tich chap Convolutional Neural
GRU Công nút hồi tiếp Gated recurrent units
LSTM Mang bộ nhớ dai và ngắn Long short-term memory
DL Học sâu Deep learning
RMSE Trung bình của các sai số Root Mean Squared Error
MAPE Trung binh của phân trăm sai Mean Absolute Percent
sô tuyệt đôi ErrorLTD Khu vực khoảng cách thấp Lower Distance Zone
UTD Khu vuc khoang cach cao Upper Distance Zone
PAC Gần như chính xác Probably Approximately
CorrectISP Nhà cung cấp internet Internet Service Provider
DT Cây quyết định Decission Tree
CCP Dự đoán thuê bao rời mang Customer Churn Prediction
PM Mô hình dự đoán Prediction Model
CSKH Chăm sóc khách hàng
MAE Trung bình sai số tuyệt đối Mean absolute error
LR Hồi quy Logistic Logistic Regression
Trang 9DANH MỤC BANG
Bảng 4.1: Thuộc tinh tập dữ liệu - - c2 1S 1 ** E**vgnHry 56
Bang 4.2: Thuộc tính tập dữ liệu (tiẾp) - 2-2 52+2E22EE22EEcEEEtzExerrerrree 56 Bang 4.3: Các thuộc tinh còn thiếu dữ liệu - 2-2 52+ z+£x+zEzxsrxered 61 Bảng 4.4: Kết quả mô hình KNN - 2-52 2 2E2E2EE2EE2EE2EE2E1EEErrrrrkrrei 78 Bảng 4.5: Kết quả dự đoán mô hình Naive Bayes . ¿©22z 55c 80 Bang 4.6: Kết quả dự đoán mô hình hồi quy Logistic 2-2 s52 82
Bảng 4.7: Giá trị điều chỉnh siêu tham số mô hình hồi quy Logistic 82
Bang 4.8: Kết quả du đoán mô hình SVM o ccccccccsessseessesseesseesseessesssesssesseessees 83 Bang 4.9: Giá trị siêu tham số tinh chỉnh tốt nhất mô hình SVM 84
Bang 4.10: Ma tran nhằm lẫn và các hệ số dự đoán mô hình SVM 84
Bang 4.11: Kết quả dự đoán mô hình rừng ngẫu nhiên 22- 2 s52 85 Bang 4.12: Giá trị điều chỉnh siêu tham số mô hình rừng ngẫu nhiên 86
Bảng 4.13: Kết quả dự đoán mô hình cây quyết định -¿ 2 5252 87 Bang 4.14: Giá trị điều chỉnh siêu tham số mô hình cây quyết định 87
Bang 4.15: Giá trị điều chỉnh siêu tham số mô hình adaboost - 89
Bảng 4.16: Giá trị điều chỉnh siêu tham số mô hình XGBoost 92
Bảng 4.17: Kết quả dự đoán mô hình mang nơ-ron nhân tạo : 93
Bảng 4.18: Bảng giá trị tỉnh chỉnh siêu tham số mô hình mạng nơ-ron nhân tạo93 Bảng 4.19: Gia tri ham mat mat và độ đo chính xác mô hình mạng no-ron nhân 2 94
Bang 4.20: Kết quả thực nghiệm mô hình mạng nơ-ron tích chập 96 Bảng 4.21: Giá trị điều chỉnh siêu tham số CNN -¿-2¿©cczcccccsxe 96
10
Trang 10Bảng 4.22: Hàm mat mát và độ chính xác mô hình CNNBảng 4.23: So sánh kết quả các PM -
11
Trang 11DANH MỤC HÌNH VE, BIEU DO
Hình 1.1: Phạm vi cung cấp dịch vụ của VNPT TP Hồ Chí Minh 18Hình 2.1: Các bước trong vòng đời sản phẩm internet 2-2552 21
Hanh 2.2: Quy trinh may hoc wo Pe Ồ 25
Hình 3.1: Minh họa việc gan nhãn dữ liệu mới theo mô hình KNN 35Hình 3.2: Mô hình cây quyết định [ 12] -. -¿ 2z 5+225++x++zxzzxrzzxersreex 39
Hình 3.3: Mô tả thuật toán Adaboost [ Ï 6] -.- c5 S2 * 2 ssekrserrerreerres 43
Hình 3.4: Thuật toán Gradient BOOSE Q2 2c 1222113 2E ESrseirsrrerses 44
Hình 3.5: Sơ đồ cây XGBoost [1 ] 5 11521521 21212 EEEEEEE2EEEExErrrrki 46Hình 3.6: Sơ đồ minh họa 0001301909: 48
Hình 3.7: Gradient descent and stochastic gradient descent - - 49
Hình 3.8: Sơ đồ minh hoa mạng CNN [2 ] - 2s2+z+E+£xerxezrsrseres 50
Hình 4.1: Quy trình thực nghiệm - 2 c2 2 +22 £+£+*EE+eeersereeereeeres 58
Hình 4.2: Thuộc tính SOTHANGGH trước va sau khi xóa bỏ dữ liệu ngoại lệ 59
Hình 4.3: Mức độ quan trọng của các đặc trưng theo phương pháp ANOVA
F-Hình 4.4: F-Hình trên biéu thị kết quả sử dụng REECV 2¿©-25cs+cs¿ 63Hình 4.5: Độ quan trọng của các thuộc tính dựa trên kết quả của rừng ngẫu nhiên
Hình 4.6: Biểu đồ tong số thuê bao theo phân loại khách hàng (Bên trái) và tông
số thuê bao theo trạng thái thuê bao (Bên phải) -2-2¿ 55225552 65Hình 4.7: Khu vực có tỉ lệ rời mạng cao (trái) và khu vực có số thuê bao rời mạng
12
Trang 12Hình 4.9: Phân bồ số tháng sử dụng của thuê bao -22- 2 s+2sezs+zssred 67
Hình 4.10: Ma trận tương quan các thuộc tính trong tập dữ liệu 69
Hình 4.11: Phân bố giá trị đặc trưng SOLANTAMNGUNG 70
Hình 4.12: Phân bố giá trị của đặc trưng SOTHANGSD - s2 71 Hình 4.13: Phan bố giá trị của thuộc tính DIEMTINNHIEM - 71
Hình 4.14: Phân loại khách hang theo đối tượng - z2 s22 72 Hình 4.15: phân phối giá trị bến SOTHANGGH nhóm khách đã thanh lý 73
Hình 4.16: Tỉ lệ hủy của thuê bao có SOTHANGGH < II và SOLANTAMNGUNG > Ú Ác TH HH TT HH HH Hy 74 Hình 4.17: Tỉ lệ thanh lý theo điểm tín nhiệm 54 điểm - 2-5252 75 Hình 4.18: Phân bố điểm tín nhiệm thuê bao dùng nhỏ hơn 48 tháng và gia hạn < 3 lần Z 6t GP ÃM lỗ V/V 76
Hình 4.19: Anh hưởng của Thuộc tính SOLANDC 2 2z s+s+zszrs2 76 Hình 4.20: Hiệu suất dự đoán của mô hình KNN khi tinh chỉnh tham số K 79
Hình 4.21: Ma trận nhằm lẫn và các hệ số dự đoán mô hình KNN 79
Hình 4.22: Kết quả tinh chỉnh siêu tham s6 mô hình Naive Bayes 81
Hình 4.23: Ma trận nhằm lẫn và các hệ số dự đoán mô hình Naive Bayes 81
Hình 4.24: Ma trận nhằm lẫn và các hệ số dự đoán mô hình hồi quy Logistic 83
Hình 4.25: Ma trận nhằm lẫn và các hệ số của mô hình rừng ngẫu nhién 86
Hình 4.26: Ma trận nhằm lẫn và các hệ số của mô hình cây quyết dinh 88
Hình 4.27: Ma trận nhầm lẫn mô hình adaboosi 2 s+22+x+E2+E+EzEzzs+z 89 Hình 4.28: Ma trận nhầm lẫn và hệ số của mô hình Gradient Boost 91
Hình 4.29: Ma trận nhằm lẫn và hệ số mô hình XGBoost -: 92 Hình 4.30: Cấu trúc của mô hình mạng nơ-ron nhân tạo -«+- s52 94
13
Trang 13Hình 4.31: Ma trận nhằm lẫn và hệ số của mô hình mạng nơ-ron nhân tạo 95Hình 4.32: Cau trúc của mô hình CNN 2-2 2+E2+E2EeEEeEEeEEeEEerxrrrrees 97Hình 4.33: Ma trận nhầm lẫn và hệ số của mô hình mạng nơ-ron tích chap 98
Hình 4.34: Thời gian và độ chính xác của các PM -c c2 100
14
Trang 14MỞ DAU
Ở thời điểm hiện nay, công nghệ AI được tích hợp vào nhiều lĩnh vực nhằm
hỗ trợ cho con người trong các dự đoán, quan lý công việc, trong đó có nội dung
liên quan về quản lý thuê bao và chất lượng dịch vụ internet Ở các nước đã pháttriển, thị trường internet đã đạt đến sự bão hòa về tỷ lệ tiếp cận dịch vụ của kháchhàng và tăng trưởng thị phần Thách thức mà các ISP phải đối mặt là việc chuyểnđổi từ thu hút người dùng mới sang việc giữ chân thuê bao đang có Trong thực tế
sử dụng, có nhiều yếu tố khác nhau tác động đến việc thuê bao rời mạng hoặc tiếptục sử dụng Do đó, việc hiểu hành vi của khách hàng, khuyến khích họ chi tiêunhiều hơn và sau đó dự đoán tương lai bằng cách ngăn chặn sự ra đi của kháchhang là rất quan trọng Khi ngành công nghiệp đang tiến triển, thách thức lớn nhấtđối với các nhà điều hành là tương tác với người tiêu dùng và giữ chân sự trungthành bằng cách cung cấp các dịch vụ cạnh tranh và sáng tạo có giá trị cộng thêm
Trong khi việc hiểu nhu cầu của người tiêu dùng vẫn là quan trọng dé cảithiện việc giữ chân khách hàng, các mức giá va dịch vụ mới nổi khác có khả năngtác động lâu dài đến tỷ lệ thuê bao rời mạng (bao gồm cước phí gói dịch vụ, dịch
vụ tiện ích cộng thêm, hậu mai) Tình trạng thuê bao rời mạng có thể là tự nguyệntrong trường hợp họ muốn rời bỏ nhà mạng đang sử dụng thực sự, hoặc là rời mạngbat đắc di trong trường hợp hóa đơn chưa thanh toán khi đến chu kỳ tiếp theo Kỹthuật được dùng nhằm thực hiện các đánh giá dé mang lai két quả có độ chính xáccao trong lĩnh vực này là rất lớn và đa dạng Trong quy mô của bài luận này, mụctiêu sẽ hướng tới vào việc phân tích, thiết kế và triển khai PM sử dung AI dé đánhgiá xác suất rời mạng của thuê bao internet của nhà mạng VNPT TP Hồ Chí Minh
Dựa trên các thử nghiệm, tác giả ưu tiên lựa chọn và phân tích các PM khác nhau
dé phát hiện mô hình hợp lý có thể giúp các nhà phân tích tìm ra thuê bao rời mạngtrong lĩnh vực Internet.
Trong luận văn này, ta sẽ nghiên cứu hai nội dung quan trọng trong thị trường
viễn thông và các PM tương ứng, thông qua đó nhằm hiểu hành vi của thuê baotương ứng các đối thủ khác nhau: thị phần khách hàng của nhà mạng và mức độ
trung thành của thuê bao.
15
Trang 15Chương 1 Tổng quan
CHƯƠNG 1 TONG QUAN
1.1 Ly do chgn dé tai
Internet tại Việt Nam bắt dau xuất hiện từ giai đoạn 1997, đây là một tiễn bộ
để thay đổi thói quen, kinh tế và xã hội của Việt Nam; tạo ra một phương thức tìmkiếm tri thức khác cho con người Trải qua thời gian phát triển, hiện nay Việt Nam
là nước mạnh trong lĩnh vực Viễn thông — Internet với công nghệ hiện đại, mức
phô cập internet cao Cùng với số lượng người dùng lớn, số lượng các ISP cũngtheo đó gia tăng về số lượng và có sự cạnh tranh mạnh mẽ về thị phần
Hiện nay, tỉ lệ thuê bao internet tại nước ta đang ở mức cao, thị trường bắtđầu đi vào bão hòa, xu hướng người sử dụng mới thấp dần và thay vào đó là lượngkhách hàng chuyền dịch từ ISP này sang ISP khác hoặc ngược lại Để các ISP cóthể giữ vững thị phần có sự cạnh tranh khốc liệt ngày nay, viéc hiểu rõ và dự đoánđúng nhu cầu là yếu tố quan trọng đề duy trì và mở rộng thị phần Bang cách tận
dụng các nghiên cứu mới, sử dụng AI cùng với các dữ liệu phát sinh trong quá
trình cung cấp dịch vụ, ta có thé phân tích các mẫu dữ liệu phức tạp và dự đoán
khả năng rời mạng của khách hang một cách chính xác hơn, hỗ trợ các ISP chủ
động thực hiện các biện pháp nhằm can thiệp kịp thời với mục tiêu giữ chân khách
hàng.
Các ISP đang phải đối mặt với áp lực hỗ trợ khách hàng ngày đòi hỏi khắtkhe, không chỉ internet, dịch vụ còn phải đảm báo các nội dung giải trí bao gồm
âm thanh, video Đằng sau khó khăn của dịch vụ ba trong một là nhu cầu cung cấp
đến người dùng các trải nghiệm chất lượng cao, dù khi họ sử dụng dịch vụ hoặc
khi họ yêu cầu sự trợ giúp từ ISP của họ [1] VNPT TP Hồ Chí Minh là một trongcác ISP quy mô lớn về dịch vụ internet bên cạnh các nhà mạng khác VNPT cũng
có một lượng thuê bao trong trạng thái rời bỏ dé chuyền sang ISP khác Do vậy,
dé việc duy trì doanh thu và giữ vững thị phần, việc VNPT nghiên cứu và dự đoánhành vi rời mạng của thuê bao là việc làm cần thiết Mặt khác AI đang dẫn dắt sựthành công của nhiều lĩnh vực khác nhau, và việc áp dụng AI vào CCP trong ngànhviễn thông không chỉ mang đến kết quả kinh doanh cao hơn mà còn tao ra sự đổi
16
Trang 16Chương 1 Tổng quan
mới và tiến bộ trong lĩnh vực này Nhằm tận dụng các lợi thé của AI, đề tai naythé hiện sự ứng dụng của kỹ thuật mới vào lĩnh vực viễn thông, CCP khi sử dụnginternet của VNPT TP Hồ Chí Minh
Đề tài này ngoài giá trị lý thuyết còn đưa đến giá trị thực tiễn cho Công tytrong thực tế Các kết quả có thé được ứng dụng vào hoạt động kinh doanh, giúpVNPT có thé tối ưu chiến lược bán hàng và CSKH, từ đó tăng cường hiệu quả kinh
doanh và duy trì sự cạnh tranh.
1.2 Mục tiêu của nghiên cứu
Về tổng quan, đề tài nghiên cứu lược khảo các kỹ thuật và đánh giá các môhình ML trong dự báo So sánh sai số khi thay đổi các thuộc tính đữ liệu, songsong với việc so sánh các tác động của số lượng biến tới hiệu suất trong quy trìnhthử nghiệm Trong nghiên cứu cũng đưa ra nhằm lựa chọn mô hình dự báo phùhợp dé có thé CCP dịch vụ internet VNPT
1.3 Đối tượng nghiên cứu
Những mô hình máy học được áp dụng trong nghiên cứu dự báo như: KNN,
Naiver Bayes, hồi quy Logistic, rừng ngẫu nhiên, cây quyết định, phương pháp
tăng cường, ANN, CNN.
Bộ dữ liệu tiến hành thực nghiệm: dữ liệu là bảng danh sách chỉ tiết các thuêbao sử dụng internet VNPT TP Hồ Chí Minh được ghi nhận trong thời gian 6 năm
ké tư 2017 đến 2023 trên toàn TP Hồ Chí Minh Dữ liệu thu thập từ ISP qua các
hoạt động bán hàng, bàn giao dịch vụ, công tác sau bán hàng Bảng dữ liệu được
tổng hợp gồm 664329 hàng và 17 thuộc tính Các thuộc tính gồm có thời gian thuê
bao sử dụng, tốc độ đường truyền, mức cước, số lần thuê bao không phát sinh lưu
lượng, khu vực lắp đặt thuê bao, số lần thuê bao tạm dừng sử dụng dịch vụ, thuêbao thuộc chung cư, thời gian bắt đầu sử dụng dịch vụ, số lần khách hàng tái gia
hạn dịch vụ Bảng dữ liệu này phục vụ công tác quản lý, CSKH, xử lý các phát
sinh sau bán mới và không công khai trên cổng thông tin của ISP
17
Trang 17Hình 1.1: Phạm vi cung cấp dịch vụ của VNPT TP Hồ Chí Minh
1.4 Pham vi của nghiên cứu
Trong luận văn này tập trung vào việc phân tích các yếu tố ảnh hưởng đến tỉ
lệ rời mạng của khách hàng sử dụng Internet của VNPT, đặc biệt sử dụng các mô
hình máy học dự báo khả năng thuê bao rời bỏ dịch vụ Nghiên cứu sẽ gồm có các
quá trình chính như sau:
Thu thập dữ liệu: Trong suốt quy trình thực hiện nghiên cứu, dữ liệu về cáchành vi và hành động rời mạng của khách hàng trong thực tế tại tập đoàn VNPTđược ghi nhận Dữ liệu được lấy liên tục trong nhiều năm nhằm có thé bảo đảm
được tính toàn vẹn và cũng như có tính tin cậy trong quy trình thực hiện các thử
nghiệm.
Tiền xử lý dữ liệu: dit liệu sẽ được tiến hành phân tích, đánh giá và xử ly dé
có thể loại bỏ được giá trị ngoại lai, điền các dữ liệu còn thiếu, chuyên đổi thành
dữ liệu mới từ tập dt liệu Sau đó, tạo bộ dữ liệu trung gian dựa trên thời gian dự
18
Trang 18Chương 1 Tổng quan
báo, kích thước cửa số dữ liệu va số lượng biến, giai đoạn tiếp đến là chuẩn hóa
dir liệu Nhờ đó làm tăng độ chính xác và hiệu quả của mô hình phân tích dự báo.
Xây dựng và cài đặt những PM: Nghiên cứu sử dụng những thuật toán và PM
như KNN, Naive Bayes, rừng ngẫu nhiên, Adaboost, Gradient Boost, XGBoost,
hồi quy Logistic, cây quyết định, ANN, mạng neural tích chập Nghiên cứu sẽ xâydựng và cài đặt PM về khả năng thuê bao rời mạng dựa trên các đặc trưng dữ liệugiám sát được trong quá khứ Sau cùng là quá trình đánh giá hiệu suất và đồng thờiđánh giá so sánh độ lỗi của các PM
1.5 So sánh với các nghiên cứu liên quan
So với các nghiên cứu về nội dung dự đoán khách hàng rời mạng, luận văn
này thê hiện được các đặc điêm như sau:
- Vé mặt học thuật: Luận văn cung cấp một tổng quan chi tiết và so sánh
các kỹ thuật học máy truyền thống và hiện đại trong bải toán dự đoán
khách hàng rời bỏ Đây là tài liệu có giá trị cho tham khảo về nghiên cứu
và phát triển các hệ thống dự đoán trong lĩnh vực này
- _ Về mặt phương pháp: Luận văn áp dụng và điều chỉnh các thuật toán khác
nhau để tối ưu hóa cho bài toán dự đoán rời mạng, bao gồm việc tinhchỉnh siêu tham số và các kỹ thuật như lựa chọn đặc trưng và điền thiếu
đữ liệu.
- _ Về mặt mô hình: Qua việc so sánh các mô hình, luận văn xác định rằng
các mô hình như Gradient Boosting và XGBoost đạt hiệu suất cao trongviệc CCP, nhờ khả năng xử lý đữ liệu phức tạp Luận văn có thê đóng gópvào việc điều chỉnh các mô hình hiện có cho bài toán dự đoán khách hàng
rời bỏ.
- Vé mặt dữ liệu: Luận văn mô tả chỉ tiết quy trình tiền xử lý (thu thập, làm
sạch dt liệu, chọn loc va tạo đặc trưng), nâng cao chất lượng dữ liệu chocác mô hình học máy Nghiên cứu xử lý bộ dữ liệu trong thực tế, đónggóp vào việc tiền xử ly các vấn đề phổ biến trong tình huống thực tế Bộ
dữ liệu có tính bảo mật nên không thé công bồ rộng rãi
19
Trang 19Chương 1 Tổng quan
- Mat ứng dụng: Nghiên cứu đề xuất các giải pháp ứng dụng thực tiễn từ
kết quả CCP, hỗ trợ các chiến lược kinh doanh như phát hiện sớm kháchhàng có khả năng rời bỏ và đề xuất phương án duy trì thuê bao hiệu quả.1.6 Cấu trúc luận văn
Toàn bộ nghiên cứu được phân chia thành 5 chương như bên dưới:
+ Chương 1: Giới thiệu tổng quan và định hướng nghiên cứu
+ Chương 2: Cơ sở lý thuyết.
+ Chương 3: Tổng quan bai toán dự đoán thuê bao rời mạng
+ Chương 4: Chỉ tiết kết quả thực nghiệm
+ Chương 5: Kết luận và hướng phát triển
20
Trang 20Chương 2 Cơ sở lý thuyết
CHƯƠNG 2 CƠ SỞ LÝ THUYET
2.1 Các bước quá trình chăm sóc khách hàng của VNPT
Trong mô hình vòng đời của sản phâm, người dùng sẽ trải qua các bước
như sau:
Tìm hiểuthông tin
Hình 2.1: Các bước trong vòng đời sản phẩm internet
Các bước như trên được mô tả chỉ tiết:
2.1.1 Tìm hiểu thông tin:
Người dùng khi có nhu cầu về sử dung internet, người ta sẽ tìm thông tin
về sản phẩm, có thé qua môi trường mạng online (các web, Facebook, Tiktok, )hoặc qua các kênh trực tiếp như cửa hàng của ISP, người quen đang dùng, đại lý
kinh doanh Internet
2.1.2 Lựa chọn dịch vụ
Sau khi tìm hiểu, xác định được ISP tin dùng, người dùng sẽ tiếp xúc ISP
dé chọn sản phẩm phù hợp nhu cầu (tốc độ truy cập, giá cước phải trả) và ký kếthợp đồng sử dụng dịch vụ Việc tiếp xúc có thé diễn ra tại cửa hàng, tại nhà kháchhàng qua hình thức giấy hoặc điện tử
2.1.3 Ký kết hợp đồng
Là bước ký vào bản hợp đồng giữa ISP và người dùng về các nội dung hai
bên sẽ hợp tác trong quá trình sử dụng dịch vụ, trách nhiệm của mỗi bên trong quá
trình hợp tác.
21
Trang 21Chương 2 Cơ sở lý thuyết
2.1.4 Lắp đặt dịch vụ
Là bước tiếp theo sau ký hợp đồng, cán bộ kỹ thuật của VNPT sẽ trực tiếpđến nhà, thực hiện cài đặt, đo kiểm các thủ tục kỹ thuật đảm bảo khách hàng hàilòng về chất lượng internet theo nội dung của hợp đồng ký kết nêu ở bước trên
2.1.5 Bảo trì, sửa chữa
Trong quá trình sử dụng, chắc chắn sẽ xảy ra các tác động chủ quan hoặckhách quan dẫn đến việc gián đoạn dịch vụ hoặc định kỳ có các đợt CSKH củaISP Đây là bước nhân viên kỹ thuật kiểm tra lại chất lượng dịch vụ, khôi phục lạikết nối nếu như bị gián đoạn hoặc tiến hành thay thế các thiết bị đầu cuối theochính sách nâng cấp
2.1.6 Tái ký hợp đồng, gia hạn
Bản hợp đồng ký tại bước 3 ở trên sẽ xác định một thời hạn nhất định, saukhi hết hợp đồng, hai bên gồm nhà mạng và khách hàng sẽ tái ký để xác định việctiếp tục sử dụng dịch vụ và lặp lại từ bước ký hợp đồng như nêu trên
2.1.7 Thanh lý hợp đồng
Trong quá trình sử dụng, có thể vì một lý do người dùng không còn nhu cầu
về việc sử dụng (di dời nơi ở, không hai lòng dịch vụ, giá cước, thái độ nhân viên
kỹ thuật, bị ISP khác lôi kéo, ) sẽ tiến hành thanh lý dịch vụ (rời bỏ) Thời điểmnày nhà mạng và người dùng sẽ tiến hành việc chấm dứt sử dụng dịch vụ, trong đónhà mang sẽ thu hồi thiết bị đã lắp, khách hàng có trách nhiệm hoàn trả thiết bị vàcác khoản phí (nếu có) theo hợp đồng Bước thanh lý có thể phát sinh ở bất kỳ thờiđiểm nào trong vòng đời sản phẩm, nhưng thường xảy ra nhất ở bước tái ký hợpđồng, gia hạn
2.2 Tống quan về AI và ứng dụng2.2.1 Khái niệm về AI
AI là một lĩnh vực trong khoa học máy tính và công nghệ thông tin phát triểncác hệ thống hoặc máy tính có khả năng tự học, tự hiểu và tự hành động mà không
22
Trang 22Chương 2 Cơ sở lý thuyết
cần con người Quá trình phát triển của AI kéo dài qua nhiều thập kỷ, các ý tưởng
về máy tính có khả năng "suy luận" và "học" đã xuất hiện từ giữa thế kỷ 20 Tronggiai đoạn cuối thế kỷ 20, các ý tưởng và nghiên cứu sâu sắc trong lĩnh vực này đãbắt đầu, các mô hình học máy và học sâu đã được phát triển và thử nghiệm, dẫnđến sự tiến bộ đáng ké trong lĩnh vực AI Trong thập ký gần đây, sự tiến bộ trongcông nghệ máy tính, sự gia tăng về khả năng tính toán và dữ liệu lớn đã tạo ra một
làn sóng mới của AI.
AI nhằm dé tạo ra các hệ thống hoặc máy tính có thé thay con người hànhđộng Thuật ngữ này vẫn áp dụng được cho trường hợp thiết bị máy móc hoặcnhững dự án có liên kết với việc phát triển những hệ thống sử dụng những khanăng suy luận giống con người AI có thể giải quyết các van đề khó và thách thức
mà con người gặp phải ở các lĩnh vực cuộc sông, từ y học đến sản xuất hàng hóa.Các hệ thống AI có thé được sử dụng dé tăng hiệu quả công việc và tối ưu quytrình trong các ngành công nghiệp ở tất cả các mảng công việc sản xuất cũng nhưdịch vụ khách hàng AI cũng được đưa vào đề xây dựng các ứng dụng thông minhnhư trợ lý ảo, hệ thống xe tự hành, nhận diện hình ảnh, giọng nói, hệ thống hỗ trợ
ra quyết định AI tạo ra cơ hội dé tìm hiểu va phát triển các kỹ thuật tiên tiến mới,
từ học sâu đến robot học, giúp tiễn xa hơn trong quá trình phát triển của con người.Nhìn chung, AI tạo ra các hệ thống thông minh và tự động hóa để nâng cao đời
sông và mở ra cơ hội mới cho phát triên.
Máy học (Machine Learning) là một phần của AI chuyên phát triển các thuậttoán và mô hình cho phép máy tính học hỏi và cải thiện hiệu suất từ dữ liệu màkhông cần lập trình rõ ràng Ý tưởng chính của máy học là cho phép hệ thống tựphát hiện các mẫu và cấu trúc trong dữ liệu để đưa ra các dự đoán hoặc quyết định
Máy học tập trung vào việc học từ dữ liệu thay vì chỉ thực hiện các hành động
được lập trình cứng nhắc Dữ liệu là nguyên liệu cung cấp thông tin và mẫu mựccho máy tính để phát triển các mô hình và thuật toán Trong máy học, sự quantrọng nằm ở việc tạo ra các dự đoán chính xác và hiệu quả từ dữ liệu, chứ khôngphải là việc hiểu rõ cơ chế hoạt động của mỗi mô hình hoặc thuật toán Máy họcthường dựa vào các phản hồi từ đữ liệu hoặc từ môi trường dé điều chỉnh và cảithiện hiệu suất của mô hình Phản hồi này có thể là nhãn của dữ liệu huấn luyện,
23
Trang 23Chương 2 Cơ sở lý thuyết
hoặc có thể là phản hồi trực tiếp từ môi trường khi áp dụng mô hình Ngoài ra,
Máy học còn có khả năng tự thích nghi và sự linh hoạt trong xử lý các loại thông
tin và vấn đề Các mô hình và giải thuật được áp dụng vào nhiều lĩnh vực khácnhau mà không cần phải thay đổi quá nhiều Máy học mang đến nhiều lợi ích trong
đa dạng lĩnh vực, hiệu suất và quy trình, trải nghiệm khách hàng và nâng cao hiểubiết về dữ liệu
Học sâu (Deep Learning) tập trung phát triển các mô hình và thuật toán thôngqua sử dụng các mạng nơ-ron nhân tạo nhiều lớp, ý tưởng được lấy từ cấu trúc
cũng như chức năng của bộ não người Tên gọi "sâu" trong học sâu hình thành từ
việc áp dụng các mạng nơ-ron với nhiều lớp ẩn, trong đó thông tin truyền qua lạigiữa các lớp dé xử lý và trích xuất các đặc trưng phức tạp của dữ liệu Các lớp angiúp mô hình học và trích xuất các đặc trưng phức tạp từ dữ liệu Các mô hình họcsâu có thể tự điều chỉnh các trọng số và tham số dựa trên dữ liệu huấn luyện Họcsâu khai phá thông tin từ dit liệu, do vậy việc xử lý và trích xuất các đầu ra thườngyêu cầu lượng dữ liệu lớn đề huấn luyện thì mới có kết quả cao Dữ liệu lớn giúp
mô hình học được đặc trưng phức tạp và tong quát hóa tốt hơn Học sâu có vai tròlớn vào định hình và thúc day AI tiến lên một cách đột phá, mở ra nhiều cơ hộimới và thú vị trong quá trình áp dụng công nghệ vào thế giới thực Học sâu giúpcải thiện và day mạnh vai trò tự động, cho phép các máy móc có thé chủ động làmnhững nhiệm vụ như phân tích bộ dữ liệu và chủ động ra các quyết định mà conngười không cần sự tác động Những ứng dụng của học sâu rất đa dạng, từ trợ lý
kỹ thuật số trong các phương tiện giao đến việc có thể điều khiển từ xa máy móc
của những tòa nhà thông qua giọng nói, phát hiện khả nghi trong các giao dịch qua
thẻ tín dụng, và thậm chí là ô tô tự hành Những công nghệ như thế này cũng cóthé được áp dụng nhằm đề xuất nội dung tự động cho những chương trình truyền
hình dựa trên thói quen của khán giả và những người bạn của những khán giả đó [2].
2.2.2 Muc tiéu
Mục tiêu của AI nói chung và các lĩnh vực cụ thé như máy học va học sâu
nói riêng là tạo ra các hệ thống thông minh tự động hóa các nhiệm vụ, học từ
24
Trang 24Chương 2 Cơ sở lý thuyết
dataset và làm nhiệm vụ mà trước đây phải cần đến yếu tố con người mới thực
hiện được AI cũng hướng tới người dùng qua việc nâng cao trải nghiệm từ sản
phẩm và dịch vụ cá nhân hóa và ngày càng cải tiến theo thói quen sử dụng Tronglĩnh vực cụ thé, máy học (Machine Learning) và học sâu (Deep Learning) nhằmđến các mục tiêu trên thông qua việc xây dựng mô hình và giải thuật tự học từ dữliệu và cải thiện hiệu suất của mình qua thời gian Thông qua các hoạt động nêutrên, chúng tạo ra hệ thống thông minh và tự động, từ việc dự đoán và phân loạiđến xử lý dé liệu và tạo ra các sản phẩm và dịch vụ tiên tiến Nhờ đó làm ra cácsản phẩm trí tuệ và các tiện ích thông minh hơn, có thé dự báo và những phản hồi
nhanh chóng hơn.
2.2.3 Quy trình phân tích dữ liệu
Quy trình của máy học (Machine Learning) thường bao gồm các bước chính
sau [3] [4] [5]:
e Thu thập và tiền xử ly dữ liệu
e Xây dựng bộ dữ liệu.
e Huấn luyện, đánh giá và sàng lọc mô hình
e_ Triển khai và giám sát
Thu thập và tiền xử lý Phân chia bộ dữ liệu Huấn luyện, đánh giá Triển khai và giám sát
dữ liệu và sàng lọc mô hình
Hình 2.2: Quy trình máy học
a) Thu thập và tiền xử lý dữ liệu
Thu thập dữ liệu là công đoạn quan trọng nhất trong máy học, là quá trìnhtong hợp thông tin từ nhiều nguồn dé tạo ra một tap dit liệu đủ lớn và đa dạng nhằm
sử dụng trong các ứng dụng và phục vụ cho phân tích đữ liệu Dữ liệu bao gồm là
hình chụp, văn bản, bản lưu âm, hoặc bat ky loại dữ liệu có cấu trúc phù hợp với
van đề chúng ta đang nỗ lực giải quyết Dữ liệu có ảnh hưởng mang tính quyết
định đến kết quả phân tích Dữ liệu chất lượng và đại diện sẽ mang đến kết quả
chính xác và đáng tin cậy, trong khi dit liệu không đầy đủ, không phù hợp hoặc
25
Trang 25Chương 2 Cơ sở lý thuyết
không đại diện có thé làm cho kết quả ít chính xác và thiếu tin cậy [5] Các yếu tốgây ảnh hưởng đến chất lượng của bộ đữ liệu bao gồm:
+ Độ chính xác: Mức độ đúng đắn và chính xác của dit liệu so với thực tế, dữliệu không chính xác có thể phát sinh từ việc đầu vào nhập sai, thiết bị đo lườngkhông chính xác hoặc sự không chắc chắn trong khi thu thập
+ Đầy đủ và đại diện: Dữ liệu cần phải đủ day và bao quát dé dam bảo rangmọi khía cạnh của vấn đề đều được phản ánh đầy đủ, không bị thiếu thông tin Dữliệu cũng cần phản ánh một cách chính xác và cân đối những biến thê và trườnghợp có thé xảy ra trong van dé cụ thé Kết quả của phân tích có thể bị lệch do dữ
liệu không mang tính đại diện.
Bước tiếp theo của thu thập dữ liệu là tiến hành xử lý nguồn dữ liệu Tiền xử
lý dữ liệu rất cần thiết vì dé loại những dữ liệu không hợp lý hoặc bị thiếu, đồngthời chọn ra những đặc tính tương quan với thuộc tính cần dự báo Ngoài ra, quátrình này cũng có thê hỗ trợ xử lý mat cân bằng dữ liệu [6] gồm những giai đoạn
là làm sạch, loại bỏ giá trị trùng lặp, xử lý dữ liệu khuyết và biến đổi dit liệu
e Lam sạch đữ liệu: là quá trình loại bỏ và sửa các lỗi và không chính xác
trong tập dữ liệu dé chuẩn bị cho phân tích và xử lý tiếp theo Trong quá
trình thu thập thông tin, vì một vài lý do nào đó, dữ liệu có các giá trị
nhiễu, bất hợp lý hoặc giá trị không chính xác thì chúng ta cần phải loại
bỏ dé đảm bảo bộ dữ liệu phục vụ cho việc phân tích và huấn luyện mô
hình là chính xác, tin cậy.
e© Loai bỏ các giá trị ngoại lệ: việc loại bỏ này là vì chúng có thé có tác
động đáng kể đến hiệu quả phân tích, đặc biệt khi ảnh hưởng đến cácviệc thống kê như giá trị trung bình và cũng như độ lệch chuẩn Trongphân tích hồi quy, các ngoại lệ có thể làm lệch đường hồi quy và làm sailệch mối quan hệ được ước tính giữa các biến [7]
e Loai bỏ trùng lặp tập dữ liệu khi thu thập, có trường hợp các record bi
lặp lại do nhập liệu nhiều lần thì cần phải được loại bỏ nếu cần thiết
e _ Xử lý dữ liệu khuyết: khi kiểm tra sẽ có các giá trị thiếu trong tập dữ liệu,
có thé là giá tri NaN, null hoặc giá trị thiếu khác Việc xử ly dữ liệu thiếu
26
Trang 26Chương 2 Cơ sở lý thuyết
bang cách thay thé chúng bằng giá trị mặc định, giá trị trung bình, hoặc
phương pháp khác phù hợp.
Biến đổi dit liệu: trong tập dit liệu, các giá tri không cần thiết hoặc khôngphù hợp, ta nên tạo ra các biến hữu dụng khác dựa trên các biến này nhằmphù hợp với mô hình và nhất quán Sau khi dữ liệu đã được tạo mới, cácgiá trị không phù hợp này có thể được loại bỏ dé làm sạch
b) Xáy dựng bộ dit liệu
Chia tập dữ liệu là giai đoạn thiết yếu trong máy học Bộ dữ liệu thông thường
sẽ được phân tách thành ba phần: dùng đề huấn luyện, dùng đề xác nhận và dùng
đề thử nghiệm [5]
Bộ dữ liệu huấn luyện là một tập hợp các dữ liệu được sử dụng để huấnluyện mô hình máy học Điều này có nghĩa là mô hình sẽ điều chỉnh cáctham số dé du đoán hoặc phân loại đầu ra một cách chính xác từ dữ liệuđầu vào
Bộ dit liệu kiểm định (validation dataset) được áp dung dé đánh giá độchính xác của mô hình máy học hoặc AI sau bước huấn luyện Mục tiêucủa bộ dữ liệu kiểm định là đo lường khả năng tổng quát hóa, tức là khảnăng áp dụng kiến thức đã học ở bước huấn luyện vào các dữ liệu mới
mà mô hình chưa từng gặp Bộ dữ liệu kiểm định được giữ riêng biệt vàkhông được tiết lộ cho mô hình cho đến khi mô hình đã được huấn luyện
hoàn chỉnh.
Bộ dữ liệu thử nghiệm là một phần của dữ liệu được sử dụng đề đánh giáhiệu suất cuối cùng của mô hình máy học hoặc AI sau khi đã hoàn thiệnquá trình huấn luyện và kiểm định Mục tiêu của bộ dữ liệu thử nghiệm
là đánh giá khả năng tong quát hóa trên dữ liệu mới Tương tự như kiểmđịnh, bộ dữ liệu này sẽ không được sử dụng trong quá trình huấn luyệnhoặc kiểm định nhằm dam bảo rằng mô hình không học "quá mức" từ ditliệu thử nghiệm Bộ dữ liệu thử nghiệm thường được sử dụng cuối cùng
dé tim ra mô hình máy học có kết qua dự đoán có tính chính xác trên bộ
dữ liệu mới trước khi ứng dụng vào thực tế
27
Trang 27Chương 2 Cơ sở lý thuyết
c) Huấn luyện, đánh giá và sàng lọc mô hình
Sau khi đã có bộ dé liệu, quá trình huấn luyện các PM là giai đoạn quan trọngnhất trong học máy Mô hình học máy sẽ được dạy cách phân biệt những mẫu trong
bộ dữ liệu dùng đề huấn luyện và từ đó đưa ra các dự đoán [5]
Quy trình huấn luyện áp dụng cho các mô hình máy học được chia ra các
bước sau:
e Lựa chọn mô hình: Đây là bước đầu tiên và quan trọng để có được
phương pháp phù hợp với van đề nghiên cứu Có rất nhiều mô hình họcmáy học khác nhau, mỗi mô hình đều có điểm mạnh và điểm yếu nhất
định.
e Khoi tạo mô hình: Sau khi chọn mô hình máy học, cần khởi tạo những
tham số của các mô hình Những tham số của các mô hình là những giátrị kiểm soát cách mô hình học cách phân biệt các mẫu trong đữ liệu
e Huan luyện mô hình: Việc huấn luyện được tiến hành trên bộ dit liệu
huấn luyện Huấn luyện các mô hình sẽ bao gồm việc áp dụng các tham
số dùng trong các thuật toán dé tìm ra các mau trong bộ dit liệu và từ đó
đưa ra được các dự báo.
e anh giá các mô hình: Ngay sau khi các mô hình máy học được huấn
luyện, thì cần phải đánh giá hiệu suất trên bộ dữ liệu kiêm định Quá trình
đánh giá mô hình sẽ giúp xác định xem các mô hình máy học có đang
hoạt động tốt hay không và liệu có cần thay đối các tham số của các mô
hình hay không.
e Tinh chỉnh mô hình: Nếu các mô hình máy học không hoạt động tốt trên
bộ dữ liệu kiêm định, có thé cần tinh chỉnh và thay đổi các tham số trongcác mô hình Quy trình điều chỉnh mô hình sẽ bao gồm việc thay đổinhững giá trị của những tham số dé cải thiện hiệu năng của các mô hình
máy học.
e - Đánh giá các mô hình trên bộ dữ liệu thử nghiệm: Sau quy trình mô hình
máy học được tinh chỉnh, cần đánh giá so sánh hiệu suất của các mô hìnhbằng bộ dữ liệu thử nghiệm Quá trình đánh giá mô hình sẽ giúp xác định
28
Trang 28Chương 2 Cơ sở lý thuyết
xem mô hình học máy có khả năng dự báo chính xác trên bộ dữ liệu mới hay không.
d) Triển khai và giám sát
Sau tất cả các quá trình trong ba giai đoạn trước, chúng ta hiện có một quytrình thu thập cũng như tiền xử lý bộ dữ liệu được thiết lập tốt và một mô hình dựbáo được huấn luyện chính xác Giai đoạn cuối cùng của hệ thống học máy baogồm việc lưu các kết quả mô hình từ các giai đoạn trước và triển khai chúng trên
dữ liệu mới, cũng như giám sát hiệu suất và cập nhật các PM thường xuyên [5]
2.2.4 Một số khái niệm khác trong quy trình phân tích máy học
a) _ Trích chọn thuộc tính: là quá trình lựa chọn các thuộc tính đặc trưng quan
trọng và có ảnh hưởng đáng ké đến mục tiêu và tính hiệu quả của môhình từ tập dữ liệu ban đầu Quá trình này giúp làm giảm số chiều dit
liệu, giảm độ phức tạp của mô hình, cải thiện hiệu suất, giảm thời gian
huấn luyện và giảm nguy cơ overfitting Dưới đây là một số phương phápphô biến đề trích chọn thuộc tính:
e Phuong pháp Filter: là một trong những phương pháp phổ biến trích
chọn thuộc tính nhằm giảm chiều đữ liệu và chọn ra các đặc trưng
quan trọng Đây là một phương pháp độc lập với mô hình, tức không
cần huấn luyện mô hình để đánh gia sự quan trọng của các đặc trưng
Thay vào đó, phương pháp Filter đánh giá mức độ quan trọng của
các đặc trưng dựa trên các độ đo thống kê hoặc thông tin tính toán từ
dữ liệu gốc Với dữ liệu lớn, phương pháp Filter thường có thời gian
xử lý nhanh chóng và hiệu quả Tuy nhiên, phương pháp lại không
cân nhắc tới tương quan giữa các đặc trưng và có thé loại bỏ các đặctrưng quan trọng trong một số trường hợp Do đó, việc kết hợp vớicác phương pháp Wrapper hoặc Embedded dé cải thiện kết qua của
quá trình trích chọn thuộc tính.
e Phương pháp Wrapper: là phương pháp xem xét hiệu suất của tập
hợp các đặc trưng bằng cách sử dụng một PM cụ thé Quá trình này
sẽ tạo ra các tập con các đặc trưng khác nhau, việc đánh giá hiệu suât
29
Trang 29Chương 2 Cơ sở lý thuyết
của mô hình dựa trên mỗi tập đặc trưng con So với phương phápFilter, phương pháp Wrapper thường đòi hỏi nhiều thời gian tính toánhơn vì phải huấn luyện và đánh giá mô hình trên mỗi tập con đặctrưng Tuy nhiên, phương pháp Wrapper có lợi thế là tạo các nhómđặc trưng tốt hơn và cải thiện hiệu suất của mô hình so với các
phương pháp Filter.
e Phương pháp Embedded: đây cũng là phương pháp dùng để trích
chọn thuộc tính, phương pháp này kết hợp cả quá trình huấn luyện
và trích chọn thuộc tính Trong quá trình huấn luyện mô hình, cácđặc trưng quan trọng được chọn và tinh chỉnh ngay từ đầu dé cảithiện hiệu suất của mô hình Phương pháp Embedded thường nângcao hiệu quả mô hình với số lượng đặc trưng giảm di đáng kể so với
dữ liệu gốc Tuy nhiên, nhược điểm là chúng yêu cầu một lượng tínhtoán lớn hon so với phương pháp Filter và cũng gây nên bị mat thôngtin nếu không được thực hiện một cách cần thận
b) Phân tích dữ liệu khám phá (EDA)
e Muc đích của việc EDA: là quá trình khám phá và phân tích sâu về
tập đữ liệu trước khi áp dụng vào bất kỳ mô hình hoặc phương phápnào Mục đích EDA là hiểu rõ dữ liệu một cách tổng quan, phát hiện
mối quan hệ giữa các đặc trưng dữ liệu và xác định các mẫu hoặc đặc
điểm đáng chú ý EDA là bước quan trọng, cần phải có trong quytrình phân tích dữ liệu và cung cấp thông tin cơ bản và sâu sắc về đữliệu trước khi thực hiện chỉ tiết hơn
e Cac kỹ thuật khám pha dtr liệu:
+ Kỹ thuật đơn biến phi đồ họa: là hình thức khám phá dữ liệu đơn
giản nhất của phân tích đữ liệu Trong kỹ thuật này, chúng ta chỉ
sử dụng một đặc trưng dé tìm hiểu thông tin Mục tiêu là hiểu vềcác thuộc tinh của dit liệu mẫu và phân phối từ đó đưa ra các quansát, nhận xét về quần thé mà dữ liệu đó đại diện Cũng thông quaquan sát này, chúng ta có thé phát hiện các ngoại lệ Các đặc điểmcủa quan thé bao gồm: xu hướng trung tâm hoặc các vi trí phân
30
Trang 30Chương 2 Cơ sở lý thuyết
phối liên quan đến các giá trị điển hình hoặc trung bình, khoảngcách tìm kiếm các giá trị thông tin so với mức trung bình, độ lệch
và độ nhọn.
+ Kỹ thuật đa biến phi đồ họa: kỹ này thường được dùng dé hién thị
mối tương quan giữa hai hoặc nhiều biến bằng hình thức bảngchéo hoặc thống kê
Đối với dữ liệu phân loại: một phần mở rộng của bảng được gọi
là bảng chéo hữu ích Đối với 2 biến, ưu tiên lập bảng chéo bằngcách tạo một bảng 2 chiều với tiêu đề cột khớp với số lượng củamột biến, tiêu đề hàng khớp với sỐ lượng của 2 biến đối diện Sau
đó, điền vào tông số đối tượng có chung 1 biến, cặp cấp độ tương
đương.
Đối với mỗi biến phân loại và một biến định lượng: Tạo thống kêcho các biến định lượng riêng biệt cho từng cấp độ của biến cụthể Sau đó, so sánh các số liệu thống kê trên số lượng biến định
lượng.
+ Kỹ thuật đơn biến đồ hoa: là quá trình trực quan hóa và khám phá
một biến duy nhát trong tập dữ liệu ma không cần đặc trưng haythông tin từ các biến khác Kỹ thuật này giúp năm rõ đặc điểm vềphân phối biến mục tiêu hoặc biến quan tâm một cách độc lập.Các biểu đồ kỹ thuật phô biến trong phân tích đơn biến phi đồ họa
như: Histogram, Boxplot, Bar, Pie, Line, phân phối, Việc kết
hợp các kỹ thuật phân tích đơn biến phi đồ họa là cơ sở quan trọngcho quyết định phân tích dữ liệu và xây dựng mô hình
+ Kỹ thuật đa biến đồ họa: là quá trình trực quan hóa và khám phá
sự tương quan các biến trong đữ liệu Mục tiêu của việc phân tích
đa biến là hiểu rõ hơn về mối quan hệ, sự tương tác và cấu trúcphức tạp giữa các biến Một số các kỹ thuật phân tích biểu đồ phổ
biến như: Scatter, Heatmap, radar, 3D, Kết hợp các kỹ thuật
phân tích đa biến phi đồ họa sẽ giúp hiểu rõ về mối tương quan
31
Trang 31Chương 2 Cơ sở lý thuyết
giữa các biến trong tập dữ liệu, từ đó phát hiện và phân tích các
mẫu, nhóm, hoặc biéu hiện đặc biệt.
c) Xây dựng PM: là tạo ra một công cụ hoặc hệ thống có khả năng dự đoán
kết quả output trên cơ sở các thông tin iput Thứ tự thông thường của quátrình gồm:
Lua chọn mô hình: là bước lựa chọn một loại mô hình phù hợp với
bài toán dự đoán cụ thể Dựa vào kết quả EDA, loại dự đoán và kếtquả đầu ra mà chúng ta có những mô hình phù hợp, ví dụ: LR, DT,
Network Neural, hoặc (SVM).
Huan luyện mô hình: sau khi có mô hình va đữ liệu, chúng ta tiếnhành sử dung training dataset dé huấn luyện mô hình Mục tiêu củabước này là điều chỉnh các tham số sao cho đầu ra chính xác nhất cóthể
Đánh giá mô hình: Sử dụng tập dir liệu kiểm định dé đánh giá độchính xác của mô hình Các phương pháp đánh giá bao gồm độ chínhxác, điểm F1, độ đo ROC-AUC, và mat mát chéo
Tinh chỉnh mô hình: trong các trường hợp cụ thể, mô hình cần phảitinh chỉnh tham số nhằm có sự chính xác hơn hoặc chuyền sang PMkhác phù hợp để cải thiện tỉ lệ chính xác của kết quả dự đoán
d) Các tiêu chí đánh giá mô hình phân loại: là các phương pháp dùng dé đo
lường hiệu suât của một mô hình phân loại dựa trên khả năng của nó
trong dự đoán các nhãn lớp của các mẫu đữ liệu Dưới đây là một số tiêuchí phổ biến được sử dụng đề đánh giá mô hình phân loại:
Độ chính xác (Accuracy): Là tỉ lệ giữa đoán đúng so với tổng số Độchính xác càng lớn thì càng tốt
Ma trận nhằm lẫn (Confusion Matrix): Biểu diễn số lượng dự đoánđúng và sai cho mỗi lớp Từ ma trận nhằm lẫn, có thé tính toán các
độ đo như Precision, recall và F 1-score.
Độ nhạy (Recall): là một thước đo hiệu suất của một mô hình phânloại Công thức tính của độ nhạy:
32
Trang 32Chương 2 Cơ sở lý thuyết
SL dự đoán đúng Recall =———————————
SL dự đoán đúng + SL bỏ sót
¢ Độ chính xác (Precision): Tỷ số giữa true positive và tổng số Positive
được dự đoán Tỉ lệ dự đoán đúng của tập dữ liệu.
e Điểm FI: La một trung binh điều hòa của độ nhạy và độ chính xác,
công thức tính như sau:
Precision x recall
Precision + recall
33
Trang 33Chương 3 Mô hình máy học và học sâu trong phân lớp, dự đoán
CHƯƠNG 3 BÀI TOÁN DỰ ĐOÁN THUÊ BAO RỜI MẠNG
3.1 Giới thiệu
Trong các công trình nghiên cứu đã được thực hiện về CCP, rất nhiềuphương pháp và mô hình đã được đề xuất tùy thuộc vào đặc điểm và sự tương quangiữa các đặc trưng dữ liệu Mỗi phương pháp và mô hình sẽ có những phần ưu vànhược điểm khác nhau về cả hiệu suất và thời gian thực thi Sau đây là một số mô
hình thường xuyên được dùng trong bài toán CCP.
3.2 Các mô hình máy học được sử dụng
3.2.1 Thuật toán K láng giềng gần - KNN
KNN là một thuật toán học có giám sát đơn giản nhất trong máy học, nó được
gọi là thuật toán lười Nó được gọi là "lười" không phải bởi sự đơn giản rõ ràng,
thực tế trong bước huấn luyện, nó không học từ dữ liệu mà thay vào đó ghi nhớ bộ
dữ liệu huấn luyện KNN có thể áp dụng được vảo cả hai loại của bài toán học cógiám sát là phân loại và hôi quy
Thuật toán KNN khá đơn giản và có thể được tóm tắt bằng các bước sau:
e_ Chọn số K và một phép đo khoảng cách
e Tìm k điểm láng giéng gần nhất của bản ghi dữ liệu mà chúng ta muốn
phân loại.
e Gan nhãn lớp bằng cách bình chọn đa số
Hình sau minh hoa cách một điểm dit liệu mới (2) được gán nhãn lớp tam
giác dựa trên việc bình chọn đa sô trong sô năm điêm láng giêng gân nhât của nó.
34
Trang 34Chương 3 Mô hình máy học và học sâu trong phân lớp, dự đoán
Hình 3.1: Minh họa việc gán nhãn dữ liệu mới theo mô hình KNN
Dựa trên phép đo khoảng cách đã chọn, trong tập dữ liệu huấn luyện, thuậttoán KNN tim các mẫu gan (tương tự) nhất với điểm dữ liệu chúng ta đang muốnphân loại Nhãn lớp của điểm dit liệu này sau đó được xác định bằng cách bình
chọn đa sô trong sô k điêm láng giêng gân nhât của nó.
Ưu điểm chính của phương pháp phân loại dựa trên bộ nhớ như trình bày ởtrên là bộ phân loại ngay lập tức thích nghi khi chúng ta thu thập dữ liệu huấnluyện mới Tuy nhiên, nhước điểm là độ phức tạp tính toán đề phân loại các mẫu
dữ liệu mới tăng theo cấp số nhân với số mẫu trong bộ dữ liệu huấn luyện trongtrường hợp xấu nhất, trừ khi bộ đữ liệu có rất ít các đặc trưng và thuật toán đã đượcthực hiện bằng cách sử dụng cấu trúc dữ liệu hiệu quả như cây k-d Mặt khác, vìkhông có bước huấn luyện nào được thực hiện nên không thể loại bỏ các mẫu huấnluyện Do đó, vấn đề về không gian lưu trữ dữ liệu là một thách thức nếu chúng ta
làm việc với các tập dữ liệu lớn [8].
35
Trang 35Chương 3 Mô hình máy học và học sâu trong phân lớp, dự đoán
3.2.2 Mô hình Naive Bayes [9|
Naive Bayes là một thuật toán may học phân lớp được mô hình hoá dựa trên
định lý Bayes trong xác suất thống kê:
P(Xly) * P@)
Trong đó:
- P(y|X): xác suất của mục tiêu y trong điều kiện có đặc trưng X;
- P(Xly): xác xuất của đặc trưng X khi biết mục tiêu y;
- P(y): xác suất của mục tiêu y;
- P(X): xác suất của đăng trưng X
Cùng với giả định rằng các thuộc tính là độc lập có điều kiện khi biết lớp.Đối với đữ liệu giá trị thuộc tính, giả định này cho phép:
36
Trang 36Chương 3 Mô hình máy học và học sâu trong phân lớp, dự đoán
Đối với các thuộc tính số hoặc dữ liệu được phân loại thành các giá tri rời rachoặc phương pháp xap xi mật độ xác suất được sử dụng [9]
3.2.3 Hồi quy Logistic [10]
Mô hình hồi quy logistic là một phương pháp thống kê được sử dụng đề dựđoán xác suất của sự kiện xảy ra dựa trên một hoặc nhiều biến độc lập Đặc biệt,
nó thường được sử dụng đề dự đoán xác suất của một biến phụ thuộc nhị phân, tức
là một biến chỉ nhận giá trị 0 hoặc 1
Cơ sở của mô hình hồi quy logistic là ham logistic, một ham sigmoid có dang
như sau:
PY = 1X) = gai
(1)
Trong do:
- P(Y=l|X) là xác suất của biến phụ thuộc Y bang 1 cho một tập hợp các
giá tri của biến độc lập X;
- e là số Euler, khoảng 2.71828;
- Bo, By, +) By là các tham số của mmô hình
- Xo,X1, ,Xp là các giá trị của biến độc lập
Mục tiêu của hôi quy logistic là ước tinh các tham số Bp, By, ,/ổ„ sao cho
mô hình phù hợp tốt nhất với dir liệu quan sát được Dé làm điều này, thường sửdụng phương pháp tối ưu hóa như phương pháp cực đại ước lượng hợp lý (MLE)hoặc giảm thiêu độ lỗi bình phương trung bình (MSE) [10]
3.2.4 Mô hình SVM [11]
SVM là một mô hình học máy được sử dụng cho phân loại nhị phân và dự
đoán của học có giám sát Mục tiêu của SVM là tìm ra ranh giới phân chia tốt nhất
giữa các lớp dữ liệu.
Ở dạng cơ bản nhất, SVM hoạt động bằng cách tìm ra siêu mặt phẳng trongkhông gian đa chiều sao cho khoảng cách từ các điểm dữ liệu gần nhất đến siêu
37
Trang 37Chương 3 Mô hình máy học và học sâu trong phân lớp, dự đoán
mặt phẳng này là lớn nhất Các điểm dữ liệu gần nhất với siêu phăng này được gọi
là các vector hỗ trợ.
Van đề chính trong SVM là tim cách tối ưu hóa siêu phăng sao cho lề giữacác lớp là lớn nhất Điều này thường được thực hiện bằng cách sử dụng phươngpháp tối ưu hóa đối lượng, kỹ thuật tối ưu hóa như kỹ thuật gradient descent
SVM có thê được áp dụng cho các bài toán phân loại tuyến tính và phi tuyếntính thông qua việc sử dụng các hàm nhân dé ánh xa dit liệu vào không gian caochiều, nơi mà phân chia tuyến tính có thé được tìm thấy
Một số lợi ích của SVM bao gồm khả năng xử lý các tập dữ liệu lớn, khảnăng làm việc tốt với dữ liệu có số chiều cao, và khả năng điều chỉnh độ phức tạpcủa mô hình thông qua việc chọn hàm nhân phủ hợp Tuy nhiên, SVM có thể phứctạp và tốn kém tính toán khi áp dụng cho các tập dữ liệu lớn
Công thức của mô hình SVM được mô tả như sau:
Đầu tiên, giả sử chúng ta có một tập dữ liệu huấn luyện gồm các điểm dữ liệuđược biéu dién trong không gian n chiều (x1, y1), (X2, Y2), - , (Xm, Ym) Trong đó x;
là vectơ đặc trưng của điểm dữ liệu thứ ¡ và y¡ là nhãn của điểm đữ liệu đó (y¡= -1
hoặc yi= 1).
Mục tiêu của SVM là tim ra siêu phăng tốt nhất dé phân chia không gian ditliệu thành hai phần, mỗi phần chứa các điểm dữ liệu thuộc vào một lớp Siêu phẳngnày được biéu diễn dưới dang: w”x + b = 0, trong đó w là vecto trọng số của siêuphẳng và b là hệ số điều chỉnh
Hàm quyết định của SVM được xác định như sau:
f(x) = sign(wTx + b)
Trong đó:
-_ f{x) là dự đoán của mô hình cho điểm dữ liệu x
- wvab là các tham sô của mô hình cân được học từ dữ liệu huân luyện.
38
Trang 38Chương 3 Mô hình máy học và học sâu trong phân lớp, dự đoán
Mục tiêu là tối ưu hóa w và b sao cho các điểm đữ liệu huấn luyện được phânloại chính xác và lề (margin) giữa các lớp là lớn nhất có thê Điều này thường được
3.2.5 Mô hình cây quyết định - DT [12]
DT là một phương pháp học máy được sử dụng cho cả bài toán phân loại và
hồi quy Nó hoạt động bằng cách xây dựng một cây quyết định từ dữ liệu huấnluyện, trong đó mỗi nút trên cây đại diện cho một thuộc tính, mỗi cạnh điều hướng
đại diện cho một giá trị của thuộc tính đó, và mỗi nút lá đại diện cho một nhãn
hoặc một giá trị dự đoán Mô hình cây quyết định được minh họa như hình 3.2 bêndưới Cây quyết định có hai loại nút: nút nhánh và nút lá (được biéu dién bởi hìnhvuông và hình tròn tương ứng trong Hình 3.2) Nút 1 được gọi là nút gốc và đại
diện cho toàn bộ không gian đặc trưng Các nút còn lại (nút 2-5 trong ví dụ nay)
mỗi nút đại diện cho một không gian con của không gian đặc trưng gốc
Hình 3.2: Mô hình cây quyết định /72/
39
Trang 39Chương 3 Mô hình máy học và học sâu trong phân lớp, dự đoán
Quá trình xây dựng cây quyết định bao gồm các bước sau:
e Chọn thuộc tính phân chia: Chọn thuộc tính và giá trị phân chia tại
mỗi nút sao cho tối ưu hóa việc phân loại hoặc dự đoán dữ liệu
e Xây dựng cây: Quá trình chọn thuộc tính phân chia được lặp lại cho
đến khi một điều kiện dừng được đáp ứng, chăng hạn như đạt đến độsâu tối đa hoặc không còn đữ liệu nào đề phân chia
e_ Chat tỉa cây (Pruning): Sau khi cây được xây dựng, có thé áp dụng
các phương pháp chặt tia dé giảm quá khớp và tăng tính tong quát
của mô hình.
Ưu điểm của mô hình cây quyết định là có thể được sử dụng cho cả bài toánphân loại và hồi quy, dé hiểu và dễ giải thích Tuy nhiên, nhược điểm của mô hìnhnày là nó có thé dé bị quá khớp nêu không được chặt tia đúng cách và có thé khôngtạo ra các dự đoán tốt trên dữ liệu mới ngoài việc
3.2.6 Mô hình rừng ngẫu nhiên [13]
Như ở trên đã trình bày, mô hình cây quyết định có nhiều ưu điểm, tuy nhiênnhược điểm là dễ xảy ra quá khớp, mô hình rừng ngẫu nhiên sẽ khắc phục đượcnhược điểm trên Rừng Ngẫu Nhiên là một phương pháp dựa trên việc xây dựngnhiều cây quyết định và kết hợp kết quả từ các cây này dé đưa ra dự đoán cuốicùng Quá trình này bao gồm hai giai đoạn chính:
e Lay mau lặp lại: Mỗi cây quyết định được xây dựng trên một tập con của
dữ liệu huấn luyện được lay mau random có thay thé từ tập dữ liệu huấnluyện ban đầu Quá trình này tạo ra nhiều tập dữ liệu con khác nhau déxây dựng các cây quyết định
e _ Lựa chọn đặc trưng ngẫu nhiên: Trong quá trình xây dựng mỗi cây quyết
định, chỉ một số lượng nhỏ các thuộc tính được chọn ngẫu nhiên từ tập
dữ liệu huấn luyện dé phân chia tại mỗi nút trong cây Quá trình này giúptạo ra sự đa dạng giữa các cây quyết định và giảm nguy cơ quá khớp
Kết quả cuối cùng của mô hình Rừng Ngẫu Nhiên được đưa ra bằng cách kếthợp kết quả từ tất cả các cây quyết định trong rừng Đối với bài toán phân loại, kết
40
Trang 40Chương 3 Mô hình máy học và học sâu trong phân lớp, dự đoán
quả cuối cùng thường được quyết định bằng cách thực hiện bình chọn hoặc sử
dụng phương pháp trung bình giữa các dự đoán từ các cây [12]
3.2.7 Phương pháp tăng cường
a) Tổng quan
Tăng cường đề cập đến một phương pháp tổng quát và có hiệu quả đượcchứng minh, cố gang "boost" độ chính xác của bat kỳ thuật toán học nào đã cho[14] Mặc dù tăng cường không bị ràng buộc bởi thuật toán, hầu hết các thuật toántăng cường liên quan đến việc học lặp lại và thêm các bộ phân loại yếu để tạo ramột bộ phân loại mạnh mẽ cuối cùng Mỗi bộ phân loại yếu được thêm vao thườngđược điều chỉnh theo trọng số dựa trên độ chính xác của nó và được huấn luyệnvới dữ liệu huấn luyện được điều chỉnh trọng số [15] Về cơ bản, phương pháp nàytạo chuỗi các mô hình tuần tự, mỗi mô hình trong chuỗi được xây dựng dựa trên
việc sửa chữa các lỗi của các mô hình trước đó.
Các bước cơ bản của phương pháp tăng cường như sau:
e Khoi tạo: Bắt đầu với một mô hình cơ sở đơn giản, thường là mô hình
yếu hoặc PM ngẫu nhiên
e Huấn luyện mô hình: Sử dụng dữ liệu huấn luyện để thực hiện Sau đó,
đánh giá hiệu suất của mô hình trên tập dữ liệu huấn luyện
e - Xác định lỗi: Xác định các data point mô hình cơ sở dự đoán sai va tao
ra một trọng sô cho mỗi điểm đữ liệu dựa trên lỗi dự đoán.
e _ Xây dựng mô hình mới: Xây dựng một mô hình mới bang cách tập trung
vào các data point mô hình co sở dự đoán sai Mô hình mới này cố gắng
sửa chữa các lỗi của mô hình cơ sở trước đó.
e Cập nhật trọng SỐ: Cập nhật trọng số của các data point
e - Lặp lại quá trình: Lap lại quá trình trên với các mô hình mới cho đến khi
đạt được một số lượng mô hình mong muốn hoặc khi hiệu suất tối đa
Cuối cùng, các mô hình tăng cường được kết hợp lại dé tạo ra một PM cuối
cùng Phương pháp tăng cường thường sử dụng các kỹ thuật như AdaBoost,
41