1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Công nghệ thông tin: Ứng dụng AI dự đoán thuê bao rời mạng dịch vụ internet VNPT

105 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng Dụng AI Dự Đoán Thuê Bao Rời Mạng Dịch Vụ Internet VNPT
Tác giả Hoàng Hải Nam
Người hướng dẫn TS. Nguyễn Thanh Bền, TS. Nguyễn Vũ Anh Quang
Trường học Đại Học Quốc Gia TP HCM
Chuyên ngành Công Nghệ Thông Tin
Thể loại luận văn thạc sĩ
Năm xuất bản 2024
Thành phố Thành Phố Hồ Chí Minh
Định dạng
Số trang 105
Dung lượng 58,07 MB

Nội dung

Bang cách tận dụng các nghiên cứu mới, sử dụng AI cùng với các dữ liệu phát sinh trong quá trình cung cấp dịch vụ, ta có thé phân tích các mẫu dữ liệu phức tạp và dự đoán khả năng rời mạ

Trang 1

ĐẠI HỌC QUỐC GIA TP HCMTRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

HOANG HAI NAM

LUAN VAN THAC SINGANH CONG NGHE THONG TIN

Trang 2

LỜI CAM ĐOAN

Tôi xin cam đoan những nội dung trình bày trong luận văn “Ứng dụng AI dựđoán thuê bao rời mạng dịch vụ internet VNPT” là kết quả của sự phân tích nghiên

cứu và quá trình thực nghiệm do bản thân tôi tự thực hiện.

Pham vi tìm hiểu, tim doc va lam luận văn này tôi có dùng và trích dẫn cáccông trình khoa học từ một số nguồn lược khảo nhất định, các nội dung lược khảođều được tôi viện dẫn và ghi rõ nguồn gốc

Trong luận văn không có bat kỳ các thông tin hay nguồn tai liệu nghiên cứu

từ các nhà khoa học khác được viện dẫn trong lúc thực hiện đề tài này khi không

có ghi rõ trích dẫn theo đúng các quy định đã ban hành của trường.

Thành phó Hồ Chí Minh, ngày 7 tháng 6 năm 2024

Tác giả

Hoàng Hải Nam

Trang 3

LỜI CẢM ƠN

Từ thời điểm tìm kiếm đến khi thực hiện xong bài luận văn, tôi rất biết ơn tất

cả sự hướng dẫn, động viên và sự hỗ trợ từ phía Nhà trường, Thầy Cô, bạn bè,

đồng nghiệp và Gia đình

Tôi xin gửi lời chân thành cảm ơn đến Thầy hướng dẫn là TS Nguyễn ThanhBình và TS Nguyễn Vũ Anh Quang đã nhiệt tình chỉ dẫn trong suốt thời gian tìmhiểu, nghiên cứu thực ngiệm cho đến thời điểm hoàn thành bài luận văn tại trường

Tôi chân thành gửi lời tri ân đến các Quý Thầy Cô trong Phòng Đảo tạo SauĐại học của trường Đại học Công nghệ Thông tin đã hỗ trợ cũng như cung cấp chotôi những tri thức, kiến thức, hướng dẫn các thủ tục và các kinh nghiệm quý giácho tôi trong suốt quá trình học tập nghiên cứu ở trường

Đồng thời, tôi cũng muốn gởi những lời cảm ơn chân thành tới Gia đình, bạn

bè và các đồng nghiệp Công ty đã hỗ trợ tôi trong suốt toàn bộ quá trình học vàthực nghiệm nhằm hoan thành nội dung bai luận văn nay

Với khoảng thời gian ngắn đồng thời kiến thức bản thân tôi còn có nhiều hạnchế, do đó bài luận văn chắc chắn vẫn còn các thiếu sót Tôi rất mong sẽ nhận đượcnhững lời khuyên, góp ý của quý Thầy Cô

Trang 4

MỤC LỤC

Lời Cam đOan - c9 000 0 0000080301080 080003018003.108018 3

LOT CAM ƠP có THỌ cọ Họ HT 4

Danh mục các ký hiệu và chữ viết tắt cac gseexersesere 9

1.4 Phạm vi của nghiên CỨU ccsccesssscsssccesseecssssecssesecsseeeessneeessseeesseeeeseeeeens 18

1.5 So sánh với các nghiên cứu liên quan << << « s S1 S331 1# 19

1.6 Cấu trúc luận VAN - 22 0E 2 030101030 E13 9 E030 KH E03 5 8875 E25 20 CHƯƠNG 2 CƠ SỞ LÝ THUYET 2-5252 cve+rsrrrsrrrsrrrsrrrrrrerrree 21

2.1 Các bước quá trình chăm sóc khách hàng của VNPT . - «««<« 21

2.1.1 Tim hi€u thong 01077 21

2.1.2 LUa CHON i0 0a a 21

2.1.3 Ký kết hợp đồng - tt HH1 1111011111111 rree 21

2.1.4 Lắp đặt dịch vụ ¿-::Sc tk tt HH1 111111111111 10111 HH ưêt 22

2.1.5 Bảo tri, sỬa ChẴỮa - ¿Là E11 3113123115151 H1 TH TH TT TT TH TH HH Hư 22

Và NT 1830331510-000 22 2.1.7 Thanh lý hợp đồng +: + 12t v3 v cv vn ng gi 22

2.2 Tổng quan về AI và Ứng dụng - c< se sssessseerseessessssersserse 22

Trang 5

2.2.1 Khái niệm về Al vce cececcescescecceccccesceccsccssvscesscsscescaecasersvsevsecescescauessenatsatase 22

2.2.2 (hàn NẠI 24

2.2.3 Quy trình phân tích dữ liệU 5 S1 k SH TT Hư 25

2.2.4 Một số khái niệm khác trong quy trình phân tích máy học 29

CHƯƠNG 3 Bài toán dự đoán thuê bao rời mạng - cscSSs<<<<+ 34

EhNc 1.0 27 ÔỎ 34

3.2 Các mô hình máy học được sử dụng - - - «<< S191 118 12s, 34

3.2.1 Thuật toán K láng giềng gần - KNN -¿- 2S 22t v22 xrereeererree 34

3.2.2 Mô hình Naive Bayes [9] - - k2 n HH TH TH ng ng giếng 36

3.2.3 Hồi quy Logistic [10] ¿+2 +22232t23E2+3xx£vStxexexexexessrrkererexexrersre 37

3.2.4 Mô hình SVM [11] - tt kén H21 rệt 37

3.2.5 Mô hình cây quyết định - DT [12] ¿- ¿5+ ©+S+++x+x+ezeEsrexexexsesexsrsse 39

3.2.6 Mô hình rừng ngẫu nhiên [13] - +5 + +52 5£ £rxerereersrerxrseree 40

3.2.7 Phương pháp tang CƯỜng - + n1 TH HH ng ng ng ng 41

3.3 Các mô hình học sâu được sử AUN - - (<< S1 1 91189 1 me 47

3.3.1 Mạng nơ-ron nhân tạo - LG 2 1111111 11 9 1H ng vn HH 47

3.3.2 Mạng nơ ron tích chập [20] - - 2c 3 2 E3 net 49

3.4 Hiện trạng bài toán về dự đoán thuê bao rời mạng dịch vụ viễn thông 51

3.4.1 Mô hình dự đoán thuê bao rời mạng sử dụng các thuật toán phân tích hồi quy, cây quyết định và mạng nơ-ron nhân tạo ¿- 5 22 Se Sex crreeersresrereree 51

3.4.2 Dự đoán khách hàng rời bỏ trong ngành Viễn thông sử dụng thuật toán bộ

phân loại rừng ngẫu nhiên - 5< 1S St 2 22121112111111111111121.1.1111.111121 1111 52

3.4.3 Mô hình dự đoán khách hàng rời mạng trong ngành Viễn thông sử dụng kỹ

Thuat 8r 832121117077 53

3.4.4 Kết hợp XGBoost và Smote-enn để cải thiện độ chính xác của dự đoán

khách hàng rời bỏ trong ngành viễn thông - ¿- 52 St E2vErrrrrkrrrrrerrvee 54

Trang 6

3.4.5 Các mô hình CCP trên nhiều bộ dữ liệu khác nhau 5-5 -s+ 55 CHƯƠNG 4 CHI TIẾT THỰC NGHIỆM VÀ KẾT QUA - << <2 56

4.1 Môi trường thực nghiệm và các bộ dữ liệu 2 << <5 S5 s35 56

4.2 Tổng quan quy trình tiến hành thực nghiệm - . «5< << sesssss 57

4.3 Tiền xử lý dữ liỆU (Ăn HT TH TT TH TT TH ng 58

4.3.1 Làm sạch dữ liỆU - LG 11 S119 112111 11 0110111 111v HH HH Hy nườn 58

4.3.2 ChUy@n GO: 0 8n dA Ô 61

4.4 Phân tích dữ liệu khám phá - - -G - S0 HH g0 65

4.4.1 Truc Quan N6a AT 1 65

4.4.2 Các trường hợp thuê bao có khả năng cao rời bỏ - +: +5 +52 70

4.5.5 Kết quả mô hình rừng ngẫu nhiên - 22 ¿552 SS++x+Ecrexereresresrxee 85

4.5.6 Kết quả mô hình cây quyết định -¿- + sc 22t se Exeerxrrrrrerexexree 86

4.5.7 Kết quả mô hình dự đoán Adaboost ¿5c S2 +x+t+txvsessrssercee 88 4.5.8 Kết quả mô hình Gradient BOost ¿- 5s S2 St S2 SEsxeevrxvrrererrxerree 90

4.5.9 Kết quả mô hình XGBOOSE - (c2 S122 SEE E3 121211152 11111112111xckrke 91 4.5.10 Kết quả model mạng nơ-ron nhân tạo 2-5252 c+c+s+s+ssesesecse+ 93

4.5.11 Kết quả mô hình mạng neural tích chập -. -¿- - +52 +++s++s+s+sss2 95 4.6 So sánh kết quả các mô hình dự đoán «c5 sssesseerseesse 98

4.6.1 Về độ chính Xác - E5 k SE SE kE S3 E1 1 E31 11 1T T1 HH Tưng 99

4.6.2 Khả năng dự đoán tỉ lệ thuê bao rời mạng . -¿- ¿5+ c+++<+x++<+2 99

Trang 7

CN in 100

4.6.4 Thời gian huấn luyện - -¿- 6L 1221212114141 1 121181111111 0111 61 tre, 100

CHƯƠNG 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .- 5-5-5556 csc+ 102

5.1 c8 102

5.2 Dinh hurGng 1 2,0 102

TÀI LIEU THAM KHẢO 5-11 v.v HH he 103

Trang 8

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIET TAT

Ký hiệu Nghĩa tiếng Việt Nghĩa tiếng Anh

AI Trí tuệ nhân tạo Artificial intelligence

ARPU Don vị doanh thu trung bình | Average Revenue per Unit

ANN Mang noron nhan tao Artificial neural networks

ML May hoc Machine learning

MSE Trung binh cua b inh phương Mean Squared Error

Các sai sO

CNN Mang no-ron tich chap Convolutional Neural

GRU Công nút hồi tiếp Gated recurrent units

LSTM Mang bộ nhớ dai và ngắn Long short-term memory

DL Học sâu Deep learning

RMSE Trung bình của các sai số Root Mean Squared Error

MAPE Trung binh của phân trăm sai Mean Absolute Percent

sô tuyệt đôi ErrorLTD Khu vực khoảng cách thấp Lower Distance Zone

UTD Khu vuc khoang cach cao Upper Distance Zone

PAC Gần như chính xác Probably Approximately

CorrectISP Nhà cung cấp internet Internet Service Provider

DT Cây quyết định Decission Tree

CCP Dự đoán thuê bao rời mang Customer Churn Prediction

PM Mô hình dự đoán Prediction Model

CSKH Chăm sóc khách hàng

MAE Trung bình sai số tuyệt đối Mean absolute error

LR Hồi quy Logistic Logistic Regression

Trang 9

DANH MỤC BANG

Bảng 4.1: Thuộc tinh tập dữ liệu - - c2 1S 1 ** E**vgnHry 56

Bang 4.2: Thuộc tính tập dữ liệu (tiẾp) - 2-2 52+2E22EE22EEcEEEtzExerrerrree 56 Bang 4.3: Các thuộc tinh còn thiếu dữ liệu - 2-2 52+ z+£x+zEzxsrxered 61 Bảng 4.4: Kết quả mô hình KNN - 2-52 2 2E2E2EE2EE2EE2EE2E1EEErrrrrkrrei 78 Bảng 4.5: Kết quả dự đoán mô hình Naive Bayes . ¿©22z 55c 80 Bang 4.6: Kết quả dự đoán mô hình hồi quy Logistic 2-2 s52 82

Bảng 4.7: Giá trị điều chỉnh siêu tham số mô hình hồi quy Logistic 82

Bang 4.8: Kết quả du đoán mô hình SVM o ccccccccsessseessesseesseesseessesssesssesseessees 83 Bang 4.9: Giá trị siêu tham số tinh chỉnh tốt nhất mô hình SVM 84

Bang 4.10: Ma tran nhằm lẫn và các hệ số dự đoán mô hình SVM 84

Bang 4.11: Kết quả dự đoán mô hình rừng ngẫu nhiên 22- 2 s52 85 Bang 4.12: Giá trị điều chỉnh siêu tham số mô hình rừng ngẫu nhiên 86

Bảng 4.13: Kết quả dự đoán mô hình cây quyết định -¿ 2 5252 87 Bang 4.14: Giá trị điều chỉnh siêu tham số mô hình cây quyết định 87

Bang 4.15: Giá trị điều chỉnh siêu tham số mô hình adaboost - 89

Bảng 4.16: Giá trị điều chỉnh siêu tham số mô hình XGBoost 92

Bảng 4.17: Kết quả dự đoán mô hình mang nơ-ron nhân tạo : 93

Bảng 4.18: Bảng giá trị tỉnh chỉnh siêu tham số mô hình mạng nơ-ron nhân tạo93 Bảng 4.19: Gia tri ham mat mat và độ đo chính xác mô hình mạng no-ron nhân 2 94

Bang 4.20: Kết quả thực nghiệm mô hình mạng nơ-ron tích chập 96 Bảng 4.21: Giá trị điều chỉnh siêu tham số CNN -¿-2¿©cczcccccsxe 96

10

Trang 10

Bảng 4.22: Hàm mat mát và độ chính xác mô hình CNNBảng 4.23: So sánh kết quả các PM -

11

Trang 11

DANH MỤC HÌNH VE, BIEU DO

Hình 1.1: Phạm vi cung cấp dịch vụ của VNPT TP Hồ Chí Minh 18Hình 2.1: Các bước trong vòng đời sản phẩm internet 2-2552 21

Hanh 2.2: Quy trinh may hoc wo Pe Ồ 25

Hình 3.1: Minh họa việc gan nhãn dữ liệu mới theo mô hình KNN 35Hình 3.2: Mô hình cây quyết định [ 12] -. -¿ 2z 5+225++x++zxzzxrzzxersreex 39

Hình 3.3: Mô tả thuật toán Adaboost [ Ï 6] -.- c5 S2 * 2 ssekrserrerreerres 43

Hình 3.4: Thuật toán Gradient BOOSE Q2 2c 1222113 2E ESrseirsrrerses 44

Hình 3.5: Sơ đồ cây XGBoost [1 ] 5 11521521 21212 EEEEEEE2EEEExErrrrki 46Hình 3.6: Sơ đồ minh họa 0001301909: 48

Hình 3.7: Gradient descent and stochastic gradient descent - - 49

Hình 3.8: Sơ đồ minh hoa mạng CNN [2 ] - 2s2+z+E+£xerxezrsrseres 50

Hình 4.1: Quy trình thực nghiệm - 2 c2 2 +22 £+£+*EE+eeersereeereeeres 58

Hình 4.2: Thuộc tính SOTHANGGH trước va sau khi xóa bỏ dữ liệu ngoại lệ 59

Hình 4.3: Mức độ quan trọng của các đặc trưng theo phương pháp ANOVA

F-Hình 4.4: F-Hình trên biéu thị kết quả sử dụng REECV 2¿©-25cs+cs¿ 63Hình 4.5: Độ quan trọng của các thuộc tính dựa trên kết quả của rừng ngẫu nhiên

Hình 4.6: Biểu đồ tong số thuê bao theo phân loại khách hàng (Bên trái) và tông

số thuê bao theo trạng thái thuê bao (Bên phải) -2-2¿ 55225552 65Hình 4.7: Khu vực có tỉ lệ rời mạng cao (trái) và khu vực có số thuê bao rời mạng

12

Trang 12

Hình 4.9: Phân bồ số tháng sử dụng của thuê bao -22- 2 s+2sezs+zssred 67

Hình 4.10: Ma trận tương quan các thuộc tính trong tập dữ liệu 69

Hình 4.11: Phân bố giá trị đặc trưng SOLANTAMNGUNG 70

Hình 4.12: Phân bố giá trị của đặc trưng SOTHANGSD - s2 71 Hình 4.13: Phan bố giá trị của thuộc tính DIEMTINNHIEM - 71

Hình 4.14: Phân loại khách hang theo đối tượng - z2 s22 72 Hình 4.15: phân phối giá trị bến SOTHANGGH nhóm khách đã thanh lý 73

Hình 4.16: Tỉ lệ hủy của thuê bao có SOTHANGGH < II và SOLANTAMNGUNG > Ú Ác TH HH TT HH HH Hy 74 Hình 4.17: Tỉ lệ thanh lý theo điểm tín nhiệm 54 điểm - 2-5252 75 Hình 4.18: Phân bố điểm tín nhiệm thuê bao dùng nhỏ hơn 48 tháng và gia hạn < 3 lần Z 6t GP ÃM lỗ V/V 76

Hình 4.19: Anh hưởng của Thuộc tính SOLANDC 2 2z s+s+zszrs2 76 Hình 4.20: Hiệu suất dự đoán của mô hình KNN khi tinh chỉnh tham số K 79

Hình 4.21: Ma trận nhằm lẫn và các hệ số dự đoán mô hình KNN 79

Hình 4.22: Kết quả tinh chỉnh siêu tham s6 mô hình Naive Bayes 81

Hình 4.23: Ma trận nhằm lẫn và các hệ số dự đoán mô hình Naive Bayes 81

Hình 4.24: Ma trận nhằm lẫn và các hệ số dự đoán mô hình hồi quy Logistic 83

Hình 4.25: Ma trận nhằm lẫn và các hệ số của mô hình rừng ngẫu nhién 86

Hình 4.26: Ma trận nhằm lẫn và các hệ số của mô hình cây quyết dinh 88

Hình 4.27: Ma trận nhầm lẫn mô hình adaboosi 2 s+22+x+E2+E+EzEzzs+z 89 Hình 4.28: Ma trận nhầm lẫn và hệ số của mô hình Gradient Boost 91

Hình 4.29: Ma trận nhằm lẫn và hệ số mô hình XGBoost -: 92 Hình 4.30: Cấu trúc của mô hình mạng nơ-ron nhân tạo -«+- s52 94

13

Trang 13

Hình 4.31: Ma trận nhằm lẫn và hệ số của mô hình mạng nơ-ron nhân tạo 95Hình 4.32: Cau trúc của mô hình CNN 2-2 2+E2+E2EeEEeEEeEEeEEerxrrrrees 97Hình 4.33: Ma trận nhầm lẫn và hệ số của mô hình mạng nơ-ron tích chap 98

Hình 4.34: Thời gian và độ chính xác của các PM -c c2 100

14

Trang 14

MỞ DAU

Ở thời điểm hiện nay, công nghệ AI được tích hợp vào nhiều lĩnh vực nhằm

hỗ trợ cho con người trong các dự đoán, quan lý công việc, trong đó có nội dung

liên quan về quản lý thuê bao và chất lượng dịch vụ internet Ở các nước đã pháttriển, thị trường internet đã đạt đến sự bão hòa về tỷ lệ tiếp cận dịch vụ của kháchhàng và tăng trưởng thị phần Thách thức mà các ISP phải đối mặt là việc chuyểnđổi từ thu hút người dùng mới sang việc giữ chân thuê bao đang có Trong thực tế

sử dụng, có nhiều yếu tố khác nhau tác động đến việc thuê bao rời mạng hoặc tiếptục sử dụng Do đó, việc hiểu hành vi của khách hàng, khuyến khích họ chi tiêunhiều hơn và sau đó dự đoán tương lai bằng cách ngăn chặn sự ra đi của kháchhang là rất quan trọng Khi ngành công nghiệp đang tiến triển, thách thức lớn nhấtđối với các nhà điều hành là tương tác với người tiêu dùng và giữ chân sự trungthành bằng cách cung cấp các dịch vụ cạnh tranh và sáng tạo có giá trị cộng thêm

Trong khi việc hiểu nhu cầu của người tiêu dùng vẫn là quan trọng dé cảithiện việc giữ chân khách hàng, các mức giá va dịch vụ mới nổi khác có khả năngtác động lâu dài đến tỷ lệ thuê bao rời mạng (bao gồm cước phí gói dịch vụ, dịch

vụ tiện ích cộng thêm, hậu mai) Tình trạng thuê bao rời mạng có thể là tự nguyệntrong trường hợp họ muốn rời bỏ nhà mạng đang sử dụng thực sự, hoặc là rời mạngbat đắc di trong trường hợp hóa đơn chưa thanh toán khi đến chu kỳ tiếp theo Kỹthuật được dùng nhằm thực hiện các đánh giá dé mang lai két quả có độ chính xáccao trong lĩnh vực này là rất lớn và đa dạng Trong quy mô của bài luận này, mụctiêu sẽ hướng tới vào việc phân tích, thiết kế và triển khai PM sử dung AI dé đánhgiá xác suất rời mạng của thuê bao internet của nhà mạng VNPT TP Hồ Chí Minh

Dựa trên các thử nghiệm, tác giả ưu tiên lựa chọn và phân tích các PM khác nhau

dé phát hiện mô hình hợp lý có thể giúp các nhà phân tích tìm ra thuê bao rời mạngtrong lĩnh vực Internet.

Trong luận văn này, ta sẽ nghiên cứu hai nội dung quan trọng trong thị trường

viễn thông và các PM tương ứng, thông qua đó nhằm hiểu hành vi của thuê baotương ứng các đối thủ khác nhau: thị phần khách hàng của nhà mạng và mức độ

trung thành của thuê bao.

15

Trang 15

Chương 1 Tổng quan

CHƯƠNG 1 TONG QUAN

1.1 Ly do chgn dé tai

Internet tại Việt Nam bắt dau xuất hiện từ giai đoạn 1997, đây là một tiễn bộ

để thay đổi thói quen, kinh tế và xã hội của Việt Nam; tạo ra một phương thức tìmkiếm tri thức khác cho con người Trải qua thời gian phát triển, hiện nay Việt Nam

là nước mạnh trong lĩnh vực Viễn thông — Internet với công nghệ hiện đại, mức

phô cập internet cao Cùng với số lượng người dùng lớn, số lượng các ISP cũngtheo đó gia tăng về số lượng và có sự cạnh tranh mạnh mẽ về thị phần

Hiện nay, tỉ lệ thuê bao internet tại nước ta đang ở mức cao, thị trường bắtđầu đi vào bão hòa, xu hướng người sử dụng mới thấp dần và thay vào đó là lượngkhách hàng chuyền dịch từ ISP này sang ISP khác hoặc ngược lại Để các ISP cóthể giữ vững thị phần có sự cạnh tranh khốc liệt ngày nay, viéc hiểu rõ và dự đoánđúng nhu cầu là yếu tố quan trọng đề duy trì và mở rộng thị phần Bang cách tận

dụng các nghiên cứu mới, sử dụng AI cùng với các dữ liệu phát sinh trong quá

trình cung cấp dịch vụ, ta có thé phân tích các mẫu dữ liệu phức tạp và dự đoán

khả năng rời mạng của khách hang một cách chính xác hơn, hỗ trợ các ISP chủ

động thực hiện các biện pháp nhằm can thiệp kịp thời với mục tiêu giữ chân khách

hàng.

Các ISP đang phải đối mặt với áp lực hỗ trợ khách hàng ngày đòi hỏi khắtkhe, không chỉ internet, dịch vụ còn phải đảm báo các nội dung giải trí bao gồm

âm thanh, video Đằng sau khó khăn của dịch vụ ba trong một là nhu cầu cung cấp

đến người dùng các trải nghiệm chất lượng cao, dù khi họ sử dụng dịch vụ hoặc

khi họ yêu cầu sự trợ giúp từ ISP của họ [1] VNPT TP Hồ Chí Minh là một trongcác ISP quy mô lớn về dịch vụ internet bên cạnh các nhà mạng khác VNPT cũng

có một lượng thuê bao trong trạng thái rời bỏ dé chuyền sang ISP khác Do vậy,

dé việc duy trì doanh thu và giữ vững thị phần, việc VNPT nghiên cứu và dự đoánhành vi rời mạng của thuê bao là việc làm cần thiết Mặt khác AI đang dẫn dắt sựthành công của nhiều lĩnh vực khác nhau, và việc áp dụng AI vào CCP trong ngànhviễn thông không chỉ mang đến kết quả kinh doanh cao hơn mà còn tao ra sự đổi

16

Trang 16

Chương 1 Tổng quan

mới và tiến bộ trong lĩnh vực này Nhằm tận dụng các lợi thé của AI, đề tai naythé hiện sự ứng dụng của kỹ thuật mới vào lĩnh vực viễn thông, CCP khi sử dụnginternet của VNPT TP Hồ Chí Minh

Đề tài này ngoài giá trị lý thuyết còn đưa đến giá trị thực tiễn cho Công tytrong thực tế Các kết quả có thé được ứng dụng vào hoạt động kinh doanh, giúpVNPT có thé tối ưu chiến lược bán hàng và CSKH, từ đó tăng cường hiệu quả kinh

doanh và duy trì sự cạnh tranh.

1.2 Mục tiêu của nghiên cứu

Về tổng quan, đề tài nghiên cứu lược khảo các kỹ thuật và đánh giá các môhình ML trong dự báo So sánh sai số khi thay đổi các thuộc tính đữ liệu, songsong với việc so sánh các tác động của số lượng biến tới hiệu suất trong quy trìnhthử nghiệm Trong nghiên cứu cũng đưa ra nhằm lựa chọn mô hình dự báo phùhợp dé có thé CCP dịch vụ internet VNPT

1.3 Đối tượng nghiên cứu

Những mô hình máy học được áp dụng trong nghiên cứu dự báo như: KNN,

Naiver Bayes, hồi quy Logistic, rừng ngẫu nhiên, cây quyết định, phương pháp

tăng cường, ANN, CNN.

Bộ dữ liệu tiến hành thực nghiệm: dữ liệu là bảng danh sách chỉ tiết các thuêbao sử dụng internet VNPT TP Hồ Chí Minh được ghi nhận trong thời gian 6 năm

ké tư 2017 đến 2023 trên toàn TP Hồ Chí Minh Dữ liệu thu thập từ ISP qua các

hoạt động bán hàng, bàn giao dịch vụ, công tác sau bán hàng Bảng dữ liệu được

tổng hợp gồm 664329 hàng và 17 thuộc tính Các thuộc tính gồm có thời gian thuê

bao sử dụng, tốc độ đường truyền, mức cước, số lần thuê bao không phát sinh lưu

lượng, khu vực lắp đặt thuê bao, số lần thuê bao tạm dừng sử dụng dịch vụ, thuêbao thuộc chung cư, thời gian bắt đầu sử dụng dịch vụ, số lần khách hàng tái gia

hạn dịch vụ Bảng dữ liệu này phục vụ công tác quản lý, CSKH, xử lý các phát

sinh sau bán mới và không công khai trên cổng thông tin của ISP

17

Trang 17

Hình 1.1: Phạm vi cung cấp dịch vụ của VNPT TP Hồ Chí Minh

1.4 Pham vi của nghiên cứu

Trong luận văn này tập trung vào việc phân tích các yếu tố ảnh hưởng đến tỉ

lệ rời mạng của khách hàng sử dụng Internet của VNPT, đặc biệt sử dụng các mô

hình máy học dự báo khả năng thuê bao rời bỏ dịch vụ Nghiên cứu sẽ gồm có các

quá trình chính như sau:

Thu thập dữ liệu: Trong suốt quy trình thực hiện nghiên cứu, dữ liệu về cáchành vi và hành động rời mạng của khách hàng trong thực tế tại tập đoàn VNPTđược ghi nhận Dữ liệu được lấy liên tục trong nhiều năm nhằm có thé bảo đảm

được tính toàn vẹn và cũng như có tính tin cậy trong quy trình thực hiện các thử

nghiệm.

Tiền xử lý dữ liệu: dit liệu sẽ được tiến hành phân tích, đánh giá và xử ly dé

có thể loại bỏ được giá trị ngoại lai, điền các dữ liệu còn thiếu, chuyên đổi thành

dữ liệu mới từ tập dt liệu Sau đó, tạo bộ dữ liệu trung gian dựa trên thời gian dự

18

Trang 18

Chương 1 Tổng quan

báo, kích thước cửa số dữ liệu va số lượng biến, giai đoạn tiếp đến là chuẩn hóa

dir liệu Nhờ đó làm tăng độ chính xác và hiệu quả của mô hình phân tích dự báo.

Xây dựng và cài đặt những PM: Nghiên cứu sử dụng những thuật toán và PM

như KNN, Naive Bayes, rừng ngẫu nhiên, Adaboost, Gradient Boost, XGBoost,

hồi quy Logistic, cây quyết định, ANN, mạng neural tích chập Nghiên cứu sẽ xâydựng và cài đặt PM về khả năng thuê bao rời mạng dựa trên các đặc trưng dữ liệugiám sát được trong quá khứ Sau cùng là quá trình đánh giá hiệu suất và đồng thờiđánh giá so sánh độ lỗi của các PM

1.5 So sánh với các nghiên cứu liên quan

So với các nghiên cứu về nội dung dự đoán khách hàng rời mạng, luận văn

này thê hiện được các đặc điêm như sau:

- Vé mặt học thuật: Luận văn cung cấp một tổng quan chi tiết và so sánh

các kỹ thuật học máy truyền thống và hiện đại trong bải toán dự đoán

khách hàng rời bỏ Đây là tài liệu có giá trị cho tham khảo về nghiên cứu

và phát triển các hệ thống dự đoán trong lĩnh vực này

- _ Về mặt phương pháp: Luận văn áp dụng và điều chỉnh các thuật toán khác

nhau để tối ưu hóa cho bài toán dự đoán rời mạng, bao gồm việc tinhchỉnh siêu tham số và các kỹ thuật như lựa chọn đặc trưng và điền thiếu

đữ liệu.

- _ Về mặt mô hình: Qua việc so sánh các mô hình, luận văn xác định rằng

các mô hình như Gradient Boosting và XGBoost đạt hiệu suất cao trongviệc CCP, nhờ khả năng xử lý đữ liệu phức tạp Luận văn có thê đóng gópvào việc điều chỉnh các mô hình hiện có cho bài toán dự đoán khách hàng

rời bỏ.

- Vé mặt dữ liệu: Luận văn mô tả chỉ tiết quy trình tiền xử lý (thu thập, làm

sạch dt liệu, chọn loc va tạo đặc trưng), nâng cao chất lượng dữ liệu chocác mô hình học máy Nghiên cứu xử lý bộ dữ liệu trong thực tế, đónggóp vào việc tiền xử ly các vấn đề phổ biến trong tình huống thực tế Bộ

dữ liệu có tính bảo mật nên không thé công bồ rộng rãi

19

Trang 19

Chương 1 Tổng quan

- Mat ứng dụng: Nghiên cứu đề xuất các giải pháp ứng dụng thực tiễn từ

kết quả CCP, hỗ trợ các chiến lược kinh doanh như phát hiện sớm kháchhàng có khả năng rời bỏ và đề xuất phương án duy trì thuê bao hiệu quả.1.6 Cấu trúc luận văn

Toàn bộ nghiên cứu được phân chia thành 5 chương như bên dưới:

+ Chương 1: Giới thiệu tổng quan và định hướng nghiên cứu

+ Chương 2: Cơ sở lý thuyết.

+ Chương 3: Tổng quan bai toán dự đoán thuê bao rời mạng

+ Chương 4: Chỉ tiết kết quả thực nghiệm

+ Chương 5: Kết luận và hướng phát triển

20

Trang 20

Chương 2 Cơ sở lý thuyết

CHƯƠNG 2 CƠ SỞ LÝ THUYET

2.1 Các bước quá trình chăm sóc khách hàng của VNPT

Trong mô hình vòng đời của sản phâm, người dùng sẽ trải qua các bước

như sau:

Tìm hiểuthông tin

Hình 2.1: Các bước trong vòng đời sản phẩm internet

Các bước như trên được mô tả chỉ tiết:

2.1.1 Tìm hiểu thông tin:

Người dùng khi có nhu cầu về sử dung internet, người ta sẽ tìm thông tin

về sản phẩm, có thé qua môi trường mạng online (các web, Facebook, Tiktok, )hoặc qua các kênh trực tiếp như cửa hàng của ISP, người quen đang dùng, đại lý

kinh doanh Internet

2.1.2 Lựa chọn dịch vụ

Sau khi tìm hiểu, xác định được ISP tin dùng, người dùng sẽ tiếp xúc ISP

dé chọn sản phẩm phù hợp nhu cầu (tốc độ truy cập, giá cước phải trả) và ký kếthợp đồng sử dụng dịch vụ Việc tiếp xúc có thé diễn ra tại cửa hàng, tại nhà kháchhàng qua hình thức giấy hoặc điện tử

2.1.3 Ký kết hợp đồng

Là bước ký vào bản hợp đồng giữa ISP và người dùng về các nội dung hai

bên sẽ hợp tác trong quá trình sử dụng dịch vụ, trách nhiệm của mỗi bên trong quá

trình hợp tác.

21

Trang 21

Chương 2 Cơ sở lý thuyết

2.1.4 Lắp đặt dịch vụ

Là bước tiếp theo sau ký hợp đồng, cán bộ kỹ thuật của VNPT sẽ trực tiếpđến nhà, thực hiện cài đặt, đo kiểm các thủ tục kỹ thuật đảm bảo khách hàng hàilòng về chất lượng internet theo nội dung của hợp đồng ký kết nêu ở bước trên

2.1.5 Bảo trì, sửa chữa

Trong quá trình sử dụng, chắc chắn sẽ xảy ra các tác động chủ quan hoặckhách quan dẫn đến việc gián đoạn dịch vụ hoặc định kỳ có các đợt CSKH củaISP Đây là bước nhân viên kỹ thuật kiểm tra lại chất lượng dịch vụ, khôi phục lạikết nối nếu như bị gián đoạn hoặc tiến hành thay thế các thiết bị đầu cuối theochính sách nâng cấp

2.1.6 Tái ký hợp đồng, gia hạn

Bản hợp đồng ký tại bước 3 ở trên sẽ xác định một thời hạn nhất định, saukhi hết hợp đồng, hai bên gồm nhà mạng và khách hàng sẽ tái ký để xác định việctiếp tục sử dụng dịch vụ và lặp lại từ bước ký hợp đồng như nêu trên

2.1.7 Thanh lý hợp đồng

Trong quá trình sử dụng, có thể vì một lý do người dùng không còn nhu cầu

về việc sử dụng (di dời nơi ở, không hai lòng dịch vụ, giá cước, thái độ nhân viên

kỹ thuật, bị ISP khác lôi kéo, ) sẽ tiến hành thanh lý dịch vụ (rời bỏ) Thời điểmnày nhà mạng và người dùng sẽ tiến hành việc chấm dứt sử dụng dịch vụ, trong đónhà mang sẽ thu hồi thiết bị đã lắp, khách hàng có trách nhiệm hoàn trả thiết bị vàcác khoản phí (nếu có) theo hợp đồng Bước thanh lý có thể phát sinh ở bất kỳ thờiđiểm nào trong vòng đời sản phẩm, nhưng thường xảy ra nhất ở bước tái ký hợpđồng, gia hạn

2.2 Tống quan về AI và ứng dụng2.2.1 Khái niệm về AI

AI là một lĩnh vực trong khoa học máy tính và công nghệ thông tin phát triểncác hệ thống hoặc máy tính có khả năng tự học, tự hiểu và tự hành động mà không

22

Trang 22

Chương 2 Cơ sở lý thuyết

cần con người Quá trình phát triển của AI kéo dài qua nhiều thập kỷ, các ý tưởng

về máy tính có khả năng "suy luận" và "học" đã xuất hiện từ giữa thế kỷ 20 Tronggiai đoạn cuối thế kỷ 20, các ý tưởng và nghiên cứu sâu sắc trong lĩnh vực này đãbắt đầu, các mô hình học máy và học sâu đã được phát triển và thử nghiệm, dẫnđến sự tiến bộ đáng ké trong lĩnh vực AI Trong thập ký gần đây, sự tiến bộ trongcông nghệ máy tính, sự gia tăng về khả năng tính toán và dữ liệu lớn đã tạo ra một

làn sóng mới của AI.

AI nhằm dé tạo ra các hệ thống hoặc máy tính có thé thay con người hànhđộng Thuật ngữ này vẫn áp dụng được cho trường hợp thiết bị máy móc hoặcnhững dự án có liên kết với việc phát triển những hệ thống sử dụng những khanăng suy luận giống con người AI có thể giải quyết các van đề khó và thách thức

mà con người gặp phải ở các lĩnh vực cuộc sông, từ y học đến sản xuất hàng hóa.Các hệ thống AI có thé được sử dụng dé tăng hiệu quả công việc và tối ưu quytrình trong các ngành công nghiệp ở tất cả các mảng công việc sản xuất cũng nhưdịch vụ khách hàng AI cũng được đưa vào đề xây dựng các ứng dụng thông minhnhư trợ lý ảo, hệ thống xe tự hành, nhận diện hình ảnh, giọng nói, hệ thống hỗ trợ

ra quyết định AI tạo ra cơ hội dé tìm hiểu va phát triển các kỹ thuật tiên tiến mới,

từ học sâu đến robot học, giúp tiễn xa hơn trong quá trình phát triển của con người.Nhìn chung, AI tạo ra các hệ thống thông minh và tự động hóa để nâng cao đời

sông và mở ra cơ hội mới cho phát triên.

Máy học (Machine Learning) là một phần của AI chuyên phát triển các thuậttoán và mô hình cho phép máy tính học hỏi và cải thiện hiệu suất từ dữ liệu màkhông cần lập trình rõ ràng Ý tưởng chính của máy học là cho phép hệ thống tựphát hiện các mẫu và cấu trúc trong dữ liệu để đưa ra các dự đoán hoặc quyết định

Máy học tập trung vào việc học từ dữ liệu thay vì chỉ thực hiện các hành động

được lập trình cứng nhắc Dữ liệu là nguyên liệu cung cấp thông tin và mẫu mựccho máy tính để phát triển các mô hình và thuật toán Trong máy học, sự quantrọng nằm ở việc tạo ra các dự đoán chính xác và hiệu quả từ dữ liệu, chứ khôngphải là việc hiểu rõ cơ chế hoạt động của mỗi mô hình hoặc thuật toán Máy họcthường dựa vào các phản hồi từ đữ liệu hoặc từ môi trường dé điều chỉnh và cảithiện hiệu suất của mô hình Phản hồi này có thể là nhãn của dữ liệu huấn luyện,

23

Trang 23

Chương 2 Cơ sở lý thuyết

hoặc có thể là phản hồi trực tiếp từ môi trường khi áp dụng mô hình Ngoài ra,

Máy học còn có khả năng tự thích nghi và sự linh hoạt trong xử lý các loại thông

tin và vấn đề Các mô hình và giải thuật được áp dụng vào nhiều lĩnh vực khácnhau mà không cần phải thay đổi quá nhiều Máy học mang đến nhiều lợi ích trong

đa dạng lĩnh vực, hiệu suất và quy trình, trải nghiệm khách hàng và nâng cao hiểubiết về dữ liệu

Học sâu (Deep Learning) tập trung phát triển các mô hình và thuật toán thôngqua sử dụng các mạng nơ-ron nhân tạo nhiều lớp, ý tưởng được lấy từ cấu trúc

cũng như chức năng của bộ não người Tên gọi "sâu" trong học sâu hình thành từ

việc áp dụng các mạng nơ-ron với nhiều lớp ẩn, trong đó thông tin truyền qua lạigiữa các lớp dé xử lý và trích xuất các đặc trưng phức tạp của dữ liệu Các lớp angiúp mô hình học và trích xuất các đặc trưng phức tạp từ dữ liệu Các mô hình họcsâu có thể tự điều chỉnh các trọng số và tham số dựa trên dữ liệu huấn luyện Họcsâu khai phá thông tin từ dit liệu, do vậy việc xử lý và trích xuất các đầu ra thườngyêu cầu lượng dữ liệu lớn đề huấn luyện thì mới có kết quả cao Dữ liệu lớn giúp

mô hình học được đặc trưng phức tạp và tong quát hóa tốt hơn Học sâu có vai tròlớn vào định hình và thúc day AI tiến lên một cách đột phá, mở ra nhiều cơ hộimới và thú vị trong quá trình áp dụng công nghệ vào thế giới thực Học sâu giúpcải thiện và day mạnh vai trò tự động, cho phép các máy móc có thé chủ động làmnhững nhiệm vụ như phân tích bộ dữ liệu và chủ động ra các quyết định mà conngười không cần sự tác động Những ứng dụng của học sâu rất đa dạng, từ trợ lý

kỹ thuật số trong các phương tiện giao đến việc có thể điều khiển từ xa máy móc

của những tòa nhà thông qua giọng nói, phát hiện khả nghi trong các giao dịch qua

thẻ tín dụng, và thậm chí là ô tô tự hành Những công nghệ như thế này cũng cóthé được áp dụng nhằm đề xuất nội dung tự động cho những chương trình truyền

hình dựa trên thói quen của khán giả và những người bạn của những khán giả đó [2].

2.2.2 Muc tiéu

Mục tiêu của AI nói chung và các lĩnh vực cụ thé như máy học va học sâu

nói riêng là tạo ra các hệ thống thông minh tự động hóa các nhiệm vụ, học từ

24

Trang 24

Chương 2 Cơ sở lý thuyết

dataset và làm nhiệm vụ mà trước đây phải cần đến yếu tố con người mới thực

hiện được AI cũng hướng tới người dùng qua việc nâng cao trải nghiệm từ sản

phẩm và dịch vụ cá nhân hóa và ngày càng cải tiến theo thói quen sử dụng Tronglĩnh vực cụ thé, máy học (Machine Learning) và học sâu (Deep Learning) nhằmđến các mục tiêu trên thông qua việc xây dựng mô hình và giải thuật tự học từ dữliệu và cải thiện hiệu suất của mình qua thời gian Thông qua các hoạt động nêutrên, chúng tạo ra hệ thống thông minh và tự động, từ việc dự đoán và phân loạiđến xử lý dé liệu và tạo ra các sản phẩm và dịch vụ tiên tiến Nhờ đó làm ra cácsản phẩm trí tuệ và các tiện ích thông minh hơn, có thé dự báo và những phản hồi

nhanh chóng hơn.

2.2.3 Quy trình phân tích dữ liệu

Quy trình của máy học (Machine Learning) thường bao gồm các bước chính

sau [3] [4] [5]:

e Thu thập và tiền xử ly dữ liệu

e Xây dựng bộ dữ liệu.

e Huấn luyện, đánh giá và sàng lọc mô hình

e_ Triển khai và giám sát

Thu thập và tiền xử lý Phân chia bộ dữ liệu Huấn luyện, đánh giá Triển khai và giám sát

dữ liệu và sàng lọc mô hình

Hình 2.2: Quy trình máy học

a) Thu thập và tiền xử lý dữ liệu

Thu thập dữ liệu là công đoạn quan trọng nhất trong máy học, là quá trìnhtong hợp thông tin từ nhiều nguồn dé tạo ra một tap dit liệu đủ lớn và đa dạng nhằm

sử dụng trong các ứng dụng và phục vụ cho phân tích đữ liệu Dữ liệu bao gồm là

hình chụp, văn bản, bản lưu âm, hoặc bat ky loại dữ liệu có cấu trúc phù hợp với

van đề chúng ta đang nỗ lực giải quyết Dữ liệu có ảnh hưởng mang tính quyết

định đến kết quả phân tích Dữ liệu chất lượng và đại diện sẽ mang đến kết quả

chính xác và đáng tin cậy, trong khi dit liệu không đầy đủ, không phù hợp hoặc

25

Trang 25

Chương 2 Cơ sở lý thuyết

không đại diện có thé làm cho kết quả ít chính xác và thiếu tin cậy [5] Các yếu tốgây ảnh hưởng đến chất lượng của bộ đữ liệu bao gồm:

+ Độ chính xác: Mức độ đúng đắn và chính xác của dit liệu so với thực tế, dữliệu không chính xác có thể phát sinh từ việc đầu vào nhập sai, thiết bị đo lườngkhông chính xác hoặc sự không chắc chắn trong khi thu thập

+ Đầy đủ và đại diện: Dữ liệu cần phải đủ day và bao quát dé dam bảo rangmọi khía cạnh của vấn đề đều được phản ánh đầy đủ, không bị thiếu thông tin Dữliệu cũng cần phản ánh một cách chính xác và cân đối những biến thê và trườnghợp có thé xảy ra trong van dé cụ thé Kết quả của phân tích có thể bị lệch do dữ

liệu không mang tính đại diện.

Bước tiếp theo của thu thập dữ liệu là tiến hành xử lý nguồn dữ liệu Tiền xử

lý dữ liệu rất cần thiết vì dé loại những dữ liệu không hợp lý hoặc bị thiếu, đồngthời chọn ra những đặc tính tương quan với thuộc tính cần dự báo Ngoài ra, quátrình này cũng có thê hỗ trợ xử lý mat cân bằng dữ liệu [6] gồm những giai đoạn

là làm sạch, loại bỏ giá trị trùng lặp, xử lý dữ liệu khuyết và biến đổi dit liệu

e Lam sạch đữ liệu: là quá trình loại bỏ và sửa các lỗi và không chính xác

trong tập dữ liệu dé chuẩn bị cho phân tích và xử lý tiếp theo Trong quá

trình thu thập thông tin, vì một vài lý do nào đó, dữ liệu có các giá trị

nhiễu, bất hợp lý hoặc giá trị không chính xác thì chúng ta cần phải loại

bỏ dé đảm bảo bộ dữ liệu phục vụ cho việc phân tích và huấn luyện mô

hình là chính xác, tin cậy.

e© Loai bỏ các giá trị ngoại lệ: việc loại bỏ này là vì chúng có thé có tác

động đáng kể đến hiệu quả phân tích, đặc biệt khi ảnh hưởng đến cácviệc thống kê như giá trị trung bình và cũng như độ lệch chuẩn Trongphân tích hồi quy, các ngoại lệ có thể làm lệch đường hồi quy và làm sailệch mối quan hệ được ước tính giữa các biến [7]

e Loai bỏ trùng lặp tập dữ liệu khi thu thập, có trường hợp các record bi

lặp lại do nhập liệu nhiều lần thì cần phải được loại bỏ nếu cần thiết

e _ Xử lý dữ liệu khuyết: khi kiểm tra sẽ có các giá trị thiếu trong tập dữ liệu,

có thé là giá tri NaN, null hoặc giá trị thiếu khác Việc xử ly dữ liệu thiếu

26

Trang 26

Chương 2 Cơ sở lý thuyết

bang cách thay thé chúng bằng giá trị mặc định, giá trị trung bình, hoặc

phương pháp khác phù hợp.

Biến đổi dit liệu: trong tập dit liệu, các giá tri không cần thiết hoặc khôngphù hợp, ta nên tạo ra các biến hữu dụng khác dựa trên các biến này nhằmphù hợp với mô hình và nhất quán Sau khi dữ liệu đã được tạo mới, cácgiá trị không phù hợp này có thể được loại bỏ dé làm sạch

b) Xáy dựng bộ dit liệu

Chia tập dữ liệu là giai đoạn thiết yếu trong máy học Bộ dữ liệu thông thường

sẽ được phân tách thành ba phần: dùng đề huấn luyện, dùng đề xác nhận và dùng

đề thử nghiệm [5]

Bộ dữ liệu huấn luyện là một tập hợp các dữ liệu được sử dụng để huấnluyện mô hình máy học Điều này có nghĩa là mô hình sẽ điều chỉnh cáctham số dé du đoán hoặc phân loại đầu ra một cách chính xác từ dữ liệuđầu vào

Bộ dit liệu kiểm định (validation dataset) được áp dung dé đánh giá độchính xác của mô hình máy học hoặc AI sau bước huấn luyện Mục tiêucủa bộ dữ liệu kiểm định là đo lường khả năng tổng quát hóa, tức là khảnăng áp dụng kiến thức đã học ở bước huấn luyện vào các dữ liệu mới

mà mô hình chưa từng gặp Bộ dữ liệu kiểm định được giữ riêng biệt vàkhông được tiết lộ cho mô hình cho đến khi mô hình đã được huấn luyện

hoàn chỉnh.

Bộ dữ liệu thử nghiệm là một phần của dữ liệu được sử dụng đề đánh giáhiệu suất cuối cùng của mô hình máy học hoặc AI sau khi đã hoàn thiệnquá trình huấn luyện và kiểm định Mục tiêu của bộ dữ liệu thử nghiệm

là đánh giá khả năng tong quát hóa trên dữ liệu mới Tương tự như kiểmđịnh, bộ dữ liệu này sẽ không được sử dụng trong quá trình huấn luyệnhoặc kiểm định nhằm dam bảo rằng mô hình không học "quá mức" từ ditliệu thử nghiệm Bộ dữ liệu thử nghiệm thường được sử dụng cuối cùng

dé tim ra mô hình máy học có kết qua dự đoán có tính chính xác trên bộ

dữ liệu mới trước khi ứng dụng vào thực tế

27

Trang 27

Chương 2 Cơ sở lý thuyết

c) Huấn luyện, đánh giá và sàng lọc mô hình

Sau khi đã có bộ dé liệu, quá trình huấn luyện các PM là giai đoạn quan trọngnhất trong học máy Mô hình học máy sẽ được dạy cách phân biệt những mẫu trong

bộ dữ liệu dùng đề huấn luyện và từ đó đưa ra các dự đoán [5]

Quy trình huấn luyện áp dụng cho các mô hình máy học được chia ra các

bước sau:

e Lựa chọn mô hình: Đây là bước đầu tiên và quan trọng để có được

phương pháp phù hợp với van đề nghiên cứu Có rất nhiều mô hình họcmáy học khác nhau, mỗi mô hình đều có điểm mạnh và điểm yếu nhất

định.

e Khoi tạo mô hình: Sau khi chọn mô hình máy học, cần khởi tạo những

tham số của các mô hình Những tham số của các mô hình là những giátrị kiểm soát cách mô hình học cách phân biệt các mẫu trong đữ liệu

e Huan luyện mô hình: Việc huấn luyện được tiến hành trên bộ dit liệu

huấn luyện Huấn luyện các mô hình sẽ bao gồm việc áp dụng các tham

số dùng trong các thuật toán dé tìm ra các mau trong bộ dit liệu và từ đó

đưa ra được các dự báo.

e anh giá các mô hình: Ngay sau khi các mô hình máy học được huấn

luyện, thì cần phải đánh giá hiệu suất trên bộ dữ liệu kiêm định Quá trình

đánh giá mô hình sẽ giúp xác định xem các mô hình máy học có đang

hoạt động tốt hay không và liệu có cần thay đối các tham số của các mô

hình hay không.

e Tinh chỉnh mô hình: Nếu các mô hình máy học không hoạt động tốt trên

bộ dữ liệu kiêm định, có thé cần tinh chỉnh và thay đổi các tham số trongcác mô hình Quy trình điều chỉnh mô hình sẽ bao gồm việc thay đổinhững giá trị của những tham số dé cải thiện hiệu năng của các mô hình

máy học.

e - Đánh giá các mô hình trên bộ dữ liệu thử nghiệm: Sau quy trình mô hình

máy học được tinh chỉnh, cần đánh giá so sánh hiệu suất của các mô hìnhbằng bộ dữ liệu thử nghiệm Quá trình đánh giá mô hình sẽ giúp xác định

28

Trang 28

Chương 2 Cơ sở lý thuyết

xem mô hình học máy có khả năng dự báo chính xác trên bộ dữ liệu mới hay không.

d) Triển khai và giám sát

Sau tất cả các quá trình trong ba giai đoạn trước, chúng ta hiện có một quytrình thu thập cũng như tiền xử lý bộ dữ liệu được thiết lập tốt và một mô hình dựbáo được huấn luyện chính xác Giai đoạn cuối cùng của hệ thống học máy baogồm việc lưu các kết quả mô hình từ các giai đoạn trước và triển khai chúng trên

dữ liệu mới, cũng như giám sát hiệu suất và cập nhật các PM thường xuyên [5]

2.2.4 Một số khái niệm khác trong quy trình phân tích máy học

a) _ Trích chọn thuộc tính: là quá trình lựa chọn các thuộc tính đặc trưng quan

trọng và có ảnh hưởng đáng ké đến mục tiêu và tính hiệu quả của môhình từ tập dữ liệu ban đầu Quá trình này giúp làm giảm số chiều dit

liệu, giảm độ phức tạp của mô hình, cải thiện hiệu suất, giảm thời gian

huấn luyện và giảm nguy cơ overfitting Dưới đây là một số phương phápphô biến đề trích chọn thuộc tính:

e Phuong pháp Filter: là một trong những phương pháp phổ biến trích

chọn thuộc tính nhằm giảm chiều đữ liệu và chọn ra các đặc trưng

quan trọng Đây là một phương pháp độc lập với mô hình, tức không

cần huấn luyện mô hình để đánh gia sự quan trọng của các đặc trưng

Thay vào đó, phương pháp Filter đánh giá mức độ quan trọng của

các đặc trưng dựa trên các độ đo thống kê hoặc thông tin tính toán từ

dữ liệu gốc Với dữ liệu lớn, phương pháp Filter thường có thời gian

xử lý nhanh chóng và hiệu quả Tuy nhiên, phương pháp lại không

cân nhắc tới tương quan giữa các đặc trưng và có thé loại bỏ các đặctrưng quan trọng trong một số trường hợp Do đó, việc kết hợp vớicác phương pháp Wrapper hoặc Embedded dé cải thiện kết qua của

quá trình trích chọn thuộc tính.

e Phương pháp Wrapper: là phương pháp xem xét hiệu suất của tập

hợp các đặc trưng bằng cách sử dụng một PM cụ thé Quá trình này

sẽ tạo ra các tập con các đặc trưng khác nhau, việc đánh giá hiệu suât

29

Trang 29

Chương 2 Cơ sở lý thuyết

của mô hình dựa trên mỗi tập đặc trưng con So với phương phápFilter, phương pháp Wrapper thường đòi hỏi nhiều thời gian tính toánhơn vì phải huấn luyện và đánh giá mô hình trên mỗi tập con đặctrưng Tuy nhiên, phương pháp Wrapper có lợi thế là tạo các nhómđặc trưng tốt hơn và cải thiện hiệu suất của mô hình so với các

phương pháp Filter.

e Phương pháp Embedded: đây cũng là phương pháp dùng để trích

chọn thuộc tính, phương pháp này kết hợp cả quá trình huấn luyện

và trích chọn thuộc tính Trong quá trình huấn luyện mô hình, cácđặc trưng quan trọng được chọn và tinh chỉnh ngay từ đầu dé cảithiện hiệu suất của mô hình Phương pháp Embedded thường nângcao hiệu quả mô hình với số lượng đặc trưng giảm di đáng kể so với

dữ liệu gốc Tuy nhiên, nhược điểm là chúng yêu cầu một lượng tínhtoán lớn hon so với phương pháp Filter và cũng gây nên bị mat thôngtin nếu không được thực hiện một cách cần thận

b) Phân tích dữ liệu khám phá (EDA)

e Muc đích của việc EDA: là quá trình khám phá và phân tích sâu về

tập đữ liệu trước khi áp dụng vào bất kỳ mô hình hoặc phương phápnào Mục đích EDA là hiểu rõ dữ liệu một cách tổng quan, phát hiện

mối quan hệ giữa các đặc trưng dữ liệu và xác định các mẫu hoặc đặc

điểm đáng chú ý EDA là bước quan trọng, cần phải có trong quytrình phân tích dữ liệu và cung cấp thông tin cơ bản và sâu sắc về đữliệu trước khi thực hiện chỉ tiết hơn

e Cac kỹ thuật khám pha dtr liệu:

+ Kỹ thuật đơn biến phi đồ họa: là hình thức khám phá dữ liệu đơn

giản nhất của phân tích đữ liệu Trong kỹ thuật này, chúng ta chỉ

sử dụng một đặc trưng dé tìm hiểu thông tin Mục tiêu là hiểu vềcác thuộc tinh của dit liệu mẫu và phân phối từ đó đưa ra các quansát, nhận xét về quần thé mà dữ liệu đó đại diện Cũng thông quaquan sát này, chúng ta có thé phát hiện các ngoại lệ Các đặc điểmcủa quan thé bao gồm: xu hướng trung tâm hoặc các vi trí phân

30

Trang 30

Chương 2 Cơ sở lý thuyết

phối liên quan đến các giá trị điển hình hoặc trung bình, khoảngcách tìm kiếm các giá trị thông tin so với mức trung bình, độ lệch

và độ nhọn.

+ Kỹ thuật đa biến phi đồ họa: kỹ này thường được dùng dé hién thị

mối tương quan giữa hai hoặc nhiều biến bằng hình thức bảngchéo hoặc thống kê

Đối với dữ liệu phân loại: một phần mở rộng của bảng được gọi

là bảng chéo hữu ích Đối với 2 biến, ưu tiên lập bảng chéo bằngcách tạo một bảng 2 chiều với tiêu đề cột khớp với số lượng củamột biến, tiêu đề hàng khớp với sỐ lượng của 2 biến đối diện Sau

đó, điền vào tông số đối tượng có chung 1 biến, cặp cấp độ tương

đương.

Đối với mỗi biến phân loại và một biến định lượng: Tạo thống kêcho các biến định lượng riêng biệt cho từng cấp độ của biến cụthể Sau đó, so sánh các số liệu thống kê trên số lượng biến định

lượng.

+ Kỹ thuật đơn biến đồ hoa: là quá trình trực quan hóa và khám phá

một biến duy nhát trong tập dữ liệu ma không cần đặc trưng haythông tin từ các biến khác Kỹ thuật này giúp năm rõ đặc điểm vềphân phối biến mục tiêu hoặc biến quan tâm một cách độc lập.Các biểu đồ kỹ thuật phô biến trong phân tích đơn biến phi đồ họa

như: Histogram, Boxplot, Bar, Pie, Line, phân phối, Việc kết

hợp các kỹ thuật phân tích đơn biến phi đồ họa là cơ sở quan trọngcho quyết định phân tích dữ liệu và xây dựng mô hình

+ Kỹ thuật đa biến đồ họa: là quá trình trực quan hóa và khám phá

sự tương quan các biến trong đữ liệu Mục tiêu của việc phân tích

đa biến là hiểu rõ hơn về mối quan hệ, sự tương tác và cấu trúcphức tạp giữa các biến Một số các kỹ thuật phân tích biểu đồ phổ

biến như: Scatter, Heatmap, radar, 3D, Kết hợp các kỹ thuật

phân tích đa biến phi đồ họa sẽ giúp hiểu rõ về mối tương quan

31

Trang 31

Chương 2 Cơ sở lý thuyết

giữa các biến trong tập dữ liệu, từ đó phát hiện và phân tích các

mẫu, nhóm, hoặc biéu hiện đặc biệt.

c) Xây dựng PM: là tạo ra một công cụ hoặc hệ thống có khả năng dự đoán

kết quả output trên cơ sở các thông tin iput Thứ tự thông thường của quátrình gồm:

Lua chọn mô hình: là bước lựa chọn một loại mô hình phù hợp với

bài toán dự đoán cụ thể Dựa vào kết quả EDA, loại dự đoán và kếtquả đầu ra mà chúng ta có những mô hình phù hợp, ví dụ: LR, DT,

Network Neural, hoặc (SVM).

Huan luyện mô hình: sau khi có mô hình va đữ liệu, chúng ta tiếnhành sử dung training dataset dé huấn luyện mô hình Mục tiêu củabước này là điều chỉnh các tham số sao cho đầu ra chính xác nhất cóthể

Đánh giá mô hình: Sử dụng tập dir liệu kiểm định dé đánh giá độchính xác của mô hình Các phương pháp đánh giá bao gồm độ chínhxác, điểm F1, độ đo ROC-AUC, và mat mát chéo

Tinh chỉnh mô hình: trong các trường hợp cụ thể, mô hình cần phảitinh chỉnh tham số nhằm có sự chính xác hơn hoặc chuyền sang PMkhác phù hợp để cải thiện tỉ lệ chính xác của kết quả dự đoán

d) Các tiêu chí đánh giá mô hình phân loại: là các phương pháp dùng dé đo

lường hiệu suât của một mô hình phân loại dựa trên khả năng của nó

trong dự đoán các nhãn lớp của các mẫu đữ liệu Dưới đây là một số tiêuchí phổ biến được sử dụng đề đánh giá mô hình phân loại:

Độ chính xác (Accuracy): Là tỉ lệ giữa đoán đúng so với tổng số Độchính xác càng lớn thì càng tốt

Ma trận nhằm lẫn (Confusion Matrix): Biểu diễn số lượng dự đoánđúng và sai cho mỗi lớp Từ ma trận nhằm lẫn, có thé tính toán các

độ đo như Precision, recall và F 1-score.

Độ nhạy (Recall): là một thước đo hiệu suất của một mô hình phânloại Công thức tính của độ nhạy:

32

Trang 32

Chương 2 Cơ sở lý thuyết

SL dự đoán đúng Recall =———————————

SL dự đoán đúng + SL bỏ sót

¢ Độ chính xác (Precision): Tỷ số giữa true positive và tổng số Positive

được dự đoán Tỉ lệ dự đoán đúng của tập dữ liệu.

e Điểm FI: La một trung binh điều hòa của độ nhạy và độ chính xác,

công thức tính như sau:

Precision x recall

Precision + recall

33

Trang 33

Chương 3 Mô hình máy học và học sâu trong phân lớp, dự đoán

CHƯƠNG 3 BÀI TOÁN DỰ ĐOÁN THUÊ BAO RỜI MẠNG

3.1 Giới thiệu

Trong các công trình nghiên cứu đã được thực hiện về CCP, rất nhiềuphương pháp và mô hình đã được đề xuất tùy thuộc vào đặc điểm và sự tương quangiữa các đặc trưng dữ liệu Mỗi phương pháp và mô hình sẽ có những phần ưu vànhược điểm khác nhau về cả hiệu suất và thời gian thực thi Sau đây là một số mô

hình thường xuyên được dùng trong bài toán CCP.

3.2 Các mô hình máy học được sử dụng

3.2.1 Thuật toán K láng giềng gần - KNN

KNN là một thuật toán học có giám sát đơn giản nhất trong máy học, nó được

gọi là thuật toán lười Nó được gọi là "lười" không phải bởi sự đơn giản rõ ràng,

thực tế trong bước huấn luyện, nó không học từ dữ liệu mà thay vào đó ghi nhớ bộ

dữ liệu huấn luyện KNN có thể áp dụng được vảo cả hai loại của bài toán học cógiám sát là phân loại và hôi quy

Thuật toán KNN khá đơn giản và có thể được tóm tắt bằng các bước sau:

e_ Chọn số K và một phép đo khoảng cách

e Tìm k điểm láng giéng gần nhất của bản ghi dữ liệu mà chúng ta muốn

phân loại.

e Gan nhãn lớp bằng cách bình chọn đa số

Hình sau minh hoa cách một điểm dit liệu mới (2) được gán nhãn lớp tam

giác dựa trên việc bình chọn đa sô trong sô năm điêm láng giêng gân nhât của nó.

34

Trang 34

Chương 3 Mô hình máy học và học sâu trong phân lớp, dự đoán

Hình 3.1: Minh họa việc gán nhãn dữ liệu mới theo mô hình KNN

Dựa trên phép đo khoảng cách đã chọn, trong tập dữ liệu huấn luyện, thuậttoán KNN tim các mẫu gan (tương tự) nhất với điểm dữ liệu chúng ta đang muốnphân loại Nhãn lớp của điểm dit liệu này sau đó được xác định bằng cách bình

chọn đa sô trong sô k điêm láng giêng gân nhât của nó.

Ưu điểm chính của phương pháp phân loại dựa trên bộ nhớ như trình bày ởtrên là bộ phân loại ngay lập tức thích nghi khi chúng ta thu thập dữ liệu huấnluyện mới Tuy nhiên, nhước điểm là độ phức tạp tính toán đề phân loại các mẫu

dữ liệu mới tăng theo cấp số nhân với số mẫu trong bộ dữ liệu huấn luyện trongtrường hợp xấu nhất, trừ khi bộ đữ liệu có rất ít các đặc trưng và thuật toán đã đượcthực hiện bằng cách sử dụng cấu trúc dữ liệu hiệu quả như cây k-d Mặt khác, vìkhông có bước huấn luyện nào được thực hiện nên không thể loại bỏ các mẫu huấnluyện Do đó, vấn đề về không gian lưu trữ dữ liệu là một thách thức nếu chúng ta

làm việc với các tập dữ liệu lớn [8].

35

Trang 35

Chương 3 Mô hình máy học và học sâu trong phân lớp, dự đoán

3.2.2 Mô hình Naive Bayes [9|

Naive Bayes là một thuật toán may học phân lớp được mô hình hoá dựa trên

định lý Bayes trong xác suất thống kê:

P(Xly) * P@)

Trong đó:

- P(y|X): xác suất của mục tiêu y trong điều kiện có đặc trưng X;

- P(Xly): xác xuất của đặc trưng X khi biết mục tiêu y;

- P(y): xác suất của mục tiêu y;

- P(X): xác suất của đăng trưng X

Cùng với giả định rằng các thuộc tính là độc lập có điều kiện khi biết lớp.Đối với đữ liệu giá trị thuộc tính, giả định này cho phép:

36

Trang 36

Chương 3 Mô hình máy học và học sâu trong phân lớp, dự đoán

Đối với các thuộc tính số hoặc dữ liệu được phân loại thành các giá tri rời rachoặc phương pháp xap xi mật độ xác suất được sử dụng [9]

3.2.3 Hồi quy Logistic [10]

Mô hình hồi quy logistic là một phương pháp thống kê được sử dụng đề dựđoán xác suất của sự kiện xảy ra dựa trên một hoặc nhiều biến độc lập Đặc biệt,

nó thường được sử dụng đề dự đoán xác suất của một biến phụ thuộc nhị phân, tức

là một biến chỉ nhận giá trị 0 hoặc 1

Cơ sở của mô hình hồi quy logistic là ham logistic, một ham sigmoid có dang

như sau:

PY = 1X) = gai

(1)

Trong do:

- P(Y=l|X) là xác suất của biến phụ thuộc Y bang 1 cho một tập hợp các

giá tri của biến độc lập X;

- e là số Euler, khoảng 2.71828;

- Bo, By, +) By là các tham số của mmô hình

- Xo,X1, ,Xp là các giá trị của biến độc lập

Mục tiêu của hôi quy logistic là ước tinh các tham số Bp, By, ,/ổ„ sao cho

mô hình phù hợp tốt nhất với dir liệu quan sát được Dé làm điều này, thường sửdụng phương pháp tối ưu hóa như phương pháp cực đại ước lượng hợp lý (MLE)hoặc giảm thiêu độ lỗi bình phương trung bình (MSE) [10]

3.2.4 Mô hình SVM [11]

SVM là một mô hình học máy được sử dụng cho phân loại nhị phân và dự

đoán của học có giám sát Mục tiêu của SVM là tìm ra ranh giới phân chia tốt nhất

giữa các lớp dữ liệu.

Ở dạng cơ bản nhất, SVM hoạt động bằng cách tìm ra siêu mặt phẳng trongkhông gian đa chiều sao cho khoảng cách từ các điểm dữ liệu gần nhất đến siêu

37

Trang 37

Chương 3 Mô hình máy học và học sâu trong phân lớp, dự đoán

mặt phẳng này là lớn nhất Các điểm dữ liệu gần nhất với siêu phăng này được gọi

là các vector hỗ trợ.

Van đề chính trong SVM là tim cách tối ưu hóa siêu phăng sao cho lề giữacác lớp là lớn nhất Điều này thường được thực hiện bằng cách sử dụng phươngpháp tối ưu hóa đối lượng, kỹ thuật tối ưu hóa như kỹ thuật gradient descent

SVM có thê được áp dụng cho các bài toán phân loại tuyến tính và phi tuyếntính thông qua việc sử dụng các hàm nhân dé ánh xa dit liệu vào không gian caochiều, nơi mà phân chia tuyến tính có thé được tìm thấy

Một số lợi ích của SVM bao gồm khả năng xử lý các tập dữ liệu lớn, khảnăng làm việc tốt với dữ liệu có số chiều cao, và khả năng điều chỉnh độ phức tạpcủa mô hình thông qua việc chọn hàm nhân phủ hợp Tuy nhiên, SVM có thể phứctạp và tốn kém tính toán khi áp dụng cho các tập dữ liệu lớn

Công thức của mô hình SVM được mô tả như sau:

Đầu tiên, giả sử chúng ta có một tập dữ liệu huấn luyện gồm các điểm dữ liệuđược biéu dién trong không gian n chiều (x1, y1), (X2, Y2), - , (Xm, Ym) Trong đó x;

là vectơ đặc trưng của điểm dữ liệu thứ ¡ và y¡ là nhãn của điểm đữ liệu đó (y¡= -1

hoặc yi= 1).

Mục tiêu của SVM là tim ra siêu phăng tốt nhất dé phân chia không gian ditliệu thành hai phần, mỗi phần chứa các điểm dữ liệu thuộc vào một lớp Siêu phẳngnày được biéu diễn dưới dang: w”x + b = 0, trong đó w là vecto trọng số của siêuphẳng và b là hệ số điều chỉnh

Hàm quyết định của SVM được xác định như sau:

f(x) = sign(wTx + b)

Trong đó:

-_ f{x) là dự đoán của mô hình cho điểm dữ liệu x

- wvab là các tham sô của mô hình cân được học từ dữ liệu huân luyện.

38

Trang 38

Chương 3 Mô hình máy học và học sâu trong phân lớp, dự đoán

Mục tiêu là tối ưu hóa w và b sao cho các điểm đữ liệu huấn luyện được phânloại chính xác và lề (margin) giữa các lớp là lớn nhất có thê Điều này thường được

3.2.5 Mô hình cây quyết định - DT [12]

DT là một phương pháp học máy được sử dụng cho cả bài toán phân loại và

hồi quy Nó hoạt động bằng cách xây dựng một cây quyết định từ dữ liệu huấnluyện, trong đó mỗi nút trên cây đại diện cho một thuộc tính, mỗi cạnh điều hướng

đại diện cho một giá trị của thuộc tính đó, và mỗi nút lá đại diện cho một nhãn

hoặc một giá trị dự đoán Mô hình cây quyết định được minh họa như hình 3.2 bêndưới Cây quyết định có hai loại nút: nút nhánh và nút lá (được biéu dién bởi hìnhvuông và hình tròn tương ứng trong Hình 3.2) Nút 1 được gọi là nút gốc và đại

diện cho toàn bộ không gian đặc trưng Các nút còn lại (nút 2-5 trong ví dụ nay)

mỗi nút đại diện cho một không gian con của không gian đặc trưng gốc

Hình 3.2: Mô hình cây quyết định /72/

39

Trang 39

Chương 3 Mô hình máy học và học sâu trong phân lớp, dự đoán

Quá trình xây dựng cây quyết định bao gồm các bước sau:

e Chọn thuộc tính phân chia: Chọn thuộc tính và giá trị phân chia tại

mỗi nút sao cho tối ưu hóa việc phân loại hoặc dự đoán dữ liệu

e Xây dựng cây: Quá trình chọn thuộc tính phân chia được lặp lại cho

đến khi một điều kiện dừng được đáp ứng, chăng hạn như đạt đến độsâu tối đa hoặc không còn đữ liệu nào đề phân chia

e_ Chat tỉa cây (Pruning): Sau khi cây được xây dựng, có thé áp dụng

các phương pháp chặt tia dé giảm quá khớp và tăng tính tong quát

của mô hình.

Ưu điểm của mô hình cây quyết định là có thể được sử dụng cho cả bài toánphân loại và hồi quy, dé hiểu và dễ giải thích Tuy nhiên, nhược điểm của mô hìnhnày là nó có thé dé bị quá khớp nêu không được chặt tia đúng cách và có thé khôngtạo ra các dự đoán tốt trên dữ liệu mới ngoài việc

3.2.6 Mô hình rừng ngẫu nhiên [13]

Như ở trên đã trình bày, mô hình cây quyết định có nhiều ưu điểm, tuy nhiênnhược điểm là dễ xảy ra quá khớp, mô hình rừng ngẫu nhiên sẽ khắc phục đượcnhược điểm trên Rừng Ngẫu Nhiên là một phương pháp dựa trên việc xây dựngnhiều cây quyết định và kết hợp kết quả từ các cây này dé đưa ra dự đoán cuốicùng Quá trình này bao gồm hai giai đoạn chính:

e Lay mau lặp lại: Mỗi cây quyết định được xây dựng trên một tập con của

dữ liệu huấn luyện được lay mau random có thay thé từ tập dữ liệu huấnluyện ban đầu Quá trình này tạo ra nhiều tập dữ liệu con khác nhau déxây dựng các cây quyết định

e _ Lựa chọn đặc trưng ngẫu nhiên: Trong quá trình xây dựng mỗi cây quyết

định, chỉ một số lượng nhỏ các thuộc tính được chọn ngẫu nhiên từ tập

dữ liệu huấn luyện dé phân chia tại mỗi nút trong cây Quá trình này giúptạo ra sự đa dạng giữa các cây quyết định và giảm nguy cơ quá khớp

Kết quả cuối cùng của mô hình Rừng Ngẫu Nhiên được đưa ra bằng cách kếthợp kết quả từ tất cả các cây quyết định trong rừng Đối với bài toán phân loại, kết

40

Trang 40

Chương 3 Mô hình máy học và học sâu trong phân lớp, dự đoán

quả cuối cùng thường được quyết định bằng cách thực hiện bình chọn hoặc sử

dụng phương pháp trung bình giữa các dự đoán từ các cây [12]

3.2.7 Phương pháp tăng cường

a) Tổng quan

Tăng cường đề cập đến một phương pháp tổng quát và có hiệu quả đượcchứng minh, cố gang "boost" độ chính xác của bat kỳ thuật toán học nào đã cho[14] Mặc dù tăng cường không bị ràng buộc bởi thuật toán, hầu hết các thuật toántăng cường liên quan đến việc học lặp lại và thêm các bộ phân loại yếu để tạo ramột bộ phân loại mạnh mẽ cuối cùng Mỗi bộ phân loại yếu được thêm vao thườngđược điều chỉnh theo trọng số dựa trên độ chính xác của nó và được huấn luyệnvới dữ liệu huấn luyện được điều chỉnh trọng số [15] Về cơ bản, phương pháp nàytạo chuỗi các mô hình tuần tự, mỗi mô hình trong chuỗi được xây dựng dựa trên

việc sửa chữa các lỗi của các mô hình trước đó.

Các bước cơ bản của phương pháp tăng cường như sau:

e Khoi tạo: Bắt đầu với một mô hình cơ sở đơn giản, thường là mô hình

yếu hoặc PM ngẫu nhiên

e Huấn luyện mô hình: Sử dụng dữ liệu huấn luyện để thực hiện Sau đó,

đánh giá hiệu suất của mô hình trên tập dữ liệu huấn luyện

e - Xác định lỗi: Xác định các data point mô hình cơ sở dự đoán sai va tao

ra một trọng sô cho mỗi điểm đữ liệu dựa trên lỗi dự đoán.

e _ Xây dựng mô hình mới: Xây dựng một mô hình mới bang cách tập trung

vào các data point mô hình co sở dự đoán sai Mô hình mới này cố gắng

sửa chữa các lỗi của mô hình cơ sở trước đó.

e Cập nhật trọng SỐ: Cập nhật trọng số của các data point

e - Lặp lại quá trình: Lap lại quá trình trên với các mô hình mới cho đến khi

đạt được một số lượng mô hình mong muốn hoặc khi hiệu suất tối đa

Cuối cùng, các mô hình tăng cường được kết hợp lại dé tạo ra một PM cuối

cùng Phương pháp tăng cường thường sử dụng các kỹ thuật như AdaBoost,

41

Ngày đăng: 08/11/2024, 17:08

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[9] Webb, Geoffrey I, Keogh, Eamonn, Miikkulainen, Risto, "Naive Bayes,"Encyclopedia of machine learning, vol. 15, pp. 713-714, 2010 Sách, tạp chí
Tiêu đề: Naive Bayes
[10] Preeti K. Dalvi, Siddhi K. Khandge, Ashish Deomore, Aditya Bankar, Prof.V. A. Kanade, "Analysis of Customer Churn Prediction in Telecom Industry using Decision Trees and Logistic Regression," IEEE, DOI Sách, tạp chí
Tiêu đề: Analysis of Customer Churn Prediction in Telecom Industryusing Decision Trees and Logistic Regression
[11] Theodoros Evgeniou, Massimiliano Pontil, "Support Vector Machines:Theory and Applications," in Machine Learning and Its Applications, Advanced Lectures, DOT:10.1007/3-540-44673-7_ 12, 2001 Sách, tạp chí
Tiêu đề: Support Vector Machines:Theory and Applications
[12] Anthony J. Myles, Robert N. Feudale, Yang Liu, Nathaniel A. Woody, Steven D. Brown, "An introduction to decision tree modeling," Journal of Chemometrics, vol. 18, no. doi:10.1002/cem.873, pp. 275-285, 2004 Sách, tạp chí
Tiêu đề: An introduction to decision tree modeling
[13] Biau Gérard, "Analysis of a random forests model," The Journal of Machine Learning Research, vol. 13, pp. 1063-1095, 2012 Sách, tạp chí
Tiêu đề: Analysis of a random forests model
[14] Freund Yoav, Robert Schapire, "A short introduction to boosting," Journal- Japanese Society For Artificial Intelligence, vol. 14, pp. 771-780, 1999 Sách, tạp chí
Tiêu đề: A short introduction to boosting
[15] Ning Lu, Hua Lin, Jie Lu, Guangquan Zhang, "A Customer Churn Prediction Model in Telecom Industry Using Boosting," JEEE Transactions on Industrial Informatics, vol. 10, no. DOI:10.1109/TH.2012.2224355, pp.1659-1665, 2014 Sách, tạp chí
Tiêu đề: A Customer Churn PredictionModel in Telecom Industry Using Boosting
[16] Yoav Freund, Robert E Schapire, "A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting," Journal of Computer and System Sciences, vol. 55, no. 1, pp. 119-139, 1997 Sách, tạp chí
Tiêu đề: A Decision-Theoretic Generalization ofOn-Line Learning and an Application to Boosting
[17] Alexey Natekin, Alois Knoll, "Gradient boosting machines, a tutorial,"METHODS article, vol. 7, 2013 Sách, tạp chí
Tiêu đề: Gradient boosting machines, a tutorial
[18] Ahmedbahaaaldin Ibrahem Ahmed Osman, Ali Najah Ahmed, Ming Fai Chow, Yuk Feng Huang, Ahmed El-Shafie, "Extreme gradient boosting (Xgboost) model to predict the groundwater levels in Selangor Malaysia,"Ain Shams Engineering Journal, vol. 12, no. 2, pp. 1545-1556, 2021 Sách, tạp chí
Tiêu đề: Extreme gradient boosting(Xgboost) model to predict the groundwater levels in Selangor Malaysia
[21] Mohd Imran Khan and Rajib Maity, "Hydrid Deep Learning Approach for Multi-Step-Ahead Daily Rainfall Prediction Using GCM Simulations," JEEE Access, vol. 8, pp. 52774-52784, 2020 Sách, tạp chí
Tiêu đề: Hydrid Deep Learning Approach forMulti-Step-Ahead Daily Rainfall Prediction Using GCM Simulations
[22] Saad Ahmed Qureshi, Ammar Saleem Rehman, Ali Mustafa Qamar, Aatif Kamal, Ahsan Rehman, "Telecommunication Subscribers' Churn PredictionModel Using Machine Learning," ICDIM,DOI: 10.1109/ICDIM.2013.6693977, 2013 Sách, tạp chí
Tiêu đề: Telecommunication Subscribers' Churn PredictionModel Using Machine Learning
[23] Geetha Vaithianathan, A. Punitha, A. Nandhini, T. Nandhini, S.Shakila, R.Sushmitha, "Customer Churn Prediction In Telecommunication Industry Using Random Forest Classifier," International Conference on System Sách, tạp chí
Tiêu đề: Customer Churn Prediction In Telecommunication IndustryUsing Random Forest Classifier
[24] Shimaa Ouf, Kholoud T. Mahmoud and Manal A. Abdel-Fattah, "A proposed hybrid framework to improve the accuracy of customer churn prediction in telecom industry," Journal of Big Data, vol. 11.1, no. 70, 2024 Sách, tạp chí
Tiêu đề: A proposedhybrid framework to improve the accuracy of customer churn prediction intelecom industry
[25] Lewlisa Saha, Hrudaya Kumar Tripathy, Tarek Gaber, Hatem El-Gohary and El-Sayed M. El-kenawy, "Deep Churn Prediction Method for Telecommunication Industry," MDPI, vol. 15, no. 4543, 2023 Sách, tạp chí
Tiêu đề: Deep Churn Prediction Method forTelecommunication Industry
[8] Sebastian Raschka, Vahid Mirjalili, Python Machine Learning: Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow 2 - Third Edition, ISBN 978-1-78995-575-0: Packt Publishing Ltd, 2019 Khác
[19] Perry Xiao, Artificial Intelligence Programming with Python from Zero to Hero, John Wiley &amp; Sons, Inc., 2022 Khác
[20] Amita Kapoor, Antonio Gulli, Sujit Pal, Deep Learning with TensorFlow and Keras: Build and deploy supervised, unsupervised, deep, and reinforcementlearning models, Packt Publishing, 2022 Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN