Nghiên cứu nảy tập trung vào việc hỗ trợ các nhà bán hàng không chuyên tại các khu chung cư, những người thường gặp khó khăn trong việc quản lý lượng thực phamnhập từ địa phương, bao gồm
Trang 1ĐẠI HỌC QUÓC GIA TP HÒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHAN MEM
NGUYEN NGOC ĐỨC- 20521197
KHOA LUAN TOT NGHIEP
XAY DUNG NEN TANG WEBSITE BAN THUC PHAM TRUC TUYEN CHO NHA BAN HANG
KHONG CHUYEN HO TRO DU BAO DOANH SO
Building an online food sales website platform for
non-specialized sellers to support sales forecasting
CU NHAN NGANH CONG NGHE PHAN MEM
GIANG VIEN HUONG DAN
TS NGUYEN THI XUAN HUONG
ThS NGUYEN CONG HOAN
TP HO CHÍ MINH, 2024
Trang 2LOI CAM ON
Em xin gửi những lời cảm ơn chan thành đến quý Thay Cô giảng viên trường Dai họcCông nghệ Thông tin đã giúp đỡ và tạo điều kiện cho em hoàn thành đề tài khóa luậnlần này
Đầu tiên, em xin cảm ơn các giảng viên hướng dẫn đề tài này TS Nguyễn Thị Xuân
Hương và ThS Nguyễn Công Hoan đã giúp đỡ tận tình chỉ ra những sai sót, còn
thiếu, định hướng hướng đi và những góc nhìn khác của đề tài Đó là những góp ýquý báu giúp em hoàn thành đề tài này cũng như những kinh nghiệm quý báu cho
tương lai.
Em cũng xin chân thành cảm ơn giảng viên phản biện vì đã dành thời gian để hỗ trợ góp ý, phản biện dé có thê giúp em hoàn thiện hơn hoàn thành dé tài khóa luận tốt
nghiệp.
Đồng thời chúng em cũng xin gửi lời cảm ơn chân thành đến Hội đồng của buổi bảo
vệ khóa luận tốt nghiệp vì đã đưa ra những câu hỏi và lời góp ý quý giá giúp hỗ trợchúng em trong việc tìm ra vấn đề cũng như hỗ trợ xây dựng đồ án tốt hơn
Trong quá trình thực hiện đề tài này, em cũng còn nhiều sai sót hay điểm hạn chế.Nênrất mong nhận được những góp ý, góc nhìn của quý Thay Cô dé dé tài này phát triển
hơn trong tương lai.
Em xin chân thành cảm ơn.
Tp Hồ Chí Minh, 12 tháng 6 năm 2024
Sinh viên
Nguyễn Ngọc Đức
Trang 31.5.1 Nền tảng Facebook - + s++x+S<2EE‡EE9EE2EEEEEEE1211211211211111 111.1 1e, 6
1.5.1.1 Mô tả chung về ứng dụng -. - 2 ++c<+S£+EE+E2EzErErrrrrrerree 71.5.1.2 Các điểm mạnh 2- 2-5: 25c ©S£2EE‡EE£EEESEEEEEEEEEEEEerkerrxerkrrrrrrvee 8
1.5.1.3 Những hạn chế o cceccecccescessessesssessecssessessecssessecsssssessecssessesseesseesecaseeses 8
1.5.1.4 Tổng KẾT -¿ :- + St S1 E1 E12 1211211211211211211211211211 21.11121211 91.5.2 Ứng dụng Tik Tok Shop -2- 22 525+¿22E2EE+2EEtEEEtEEEerxeerxeerxesred 9
1.5.2.1 Mô tả tính nang - -.- Gà t1 TH TH HH TH nh Hiệp 9
1.5.2.2 Các điểm mạnh - 2-2 5t 2522Ex+EE2EEEEEEEEE2EEEEEEEEESExerkrrrrrrrrrei 10
1.5.2.3 Những hạn chế ¿- 2¿+++2x+2Ext2EEE2EE223122112711271 22121 re 111.5.2.4 Tong KẾT cocecceecceccecsesseessesscssessecsesssesssssessessecssessessssssessesssssesseesneeseess 11
1.6 Sự đôi mới và khác biệt trong đề tài -2-©2+©2+2cxzccxesrxrerxrrrrerrree 11Chương 2 KIÊN THUC NEN TẢNG 2-2 2 St+SE£EE2EE2EE2EE2EE2EE2E2EEEecrkeg 12
2.1 Khái niệm về chuỗi dữ liệu thời 0 — 12
Trang 42.1.2 Bộ dữ liệu phân tich oo eee eeeeeeeceeeeeceeeeceeseceeeseesecseeseeseeaesseeaesaeeaeens 16
2.1.2.1 Tổng quan dữ liệu . - 2-2 + E+EE+EE+EE+EE2EEEEEEEEEEEEErErrrrreee l6
2.2 Kỹ thuật xử lý đặc trưng c + cSc tt S HS HT HT HH Hy 19
2.3 Các phương pháp hOi QUY 2-2: 5S E+SEEEE£EE#EESEE2EEEEEEEEEEEEEErrkrrerreee 20
2.3.1 Phương pháp phân tích chuỗi thời gian 25-5 255+s5s25+2 20
2.3.1.1 Hồi quy tự động (Autoregressive) - scs+cs+cccrszrecreee 20
2.3.1.2 Trung bình động (Moving AV€TÀ©) - - SĂ cv sseeeree 20
2.3.1.3 Hồi quy tích hợp trung bình động (ARIMA) -. -. -5: 21
2.3.2 Các phương pháp máy hỌC 6 tt vn HH HH nưệp 22
2.3.2.1 (ion 22
2.4 Đánh giá hiệu suất - 2-5 ©Sz+EE‡EEE2E2E1E2121127171121121171 2111121 Extxe 23
2.4.1 Kỹ thuật Cross vaÏidafIOn - - c1 311911 91113 111 11 1 1g ng ren 23
2.4.2 Các chỉ suất hiệu suất c:-22+vtt2Ettiitrtrrtttrrrrrtrirrrrirrriirrriio 25
2.5 Cơng nghỆ sử dụng - - c2 3311213151111 11 11111 111111 1 11 1 HH Hy ve, 25
2.5.1 Ngơn ngữ lập trÌnH - c2 c 3211221113118 1111 11 11 8111 vn net 25
2.5.1.1 JaVASCTIDK Ăn HH HH HH HH 25
"Pha 4 25
Trang 5“2y ¡0i i0 ^ a ãa aa 26
“BAN on eee ố 26
“h6 ¡02s ae a3 26 2.5.2.3 Jin 0N n 27
2.5.3 Backend -s sct 2 2 112121127121211211111 2111111111111 11 1 re.27 "Nhi “ Ố5.ố 27
2.5.3.2 EXIDSS.[S - Là LH HT HT HH HH 28 2.5.3.3 0© ö nh aaS 28
2.5.4 Kiểm tra giao điện API :-©2¿©2<+2E£2E2EEEEEE2EEE2E 212211212 eEkcrke 29 2.5.5 Bảo mật 8 Z2 ssấtn 29
2.5.6 Quản lý cơ sở dữ lIỆU - - G2 2 122129113 1115111211111 rrkrrre 29 P0090) 1 29
2.5.6.2, 09/0000 v oy m Ôn 30
2.5.7 "ni mm “s “Ẳ^ 30
Chương 3 PHAN TICH VÀ THIET KE HỆ THONG . :-¿+¿ 31
3.1 Phân tích hệ thống - 2-2: 2£ 2£+SE£2EE£2EE2EE22EEE2EE22312711271E271222122xzrxee 31
3.1.1 Phân tích kiến trúc hệ thong scccsccssessseessesssessseessecssecssecssecssecssecsesseeens 31
3.1.1.1 Kiến trúc tổng quát hệ thống - ¿22 ©2+2z++£x++rxesrxecrei 31 3.1.2 Xác định yêu cầu hệ thống 2E E+SE+EE+EE+EEEEE+EEEEEEErrrrrerei 31
3.1.2.1 Yêu cầu về chức năng -¿- +¿©+22++2E+tEEEtEEEerkrerkrsrresrei 31
3.1.2.2 Yêu cầu về phi chức năng - 2 +cs+S++E++E2EEeEeErrrrrrreee 33 3.2 Thiết kế hệ thống - 2© +E9SE9EE£EEEEEEEEEEEEEEEE111211211211111111 1.1 1e 34
3.2.1 Thiết kế Use CaSe St StSEEEESEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEErrkrkrrrree 34
3.2.1.1 Sơ đỒ USC CaSe 5 on tt E2 111111 211115111111 111111211111 EEEErrer 34
Trang 63.2.1.2 Danh sách người dùng - + +s +1 k+v vs re, 37 3.2.1.3 Danh sách US€ CSG 5 s1 SH HH Hư 37
3.3 Đặc tả chỉ tiẾt use CAS€ St t3 2E 12111511111111115111111 11111112 Exrr 41
3.3.1 Chi tiẾt use CASG 52-56-2522 E21 211271271121101121121111111 211111 re 41
3.3.1.1 Yêu cầu chức năng “Dang nhập dành người dùng” 41
3.3.1.2 Yêu cầu chức năng “Dang ký dành người dùng “ 42
3.3.1.3 Yêu cầu chức năng “Quản lý đơn hang của người mua hang” 43
3.3.1.4 Yêu cầu chức năng “Chat AI về chủ đề thực phâm” 44
3.3.1.5 Yêu cầu chức năng “Dang ký thành nhà bán hang” 45
3.3.2.6 Yêu cầu chức năng “Quản lý sản phẩm ”” - 2225: 46 3.3.2.7 Yêu cầu chức năng “Quản lý đơn hàng” -2- 2 s+ss+szss+: 47 3.3.2.8 Yêu cầu chức năng “Quan lý chi phí” - 2-5 2 z+sz+szzse+‡ 48 3.3.2.9 Yêu cầu chức năng “Xem dự báo doanh số” -2- 2 +: 49 3.3.3.10 Yêu cầu chức năng “Quản lý người dùng” - 5-55: 50 3.3.3.11 Yêu cầu chức năng “Quản lý thông tin khu chung cư” 51
3.3.3.12 Yêu cầu chức năng “Quan lý sản phẩm của nhà bán hàng” 52
3.3.3.13 Yêu cầu chức năng “Xem dự báo doanh thu” -: s: 53 3.3.2 Thiét ké SO d6 1Op.eccccssscsssesssesssesssesssecssesssessusssecssecssesssecssecssecsseeseeseeeseeens 54
3.3.2.1 Sơ đồ lớp tong quất c.eeceeceeccececsessesseeseesessessessessessessessessessesesesseaees 54
3.3.2.2 Sơ đồ lớp của nền tảng -¿- 2: ++22x+2Ext2EEtEEEEEEEerErerkrsrkrrrei 56
3.3.3 Thiết kế sơ đồ tuần tự -:-+c2xttttrkrrtttrr re 57
3.3.3.1 Sơ đồ tuần tự bên người mua hàng: 2: 2 22 2 225222 57 3.3.3.2 Sơ đồ tuần tự bên ứng dụng người bán - 2-2 zcz+sz+se+‡ 61 3.3.3.3 Sơ đồ tuần tự cho Nhà quản lý nền tảng 2-2 25255: 65
Trang 73.3.4.1 Sơ đồ hoạt động của người mua hàng: 2-©22-552c5z2cs2 69
3.3.4.2 Sơ đồ hoạt động của nhà bán hàng: -2- 2 z+cz+5z+see: 743.3.4.3 Sơ đồ hoạt động của nhà quan lý nền tảng: 2-5: 773.3.5 Thiết kế cơ sở đữ liệu -¿- + ©©¿+2£+SE+EE+EE£EEEEE2EEE7E 2212112121 cEkcrk 80
3.3.5.1 Tổng quát dit liệu -:-:- 2© E+EESEEEEEE 2212212212111 80
3.3.5.2 Mô tả đữ liệu ©2+- ©2212 E221 271211211711111211 1E cre 81
3.3.6 Thiết kế giao diện người dung cececceccecssssessessessessessesessessessesesteseasens 83
3.3.6.1 Thiết kế giao điện người mua hàng - 2-2 2 22 ++£z+szzs++z 83
3.3.6.2 Giao diện nhà bán hảng - c3 + *EsEEeereeerrrerrerseree 85
3.3.6.3 Giao diện nha quản lý nền tảng -2- 2-2 2 £+£+££+£+£zxzzxeee 89
Chương 4 THỰC NGHIEM VA ĐÁNH GIA KET QUA DU BÁO 92
4.1 Dữ liệu thực nghiệm +2 +2 2c S2 E221 3 113 21 x1 ng ng ve 92
4.2 Quy trình thực nghi1Ệm - - - <1 32311121119 113 11191119 111 ng ng ng 93
' Nông nh Ả ,ÔỎ 93
4.2.1.1 Kiểm tra và Xử lý Dữ liệu Thiếu . -2¿ 2 +cs++s++cxeres 93
4.2.1.2 Điều chỉnh các yếu tố mùa vụ -. ¿ -¿c+++c+++zx++rxrzrxrrreee 934.2.1.3 Xử lý và biến đổi đữ Liệu - 2 2++2+++cx++rxesrxzrxrrrxee 94
4.2.1.4 Phân chia tập dữ liệu -2 2£ ©2S+2E+2EEtEEEEEEEEEEEErErkrrrkerrree 94
4.2.1.5 Quá trình huấn luyện mô hình -2- 2 + +2x+2zx++zxz+zse2 944.2.1.6 Lựa chọn mô hình cuối cùng 2-2 2 2 22 22+ £+£++£+z£zzzx+z 95
4.3 Đánh giá hiệu quả của mô hình dự báo 5 55+ +<£+++svEsesseesees 97
4.3.1 Phương pháp đánh giá áp dụng - Sc + tt ssisrirrsrrrrrsrree 97
4.3.2 Công thức đo lường hiệu suất -¿- 2 2 2+E£+E++E2EzEzErrsrrsrei 98
Trang 8Chương 5 KET LUẬN VÀ HƯỚNG PHÁT TRIÉN . ¿¿©55z555+2 99
5.1 Két qua can -33545 995.2 Những hạn chế ceccescsscssessessessessessessessessessessecsessessessecsessessessessecsessessesseeseeses 1005.3 Định hướng và phát triển tương lai 5c 5 x++x+£xe£ke£Eerxerxerxerxee 101TÀI LIEU THAM KHẢO -2:- 2: S¿©2+£2E£+EE++EEEEEEEEEEEEEEEEEEEEeEEkerkeerkecree 102
Trang 9DANH MỤC HÌNH
Hình 1.1: Minh họa một chợ chung cư trên nền tang Facebook - +: 6
Hình 2.1: Minh họa xu hướng trong dir chuỗi dữ liệu thời gian - - 13 Hình 2.2: Minh họa thời vụ trong dữ liệu chuỗi thời 0 14
Hình 2.3: Minh họa phương pháp trung bình cộng - ¿+ s5 x++s+sex+eeexs 21 Hình 2.4: Minh họa mô hình ARIMA theo thời vụ ¿ 5+5 ++<<e<++sxxesss2 23 Hình 2.5: Mô tả quá trình chia dữ liệu của phương pháp Cross validation 24 Hình 2.6: Mô tả quá trình chia dữ liệu của phương pháp Cross validation 25
Hình 2.7: Mô tả trung bình của tat cả Measure -2- 2 2 +£2++zx+£xczzecrxeee 25
Hình 2.8: Minh họa logo của Javascript cv HH kg 26 Hình 2.9: Minh họa logo của Ñ€aC{JS G2191 ng ry 27 Hình 2.10: Minh họa logo của Tailwind CSS s5 1 231 9112 siesrkrsesee 27 Hình 2.11: Minh họa logo của ShadCñ/U1 - 55 5S £++skEseeEseEserseesee 28 Hình 2.12: Minh họa Cloudinary ¿c6 E11 1 91 91 91 1 vn như 3l Hình 2.13: Minh họa Docker 5 5 2c 33221331 1E£2EE£2EEEEEEEEEEEEsEeeeesrserrssre 31
Hình 3.1: Kiến trúc tổng quát hệ th6ng ceeccecccccceccccsecssessessesssessesssessessesssessesseesseeses 32
Hình 3.2: Mô ta use case của người mua hang .- 5 55c cS+vskseseerseesee 35 Hình 3.3: Mô tả use case của nhà bán hàng - - + + + + +krseereererrrerree 36
Hình 3.4: Mô ta use case của nhà quản lý nền tảng - 2 2+cz+cz+sz+sz+czez 37
Hình 3.5: Sơ đồ lớp tổng quát clierit 2-2 2 2£ +E£+EE+EE+£E£2EE+EE£ZEESEEerxerrkerxee 55
Hình 3.6: Sơ đồ lớp tổng quát S€TVT -2- 2-2 2 ESE£EE+EE+EE£EEEEEEEEEEEEEerrrrreree 56Hình 3.7: Sơ đồ lớp tổng quát nền tang - 2-52 2+S£+EE+EE+E2EEEEzErrrrrerreee 57Hình 3.8: Sơ đồ tuần tự đăng nhập cho người dùng ¿- 2 5+5 s52 58Hình 3.9: So đồ tuần tự đăng ký cho người dùng -2 2¿- 5+©cxc2cxcczxccreee 59Hình 3.10: Sơ đồ tuần tự Chat AI cho người mua hàng 2-52-5252 252 60
Trang 10Hình 3.11:
Hình 3.12:
Hình 3.13:
Hình 3.14:
Hình 3.15:
Hình 3.16:
Hình 3.17:
Hình 3.18:
Hình 3.19:
Hình 3.20:
Hình 3.21:
Hình 3.22:
Hình 3.23:
Hình 3.24:
Hình 3.25:
Hình 3.26:
Hình 3.27:
Hình 3.28:
Hình 3.29:
Hình 3.30:
Hình 3.31:
Hình 3.32:
Hình 3.33:
Hình 3.34:
Hình 3.35:
Hình 3.36:
Sơ đồ tuần tự Đăng ký thành nhà bán hàng 2-2 2 255z+s4 61
Sơ đồ tuần tự quản lý sản phẩm của nhà bán hàng - 62
Sơ đỗ tuần tự quản lý đơn hàng của nhà bán hàng - 63
Sơ đồ tuần tự xem báo cáo doanh số của nhà bán hàng - 64
Sơ đồ tuần tự đăng bảng tin của nhà bán hàng 2-52 65 Sơ đồ tuần tự quản lý người dùng của nhà quan lý nền tảng 66
Sơ đồ tuần tự quản lý chung cư của nhà quản lý nền tảng 67
Sơ đồ tuần tự quản lý sản phẩm của nhà quản lý nền tảng 68
Sơ đồ tuần tự xem doanh thu của nhà quản lý nền tảng 69
Sơ đồ hoạt động đăng ký dành cho người đùng 2-2-5252 70 Sơ đồ hoạt động xử lý lỗi đăng ký dành cho người dùng 71
Sơ đồ hoạt động quản lý đơn hàng dành cho người ding 72
Sơ đồ hoạt động chat AI về chủ đề thực phâm cho người mua hàng 73
Sơ đồ hoạt động đăng ký thành nhà bán hang -. : 5- 74 Sơ đồ hoạt động quan lý sản phâm cho nhà bán hàng - 75
Sơ đô hoạt động quản lý đơn hàng cho nhà bán hàng 76
Sơ đồ hoạt động xem dự báo doanh số cho nhà bán hàng 71
Sơ đồ hoạt động quản lý trạng thái nhà bán hàng 2-2-2 78 Sơ đồ hoạt động quản lý sản phẩm nhà bán hàng 2-2-2 79 Sơ đồ hoạt động xem dự báo doanh thu cho nhà quản lý nền tảng 80
Hình ảnh mô tả tong quát dữ liệu của nền tang -2- 2 5¿ 81 Màn hình đăng ký dành cho người dùng 5 +55 + +55 s+++s+ 84 Màn hình trang chủ dành cho người mua hang «: 84
Cụm man hình bảng tin của người mua hàng - 555555 +5s52 86 Man hình bang điều khiển của nhà ban hàng 2-5252 52552 86 Cụm màn hình xem quản ly sản phẩm của nhà ban hàng 87
Trang 11Hình 3.37: Cụm màn hình xem quản lý đơn hàng của nhà ban hàng 88
Hình 3.38: Cụm màn hình quan lý chi phí cho nhà bán hàng - - 88
Hình 3.39:Cum man hình báo cáo dự đoán cho nhà ban hang - 90
Hình 3.40: Màn hình quản lý sản phẩm nhà bán hàng 2-2 2 2522 +£‡ 90 Hình 3.41: Màn hình quản lý chiến dịch quảng cáo - 2-2 25z25z+szzszzsz 91 Hình 3.42: Cum màn hình quan lý trang thái nhà bán hàng - - - 92
Hình 4.1: Các chỉ số đánh giá của XGBoost Model ¿2 sz+sz+ss+cse+ 96 Hình 4.2: Các chỉ số đánh giá của Samira Model -. -2- 2+ ¿+ss+zx+zx+zxzecxez 96 Hình 4.3: Hình minh họa thực tế với du đoán của XGBoost trong | tháng 96
Hình 4.4: Hình minh họa thực tế với du đoán của XGBoost trong 3 thang 96
Hình 4.5: Hình minh họa thực tế với du đoán của XGBoost trong 6 thang 97
Hình 4.6: Hình minh họa thực tế với dự đoán của XGBoost trong 5 tháng cuối 97
Trang 12DANH MỤC BANG
Bang 3.1: Các Actor của nền tảng -:- + 5s 2s 2t 2E 211211211211211211211 21211 38 Bảng 3.2: Các usecase của nền tang ccccccccsesssessesssesssessscssecssecssecssecsuecssssseceseessecsses 38
Bang 3.3: Bang đặc ta use case đăng nhập dành cho người mua hàng 42
Bang 3.4: Bảng đặc ta usecase đăng ký dành cho người mua hàng - 43
Bảng 3.5: Bảng đặc ta usecase quan lý đơn hàng dành cho người mua hàng 44
Bang 3.6: Bảng đặc ta use case Chat AI về chủ đề thực phẩm - 45
Bang 3.7: Bảng đặc ta usecase đăng ký thành nha bán hàng - -+ 46
Bang 3.8: Bảng đặc tả usecase quan ly sản phẩm dành cho nhà bán hàng 47
Bang 3.9: Bảng đặc tả usecase quản lý đơn hàng dành cho nhà bán hàng 48
Bang 3.10: Bảng đặc tả usecase quản lý chi phí dành cho nhà bán hàng 49
Bảng 3.11: Bảng đặc tả usecase xem dự báo doanh số dành cho nhà bán hàng 50
Bảng 3.12: Bảng đặc tả usecase quản lý người dùng cho nhà quản lý nền tang 51
Bang 3.13: Bảng đặc ta usecase quan lý thông tin chung Cư 5 << <<+s 52 Bang 3.14: Bảng đặc ta usecase quan lý sản phẩm của nhà ban hàng 53
Bang 3.15: Bang đặc ta usecase xem dự báo doanh thu - 5s ++-<>+s<++x 54
Trang 13MSE Mean Square Error
MAE Mean Absolute Error
MAPE Mean absolute percentage error
Trang 14TÓM TẮT KHÓA LUẬN
Với sự gia tăng nhanh chóng của nền kinh tế Việt Nam cùng với sự phát triển mạnh
mẽ của công nghệ số, việc quản lý hoạt động kinh doanh ngày càng trở nên phức tạp.Các nhà quản lý hiện nay không chỉ cần có kiến thức vững về kinh tế, tài chính và thịtrường mà còn cần áp dụng công nghệ tiên tiến dé duy trì lợi thế cạnh tranh và thúcđây sự phát triển bền vững
Nghiên cứu nảy tập trung vào việc hỗ trợ các nhà bán hàng không chuyên tại các khu
chung cư, những người thường gặp khó khăn trong việc quản lý lượng thực phamnhập từ địa phương, bao gồm các đặc sản, qua quê và thực phẩm đặc trưng Việc nhậphàng quá nhiều có thê dẫn đến tình trạng tồn kho, gây lãng phí không gian và nguy
cơ hàng hóa bị hết hạn, đặc biệt đối với sản phẩm có vòng đời ngắn Ngược lại, nếu
nhập hàng không đủ, các nhà bán hàng có thé bỏ lỡ cơ hội doanh thu và mat kháchhàng Vì vậy, việc dự đoán chính xác nhu cầu tiêu thụ là rất quan trọng để tối ưu hóaquy trình nhập và bán hàng, từ đó giảm thiéu rủi ro và nâng cao hiệu quả kinh doanh
Dé giải quyết van dé này, chúng tôi đã phát triển một nền tang bán thực phẩm trựctuyến đành cho các nhà ban hàng không chuyên, với chức năng dự báo doanh số Nềntảng này kết hợp các phương pháp dự báo truyền thống với công nghệ học máy hiệndai dé phân tích dữ liệu bán hàng theo chuỗi thời gian, nhằm đưa ra dự đoán chính
xác về nhu cầu tiêu dùng Mô hình này đặc biệt nhằm hỗ trợ các nhà bán hàng khôngchuyên tại khu chung cư, giúp họ tối ưu hóa kế hoạch nhập hàng hóa thực phẩm một
Trang 15Câu trúc của khóa luận:
Khóa luận này bao gồm 5 chương giúp người đọc hiểu được dé dàng các van đề trình
bày.
Chương 1: Giới thiệu đề tài
Chương đầu tiên sẽ trình bày lý do chọn lựa dé tài, mục tiêu nghiên cứu, đối tượng
người dùng, phạm vi nghiên cứu, và khảo sát các ứng dụng hiện có trên thị trường
liên quan đến đề tài
Chương 2: Kiến thức nền tảng
Chương này cung cấp các kiến thức nền tảng cần thiết cho nghiên cứu, bao gồm các
mô hình học máy, phương pháp phân tích dt liệu, và các công nghệ, thư viện sẽ được
áp dụng trong khóa luận.
Chương 3: Phân tích và thiết kế hệ thống
Chương này trình bày chỉ tiết về thiết kế hệ thống, bao gồm kiến trúc hệ thống, cácthành phần như use case, sơ đồ tuần tự, và sơ đồ hoạt động Chương cũng bao gồmthiết kế giao diện chính và cơ sở dữ liệu
Chương 4: Thực nghiệm và đánh giá kết quả dự báo
Chương này mô tả quy trình thực nghiệm với bộ dữ liệu Walmart, bao gồm các bướctiền xử lý dữ liệu, huấn luyện và lựa chọn mô hình, cùng các phương pháp đánh giá
mô hình Kết quả từ các thí nghiệm cũng được trình bày trong chương này
Chương 5: Kết luận và hướng phát triển
Chương cuối cùng tóm tắt các kết luận đạt được, các hạn chế gặp phải trong quá trình
nghiên cứu, và đưa ra các đê xuât cho các hướng phát triên trong tương lai.
Trang 16Chương 1 GIỚI THIỆU DE TÀI
Chương nảy sẽ cung câp cái nhìn tông quan về lý do chọn đê tài, mục tiêu
nghiên cứu, đôi tượng sử dung, và phạm vi của đê tài Cuôi cùng, chương sẽ thực
hiện khảo sát các ứng dụng liên quan và chỉ ra những điêm khác biệt của đê tài so
với các nghiên cứu trước đây.
1.1 Lý do chọn đề tài
rong kỷ nguyên công nghệ 4.0, mua sam trực tuyến đã trở thành một phan thiết
yếu trong cuộc sông hàng ngày Sau đại dịch COVID-19, xu hướng mua sắm qua
mạng đã gia tăng mạnh mẽ, đặc biệt trong lĩnh vực thực phẩm Người tiêu dùng ngày
càng ưa chuộng việc sử dụng internet dé thuận tiện hóa quá trình mua sắm và tiết
kiệm thời gian
Với những nhà bán hàng không chuyên họ với sản phâm, nguồn hàng phục vụ choviệc buôn bán với số lượng nhỏ và không liên tục và thực pham mang tinh đặc trưng(đặc sản vùng miền, qua quê hay là thực pham thủ công ) Còn về phía người tiêu
dùng khi mua một sản phẩm nào đó trên bất kì sàn thương mại điện tử nào đó đều
quan tâm đầu tiên là chất lượng của sản phẩm khi chúng ta mua trực tuyến, tiếp đến
về vấn đề giao hàng không đúng hẹn, mất hàng và phức tạp trong quá trình đổi trảsản phẩm Thứ mà giúp người dùng tiếp tục mua sản phẩm là niềm tin sự tin tưởng
về sản phẩm Dưới góc độ người mua hàng thì chất lượng sản phẩm và dịch vụ củangười bán đóng vai trò lớn nhất khi quyết định mua hàng Cũng dưới góc độ nhữngnhà bán hàng nhỏ lẻ muốn kinh doanh va tìm một nguồn thu nhập phụ nhưng mà chưa
có kinh nghiệm, chưa chuyên nghiệp hóa về quản lý và chỉ tập trung vào chất lượng,đặc trưng sản phẩm Dưới góc độ và những lí do trên thì những hoạt động mua bánthường thay và thích hợp dé đảm bảo giá trị lợi ích giữa người bán và người mua, tathường thấy những hoạt động mua bán này ở các chợ chung cư trực tuyến nơi màngười mua hàng thường thỏa mãn về chất lượng thực phẩm ( thường là thực phẩmđặc trưng của vùng miền, nguồn hàng số lượng nhỏ ở quê hay là thực phẩm được tựchế biến ), về dịch vụ thì tăng lên vì phạm vi khu chung cư nên không quá lớn
Trang 17Còn về phía người bán thì việc giao dịch hàng hóa trong phạm vi chung cư dễ dàng,
đồng thời cũng bán được thực phẩm đặc trưng vùng miền với số lượng hàng hóa nhỏ
lẻ của mình Từ đó giúp người bán hang dé dàng kiếm được lợi nhuận hay một nguồn
thu nhập khác ngoài công việc chính của họ.
Do đó, việc xây dựng một nền tảng không chỉ là về việc cung cấp một nén tảng mua
sam thuận tiện cho người tiêu dùng trong mỗi khu chung cư mà còn giải quyết và
giúp những nhà bán hàng không chuyên trong việc bán hàng trực tuyến của mình.Nền tảng này sẽ hạn chế đi những vấn đề mà người tiêu dùng thường gặp về chấtlượng, thời gian nhận hàng hay là van đề về quá trình đổi tra sản phẩm
Đặc biệt, nền tảng sẽ sử dụng đữ liệu quan trọng về hành vi mua sắm của khách hàng,
xu hướng tiêu thụ, và các yếu tố ảnh hưởng như thời tiết hay các sự kiện đặc biệt như
lễ hội Từ những thông tin này, hệ thống có thê đưa ra dự đoán chính xác và giúp cácnhà bán hàng điều chỉnh chiến lược nhập và bán hàng một cách hợp lý
Từ các lý do trên tôi chọn đề tài “Xây dựng nền tảng website bán thực phẩm trựctuyến cho nhà bán hàng không chuyên hỗ trợ dự báo doanh số” Nhăm cung cấp nềntảng có tích hợp dự báo doanh số hỗ trợ cho các nhà bán không chuyên nghiệp trong
một phạm vi khách hàng nhỏ.
1.2 Mục tiêu
Phát triển một nền tảng nhằm hỗ trợ các nhà bán hàng nhỏ lẻ tại các khu chung cư
tăng cường thu nhập với chi phí thấp, dé dàng tiếp cận khách hàng, từ đó khuyếnkhích sự phát triển của các mặt hàng đặc sản, sản phẩm thủ công và thực phẩm tươisông
Mang lại trải nghiệm mua sắm trực tuyến dé dàng, nhanh chóng và đáng tin cậy, giúpngười mua hàng tiếp cận sản phẩm chất lượng cao, đảm bảo dịch vụ chính sách đồitrả hàng rõ ràng, hạn chế các rủi ro thường gặp khi mua hàng online
Áp dụng Time Series Analysis và Machine Learning é đánh giá dit liệu bán hàng lich
su, xu hướng mua sam va các yêu tô ảnh hưởng khác, từ đó đưa ra dự đoán doanh sô
Trang 18chính xác Điều này giúp nhà bán hàng (chưa chuyên nghiệp) chủ động trong quản lý
hàng hóa, lập kế hoạch kinh doanh hiệu quả và tối ưu hóa nguồn chi phí
1.3 Đối tượng sử dụng
Đề tài nhắm đến các đối tượng sử dụng như:
e Người mua hàng là cư dân chung cư thuộc mọi lứa tuổi, giới tính trong khu
chung cư có nhu câu mua các thực phâm, đặc sản địa phương, quả quê
e Người bán hàng chưa có kinh nghiệm muốn buôn bán kinh doanh các thực
phẩm địa phương, đặc sản trong phạm vi chung cư của minh
1.4 Phạm vi đề tài
Phạm vi môi trường:
e Website
Phạm vi chức nang:
Đối với người mua hàng:
e Cung cấp các tinh năng cơ bản cho quá trình mua sắm, bao gồm đặt hàng,
thanh toán, theo dõi đơn hàng và tìm kiếm sản phẩm, trò chuyện với AI về
các chủ đề liên quan đến thực phâm
Đối với nhà bán hàng:
e Cung cấp các tính năng cơ bản như quản lý sản pham, quản lý đơn hàng và
tài chính.
e Thêm các chức năng như đăng ký chiến dịch quảng cáo, đăng bảng tin,
quản lý doanh thu, theo dõi trạng thái của nhà bán hang, và trò chuyện.
¢ Dự báo doanh số cho từng sản phẩm và đưa ra lời khuyên
Đối với nhà quản lý:
e Hỗ trợ nhà quản lý nền tảng các chức năng quản lý tổng thể ( quản lý thông
tin khu chung cư, người dùng, sản phẩm, bài đăng của nhà bán hàng )
Trang 191.5 Tổng quan các ứng dụng liên quan
Phần này sẽ tập trung khảo sát các ứng dụng liên quan đã có về đề tài mua bán thựcphẩm Ở đây, nhóm chọn hai trong số rất nhiều các ứng dụng và trang web liên quan
đề trình bày đó là ứng dụng mua hàng của Facebook, Tiktok Shop
1.5.1 Nền tảng FacebookCác nhóm Facebook là một nền tảng phố biến cho các cá nhân và doanh nghiệp dé
Chợ chung cư Sky9
@ Public group - 45.3K members
About Discussion Featured = People Event Madia Filos a ve
K) Write something About
Cho Chung cu Sun Tower & Sky 9 toa lac tai vòng xoay Liên Phường, đại
lẻ Võ Chí Công Q.8, HCM - day la nơi trao đổi, mua bản, cho thuê, thanh
4% Anonymous Post flag! Photo/video @ pon See more
@ Public
Anyone can see who's in the group and what they post.
Featured (7) v ® Visible
Anyone can find this group.
Q Ho Chi Minh City, Vietnam
'#CUÔN TRA EARL XOÀI PHO MAI CUON CHOCOLATE KEM PHO MAI MASCARPONE @
Chiu mai T66, em có ít hánh kem cuôn giải nhiệt Moi người dùng nhắn em nhé a 8 Recent media
(ổ Cuên trà earl xoài phê mai: Cốt bánh tra eari grey thom lừng, kem phỏ mai ngot nhe ấn cùng với xoài
tươi rất thanh mất luôn.
@ C See more
Hình 1.1 Minh hoa một chợ chung cư trên nên tảng Facebook
Trang 201.5.1.1 Mô tả chung về ứng dụng
- Chức năng chính
Các nhóm Facebook cho phép các thành viên thực hiện các hoạt động mua bán với các chức năng chính như sau:
e Đăng bài bán hàng: Người bán có thé tạo bai đăng bán hang với mô tả sản
phẩm, hình ảnh, giá cả, và thông tin liên hệ trực tiếp trên nhóm.
e Tương tác bài đăng: Bình luận, gửi tin nhắn riêng tư (PM) đề đặt câu hỏi hoặc
thương lượng giá cả.
e Quản lý bài đăng: Người bán có quyền chỉnh sửa, cập nhật, hoặc xóa bài đăng.
Họ cũng có thé quản lý các phản hồi và tương tác từ người mua
e Tìm kiêm và phân loại: Thành viên của nhóm có thê tìm kiêm các bài dang
theo từ khóa, hoặc lọc theo danh mục sản phâm nếu nhóm có hỗ trợ
- Các loại hàng hóa được bán
Trên các nhóm Facebook, thành viên có thể bán đa dạng sản phẩm.
- Quy trình mua hàng
Đề thực hiện mua hàng trên nhóm Facebook, khách hàng thường trải qua các bước
Sau:
1 Khám phá sản phẩm: Người mua hàng có thể khám phá các sản phẩm qua các
bài đăng được chia sẻ trong nhóm
2 Liên hệ người bán: Sau khi chọn được sản phẩm, người mua có thé bình luận
trực tiếp trên bài đăng hoặc nhắn tin riêng tư (PM) cho người bán đề hỏi thêm
thông tin hoặc thương lượng giá cả.
3 Thương lượng và xác nhận: Người mua và người ban thương lượng về giá cả,
điều khoản bán hàng, và phương thức giao nhận
Trang 214 Chốt đơn hàng: Sau khi đạt được thỏa thuận, người mua xác nhận việc mua
hàng.
5 Hình thức thanh toán: Da dang hình thức thanh toán từ trực tuyến, trực tiếp
6 Nhận hang: Người bán giao hàng theo thỏa thuận hoặc người mua tự đến lay
hàng.
- Phương thức thanh toán
Các phương thức khác nhau như:
e Chuyên khoản ngân hàng: Thanh toán trực tiếp qua tài khoản ngân hàng.
e Thanh toán tiền mặt: Giao tiền mặt khi nhận hàng
e Cac ứng dụng thanh toán di động: ZaloPay, MoMo, hoặc các ví điện tử khác
phụ thuộc giữa người bán và người mua.
1.5.1.2 Các điểm mạnhMột số điểm mạnh của quá trình mua bản trên nhóm Facebook:
e Giá thành thấp: Không có phí giao dịch hoặc chi phí nền tảng
e Tương tác trực tiếp: Dễ dang giao tiếp và trao đổi giữa người mua và người
bán.
e Tiêp cận cộng đông: Tiép cận một lượng lớn người dùng trong nhóm với cùng
mối quan tâm hoặc khu vực địa lý.
e Linh hoạt: Phương thức thanh toán và giao hàng tùy thuộc vào nhu cầu giữa
hai bên thông nhất.
1.5.1.3 Những hạn chế
Một số hạn chế của việc mua bán trên nhóm Facebook bao gồm:
e Rủi ro lừa dao: Khó kiểm soát các hành vi lừa đảo hoặc gian lận.
e Thiếu chức năng điều hành: Không có hệ thống điều hành đơn hàng hoặc kho
hàng chuyên nghiệp.
Trang 22Khó theo dõi giao dịch: Không có hệ thống theo dõi giao dịch, dễ dẫn đến
tranh chấp.
Phụ thuộc vảo tin cậy: Giao dịch phụ thuộc nhiều vào cam kết hay thỏa thuận
của người bán và người mua.
1.5.1.4 Tổng kết
Từ khảo sat quá trình mua ban trên nhìn nhận ra những diém đê cải thiện nên tang của mình:
e Tích hợp hệ thống đánh giá: Xây dựng hệ thống đánh giá và phản hồi dé mang
lại niềm tin giữa người bán và người mua
Thêm chức năng điều hành: Cung cấp các công cụ quản lý đơn hàng và giao
1.5.2 Ứng dụng Tik Tok Shop
Tích hợp trong ứng dụng Tik Tok, cho phép người bán quảng bá và bán sản phẩmthông qua video ngắn Tận dụng sức mạnh của mạng xã hội và khả năng tương táccao của TikTok, TikTok Shop cung cấp cho người dùng trải nghiệm mua sắm đơn
giản rõ rang.
1.5.2.1 Mô tả tính năng
- Chức năng chính
Ứng dụng gồm một số chức năng chính như:
e Tạo và điêu hành cửa hàng, điêu hành sản phẩm, đơn hàng, trực quan và
phân tích, tích hợp đa dạng thanh toán.
Trang 23- Các loại hàng được bán
Đa dạng các loại mặt hàng tùy theo cửa hàng của khách hàng.
- Luéng mua hàng
e Khám phá sản phâm: Người dùng xem video quảng cáo sản phâm trên TikTok.
e Ấn chọn "Mua": Khi quan tâm đến sản phẩm, người dùng có thé ấn chọn nút
"Mua" trực tiếp trên video hoặc truy cập vào trang sản phẩm
e Chọn sản phẩm vào giỏ hàng: Sản phẩm được thêm vào.
e Xem và chuẩn bị thanh toán: Người dùng xem giỏ hàng và chuẩn bị thanh
toán.
e Thêm các thông tin giao hàng.
e Xác định loại phương toán: Người mua hang lựa chọn thanh toán
e Hoàn tất mua hàng: Xác nhận đơn hàng và hoàn tất mua hàng
- Hình thức thanh toán
Hỗ trợ đa dạng các loại phương toán, ví điện tử (PayPal, Google Pay, Apple Pay), và
chuyên khoản ngân hàng
1.5.2.2 Các điểm mạnh
e Tận dụng sức mạnh video: Cho phép nhà ban hàng sử dụng nội dung video dé
tiếp thị sản phẩm, tăng khả năng thu hút
e Mở rộng khách hàng: Tận dụng lượng người dùng khổng lồ của TikTok dé
quảng bá sản phẩm đến nhiều khách hàng tiềm năng
e Tích hợp liền mạch: Điều hành trực tiếp trên TikTok mà không cần chuyền
đổi qua nhiều nên tảng
e Công cụ quảng cáo mạnh mẽ: Cung cấp các công cụ quảng cáo, phân tích, và
thống kê hiệu quả, giúp tối ưu hóa chiến lược bán hàng.
10
Trang 241.5.2.3 Những hạn chếỨng dụng vẫn còn một vài điểm hạn chế:
e Đối tượng khách hàng có độ tuổi trung bình trẻ
e Nội dung video yêu cầu tinh sáng tạo cao dé có thé thu hút người tiêu dùng
1.5.2.4 Tổng kết
Thông qua khảo sát ứng dụng Tik Tok shop đưa ra những điểm cần lưu ý trong việcphát triển dé tài của mình:
e Phát triển chức năng dự báo doanh số cho người dùng.
e Tạo bố cục trang web tốt, tránh có những chi tiết gây mat thâm mỹ, luồng
hoạt động rõ ràng.
© Giới han các chủ đề hỗ trợ dé phát huy tốt được khả năng mua bán của ứng
dụng.
1.6 Sự déi mới và khác biệt trong đề tài
Điểm cải tiến và khác biệt:
Cải tiến và đặc điểm nồi bật:
e®_ Mở rộng giao diện thân thiện, dé sử dụng dé giám sát số lượng hàng hóa
bán ra theo thời gian.
e Tích hợp chức năng dự đoán doanh thu cho từng mặt hàng hoặc từng loại
, giup người bán điều hành hiệu quả việc nhập hàng, tài chính, và các hoạt
động kinh doanh khác.
e Sử dụng kết hợp các phương pháp truyền thống trong phân tích chuỗi thời
gian và các kỹ thuật hiện đại của học máy dé dự đoán doanh thu
e Cho phép người dùng điều chỉnh các yếu tố như ngày lễ dé tang hiệu qua
và chính xác của dự báo.
11
Trang 25Chương 2 KIÊN THỨC NEN TANG
Chương này sẽ khám phá các khái niệm và công nghệ áp dụng trong quá trình
phát triên nên tảng Nội dung của chương bao gôm các khái niệm về dữ liệu chuỗi
thời gian, các phương pháp hồi quy, và các công nghệ được sử dụng
2.1 Khái niệm về chuỗi dữ liệu thời gian
Là một dãy các điểm dữ liệu được ghi lại liên tiếp trong một khoảng thời giannhất định Chuỗi thời gian theo dõi sự thay đổi của các điểm dữ liệu trong khoảng
thời gian cụ thé Chuỗi dữ liệu thời gian sẽ được dùng trong quá trình xây dựng và
phát triển đề tài gồm bộ dữ liệu chuỗi siêu thị Walmart, bộ dữ liệu về doanh số bánhàng tại cửa hàng 5 năm được cung cấp từ một cuộc thi
2.1.1 Các đặc điểm chính
Là một tập hợp các điểm đữ liệu được ghi nhận tại các thời điểm định kỳ, giúp
theo dõi sự biến động của một yếu tố theo thời gian Gồm các đặc điểm chính như
tinh xu hướng (trend) chu kinh (cycle), sự tự tương quan (autocorrelation), chuỗi
dừng (stationary), gia trị ngoại lai (outlier).
2.1.1.1 Xu hướng dữ liệu
Dữ liệu theo thời gian phản ánh sự thay đồi tăng hoặc giảm của các giá
trị trong một khoảng thời gian kéo dài Xu hướng tổng quát có thể được xác
định dựa trên sự nghiêng của dữ liệu khi được biểu diễn trên đồ thị
Một số xu hướng phổ biến khi phân tích dé liệu chuỗi thời gian:
e Xu hướng tăng: Giá tri của dữ liệu có xu hướng liên tục tăng theo thời gian.
e Xu hướng giảm: Giá trị dữ liệu có xu hướng giảm dan theo thời gian
e Xu hướng ngang: Giá trị dữ liệu duy trì ôn định mà không có sự thay đổi đáng
ké qua thời gian
e Xu hướng giảm dan theo thời gian: Giá trị dữ liệu giảm theo thời gian, nhưng
toc độ giảm giảm dân.
12
Trang 26Xu hướng phi tuyến: Dữ liệu có sự biến động phức tạp, không theo một xu
hướng cé định, có thé bao gồm cả các giai đoạn tăng và giảm, hoặc thay đổi
không đều đặn theo thời gian
Hình 2.1 Minh hoa xu hướng trong dữ chuối dữ liệu thời gian
2.1.1.2 Tính thời vụ
Dé cập đên các biên động liên tục hoặc đêu đặn cua dt liệu trong một
khoảng thời gian cụ thể
Một số tính mùa vụ phô biến khi phân tích dữ liệu chuỗi thời gian:
Mùa vụ hàng tuần: Các biến động lặp lại theo chu kỳ 7 ngày
Mùa vụ hàng tháng: Các biến động lặp lại theo chu kỳ 30 hoặc 31 ngày
Mùa vụ hàng năm: Các biến động lặp lại theo chu kỳ 365 hoặc 366 ngày
Mùa vụ lễ hội: Các biến động này thường liên quan đến các sự kiện lễ hội hoặc
sự kiện quôc gia.
13
Trang 27Chu kỳ xảy ra khi dữ liệu biểu thị các biến động tăng giảm không theo
một tần suất đều đặn Những biến động này thường được ảnh hưởng bởi các
yếu tố kinh tế và liên quan đến "chu kỳ kinh doanh" Thời gian của các biến
động này thường kéo dài ít nhất 2 năm Đây là một đặc điểm quan trọng trong
phân tích đữ liệu chuỗi thời gian, tuy nhiên nó thường không được xem xét
một mình khi dự báo mà thường gộp chung với tính xu hướng tạo thành một
phân gọi là trend-seasonal.
2.1.1.4 Tính tự tương quan
Là sự tương quan giữa các giá trị của chuỗi dữ liệu với chính nó ở các
thời điểm khác nhau Nói cách khác, nó đo lường mức độ mà các giá trị trong
chuỗi có liên quan đến các giá trị của chính chúng tại các thời điểm trong tương
lai hoặc quá khứ.
14
Trang 28Hệ số tương quan đại diện cho quan hệ mạnh yếu giữa hai đữ liệu
rk=3(t=k+ltoT) [(y_t- Y)(y_(-k) - ÿ)J / X(t =1 to T) [(y_t - ÿ)ˆJ
rk càng lớn chứng tỏ dữ liệu có quan hệ càng mạnh, người ta sử dụng
ACF(autocorrelation function) để xác định sự tự tương quan trong dữ liệu
Nếu tất cả các giá trị của ACF nằm trong khoảng +2 /VT với T là tổng các
điểm quan sát điểm đữ liệu ta nói chuỗi đữ liệu không có sự tự tương quan
2.1.1.5 Chuỗi dừng
Khi xét hiện tượng chuỗi dừng trên chuỗi đữ liệu thời gian, ta chỉ quan
tâm đến chuỗi dừng yếu (weakly stationary) Nếu trung bình (mean) và
phương sai (covariance) chỉ phụ thuộc vào khoảng cách giữa chúng là chuỗi
dừng.
Cov(tl,tl+k) = Cov(t2,t2+k) với mọi k.
Khi một chuỗi không ôn định, mỗi giai đoạn thời gian được coi là riêng biệt,
trong đó các mẫu hành vi của đữ liệu trong quá khứ và hiện tại không được
duy trì cho tương lai Vì vậy, không thê áp dụng kết quả phân tích từ một giai
đoạn này dé dự đoán cho giai đoạn khác
Nếu có hai hoặc nhiều chuỗi dit liệu không 6n định, có thé gặp phải hiện tượng
hôi quy vô nghĩa (nonsense regression) và hôi quy giả mao (spurious
regression).
2.1.1.6 Gia tri ngoai lai
Trong thực tế khi quan sat dit liệu chuỗi thời gian, có thé gặp phải những quansát có giá trị bất thường so với phần lớn dữ liệu, được gọi là các điểm dữ liệungoại lai (outlier) Những giá trị này thường ảnh hưởng đáng ké đến việc xácđịnh các tham số của mô hình hồi quy Vì vậy các quan sát này cần được đặcbiệt chú ý, một giá trị ngoại lai có thé là do việc nhập dữ liệu bị sai, điều này
sé gây ra hậu quả khôn lường trong việc dự báo, khi nghi ngờ một giá tri outlier
là do nhập sai cân nhanh chóng kiêm tra, nêu đúng phải loại nó ra khỏi dữ liệu,
15
Trang 29hoặc thay đổi lại giá trị đúng Tuy nhiên nếu outlier là giá trị đúng cần phải
xem xét các trường hợp có hoặc không có outlier để xác định hệ số cho đúng
vì nó có thé ảnh hưởng đáng kể đến kết qua dự đoán
2.1.2 Bộ dữ liệu phân tích
Giới thiệu về bộ dữ liệu chuỗi siêu thị Walmart, bộ dữ liệu về doanh số bánhàng tại cửa hàng 5 năm được cung cấp từ một cuộc thi
2.1.2.1 Tổng quan dir liệu
Bộ dữ liệu của Walmart, là tập đoàn bán lẻ nồi tiếng vận hành một chuỗi đại
siêu thị Tại đây, Walmart đã cung cấp dữ liệu tong hợp từ 45 cửa hang, bao gồm
thông tin về từng cửa hàng và doanh số hàng tháng Dữ liệu được cung cấp hàng
tuần.Đây là dữ liệu lịch sử bao gồm doanh số bán hàng từ ngày 5 tháng 2 năm 2010
đến ngày 1 tháng 11 năm 2012 Bộ dữ liệu này được Walmart công khai trong mộtcuộc thi trên Kaggle với mục tiêu phát triển các mô hình dự đoán doanh số sản phẩmbán Bộ dữ liệu này được sử dụng rộng rãi trong nghiên cứu va học tập dé thử nghiệm
các thuật toán dự báo đánh giá bản lẻ.
Thành Phần Dữ Liệu
Bộ dữ liệu Walmart bao gồm nhiều tập tin, thường là:
train.csv: Dữ liệu huân luyện chứa thông tin vê doanh sô bán hàng lich sử của
các cửa hàng.
e Cột chính:
o Store: ID của cửa hàng.
o Dept: ID của phòng ban (department).
o Date: Ngày ghi nhận doanh sé.
© Weekly Sales: Doanh số bán hàng hàng tuần
© IsHoliday: Chi báo ngày lễ (1 nếu là ngày lễ, 0 nếu không phải)
16
Trang 30test.csv: Dữ liệu kiểm tra có cấu trúc tương tự như train.csv, nhưng không có
cột Weekly_ Sales.
e Cột chính:
S
©
Store: ID của cửa hang.
Dept: ID của phòng ban.
Date: Ngày ghi nhận doanh sé
IsHoliday: Chỉ báo ngày lễ.
features.csv: Dữ liệu về các tính năng bô sung cho môi cửa hang và ngày.
e Cột chính:
S
©
Store: ID của cửa hàng.
Date: Ngày ghi nhận.
Temperature: Nhiệt độ trung bình (Fahrenheit).
Fuel_Price: Giá nhiên liệu.
MarkDown1-5: Các dot giảm giá (Markdowns), nếu có.
CPI: Chỉ số giá tiêu dùng
Store: ID của cửa hàng.
Type: Loại cửa hang (A, B, hoặc C).
Size: Diện tích của cửa hang (square footage).
Tính Chất của Dữ Liệu
1 Thời Gian: Dữ liệu thường bao gồm nhiều năm (từ 2010 đến 2012 trong
dữ liệu Kaggle), cho phép phân tích xu hướng theo mùa và hàng năm.
17
Trang 312 Sự Da Dang: Bao gồm các phòng ban khác nhau trong các cửa hàng,
cho phép phân tích chi tiết về từng loại sản phẩm
3 Các Yếu Tố Bên Ngoài: Bao gồm các yếu tố như giá nhiên liệu, nhiệt
độ, CPI, và ty lệ thất nghiệp, dé cho phép đánh giá các tác động của
môi trường bên ngoài.
4 Ngày Lễ: Sự hiện diện của chi báo ngày lễ (IsHoliday) cho phép kiểm
tra tác động của các ngày lê đên doanh sô.
Bộ dữ liệu thứ hai từ một cuộc thi từ Kaggle là một nguồn dit liệu phổ biếncho các bài toán dự báo nhu cầu tại các cửa hàng bán lẻ Dữ liệu này cung cấp doanh
số bán hàng của các mặt hàng trong nhiều cửa hàng
Thành Phần Dữ Liệu
Bộ dữ liệu này bao gồm các tệp chính sau:
1 train.csv: Dữ liệu huấn luyện chứa thông tin về doanh số bán hàng hàng ngày
e Cột chính:
o date: Ngày bán hang.
o store: ID của cửa hàng.
o item: ID của mặt hàng.
o sales: Số lượng mặt hang đã ban trong ngày
2 test.csv: Dữ liệu kiểm tra có cau trúc tương tự train.csv, nhưng không có cột
Trang 32e Cột chính:
o id: ID kết hợp của cửa hàng và mặt hàng
o sales: Dự báo số lượng mặt hàng sẽ bán
Đặc tính của dữ liệu
1 Định Dạng Chuỗi Thời Gian: Dữ liệu được cung cấp theo định dạng chuỗi thời
gian hang ngày từ ngày 1 tháng 1 năm 2013 đến ngày 31 tháng 12 năm 2017.
2 Nhiều Cửa Hàng và Mặt Hàng: Bao gồm dữ liệu cho 10 cửa hang và 50 mặt
hàng, tạo ra tổng cộng 500 chuỗi thời gian khác nhau
3 Độ Chỉ Tiết Cao: Dữ liệu chỉ tiết theo ngày cho phép phân tích và dự báo chính
xác hơn các mẫu và xu hướng.
4 Không Bao Gồm Yếu Tố Bên Ngoài: Không có thông tin về các yếu tố bên
ngoài như thời tiết, khuyến mãi hoặc các chỉ số kinh tế
Nhìn chung 2 bộ dữ liệu trên chi tiết, đa dạng và độ chính xác cao dé xay dung vaphat triển dé tài Đầu tiên về bộ đữ liệu Walmart có phạm vi rộng va tinh đa dạng, chitiết theo ngày và nhiều yếu tố bổ sung đáng tin cậy dữ liệu từ Walmart là dir liệu thực
tế, đã qua sử dụng trong các nghiên cứu và dự án thực tế và cuối cùng nó được công
khai nên có sẵn và chất lượng Bộ dữ liệu thứ 2 “Store Item Demand ForecastingChallenge” có cau trúc đơn giản có dit liệu cho 10 cửa hàng và 50 mặt hàng bao phủ
bắt đầu từ năm 2013 đến 2017 và nó cũng được công khai rộng rãi cho các nghiêncứu và thực tế.Tuy nhiên trong quá trình sử dụng đề tài sẽ chỉ sử dụng những dit liệu
cân thiệt đê phù hợp với nhu câu của dé tải.
Trang 332.3 Các phương pháp hồi quy
2.3.1 Phương pháp phân tích chuỗi thời gian
Đầu tiên, trước khi trình bày các phương pháp mới mẻ và hiện đại củahọc máy, phần này sẽ tập trung trình bày các phương pháp đánh giá dữ liệuvốn được xem là nền tảng đầu tiên của bài toán dự báo như: Những phươngpháp dự báo đơn giản, phân rã chuỗi dữ liệu thời gian, phương pháp hồi quytuyến tính, phương pháp hồi quy tự động AR, phương pháp trung bình động
MA, phương pháp ARIMA và SARIMA.
2.3.1.1 Hồi quy tự động (Autoregressive)
Phương pháp AR dựa trên nguyên lý rằng giá trị hiện tại của một chuỗi thời
gian có thé được dự đoán bằng cách sử dụng một tập hợp các giá trị dữ liệu
giá trị quá khứ Mô hình AR xem xét một chuỗi thời gian là một hàm của các
gia tri quá khứ của nó, cộng với một phan sai sô (nhiêu ngau nhiên).
Khi áp dụng mô hình này, chúng ta không cần phải phân biệt ký hiệu truyền
thống của y (biến phụ thuộc) và x (biến độc lập) vì sự phân chia đó không còncần thiết; thay vào đó, chúng ta chỉ cần sử dụng ký hiệu xt:
xt = b0 + blxt —] + b2x— 2 + + bpxt — p + et
2.3.1.2 Trung bình động (Moving Average)
Được biết đến với tên gọi đường trung bình trượt, đây là một phương pháp dựđoán hay phân tích bằng cách xem xét trung bình các điểm đữ liệu từ quá khứ
20
Trang 34Hình 2.3 Minh họa phương pháp trung bình cộng
2.3.1.3 Hồi quy tích hợp trung bình động (ARIMA)
Là một phương pháp dự báo chuỗi thời gian hiệu quả Khác với các kỹ thuật
làm mịn theo cấp số nhân, vốn chủ yếu tập trung vào việc phân tích xu hướng
và tính mùa vụ của dữ liệu, mô hình ARIMA chủ yếu nghiên cứu mối quan hệ
tự động (autocorrelation) trong dữ liệu.
Khi kết hợp các yếu tổ của mô hình tự hồi quy và mô hình trung bình động,
chúng ta sẽ tạo ra mô hình ARIMA( AutoRegressive Integrated Moving
Average.)
yt'=c + dlyt-1'+ -+ dpyt—p'+ Olet—1+ -+ Øqef — q + cf
p là bật của mô hình hồi quy tự động
q là bật của mô hình trung bình động Phân rã mô hình ta thấy:
(1-o IB- -ø pB^n) AR(p)
(1-B)^diy t=ct+(Q1+O01B+ +0qBq et
Hãng sô c có ảnh hưởng lớn đên các dự báo dài han của mô hình, cụ thé:
21
Trang 35+ Khi c = 0 vad = 0, dự đoán dài hạn sẽ luôn bằng 0 Nếu c = 0 và d= 1, dự
đoán sẽ đạt một giá trị hằng số khác 0 Trong trường hợp c = 0 và d = 2, dự
đoán dài hạn sẽ theo một đường thang Khi c #0 va d= 0, dự đoán dài han sẽ
bang giá trị trung bình của dữ liệu Cuối cùng, nếu c # 0 và d= 1, dự đoán dai
hạn sẽ thé hiện một đường thăng.
+ nếu c !=0 và d=2, dự báo dài hạn sẽ là phương trình bậc hai xu hướng
Trong khi đó, giá trị của p ảnh hưởng lớn khi dit liệu xuất hiện chu kỳ Dé có
thé dự đoán dit liệu có tính chu kỳ p cần lớn hơn hoặc bang 2
Mô hình ARIMA theo thời vụ (SARIMA) được tạo thành khi đưa tính thời vụ
vào mô hình ARIMA.
† †
Non-seasonal part Seasonal part of
of the model of the model
Hinh 2.4 Minh hoa mo hinh ARIMA theo thoi vu
trong đó m là số lần quan sát mỗi năm
Các kỹ thuật khác, chăng hạn như phương pháp dự báo đơn giản, phân rã chuỗi
dữ liệu thời gian, phương pháp hồi quy tuyến tính
2.3.2 Các phương pháp máy học
2.3.2.1 XGBoost
XGBoost (Extreme Gradient Boosting) là một thư viện học máy được phat
triển nhằm cải thiện hiệu suất và tốc độ của thuật toán Gradient BoostingDecision Tree (GBDT) XGBoost được phát triển nhằm ứng dụng trong môi
22
Trang 36trường sản xuât nhờ vao toc độ xử lý nhanh chóng và hiệu quả bộ nhớ và có
thê mở rộng cho các bài toán lớn.
XGBoost nôi tiêng vì khả năng cung câp các mô hình chính xác với hiệu suât
tính toán tốt, và đã được sử dụng dé giành chiến thang trong nhiều cuộc thi
Các phương pháp khác như Random forest, Gradient boosting tree.
2.4 Đánh giá hiệu suất
2.4.1 Kỹ thuật Cross validation
Một kỹ thuật thống kê dùng dé đo lường hiệu quả của mô hình học máy bằngcách phân chia dữ liệu mẫu thành các tập con độc lập dé huấn luyện và kiểmtra Kỹ thuật này giúp ước tính chính xác độ tổng quát hóa của mô hình (đánhgiá độ chính xác trong việc dự đoán trên dữ liệu chưa được thấy trước), từ đógiảm thiểu rủi ro của quá khớp hoặc thiếu khớp
Bước 1: Phân chia dữ liệu thành hai tập: tập huấn luyện và tập kiểm trarồi đánhgiá hiệu suất của mô hình là 'Biện pháp I' (khối màu hồng biểu thi di liệuhuấn luyện và khối màu vàng biéu thị dit liệu thử nghiệm)
mm
mo Measure 1 |
Hình 2.5 Mô ta qua trình chia dữ liệu của phương pháp Cross validation
Bước 2: Tach dit liệu và phân chia chúng thành các tập huấn luyện và kiểm tra
mới, sau đó thực hiện đánh giá lại hiệu quả của mô hình Vì chúng tôi 'Biện pháp 1' theo cách tương tự, chúng tôi đo lường 'Biện pháp 2', 'Biện pháp 3'.
23
Trang 37Hình 2.6 Mô tả qua trình chia dữ liệu của phương pháp Cross validation
Bước 3: Đề có được hiệu suất, hãy lay mức trung bình cua tất cả các thước đo
£==——i
=1
Total Model Performance
Hình 2.7 Mô tả trung bình của tat cả measure
Còn một phương pháp khác là Grid search.
24
Trang 382.4.2 Các chỉ suất hiệu suất
Root Mean Square Error(RMSE), Mean Absolute Error (MAE), Root mean square percentage error ( RMSPE), Mean absolute percentage error (MAPE),
Mean absolute scaled error (MASE).
2.5 Công nghệ sử dung
2.5.1 Ngôn ngữ lập trình
2.5.1.1 JavaScript
Hinh 2.8 Minh hoa logo cua Javascript
JavaScript là một ngôn ngữ lập trình giúp xây dựng giao diện người dùng cũng
như xây dựng các API chức năng Với cộng đồng lớn nên tài liệu phong phú
và đa dạng.
2.5.1.2 Python
Python là một ngôn ngữ lập trình mạnh mẽ có cấu trúc tương đối rõ ràng vàđược áp dụng phô biến trong các bài toán học máy Không chỉ thích hợp cho
việc phát triển các module học máy mà còn dễ dàng trong việc xây dựng
module phân tích Đặc biệt là Jupyter Notebook giúp quá trình thực nghiệm
được tiến hành nhanh chóng và thuận tiện Python còn có các framework API
như Flask API giúp xây dựng server dự báo.
25
Trang 392.5.2 Front-end
2.5.2.1 Reactjs
Hình 2.9 Minh họa logo cua Reactjs
Là một thư viện open source được phát triển bởi Facebook giúp lập trình viên
xây dựng giao diện cũng như xử lý các tương tác của người dùng Với cộng
đồng lớn và khá phô biến nên các tài liệu hay cách giải quyết các van đề rất đa
dạng và phong phú.
2.5.2.2 Tailwind css
x |
«~ tailwindcss
Hinh 2.10 Minh hoa logo cua Tailwind css
Tailwind CSS là một framework CSS tiện ich dau tiên (utility-first CSSframework) được thiết kế dé tạo ra các giao điện người dùng hiện dai mà khôngcần viết các quy tắc CSS tùy chỉnh Thay vì xác định các lớp CSS với tên cụthé, bạn áp dụng các lớp tiện ích trực tiếp vào các thành phan HTML dé tạokiểu dang, giúp tăng tốc độ phát triển và sự nhất quán trong giao diện
26
Trang 402.5.2.3 Shaden/ui
&
React
Hinh 2.11 Minh hoa logo cua Shadcn/ui
Shaden cung cấp các giao diện thành phan (UI components) hiện đại, phù hợpcác ứng dụng xây dựng bằng React và Tailwind CSS Mục tiêu chính củaShaden là cung cấp các thành phan UI dé sử dụng, có khả năng tùy chỉnh cao,giúp các lập trình viên xây dựng giao điện người dùng nhất quán, thẳm mỹ, va
linh hoạt.
2.5.3 Backend
Đây là môi trường thực thi JavaScript phía máy chủ được phát triển trên nền
tảng V8 JavaScript Engine của Google V8 là engine được sử dụng trong
Google Chrome đề thực thi mã JavaScript Event-Driven và Non-Blocking I/O
e Single-Threaded với Event Loop
e H6 Tro Các Module
2.5.3.1 Flask API
Flask API là một dich vu API (Application Programming Interface) được xây
dung bang Flask
Flask giúp phát triển API RESTful một cách dé dang bang cách cung cấp cáccông cụ và thư viện cần thiết để xử lý các yêu cầu HTTP và phản hồi dữ liệu
Flask API thường được sử dụng dé xây dựng các dịch vụ web nhỏ, nhanh
chóng, và có khả năng mở rộng Flask cung cấp một số tính năng cốt lõi choviệc phát triển API, bao gồm xử lý routing, quan lý yêu cầu và phản hồi, hỗ
27