QUAN VÀ+ỨNG DỤNG
FORECASTING LÀ GÌ?
1.3 Machine learing được ứng dụng vào6những việcgì?
1.4 Cácbước cơ bảnđể tiếnhànhtrong một dự báo
1.5 Dữ liệu!và phương pháp dùngltrong dự báo
Chương2: CÁC CÁCHTHỂ HIỆN DỮ LIỆU DƯỚI DẠNG TIME SERIES
2.1 Cácmô*típcó thể xuất hiện
2.2 Cáccách thể hiện dữ liệu!dưới dạng time series
Chương3: CÁC CÔNGCỤ SỬ DỤNG CHO VIỆC DỰ ĐOÁN
3.2 Chuyển đổivà điều chỉnh (Transformation and adjustment)
4.3 Mô hìnhhồi quy theo thời gian
Chương5: MÔ HÌNH MẠNG;NEURON NHÂNTẠO (ANN)
5.1 Lịch sử phát triển củaJneuronnhân tạo
Chương6: MÔHÌNHKẾT HỢP HỒI QUY VÀMẠNG NEURON NHÂNTẠO 6.1 Giới thiệu!mô hình
6.2 Tính sai số toàn phương trung bình (MSE)~và trọng số ( )
CHƯƠNG7:ĐÁNH GIÁBẰNG THỰC NGHIỆM
7.2 Các tập dữ liệu dùngtrongthực nghiệm
7.3 Các trường hợp thực nghiệm
3.2 Đóng góp của đề tài 3.3 Hạn chế
1.1 TÍNH CẤP THIẾT CỦAĐỀ TÀI 1
1.3 CÁCH TIẾP CẬN VÀ,PHƯƠNG PHÁPNGHIÊN CỨU 1
Chương 1:JTỔNG QUAN VÀ+ỨNG DỤNG 3
1.3 MACHINE`LEARINGĐƯỢC ỨNG DỤNG VÀO,NHỮNG VIỆC GÌ? 3
1.4 CÁC BƯỚC CƠ BẢNĐỂ TIẾN HÀNHTRONG MỘT DỰ BÁO. 4
1.5 DỮ LIỆU'VÀ,PHƯƠNGPHÁP DÙNG TRONG DỰ BÁO 5
Chương 2:J CÁC CÁCH THỂ HIỆN DỮ LIỆU' DƯỚI DẠNG TIME
2.1 CÁC MÔTÍP CÓTHỂ5XUẤT HIỆN 6
2.2 CÁC CÁCH THỂ HIỆNDỮ LIỆU DƯỚI DẠNG TIME SERIES 7 Chương 3:JCÁC CÔNG CỤ SỬ DỤNG CHOVIỆCDỰ ĐOÁN 10
3.1 CÁC PHƯƠNG PHÁP DỰ ĐOÁN ĐƠN GIẢN 10
3.2 CHUYỂN ĐỔI VÀ, ĐIỀU CHỈNH (Transformation andAdjustment) 12
Chương 4:JMÔ HÌNH HỒI QUY 16
4.3 MÔHÌNH HỒI QUY THEO THỜI GIAN 51
Chương 5: MÔHÌNH MẠNG NEURON'NHÂN TẠO (ANN) 64
5.1 LỊCH SỬ PHÁT TRIỂN CỦA NEURON NHÂN TẠO 64
Chương 6:JMÔ HÌNH%KẾT HỢP HỒI QUY VÀ MẠNG NEURONNHÂN TẠO 89
6.2 TÍNH SAISỐ TOÀN PHƯƠNG TRUNG BÌNH (MSE)vàmtrọng số ( ) 90
CHƯƠNG7:JĐÁNH GIÁ BẰNG THỰC NGHIỆM 91
7.2 CÁC TẬP DỮ LIỆU DÙNG TRONG THỰC NGHIỆM 91
7.3 CÁC TRƯỜNG HỢP THỰC NGHIỆM 100
DANH MỤC TÀI LIỆU THAM KHẢO 113
KẾ HOẠCH THỰC HIỆN LUẬN VĂN 114
Hình 1 Biểuđồ lượng bia sản xuất hàng tháng tạiUÚc (1956-1990) 6
Hình 2 Biểuđồ dự đoán lượng bia sản xuất hàng tháng tạiUÚc 6
Hình 3 Biểuđồ giá chứng khoán củacông tyIBM 7
Hình 4 Biểuđồ dự đoán lượng bia sản xuất hàng tháng tạiUÚc 7
Hình 5 Biểuđồ tương quan giữalượng điệntiêu thụ so với nhiệtVđộ hàng ngày 8 Hình 6 Biểuđồ tương quan lượng điện tiêu thụ giữangày hiện tại so vớiUtrước đó 2 ngày 8
Hình 7 Biểuđồ tương quan lượng điện tiêu thụ của ngày hiện tại so với những ngày trước đó 9
Hình 8 Biểuđồ dự đoán sảnlượng sản xuất bia tạiUÚc dùngphương pháp trung bình 10
Hình 9 Biểu đồ dự đoán sảnlượng sản xuất bia tạiUÚc dùngphương pháp Nạve 11
Hình 10 Biểuđồ dự đoán sảnlượng sản xuất bia tạiUÚc dùngphương pháp SeasonalwNạve 11
Hình 11 Biểuđồ dự đoán sảnlượng sản xuất bia tạiUÚc dùngphương pháp
Hình 12 Biểuđồ dự đoán sảnlượng sản xuất bia tạiUÚc trước khi Adjustment 13 Hình 13 Biểuđồ dự đoán sảnlượng sản xuất bia tạiUÚc saukhiUdùng Log
Hình 14 Biểuđồ dự đoán sản lượng sản xuất bia tạiUÚc trướcLkhiUdùng Log
Hình 15 Mô hình hồi quy đơn 17
Hình 16 Hàm hồi quy mẫu và phầndư 21
Hình 19 Mô hình dự đoán vídụ 4.3.1 54
Hình 20 Môhình dự báo}ví dụ 4.3.2 63
Hình 30 Mạng truyền thẳng nhiều lớp 67
Hình 24 Đồ thị biểu thị hàm tuyếntính 70
Hình 25 Đồ thị biểu thị hàm sigmoid 71
Hình 26 Đồ thị biểu thị hàm tanh 72
Hình 27 Đồ thị biểu diễn hàm ReLU 73
Hình 28 Đồ thị biểu diễn hàm dấu sgn 73
Hình 29 Cáczdạng học tham số 74
Hình 31 Mô hình cơ chế hoạtVđộng của ANN 80
Hình 32 Mô hình kết hợp hồiUquy và mạng neuron}nhântạo 89
Hình 33 Biểuđồ thể hiện tập dữ liệu Air quality data set 93
Hình 34 Biểuđồ biểu hiện tập dữ liệu Jena_climate_2009_2016 94
Hình 35 Biểuđồ biểu diễn tập dữ liệu Appliance energy prediction 97
Hình 36 Biểuđồ biểu diễn tập dữ liệu Occupancy Detection Data Set 98
Bảng 2 Bảng xử lí số liệuvídụ 4.1.1.2 18
Bảng 3 Bảng xử lí số liệuvídụ 4.1.2.2 22
Bảng 4 Bảng xử lí số liệuvídụ 4.1.2.2 25
Bảng 5 Xử lí số liệu ví dụ 4.1.3.2 29
Bảng 7 Bảng xử lí vídụ 4.2.2.1 39
Bảng 8 Xử lí số liệu ví dụ 4.2.3.1 46
Bảng 9 Bảng số liệuví dụ 4.3.1 52
Bảng 10 Bảng xử lý số liệuvídụ 4.3.1 52
Bảng 11 Bảng xử lí số liệu 4.3.1 55
Bảng 127pgiá trị đầu của bảng số liệuví dụ 4.3.1 59
Bảng 13 Bảng dữ liệu tuyển sinh (1998-2017) 83
Bảng 14 Dữ liệu tuyển sinh từ năm 1988 đến 2017 của Trung tâm 85
Bảng 15 Xử lí dữ liệu tuyển sinh từ nămI1988 đến 2017 của Trung tâm 86
Bảng 16 Bảng tóm tắt tập dữ liệu 99
Bảng 17 Giá trị thực nghiệm của tệp dữ liệuAirnquality trên mô hìnhXANN với k thay đổi 102
Bảng 18 Giá trị thực nghiệm của tệp dữ liệuAirnquality trên mô hìnhXANN với epoch}thayđổi 102
Bảng 19 Giá trị sai số của tập dữ liệuAirUQuality cho 3 mô hình thực nghiệm103Bảng 20 Thời gian thực thi của tập dữ liệuAirUQuality choX3 mô hình thực nghiệm 103
Bảng 21 GiáUtrị thực nghiệm của tệp dữ liệu Jena_climate_2009_2016 trên!mô hìnhXANNvới k thay đổi 104
Bảng 22 Giá trị chạy thực nghiệm của tệp dữ liệu Jena_climate_2009_2016 trên!môhìnhXANN vớiUepoch}thay đổi 105
Bảng 23 GiáUtrị sai số của tập dữ liệu Jena_climate_2009_2016 trên3cmôhình thực nghiệm 106
Bảng 24 Thời gian thực thi của tập dữ liệu Jena_climate_2009_2016 trên3c môhình thực nghiệm 106
Bảng 25 GiáUtrị thực nghiệm của tệp dữ liệu Appliances energy prediction trên!môhìnhXANN vớiUk thay đổi 107
Bảng 26 GiáUtrị thực nghiệm của tệp dữ liệu Appliances energy prediction trên!môhìnhXANN vớiUepoch}thay đổi 107
Bảng 27 Giá trị sai số của tập dữ liệu Appliances energy prediction trên 3 mô hìnhXthực nghiệm 108
Bảng 28 Thời gian thực thi của tập dữ liệu Appliances energy prediction trên
Bảng 29 Giá trị thực nghiệm của tệp dữ liệu Occupancy Detection Data Set trên!môhìnhXANN vớiUk thay đổi 109
Bảng 30 GiáUtrị thực nghiệm của tệp dữ liệu Occupancy Detection Data Set trên!môhìnhXANN vớiUepoch}thay đổi 110
Bảng 31 Giá trị sai số của tập dữ liệu Occupancy Detection trên3 mô hình thực nghiệm 111
Bảng 32 Thời gian thực thi của tập dữ liệu Occupancy Detection trên 3cmô hìnhXthực nghiệm 111
Phần 1: MỞ ĐẦU 1.1 TÍNH CẤP THIẾT CỦAĐỀ TÀI
Ngày nay, sự phát triển mạnh mẽ của Internet, mạng xã hội và thiết bị di động đã dẫn đến một lượng dữ liệu khổng lồ được sinh ra liên tục Việc ứng dụng công nghệ thông tin trong kinh doanh và quản lý là vô cùng cần thiết Dự báo dữ liệu theo chuỗi thời gian giúp các tổ chức và doanh nghiệp có thể định hướng sự phát triển trong tương lai dựa trên những số liệu của quá khứ.
Nhóm em đã chọn đề tài “Tìm hiểu mô hình hồi quy và ứng dụng trong dự báo dữ liệu chuỗi thời gian” để giới thiệu về các mô hình hồi quy và mô hình mạng neuron nhân tạo (ANN) Chúng em sẽ nghiên cứu sự kết hợp giữa hai mô hình này, cũng như tìm hiểu cơ bản về chuỗi thời gian, quy trình dự báo và ứng dụng của chúng trong dự báo chuỗi thời gian.
Nghiêncứu áp dụng mô hình hồiquy, mô hình ANNvàmô hình kết hợp hồi quy với ANN trong dự báo5dữ liệu chuỗi thời gian.
Mô hình hồi quy chuỗi thời gian giúp chúng ta ước lượng và dự báo giá trị trung bình của các biến phụ thuộc dựa vào giá trị của biến giải thích Qua đó, chúng ta có thể xác định mức độ quan hệ giữa các biến, hiểu rõ bản chất của hiện tượng và tìm ra các biện pháp khắc phục Áp dụng kiến thức này, chúng ta có thể xây dựng mô hình Demo để dự đoán các tập dữ liệu hiệu quả.
1.3 CÁCHTIẾP CẬN VÀ,PHƯƠNG PHÁP1NGHIÊNCỨU
- Tìm hiểu mô*hình ANN
- Tìm hiểu mô*hình kết hợp hồiquy và ANN
- Ápdụng hồi quy tuyến tính,Rmô hình ANN,Rmô hình kết hợp hồiquy và ANN vào6dự báo
- Xây dựng ứng dụng demo dự đoán các tập dữ liệu.
Gồm 03 phương pháp nghiên cứu khoa họcđể tiếp cận vàlàm.rõ những vấn đề củaJđềtài. Đó là các phương pháp nghiên cứu!sau:
Phương pháp 5 phân tích và tổng hợp lý thuyết bao gồm việc nghiên cứu các tài liệu khác nhau về mô hình hồi quy tuyến tính, mô hình ANN, và sự kết hợp giữa hai mô hình này để dự báo Phân tích sâu sắc từng vấn đề và tổng hợp thông tin giúp tạo ra cái nhìn tổng quan, đầy đủ về các vấn đề cần tìm hiểu.
Phương pháp thực nghiệm khoa học bao gồm việc chủ động thu thập và tìm kiếm dữ liệu Sử dụng công cụ Python, chúng ta có thể xây dựng mô hình hồi quy tuyến tính để dự báo Đồng thời, mô hình mạng nơ-ron nhân tạo (ANN) cũng có thể được áp dụng để dự báo Việc kết hợp các mô hình này trong quá trình dự báo sẽ mang lại kết quả chính xác hơn.
- Phươngpháp phân tích,tổng kếtHkinh nghiệm: Nghiêncứu, phân tích và đánh giá các5mô hình đã xây%dựng để từng bướcxây dựng mô*hìnhphùlhợpEnhất\ với=độ tincậy,RchínhQxáccao hơn.
1.4 KẾT QUẢ ĐẠT ĐƯỢC Áp dựng các kiến thức đã tìm-hiểu Xây dựng Appdemo để có[thể dễ dàng dự báo6 kết quả mong muốn.
MachineVLearning là mộtchươngtrình máy5tính,Rkhông cần lậptrình-rõ ràng,học tập từ dữ liệu, lặp lại nhiều lần, có[khả năng thíchnghi khi tiếpxúc với dữ liệu mới [1]
Forecasting làDmộtquá1trìnhđưaJra cácsố liệu để dự báo cho một vấn đề cầncó quyết địnhtrong&tương lai [1]
CÁC BƯỚC CƠ BẢNĐỂ TIẾN HÀNHTRONG MỘT DỰ BÁO 4
1.5 Dữ liệu!và phương pháp dùngltrong dự báo
Chương2: CÁC CÁCHTHỂ HIỆN DỮ LIỆU DƯỚI DẠNG TIME SERIES
2.1 Cácmô*típcó thể xuất hiện
2.2 Cáccách thể hiện dữ liệu!dưới dạng time series
Chương3: CÁC CÔNGCỤ SỬ DỤNG CHO VIỆC DỰ ĐOÁN
3.2 Chuyển đổivà điều chỉnh (Transformation and adjustment)
4.3 Mô hìnhhồi quy theo thời gian
Chương5: MÔ HÌNH MẠNG;NEURON NHÂNTẠO (ANN)
5.1 Lịch sử phát triển củaJneuronnhân tạo
Chương6: MÔHÌNHKẾT HỢP HỒI QUY VÀMẠNG NEURON NHÂNTẠO 6.1 Giới thiệu!mô hình
6.2 Tính sai số toàn phương trung bình (MSE)~và trọng số ( )
CHƯƠNG7:ĐÁNH GIÁBẰNG THỰC NGHIỆM
7.2 Các tập dữ liệu dùngtrongthực nghiệm
7.3 Các trường hợp thực nghiệm
3.2 Đóng góp của đề tài 3.3 Hạn chế
1.1 TÍNH CẤP THIẾT CỦAĐỀ TÀI 1
1.3 CÁCH TIẾP CẬN VÀ,PHƯƠNG PHÁPNGHIÊN CỨU 1
Chương 1:JTỔNG QUAN VÀ+ỨNG DỤNG 3
1.3 MACHINE`LEARINGĐƯỢC ỨNG DỤNG VÀO,NHỮNG VIỆC GÌ? 3
1.4 CÁC BƯỚC CƠ BẢNĐỂ TIẾN HÀNHTRONG MỘT DỰ BÁO. 4
1.5 DỮ LIỆU'VÀ,PHƯƠNGPHÁP DÙNG TRONG DỰ BÁO 5
Chương 2:J CÁC CÁCH THỂ HIỆN DỮ LIỆU' DƯỚI DẠNG TIME
2.1 CÁC MÔTÍP CÓTHỂ5XUẤT HIỆN 6
2.2 CÁC CÁCH THỂ HIỆNDỮ LIỆU DƯỚI DẠNG TIME SERIES 7 Chương 3:JCÁC CÔNG CỤ SỬ DỤNG CHOVIỆCDỰ ĐOÁN 10
3.1 CÁC PHƯƠNG PHÁP DỰ ĐOÁN ĐƠN GIẢN 10
3.2 CHUYỂN ĐỔI VÀ, ĐIỀU CHỈNH (Transformation andAdjustment) 12
Chương 4:JMÔ HÌNH HỒI QUY 16
4.3 MÔHÌNH HỒI QUY THEO THỜI GIAN 51
Chương 5: MÔHÌNH MẠNG NEURON'NHÂN TẠO (ANN) 64
5.1 LỊCH SỬ PHÁT TRIỂN CỦA NEURON NHÂN TẠO 64
Chương 6:JMÔ HÌNH%KẾT HỢP HỒI QUY VÀ MẠNG NEURONNHÂN TẠO 89
6.2 TÍNH SAISỐ TOÀN PHƯƠNG TRUNG BÌNH (MSE)vàmtrọng số ( ) 90
CHƯƠNG7:JĐÁNH GIÁ BẰNG THỰC NGHIỆM 91
7.2 CÁC TẬP DỮ LIỆU DÙNG TRONG THỰC NGHIỆM 91
7.3 CÁC TRƯỜNG HỢP THỰC NGHIỆM 100
DANH MỤC TÀI LIỆU THAM KHẢO 113
KẾ HOẠCH THỰC HIỆN LUẬN VĂN 114
Hình 1 Biểuđồ lượng bia sản xuất hàng tháng tạiUÚc (1956-1990) 6
Hình 2 Biểuđồ dự đoán lượng bia sản xuất hàng tháng tạiUÚc 6
Hình 3 Biểuđồ giá chứng khoán củacông tyIBM 7
Hình 4 Biểuđồ dự đoán lượng bia sản xuất hàng tháng tạiUÚc 7
Hình 5 Biểuđồ tương quan giữalượng điệntiêu thụ so với nhiệtVđộ hàng ngày 8 Hình 6 Biểuđồ tương quan lượng điện tiêu thụ giữangày hiện tại so vớiUtrước đó 2 ngày 8
Hình 7 Biểuđồ tương quan lượng điện tiêu thụ của ngày hiện tại so với những ngày trước đó 9
Hình 8 Biểuđồ dự đoán sảnlượng sản xuất bia tạiUÚc dùngphương pháp trung bình 10
Hình 9 Biểu đồ dự đoán sảnlượng sản xuất bia tạiUÚc dùngphương pháp Nạve 11
Hình 10 Biểuđồ dự đoán sảnlượng sản xuất bia tạiUÚc dùngphương pháp SeasonalwNạve 11
Hình 11 Biểuđồ dự đoán sảnlượng sản xuất bia tạiUÚc dùngphương pháp
Hình 12 Biểuđồ dự đoán sảnlượng sản xuất bia tạiUÚc trước khi Adjustment 13 Hình 13 Biểuđồ dự đoán sảnlượng sản xuất bia tạiUÚc saukhiUdùng Log
Hình 14 Biểuđồ dự đoán sản lượng sản xuất bia tạiUÚc trướcLkhiUdùng Log
Hình 15 Mô hình hồi quy đơn 17
Hình 16 Hàm hồi quy mẫu và phầndư 21
Hình 19 Mô hình dự đoán vídụ 4.3.1 54
Hình 20 Môhình dự báo}ví dụ 4.3.2 63
Hình 30 Mạng truyền thẳng nhiều lớp 67
Hình 24 Đồ thị biểu thị hàm tuyếntính 70
Hình 25 Đồ thị biểu thị hàm sigmoid 71
Hình 26 Đồ thị biểu thị hàm tanh 72
Hình 27 Đồ thị biểu diễn hàm ReLU 73
Hình 28 Đồ thị biểu diễn hàm dấu sgn 73
Hình 29 Cáczdạng học tham số 74
Hình 31 Mô hình cơ chế hoạtVđộng của ANN 80
Hình 32 Mô hình kết hợp hồiUquy và mạng neuron}nhântạo 89
Hình 33 Biểuđồ thể hiện tập dữ liệu Air quality data set 93
Hình 34 Biểuđồ biểu hiện tập dữ liệu Jena_climate_2009_2016 94
Hình 35 Biểuđồ biểu diễn tập dữ liệu Appliance energy prediction 97
Hình 36 Biểuđồ biểu diễn tập dữ liệu Occupancy Detection Data Set 98
Bảng 2 Bảng xử lí số liệuvídụ 4.1.1.2 18
Bảng 3 Bảng xử lí số liệuvídụ 4.1.2.2 22
Bảng 4 Bảng xử lí số liệuvídụ 4.1.2.2 25
Bảng 5 Xử lí số liệu ví dụ 4.1.3.2 29
Bảng 7 Bảng xử lí vídụ 4.2.2.1 39
Bảng 8 Xử lí số liệu ví dụ 4.2.3.1 46
Bảng 9 Bảng số liệuví dụ 4.3.1 52
Bảng 10 Bảng xử lý số liệuvídụ 4.3.1 52
Bảng 11 Bảng xử lí số liệu 4.3.1 55
Bảng 127pgiá trị đầu của bảng số liệuví dụ 4.3.1 59
Bảng 13 Bảng dữ liệu tuyển sinh (1998-2017) 83
Bảng 14 Dữ liệu tuyển sinh từ năm 1988 đến 2017 của Trung tâm 85
Bảng 15 Xử lí dữ liệu tuyển sinh từ nămI1988 đến 2017 của Trung tâm 86
Bảng 16 Bảng tóm tắt tập dữ liệu 99
Bảng 17 Giá trị thực nghiệm của tệp dữ liệuAirnquality trên mô hìnhXANN với k thay đổi 102
Bảng 18 Giá trị thực nghiệm của tệp dữ liệuAirnquality trên mô hìnhXANN với epoch}thayđổi 102
Bảng 19 Giá trị sai số của tập dữ liệuAirUQuality cho 3 mô hình thực nghiệm103Bảng 20 Thời gian thực thi của tập dữ liệuAirUQuality choX3 mô hình thực nghiệm 103
Bảng 21 GiáUtrị thực nghiệm của tệp dữ liệu Jena_climate_2009_2016 trên!mô hìnhXANNvới k thay đổi 104
Bảng 22 Giá trị chạy thực nghiệm của tệp dữ liệu Jena_climate_2009_2016 trên!môhìnhXANN vớiUepoch}thay đổi 105
Bảng 23 GiáUtrị sai số của tập dữ liệu Jena_climate_2009_2016 trên3cmôhình thực nghiệm 106
Bảng 24 Thời gian thực thi của tập dữ liệu Jena_climate_2009_2016 trên3c môhình thực nghiệm 106
Bảng 25 GiáUtrị thực nghiệm của tệp dữ liệu Appliances energy prediction trên!môhìnhXANN vớiUk thay đổi 107
Bảng 26 GiáUtrị thực nghiệm của tệp dữ liệu Appliances energy prediction trên!môhìnhXANN vớiUepoch}thay đổi 107
Bảng 27 Giá trị sai số của tập dữ liệu Appliances energy prediction trên 3 mô hìnhXthực nghiệm 108
Bảng 28 Thời gian thực thi của tập dữ liệu Appliances energy prediction trên
Bảng 29 Giá trị thực nghiệm của tệp dữ liệu Occupancy Detection Data Set trên!môhìnhXANN vớiUk thay đổi 109
Bảng 30 GiáUtrị thực nghiệm của tệp dữ liệu Occupancy Detection Data Set trên!môhìnhXANN vớiUepoch}thay đổi 110
Bảng 31 Giá trị sai số của tập dữ liệu Occupancy Detection trên3 mô hình thực nghiệm 111
Bảng 32 Thời gian thực thi của tập dữ liệu Occupancy Detection trên 3cmô hìnhXthực nghiệm 111
Phần 1: MỞ ĐẦU 1.1 TÍNH CẤP THIẾT CỦAĐỀ TÀI
Ngày nay, sự phát triển mạnh mẽ của Internet, mạng xã hội và thiết bị di động đã dẫn đến sự gia tăng không ngừng của dữ liệu toàn cầu Dữ liệu được tạo ra liên tục, và việc ứng dụng công nghệ thông tin vào kinh doanh và quản lý là vô cùng cần thiết Dự báo dữ liệu theo chuỗi thời gian giúp các cơ quan và doanh nghiệp định hướng sự phát triển trong tương lai dựa trên số liệu của quá khứ.
Nhóm em đã chọn đề tài "Tìm hiểu mô hình hồi quy và ứng dụng trong dự báo dữ liệu chuỗi thời gian" để giới thiệu về các mô hình hồi quy và mạng neuron nhân tạo (ANN) Bài viết sẽ khám phá sự kết hợp giữa hai mô hình này, đồng thời cung cấp kiến thức cơ bản về chuỗi thời gian và cách dự báo, với ứng dụng cụ thể trong dự báo chuỗi thời gian.
Nghiêncứu áp dụng mô hình hồiquy, mô hình ANNvàmô hình kết hợp hồi quy với ANN trong dự báo5dữ liệu chuỗi thời gian.
Mô hình hồi quy chuỗi thời gian giúp chúng ta ước lượng và dự báo giá trị trung bình của các biến phụ thuộc dựa trên giá trị của biến giải thích Qua đó, chúng ta có thể xác định mức độ quan hệ giữa các biến, hiểu rõ bản chất của hiện tượng và tìm ra các biện pháp khắc phục Việc áp dụng kiến thức này để xây dựng mô hình Demo sẽ hỗ trợ trong việc dự đoán các tập dữ liệu một cách hiệu quả.
1.3 CÁCHTIẾP CẬN VÀ,PHƯƠNG PHÁP1NGHIÊNCỨU
- Tìm hiểu mô*hình ANN
- Tìm hiểu mô*hình kết hợp hồiquy và ANN
- Ápdụng hồi quy tuyến tính,Rmô hình ANN,Rmô hình kết hợp hồiquy và ANN vào6dự báo
- Xây dựng ứng dụng demo dự đoán các tập dữ liệu.
Gồm 03 phương pháp nghiên cứu khoa họcđể tiếp cận vàlàm.rõ những vấn đề củaJđềtài. Đó là các phương pháp nghiên cứu!sau:
Phương pháp 5 phân tích và tổng hợp lý thuyết là một cách tiếp cận nghiên cứu hiệu quả, bao gồm việc xem xét các tài liệu khác nhau về mô hình hồi quy tuyến tính, mô hình ANN, và sự kết hợp giữa hai mô hình này để dự báo Qua phân tích sâu sắc từng vấn đề, chúng ta có thể tổng hợp thông tin để xây dựng cái nhìn tổng quan và đầy đủ về các vấn đề cần tìm hiểu.
Phương pháp thực nghiệm khoa học bao gồm việc chủ động thu thập và tìm kiếm dữ liệu Sử dụng công cụ Python, chúng ta có thể xây dựng mô hình hồi quy tuyến tính và mô hình mạng nơ-ron nhân tạo (ANN) để dự báo Việc kết hợp các mô hình này sẽ nâng cao độ chính xác trong dự báo kết quả.
- Phươngpháp phân tích,tổng kếtHkinh nghiệm: Nghiêncứu, phân tích và đánh giá các5mô hình đã xây%dựng để từng bướcxây dựng mô*hìnhphùlhợpEnhất\ với=độ tincậy,RchínhQxáccao hơn.
1.4 KẾT QUẢ ĐẠT ĐƯỢC Áp dựng các kiến thức đã tìm-hiểu Xây dựng Appdemo để có[thể dễ dàng dự báo6 kết quả mong muốn.
MachineVLearning là mộtchươngtrình máy5tính,Rkhông cần lậptrình-rõ ràng,học tập từ dữ liệu, lặp lại nhiều lần, có[khả năng thíchnghi khi tiếpxúc với dữ liệu mới [1]
Forecasting làDmộtquá1trìnhđưaJra cácsố liệu để dự báo cho một vấn đề cầncó quyết địnhtrong&tương lai [1]
1.3 MACHINE`LEARING ĐƯỢC ỨNG DỤNG VÀO,NHỮNG VIỆCGÌ?
Hầu hết mọi ngành công nghiệpđang làm việc vớihàm lượnglớn dữ liệu đều sử dụngcông nghệ+MachineVLearning. ã Cỏcdịchvụ tàichớnh
Ngân hàng và các doanh nghiệp tài chính đang ứng dụng công nghệ Machine Learning với hai mục đích chính: xác định insights từ dữ liệu và ngăn chặn lừa đảo Công nghệ này giúp phát hiện các cơ hội đầu tư và thông báo cho nhà đầu tư về thời điểm giao dịch hợp lý Bên cạnh đó, data mining còn hỗ trợ trong việc nhận diện khách hàng có hồ sơ rủi ro cao và sử dụng giám sát mạng để phát hiện những tín hiệu lừa đảo.
Các tổ chức chính phủ hoạt động trong lĩnh vực an ninh cộng đồng và tiện ích xã hội sở hữu nhiều nguồn dữ liệu có thể khai thác để thu được những thông tin giá trị Việc phân tích dữ liệu cảm biến giúp chính phủ nâng cao hiệu quả dịch vụ và tiết kiệm chi phí Ngoài ra, Machine Learning hỗ trợ trong việc phát hiện gian lận và giảm thiểu khả năng trộm cắp danh tính.
Machine Learning là 1 xu hướng phát5triểnnhanh chóng trong ngànhchăm sóc sứckhỏe, nhờ:vào sự ra&đời của các5thiết bịvàmáy cảmIứng đeo được sử dụng dữ liệu
Công nghệ Machine Learning giúp đánh giá tình hình sức khỏe của bệnh nhân trong thời gian thực, cho phép các chuyên gia y tế nhận diện xu hướng và tín hiệu quan trọng Điều này không chỉ cải thiện khả năng điều trị mà còn nâng cao độ chính xác trong chẩn đoán bệnh, từ đó tối ưu hóa quy trình chăm sóc sức khỏe.
Dựa trên hành vi mua hàng trước đây, các trang web sử dụng Machine Learning để phân tích lịch sử mua sắm, từ đó giới thiệu những sản phẩm mà bạn có thể quan tâm và yêu thích Khả năng tiếp nhận, phân tích và sử dụng dữ liệu này để cá nhân hóa trải nghiệm mua sắm hoặc thực hiện chiến dịch marketing chính là tương lai của ngành bán lẻ.
Tìm kiếm nguồn nguyên liệu mới và phân tích các mỏ dầu dưới đất là rất quan trọng Dự đoán tình trạng thất bại của các bộ cảm biến trong quá trình khai thác dầu cần được chú trọng Sắp xếp các kênh phân phối hiệu quả và tiết kiệm chi phí là yếu tố then chốt Số lượng ứng dụng Machine Learning trong ngành công nghiệp này đang gia tăng đáng kể và tiếp tục mở rộng.
Phân tích dữ liệu để xác định các mẫu và xu hướng là trọng tâm trong ngành vận tải, vì ngành này phụ thuộc vào khả năng tận dụng hiệu quả trí tuệ nhân tạo trên mỗi tuyến đường Việc dự đoán các vấn đề tiềm ẩn giúp gia tăng lợi nhuận cho doanh nghiệp Các chức năng phân tích dữ liệu và mô hình hóa của Machine Learning đóng vai trò quan trọng đối với các doanh nghiệp vận chuyển, vận tải công cộng và các tổ chức vận chuyển khác.
1.4 CÁC1BƯỚC CƠ BẢNĐỂ TIẾN HÀNHTRONG MỘT DỰ BÁO
- Sử dụng và đánhgiá mô hình
DỮ LIỆU'VÀ,PHƯƠNGPHÁP DÙNG TRONG DỰ BÁO
Các phương phápdự báo thích hợp phụ thuộc phần lớnvào dữ liệu nào6có sẵn.
D ự báo định lượ ng (quantitative forecasting) có thể được áp dụng khi hai điều kiệnđược thỏaJmãn:
- Có[dữ liệu dạng số phùlhợp với việc dự đoán.
- Có[một giả thiếtcó cơ sở về những mô típ trong quá khứ và vẫn sẽ tiếp tục trong tương lại.
Hầu hết các vấn đề dự đoán định lượng sử dụng dữ liệu chuỗi thời gian, được thu thập tại các khoảng thời gian đều đặn, hoặc dữ liệu cắt ngang, được thu thập tại một thời điểm duy nhất.
Khi không có dữ liệu khả dụng hoặc dữ liệu hiện có không liên quan đến dự báo, việc áp dụng phương pháp dự báo định tính là cần thiết.
Chương 2: CÁC CÁCH THỂ HIỆNDỮ LIỆU DƯỚI DẠNG TIME SERIES
2.1 CÁC MÔTÍP CÓ THỂ XUẤT HIỆN ã Xu hướng (Trend)
Dùngđể miêutả trường hợp trong dữ liệu xuất hiện hiện tượng giá trị tăng hoặc giảm trong thờigianJdài [1]
Hình 1 Biểuđồ lượng bia sản xuấtVhàng tháng tạiUÚc (1956-1990) ãMựaJ(Seasonal)
Dùng cho trường hợpcác5yếu tố dự đoánbị tác5động bởi những yếu tố mangtính mùaJvụ, thời vụ (ngày trong tuần, tuầntrong tháng, hay tháng trong năm)
Hình 2 Biểuđồ dự đoán lượng bia sản xuấtVhàng thángztạiUÚc ãTuầnhoàn (Cyclic)
Mô típ thể hiện sự tăng trưởng và suy giảm lặp lại không phụ thuộc vào yếu tố mùa vụ, mà chủ yếu chịu ảnh hưởng từ chu kỳ phát triển của doanh nghiệp hoặc nền kinh tế.
Hình 3 Biểuđồ giá chứng khoán củacông ty IBM
2.2 CÁC CÁCH THỂ HIỆNDỮ LIỆUDƯỚI DẠNG TIME SERIES ãBiểu/đồ đường (Line Plot)
Thể hiện+cácgiátrịquanJsát5theo6thời gian,Rcác điểm quan sát đượcnốilại với nhau tạo6thànhmộtđường.
Hình 4 Biểu đồ dự đoán lượng bia sản xuấtVhàng tháng tạiUÚc
Biểu đồ0thể hiện các5quan sát5dướidạng điểm.ZTừ đó,[nhận ra đượcmối quan hệ+ tuyến tínhgiữaJyếu tố quan sát vàcácyếu tốkhác.
Hình 5 Biểuđồ tươngquangiữalượng điệntiêu!thụ so với nhiệt độ hàngngày ã Lag Plot
Tương tự như ScatterPlot,6thểhiện sự tương quan giữaJyếuHtố dự đoán và các5yếu tố khác.Autocorrelation PlotCho biếttương quan tuyến tính củaJcác Lag.
HìnhX6 Biểuđồ tươngquanlượng điệntiêu thụ giữa ngày hiện tại so vớiUtrước đó2bngày ãAutocorrelation Plot
Cho biết4tương quantuyếntính của các Lag.
Hình 7 Biểuđồ tương quanlượng điệntiêuthụ củangày hiện tại so với nhữngngày trước đó
Chương 3: CÁC CÔNG CỤ.SỬ DỤNGCHOVIỆC DỰ ĐOÁN
3.1 CÁC PHƯƠNG PHÁP DỰ ĐOÁN ĐƠNGIẢN ã Phươngphỏp trung bỡnh Ý tưởng của phương pháp trung bình làDtất cả những giá5trị trongtương lai bằng trung bình(mean) của tất cả cácgiá trị được quan sát trong quá khứ.
Hình 8 Biểu đồ dự đoán sảnlượng sản xuất bia tạiUÚc dùng phương pháp trung bình ãPhương phỏp Nạve
Phươngpháp NaiveVgiả định rằng giátrị dự đoán trong tương laiJbằng giátrị quan sát được của ngày cuốicùng.
Hình 9 Biểuđồ dự đốn sảnlượng sản xuất bia tạiUÚc dùngphương pháp Nạve ãPhương phỏp Seasonal Nạve
Giá trị trong tương lai sẽ được xác định dựa trên giá trị quan sát cuối cùng của ngày trong 6 mùa tương ứng, tương tự như phương pháp Nạve.
Hình 10 Biểu đồ dự đốn sảnlượng sản xuất bia tại Úc dùngphương pháp Seasonal Nạve
Phương pháp Drift là một kỹ thuật dự đoán xu hướng giá trị trong tương lai bằng cách phân tích các giá trị trung bình của những biến động đã xảy ra trong quá khứ Phương pháp này giúp xác định khả năng tăng hoặc giảm giá trị theo thời gian.
Hình 11 Biểu đồ dự đoán sảnlượng sản xuất bia tại Úc{dùngphương pháp Drift
3.2 CHUYỂN ĐỔIVÀ ĐIỀU CHỈNH (Transformation and Adjustment) Điều chỉnh (Adjustment) ã Điều chỉnh lịch (Calendar Adjustment)
Một số dữ liệu theo mùa bị ảnh hưởng bởi các yếu tố lịch như thứ trong tuần, tháng trong năm và số ngày trong tháng Để đơn giản hóa dữ liệu, chúng ta có thể tách những yếu tố lịch này ra khỏi dữ liệu trước khi tiến hành huấn luyện mô hình.
Để phân tích sản lượng bia hàng tháng một cách chính xác, cần tính toán trung bình sản lượng tháng bằng cách chia tổng sản lượng cho số ngày trong tháng Điều này giúp loại bỏ sự khác biệt do số ngày trong các tháng khác nhau, từ đó cung cấp cái nhìn rõ ràng hơn về xu hướng sản xuất.
Hình 12 Biểu đồ dự đoán sảnlượng sản xuất bia tại Úc trước khi Adjustment ã Điều chỉnh phổ biến (Popular Adjustment)
Một số dữ liệu có thể bị ảnh hưởng bởi yếu tố dân số, cũng như dữ liệu dự đoán bị tác động bởi yếu tố thời gian Để điều chỉnh những dữ liệu bị ảnh hưởng bởi dân số, chúng ta có thể tính giá trị theo đầu người, giúp đơn giản hóa và làm rõ hơn dữ liệu Bên cạnh đó, việc điều chỉnh lạm phát cũng là một yếu tố quan trọng cần xem xét.
Một số dữ liệu có thể bị ảnh hưởng bởi tỷ lệ lạm phát, do đó, những dữ liệu này thường được điều chỉnh để phản ánh giá trị tiền tệ trong một năm cụ thể.
Biếnđổitoán học (Mathematical Transformation) ã Chuyểnđổi nhậtký (LogTransformation)
Log Transformation thường được sử dụng vì việc thay đổitrên chuỗigiá trị log liênquan đến sự thay đổitrên chuỗigiá trị thực log
Hình 13 Biểu đồ dự đoán sảnlượng sản xuất bia tại ÚcLsaukhidùng Log}Transformation ã Chuyểnđổinăng lượng (Power Transformation)
Là một trong những lựa chọn thay thế cho Log Transformation Các công thức thường được sử dụng làDSquareVRootsTransformationvà CubeVRoots Transformation. ã Biếnđổi Box-cox (Box-cox Transformation)
Làmột sự kết hợp giữaJLogvà Power Transformation. log ế 0
Siêu tham số R cho phép điều chỉnh kết quả của quá trình biến đổi dữ liệu Việc điều chỉnh này giúp đơn giản hóa dữ liệu, từ đó nâng cao hiệu quả dự đoán.
Hình 14 Biểu đồ dự đoán sảnlượng sản xuất bia tại Úc{trước khiUdùngLog}Transformation
4.1.1 Mô hình hồi tổng thể
4.1.1.1 Mô hình"hồi quy tổng thể
Mô hình hồi quy tổng thể (PRM - Population Regression Model) là phương trình thể hiện mối quan hệ giữa biến phụ thuộc (Y) và biến độc lập (X) được xác định cho toàn bộ tổng thể.
Trong mô*hình hồi quy tổng thể có 3 thành phần: Biến số, Hệ số, Sai số.
Biến số trong nghiên cứu bao gồm hai thành phần chính: biến phụ thuộc và biến độc lập Biến phụ thuộc, ký hiệu là Y, là biến mà chúng ta quan tâm và thường nằm ở vế trái của phương trình; nó còn được gọi là biến phản ứng hoặc biến được giải thích Ngược lại, biến độc lập, ký hiệu là X, là biến tác động đến biến phụ thuộc và thường nằm ở vế phải của phương trình; biến này còn được biết đến với tên gọi biến giải thích hoặc biến điều khiển.
- Thành phần thứ hailà: Hệ số hay Hệ số hồi quy: gắn liền với các5biếnđộc lập thể hiện mối quan hệ giữa biến phụ thuộc – biếnđộc lập.
- Thành phần thứ ba là: Sai số ngẫu!nhiên (ký hiệu ⋅:đại diệncho6các5yếu tố hay các biến số khác, ngoài X, có tác động đến Y.
Hàm hồi quy tổng thể (PRF – PopulationRegressionFunction): Là hàm số thể hiện mối quan hệ giữa trung bìnhgiữa biến phụ thuộc vàbiếnđộc lập, xác5địnhtrên toàn bộ tổng thể.
Trong mô hình hồi quy tổng thể, việc xác định giá trị cụ thể của các hệ số hồi quy rất quan trọng Tuy nhiên, mô hình này thiếu các quan sát về sai số ngẫu nhiên Do đó, để hàm hồi quy có ý nghĩa, cần đưa ra giả thiết rằng tại mỗi giá trị của X, kỳ vọng của sai số u bằng 0, tức là E(u|X) = 0.
Với giả thiết E(u\X) = 0,ta có thể lấy kỳ vọng 2 vế mô*hình hồi quy tổng thể:
- E(Y|X)elà kỳ vọng của biến Y khi biếtgiá trị của biếnXhay còngọilà kỳ vọng của Y vớiđiều kiện X.
- là hệ số chặn, cho biếtgiá trị trung bình của biến phụ thuộc Y khi biếnđộc lập
Hệ số góc là yếu tố quan trọng thể hiện mối quan hệ giữa biến độc lập và giá trị trung bình của biến phụ thuộc Khi dY/dX = 0, điều này cho thấy biến độc lập X không ảnh hưởng đến biến phụ thuộc Y, tức là Y không phụ thuộc vào X; khi X thay đổi, Y sẽ không thay đổi Ngược lại, khi dY/dX ≠ 0, biến độc lập X có ảnh hưởng đến biến phụ thuộc Y, cho thấy Y phụ thuộc vào X và sẽ thay đổi theo sự biến động của X.
X thay đổithì Y có thayđổivàsự thay đổicòntùythuộc dấu hệ số § Nếu > 0 : trong mẫu!X$và Ycó quan hệ cùng chiều, khi biếnđộc lập
X tăng (giảm) mộtđơn@vị thìgiá trị trung bình của biến phụ thuộcY tăng (giảm) đơn@vị § Nếu < 0 : :trong mẫu!X$vàYcó quan hệ ngược chiều, khi biếnđộc lập
X tăng (giảm) mộtđơn@vị thì-giá trị trung bình của biến phụ thuộc Y giảm (tăng) | | đơnvị.
Ví dụ 4.1.1.2: Cho số liệu mẫu với X: thu nhập, Y: chitiêu của 10 hộ giađình (Đơn vị: triệu đồng) như sau:
Từ dữ liệu của bảng đãcho,Rta quy về bảng như sau:
Bảng 2 Bảng xử lí số liệuví dụ 4.1.1.2
Cácgiá trị kì-vọng E(Y/X)= ∑ (n làsố hộ gia đình) đượctính lầnlượtnhư sau: