TỔNG QUAN
Tính cấp thiết của đề tài
Sự phát triển của công nghệ và bùng nổ thông tin số đã thúc đẩy sự tiến bộ của xã hội Dữ liệu khổng lồ trở thành nguồn tài nguyên quý giá nếu được khai thác hiệu quả Tuy nhiên, các phương pháp khai thác dữ liệu truyền thống ngày càng trở nên lạc hậu và không đáp ứng nhu cầu thực tế Các công nghệ khai phá dữ liệu mới đã ra đời, cho phép chúng ta trích xuất thông tin có mối quan hệ từ kho dữ liệu lớn (Big Data), giúp giải quyết các bài toán tìm kiếm, dự đoán xu hướng và hành vi tương lai, cùng nhiều tính năng thông minh khác.
Một trong những thách thức quan trọng trong khai thác dữ liệu lớn hiện nay là bài toán dự báo, đóng vai trò quan trọng trong sự tồn tại và phát triển của nhiều lĩnh vực xã hội Nhiều kỹ thuật khai thác dữ liệu đã được phát triển để phục vụ cho việc dự báo, nhưng bài toán dự báo sử dụng chuỗi số thời gian vẫn luôn là một chủ đề “nóng” thu hút sự quan tâm.
Một số các công trình nghiên cứu liên quan
Nguyễn Chí Thành và Hà Gia Sơn (2017) đã nghiên cứu về việc kết hợp mạng nơron FIR và mô hình ARIMA để nâng cao hiệu quả dự báo chuỗi thời gian Họ đề xuất một giải pháp trong đó trọng số của các mô hình sẽ thay đổi linh hoạt theo sự biến động của chuỗi thời gian, nhằm tối ưu hóa kết quả dự báo Đầu tiên, các tác giả sử dụng dữ liệu mẫu để ước lượng mô hình, sau đó dự báo các giá trị của biến phụ thuộc Những giá trị này được dùng để xây dựng tập trọng số, từ đó tạo ra các giá trị dự báo ngoài mẫu từ các mô hình riêng biệt, kết hợp với trọng số đã tìm được.
Biến phụ thuộc có hai điểm t, và các giá trị dự báo ft1, ft2, …, ftk được tạo ra bởi k mô hình khác nhau Phương pháp hiệu quả là tính toán giá trị trung bình có trọng số của các giá trị dự báo này Từ đó, tác giả đưa ra giá trị dự báo kết hợp.
Các trọng số 𝛽𝛽1, 𝛽𝛽2, …, 𝛽𝛽k cần được xác định thông qua phương pháp ước lượng tham số của mô hình hồi quy bội Những trọng số này thường là hằng số nhưng có thể thay đổi theo thời gian Do đó, tác giả đã áp dụng hàm bậc nhất trong phần ứng dụng để thực hiện dự báo Giả định rằng trong mô hình trên, các yếu tố này có vai trò quan trọng trong việc xác định kết quả dự đoán.
𝛽𝛽i = αi0 + αi1t, với t thể hiện thời gian từ 1 đến n, và i = 0, 1, , k (k là các mô hình phối hợp) Điều này dẫn đến mô hình cải biến như sau:
𝑌𝑌t = α00 + α01t + α10ft1 + α11(tft1) + … + αk0ftk + αk1(tftk) + u t Đặt: α00 + α01t = A0, α10 = A1 … α1k = A k, α11 = Ak+1 … αk1 = A2k ft1 = F1, … ftk = Fk , (tft1) = Fk+1 , … (tftk) = F2k
𝑌𝑌 t = A 0 + A 1 F 1 + A 2 F 2 + … + A k F k + A k+1 F k+1 + … + A 2k F 2k Đặt: n = 2k, ta sẽ có phương trình 𝑌𝑌t = A0 + A1F1 + … + AnFn Đây chính là phương trình hồi qui cơ bản, có thể dùng giải thuật để xác định các hệ số A 0, A 1, A n này
Lâm Hoàng Vũ (2012) đã nghiên cứu "Dự báo chuỗi thời gian sử dụng mô hình ARIMA và giải thuật di truyền", trong đó ông đề xuất một phương pháp tự động xác định bậc và ước lượng các hệ số của mô hình ARMA Phương pháp này mở rộng không gian tìm kiếm giải pháp cho mô hình ARMA thông qua thuật toán tìm kiếm Tabu để xác định bậc Kết quả thực nghiệm cho thấy phương pháp mới mang lại hiệu quả tốt hơn so với nhiều phương pháp meta-heuristic khác, đồng thời thời gian chạy cũng ở mức chấp nhận được.
L Zhang, G X Zhang và R R Li (2018) đã thực hiện nghiên cứu về phân tích và dự đoán chất lượng nước bằng cách áp dụng mô hình lai ARIMA kết hợp với mạng Nơron RBF Nghiên cứu này tập trung vào việc phân tích biến động chất lượng nước tại hồ Chagan trong một khoảng thời gian nhất định.
Nghiên cứu này tập trung vào việc phát triển mô hình lai ARIMA và RBFNN để dự đoán dữ liệu chuỗi thời gian về chất lượng nước, với các cấp độ TN và TP Hiệu suất của các mô hình này được đánh giá bằng cách so sánh giữa dữ liệu quan sát và dữ liệu dự đoán, từ đó xác định hiệu quả của mô hình lai ARIMA và RBFNN so với mô hình ARIMA truyền thống.
Kết quả dự đoán từ các mô hình lai ARIMA - RBFNN được biểu thị như sau:
- 𝐿𝐿� t là kết quả dự báo của mô hình ARIMA
- 𝑁𝑁�t là kết quả dự báo của mô hình RBFNN
Mô hình dự báo lai ARIMA-RBFNN được đề xuất cho thấy khả năng mô tả toàn diện và chính xác hơn so với mô hình ARIMA truyền thống, với các giá trị dự đoán phù hợp hơn so với giá trị từ các mô hình ARIMA và MAPE Những cải tiến trong độ chính xác dự đoán của mô hình lai cho thấy tiềm năng ứng dụng của nó trong việc dự đoán chuỗi thời gian TN và TP cho hồ Chagan.
Li Wang, Haofei Zou, Jia Su, Ling Li và Sohail Chaudhry (2013) đã đề xuất mô hình lai ARIMA-ANN để dự báo chuỗi thời gian, kết hợp các ưu điểm của ARIMA và ANN trong việc mô hình hóa hành vi tuyến tính và phi tuyến của dữ liệu Mô hình ARIMA không thể xử lý các thành phần phi tuyến, do đó ANN được sử dụng để giải quyết vấn đề này nhờ vào khả năng tương tác của nhiều tế bào nơ ron phi tuyến trong nhiều lớp Sự kết hợp giữa ANN và ARIMA giúp đối phó với các thành phần không đồng nhất trong mẫu dữ liệu, với hai phương pháp kết hợp là mô hình cộng (L+N) và mô hình nhân (L*N) được áp dụng trong phân tích chuỗi thời gian Các biểu thức toán học cho hai trường hợp này được trình bày thông qua các phương trình cụ thể.
Trong đó L t đại diện cho thành phần tuyến tính và N t là thành phần phi tuyến
Mô hình lai đã được áp dụng và thử nghiệm trên ba bộ dữ liệu thực tế, bao gồm dữ liệu vết đen mặt trời của Wolf, dữ liệu lynx của Canada và dữ liệu giá cổ phiếu của IBM.
Kết quả cho thấy hiệu quả của mô hình tổ hợp mới trong việc thu được dự báo chính xác hơn so với các mô hình hiện có
Nghiên cứu của N Vijay và G.C Mishra (2018) so sánh tính linh hoạt của mô hình mạng nơ ron nhân tạo (ANN) với mô hình ARIMA trong dự báo chuỗi thời gian Dữ liệu được sử dụng bao gồm diện tích và thời gian sản xuất ngọc trai (bajra) từ năm 1955-1956 đến 2014-2015 Kết quả cho thấy mô hình ANN vượt trội hơn mô hình ARIMA khi đánh giá qua các chỉ số RMSE, MAPE và MSE, chứng minh tính hiệu quả của ANN trong dự báo chuỗi thời gian.
Haviluddina, Ahmad Jawahirb (2015) đã so sánh mô hình ARIMA và RBFNN trong dự báo ngắn hạn, sử dụng dữ liệu chuỗi thời gian từ khách du lịch đến Indonesia do BPS Indonesia công bố Kết quả cho thấy mô hình RBFNN vượt trội hơn mô hình ARIMA, được thể hiện qua giá trị lỗi bình phương trung bình (MSE) thấp hơn Do đó, mô hình RBFNN được khuyến nghị là lựa chọn thay thế cho mô hình hiện tại nhờ vào cấu trúc đơn giản và hợp lý hơn trong việc dự báo.
Sibarama Panigrahi và H.S Behera (2017) đã giới thiệu một phương pháp mới trong việc dự báo chuỗi thời gian bằng cách kết hợp mô hình làm mịn theo cấp số nhân tuyến tính và phi tuyến (ETS) với mạng nơ-ron nhân tạo (ANN) Cả hai mô hình này đều có khả năng xử lý dữ liệu tuyến tính và phi tuyến, nhưng ANN thường không đạt hiệu quả cao khi xử lý các mẫu tuyến tính so với mẫu phi tuyến Kết quả dự đoán cuối cùng được tạo ra bằng cách kết hợp các dự đoán từ mô hình ETS với các dự đoán từ mô hình ANN, mang lại độ chính xác cao hơn trong dự báo.
Tác giả đã phân tích hiệu suất của mười sáu bộ dữ liệu chuỗi thời gian và so sánh các phương pháp đề xuất với các mô hình ARIMA, ETS, MLP và một số mô hình lai như ANN ARIMA Kết quả thử nghiệm cho thấy mô hình lai ETS-ANN mang lại hiệu suất tốt hơn về mặt thống kê trên các bộ dữ liệu đã sử dụng.
- Sima Siami-Namini, Neda Tavakoli, Akbar Siami Namin (2018) [10]: “So sánh mô hình ARIMA và LSTM trong dự báo chuỗi thời gian” Tác giả sử dụng các
Thuật toán Long Short-Term Memory (LSTM) dựa trên học tập sâu đã được phát triển để dự báo dữ liệu chuỗi thời gian, và các nghiên cứu thực nghiệm cho thấy LSTM vượt trội hơn so với các thuật toán truyền thống như ARIMA Cụ thể, tỷ lệ lỗi của LSTM giảm từ 84 - 87% so với ARIMA, chứng tỏ sự ưu việt của LSTM Hơn nữa, số lần huấn luyện, hay còn gọi là "era" trong học tập sâu, không ảnh hưởng đến hiệu suất của mô hình dự báo.
Zonghan Wu và các cộng sự (2020) đã nghiên cứu về dự báo chuỗi thời gian đa biến, nhấn mạnh rằng các biến trong chuỗi này có sự phụ thuộc lẫn nhau Tuy nhiên, họ chỉ ra rằng các phương pháp hiện tại chưa khai thác đầy đủ sự phụ thuộc không gian giữa các biến Để khắc phục điều này, nhóm tác giả đề xuất một khung mạng nơ ron đồ thị (GNN) mới, được thiết kế đặc biệt cho dữ liệu chuỗi thời gian đa biến Khung này tự động trích xuất các mối quan hệ đơn hướng giữa các biến thông qua mô-đun “học” đồ thị, cho phép tích hợp dễ dàng các thuộc tính bên ngoài Họ cũng giới thiệu lớp lan truyền mix-hop và lớp khởi động giãn để nắm bắt các phụ thuộc không gian và thời gian Các mô-đun học đồ thị, tích chập đồ thị, và chập theo thời gian được học đồng thời trong một khung kết thúc Kết quả thử nghiệm cho thấy mô hình này vượt trội hơn các phương pháp cơ bản trên 3 trong 4 bộ dữ liệu điểm chuẩn và đạt hiệu suất tương đương với các phương pháp khác trên hai bộ dữ liệu thông tin cấu trúc.
Mục đích nghiên cứu, khách thể và đối tượng nghiên cứu của đề tài
Nghiên cứu ứng dụng các mô hình lai ghép vào bài toán dự báo trên chỗi thời gian nhằm nâng cao tính hiệu quả trong bài toán dự báo
Nhiệm vụ nghiên cứu và giới hạn
- Nghiên cứu về chuỗi thời gian và bài toán dự báo trên chuỗi thời gian
- Nghiên cứu mô hình lai ARIMA và RBFNN ứng dụng trong bài toán dự báo chuỗi thời gian
- Nghiên cứu cải tiến mô hình lai ARIMA và RBFNN
- Đánh giá bằng thực nghiệm mô hình lai ARIMA và RBFNN cải tiến
Giới hạn: Chuỗi thời gian và bài toán dự báo trên chuỗi thời gian
Phương pháp nghiên cứu
Kết hợp các phương pháp: nghiên cứu lý thuyết, lập trình mô phỏng và đánh giá bằng thực nghiệm.
Ý nghĩa thực tiễn của đề tài
Hiện nay, dự báo trên chuỗi thời gian đang được áp dụng rộng rãi nhờ vào sự phát triển của công nghệ và khai thác dữ liệu lớn Nhiều mô hình đã được phát triển để phục vụ cho mục đích này Tuy nhiên, việc cải tiến các mô hình dự báo hiện có nhằm rút ngắn thời gian và nâng cao độ chính xác cho kết quả dự báo là rất cần thiết, hỗ trợ cho quá trình ra quyết định và hoạch định hoạt động của các đơn vị sử dụng chuỗi thời gian.
Trong phần tiếp theo của luận văn, chương 2 sẽ trình bày lý thuyết về chuỗi thời gian và các mô hình thường được sử dụng để dự báo chuỗi thời gian Chương 3 sẽ áp dụng mô hình lai ghép ARIMA và RBFNN được cải tiến để thực hiện dự báo chuỗi thời gian Cuối cùng, chương 4 sẽ trình bày kết quả đánh giá thực nghiệm.
CƠ SỞ LÝ THUYẾT VỀ CHUỖI THỜI GIAN VÀ CÁC MÔ HÌNH DỰ BÁO
Chuỗi thời gian (time series) và các khái niệm liên quan
Trong các bài toán dự báo, dữ liệu chuỗi thời gian thường được ưu tiên và sử dụng phổ biến hơn so với các loại dữ liệu khác.
2.1.1 Khái niệm chuỗi thời gian
Dữ liệu thời gian thực, hay còn gọi là chuỗi thời gian, là tập hợp các giá trị của một đại lượng được ghi nhận theo thời gian thực Chuỗi thời gian giúp phân tích và theo dõi sự biến động của các đại lượng theo thời gian.
Là chuỗi các điểm dữ liệu được đo theo từng khoảng thời gian liền nhau, khoảng cách giữa các lần đo là bằng nhau
Chuỗi thời gian là tập hợp các quan sát liên quan đến một biến số theo thời gian Mỗi mẫu quan sát có thể được coi là một phần hữu hạn của một chuỗi quan sát vô hạn.
Giữa giai đoạn 2015 - 2020, một công ty có thể ghi nhận sự biến động về lượng khách hàng và số lượng sản phẩm bán ra Những dữ liệu này rất quan trọng, vì chúng được sử dụng để dự báo xu hướng trong tương lai.
Hình 2.1: Minh họa dữ liệu chuỗi thời gian
Chuỗi thời gian dừng là loại chuỗi có đặc điểm trung bình và phương sai không thay đổi theo thời gian Đồng phương sai giữa hai thời đoạn chỉ phụ thuộc vào khoảng cách và độ trễ thời gian giữa chúng, không phụ thuộc vào thời điểm thực tế tính toán đồng phương sai.
Phương sai: Var(Y t ) = E(Y t - 𝜇𝜇) 2 = 𝛿𝛿 2 Đồng phương sai: 𝛾𝛾k = E[(Y t - 𝜇𝜇) (Y t+k - 𝜇𝜇)]
Khi dịch chuyển chuỗi Y từ thời điểm Y t đến Y t+m, nếu Y t là chuỗi dừng, thì trung bình, phương sai và các tự đồng phương sai của Y t+m sẽ phải giữ nguyên giá trị như của Y t Điều này có nghĩa là nếu một chuỗi thời gian là dừng, thì các thông số như trung bình, phương sai và tự đồng phương sai ở các độ trễ khác nhau sẽ không thay đổi, bất kể thời điểm xác định chúng.
Đối với hầu hết các phương pháp thống kê dự báo, việc kiểm tra tính dừng của chuỗi dữ liệu là rất quan trọng để đảm bảo độ chính xác của kết quả.
Hình 2.2: Chuỗi thời gian dừng
2.1.2 Đặc điểm chuỗi thời gian
2.1.2.1 Xu hướng thay đổi dài hạn
Thành phần này phản ánh xu hướng tăng hoặc giảm của đại lượng X trong khoảng thời gian dài Trên đồ thị, xu hướng này được thể hiện qua một đường thẳng hoặc một đường cong trơn.
Hình 2.3: Xu hướng tăng theo thời gian 2.1.2.2 Xu hướng thay đổi theo mùa
Thành phần này dùng để chỉ xu hướng tăng hay giảm của đại lượng X tính theo mùa trong năm Hình 2.2: Xu hướng thay đổi theo mùa
Ví dụ: Giá vé máy bay sẽ tăng vào mùa hè, hoặc sản lượng Bia sẽ tăng vào mùa hè và giảm vào mùa đông
Hình 2.4: Xu hướng thay đổi theo mùa Thay đổi theo mùa
Xu hướng Tăng theo thời gian
2.1.2.3 Xu hướng thay đổi theo chu kỳ
Xu hướng này phản ánh sự thay đổi của đại lượng X theo chu kỳ dài hơn, thường là hàng năm, khác với xu hướng theo mùa Để đánh giá xu hướng này, các giá trị của chuỗi thời gian được quan sát hàng năm.
Ví dụ: Chu kỳ thay đổi thị hiếu sản phẩm của khách hàng
Hình 2.5: Xu hướng thay đổi theo chu kỳ 2.1.2.4 Xu hướng thay đổi bất thường
Xu hướng thay đổi này đề cập đến sự biến động bất thường trong các giá trị của chuỗi thời gian, không thể dự đoán dựa trên dữ liệu lịch sử Bản chất của sự thay đổi này là không có tính chu kỳ.
2.1.3 Các phương pháp hiển thị chuỗi thời gian
Phân tích chuỗi thời gian là quá trình nghiên cứu dữ liệu quá khứ và giải thích các đặc điểm quan trọng của nó Một trong những phương pháp hiệu quả nhất để thực hiện điều này là sử dụng hình ảnh trực quan, giúp làm nổi bật những đặc điểm khó nhận thấy trong bảng dữ liệu thông qua các biểu đồ minh họa.
Bảng 2.1: Dữ liệu chuỗi thời gian
Từ dữ liệu chuỗi thời gian trên, ta có thể minh họa dưới dạng đồ thị như sau:
Đồ thị của x(t) theo t cung cấp dữ liệu gốc chưa qua bất kỳ phép biến đổi nào, từ đó hỗ trợ nghiên cứu xu hướng và nhận dạng.
Hình 2.6: Đồ thị của xt theo t
Đồ thị của (x t / x t-1) x 100 theo t cho thấy sự biến động giá trị hiện tại của chuỗi so với giá trị trước đó Ví dụ, giá trị tại thời điểm t=2 là 102,9%, cho thấy chuỗi đã tăng 2,9% từ t=2 đến t=3 Nếu tất cả các giá trị đều lớn hơn 100% nhưng có xu hướng giảm dần, điều này chứng tỏ chuỗi đang có xu hướng tăng, nhưng tỷ lệ tăng lại giảm theo thời gian.
Hình 2.7: Đồ thị của xt theo t
Bài toán dự báo chuỗi thời gian và các mô hình dùng trong dự báo chuỗi thời
2.2 Bài toán dự báo chuỗi thời gian và các mô hình dùng trong dự báo chuỗi thời gian
2.2.1 Các bài toán về dự báo chuỗi thời gian
Chuỗi thời gian là công cụ quan trọng trong việc thu thập dữ liệu quan sát từ nhiều lĩnh vực như thống kê, xử lý tín hiệu số và toán tài chính Việc phân tích chuỗi thời gian giúp tạo ra các thống kê có ý nghĩa và giải quyết vấn đề nhận diện, tùy thuộc vào ứng dụng cụ thể của từng lĩnh vực.
13 những đặc trưng cơ bản của chuỗi thời gian cũng như khai phá cấu trúc nội tại của chuỗi thời gian từ dữ liệu quan sát được
Nghiên cứu khoa học về các đối tượng như kinh tế, vật lý và tự nhiên thường dựa vào chuỗi thời gian từ dữ liệu quan sát theo thời gian, giúp hiểu đặc tính và dự đoán hành vi tương lai Khi xác định được các phương trình cơ sở, các đối tượng nghiên cứu có thể được phân tích để xác định đặc tính của chúng Tuy nhiên, trong thực tế, các phương trình cơ sở thường không rõ ràng, do đó, quy tắc quan sát trong quá khứ sẽ được sử dụng làm chỉ dẫn để hiểu và dự đoán hành vi tương lai của đối tượng nghiên cứu.
Bài toán dự báo chuỗi thời gian liên quan đến việc ước lượng các giá trị quan sát trong tương lai dựa trên một dãy dữ liệu theo thời gian Hệ thống dự báo sẽ phân tích dữ liệu đã quan sát để đưa ra dự đoán cho các chu kỳ tiếp theo.
Dự báo 1-bước: Cho trước dãy x 1, x 2, …, x t, dự đoán giá trị của x t-1
Bài toán này được tổng quát hóa như sau:
Dự báo n-bước là phương pháp sử dụng tập dữ liệu quan sát trong quá khứ (tập huấn luyện) để phân tích các chuỗi thời gian từ cùng một đối tượng nghiên cứu qua các chu kỳ khác nhau.
Với X i = x ti, x ti+1, …, x ti+(li-1) , trong đó x t là giá trị của chuỗi thời gian tại thời điểm t và l i là độ dài của dãy X i Hệ thống dự báo sẽ được cung cấp tương ứng với tập
TS dãy kết quả truy vấn Y = y 1, y 2, …, y l và ta sẽ cần tìm các giá trị y l+1, y l+2, …
Phân tích chuỗi thời gian để dự báo là một lĩnh vực nghiên cứu quan trọng, có nhiều ứng dụng đa dạng Nhiều ngành như vật lý, sinh học, kinh tế, thiên văn học và địa vật lý thường sử dụng dữ liệu chuỗi thời gian để thực hiện dự báo chính xác.
2.2.2 Các mô hình dùng trong dự báo chuỗi thời gian
2.2.2.1 Mô hình phân tích hồi quy đơn giản
Phân tích hồi quy tuyến tính đơn giản là phương pháp tìm kiếm mối liên hệ giữa hai biến số liên tục, trong đó biến độc lập (biến dự đoán) được thể hiện trên trục hoành x.
Để dự đoán biến phụ thuộc y (như cân nặng) dựa trên biến độc lập x (như tuổi), ta cần vẽ một đồ thị với biến y trên trục tung Sau đó, chúng ta sẽ vẽ một đường thẳng hồi quy, từ đó có thể xác định mối quan hệ giữa hai biến và đưa ra dự đoán chính xác hơn.
Ví dụ: Ta có một mẫu gồm 6 trẻ từ 1 đến 6 tuổi, và có cân nặng như sau: Hình 2.9: Đồ thị hồi quy đơn giản
Bảng 2.2: Bảng dữ liệu cân nặng và chiều cao của trẻ
Trong hình 2.9, đồ thị hồi quy đơn giản cho thấy mối quan hệ giữa các cặp (x, y) có thể biểu diễn bằng phương trình bậc nhất y = 2x + 8 Trong đó, 2 đại diện cho độ dốc của đường thẳng, và 8 là điểm cắt trên trục tung y khi x = 0 Phương trình này được sử dụng phổ biến trong thống kê để phân tích mối liên hệ giữa các biến.
15 Đây là phương trình hồi qui tuyến tính, trong đó 𝛽𝛽 gọi là độ dốc (slope) và 𝛼𝛼 là chặn (intercept), điểm cắt trên trục tung khi x=0
Phương trình hồi quy tuyến tính chỉ tồn tại trên lý thuyết, với các trị số x i (i=1,2,3,4,5,6) và y i tương ứng liên hệ với nhau một cách hoàn hảo, đạt hệ số tương quan R=1.
Trong thực tế, hiếm khi có sự liên hệ hoàn hảo giữa trị số quan sát \( y_i \) và trị số ước đoán \( y'i \) trên đường hồi quy, thường tồn tại sự sai lệch giữa chúng.
Ví dụ: Ta có một mẫu gồm 6 trẻ khác có cân nặng như sau:
Bảng 2.3: Bảng dữ liệu cân nặng và chiều cao của trẻ
Hình 2.10: Đồ thị hồi quy đơn giản Cân nặng
Khi vẽ đường thẳng hồi qui, các trị số quan sát y3, y4, y5, y6 nằm trên đường thẳng, trong khi y1 và y2 không nằm trên đó Điều này dẫn đến việc mối liên hệ giữa xi và yi không còn đạt 100%, mà chỉ còn 97% do sự sai lệch tại y1 và y2 Sự sai lệch này trong thống kê được gọi là phần dư (residual) hoặc lỗi (errors).
Gọi y 1, y 2, y 3, y 4, y 5, y 6 là trị số quan sát và y’1, y’2, y’3, y’4, y’5, y’6 là trị số ước đoán nằm trên đường hồi qui; ϵ 1 , ϵ 2 , ϵ 3 , ϵ 4 , ϵ 5 , ϵ 6 là phần dư
Khi đó phương trình hồi qui tuyến tính được viết dưới dạng tổng quát như sau:
Mô hình hồi quy tuyến tính được biểu diễn bởi phương trình 𝑦𝑦 ′ =𝛽𝛽𝛽𝛽i + 𝛼𝛼i + ϵ i, trong đó phần dư ϵ i càng nhỏ thì mối liên hệ giữa biến độc lập x và biến phụ thuộc y càng mạnh Phần liên hệ này còn được gọi là phần hồi quy, cho thấy tầm quan trọng của việc giảm thiểu sai số để cải thiện độ chính xác của mô hình.
Dữ liệu = Hồi quy (Regression) + Phần dư (Residual) 2.2.2.2 Hàm tự tương quan ACF
Hàm tự tương quan là công cụ đo lường sự phụ thuộc tuyến tính giữa các cặp quan sát y(t) và y(t+k) với k là độ trễ (k = 1, 2, ) Đối với mỗi độ trễ k, hàm tự tương quan được tính toán dựa trên độ lệch giữa các biến ngẫu nhiên Y t và Y t+k so với giá trị trung bình, và được chuẩn hóa thông qua phương sai.
Giả định rằng các biến ngẫu nhiên trong chuỗi dừng dao động xung quanh giá trị trung bình 𝜇 với phương sai không đổi 𝛿^2 Hàm tự tương quan ở các độ trễ khác nhau sẽ cho ra các giá trị khác nhau.
Các mô hình lai ghép dùng trong dự báo chuỗi thời gian
2.3.1 Mô hình ARIMA và ANN
Mô hình lai ARIMA và ANN kết hợp hai thành phần của chuỗi thời gian: thành phần tuyến tính và phi tuyến Mô hình ARIMA hiệu quả trong việc dự báo các thành phần tuyến tính, trong khi các thành phần phi tuyến thường gặp khó khăn Để khắc phục điều này, mô hình ANN được sử dụng nhờ khả năng mô hình hóa các hiện tượng phức tạp thông qua các tế bào thần kinh phi tuyến tương tác trong nhiều lớp, giúp giải quyết hiệu quả các thành phần phi tuyến của dữ liệu chuỗi thời gian.
Hình 2.12: Mô hình lai ARIMA - ANN
Chúng ta có thể xem xét hai mô hình để phân tích chuỗi thời gian như trên là mô hình cộng (L + N) và mô hình nhân (L* N) theo công thức sau: y t = L t + N t y t = L t * N t
- L t : là thành phần tuyến tính
- N t: là thành phần phi tuyến tính
Dữ liệu sử dụng trong hai thành phần này phải được xử lý trước
Mô hình ARIMA (Box et al., 1994) được áp dụng để dự đoán giá trị y t, trong đó 𝐿𝐿� t đại diện cho kết quả dự đoán Phần dư e t giữa các chuỗi của mô hình ARIMA được tính bằng công thức e t = y t – 𝐿𝐿� t hoặc e t = y t / 𝐿𝐿�t.
+ e t được coi là đầu vào của mô hình ANN, sau đó mô hình ANN có thể được biểu thị như sau: e t = f(e t-1, e t-2, … ,e t-n) + ε t
Trong đó, f là hàm phi tuyến được xác định bởi mạng nơ ron và ε t là lỗi ngẫu nhiên
Kết quả đầu ra của ANN được định nghĩa là 𝑁𝑁�t
+ Hai mô hình được kết hợp để dự báo và kết quả dự đoán từ các mô hình lai ARIMA - ANN được biểu thị như sau: y t = 𝐿𝐿� t + 𝑁𝑁� t Hoặc y t = 𝐿𝐿� t * 𝑁𝑁� t
Hình 2.13: Mô hình kết hợp ARIMA - ANN
2.3.2 Mô hình Exponential Smoothing và ANN
Các mô hình lai kết hợp giữa các mô hình tuyến tính như ARIMA và các mô hình phi tuyến như mạng nơ ron nhân tạo (ANN) đang trở nên phổ biến nhờ hiệu suất vượt trội so với các mô hình riêng lẻ Những mô hình này giả định rằng chuỗi thời gian được hình thành từ sự kết hợp của các thành phần tuyến tính và phi tuyến.
Chuỗi thời gian trong thế giới thực thường có sự kết hợp giữa các mẫu tuyến tính và phi tuyến Để cải thiện khả năng dự đoán, một phương pháp lai mới đã được phát triển bằng cách kết hợp mô hình ETS (mô hình làm mịn theo cấp số nhân tuyến tính và phi tuyến) với ANN Mô hình lai ETS - ANN tận dụng khả năng xử lý cả mẫu tuyến tính và phi tuyến của hai mô hình này Đầu tiên, ETS được áp dụng để nắm bắt các mẫu tuyến tính, sau đó chuỗi lỗi dư được tính toán và xử lý bằng ANN Dự đoán cuối cùng được tạo ra bằng cách kết hợp kết quả từ cả hai mô hình Thử nghiệm trên nhiều bộ dữ liệu cho thấy phương pháp đề xuất mang lại hiệu suất tốt hơn so với các mô hình như ARIMA, ETS, MLP và các mô hình ANN lai ARIMA hiện có.
Hình 2.14: Mô hình lai ETS – ANN
Trong chương này, chúng tôi đã tổng quan về chuỗi thời gian và các mô hình dự báo liên quan Ở chương 3, chúng tôi sẽ trình bày một số mô hình lai mà các nhà khoa học đã phát triển Cuối cùng, chương 4 sẽ đề xuất và thực nghiệm một mô hình lai mới.
DỰ BÁO TRÊN CHUỖI THỜI GIAN SỬ DỤNG MÔ HÌNH LAI GHÉP
Mô hình tự hồi quy kết hợp với trung bình di động ARIMA(p,d,q) (AutoRegressive Integrated Moving Average)
Trong thực tế, chuỗi thời gian hiếm khi dừng lại do sự dao động của thị trường Vì vậy, trước khi áp dụng mô hình ARIMA, cần chuyển đổi chuỗi thời gian thành chuỗi dừng Để xác định tính dừng của chuỗi thời gian, các phương pháp phân tích cần được thực hiện.
- Dựa vào biểu đồ tự tương quan ACF
Nếu hàm tự tương quan ACF của chuỗi thời gian giảm nhanh hoặc giảm dần một cách rõ rệt, thì chuỗi thời gian đó được coi là dừng.
+ Nếu hàm tự tương quan ACF của chuỗi thời gian giảm dần thật chậm thì chuỗi thời gian được xem là không dừng
Chuỗi Y(t) được coi là có tính dừng nếu đồ thị Y(t) = f(t) cho thấy trung bình và phương sai của quá trình Y(t) không thay đổi theo thời gian Điều này có nghĩa là các đặc điểm thống kê của chuỗi dữ liệu này ổn định và không bị ảnh hưởng bởi yếu tố thời gian.
Sai phân là công cụ phân tích giúp nhận diện sự khác biệt giữa giá trị hiện tại và giá trị trước đó Việc phân tích sai phân không chỉ giúp ổn định giá trị trung bình của chuỗi dữ liệu mà còn hỗ trợ quá trình chuyển đổi chuỗi thành một chuỗi dừng, từ đó nâng cao độ chính xác trong phân tích dữ liệu.
Ví dụ: Xét chuỗi dữ liệu, cột thời gian tính bằng mini giây
Sai phân bậc một cung cấp một chuỗi dừng dao động quanh giá trị trung bình
Trong ví dụ này, chúng ta chỉ thực hiện một lần chuyển đổi sai phân cho toàn bộ dữ liệu để ổn định giá trị trung bình Tuy nhiên, trong thực tế, nhiều chuỗi dữ liệu cần thực hiện nhiều lần sai phân để đạt được tính dừng.
Hiện tượng có thành phần mùa vụ trong dữ liệu chuỗi thời gian là một vấn đề phổ biến khi áp dụng mô hình ARIMA cho dữ liệu dài hạn.
Để áp dụng mô hình ARIMA cho dữ liệu chuỗi thời gian, cần loại bỏ tính mùa vụ trước Nếu Y(t) có tính mùa vụ với chu kỳ s, ta thực hiện khử tính mùa vụ bằng cách lấy sai phân thứ s: Z(t) = Y(t) – Y(t-s) Sau đó, sử dụng chuỗi dữ liệu mới Z(t) để phân tích.
Z(t) sau khi đã khử tính mùa vụ vào mô hình ARIMA
Thông thường, tính mùa vụ của chuỗi dữ liệu vào khoảng
Mô hình ARMA(p,q) là sự kết hợp giữa mô hình tự hồi quy (AR) và mô hình trung bình trượt (MA) Hàm tuyến tính của mô hình này bao gồm các quan sát dừng từ quá khứ cùng với các sai số dự báo từ cả quá khứ và hiện tại.
Trong đó : y(t) : quan sát dừng hiện tại y(t-p), và e(t-q): quan sát dừng và sai số dự báo quá khứ a 0, a 1, a 2, , b 1, b 2, : các hệ số phân tích hồi quy
Mô hình ARMA(1,2) là sự kết hợp của AR(1) và MA(2), trong đó dạng phổ biến nhất là (p,q) = (1,1) Giá trị p và q thể hiện độ trễ quan trọng cho ACF và PACF Để mô hình ARMA hoạt động hiệu quả, cần thỏa mãn cả điều kiện bình quân di động và điều kiện dừng.
Mô hình tự hồi quy tích hợp với trung bình di động (ARIMA) là một công cụ mạnh mẽ trong phân tích chuỗi thời gian, có khả năng mô phỏng cả chuỗi tĩnh và không tĩnh ARIMA sử dụng các mẫu tự tương quan của chuỗi thời gian để đưa ra dự đoán chính xác Phương pháp này đã được phát triển và cải tiến nhờ sự đóng góp của hai nhà thống kê nổi tiếng, G.E.P Box và G.M Jenkins, và thường được gọi là phương pháp luận Box-Jenkins trong phân tích dữ liệu.
Mô hình ARIMA(p,d,q) được sử dụng để phân tích các chuỗi dữ liệu không dừng, đã trải qua quá trình sai phân, với d thể hiện mức độ sai phân cần thiết để đạt được tính dừng cho chuỗi.
Khi chuỗi thời gian dừng được xác định, thông qua việc phân tích xu hướng của hàm tự tương quan ACF và hàm tự tương quan từng phần PACF, chúng ta có thể chỉ ra mô hình dự định Sự giảm đột ngột hoặc giảm đều nhanh của hàm tự tương quan ACF là dấu hiệu quan trọng trong quá trình này.
Theo lý thuyết, khi hàm tự tương quan ACF giảm đột ngột và hàm tự tương quan từng phần PACF giảm mạnh, điều này cho thấy chúng ta đang có mô hình tự tương quan Ngược lại, nếu cả hai hàm ACF và PACF đều giảm đột ngột, thì mô hình mà chúng ta đang xem xét là mô hình hỗn hợp.
Trong lý thuyết, hàm tự tương quan ACF và hàm tự tương quan từng phần PACF không giảm đột ngột cùng lúc Tuy nhiên, thực tế cho thấy chúng thường giảm nhanh chóng Khi gặp trường hợp này, cần phân biệt hàm nào giảm nhanh hơn; hàm còn lại sẽ được coi là giảm đều Để khắc phục tình trạng giảm đột biến đồng thời khi quan sát ACF và PACF, cần thử nghiệm với các dạng hàm khác nhau cho chuỗi thời gian dừng và kiểm tra độ chính xác của mô hình tốt nhất.
Với z(t) = y(t) – y(t-1) ở sai phân đầu tiên: d = 1
Với h(t) = z(t) – z(t-1) ở sai phân thứ hai: d = 2
Tuy nhiên, trong thực hành d lớn hơn 2 rất ít được sử dụng
Hình 3.2: Sơ đồ mô phỏng mô hình ARIMA
3.2.4 Phương pháp ước lượng tham số
3.2.4.1 Phương pháp ước lượng tham số Moment
Phương pháp ước lượng moment là một trong những phương pháp đơn giản và hiệu quả nhất để ước tính các tham số Phương pháp này thực hiện việc cân bằng giữa các moment mẫu và các moment lý thuyết tương ứng, từ đó giải các phương trình cân bằng để tìm ra ước tính cho những tham số chưa biết.
Tính các hàm tự tương quan và tự tương quan từng phần để nhận dạng một mô hình dự định
Chọn một mô hình Ước lượng các giá trị cho các tham số mô hình
Kiểm tra độ chính xác của mô hình ước lượng
Sử dụng mô hình để dự báo Không đạt Đạt
31 dụ đơn giản nhất của phương pháp là ước tính trung bình của một quá trình dừng theo trung bình mẫu.[9]
- Áp dụng phương pháp ước lượng tham số Moment vào mô hình tự hồi quy (AR(p) - Autoregressive Models)
Mô hình lai ghép giữa ARIMA và RBFNN cho bài toán dự báo trên chuỗi thời
Theo nghiên cứu của L Zhang và các cộng sự, chuỗi thời gian (y t) được phân tích bao gồm hai thành phần chính: cấu trúc tự tương quan tuyến tính (L t) và thành phần phi tuyến (N t), với công thức tổng quát là y t = L t + N t.
Tác giả dự đoán chuỗi thời gian bằng mô hình lai ARIMA và RBFNN như sau:
Mô hình ARIMA (Box et al., 1994) được áp dụng để dự đoán giá trị y t, với 𝐿𝐿� t thể hiện kết quả dự đoán Phần dư e t giữa các chuỗi của mô hình ARIMA được tính bằng công thức e t = y t – 𝐿𝐿� t Tiếp theo, e t được sử dụng làm đầu vào cho mô hình RBFNN (Moody and Darken, 1989), trong đó mô hình RBFNN có thể được diễn đạt như sau: e t = f(e t-1, e t-2, … ,e t-n) + ε t.
Trong đó, f là hàm phi tuyến được xác định bởi mạng nơ ron và εt là lỗi ngẫu nhiên
Kết quả đầu ra của RBFNN được định nghĩa là 𝑁𝑁� t
+ Hai mô hình được kết hợp để dự báo và kết quả dự đoán từ các mô hình lai ARIMA RBFNN được biểu thị như sau:
Kết quả dự đoán từ mô hình lai ARIMA-RBFNN được tạo ra bằng cách kết hợp dự đoán tuyến tính của ARIMA với dự đoán phi tuyến của mô hình RBFNN, sử dụng phần lỗi của mô hình ARIMA.
Nghiên cứu cải tiến mô hình lai ghép bằng cách thực hiện song song hai mô hình
Trong các mô hình lai ARIMA-RBFNN, các tác giả thường phân tích chuỗi thời gian thành hai thành phần: tuyến tính và phi tuyến tính Mô hình ARIMA được sử dụng để dự báo trên chuỗi thời gian, tạo ra hai phần kết quả: phần dự báo và phần lỗi (thành phần phi tuyến) Phần lỗi này sau đó được dự báo bằng mô hình RBFNN Cuối cùng, các tác giả kết hợp kết quả từ hai mô hình bằng phép cộng hoặc nhân để có được dự báo chính xác hơn.
Hiện tại, các tác giả đang tiến hành từng mô hình một và sau đó tổng hợp kết quả Để kiểm tra thời gian và độ chính xác của dự báo, chúng tôi áp dụng mô hình lai cải tiến bằng cách thực hiện song song hai mô hình Từ những kết quả đạt được, chúng tôi sẽ đánh giá và đề xuất mô hình tối ưu hơn.
Mô hình lai ARIMA - RBFNN được mô phỏng như trong hình 3.3, trong đó giá trị dự báo từ mô hình ARIMA được ký hiệu là 𝐿𝐿�t và giá trị dự báo từ mô hình RBFNN là 𝑁𝑁�t Giá trị dự báo cuối cùng của y được tính dựa trên sự kết hợp của hai mô hình này.
𝑦𝑦� = 𝛼𝛼𝐿𝐿�t+ (1− 𝛼𝛼)𝑁𝑁�t 𝛼𝛼 ∈(0,1) Để xác định tham số trọng số 𝛼𝛼, chúng ta sẽ tìm giá trị của 𝛼𝛼 để hệ số dự báo lỗi MSE là nhỏ nhất
Trong đó, Y i là giá trị thực tế tại thời điểm i, Y NN, i là giá trị dự báo do mạng nơ-ron nhân tạo (ANN) tạo ra, và Y DTW, i là giá trị dự báo từ phương pháp khớp mẫu DTW Hàm bậc hai cho phép chúng ta xác định giá trị 𝛼 sao cho lỗi dự báo MSE đạt giá trị nhỏ nhất.
Trong phạm vi [0, 1], nếu giá trị tính toán của 𝛼 là âm, chúng ta chọn 0, và nếu lớn hơn 1, chọn 1 Chương này giới thiệu các khái niệm và mô hình dự báo chuỗi thời gian, cùng với tổng quan nghiên cứu của nhiều tác giả Mặc dù có nhiều mô hình dự báo khác nhau, hầu hết tập trung vào dữ liệu chuyên biệt, dẫn đến hạn chế trong việc so sánh kết quả giữa các mô hình Trong chương 4, chúng tôi sẽ thực nghiệm mô hình lai cải tiến ARIMA và RBFNN để nâng cao độ chính xác và thời gian dự báo, đồng thời đưa ra đề xuất cho mô hình lai này.