2.1 Mô hình chuỗi thời gian:
Chuỗi thời gian là một dãy các giá trị quan sát X:={ 1, 2, …, n} đƣợc xếp theo thứ tự diễn biến thời gian với 1 là các giá trị quan sát tại thời điểm đầu tiên, 2 là quan sát tại thời điểm thứ hai và n là quan sát tại thời điểm thứ n. Chuỗi thời gian là một chuỗi các quan sát của một biến ngẫu nhiên Xt thể hiện qua tập X. Do đó, nó là một quá trình ngẫu nhiên.
Quá trình ngẫu nhiên là một họ các biến ngẫu nhiên {Xt, t T} đƣợc định nghĩa trên một không gian xác suất (,F,P). Với là tập không gian mẫu, F là tập hợp các phần tử sự kiện và phải là – đại số, P là xác suất các trường hợp có thể xảy ra.
Ví dụ số lượng học viên đăng ký vào trường đại học, thủy triều lên xuống con sông, chỉ số chứng khoán… Nếu một chuỗi thời gian có thể đƣợc dự đoán một cách chính xác từ các số liệu trong quá khứ thì chuỗi thời gian đƣợc gọi là có tính chất xác định. Ngƣợc lại chuỗi thời gian sẽ đƣợc goi là có tính chất thống kê.
Cơ sở dữ liệu chuỗi thời gian là một tập các bản ghi, mỗi một bản ghi bao gồm một tập các thuộc tính và giá trị thời gian. Mỗi một thuộc tính có thể có hoặc không có mối liên hệ với giá trị thời gian. Nếu thuộc tính có mối liên hệ với giá trị thời gian thì nó đƣợc gọi là thuộc tính động, ngƣợc lại đƣợc gọi là thuộc tính tĩnh. Dựa vào chuỗi dữ liệu này, ta tiến hành dự đoán các sự kiện xảy ra trong tương lai. Công việc dự đoán trên dữ liệu chuỗi thời gian đƣợc gọi là dự đoán chuỗi thời gian.
Công việc phân tích chuỗi thời gian thông thường được thực hiện bởi một dòng dữ liệu đơn phát sinh bởi một nguồn quan sát và đƣợc gọi là dự đoán đơn biến. Tuy nhiên đôi lúc cũng đƣợc thực hiện với nhiều dòng dữ liệu, do cùng một hệ thống phát sinh, cùng một lúc được gọi là dự đoán đa biến. Phương pháp dự đoán đa biến dựa trên chuỗi thời gian đƣợc đề cập đến trong [16].
Có nhiều phương pháp dự đoán chuỗi thời gian, nhưng phương pháp mô hình hóa hiện đƣợc nhiều quan tâm nhờ vào khả năng dự đoán đúng đắn dựa trên mối liên hệ qua lại giữa các quan sát. Các mô hình dự đoán hầu hết đều đƣợc kết hợp theo tỉ lệ khác nhau từ các lý thuyết về suy diễn mờ, mạng noron, di truyền và các thuật toán thời gian. Trong phần sau của luận văn chúng ta sẽ tập trung nghiên cứu phương pháp này dựa trên kết hợp hệ suy dẫn mờ và chuỗi thời gian.
2.2 Quy trình dự đoán chuỗi thời gian theo phương pháp mô hình hóa:
Hình 2. 1 : Qui trình dự đoán chuỗi thời gian theo phương pháp mô hình hóa Công việc dự đoán chuỗi thời gian bắt đầu bằng việc xác định mối liên hệ giữa các số liệu với nhau. Những dữ liệu thô ban đầu thường có tính nhiễu và không đầy đủ.
Vì vậy ta cần phải tiến hành tiền xử lý dữ liệu trước khi khai phá dữ liệu.
Mô hình hóa là việc mô tả mối quan hệ giữa các số liệu đầu vào. Mô hình hóa thường được phân làm hai loại chính. Mô hình hóa có sử dụng tham số và mô hình hóa không sử dụng tham số. Mô hình hóa không sử dụng tham số bao gồm các mô hình sử dụng phương pháp tự xây dựng lấy mô hình từ tập dữ liệu huấn luyện mà không có cấu trúc giả định trước.
Việc phân tích chuỗi dữ liệu thời gian bắt đầu bằng việc xác định mô hình toán học phù hợp với tập dữ liệu cho trước X:={ 1, 2, …, n } nào đó. Việc xác định mô hình phù hợp là rất quan trọng đối với bài toán dự đoán.
Công việc đánh giá mô hình phù hợp dựa trên độ lệch sai số kết quả dự đoán của mô hình so với thực tiễn.
Có nhiều chỉ số đánh giá sai số, nhƣng các chỉ số sau đây đƣợc đề cập là thức đo độ chính xác nhiều nhất:
+Chỉ số NDEI (Non dimensional error index)
Trong đó: y là chỉ số dự đoán.
y là chỉ số thực.
n: số dữ liệu mẫu.
p: tham số hệ thống
+Chỉ số RMSE (Root mean square error)
Trong đó: et: số sai số dự báo trong giai đoạn t;
n: số dữ liệu kiểm thử.