Tiền xử lý dữ liệu chuỗi thời gian

Một phần của tài liệu luận văn khai phá luật kết hợp từ dữ liệu chuỗi thời gian (Trang 27 - 30)

CHƯƠNG 1: KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU

1.2. Dữ liệu chuỗi thời gian

1.2.2. Tiền xử lý dữ liệu chuỗi thời gian

Dữ liệu thô ban đầu của cơ sở dữ liệu chuỗi thời gian thường có nhiều nhiễu và không đầy đủ. Vì vậy, trước khi thực hiện các giải thuật khai phá dữ liệu, người ta phải thực hiện quá trình tiền xử lý dữ liệu, hay còn gọi là quá trình làm sạch dữ liệu mà thực chất là thực hiện việc lọc dữ liệu. Công đoạn này nhằm mục đích nhận được những thông tin chính xác, đầy đủ và đáng tin cậy hơn với càng ít nhiễu càng tốt[8].

Giả sử, dữ liệu thô araw(n) bao gồm tín hiệu của xu hướng dài hạn (thông tin có ích) a(n) và nhiễu e(n), tức là:

araw(n) = a(n) + e(n) (1.1)

Thủ thuật làm sạch thực chất là tìm ra xấp xỉ gần đúng â(n) của a(n).

Để làm được điều đó chúng ta phải phân biệt được a(n) và e(n). Tín hiệu nhiễu thường có tính chất ngẫu nhiên, chịu tác động của rất nhiều yếu tố từ các nguồn khác nhau. Ngược lại, tín hiệu dài hạn thì ổn định và ít chịu tác động của rất ít các yếu tố. Nếu áp dụng khai triển Fourier (biểu diễn tín hiệu thành một dãy các sóng hình sin), chúng ta sẽ nhận thấy rằng, tín hiệu dài hạn a(n) được xây dựng chủ yếu từ các sóng có tần số thấp (thay đổi chậm theo thời gian). Trong khi đó, tín hiệu nhiễu lại được xây dựng từ sóng có tần số cao (thay đổi nhanh theo thời gian). Do vậy, thông thường để làm sạch dữ liệu người ta thường sử dụng thủ thuật lọc tần số thấp( Low Pass Filter - LPF). Có rất nhiều phương pháp LPF trong lĩnh vực thời gian và tần số như phương pháp trung bình trượt đơn giản, trung bình trượt có trọng số… Đại đa số các nhà phân tích dữ liệu hiện nay lựa chọn phương pháp làm trơn với hàm mũ

xxviii

hiệu chỉnh mà thực chất là việc tìm trung bình trượt hàm mũ EMA (Exponential Moving Average) với công thức hồi quy như sau:

Y(t) = α × X(t) + (1-α) × Y(t - t) (1.2) Trong đó:

α ∈ [ 0;1] là hằng số làm trơn (hay trọng số) Y(t) là giá trị EMA cần tìm tại thời điểm t Y(t - t) là giá trị EMA tại thời điểm (t - t) X(t) là dữ liệu thô tại thời điểm t.

Để chọn hệ số α cho quá trình lọc dữ liệu, người ta dựa vào đặc điểm của mối liên hệ của đối tượng quan sát giữa các khoảng thời gian liền kề nhau. Do các đối tượng biến đổi theo thời gian thường có tính chất là: sự biến đổi của các chu kỳ tiếp theo, các nhà phân tích dữ liệu thường sử dụng các giá trị của dãy số Fibonacci để thiết lập hệ số α.

Trong bài toán chúng ta sẽ chọn:

α = 1 / T, T ∈ {8,13,55} (1.3)

Ở đây, sở dĩ ta chọn tập hợp ba giá trị là bởi vì khi phân tích xu hướng biến đổi của các đối tượng biến đổi theo thời gian chúng ta cần phải kết hợp thành phần tĩnh (giá trị α nhỏ - T =55), và thành phần động (giá trị α lớn hơn – T=(8,13)).

Ta có công thức lọc dữ liệu cụ thể như sau:

Close(t) là giá Close tại thời điểm t, EMA(t) là giá trị trung bình trượt hàm mũ tại thời điểm t, EMA(t - t) là giá trị trung bình trượt hàm mũ tại thời điểm (t - t).

Ở đây Close(t) chính là hàm thuộc tính, còn EMA(t) – là xấp xỉ của nó trên khoảng thời gian ∆t.

EMA(t) = 1

T Close(t) + (T-1)

T EMA(t - t) (1.4)

xxix

Khi áp dụng phương pháp này vào thị trường FOREX, ta nhận được kết quả như hình sau:

Hình 1.5. Trung bình trượt hàm mũ

Hình thể hiện đường trung bình trượt hàm mũ của giá Close ứng với cặp chỉ số tiền tệ EUR – USD trên khoảng thời gian 15 phút. Khi phân tích các dạng đồ thị này người ta có thể nhận biết được các điểm “vàng” cho sự chuyển đổi xu hướng của các đối tượng quan sát. Chẳng hạn, khi các đường trung bình trượt hàm mũ cắt và chuyển xuống phía dưới đường giá trị của đối tượng quan sát, đồng thời đường trung bình trượt hàm mũ ứng với T =55 nằm dưới các đường trung bình trượt còn lại thì đó chính là dấu hiệu cua một sự biến đổi đi lên của đối tượng quan sát… Tuy nhiên, để xác định rõ hơn các xu hướng biến đổi chúng ta phải tiếp tục quá trình phân tích dữ liệu thông qua các giải thuật khai phá.

Đường EMA với T = 55

Đường EMA với T = 13

Đường EMA với T = 8

xxx

Một phần của tài liệu luận văn khai phá luật kết hợp từ dữ liệu chuỗi thời gian (Trang 27 - 30)

Tải bản đầy đủ (DOC)

(74 trang)
w