Chương 4 ỨNG DỤNG CỦA MÔ HÌNH
4.1. D Ữ LIỆU MÔ PHỎNG VÀ TEST SO SÁNH PHÂN PHỐI CỦA DỮ LIỆU THỰC VÀ DỮ LIỆU MÔ PHỎNG
4.1.2. Test so sánh phân phối của dữ liệu thực và dữ liệu mô phỏng
4.1.2.2. Tiến hành kiểm định trên Matlab
Ta tiến hành kiểm định trên phần mềm Matlab với các chương trình mô phỏng nhƣ sau
Trường hợp N=2 Chương trình kiểm định 1 function kiemdinh_N2
load('chisosang') y=chisosang;
load('khmophong2') z=khmophong2;
% Kiểm định k-s test h=kstest2(y,z)
% h=0 chấp nhận giả thuyết, h=1 bác bỏ giả thuyết [f1,x1] = ecdf(y);
[f2,x2] = ecdf(z);
figure;
hold on;
stairs(x1,f1,'b-','LineWidth',2);%ve do thi ecdf
59
stairs(x2,f2,'r-','LineWidth',2);
xlabel('x'); ylabel('f(x)');
legend('du lieu thuc','du lieu mo phong','Location','NorthWest') set(gca,'FontSize',12) %Tang kich thuoc phong chu
title('kiem dinh k-s voi N=2') grid on;
Kết quả kiểm định như sau h = 0
Chấp nhận giả thuyết.
Hình 11: Đồ thị cdf của hai mẫu dữ liệu, N=2.
Kết luận: Từ kết quả kiểm định h=0 và nhìn vào đồ thị ta có thể kết luận rằng hai mẫu dữ liệu thực và mẫu dữ liệu mô phỏng có cùng phân phối.
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
x
f(x)
Kiem dinh k-s voi N=2 Du lieu thuc
Du lieu mo phong
60
Trường hợp N=4 Chương trình kiểm định 2 function kiemdinh_N4
load('chisosang') y=chisosang;
load('khmphong') z=khmphong;
% Kiểm định k-s test h=kstest2(y,z)
% h=0 chấp nhận giả thuyết, h=1 bác bỏ giả thuyết [f1,x1] = ecdf(y);
[f2,x2] = ecdf(z);
figure; hold on;
stairs(x1,f1,'b-','LineWidth',2);%ve do thi ecdf stairs(x2,f2,'r-','LineWidth',2);
xlabel('x'); ylabel('f(x)');
legend('Du lieu thuc','Du lieu mo phong','Location','NorthWest')
% Tăng kích thước phong chữ set(gca,'FontSize',12)
title('Kiem dinh k-s voi N=4') grid on;
Kết quả kiểm định như sau h = 0
Chấp nhận giả thuyết.
61
Hình 12: Đồ thị cdf của hai mẫu dữ liệu, N=4.
Kết luận: Từ kết quả kiểm định h=0 và nhìn vào đồ thị ta có thể kết luận rằng hai mẫu dữ liệu thực và mẫu dữ liệu mô phỏng có cùng phân phối.
Nhận xét: Với cách chọn số trạng thái của mô hình N=2 và N=4, qua kiểm định Kolmogorov-Smirnov test ta đều thấy rằng mẫu dữ liệu thực và mẫu dữ liệu mô phỏng luôn có cùng phân phối. Từ đó có thể kết luận rằng, mô hình đã xây dựng có độ chính xác cao.
4.2. Ƣớc lƣợng mật độ chỉ số sáng từ dữ liệu mô phỏng 4.2.1. Ƣớc lƣợng hạt nhân
Trong thống kê, ƣớc lƣợng mật độ hạt nhân là 1 cách phi tham số để ƣớc lƣợng hàm mật độ xác suất của 1 biến ngẫu nhiên. Ƣớc lƣợng mật độ là 1 phương pháp làm mịn dữ liệu cơ bản để suy luận về luật phân phối của tổng thể dựa trên một mẫu dữ liệu hữu hạn.
Định nghĩa: Cho X X1, 2, ,Xn là một mẫu dữ liệu độc lập và thuần nhất đươc lấy từ tập giá trị của biến ngẫu nhiên chưa biết hàm mật độ f . Dựa vào mẫu dữ liệu đã cho chúng ta có thể ƣớc lƣợng dạng của hàm mật độ f . Ƣớc lƣợng mật độ hạt nhân của f là
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
x
f(x)
Kiem dinh k-s voi N=4 Du lieu thuc
Du lieu mo phong
62
1 1
1 1
ˆ .
n n
i
h h i
i i
x x
f x K x x K
n nh h
(4.4) Trong đó
K : hàm hạt nhân
1 5 5 1
4 5
1.06 0
3
h s s n
n
: tham số làm mịn, với s là độ lệch chuẩn và n là kích thước mẫu.
Đặc biệt: h càng nhỏ thì fˆh x sẽ kém trơn nhƣng ƣớc lƣợng sẽ gần với dữ liệu thực hơn. Ngƣợc lại, h càng lớn thì tính trơn sẽ tăng nhƣng ƣớc lƣợng sẽ kém chính xác.
Hàm hạt nhân với chỉ số dưới h được gọi là hàm hạt nhân (theo thang đo) và đƣợc định nghĩa là
1
h
K x K x
h h
.
Chú ý: Hàm hạt nhân thường được chọn trong các dạng được liệt kê ở dưới bảng sau. Trong đó hàm hạt nhân dạng chuẩn thường được sử dụng hơn.
Bảng 11: Các hàm hạt nhân thường dùng.
Dạng hàm hạt nhân Biểu thức
Chữ nhật
12, 1,
0, 1.
K u u
u
Tam giác
1 , 1,
0, 1.
u u
K x u
Song lƣợng
151 22, 1,
16
0, 1.
u u
K u
u
Epanechnikov
31 2, 1,
4
0, 1.
u u
K u
u
Chuẩn
2
1 2
2
u
K u e
63
4.2.2. Ƣớc lƣợng với dữ liệu thực
Với lý thuyết đã trình bày ở mục trên, ta tiến hành ƣớc lƣợng hàm mật độ hạt nhân cho mẫu dữ liệu thực nhƣ sau
load('chisosang') y=chisosang;
n=length(y);%kich thuoc mau my=mean(y);%tinh trung binh
% Tinh do lech chuan
vy=sqrt(sum((y-my).^2)/length(y));
% Hang so lam min nhom CT(4.4) h=1.06*vy*(n)^((-1)/5)
syms x;
a=1/sqrt(2*pi);
% Ham phan phoi chuan K_x=a*exp(-(x^2)/2)
% Uoc luong ham mat do hat nhan nhom CT(4.4) for i=1:n
i
b=(x-y(i))/h f_x=K_x*b;
f=sum(f_x) end
fh=(1/(n*h))*f pretty(fh)
64
Kết quả như sau h = 0.0558
K_x = 7186705221432913/18014398509481984*exp(-1/2*x^2) 37444982140531664814547682735551
exp( 1 / 2 * ^ 2) *...
162259276829213363391578010288128
72057594037927936 45035996273704960
* 4018315544753467 4018315544753467
fh x
x
Kết luận: hàm mật độ xác suất của dãy chỉ số sáng có dạng tương đương sau
2
ˆ ( ) 0.2308 2 17.9323 11.2077 .
x
f xh e x
Sử dụng hàm kskernel để vẽ đồ thị hàm hạt nhân của dữ liệu thực và dữ liệu mô phỏng
Trường hợp hằng số làm mịn h là chuẩn
% Sử dụng hàm kskernel() function matdohatnhan_1 load('chisosang');
y=chisosang;
load('khmphong');
z=khmphong;
[f,yi]=ksdensity(y);
[f,zi]=ksdensity(z);
plot(yi,f,'-b','linewidth',2) % Du lieu thuc hold on
plot(zi,f,'-g','linewidth',2) % Du lieu mo phong
legend('Du lieu thuc','Du lieu mo phong','location','northwest') title('Uoc luong ham hat nhan voi h chuan')
grid on figure(1)
65
Với h chuẩn thì đồ thị hàm hạt nhân có dạng sau
Hình 13: Đồ thị hàm hạt nhân với hằng số làm mịn h là chuẩn.
Trường hợp hằng số làm mịn h nhỏ funtion matdohatnhan_2
load('chisosang');
y=chisosang;
load('khmphong');
z=khmphong;
h=.013;
[f,yi]=ksdensity(y,'width',h);
[f,zi]=ksdensity(z,'width',h);
plot(yi,f,'-b','linewidth',2) % Du lieu thuc hold on
plot(zi,f,'-r','linewidth',2) % Du lieu mo phong hold off
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
0 0.5 1 1.5 2 2.5 3 3.5
Uoc luong ham hat nhan voi h chuan Du lieu thuc
Du lieu mo phong
66
legend('Du lieu thuc','Du lieu mo phong','location','northwest') title('Uoc luong ham hat nhan voi h=0.013')
grid on figure(1)
Với h nhỏ thì đồ thị hàm hạt nhân có dạng sau
Hình 14: Đồ thị hàm hạt nhân với hằng số làm mịn h nhỏ.
Nhận xét: Như đã đề cập ở Chương 2 thì qua quan sát đồ thị trên ta thấy, hàm hạt nhân của mẫu dữ liệu thực và mẫu dữ liệu mô phỏng nhƣ trộn hỗn hợp của nhiều phân phối chuẩn.
Kết luận: Qua quan sát 2 đồ thị với hằng số h chuẩn và h nhỏ hơn thì ta có thể kết luận lại một lần nữa, với h càng nhỏ thì hàm mật độ hạt nhân sẽ kém trơn nhƣng ƣớc lƣợng lại gần với dữ liệu thực tế, với h càng lớn thì tính trơn sẽ tăng nhƣng ƣớc lƣợng sẽ kém chính xác hơn.
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
0 1 2 3 4 5 6 7
Uoc luong ham hat nhan voi h=0.013 Du lieu thuc
Du lieu mo phong
67
PHẦN KẾT LUẬN
------
Luận văn đã tổng hợp tương đối đầy đủ các lý thuyết về mô hình Markov ẩn và các vấn đề liên quan trong việc xây dựng mô hình mô hình (phương pháp Monte carlo và thuật toán EM ), từ đó xây dựng mô hình cho chuỗi số liệu thực.
Luận văn ứng dụng các lý thuyết đã trình bày vào bài toán xây dựng mô hình Markov ẩn cho dãy chỉ số sáng hàng ngày. Phần mềm Matlab là công cụ chính cho việc tính toán và vẽ đồ thị.
Thông qua các chương trình tính toán đã được viết bằng phần mềm Matlab (chương trình ước lượng tham số, chương trình mô phỏng dữ liệu, chương trình kiểm định kiểm tra phân phối của 2 mẫu dữ liệu và chương trình ƣớc lƣợng hạt nhân..) sự tính toán phức tạp và khó khăn trong việc tính toán đã được giải quyết. Các chương trình này là cơ sở để ta thực hiện được bài toán ƣớc lƣợng từ số liệu rời rạc của thực tế.
Sử dụng dữ liệu của tháng 10 năm 2013 chúng ta tìm kiếm một mô hình xác suất để tạo ra dãy chỉ số sáng hàng ngày một cách dễ dàng hơn. Việc thực hiện cho bài toán mô phỏng trên số liệu cụ thể trong luận văn có thể áp dụng tương tự cho nhiều ứng dụng của nhiều lĩnh vực khác.