Mẫu ngẫu nhiên và thống kê
Mẫu ngẫu nhiên và thống kê
Giả sử X là một đại lượng ngẫu nhiên, dãy các đại lượng ngẫu nhiên độc lập và cùng phân phối với X được gọi là mẫu ngẫu nhiên cỡ n Các giá trị quan sát từ X, ký hiệu là x1, x2, , xn, tạo thành một thể hiện của mẫu ngẫu nhiên này Mẫu ngẫu nhiên cỡ n lấy từ X được ký hiệu là O(X1, X2, , Xn) Khi xem xét một ánh xạ T từ tập hợp mẫu ngẫu nhiên này đến một không gian L(Ω), nếu O(X1, X2, , Xn) α T(X1, X2, , Xn) thuộc L(Ω), thì T được gọi là một thống kê.
Ví dụ Các trung bình mẫu và phương sai mẫu
Các phương pháp chọn mẫu
1.1.2.1 Chọn mẫu có hoàn lại
Từ tập chính các phần tử có đặc tính X Tiến hành chọn mẫu ngẫu nhiên có hoàn lại n lần.Các cá thể của để quan sát ta đƣợc:
Trên n xác định họ các BNN độc lập, cùng phân phối với X và là mẫu ngẫu nhiên 1 , n có đƣợc bằng cách chọn mẫu có hoàn lại
1.1.2.2 Chọn mẫu không hoàn lại
Chọn mẫu không hoàn lại tương tự như chọn mẫu có hoàn lại, nhưng thực hiện việc chọn ngẫu nhiên các phần tử từ tập chính mà không lặp lại Phương pháp này cho phép chúng ta lấy mẫu ngẫu nhiên từ tập hợp mà không hoàn trả các phần tử đã chọn.
Nếu bé thì X 1 , X 2 , X n không độc lập.Nếu lớn thì X 1 , X 2 , X n có thể xem độc lập cùng phân phối với X
1.1.2.3 Chọn mẫu bằng phương pháp cơ học Đánh số tất cả các phần tử của và ấn định kích thước mẫu n dùng bảng ngẫu nhiên quan sát các cá thể có chỉ số vừa tìm
1.1.2.4 Chọn mẫu theo đặc trƣng
Phân tập chính theo tỉ lệ phần trăm nào đó chẳng hạn 10%,15%,…từ các nhóm ta sử dụng các cách trên để chọn mẫu.
Các loại mẫu
Mẫu đơn giản là mẫu đươc mô ta bởi bảng các thể hiện như sau xi x1 x2 … xn ni 1 1 … 1
1.1.3.2 Mẫu rút gọn xi x1 x2 … xk ni n1 n2 … nk lÇn n xuất hiện và x x x i j , i j i i , n n k i i
Phân phối mẫu và đặc trƣng mẫu
Phân phối mẫu (Hàm phân phối thực nghiệm)
Định nghĩa 1.2.1 O ( X 1 , X 2 , X n ) là một mẫu ngẫu nhiên lấy từ X với hàm phân phối F(x).Hàm phân phối thực nghiệm Fn(x) đƣợc xác định bởi
Trong đú: Card lực luợng của A
Mệnh đề 1.2.2 i F n (x) là hàm bậc thang với bước nhảy bằng bội số của n
Tại các điểm \( x_i \), bội số là số mẫu ngẫu nhiên nhận giá trị bằng \( x_i \) Biến ngẫu nhiên \( F_n(x) \) phụ thuộc vào các biến \( O(X_1, X_2, \ldots, X_n) \) Với mọi \( x \in \mathbb{R} \), hàm \( F(x) \) có xu hướng tiến tới \( \mathbb{R} \) khi \( n \) tiến tới vô cực Nếu \( F(x) \ liên tục, thì giới hạn \( \sup F_n(x) - F(x) \) sẽ tiến tới 0.
Các đặc trƣng mẫu
1.2.2.5 Phương sai mẫu có hiệu chỉnh
Bảng so sánh các đặc trƣng lý thuyết và đặc trƣng mẫu
Kỳ vọng và phương sai của các đặc trưng mẫu
Mệnh đề 1.2.4 Giả sử tồn tại , D 2 Khi đó, i P khi n ii khi n iii 0 , 1 khi n
Mệnh đề 1.2.5 Giả sử tồn tại D 2 Khi đó,
Mệnh đề 1.2.6 Nếu tồn tại moment cấp 2 của X Khi đó, i S 2 P 2 n ii S 2 2 khin iii Nếu tồn tại moment cấp 4 của X thì
II Bài toán về ƣớc lƣợng tham số
Cho là một đại lƣợng ngẫu nhiên có quy luật phân phối p x , , là tham số
Do việc tìm giá trị thực của tham số rất khó khăn, chúng ta chỉ có thể ước lượng dựa trên mẫu dữ liệu (x1, x2, …, xn) Để xác định ước lượng cho tham số này, cần xây dựng hàm ước lượng phù hợp.
Hàm ước lượng θ̂ là một đại lượng ngẫu nhiên, và dựa vào quy luật phân phối xác suất của nó, chúng ta có thể xác định hai giá trị cho một số γ đã cho, với điều kiện 0 ≤ γ ≤ 1.
Khoảng ˆ 1 , ˆ 2 chứa gọi là một khoảng ƣớc lƣợng của tham số với mức tin cậy
2.1 Các loại ƣớc lƣợng điểm Ứng với một tham số có vô số hàm ƣớc lƣợng khác nhau Vấn đề là phải chọn
theo tiêu chuẩn nào để nó là ƣớc lƣợng tốt nhất Ta có các định nghĩa sau:
2.1.1 Ƣớc lƣợng không chệch Định nghĩa 2.1.1 ˆ , , , n
đƣợc gọi là ƣớc lƣợng không chệch đối với nếu ˆ , , , n
2.1.2 Ƣớc lƣợng vững Định nghĩa 2.1.1 ˆ đƣợc gọi là ƣớc lƣợng vững đối với nếu ˆ khi
Ta có ˆ n 0 thi - ˆ 0 n Định lý 2.1.2 ( Bất đẳng thức Chebyshev) Giả sử X là đại lượng ngẫu nhiên có phương sai hữu hạn Khi đó, với mọi 0 ta có
2.1.3 Ƣớc lƣợng hiệu quả Định lí 2.1.3 (Bất đẳng thức Brame-Rao) Nếu ˆ là ước lượng không chệch đối với
Ta lại có theo Bất đẳng thức Bunhiakorski
Định nghĩa 2.1.4 Thống kê ˆ đƣợc gọi là ƣớc lƣợng hiệu quả đối với nếu i ˆ là ƣớc lƣợng không chệch đối với ˆ ii D ˆ bé nhất
2.1.4 Ƣớc lƣợng hợp lí cực đại
1 , 2 , , là mẫu ngẫu nhiên lấy từ X Có phân phối phụ thuộc
Hàm mật độ đồng thời của vector \((X_1, X_2, \ldots, X_n)\) được ký hiệu là \(L(X, \theta) = f_n(X, \theta)\) Định nghĩa 2.1.5 cho biết hàm \(L(X, \theta)\) được gọi là hàm hợp lý Giá trị \(\hat{\theta}\) là giá trị tại đó hàm \(L(X, \theta)\) đạt cực đại, và \(\hat{\theta}\) được xem là ước lượng hợp lý cực đại của \(\theta\).
Mệnh đề 2.1.5 Giả sử L , là hàm khả vi,hàm logarit đơn điệu thì ˆ là nghiệm của phương trình
+) Hàm hợp lí L , xây dựng từ mẫu ngẫu nhiên 1 , , n thì
Nhận xét 2.1.6 Thống kê ˆ là ƣớc lƣợng hợp lý cực đại đối với ˆ là nghiệm của phương trình
Chúng tôi đã phân tích các ước lượng điểm liên quan đến tham số Tuy nhiên, trong một số trường hợp, các ước lượng điểm này chưa cung cấp thông tin đầy đủ và thỏa đáng về tham số .
Một thách thức trong phương pháp ước lượng này là việc không xác định được phân phối xác suất chính xác của ˆ 1 và ˆ 2, điều này làm khó khăn trong việc xây dựng khoảng tin cậy Trong một số trường hợp, người ta thường áp dụng phương pháp xấp xỉ, chẳng hạn như sử dụng định lý giới hạn trung tâm.
2.2.1 Định lí giới hạn trung tâm Định lí 2.2.1 Giả sử X 1 , X 2 , X n là dãy ĐLNN độc lập cùng phân phối với
Với x là hàm phân phối của phân phối chuẩn n
Chứng minh Không mất tính tổng quát xem 0.Kí hiệu t là hàm đặc trƣng của i Do X 1 , X 2 , X n độc lập
2.2.2 Ƣớc lƣợng khoảng đối với giá trị trung bình μ=EX
2.2.2.1 Ƣớc lƣợng khoảng đối với với ~ , 2 a Phương sai 2 D đã biết Định lí 2.2.2 O ( X 1 , X 2 , X n ) là mẫu ngẫu nhiên lấy từ ~ , 2 với mức ý nghĩa (độ tin cậy ) thì khoảng ước lượng đối với
b Phương sai chưa biết Định lí 2.2.3 Giả sử ~ , 2 ; O ( X 1 , X 2 , X n ) là mẫu ngẫu nhiên lấy từ X thì thống kê
Giả sử biến ngẫu nhiên X tuân theo phân phối chuẩn với trung bình μ và phương sai σ² chưa biết, và mẫu ngẫu nhiên gồm n quan sát từ X Định lý 2.2.4 chỉ ra rằng khoảng ước lượng cho giá trị trung bình μ với độ tin cậy β (mức ý nghĩa α = 1 - β) có thể được xác định dựa trên phân phối Student với n-1 bậc tự do.
2.2.2.2 Ƣớc lƣợng khoảng đối với với X-ĐLNN bất kì Định lí 2.2.5 O ( X 1 , X 2 , X n ) là mẫu ngẫu nhiên lấy từ X có (chưa biết)
D thì với n đủ lớn thì khoảng ước lượng đối với với độ tin cậy (mức ý nghĩa 1 ) là
2.2.3 Ƣớc lƣợng khoảng đối với tỉ lệ
Bài toán 2.2.6 yêu cầu xác định tập hợp các phần tử của không gian mẫu có thuộc tính A hoặc không có thuộc tính A, với xác suất phần tử thuộc tính A là p (chưa biết) Mục tiêu là quan sát các phần tử trong để từ đó xây dựng khoảng tin cậy đối xứng cho p với mức ý nghĩa đã định.
Thực hiện n phép thử Bernoulli từ các phần tử của tập hợp chính X là số lần xuất hiện phần tử có tính chất A trong n lần quan sát Khi đó:
A chÊt tÝnh xuất hiện suÊt
Theo định lí giới hạn trung tâm ˆ 0 , 1
Trong khi n đủ lớn thì p ˆ ~ p thay p p ˆ
Với mức ý nghĩa thì khoảng ƣớc lƣợng đối với p là:
III Bài toán về kiểm định giả thiết
Giả sử trong thực tế có 2 quan điểm trái ngƣợc nhau về 1 vấn đề nào đó
H: giả thiết (X có tính chất A)
K: đối thiết (X không có tính chất A)
Bằng các số liệu thống kê hãy chỉ ra 1 giả thiết có thể chấp nhận đƣợc với độ tin cậy
Giả thuyết đơn chỉ cung cấp một giá trị cho tham số, trong khi giả thuyết hợp cho phép xác định nhiều giá trị cho tham số đó Khi thực hiện kiểm định, có hai loại sai lầm có thể xảy ra.
+ Sai lầm 1:Chấp nhận K trong khi H đúng
+ Sai lầm 2:Chấp nhận H trong khi K đúng
Mục tiêu của bài toán thống kê là tối thiểu hóa cả hai loại sai lầm, nhưng điều này không thể thực hiện được Để giải quyết vấn đề này, Neyman đã đề xuất giới hạn xem xét các bài toán có xác suất sai lầm loại 1 được chặn bởi một giá trị nhỏ .
3.1 Kiểm định giả thiết đối với giá trị trung bình
3.1.1 Kiểm định giả thiết về giá trị trung bình của phân phối chuẩn 3.1.1.1 Kiểm định giả thuyết về kì vọng a Kiểm định giả thuyết về kì vọng của BNN theo quy luật chuẩn khi biết phương sai
Giả sử X~N(μ, σ 2 ) với phương sai σ 2 đã biết, còn μ chưa biết và ta đang phải
Lập mẫu W=(X1,X2,…,X n ) và chọn thống kê
Ta có ba trường hợp sau:
1 H0: μ = μ0 với H1: μ > μ0,miền bác bỏ H0 là:
2 H0: μ = μ0 với H1: μ < μ0,miền bác bỏ H0 là:
3 H0: μ = μ0 với H1: μ # μ0,miền bác bỏ H0 là:
b Kiểm định giả thuyết của kì vọng của BNN theo quy luật chuẩn khi chƣa biết phương sai
Giả sử X~N(μ,σ 2 ) với phương sai σ 2 chưa biết, còn μ chưa biết và ta đang phải “đoán” bởi giả thiết H0: μ = μ 0
Lập mẫu W=(X1,X2,…,Xn) và chọn thống kê
Ta có 3 trường hợp sau:
1 H0:μ= μ0 với H1: μ> μ0,miền bác bỏ H0 là:
2 H0:μ= μ 0 với H 1 : μ< μ 0 ,miền bác bỏ H 0 là:
3 H0:μ= μ 0 với H1: μ# μ 0 ,miền bác bỏ H0 là:
3.1.1.2 Kiểm định giả thuyết của phương sai a Kiểm định giả thuyết của phương sai của BNN khi đã biết kì vọng
• Giả sử ~ , 2 với kỳ vọng đã biết, còn 2 cũng chƣa biết và ta đang phải “đoán” bởi giả thiết H0: 0 2
• Lập mẫu W=(X1,X2,…,Xn) và chọn thống kê
Ta có 3 trường hợp sau:
1 H0: 2 0 2 với H1: 2 0 2 miền bác bỏ H0 là:
với H1: 2 0 2 miền bác bỏ H0 là:
n b Kiểm định giả thuyết của phương sai của BNN theo quy luật chuẩn khi chƣa biết kì vọng
• Giả sử X~ N(μ,σ 2 ) với kỳ vọng μ chƣa biết, còn σ 2 cũng chƣa biết và ta đang phải “đoán” bởi giả thiết H0: 2 0 2
• Lập mẫu W=(X1,X2,…,Xn) và chọn thống kê
Ta có 3 trường hợp sau:
1 H0: 2 0 2 với H1: 2 0 2 miền bác bỏ H0 là:
3.2 Kiểm định giả thiết đối với giá trị tỉ lệ
Giả sử ~ p là BNN có phân phối 0-1 với tham số p chƣa biết và ta đang phải
Lập mẫu W 1 , 2 , , n và chọn thống kê
Trong đó f là trung bình mẫu của W
Ta có 3 trường hợp sau:
3.3.1 So sánh hai giá trị trung bình:
Bài toán 3.3.1 Cho hai đại lƣợng ngẫu nhiên X và Y với ~ 1 , 1
Y 1 , 2 , , n là mẫu ngẫu nhiên lấy từ X, 1 , 2 , , n là mẫu ngẫu nhiên lấy từ Y Với mức ý nghĩa hãy đƣa ra kết luận cho các bài toán sau
K H a Trường hợp đã biết phương sai D 2
+) Nếu U chấp nhận H b Trường hợp 2 chưa biết(giả thuyết 1 2 2 2 )
K H a Trường hợp đã biết phương sai D 2
chấp nhận H b Trường hợp 2 chưa biết(giả thuyết 1 2 2 2 )
3.3.2 Bài toán so sánh tỉ lệ
Bài toán 3.3.2 yêu cầu phân tích hai tập hợp chính 1 và 2, trong đó các phần tử của cả hai tập hợp đều có thể có hoặc không có đặc tính A Xác suất mang đặc tính A của các phần tử trong tập hợp 1 được ký hiệu là p 1, và trong tập hợp 2 là p 2 Dựa trên mức ý nghĩa và các số liệu thống kê, cần đưa ra kết luận cho các bài toán liên quan đến đặc tính A của các phần tử trong hai tập hợp này.
Để giải quyết bài toán, chúng ta cần quan sát các phần tử của tập hợp 1 và 2 Số lần mang đặc tính A được ký hiệu là k 1 và k 2, tương ứng với n 1 và n 2 lần quan sát các phần tử trong các tập hợp này.
2 n f k là tần suất xuất hiện tính chất A trong tập chính 1, 2
Nhập chung 2 mẫu ta có:
WRITE "Nhap kich thuoc mau"
WRITE "Gia tri quan sat thu",i
II.3 Thuật toán sắp xếp
IF x[i].gt>x[j].gt tg=x[i] x[i]=x[j] x[j]=tg
II.4 Thuật toán lập bảng tần suất
IF x[j].gt=x[i].gt x[i].sl=x[i].sl+x[j].sl
II.5 Thuật toán tìm kì vọng
FOR i=1 to x[0].sl mx=mx+x[i].gt*x[i].sl mx=mx/x[0].gt
II.6 Thuật toán tìm phương sai
VAR i,dx,mx mx=tim_mx(x)
FOR i=1 to x[0].sl dx=dx+x[i].sl*POW((x[i].gt-mx),2) dx=dx/((x[0].gt-1)*1.0)
II.7 Thuật toán tìm ƣớc lƣợng khoảng tin cậy kì vọng
Ch= „b‟,k,ualpha,dx,mx,cd,ct,h;
WHILE ch!= „Y‟ AND ch!= „N‟ mx = tim_mx(x)
WRITE “Phuong sai da biet (Y/N)”
IF ch= „N‟ dx=tim_dx(x);
WRITE "Chon khoang tin cay cua ki vong"
WRITE "Khoang tin cay trai"
READ ualpha k=ualpha*dx/sqrt(x[0].gt) cd=mx-k; ct
WRITE "Khoang tin cay la ",cd
WRITE "Khoang tin cay doi xung"
READ ualpha k=ualpha*dx/sqrt(x[0].gt) cd=mx-k; ct=mx+k;
WRITE "Khoang tin cay la",cd,ct
WRITE "Khoang tin cay phai"
READ ualpha k=ualpha*dx/sqrt(x[0].gt) ct=mx+k; cd=ct;
WRITE "Can tren la ",ct
WRITE "Khong co phuong sai"
WRITE "Chon khoang tin cay cua ki vong"
READ ualpha k=ualpha*dx/sqrt(x[0].gt) ct=mx+k cd=ct
WRITE "Can tren la:",ct
READ ualpha k=ualpha*dx/sqrt(x[0].gt) ct=mx-k cd=mx+k
WRITE "Can tren la:",ct
WRITE "Can duoi la:",cd
READ ualpha k=ualpha*dx/sqrt(x[0].gt) ct=mx-k ct
WRITE "Can duoi la:",cd
II 8 Thuật toán tìm ước lượng khoảng tin cậy phương sai
Ch= „b‟,k,k1,k2,dx,mx,cd,ct
WHILE ch!= „Y‟ AND ch!= „N‟ dx=tim_dx(x)
WRITE “Co ki vong hay khong (Y/N)”
WRITE "Chon khoang tin cay cua ki vong"
WRITE "Khoang tin cay phai"
READ k2 k=(x[0].gt-1)*dx cd=k/k2; ct
WRITE "Can duoi la ",cd
WRITE "Khoang tin cay trung tam" WRITE "Nhap khi2nalpha2:"
READ k1 k=(x[0].gt-1)*dx cd=k/k2; ct=k/k1;
WRITE "Can tren la ",ct
WRITE "Can duoi la ",cd
WRITE "Khoang tin cay trai"
WRITE "Nhap khi2nt11talpha"
READ k1 k=(x[0].gt-1)*dx cd=k/k1; ct=0;
WRITE "Can tren la ",ct
WRITE "Khong co ki vong"
WRITE "Chon khoang tin cay cua ki vong" READ h
WRITE "Khong tin cay trai"
READ k1 k=x[0].gt*dx ct=k/k1 cd=0
WRITE "Can tren la:",ct
WRITE "Khoang tin cay trung tam" WRITE "Nhap khi2nalphat2"
WRITE "Nhap so luong mau"
READ dx k=x[0].gt*dx cd=k/k2 ct=k/k1
WRITE "Can tren la:",ct
WRITE "Can duoi la:",cd
WRITE "Khoang tin cay phai"
READ k2 k=x[0].gt*dx cd=k/k2 ct
WRITE "Can duoi la:",cd
II.9 Thuật toán kiểm định kì vọng
VAR talpha,t,m0,dx,mx,ualpha,u,h,ch='b' WHILE ch!='Y' AND ch!='N'
WRITE "Co phuong sai hay khong? (Y/N)" READ ch
READ m0 t=(mx-m0)*sqrt(x[0].gt/dx)
WRITE "Nhap tnt1alpha2" READ talpha
WRITE "Nhap gia thiet" READ m0 t=(mx-m0)*sqrt(x[0].gt/dx)
WRITE "Gia thiet dung" ELSE
WRITE "Gia thiet sai" END IF
WRITE "Nhap gia thiet" READ m0 t=(mx-m0)*sqrt(x[0].gt/dx)
WRITE "Gia thiet dung" ELSE
WRITE "Gia thiet sai" END IF
WRITE "Khong co phuong sai" WRITE "Nhap phuong sai:"
WRITE "Nhap gia thiet" READ m0 u=(mx-m0)*sqrt(x[0].gt/dx)
WRITE "Gia thiet dung" ELSE
WRITE "Gia thiet sai" END IF
READ m0 u=(mx-m0)*sqrt(x[0].gt/dx)
READ m0 u=(mx-m0)*sqrt(x[0].gt/dx)
II.10 Thuật toán kiểm định phương sai
VAR khi,khi1,khi2,sigma02,dx,mx,ch='b' WHILE ch!='Y' AND ch!='N'
WRITE "Co ki vong hay khong? (Y/N)" READ ch
WRITE "Nhap khibpnt1alpha" READ khi
READ sigma02 khi2=(x[0].gt-1)*dx/sigma02
WRITE "Gia thiet dung" ELSE
WRITE "Nhap khi2nt1alphat2" READ khi
READ sigma02 khi2=(x[0].gt-1)*dx/sigma02
IF khi2=khi1 WRITE "Gia thiet dung" ELSE
WRITE "Nhap khi2nt1 1talpha" READ khi1
READ sigma02 khi2=(x[0].gt-1)*dx/sigma02
WRITE "Gia thiet dung" ELSE
WRITE "Khong co ki vong"
WRITE "Nhap khi2n 1talpha" READ khi1
READ sigma02 khi2=(x[0].gt)*dx/sigma02
WRITE "Gia thiet dung" ELSE
WRITE "nhap khi2nalphat2 READ khi
WRITE "nhap khi2n 1talphat2" READ khi1
READ sigma02 khi2=(x[0].gt)*dx/sigma02
IF khi2=khi1 WRITE "Gia thiet dung" ELSE
WRITE "Nhap khi2nalpha:" READ khi
READ sigma02 khi2=(x[0].gt)*dx/sigma02
WRITE "Gia thiet dung" ELSE
PHẦN III TRÌNH BÀY TRÊN NGÔN NGỮ LẬP TRÌNH
III.1 Khai báo thƣ viện
// ham cho phep doc float trong struct static void forcefloat(float *p)
III.2 Khai báo cấu trúc struct ppts
III.3 Chương trình nhập void nhap(ppts x[])
{ int i,k; float tg; printf("\n nhap so luong mau:");scanf("%d",&x[0].sl); x[0].gt=0; for(i=1;i