Xử lý số liệu thống kê bằng ngôn ngữ lập trình c++

Mẫu ngẫu nhiên và thống kê

Giả sử X là một đại lượng ngẫu nhiên, dãy các đại lượng ngẫu nhiên độc lập và cùng phân phối với X được gọi là mẫu ngẫu nhiên cỡ n Các giá trị quan sát từ X, ký hiệu là x1, x2, , xn, tạo thành một thể hiện của mẫu ngẫu nhiên này Mẫu ngẫu nhiên cỡ n lấy từ X được ký hiệu là O(X1, X2, , Xn) Khi xem xét một ánh xạ T từ tập hợp mẫu ngẫu nhiên này đến một không gian L(Ω), nếu O(X1, X2, , Xn) α T(X1, X2, , Xn) thuộc L(Ω), thì T được gọi là một thống kê.

Ví dụ Các trung bình mẫu và phương sai mẫu  

Các phương pháp chọn mẫu

1.1.2.1 Chọn mẫu có hoàn lại

Từ tập chính  các phần tử có đặc tính X Tiến hành chọn mẫu ngẫu nhiên có hoàn lại n lần.Các cá thể của  để quan sát ta đƣợc:

Trên  n xác định họ các BNN độc lập, cùng phân phối với X và là mẫu ngẫu nhiên  1 ,   n  có đƣợc bằng cách chọn mẫu có hoàn lại

1.1.2.2 Chọn mẫu không hoàn lại

Chọn mẫu không hoàn lại tương tự như chọn mẫu có hoàn lại, nhưng thực hiện việc chọn ngẫu nhiên các phần tử từ tập chính mà không lặp lại Phương pháp này cho phép chúng ta lấy mẫu ngẫu nhiên từ tập hợp mà không hoàn trả các phần tử đã chọn.

Nếu  bé thì X 1 , X 2 ,  X n không độc lập.Nếu  lớn thì X 1 , X 2 ,  X n có thể xem độc lập cùng phân phối với X

1.1.2.3 Chọn mẫu bằng phương pháp cơ học Đánh số tất cả các phần tử của  và ấn định kích thước mẫu n dùng bảng ngẫu nhiên quan sát các cá thể có chỉ số vừa tìm

1.1.2.4 Chọn mẫu theo đặc trƣng

Phân tập chính theo tỉ lệ phần trăm nào đó chẳng hạn 10%,15%,…từ các nhóm ta sử dụng các cách trên để chọn mẫu.

Các loại mẫu

Mẫu đơn giản là mẫu đươc mô ta bởi bảng các thể hiện như sau xi x1 x2 … xn ni 1 1 … 1

1.1.3.2 Mẫu rút gọn xi x1 x2 … xk ni n1 n2 … nk lÇn n xuất hiện và x x x i  j ,  i  j i i , n n k i i 

Phân phối mẫu và đặc trƣng mẫu

Phân phối mẫu (Hàm phân phối thực nghiệm)

Định nghĩa 1.2.1 O ( X 1 , X 2 ,  X n ) là một mẫu ngẫu nhiên lấy từ X với hàm phân phối F(x).Hàm phân phối thực nghiệm Fn(x) đƣợc xác định bởi

Trong đú: Card   lực luợng của A

Mệnh đề 1.2.2 i F n (x) là hàm bậc thang với bước nhảy bằng bội số của n

Tại các điểm \( x_i \), bội số là số mẫu ngẫu nhiên nhận giá trị bằng \( x_i \) Biến ngẫu nhiên \( F_n(x) \) phụ thuộc vào các biến \( O(X_1, X_2, \ldots, X_n) \) Với mọi \( x \in \mathbb{R} \), hàm \( F(x) \) có xu hướng tiến tới \( \mathbb{R} \) khi \( n \) tiến tới vô cực Nếu \( F(x) \ liên tục, thì giới hạn \( \sup F_n(x) - F(x) \) sẽ tiến tới 0.

Các đặc trƣng mẫu

1.2.2.5 Phương sai mẫu có hiệu chỉnh

Bảng so sánh các đặc trƣng lý thuyết và đặc trƣng mẫu

Kỳ vọng và phương sai của các đặc trưng mẫu

Mệnh đề 1.2.4 Giả sử tồn tại    , D    2 Khi đó, i    P  khi n   ii    khi n   iii        0 , 1 khi n  

Mệnh đề 1.2.5 Giả sử tồn tại D    2 Khi đó,

Mệnh đề 1.2.6 Nếu tồn tại moment cấp 2 của X Khi đó, i S 2   P  2  n   ii S 2   2 khin   iii Nếu tồn tại moment cấp 4 của X thì

II Bài toán về ƣớc lƣợng tham số

Cho là một đại lƣợng ngẫu nhiên có quy luật phân phối p   x ,  , là tham số

Do việc tìm giá trị thực của tham số  rất khó khăn, chúng ta chỉ có thể ước lượng  dựa trên mẫu dữ liệu (x1, x2, …, xn) Để xác định ước lượng cho tham số này, cần xây dựng hàm ước lượng phù hợp.

Hàm ước lượng θ̂ là một đại lượng ngẫu nhiên, và dựa vào quy luật phân phối xác suất của nó, chúng ta có thể xác định hai giá trị cho một số γ đã cho, với điều kiện 0 ≤ γ ≤ 1.

Khoảng    ˆ 1 ,  ˆ 2 chứa  gọi là một khoảng ƣớc lƣợng của tham số  với mức tin cậy 

2.1 Các loại ƣớc lƣợng điểm Ứng với một tham số  có vô số hàm ƣớc lƣợng khác nhau Vấn đề là phải chọn

 theo tiêu chuẩn nào để nó là ƣớc lƣợng tốt nhất Ta có các định nghĩa sau:

2.1.1 Ƣớc lƣợng không chệch Định nghĩa 2.1.1 ˆ ,  , ,  n 

 đƣợc gọi là ƣớc lƣợng không chệch đối với  nếu   ˆ  ,  , ,  n   

2.1.2 Ƣớc lƣợng vững Định nghĩa 2.1.1  ˆ đƣợc gọi là ƣớc lƣợng vững đối với  nếu  ˆ     khi

Ta có  ˆ      n       0 thi    -  ˆ     0  n    Định lý 2.1.2 ( Bất đẳng thức Chebyshev) Giả sử X là đại lượng ngẫu nhiên có phương sai hữu hạn Khi đó, với mọi   0 ta có

2.1.3 Ƣớc lƣợng hiệu quả Định lí 2.1.3 (Bất đẳng thức Brame-Rao) Nếu  ˆ là ước lượng không chệch đối với

Ta lại có theo Bất đẳng thức Bunhiakorski

 Định nghĩa 2.1.4 Thống kê  ˆ đƣợc gọi là ƣớc lƣợng hiệu quả đối với  nếu i  ˆ là ƣớc lƣợng không chệch đối với     ˆ    ii D  ˆ bé nhất

2.1.4 Ƣớc lƣợng hợp lí cực đại

 1 , 2 ,  , là mẫu ngẫu nhiên lấy từ X Có phân phối phụ thuộc 

Hàm mật độ đồng thời của vector \((X_1, X_2, \ldots, X_n)\) được ký hiệu là \(L(X, \theta) = f_n(X, \theta)\) Định nghĩa 2.1.5 cho biết hàm \(L(X, \theta)\) được gọi là hàm hợp lý Giá trị \(\hat{\theta}\) là giá trị tại đó hàm \(L(X, \theta)\) đạt cực đại, và \(\hat{\theta}\) được xem là ước lượng hợp lý cực đại của \(\theta\).

Mệnh đề 2.1.5 Giả sử L  ,  là hàm khả vi,hàm logarit đơn điệu thì  ˆ là nghiệm của phương trình

+) Hàm hợp lí L  ,  xây dựng từ mẫu ngẫu nhiên  1 ,  ,  n  thì

Nhận xét 2.1.6 Thống kê  ˆ là ƣớc lƣợng hợp lý cực đại đối với    ˆ là nghiệm của phương trình

Chúng tôi đã phân tích các ước lượng điểm liên quan đến tham số  Tuy nhiên, trong một số trường hợp, các ước lượng điểm này chưa cung cấp thông tin đầy đủ và thỏa đáng về tham số .

Một thách thức trong phương pháp ước lượng này là việc không xác định được phân phối xác suất chính xác của  ˆ 1 và  ˆ 2, điều này làm khó khăn trong việc xây dựng khoảng tin cậy Trong một số trường hợp, người ta thường áp dụng phương pháp xấp xỉ, chẳng hạn như sử dụng định lý giới hạn trung tâm.

2.2.1 Định lí giới hạn trung tâm Định lí 2.2.1 Giả sử X 1 , X 2 ,  X n là dãy ĐLNN độc lập cùng phân phối với

Với    x là hàm phân phối của phân phối chuẩn n

Chứng minh Không mất tính tổng quát xem   0.Kí hiệu   t là hàm đặc trƣng của  i Do X 1 , X 2 ,  X n độc lập

2.2.2 Ƣớc lƣợng khoảng đối với giá trị trung bình μ=EX

2.2.2.1 Ƣớc lƣợng khoảng đối với    với  ~    ,  2  a Phương sai  2  D  đã biết Định lí 2.2.2 O ( X 1 , X 2 ,  X n ) là mẫu ngẫu nhiên lấy từ  ~    ,  2  với mức ý nghĩa  (độ tin cậy  ) thì khoảng ước lượng đối với   

b Phương sai chưa biết Định lí 2.2.3 Giả sử  ~    ,  2  ; O ( X 1 , X 2 ,  X n ) là mẫu ngẫu nhiên lấy từ X thì thống kê

Giả sử biến ngẫu nhiên X tuân theo phân phối chuẩn với trung bình μ và phương sai σ² chưa biết, và mẫu ngẫu nhiên gồm n quan sát từ X Định lý 2.2.4 chỉ ra rằng khoảng ước lượng cho giá trị trung bình μ với độ tin cậy β (mức ý nghĩa α = 1 - β) có thể được xác định dựa trên phân phối Student với n-1 bậc tự do.

2.2.2.2 Ƣớc lƣợng khoảng đối với    với X-ĐLNN bất kì Định lí 2.2.5 O ( X 1 , X 2 ,  X n ) là mẫu ngẫu nhiên lấy từ X có    (chưa biết)

D thì với n đủ lớn thì khoảng ước lượng đối với  với độ tin cậy  (mức ý nghĩa   1   ) là

2.2.3 Ƣớc lƣợng khoảng đối với tỉ lệ

Bài toán 2.2.6 yêu cầu xác định tập hợp các phần tử của không gian mẫu  có thuộc tính A hoặc không có thuộc tính A, với xác suất phần tử thuộc tính A là p (chưa biết) Mục tiêu là quan sát các phần tử trong  để từ đó xây dựng khoảng tin cậy đối xứng cho p với mức ý nghĩa đã định.

Thực hiện n phép thử Bernoulli từ các phần tử của tập hợp chính  X là số lần xuất hiện phần tử có tính chất A trong n lần quan sát Khi đó:

A chÊt tÝnh xuất hiện suÊt

 Theo định lí giới hạn trung tâm ˆ   0 , 1

Trong khi n đủ lớn thì p ˆ ~ p  thay p  p ˆ

Với mức ý nghĩa  thì khoảng ƣớc lƣợng đối với p là:

III Bài toán về kiểm định giả thiết

Giả sử trong thực tế có 2 quan điểm trái ngƣợc nhau về 1 vấn đề nào đó

H: giả thiết (X có tính chất A)

K: đối thiết (X không có tính chất A)

Bằng các số liệu thống kê hãy chỉ ra 1 giả thiết có thể chấp nhận đƣợc với độ tin cậy 

Giả thuyết đơn chỉ cung cấp một giá trị cho tham số, trong khi giả thuyết hợp cho phép xác định nhiều giá trị cho tham số đó Khi thực hiện kiểm định, có hai loại sai lầm có thể xảy ra.

+ Sai lầm 1:Chấp nhận K trong khi H đúng

+ Sai lầm 2:Chấp nhận H trong khi K đúng

Mục tiêu của bài toán thống kê là tối thiểu hóa cả hai loại sai lầm, nhưng điều này không thể thực hiện được Để giải quyết vấn đề này, Neyman đã đề xuất giới hạn xem xét các bài toán có xác suất sai lầm loại 1 được chặn bởi một giá trị nhỏ .

3.1 Kiểm định giả thiết đối với giá trị trung bình

3.1.1 Kiểm định giả thiết về giá trị trung bình của phân phối chuẩn 3.1.1.1 Kiểm định giả thuyết về kì vọng a Kiểm định giả thuyết về kì vọng của BNN theo quy luật chuẩn khi biết phương sai

Giả sử X~N(μ, σ 2 ) với phương sai σ 2 đã biết, còn μ chưa biết và ta đang phải

Lập mẫu W=(X1,X2,…,X n ) và chọn thống kê

Ta có ba trường hợp sau:

1 H0: μ = μ0 với H1: μ > μ0,miền bác bỏ H0 là:

2 H0: μ = μ0 với H1: μ < μ0,miền bác bỏ H0 là:

3 H0: μ = μ0 với H1: μ # μ0,miền bác bỏ H0 là:

b Kiểm định giả thuyết của kì vọng của BNN theo quy luật chuẩn khi chƣa biết phương sai

Giả sử X~N(μ,σ 2 ) với phương sai σ 2 chưa biết, còn μ chưa biết và ta đang phải “đoán” bởi giả thiết H0: μ = μ 0

Lập mẫu W=(X1,X2,…,Xn) và chọn thống kê

Ta có 3 trường hợp sau:

1 H0:μ= μ0 với H1: μ> μ0,miền bác bỏ H0 là:

2 H0:μ= μ 0 với H 1 : μ< μ 0 ,miền bác bỏ H 0 là:

3 H0:μ= μ 0 với H1: μ# μ 0 ,miền bác bỏ H0 là:

3.1.1.2 Kiểm định giả thuyết của phương sai a Kiểm định giả thuyết của phương sai của BNN khi đã biết kì vọng

• Giả sử  ~    ,  2  với kỳ vọng  đã biết, còn  2 cũng chƣa biết và ta đang phải “đoán” bởi giả thiết H0: 0 2

• Lập mẫu W=(X1,X2,…,Xn) và chọn thống kê

1 H0:  2   0 2 với H1:  2   0 2 miền bác bỏ H0 là:

  với H1:  2   0 2 miền bác bỏ H0 là:

  n b Kiểm định giả thuyết của phương sai của BNN theo quy luật chuẩn khi chƣa biết kì vọng

• Giả sử X~ N(μ,σ 2 ) với kỳ vọng μ chƣa biết, còn σ 2 cũng chƣa biết và ta đang phải “đoán” bởi giả thiết H0:  2   0 2

• Lập mẫu W=(X1,X2,…,Xn) và chọn thống kê

1 H0:  2   0 2 với H1:  2   0 2 miền bác bỏ H0 là:

3.2 Kiểm định giả thiết đối với giá trị tỉ lệ

Giả sử  ~   p là BNN có phân phối 0-1 với tham số p chƣa biết và ta đang phải

Lập mẫu W  1 ,  2 ,  ,  n  và chọn thống kê

Trong đó f là trung bình mẫu của W

3.3.1 So sánh hai giá trị trung bình:

Bài toán 3.3.1 Cho hai đại lƣợng ngẫu nhiên X và Y với  ~  1 ,  1 

Y  1 ,  2 ,  ,  n  là mẫu ngẫu nhiên lấy từ X,  1 ,  2 ,  ,  n  là mẫu ngẫu nhiên lấy từ Y Với mức ý nghĩa  hãy đƣa ra kết luận cho các bài toán sau

K H a Trường hợp đã biết phương sai D    2

+) Nếu   U  chấp nhận H b Trường hợp  2 chưa biết(giả thuyết  1 2   2 2 )

K H a Trường hợp đã biết phương sai D    2

 chấp nhận H b Trường hợp  2 chưa biết(giả thuyết  1 2   2 2 )

3.3.2 Bài toán so sánh tỉ lệ

Bài toán 3.3.2 yêu cầu phân tích hai tập hợp chính  1 và  2, trong đó các phần tử của cả hai tập hợp đều có thể có hoặc không có đặc tính A Xác suất mang đặc tính A của các phần tử trong tập hợp  1 được ký hiệu là p 1, và trong tập hợp  2 là p 2 Dựa trên mức ý nghĩa  và các số liệu thống kê, cần đưa ra kết luận cho các bài toán liên quan đến đặc tính A của các phần tử trong hai tập hợp này.

Để giải quyết bài toán, chúng ta cần quan sát các phần tử của tập hợp  1 và  2 Số lần mang đặc tính A được ký hiệu là k 1 và k 2, tương ứng với n 1 và n 2 lần quan sát các phần tử trong các tập hợp này.

2 n f  k là tần suất xuất hiện tính chất A trong tập chính  1, 2

Nhập chung 2 mẫu ta có:

WRITE "Nhap kich thuoc mau"

WRITE "Gia tri quan sat thu",i

II.3 Thuật toán sắp xếp

IF x[i].gt>x[j].gt tg=x[i] x[i]=x[j] x[j]=tg

II.4 Thuật toán lập bảng tần suất

IF x[j].gt=x[i].gt x[i].sl=x[i].sl+x[j].sl

II.5 Thuật toán tìm kì vọng

FOR i=1 to x[0].sl mx=mx+x[i].gt*x[i].sl mx=mx/x[0].gt

II.6 Thuật toán tìm phương sai

VAR i,dx,mx mx=tim_mx(x)

FOR i=1 to x[0].sl dx=dx+x[i].sl*POW((x[i].gt-mx),2) dx=dx/((x[0].gt-1)*1.0)

II.7 Thuật toán tìm ƣớc lƣợng khoảng tin cậy kì vọng

Ch= „b‟,k,ualpha,dx,mx,cd,ct,h;

WHILE ch!= „Y‟ AND ch!= „N‟ mx = tim_mx(x)

WRITE “Phuong sai da biet (Y/N)”

IF ch= „N‟ dx=tim_dx(x);

WRITE "Chon khoang tin cay cua ki vong"

WRITE "Khoang tin cay trai"

READ ualpha k=ualpha*dx/sqrt(x[0].gt) cd=mx-k; ct

WRITE "Khoang tin cay la ",cd

WRITE "Khoang tin cay doi xung"

READ ualpha k=ualpha*dx/sqrt(x[0].gt) cd=mx-k; ct=mx+k;

WRITE "Khoang tin cay la",cd,ct

WRITE "Khoang tin cay phai"

READ ualpha k=ualpha*dx/sqrt(x[0].gt) ct=mx+k; cd=ct;

WRITE "Can tren la ",ct

WRITE "Khong co phuong sai"

READ ualpha k=ualpha*dx/sqrt(x[0].gt) ct=mx+k cd=ct

WRITE "Can tren la:",ct

READ ualpha k=ualpha*dx/sqrt(x[0].gt) ct=mx-k cd=mx+k

WRITE "Can duoi la:",cd

READ ualpha k=ualpha*dx/sqrt(x[0].gt) ct=mx-k ct

II 8 Thuật toán tìm ước lượng khoảng tin cậy phương sai

Ch= „b‟,k,k1,k2,dx,mx,cd,ct

WHILE ch!= „Y‟ AND ch!= „N‟ dx=tim_dx(x)

WRITE “Co ki vong hay khong (Y/N)”

READ k2 k=(x[0].gt-1)*dx cd=k/k2; ct

WRITE "Can duoi la ",cd

WRITE "Khoang tin cay trung tam" WRITE "Nhap khi2nalpha2:"

READ k1 k=(x[0].gt-1)*dx cd=k/k2; ct=k/k1;

WRITE "Can duoi la ",cd

WRITE "Khoang tin cay trai"

WRITE "Nhap khi2nt11talpha"

READ k1 k=(x[0].gt-1)*dx cd=k/k1; ct=0;

WRITE "Khong co ki vong"

WRITE "Chon khoang tin cay cua ki vong" READ h

WRITE "Khong tin cay trai"

READ k1 k=x[0].gt*dx ct=k/k1 cd=0

WRITE "Khoang tin cay trung tam" WRITE "Nhap khi2nalphat2"

WRITE "Nhap so luong mau"

READ dx k=x[0].gt*dx cd=k/k2 ct=k/k1

READ k2 k=x[0].gt*dx cd=k/k2 ct

II.9 Thuật toán kiểm định kì vọng

VAR talpha,t,m0,dx,mx,ualpha,u,h,ch='b' WHILE ch!='Y' AND ch!='N'

WRITE "Co phuong sai hay khong? (Y/N)" READ ch

READ m0 t=(mx-m0)*sqrt(x[0].gt/dx)

WRITE "Nhap tnt1alpha2" READ talpha

WRITE "Nhap gia thiet" READ m0 t=(mx-m0)*sqrt(x[0].gt/dx)

WRITE "Gia thiet dung" ELSE

WRITE "Gia thiet sai" END IF

WRITE "Nhap gia thiet" READ m0 t=(mx-m0)*sqrt(x[0].gt/dx)

WRITE "Khong co phuong sai" WRITE "Nhap phuong sai:"

WRITE "Nhap gia thiet" READ m0 u=(mx-m0)*sqrt(x[0].gt/dx)

READ m0 u=(mx-m0)*sqrt(x[0].gt/dx)

II.10 Thuật toán kiểm định phương sai

VAR khi,khi1,khi2,sigma02,dx,mx,ch='b' WHILE ch!='Y' AND ch!='N'

WRITE "Co ki vong hay khong? (Y/N)" READ ch

WRITE "Nhap khibpnt1alpha" READ khi

READ sigma02 khi2=(x[0].gt-1)*dx/sigma02

WRITE "Nhap khi2nt1alphat2" READ khi

IF khi2=khi1 WRITE "Gia thiet dung" ELSE

WRITE "Nhap khi2nt1 1talpha" READ khi1

WRITE "Khong co ki vong"

WRITE "Nhap khi2n 1talpha" READ khi1

READ sigma02 khi2=(x[0].gt)*dx/sigma02

WRITE "nhap khi2nalphat2 READ khi

WRITE "nhap khi2n 1talphat2" READ khi1

IF khi2=khi1 WRITE "Gia thiet dung" ELSE

WRITE "Nhap khi2nalpha:" READ khi

PHẦN III TRÌNH BÀY TRÊN NGÔN NGỮ LẬP TRÌNH

III.1 Khai báo thƣ viện

// ham cho phep doc float trong struct static void forcefloat(float *p)

III.2 Khai báo cấu trúc struct ppts

III.3 Chương trình nhập void nhap(ppts x[])

{ int i,k; float tg; printf("\n nhap so luong mau:");scanf("%d",&x[0].sl); x[0].gt=0; for(i=1;i

Định dạng
Số trang	59
Dung lượng	1,03 MB