Hàm Gamma, hàm Beta
Các hàm mật độ của các phân bố xác suất thường gặp trong thống kê thường phức tạp và được biểu diễn thông qua các hàm đặc biệt như hàm Gamma và hàm Beta Do đó, việc làm quen với các hàm Gamma, Beta cùng một số tính chất của chúng là rất cần thiết.
Bổ đề 1.1.1 Tích phân suy rộng Z +∞
0 e −t t x−1 dthội tụ với mọi số thựcx >0.
•Víi0< x t x+1 ⇒e −t t x−1 < 1 t 2 VËy tích phân đã cho hội tụ với mọix >0.
Từ bổ đề trên, ng-ời ta định nghĩa Định nghĩa 1.1.1 Hàm Gamma Γ(x) Z +∞
0 e −t t x−1 dt đ-ợc xác định với mọi số thực x >0.
Hàm Gamma có các tính chất quan trọng d-ới đây Chúng ta dựa vào các tính chất này để tính giá trị của chúng khi cần.
Thật vậy, bằng cách tính tích phân từng phần Γ(x+ 1) Z +∞
Từ hai tính chất trên, bằng quy nạp ta có
3 Với x−k > 0, k là số tự nhiên bất kì Γ(x) = (x−1)(x−2)ã ã ã(x−k)Γ(x−k).
Suy ra Γ(n) = (n−1)! với mọi số tự nhiên n= 1,2
4 Chú ý rằng Γ( 1 2 ) =√ π Thật vậy đổi biếnu=√ t Γ(1
Suy ra với mọi số tự nhiên n∈N ∗ Γ(n+1
Bổ đề 1.1.2 Tích phân suy rộng
Z 1 0 t x−1 (1−t) y−1 dt hội tụ với mọi số thực x >0, y >0.
• Tr-ờng hợp 0< x, y < 1, xét hai tích phân sau, với ∀c∈(0,1)
TÝch ph©n I 1 héi tô v× t x−1 (1−t) y−1 < K t 1−x với số K thích hợp nào đó và tÝch ph©n Z c
Tích phân I 2 hội tụ đ-ợc chứng minh t-ơng tự Suy ra tích phân đã cho
• Tr-ờng hợp ng-ợc lại, x≥1hoặc y≥1bổ đề trở thành hiển nhiên.
Từ bổ đề trên, ng-ời ta định nghĩa Định nghĩa 1.1.2 Hàm Beta B(x, y) Z 1 0 t x−1 (1−t) y−1 dt đ-ợc xác định với mọi số thực x >0, y >0.
Hàm Beta có các tính chất sau
2 B(x, y) =B(y, x)vì các hàmt x−1 (1−t) y−1 vàt y−1 (1−t) x−1 có đồ thị đối xứng nhau qua đ-ờng thẳng t= 1 2
3 B(x,1) Z 1 0 t x−1 dt = 1 x với mọi số thực x >0.
−π/2 cos n−1 u du víi ∀n ∈N ∗ Thật vậy với phép đổi biếnt = sin 2 u
B(x, y) Z 1 0 t x−1 (1−t) y−1 dt Z π/2 0 sin 2x−2 ucos 2y−2 uã2 sinucosu du
Thật vậy sử dụng tích phân từng phần
Suy ra x+y−1 x B(x, y) = y−1 x B(x, y−1) Tõ ®©y suy ra ®.p.c.m.
6 Với số thực x > 0 và y là số tự nhiên bất kì, sử dụng tính chất trên liên tiếp và tính chất 3, ta đ-ợc
7 Vớim, nlà hai số tự nhiên bất kì, theo tính chất trên và tính chất hàm Gamma
8 Ta thừa nhận kết quả sau với mọi số thực x >0, y >0
Tính chất này là sự mở rộng tính chất 7 ở trên cho hai số thực d-ơng bÊt k×.
Hàm phân bố Gamma
Trong phần này, chúng ta sẽ đề cập đến hai định lý quan trọng trong lý thuyết xác suất liên quan đến hàm mật độ và mật độ chung của các đại lượng ngẫu nhiên Định lý 1.2.1 nêu rằng nếu f(x) là hàm mật độ của đại lượng ngẫu nhiên ξ, thì hàm mật độ của η = ϕ(ξ) sẽ được xác định bởi g(y) = f(ϕ⁻¹(y)) · ϕ⁻¹'(y), với điều kiện ϕ⁻¹(y) > 0.
Giả thiết rằng ϕ là một song ánh và khả vi trên miền giá trị của đại l-ợng ngẫu nhiên ξ.
Nếu y = ϕ(x) = ax + b (với a ≠ 0) là hàm bậc nhất và ξ là đại lượng ngẫu nhiên với f(x) là hàm mật độ của ξ, thì hàm nghịch ϕ −1 (y) được tính là y−b a Theo định lý, hàm mật độ g(y) của η = ϕ(ξ) sẽ được xác định bởi g(y) = 1.
Định lý 1.2.2 khẳng định rằng nếu ϕ là một song ánh khả vi từ miền D ⊂ R² sang T ⊂ R², và (X, Y) là véc tơ ngẫu nhiên trong D với hàm mật độ h(x, y), thì hàm mật độ của véc tơ (U, V) = ϕ(X, Y) được tính bằng g(u, v) = h(ϕ⁻¹(u, v)) × |J(u, v)|, trong đó J(u, v) là Jacobien của ϕ⁻¹.
Hàm mật độ của véc tơ ngẫu nhiên (X, Y) được gọi là mật độ đồng thời hoặc mật độ chung của hai đại lượng ngẫu nhiên X và Y Jacobien của ϕ −1 được xác định theo cách cụ thể.
Kí hiệu(x, y) =ϕ −1 (u, v), Jacobien của (x, y)theo (u, v)
Chứng minh Định lí đ-ợc chứng minh dựa trên định lí đổi biến trong tích phân kép Xét E ⊂ D là tập con bất kì của D Sử dụng phép đổi biến
(x, y) = ϕ −1 (u, v) ta có xác suất để điểm ngẫu nhiên (U, V) thuộc tập E bằng
DoE ⊂ D là tập con bất kì của D suy rah(ϕ −1 (u, v))ã |J(u, v)|là hàm mật độ chung củaU và V
Sử dụng định lý 1.2.1, chúng ta có thể dễ dàng xác định hàm mật độ của biến ngẫu nhiên Y = X², trong đó X là đại lượng ngẫu nhiên có phân bố chuẩn X ∈ N(0,1) Cụ thể, hàm mật độ của X được biểu diễn bằng ϕ(x) = 1.
2 , suy ra mật độ của ξ=|X| : f(x) (√ 2 2π e − x
0 nÕu x≤0. áp dụng định lí 1.2.1, ta đ-ợc hàm mật độ của Y =X 2 =ξ 2 g(y) = 1
Hàm mật độ g(y) là trường hợp đặc biệt của phân bố Gamma, được định nghĩa như sau: Đại lượng ngẫu nhiên X được xem là có phân bố Gamma nếu X có hàm mật độ tương ứng.
G(x, α, p) = α p Γ(p) ãe −αx x p−1 , α >0, p >0, x > 0 trong đó α > 0, p > 0 là 2 tham số d-ơng, x > 0 là biến của hàm mật độG(x, α, p).
Hàm mật độ của phân bố Gamma có thể viết d-ới dạng khác đầy đủ hơn
Nhận xét rằng tích phân
Hàm mật độ của phân bố Gamma được xác định qua công thức \(0 e^{-\alpha x} x^{p-1} dx = \Gamma(p) \alpha^p\), cho thấy rằng hàm mật độ luôn không âm và có tích phân trên toàn bộ R bằng 1 Từ tính chất này, chúng ta có thể viết hàm mật độ của phân bố Gamma một cách ngắn gọn hơn.
G(x, α, p) =cãe −αx x p−1 , trong đó c là hằng số thích hợp.
Hằng sốc trong công thức trên bằng giá trị của tích phân Z +∞
0 e −αx x p−1 dx và để thuận tiện từ nay về sau ta kí hiệuX ∈G(α, p) để nóiX là đại l-ợng ngẫu nhiên có phân bố Gamma với 2 tham số α và p.
Mô men cấp k của phân bố Gamma m k Z +∞
Kỳ vọng và phương sai của phân bố Gamma được tính bằng m = pα và σ² = pα² Định lý 1.2.3 chỉ ra rằng nếu X và Y là hai đại lượng ngẫu nhiên độc lập thuộc phân bố Gamma với cùng tham số α, thì tổng r = X + Y và tích f = XY cũng độc lập Hơn nữa, tổng r sẽ thuộc phân bố Gamma với tham số p1 + p2, và hàm mật độ của f được xác định bởi công thức Γ(p1 + p2) / (Γ(p1)Γ(p2)) f p1 - 1 Định lý này sẽ là nền tảng để chúng ta tiếp tục khám phá các phân bố thường gặp trong thống kê như phân bố χ², phân bố F và phân bố t.
Hàm mật độ của (X, Y) được chứng minh là cãe −αx−αy x p 1 −1 y p 2 −1 Khi thực hiện đổi biến x = rsin²ϕ và y = rcos²ϕ với 0 < r < +∞ và 0 < ϕ < π/2, Jacobien của (x, y) là J(r, ϕ) = rsin²ϕ Theo định lý 1.2.2, mật độ của (r, ϕ) được xác định là c₀ ãe −αr r p 1 + p 2 −1 (sinϕ)²p 1 −1 (cosϕ)²p 2 −1, điều này chứng tỏ r và ϕ là độc lập Từ đó, ta suy ra rằng r = X + Y và f = X Y = tg²ϕ cũng độc lập Biểu thức (1.2) cho thấy rõ r thuộc G(α, p 1 + p 2).
Hàm mật độ của ϕ được xác định từ hàm mật độ chung trong biểu thức (1.2), có dạng cã(sinϕ) 2p 1 −1 (cosϕ) 2p 2 −1 như trong (1.3) Để tìm hàm mật độ của f, ta áp dụng định lý 1.2.1 và thực hiện phép đổi biến ϕ=arctg√f, tương đương với f = tg²ϕ cosϕ r 1.
1 +f thay vào (1.3), ta thu đ-ợc hàm mật độ của f bằng cã f p 1 −1
(1 +f) p 1 +p 2 Để tính chính xác hệ số c trong biểu thức hàm mật độ của f, ta sử dụng phép biến đổi u= 1
Vậy hàm mật độ của f = X Y (th-ơng của 2 đại l-ợng ngẫu nhiên độc lập có phân bố Gamma và cùng chung tham số α) bằng Γ(p 1+p 2) Γ(p 1)Γ(p 2) ã f p 1 −1
Phân bố χ 2 , phân bố F và phân bố Student
Ph©n bè χ 2
Nếu X i ∈ N(0,1), i= 1,2, , n là n đại l-ợng ngẫu nhiên độc lập có cùng phân bố chuẩn, khi đó phân bố củaX 1 2 +X 2 2 +ã ã ã+X n 2 đ-ợc gọi làphân bố χ 2 với n bậc tự do Ng-ời ta th-ờng kí hiệu χ 2 (n) (hoặc χ 2 n ) là lớp các đại l-ợng ngẫu nhiên có phân bố χ 2 với n bậc tự do.
Nếu \(X_i \in N(0,1)\), thì \(X_i^2\) là đại lượng ngẫu nhiên có phân bố Gamma với các tham số \(\alpha = \frac{1}{2}\) và \(p = \frac{1}{2}\) Theo định lý 1.2.3, tổng \(X_1^2 + X_2^2 + \ldots + X_n^2\) cũng có phân bố Gamma với tham số \(\alpha = \frac{1}{2}\) và tham số còn lại \(p = 1\).
2 Tõ ®©y suy ra hàm mật độ của phân bốχ 2 với n bậc tự do chính là phân bố Gamma với các tham sốα = 1 2 và p= n 2
Do đẳng thức (1.1), kì vọng và ph-ơng sai của phân bốχ 2 (n) lần l-ợt bằng
Nhận xét sau khá quan trọng trong thực hành Theo định lí giới hạn trung tâm, hàm phân bố của đại l-ợng ngẫu nhiên d-ới đây, vớiχ 2 =X 1 2 +X 2 2 +ã ã ã+X n 2 , χ 2 −n
√ 2n tiến dần tới hàm phân bố chuẩnΦ(x), nói cách khác χ 2 xấp xỉ phân bố chuẩn
2χ 2 xấp xỉ phân bố chuẩnN(
√ 2n,1) Tuy nhiên ng-ời ta chứng minh đ-ợc xấp xỉ sau còn tốt hơn, do vậy nó th-ờng đ-ợc sử dụng hơn trong thực hành p
Ph©n bè F
Nếu X 1 ∈ χ 2 (m), X 2 ∈ χ 2 (n) là hai đại l-ợng ngẫu nhiên độc lập, có phân bố χ 2 với m và n bậc tự do t-ơng ứng, khi đó phân bố của
F 1 m X 1 1 n X 2 đ-ợc gọi là phân bố F với (m, n)bậc tự do.
Theo phần thứ hai của định lí 1.2.3, mật độ của X X 1
(1 +f) m+n 2 df = Γ( m 2 )Γ( n 2 ) Γ( m+n 2 ) , suy ra kì vọng của X X 1
= Γ( m+n 2 ) Γ( m 2 )Γ( n 2 )ã Γ( m+2 2 )Γ( n−2 2 ) Γ( m+n 2 ) = m n−2 Suy ra kì vọng của phân bố F với (m, n)bậc tự do
= n m ã m n−2 = n n−2. Để tính ph-ơng sai của phân bố F với (m, n)bậc tự do, ta có
Ph-ơng sai của phân bố F với (m, n)bậc tự do, theo đó bằng
Phân bố F được xác định là thương của hai đại lượng ngẫu nhiên độc lập có phân bố chi bình phương (χ²) Theo định lý 1.2.1, mật độ của phân bố F với bậc tự do (m, n) được tính bằng công thức: \( f(x) = \frac{\Gamma\left(\frac{m+n}{2}\right)}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)} \cdot x^{\frac{m}{2}-1} \) cho \( x > 0 \).
Phân bố Student (hay còn gọi là phân bố T )
Nếu X ∈χ 2 (n) và Y ∈ N(0,1) là hai đại l-ợng ngẫu nhiên độc lập, khi đó phân bố của
√ n đ-ợc gọi làphân bố T (hay phân bố Student) với n bậc tự do Phân bố đồng thời của(Y, X) bằng cãe − y
2 < ϕ < π 2 , khi đó Jacobien của (x, y) bằng J(r, ϕ) = 2r 2 cosϕ Theo định lí 1.2.2, mật độ của
2 r n (cosϕ) n−1 , điều đó chứng tỏ r vàϕđộc lập Chú ý rằng theo tính chất 4 của hàm Beta, hàm mật độ của ϕ bằng
B( 1 2 , n 2 ) ã(cosϕ) n−1 Để xác định hàm mật độ của T, ta sử dụng định lí 1.2.1 và đổi biến t √nãy
√n, ta đ-ợc hàm mật độ của phân bố T với n bậc tự do
Sử dụng công thức Sterling ta có thể chứng minh đ-ợc hàm mật độ S(t, n) tiến tới mật độ của phân bố chuẩn thuộc lớp N(0,1) khi n→ ∞.
Nếu σ X 2 ∈χ 2 (n)và Y ∈N(m, σ 2 ) độc lập, khi đó
√n cã ph©n bè Student víi n bËc tù do.
Kí hiệu S(n) đại diện cho lớp các đại lượng ngẫu nhiên có phân bố Student với n bậc tự do Phân bố Student có đặc điểm đối xứng, do đó, kì vọng của nó luôn bằng 0.
Sử dụng phép biến đổi u = t n² và hàm Beta, chúng ta có thể tính chính xác hệ số của hàm mật độ phân bố T với n bậc tự do.
√udu. Đổi biến tiếp x= 1+u 1 , khi đó
Vậy hàm mật độ của phân bố T với n bậc tự do có hệ số √ nB( 1 2 , n 2 )−1
Để tính ph-ơng sai của T, xét tích phân (vẫn sử dụng phép biến đổi u= t n 2 )
Z ∞ 0 u 1 2 (1 +u) − n+1 2 du. Đổi biến tiếpx= 1+u 1 , khi đó với n >2
Ph-ơng sai của phân bố T (với n >2)
Nhận xét rằng T 2 có phân bố F với (1, n) bậc tự do, từ kì vọng củaF ta cũng suy ra D(T) = n−2 n
Phân bố của trung bình mẫu và ph-ơng sai mẫu
Giả sử các đại lượng ngẫu nhiên \( X_i \) (với \( i = 1, 2, , n \)) độc lập và có cùng phân bố chuẩn với kỳ vọng \( m \) và phương sai \( \sigma^2 \) Điều này có nghĩa là tập hợp \( (X_1, X_2, , X_n) \) tạo thành một mẫu ngẫu nhiên đơn giản với phân bố chuẩn Theo lý thuyết xác suất, kỳ vọng mẫu, hay còn gọi là trung bình mẫu, là một khái niệm quan trọng trong thống kê.
X = X 1+X 2 +ã ã ã+X n n cũng có phân bố chuẩn với kì vọng bằng m và ph-ơng sai bằng σ 2 n Kí hiệu
Ng-ời ta sử dụng kì vọng mẫu làm -ợc l-ợng hiệu quả cho giá trị trung bình, tham số m.
Một đặc tr-ng mẫu thứ hai rất quan trọng trong thống kê, nó đ-ợc sử dụng làm -ớc l-ợng cho tham số σ 2 Đó là ph-ơng sai mẫu
(X i −X) 2 n và ph-ơng sai mẫu điều chỉnh
Hiển nhiên n σ 2 S 2 = n−1 σ 2 S ∗2 Ta dễ dàng chỉ ra ph-ơng sai mẫu điều chỉnh là một -ớc l-ợng không chệch cho tham sốσ 2
Định lý 1.3.1 chỉ ra rằng nếu các đại lượng ngẫu nhiên X i ∈ N(m, σ 2) (với i = 1, , n) là độc lập và có cùng phân bố chuẩn với kỳ vọng m và phương sai σ 2, thì phương sai mẫu S 2 sẽ liên quan đến phương sai điều chỉnh S ∗2 qua công thức n σ 2 S 2 = n−1 σ 2 S ∗2 Hơn nữa, tổng bình phương chênh lệch giữa các giá trị mẫu và giá trị trung bình mẫu được chuẩn hóa sẽ tuân theo phân phối chi bình phương với bậc tự do n−1, tức là Pn i=1(X i−X) 2 σ 2 ∈χ 2 (n−1).
Nói cách khác đại l-ợng ngẫu nhiên n σ 2 S 2 cã ph©n bè χ 2 víi n−1 bËc tù do.
Chứng minh rằng kí hiệu X = (X1, , Xn)T là véc tơ cột với n thành phần, và A là ma trận trực giao bất kỳ, trong đó hàng thứ nhất của A là (√(1/n), √(1/n), , √(1/n)) Kí hiệu Y = (Y1, , Yn)T = AX thể hiện ảnh của X qua phép biến đổi trực giao, trong đó Y là tích của ma trận trực giao A và ma trận cột X.
Từ tính chất của phép biến đổi trực giao ta suy ra các kết quả sau
2 Do phép biến đổi trực giao bảo toàn độ dài véc tơ nên
3 Kí hiệu m= (m, m, , m) T là véc tơ cột có các thành phần là kì vọng m Khi đó m trực giao với các hàng thứ hai, thứ 3, , thứ n của ma trËnA, ta cã
Biết hàm mật độ củaX bằng cãe −
P ( xi −m) 2 2σ 2 Vậy mật độ của Y bằng cãe −
2σ 2 Điều đó chứng tỏ Y 1 = X√ n ∈ N(m√ n, σ 2 ), Y i ∈ N(0, σ 2 ), i = 2, , n độc lập và do đó
Y 2 2 +ã ã ã+Y n 2 σ 2 = nS 2 σ 2 = (n−1)S ∗2 σ 2 ∈χ 2 (n−1) là đại l-ợng ngẫu nhiên có phân bố χ 2 với n−1 bậc tự do
Theo chứng minh trên Y 1 , Y 2 , , Y n là các đại l-ợng ngẫu nhiên độc lập có phân bố chuẩn Ta suy ra hệ quả quan trọng sau
Hệ quả 1.3.1 Đại l-ợng ngẫu nhiên
√ n−1 cã ph©n bè Student víi n−1 bËc tù do.
√ n : S√ n σ là th-ơng của 2 đại l-ợng ngẫu nhiên độc lập X −m σ √ n ∈ N(0,1) và nS σ 2 2 ∈ χ 2 (n −1) Do vậy đại l-ợng ngẫu nhiên trong hệ quả, kí hiệu T = X −m
√ n−1 cã ph©n bèStudent víi n−1 bËc tù do.
Phô lôc
Trong nghiên cứu này, chúng tôi xem xét một phân bố mới nhằm cải thiện việc xử lý dữ liệu trong các bài toán thống kê Giả sử rằng các biến ngẫu nhiên u1, u2, , un độc lập và tuân theo phân phối chuẩn N(0, σ²) Kết quả là đại lượng ngẫu nhiên τ được xác định bởi công thức τ = u1 q1 n.
Hàm mật độ của đại lượng ngẫu nhiên τ có thể được xác định mặc dù |τ| ≤ √n không phải là phân bố Student do tử số và mẫu số không độc lập Đại lượng ngẫu nhiên này được ký hiệu là v rn−1 n ã τ q.
Khi xét biến ngẫu nhiên Student với n-1 bậc tự do, hàm mật độ của biến này có thể được xác định thông qua hàm phân bố của biến v Khi giá trị của v thay đổi từ -√n đến √n, hàm phân bố của τ cũng sẽ tương ứng tăng từ -∞ đến ∞.
Đạo hàm theo x ta đ-ợc hàm mật độ của τ
Định lí 1.3.2 Với kí hiệuτ = X 1 S −X , khi đó τ
√ n−1−τ 2 cã ph©n bè Student víin−2 bËc tù do.
Chứng minh Để chứng minh định lí, xét phép biến đổi trực giao Y=AX víi
Nh- đã biết ở trên Y 1 = X√ n, Y 2 2 +ã ã ã+Y n 2 = nS 2 và Y i ∈ N(0, σ 2 ), i 2, , n độc lập Đồng thời
Y 2 rn−1 n X 1− 1 pn(n−1)X 2− ã ã ã − 1 pn(n−1)X n r n n−1(X 1−X) Hiển nhiên
Mặc dù tử số và mẫu số của τ không độc lập nhau, xét thống kê v rn−2 n−1ã τ q
Hiển nhiên các đại l-ợng ngẫu nhiên
Các phần tử mẫu S, với i = 1, 2, , n, có cùng phân bố với τ Kết quả này được sử dụng để loại bỏ những phần tử mẫu nằm quá xa giá trị trung bình mẫu.
Tổng quát hơn, kí hiệuX k = X 1 +X 2 k +ããã+X k và τ k = X k S −X , khi đó τ k rk(n−1) n−k có cùng phân bố nh- của τ = X 1−X
Suy ra τ k pk(n−2) pn−k−kτ k 2 cã ph©n bè Student víi n−2bËc tù do.
Các bài toán thống kê và các lệnh Excel
Bài toán -ớc l-ợng khoảng tin cậy
Trong mục này chúng ta tóm l-ợc cách giải các bài toán -ớc l-ợng khoảng tin cậy và chỉ ra các lệnh Excel để giải các bài toán đó.
1 Khoảng tin cậy cho giá trị trung bình với ph-ơng sai đã cho
Mẫu ngẫu nhiên (X₁, X₂, , Xₘ) có phân bố chuẩn với phương sai σ² đã cho, trong khi giá trị trung bình (kỳ vọng) m cần được ước lượng Để ước lượng giá trị trung bình m, ta xây dựng khoảng tin cậy với độ tin cậy 1−α, giúp xác định khoảng giá trị mà m có thể nằm trong đó với xác suất cao.
√σ n (2.1) trong đó u α là phân vị mức α đ-ợc xác định từ hệ thức P(|u| ≥ u α) = α, u∈N(0,1) cã ph©n bè chuÈn.
2 Khoảng tin cậy cho giá trị trung bình với ph-ơng sai ch-a biết
Mẫu ngẫu nhiên(X 1 , X 2 , , X m)có phân bố chuẩn với ph-ơng sai ch-a biết, giá trị trung bình (kì vọng) m cần đ-ợc -ớc l-ợng Khoảng tin cậy cho giá
21 trị trung bình m với độ tin cậy1−α
√n trong đó t α là phân vị mức α đ-ợc xác định từ hệ thức P(|t| ≥ t α) = α, t cã ph©n bè Student víi n−1bËc tù do.
Nếu kích thước mẫu đủ lớn (n ≥ 30), mặc dù phân bố mẫu không nhất thiết phải là phân bố chuẩn, chúng ta vẫn có thể áp dụng định lý giới hạn trung tâm Điều này cho phép sử dụng công thức để tính khoảng tin cậy cho giá trị trung bình với độ tin cậy 1−α.
√n trong đó u α đ-ợc xác định từ hệ thức P(|u| ≥u α) =α, u∈N(0,1).
3 Khoảng tin cậy cho xác suất
Để ước lượng xác suất xảy ra của một biến cố ngẫu nhiên với xác suất p, cần xác định tần suất xuất hiện của biến cố đó, ký hiệu là pb = n/k Điều này yêu cầu kích thước mẫu phải đủ lớn để đảm bảo tính chính xác trong ước lượng.
- thông th-ờng n ≥ 100) Khi đó với độ tin cậy 1−α, khoảng tin cậy cho xác suất b p− u α
√n pp(1b −p)b trong đó u α là phân vị mức α đ-ợc xác định từ hệ thức P(|u| ≥ u α) =α, u ∈N(0,1) cã ph©n bè chuÈn.
4 Khoảng tin cậy cho ph-ơng sai của phân bố chuẩn
Mẫu có phân bố chuẩn với ph-ơng sai σ 2 cấn phải -ớc l-ợng Với độ tin cậy 1−α, khoảng tin cậy cho σ 2 nS 2 χ 2 α 2
(2.2) trong đó χ 2 α là phân vị mức α đ-ợc xác định từ hệ thức P(χ 2 > χ 2 α ) =α, χ 2 là đại l-ợng ngẫu nhiên có phân bố χ 2 với (n−1) bậc tự do.
5 Khoảng tin cậy cho hiệu các giá trị trung bình của phân bố chuẩn
MÉu {X i} m i=1 ∈N(m 1 , σ 2 ), {Y i} n i=1 ∈N(m 2 , σ 2 ), cã ph©n bè chuÈn víi ph-ơng saiσ 2 ch-a biết Giả thiết các phần tử mẫu đó độc lập nhau Với độ tin cậy 1−α, khoảng tin cậy cho m 1−m 2
(X −Y)−Sãt α rm+n mãn < m 1−m 2 χ 2 α ) =α đã đ-ợc sử dụng trong công thức (2.2) Lệnh này thực chất chính là hàm ng-ợc của hàm lệnh CHIDIST(x, n).
8 F DIST(x, m, n)cho giá trị phía đuôi hàm phân bốF vớim, nbậc tự do
9 F IN V(α, m, n) cho giá trị là phân vị F α mức α xác định từ hệ thức
P(X > F α) = α Lệnh này thực chất chính là hàm ng-ợc của hàm lệnh F DIST(x, m, n).
10 T DIST(x, n)cho giá trị phía đuôi "kép" của hàm phân bố Student với n bËc tù do
11 T IN V(α, n) cho giá trị là phân vị t α mức α xác định từ hệ thức
L-u ý rằng trong mục 1.3 ta đã nhắc tới mật độ của phân bố Student tiến dần đến mật độ của phân bố chuẩn ϕ(x) = √ 1
2 khi n dÇn ra vô cùng Suy ra với n đủ lớn
Bài toán kiểm định giả thiết thống kê
Trong mục này chúng ta tóm l-ợc cách giải các bài toán kiểm định giả thiết thống kê.
1 Kiểm định giả thiết về giá trị trung bình với ph-ơng sai đã biết
Trong bài toán ước lượng khoảng tin cậy, chúng ta giả định rằng mẫu ngẫu nhiên (X1, X2, , Xm) tuân theo phân bố chuẩn với phương sai σ² đã biết Mục tiêu là kiểm định giả thiết về giá trị trung bình của mẫu.
Chúng ta cần kiểm định giả thiết không
(m 0 là giá trị cho tr-ớc nào đó.)
Giả sử mức ý nghĩa của kiểm định được ký hiệu là α Điều này có nghĩa là chúng ta thiết lập quy tắc kiểm định nhằm xác định xác suất bác bỏ giả thuyết (H) khi thực tế giả thuyết (H) đúng, với xác suất này được gọi là sai lầm loại một của kiểm định.
Ng-ời ta đ-a ra quy tắc kiểm định bài toán 1 nh- sau:
Tính giá trị d-ới đây, giá trị đó còn đ-ợc gọi là giá trị quan sát hayu− quan sát. u qs = X −m 0 σ
Tra bảng phân vị của phân bố chuẩn N(0,1) để xác địnhu α:
* Nếu|u qs|> u α ta bác bỏ giả thiết (H).
** Ng-ợc lại nếu|u qs|< u α ta ch-a có đủ cơ sở bác bỏ giả thiết (H).
Bài toán 2 là bài toán kiểm định một phía (one-tailed test) Ta tóm tắt quy tắc kiểm định trong khung sau
Mẫu có phân bố chuẩn với ph-ơng sai σ 2 đã cho Kiểm định giả thiết về kì vọng mẫu, mức ý nghĩa α
Quy tắc: Bác bỏ (H) nếu X −m 0 σ
√ n =u qs > u α , u α đ-ợc xác định từ hệ thức P(u ≥u α) =α, u∈N(0,1).
Lưu ý rằng phân vị u α trong bài toán kiểm định một phía khác với phân vị u α trong bài toán kiểm định hai phía Cụ thể, với mức ý nghĩa α = 0,05, phân vị u 0,05 trong bài toán một phía được tính là u 0,05 = NORM.S.INV(1 - α) = NORM.S.INV(0,95) = 1,644853, trong khi đó phân vị u 0,05 trong bài toán hai phía cũng được tính bằng công thức tương tự.
Hoàn toàn t-ơng tự, chúng ta xét bài toán kiểm định 1 phía nữa
Kiểm định giả thiết (mức ý nghĩaα)
Quy tắc: Bác bỏ (H) nếu X−m 0 σ
√n=u qs t α , trong đó t α đ-ợc xác định từ hệ thức P(|t| ≥t α) =α
(t cã ph©n bè Student víin−1 bËc tù do.)
(b) Bài toán 2: Kiểm định (H) :m =m 0 hoặc (H) :m ≤m 0 với đối thiết (K) :m > m 0
Quy tắc: Bác bỏ (H) nếu t qs = X −m 0
√ n > t α , trong đó t α đ-ợc xác định từ hệ thức P(t≥t α) = α
(t cã ph©n bè Student víin−1 bËc tù do.)
(c) Bài toán 3: Kiểm định (H) :m =m 0 hoặc (H) :m ≥m 0 với đối thiết (K) :m < m 0
Quy tắc: Bác bỏ (H) nếu t qs= X −m 0
√n u α , trong đó u α đ-ợc xác định từ hệ thức P((|u| ≥u α) =α, u ∈N(0,1).
(b) Bài toán 2: Kiểm định(H) :m 1 =m 2 hoặc (H) :m 1 ≤m 2 với đối thiết (K) :m 1 > m 2
Quy tắc: Bác bỏ (H) nếu X −Y qσ 2 1 m + σ n 2 2
> u α , trong đó u α đ-ợc xác định từ hệ thức P((u≥u α) =α, u∈N(0,1).
(c) Bài toán 3: Kiểm định (H) :m 1 =m 2 hoặc (H) :m 1 ≥m 2 với đối thiết (K) :m 1 < m 2
Quy tắc: Bác bỏ (H) nếu X −Y qσ 2 1 m + σ n 2 2
30), quy tắc kiểm định giả thuyết không có thể được áp dụng một cách hiệu quả, ngay cả khi phân bố mẫu không chuẩn Trong trường hợp này, các phương sai σ1² và σ2² trong thống kê u sẽ được thay thế bằng các phương sai mẫu điều chỉnh SX*² và SY*².
• Tr-ờng hợp ph-ơng sai ch-a biết và bằng nhau
(a) Bài toán 1: Kiểm định giả thiết không(H) :m 1=m 2 với đối thiết (K) :m 16=m 2
Quy tắc: Bác bỏ (H) nếu rmn(m+n−2) m+n ã X −Y pmS X 2 +nS Y 2
> t α , trong đó t α đ-ợc xác định từ hệ thức P(|t| ≥t α) =α
(t cã ph©n bè Student víim+n−2bËc tù do.)
(b) Bài toán 2: Kiểm định (H) :m 1 =m 2 hoặc (H) :m 1 ≤m 2 với đối thiết (K) :m 1 > m 2
Quy tắc: Bác bỏ (H) nếu rmn(m+n−2) m+n ã X −Y pmS X 2 +nS Y 2 > t α , trong đó t α đ-ợc xác định từ hệ thức P(t≥t α) = α
(t cã ph©n bè Student víim+n−2bËc tù do.)
(c) Bài toán 3: Kiểm định (H) :m 1 =m 2 hoặc (H) :m 1 ≥m 2 với đối thiết (K) :m 1 < m 2
Quy tắc: Bác bỏ (H) nếu rmn(m+n−2) m+n ã X −Y pmS X 2 +nS Y 2 S_Y^2.
Quy tắc: Bác bỏ (H) nếu S X ∗ 2
S Y ∗ 2 > F α/2 , trong đó F α/2 đ-ợc xác định từ hệ thức P(F ≥F α/2) = α
2 (F là đại l-ợng ngẫu nhiên phân bố F vớim−1, n−1 bậc tự do.)
Quy tắc: Bác bỏ (H) nếu S X ∗ 2
S Y ∗ 2 > F α , trong đó F α đ-ợc xác định từ hệ thức P(F ≥F α) =α
(F là đại l-ợng ngẫu nhiên phân bố F vớim−1, n−1 bậc tự do.)
5 Kiểm định giả thiết về xác suất của biến cố ngẫu nhiên
Giả sử A là biến cố ngẫu nhiên với xác suất P(A) = p chưa biết Chúng ta ước lượng p bằng công thức p = X = (X1 + X2 + + Xn) / n, trong đó Xi nhận giá trị 1 nếu biến cố A xảy ra và 0 nếu không xảy ra tại lần quan sát thứ i, với i = 1, 2, , n Tần suất xuất hiện của biến cố A sẽ được sử dụng để kiểm định xác suất p = P(A) Để thực hiện kiểm định, cần giả thiết rằng kích thước mẫu n đủ lớn và α là mức ý nghĩa của kiểm định Quy tắc kiểm định sẽ được áp dụng dựa trên những điều kiện này.
(a) Bài toán 1: Kiểm định giả thiết không(H) :p=p 0 với đối thiết (K) :p6=p 0
Quy tắc: Bác bỏ (H) nếu
> u α , u α đ-ợc xác định từ hệ thức P(|u| ≥u α) =α, u∈N(0,1).
(b) Bài toán 2: Kiểm định (H) :p=p 0 hoặc (H) :p≤p 0 với đối thiết (K) :p > p 0
Quy tắc: Bác bỏ (H) nếu √ n pb−p 0 pp 0(1−p 0) > u α , u α đ-ợc xác định từ hệ thức P(u≥u α) =α, u∈N(0,1).
(c) Bài toán 3: Kiểm định (H) :p=p 0 hoặc (H) :p≥p 0 với đối thiết (K) :p < p 0
Quy tắc: Bác bỏ (H) nếu √ n pb−p 0 pp 0(1−p 0) χ 2 α , trong đó χ 2 α đ-ợc xác định từ hệ thức P(χ 2 > χ 2 α ) = α, χ 2 là đại l-ợng ngẫu nhiên có phân bố χ 2 với(r−1)(s−1) bậc tự do.
7 Kiểm định giả thiết về tính phù hợp
Giả sử một đại lượng ngẫu nhiên X có thể được phân loại vào r nhóm khác nhau: A1, A2, , Ar Ký hiệu p i = P(X ∈ A i), trong đó các biến cố {X ∈ A i} với i = 1, 2, , r tạo thành một hệ thống đầy đủ.
Xét một mẫu ngẫu nhiên của biến X với n phần tử, trong đó n_i là số phần tử thuộc nhóm A_i Chúng ta có khả năng kiểm định đồng thời giả thuyết không về các xác suất liên quan.
(H) : P(X ∈A 1) =p 1 , P(X ∈A 2) =p 2 , , P(X ∈A r) =p r dựa trên số các phần tử mẫun i , i= 1,2, , r Với mức ý nghĩaα ta có quy tắc kiểm định
Quy tắc: Bác bỏ (H) nếu Q 2 Xr i=1
> χ 2 α , trong đó χ 2 α đ-ợc xác định từ hệ thức P(χ 2 > χ 2 α ) =α, χ 2 là đại l-ợng ngẫu nhiên có phân bố χ 2 với r−1 bậc tự do.
Ng-ời ta mở rộng quy tắc trên để kiểm định các bài toán về tính phù hợp của hàm phân bố Xét bài toán kiểm định giả thiết:
Đại lượng ngẫu nhiên X có phân bố F(x, Θ), trong đó Θ = (Θ1, Θ2, , Θk) là véc tơ gồm k tham số Ví dụ, phân bố chuẩn F(x, Θ) = F(x, m, σ²) có hai tham số thành phần là m và σ².
Với các kí hiệu nh- trên, mức ý nghĩa của kiểm định là α, ta có
Quy tắc: Bác bỏ (H) nếu Q 2 Xr i=1
Trong nghiên cứu thống kê, xác suất để biến ngẫu nhiên X nhận giá trị thuộc nhóm thứ i được biểu diễn bằng pbi, với i = 1, 2, , r Xác suất này được tính thông qua hàm phân bố F(x, Θ)b, trong đó Θb = (cΘ1, Θc2, , Θck) là các ước lượng hợp lý cực đại cho các tham số Θ1, Θ2, , Θk.
Phân vị χ 2 α đ-ợc xác định từ hệ thức P(χ 2 > χ 2 α ) =α, χ 2 là đại l-ợng ngẫu nhiên có phân bố χ 2 với r−k−1bậc tự do.
Ta xét một ví dụ minh họa.
Nghiên cứu này kiểm định giả thuyết rằng số hạt α từ một nguyên tố phóng xạ phát ra trong một khoảng không gian K trong thời gian t tuân theo phân bố Poisson.
Người ta sử dụng một máy đo tự động để thực hiện 800 lần đo, mỗi lần kéo dài 7 giây, nhằm ghi lại số lần có k hạt α bắn vào vùng không gian K.
Cột đầu của bảng trình bày kết quả đo được Dựa trên số liệu này, chúng ta áp dụng quy tắc kiểm định với mức ý nghĩa α = 0,05 để tính toán xác suất ước lượng pbi Xác suất này được tính theo phân bố Poisson, với công thức p_k = P(X = k) = e^(-λ) * λ^k / k!, trong đó tham số λ được thay thế bằng ước lượng hợp lý cực đại của nó.
-ớc l-ợng hợp lí cực đại của tham số λ: bλ=X P9 k=0 kn k + 11n 10
Cột 3 của bảng trên là các xác suất -ớc l-ợng pbk của phân bố Poisson sau khi thaybλ=X = 3,85875 vào biểu thức p k =e −λ λ k! k Suy ra
Hệ số t-ơng quan
Trong lý thuyết xác suất, để đánh giá mối quan hệ giữa hai hoặc nhiều đại lượng ngẫu nhiên, người ta thường sử dụng các hệ số tương quan.
Hệ số tương quan %(X, Y) là một số thực nằm trong khoảng [-1, 1] Khi X và Y là hai đại lượng ngẫu nhiên độc lập, hệ số tương quan sẽ bằng 0 Sự phụ thuộc tuyến tính giữa X và Y càng mạnh khi |%(X, Y)| càng gần 1 Trong trường hợp |%(X, Y)| = 1, mối quan hệ giữa X và Y có thể được biểu diễn bằng phương trình tuyến tính Y = aX + b.
Trong thống kê, thay vì hai đại l-ợng ngẫu nhiênX, Y ta xét mẫu ngẫu nhiên
Các điểm ngẫu nhiên trên mặt phẳng tọa độ có thể được coi là các điểm phân bố theo cặp đại lượng ngẫu nhiên (X, Y) Hệ số tương quan mẫu được định nghĩa là r, với công thức tính là 1/n.
S X 2 , S Y 2 là ph-ơng sai mẫu củaX, Y t-ơng ứng
Dễ dàng chứng minh đ-ợc r 1 n−1
S X ∗ S Y ∗ Pn i=1 X i Y i−nXãY rPn i=1 X i 2 −nX 2 Pn i=1 Y i 2 −nY 2
X i Y i −X đ-ợc gọi là covarian mẫu Theo đó hệ số t-ơng quan mẫu r = C(X, Y)
Phương sai mẫu của đại lượng ngẫu nhiên X được xác định là covarian của X với chính nó, ký hiệu là S X² = C(X, X) Trong Excel, hàm COVAR được sử dụng để tính toán covarian mẫu, từ đó giúp tính phương sai mẫu của đại lượng ngẫu nhiên Ví dụ, trong việc dự báo đỉnh lũ hàng năm trên sông Hồng, việc áp dụng các công thức này là rất quan trọng.
Hà Nội hàng năm thu thập dữ liệu về lượng mưa trong tháng Sáu trên thượng nguồn sông Hồng (X i) và đỉnh lũ tương ứng tại Hà Nội (Y i) Những số liệu này được giả định để hỗ trợ độc giả nghiên cứu ứng dụng hồi quy trong công tác dự báo, như thể hiện trong bảng dưới đây.
STT Năm L-ợng m-a (X) Đỉnh lũ (Y)
STT Năm L-ợng m-a (X) Đỉnh lũ (Y)
Khi minh họa các cặp số liệu (xi, yi) từ bảng, ta nhận thấy mối liên hệ giữa lượng mưa hàng năm (X) và đỉnh lũ tại Hà Nội (Y); lượng mưa càng lớn thì đỉnh lũ càng cao Hệ số tương quan mẫu sẽ giúp giải thích mối quan hệ này giữa hai đại lượng, cho phép tính toán mức độ liên kết giữa lượng mưa hàng năm và đỉnh lũ tại Hà Nội.
Hệ số t-ơng quan mẫu do vậy bằng r 1 n
Trong Excel, lệnh CORREL(Xi, Yi) trả về hệ số tương quan mẫu giữa hai đại lượng ngẫu nhiên X và Y Hệ số tương quan mẫu này giúp chúng ta hiểu rõ mức độ liên hệ giữa X và Y khi được biểu diễn qua mối quan hệ tuyến tính.
Để xây dựng quy tắc kiểm định sự tương quan giữa hai đại lượng ngẫu nhiên, người ta đã chứng minh rằng nếu cặp (X_i, Y_i) có phân bố chuẩn hai chiều, thì với giả thiết H0: %(X, Y) = 0, ta có thể sử dụng công thức r√(n-2) để kiểm định.
1−r 2 cã ph©n bè Student víi n−2 bËc tù do.
T-ơng quan bội và hồi quy tuyến tính
Ph-ơng trình mặt phẳng hồi quy
Giả sử có k + 1 đại lượng ngẫu nhiên η, ξ 1 , ξ 2 , , ξ k mô tả các yếu tố ngẫu nhiên của một hiện tượng Chúng ta sẽ dự đoán η dựa trên các đại lượng ngẫu nhiên còn lại Dự báo tốt nhất là hàm hồi quy, và trong trường hợp này, chúng ta chỉ dự đoán η bằng hàm tuyến tính của các đại lượng ngẫu nhiên khác Nếu (η, ξ 1 , ξ 2 , , ξ k) có phân bố chuẩn, thì hàm hồi quy sẽ là hàm tuyến tính Chúng ta giả thiết rằng m = E(η) = 0 và m i = E(ξ i) = 0 với mọi i = 1, 2, , k Nếu không, ta sẽ dịch chuyển hệ trục tọa độ đến điểm (m, m 1 , m 2 , , m k) trong R k+1 Bài toán dự báo thực chất là tìm các hệ số b i sao cho
Phương pháp bình phương bé nhất là cách xác định các hệ số b i trong hồi quy tuyến tính Mô hình hồi quy tuyến tính được biểu diễn dưới dạng y = b1 x1 + b12 x2 + + b1k xk, trong đó các hệ số b i được gọi là các hệ số hồi quy.
Giả sử rằng các đại l-ợng ngẫu nhiên η, ξ 1 , ξ 2 , , ξ k tồn tại ph-ơng sai (nói cách khác chúng thuộc không gianL 2 với tích vô h-ớng ξ, η
=E(ξη) cov(ξ, η)) Khi đó hình chiếu vuông góc của η lên không gian con sinh bởi ξ 1 , ξ 2 , , ξ k làm cho biểu thức E(η−b 1 ξ 1−b 2 ξ 2− −b k ξ k) 2 đạt giá trị bé nhÊt.
Gọi ηˆ=b 1 ξ 1 +ã ã ã+b k ξ k là hình chiếu vuông góc của η lên không gian con sinh bởi ξ 1 , ξ 2 , , ξ k, ta có: ξ i , η−ηˆ ξ i , η−b 1 ξ 1 −b 2 ξ 2 − −b k ξ k
Kí hiệuc= (c ij) = (σ i σ j % ij)là ma trận covarian (cấpk+1) củaη, ξ 1 , ξ 2 , , ξ k vàA là ma trận covarian (cấp k) củaξ 1 , ξ 2 , , ξ k c
Gọi C ij là phần phụ đại số liên quan đến c ij của ma trận c, và R ij là phần phụ đại số tương ứng với % ij của ma trận các hệ số tương quan r = (% ij) Giả thiết rằng C 11 = detA khác 0, điều này đúng khi các biến ξ 1, ξ 2, , ξ k độc lập tuyến tính Do đó, hệ phương trình (3.1) có thể được viết lại.
c 11 b 1+c 12 b 2+ã ã ã+c 1k b k =c 01 c 21 b 1+c 22 b 2+ã ã ã+c 2k b k =c 01 ã ã ã ã c k1 b 1+c k2 b 2+ã ã ã+c kk b k =c 0k hoặc d-ới dạng ma trận
Ab=c 1 , (3.2) b= (b 1 ,ã ã ã, b k)là véc tơ ẩn số,c 1 = (c 01 ,ã ã ã , c 0k) là covarian củaη với các đại l-ợng ngẫu nhiênξ 1 , ξ 2 , , ξ k Ph-ơng trình (3.2) có nghiệm duy nhất b=A −1 c 1 hay b i =−C 0i
Thật vậy, nhận xét rằng dodet(c)c −1 = (C ij) T = (C ij)hay(C ij)c= det(c)E, hàng thứ nhất của (C ij) : (C 00 , h) = (C 00 , C 01 , , C 0k) vuông với cột thứ i, i≥1 của c , suy ra Ah =−C 00 c 1 hay b=A −1 c 1 =− 1
Các hệ số hồi quy b 1 , b 2 , , b k đ-ợc tính thông qua ma trận covarian A nhờ công thức (3.3) Vậy ph-ơng trình của mặt phẳng hồi quy tuyến tính y Xk i=1 b i x i=−
Tr-ờng hợp tổng quát (m i có thể khác0) y=m+
Nh- vậy ph-ơng trình mặt phẳng hồi quy có dạngy=a+
Xk i=1 b i x i, trong đó hệ số tự do của mặt phẳng hồi quy theo công thức này a=m−
Mặt phẳng hồi quy được sử dụng để dự đoán đại lượng ngẫu nhiên η dựa trên các đại lượng ngẫu nhiên khác ξ1, ξ2, ξ3, , ξk Bằng cách thay thế các giá trị của ξ1, ξ2, ξ3, , ξk vào mặt phẳng hồi quy, ta có thể ước lượng η với công thức η ≈ m +.
Các sai số của dự báo cũng nh- sai số của các hệ số hồi quy sẽ đ-ợc trình bày trong mục sau.
Chúng ta có thể tính các hệ số hồi quy b1, b2, , bk dựa trên các hệ số tương quan %ij = %(ξi, ξj) từ ma trận r = (%ij) Với công thức c ij = σi σj %ij, trong đó σ²i = D(ξi) là phương sai của ξi, ta có thể suy ra mối quan hệ giữa các biến.
R 0i , R ij là phần phụ đại số ứng với % ij
Cách tính mặt phẳng hồi quy
Trong thống kê, thay cho các giá trị ch-a biết của các đại l-ợng ngẫu nhiên η, ξ 1 , ξ 2 , , ξ k, ng-ời ta xét một mẫu ngẫu nhiên kích th-ớc n
Ph-ơng trình mặt phẳng hồi quy sẽ đ-ợc tính dựa trên các phần tử mẫu.
Ma trận covarian A trong công thức (3.3) là ma trận các covarian mẫu và các kì vọng m, m i trong công thức (3.5) là các kì vọng mẫu của ξ, ξ i t-ơng ứng.
Xét mối quan hệ giữa sản lượng cây trồng (y) với chi phí đầu tư ban đầu (x2) và lượng mưa trong đợt gieo trồng (x1), người ta thực hiện hồi quy tuyến tính để phân tích Dữ liệu được thu thập từ nhiều địa phương với điều kiện thổ nhưỡng và khí hậu khác nhau, nhằm tìm ra mối liên hệ rõ ràng giữa các yếu tố này.
Cột SST chỉ 26 địa ph-ơng khác nhau trồng giống cây đó.
Sử dụng lệnhCOV AR(Y, X) trong EXCEL để lập ma trận covarian c
Các hệ số b1 và b2 của mặt phẳng hồi quy được tính toán thông qua ma trận nghịch đảo A−1 Để tính ma trận nghịch đảo, chúng ta sử dụng lệnh MINVERSE, từ đó thu được các giá trị b1 và b2.
Các hệ số hồi quy được xác định là b1 = 2.348974 và b2 = 0.441063 Để tính hệ số tự do trong phương trình mặt phẳng hồi quy y = a + b1*x1 + b2*x2, ta thay thế m, m1, m2 bằng các kỳ vọng mẫu y, với giá trị trung bình y = 653.7692, x1 = 70.7692 và x2 = 482.1154 Do đó, ta có c = y -
X2 i=1 b i x i = 274.8907Vậy ph-ơng trình mặt phẳng hồi quyy= 2.348974x 1+0.441063x 2+274.8907.
Hệ số t-ơng quan bội và t-ơng quan riêng
Nh- đã trình bày trong mục đầu, ng-ời ta sử dụng ph-ơng trình mặt phẳng hồi quy để dự báoη khi biết các giá trị ξ i , i= 1,2, , k.
Bài toán dự báo được xây dựng trên giả thiết η = α + β₁ξ₁ + β₂ξ₂ + + βₖξₖ + ε, với E(ε) = 0 và D(ε) = σ² Các hệ số hồi quy ước lượng cho các tham số thực α, β₁, β₂, , βₖ được ký hiệu là ˆα, ˆβ₁, ˆβ₂, , ˆβₖ trong hàm hồi quy y = α + β₁x₁ + β₂x₂ + + βₖxₖ Đại lượng ngẫu nhiên ˆη = ˆα + ˆβ₁ξ₁ + + ˆβₖξₖ cung cấp giá trị dự báo, được gọi là giá trị hàm hồi quy Sai số của dự báo được xác định bởi phần d = η - ˆη Hệ số tương quan giữa η và ˆη, được gọi là hệ số tương quan bội, đo lường mức độ tác động tuyến tính của các biến ξ₁, , ξₖ lên η.
Khi tính toán các hệ số hồi quy, chúng ta đã xem xét các đại lượng ngẫu nhiên η, ξ1, ξ2, , ξk như những phần tử trong không gian L2 với tích vô hướng giữa ξ và η.
= E(ξη) = cov(ξ, η)) Khi đó hệ số t-ơng quan bội (t-ơng quan giữaη vàη), kí hiệuˆ R=%(η,η)ˆ bằng
(Trong không gian L 2 ng-ời ta th-ờng kí hiệu ||η|| = q η, η và gọi đó là chuẩn củaη Hiển nhiên ||η|| 2 chính là ph-ơng sai của η Nói cách khác
Hệ số xác định R² trong hồi quy đo lường tỉ lệ phụ thuộc tuyến tính của biến phụ thuộc η vào các biến ngẫu nhiên ξ₁, ξ₂, , ξₖ R² được tính toán dựa trên ma trận covarian c và các phần phụ đại số tương ứng Phương sai của phần dư được biểu diễn bằng công thức E(η−η̂)² = ||η−η̂||², cho thấy mối quan hệ giữa giá trị thực và giá trị ước lượng của η.
L-u ý rằng ng-ời ta đã chứng minh ph-ơng sai của phần d- E(η−η)ˆ 2 n−k−1 n σ 2 Do vËy s 2 e = n n−k−1||η−ηˆ|| 2 = ndetc
(n−k−1) detA (3.8) là -ớc l-ợng không chệch của σ 2 và ta gọi s e = p s 2 e là sai số tiêu chuẩn của hồi quy (Ta cũng kí hiệu σˆ 2 =s 2 e ).
Các hệ số hồi quy b₁, , bₖ đã được chứng minh là ước lượng không chệch của β₁, , βₖ Sai số của các hệ số hồi quy được suy ra từ ma trận covariance, được tính theo công thức cov(b) = A⁻¹ cov(c₁) A⁻¹ = σ²/n A⁻¹.
Khi khảo sát mối tương quan giữa các đại lượng ngẫu nhiên, hệ số tương quan % ij = % ij(ξ i , ξ j) được sử dụng để đo lường mối quan hệ toàn phần giữa chúng, bao gồm cả ảnh hưởng của các biến ngẫu nhiên khác như ξ 1 , , ξ k Một đại lượng ngẫu nhiên có thể được phân tích thành tổng của hai đại lượng không tương quan, ví dụ như η = ˆη + (η - η) = ˆˆ η + η 0.23 k Tương tự, ξ 1 cũng có thể được phân tích thành ˆξ 1 + (ξ 1 - ξˆ1) = ˆξ 1 + η 1.23 k, trong đó ˆ η và ξˆ1 là hình chiếu vuông góc của η và ξ 1 xuống không gian L 2(ξ 2 , , ξ k).
Hệ số tương quan riêng giữa ξ 1 và η được xác định bằng cách loại bỏ các tác động tuyến tính của ξ 2, , ξ k Cụ thể, phần còn lại của η sau khi loại bỏ các ảnh hưởng này được ký hiệu là η 0.23 k, trong khi phần còn lại của ξ 1 được ký hiệu là η 1.23 k Hệ số tương quan giữa hai phần d-ξ 1−ξˆ1 và η−ηˆ phản ánh mối quan hệ nội tại giữa ξ 1 và η, không bị ảnh hưởng bởi các đại lượng ngẫu nhiên khác.
Ta có thể chứng minh (nh- đã tính hệ số t-ơng quan bội), hệ số t-ơng quan riêng giữa η và ξ 1
(3.10) Một cách tổng quát hệ số t-ơng quan riêng giữa ξ i và ξ j bằng
HS t-ơng quan riêng: % ij.( )= −C ij pC ii C jj
(Trong đó C ij là phần phụ đại số t-ơng ứng với c ij của ma trận covarian c).
Áp dụng các công thức từ (3.7) đến (3.11) trong mục 3.2.2, chúng ta có thể tính toán hệ số tương quan bội và các hệ số tương quan riêng giữa sản lượng giống cây trồng và các yếu tố khác như lượng mưa và chi phí đầu tư ban đầu.
Ma trận các phần phụ đại số của ma trận covarianc (tính bằng EXCEL, detc= 24541694726)
Hệ số xác định R 2 = 1− detc c 00 C 00
7507.100592∗12983398.46 = 0.748 và do đó hệ số t-ơng quan bộiR √0.748 = 0.865.
Sai số tiêu chuẩn của hồi quy, theo (3.8) s e s ndetc
23 detA = 46.2254 Để tính sai số của các -ớc l-ợng hệ số hồi quy, ta sử dụng công thức (3.9), thay σ 2 bằng -ớc l-ợng s 2 e cov(b) = s 2 e n A −1 = s 2 e
Thays e = 46.2254, suy ra sai số của các hệ số b 1 , b 2 pD(b 1) = 46.2254
Hệ số t-ơng quan riêng giữaY vàX 1, sử dụng công thức (3.10)
Tính hồi quy bằng lệnh LINEST trong EXCEL
Nhận xét rằng trong nhiều tài liệu thống kê công thức (3.6) đ-ợc viết d-ới dạng
Tổng bình phương chung (SST) được định nghĩa là SST = nD(η) = ∑(y_i - y)², trong khi tổng bình phương hồi quy (SSR) được tính là SSR = nD(ˆη) = ∑(ˆy_i - y)² Ở đây, ˆy_i là giá trị của hàm hồi quy tại các điểm (x_1i, x_2i, , x_ki) tương ứng với mẫu thứ i, được biểu diễn bằng công thức ˆy_i = a + b₁x_1i + b₂x_2i + + b_kx_ki.
Sai số giữa giá trị thực y i và giá trị dự đoán từ hàm hồi quy yˆi được ký hiệu là e i = y i − yˆi Từ hệ thức trong không gian L 2, ||η|| 2 = ||ηˆ|| 2 + ||η − ηˆ|| 2, ta có thể suy ra tổng bình phương sai số (SSE) được tính bằng công thức SSE = ∑(y i − yˆi) 2.
Nh- vậy hệ số xác định
SST là tỷ số giữa tổng bình phương hồi quy và tổng bình phương chung, thể hiện mức độ phụ thuộc tuyến tính của biến η vào các biến ξ1, ξ2, , ξk Theo công thức (3.8), sai số của hồi quy được tính bằng s_e = √(Σ e_i² / (n - k - 1)), với SSE là tổng bình phương sai số.
Trong Excel, lệnh LIN EST(Y, X, 1, 1) cho phép tính tất cả các hệ số hồi quy, tổng bình phương hồi quy, tổng bình phương sai số, hệ số xác định và sai số tiêu chuẩn của hồi quy một cách đồng thời, rất tiện lợi cho việc giải bài toán hồi quy Lưu ý rằng, giống như các lệnh nhân ma trận hay tính ma trận nghịch đảo, lệnh LIN EST yêu cầu người dùng nhấn đồng thời các phím CTRL+SHIFT+ENTER, và kết quả sẽ được hiển thị dưới dạng một bảng gồm 5 hàng.
Hàng đầu tiên bao gồm các hệ số hồi quy, được sắp xếp từ trái sang phải, với các hệ số b k, b k−1, , b 1, và hệ số tự do a nằm ở cuối hàng.
Hàng thứ hai là sai số của các hệ số hồi quy t-ơng ứng, kí hiệus b k , s b k−1 , , s b 1 và s a.
Hàng thứ ba bao gồm hai thành phần chính: hệ số xác định R² và sai số tiêu chuẩn Hàng thứ t- sẽ được đề cập trong phần sau để hỗ trợ việc kiểm định đồng thời các hệ số hồi quy có giá trị bằng 0.
Hàng cuối cùng gồm 2 phần tử: tổng bình ph-ơng hồi quy SSR và tổng bình ph-ơng sai số SSE.
Quay lại ví dụ về sản l-ợng giống cây trồng trong mục 3.2.2, sử dụng lệnhLIN EST(Y, X,1,1), ta có bảng kết quả
Từ bảng này ta đọc đ-ợc các kết quả đã tính tr-ớc đây: b 2 = 0.441063, b 1 2.348974 và a= 274.89068.
Các sai số t-ơng ứng với các hệ số hồi quy s b 2 = 0.08193, s b 1 = 0.300035, vàs a = 52.1415458.
Hệ số xác định có ở hàng thứ ba: R 2 = 0.7482, sai số tiêu chuẩns e = 46.2254. Suy ra hệ số t-ơng quan bộiR √0.7482 = 0.865.
Tổng bình ph-ơng hồi quy SSR= 146038.4642 và SSE= 49146.151
Hệ số tương quan riêng không thể được tính trực tiếp từ bảng kết quả Để tính toán hệ số này, bạn có thể sử dụng công thức (3.10) hoặc (3.11), hoặc tính hệ số tương quan của các phần dữ liệu đã được nêu trong định nghĩa về hệ số tương quan riêng.
Khoảng tin cậy và kiểm định giả thiết cho các tham số của hồi quy
các tham số của hồi quy
Các vấn đề về khoảng tin cậy và kiểm định giả thiết cho các tham số của hồi quy dựa trên định lí sau Định lí 3.3.1
Giả sử hàm hồi quy được biểu diễn dưới dạng \( y = β_1 x_1 + β_2 x_2 + + β_k x_k + α \), trong đó các hệ số hồi quy \( b_k, b_{k-1}, , b_2, b_1, a \) được ước lượng bằng phương pháp bình phương bé nhất Các sai số tiêu chuẩn tương ứng cho các hệ số hồi quy được ký hiệu là \( s_{b_k}, s_{b_{k-1}}, , s_{b_2}, s_{b_1}, s_a \) Để tính giá trị t của hệ số hồi quy α, ta sử dụng công thức \( t_a = \frac{a - α}{s_a} \).
, i= 1,2, , k là các đại l-ợng ngẫu nhiên có phân bố Student với n−k−1 bậc tự do.
1 Khoảng tin cậy với độ tin cậy 1−α cho các hệ số hồi quy
Để xác định khoảng tin cậy với độ tin cậy 1−α cho hệ số hồi quy β i, cần tra cứu phân vị mức α của phân bố Student với n−k−1 bậc tự do Trong Excel, bạn có thể sử dụng lệnh T.INV(α, n−k−1) để tìm phân vị t α một cách hiệu quả.
Suy ra |b i−β i| < s b i t α Vậy khoảng tin cậy với độ tin cậy 1−α cho hệ số hồi quy β i b i−s b i t α < β i < b i+s b i t α
Phân vị mức α = 0.05 của phân bố Student với 23 bậc tự do là T IN V(0.05,23) = 2.068655 Từ đó, khoảng tin cậy 95% cho hệ số hồi quy β2 trong ví dụ về sản lượng giống cây trồng được xác định là: 0.441063 - 0.08193 * 2.068655 < β2 < 0.441063 + 0.08193 * 2.068655, hay 0.2716 < β2 < 0.6105.
2 Kiểm định giả thiết cho các tham số của hồi quy
Dựa trên phân bố Student với n-k-1 bậc tự do, chúng ta có thể kiểm định các giả thuyết liên quan đến các hệ số hồi quy β i, với i = 1, 2, , k, theo lý thuyết kiểm định đã được trình bày trong chương trước.
(a) Bài toán 1: Kiểm định giả thiết không(H) :β i=β i,0 với đối thiết (K) :β i 6=β i,0
Quy tắc: Bác bỏ (H) nếu t qs b i−β i,0 s b i
> t α , trong đó t α đ-ợc xác định từ hệ thức P(|t| ≥t α) =α
(t cã ph©n bè Student víi n−k−1bËc tù do.)
(b) Bài toán 2: Kiểm định (H) :β i =β i,0 hoặc (H) :β i ≤β i,0 với đối thiết (K) :β i > β i,0
Quy tắc: Bác bỏ (H) nếu t qs = b i−β i,0 s b i
> t α , trong đó t α đ-ợc xác định từ hệ thức P(t≥t α) = α
(t cã ph©n bè Student víi n−k−1bËc tù do.)
(c) Bài toán 3: Kiểm định (H) :β i =β i,0 hoặc (H) :β i ≥β i,0 với đối thiết (K) :β i < β i,0
Quy tắc: Bác bỏ (H) nếu t qs = b i−β i,0 s b i
0 Đây là bài toán kiểm định một phía, trong đó phân vị mức α = 0.05 của phân bố Student với 23 bậc tự do được xác định từ hệ thức P(t ≥ tα) = 0.05 Sử dụng lệnh TINV(0.1, 23) cho kết quả t0.05 = 1.71387.
Giá trị quan sát t qs = b 2 s b 2
Chúng ta bác bỏ giả thuyết không (H): β2 = 0 Ngay cả với mức ý nghĩa α = 0.01, giá trị phân vị một phía t0.01 = 2.45 vẫn thấp hơn nhiều so với giá trị quan sát tqs = 5.38 Do đó, có đủ cơ sở để bác bỏ giả thuyết không.
3 Kiểm định giả thiết đồng thời cho các tham số của hồi quy
Kiểm định giả thiết không
H 1 : Tồn tại ít nhất một i:β i 6= 0.
Nếu giả thuyết H0 đúng, hàm hồi quy tuyến tính sẽ có dạng y = α, cho thấy rằng các biến độc lập Xi không ảnh hưởng đến Y Việc kiểm định giả thuyết H0 thực chất là kiểm tra sự phụ thuộc tuyến tính giữa các biến.
SST = SSR + SSE, trong đó SSR thể hiện sự biến động giải thích bởi hồi quy, phản ánh mối quan hệ tuyến tính giữa biến phụ thuộc và các biến độc lập, còn SSE đại diện cho phần biến động không được giải thích Khi không có mối quan hệ tuyến tính giữa các biến ngẫu nhiên, SSR sẽ nhỏ hơn nhiều so với SSE Do đó, tỉ số SSR/SSE càng lớn cho thấy khả năng bác bỏ giả thuyết không (về mối quan hệ tuyến tính) càng cao Để tạo ra một thống kê như vậy, người ta sử dụng các kết quả phân tích này.
Nếu giả thiết H 0 : β 1 =β 2 =ã ã ã=β k = 0 đúng, khi đó
SSE/(n−k−1) có phân bố F với (k, n−k−1) bậc tự do Vậy ta có quy tắc ở mức α (mức ý nghĩa của kiểm định là α)
Bác bỏ H 0 nếu F qs = SSR/k
SSE/(n−k−1) > F k,n−k−1,α , trong đó F k,n−k−1,α là phân vị phân bố F mức α
Nhận xét rằng do R 2 = SSR SST = 1− SSE
SST , suy ra giá trị quan sát
Giá trị quan sát F qs này có mặt trong bảng kết quả (dòng thứ t-) của lệnh
LIN EST đã nói tới trong mục 3.2.4.
Trở lại ví dụ về sản l-ợng giống cây trồng, giá trị F qs = 34.1724 (trang
51), hoặc ta có thể tính trực tiếp
Với mức ý nghĩa 1%, F k,n−k−1,α=F 2,23,0.01= 5.66, nhỏ hơn rất nhiều so với
F qs = 34.1724, ta bác bỏ giả thiết H 0.
4 Kiểm định giả thiết đồng thời cho một tập con các tham số của hồi quy
Giả thiết rằng ta cần kiểm định k 1 tham số đầu tiên của hồi quy bằng 0.
H 0 : β 1 =β 2 =ã ã ã=β k 1 = 0 (Với đối thiết H 1 : Tồn tại ít nhất một i,1≤i≤k 1 :β i 6= 0.) Nếu giả thiết H 0 đúng, các biến X 1 , X 2 , , X k 1 không có ảnh h-ởng gì tới
Y, do vậy ta tiến hành -ớc l-ợng hồi quy của Y chỉ thông qua các biến
Khi đó ta hy vọng tổng bình ph-ơng các sai số SSE của mẫu hồi quy cũ khác nhiều so với SSE ∗ của mẫu hồi quy mới.
SSE/(n−k−1) có phân bốF với (k 1 , n−k−1) bậc tự do Vậy ta có quy tắc ở mứcα
Bác bỏ H 0 nếu F qs= (SSE ∗ −SSE)/k 1
Với mẫu hồi quy nh- đã đề cập, các ký hiệu b1, b2, , bk đại diện cho các ước lượng hệ số hồi quy theo phương pháp bình phương bé nhất Khi áp dụng cho mẫu thứ n+1 của các biến độc lập, kết quả sẽ được tính toán dựa trên những ước lượng này.