Tổng quan về thống kê Bayes
Thống kê Bayes đang trở nên phổ biến trong việc xây dựng các mẫu thống kê cho vấn đề thực tế, với ứng dụng rộng rãi từ khảo cổ học đến tính toán trong những năm gần đây Phương pháp này kết hợp thông tin từ dữ liệu thực nghiệm với kiến thức có sẵn, thông qua suy luận Bayes Trong mô hình xác suất, y đại diện cho dữ liệu thực tế và θ là tham số chưa biết, với hai cách hiểu khác nhau về tham số θ tương ứng với thống kê tần suất và thống kê Bayes.
Trong khi suy luận thống kê cổ điển coi tham số θ là một giá trị cố định chưa biết, thống kê Bayes lại xem θ như một biến ngẫu nhiên, cho phép mô hình hóa nó bằng một phân bố xác suất thể hiện sự chắc chắn về giá trị thực Sự khác biệt này là cơ sở cho hai lý do chính khiến thống kê Bayes hiệu quả hơn: thứ nhất, các kết luận Bayes được xây dựng có điều kiện dựa trên thông tin tiên nghiệm và mẫu dữ liệu thu thập được; thứ hai, trong quan điểm Bayes, việc nói về xác suất để tham số rơi vào khoảng ước lượng là hoàn toàn hợp lý do tính chất ngẫu nhiên của tham số.
Suy luận Bayes dựa trên định lý Bayes, cho phép xác định xác suất xảy ra của một sự kiện ngẫu nhiên khi biết các sự kiện liên quan Trong đó, biến ngẫu nhiên X có các giá trị x1, x2, , xI không quan sát được, trong khi biến ngẫu nhiên Y, phụ thuộc vào các tham số, có các giá trị y1, y2, , yJ và được quan sát Để suy luận về biến ngẫu nhiên X khi Y = yj, ta áp dụng định lý Bayes Gọi f là phân phối chứa biến ngẫu nhiên Y và g là phân phối chứa tham số biến ngẫu nhiên X, phân phối đồng thời được biểu diễn bởi f(xi, yj) = g(xi)f(yj|xi), trong khi phân phối biên duyên của Y là n.
P i=1 g(x i )f(y j /x i ) Phân phối hậu nghiệm của X/Y = y j là: g(x i /y j ) = g(x i )f(y j /x i ) n
Phân phối xác suất tiên nghiệm g(x i ) của biến ngẫu nhiên rời rạc X thể hiện xác suất của mỗi giá trị xi trước khi có dữ liệu quan sát, được hình thành từ kinh nghiệm thay vì từ dữ liệu Khi chúng ta quan sát giá trị Y = y j, ta có thể xác định hàm hợp lý f(y j /x i ).
Suy luận Bayes cho biến ngẫu nhiên rời rạc
Định lý Bayes cho tỷ lệ p của phân phối nhị thức với tiên nghiệm rời rạc
thức với tiên nghiệm rời rạc
Ví dụ 1.1: Y /p ∼ B(4, p) Giả sử xem xét 3 giá trị có thể có cho p là:0,4; 0,5; 0,6 ( giả định chúng như nhau) Bảng phân phối đồng thời, phân p Tiên nghiệm 0 1 2 3 Hậu nghiệm
Hệ quả quan trọng của định lý Bayes:
• Nhân 1 hằng số với tiên nghiệm không làm thay đổi kết quả định lý Bayes.
• Nhân hàm hợp lý với một hằng số không làm thay đổi kết quả định lý Bayes.
Trong tính toán phân phối hậu nghiệm, việc tìm mật độ biên duyên và mật độ hậu nghiệm thường gặp khó khăn Do đó, chúng ta thường sử dụng phân phối tiên nghiệm mà có thể tính toán dễ dàng hơn cho phân phối hậu nghiệm Những tiên nghiệm này được gọi là tiên nghiệm liên hợp.
Định lý Bayes cho tỷ lệ p của phân phối nhị thức sử dụng tiên nghiệm liên tục
thức sử dụng tiên nghiệm liên tục a Sử dụng tiên nghiệm đều
Cho Y ∼B(n, p) Sử dụng tiên nghiệm đều: g(p) = 1,0≤ p ≤1.
Ta thấy phân phối hậu nghiệm là một hàm củapvà phân phối này là phân phối Beta (a; b) với a = y + 1, b = n−y + 1. b Sử dụng tiên nghiệm Beta
Tiên nghiệm phân phối Beta (a; b) có mật độ: g(p, a, b) = Γ(a+b) Γ(a)Γ(b)p a−1 (1−p) b−1 , Hậu nghiệm tương ứng: g(p/y) = g(p, a, b)f(y/p)
0 g(p, a, b)f(y/p)dp ∝ p a+y−1 (1−p) b+n−y−1 Đây cũng là phân phối Beta (a’; b’) với a 0 = a+y;b 0 = b+n−y.
Tiên nghiệm Beta (a; b) là tiên nghiệm liên hợp cho tỷ lệ p của phân phối nhị thức, trong đó tiên nghiệm đều là trường hợp đặc biệt với a=b=1 Việc lựa chọn Beta (a; b) phù hợp với niềm tin về trung bình và độ lệch chuẩn là rất quan trọng Trung bình tiên nghiệm được tính bằng p0 = a / (a+b) và độ lệch tiêu chuẩn tiên nghiệm là σ0 = √(ab).
Ba sinh viên đang nghiên cứu niềm tin của người dân về việc xây dựng sòng bạc tại Hamilton Sinh viên Anna cho rằng phân phối tiên nghiệm có giá trị trung bình là 0,2 và độ lệch chuẩn là 0,8 Để mô hình hóa niềm tin này, họ sử dụng phân phối Beta với các tham số a và b phù hợp.
Suy ra tiên nghiệm của Ann là Beta (4,8; 19,2).
Sinh viên Bart, không nắm rõ thông tin về khu vực này, đã quyết định áp dụng tiên nghiệm đều với tiên nghiệm Beta(1; 1) Sau khi thực hiện, sinh viên nhận được kết quả g(p).
Giả sử các sinh viên lấy mẫu n = 100, quan sát được y = 26 Khi đó hậu nghiệm của Anna là: Beta(a + y; b + n - y) = Beta(4,8 + 26; 19,2 + 74) = Beta(30,8; 93,2).
Hậu nghiệm của Bart là: Beta(1 + 26; 1 + 74) = Beta(27; 75).
Hậu nghiệm của Chris là: g(p/y) = g(p)f(y/p)
Ta thấy hậu nghiệm của Anna, Bart, Chris là tương tự nhau dù các tiên nghiệm là khác nhau , được thể hiện trong các hình vẽ sau:
Phân phối hậu nghiệm tóm tắt niềm tin của chúng ta về các tham số sau khi đã cập nhật dữ liệu Chúng ta thường chú ý đến một số đặc trưng quan trọng, bao gồm vị trí trung tâm và độ phân tán của phân phối này.
Kỳ vọng hậu nghiệm: m 0 = R 0 1 pg(p/y)dp Khi hậu nghiệm là phân phối Beta(a’; b’) thì m 0 = a 0 a 0 +b 0 Phương sai hậu nghiệm: var(p/y) = R 0 1 (p − m 0 ) 2 g(p/y)dp Khi hậu nghiệm là phân phối Beta(a’; b’) thì: var(p/y) = a 0 b 0
Ước lượng cho tỷ lệ p của phân phối nhị thức
Có 2 phương pháp ước lượng hay dùng là ước lượng điểm và ước lượng khoảng Các yêu cầu cần có của ước lượng là:
Tính không chệch E(ˆθ) = R θfˆ (ˆθ/θ)dθˆ= θ, trong đó f(ˆθ/θ) là phân phối mũ của ước lượng θˆcho tham số θ, có sai số ngẫu nhiên là bias(ˆθ) Eθˆ−θ.
Sai số trung bình bình phương của một ước lượng nhỏ:
M S(ˆθ) =E(ˆθ−θ) 2 Z (ˆθ−θ) 2 f(ˆθ/θ)dθˆ= V ar(ˆθ) + bias 2 (ˆθ). a Ước lượng điểm i Theo tần suất Ước lượng cho p là pˆ F = y n với:
M S(ˆpF) =V ar(ˆpF) = p(1−p) n ii Theo Bayes nghiệm đều Beta(1; 1) thì ước lượng cho p là ˆ p B = a 0 a 0 + b 0 với
Ước lượng điểm theo Bayes có sai số trung bình bình phương nhỏ hơn ước lượng tần suất, cho thấy ước lượng Bayes là lựa chọn ưu việt hơn Đồng thời, trong lĩnh vực tần suất, ước lượng khoảng cũng đóng vai trò quan trọng trong việc xác định độ tin cậy của các ước lượng.
Ta dùng khoảng tin cậy để ước lượng cho p Khoảng tin cậy(1−α).100% cho p là ˆ p F −z α/2 rpˆ F (1−pˆ F ) n ,pˆ F +z α/2 rpˆ F (1−pˆ F ) n
Ví dụ 1.2[9] (tiếp): Mẫu ngẫu nhiên của họ là n = 100, y = 26 là số người nói đồng ý xây dựng sòng bạc ở Hamilton Khoảng tin cậy 95% cho p là
Chúng ta sử dụng khoảng tin được Bayes (Bayesian credible interval) để ước lượng chop, với tiên nghiệm là phân phối Beta(a; b) và phân phối hậu nghiệm tương ứng là Beta(a’, b’) Để tìm khoảng tin được chop, chúng ta áp dụng phân phối hậu nghiệm xấp xỉ phân phối chuẩn với kỳ vọng và phương sai được xác định như sau: (p/y) ∼ N(m₀, s₀²), trong đó m₀ = a₀ / (a₀ + b₀) và s₀² = a₀ b₀.
Khoảng tin được (1−α).100% cho p là: m 0 −z α/2 s 0 ; m 0 +z α/2 s 0 (z α/2 là giá trị tìm được từ phân phối chuẩn tắc) Chẳng hạn với khoảng tin được 95%, z α/2 = 1,96 Việc lấy xấp xỉ là tốt nếu a 0 ≥ 10, b 0 ≥ 10.
Ba sinh viên Anna, Bart và Chris đã tính toán khoảng tin cậy bằng hai phương pháp: sử dụng hàm mật độ chính xác Beta và xấp xỉ chuẩn Kết quả của họ được trình bày trong bảng dưới đây.
Phân phối Khoảng tin được Khoảng tin được hậu nghiệm chính xác xấp xỉ chuẩn Anna Beta(30,8; 93,2) (0,177; 0,328) (0,172; 0,324)
Ta thấy ba kết quả là tương tự nhau và giống với khoảng tin cậy theo tần suất ở trên.
Kiểm định giả thiết cho tỷ lệ p của phân phối nhị thức
nhị thức a Kiểm định một phía i Theo tần suất
Để xác định tỷ lệ bệnh nhân được hưởng lợi từ điều trị mới so với điều trị theo tiêu chuẩn, ta gọi p là tỷ lệ bệnh nhân hưởng lợi từ điều trị mới và biết rằng p0 = 0,6 Trong một nhóm 10 bệnh nhân được điều trị mới, nếu quan sát được Y = 8, điều này cho thấy kết quả tốt hơn mong đợi khi p = 0,6 Tuy nhiên, để kết luận rằng p > 0,6 với mức ý nghĩa α = 10%, cần thực hiện các bước kiểm định thống kê.
2 Phân phối không của kiểm định thống kê là phân phối đơn giản của kiểm định cho giả thuyết không là đúng Trong trường hợp này, phân phối có dạng nhị thức B(n = 10;p= 0,6).
3 Chọn mức ý nghĩa α = 5% , Y có phân phối rời rạc, chỉ có một vài giá trị của α, vì thế chúng ta có thể chọn một giá trị ở ngay phía trên hoặc dưới 5%.
4 Miền bác bỏ được chọn sao cho nó có xác suất của α dưới phân phối không Nếu chọn Y ≥9 thì α = 0,0463.
5 Nếu giá trị kiểm định thống kê cho mẫu nằm trong miền bác bỏ thì bác bỏ giả thuyết H 0 tại α Trong trường hợp này y = 8 thuộc miền chấp nhận Ta chấp nhận giả thuyết H0 : p≤ 0,6.
6 p - giá trị là xác suất của những gì quan sát được đưa ra để đo lường sức mạnh của bằng chứng chống lại giả thuyết Trong trường hợp này p - giá trị = 0,1672 n
Nếu p - giá trị nhỏ hơn α, kiểm định thống kê sẽ nằm trong miền bác bỏ; ngược lại, nếu p - giá trị lớn hơn α = 0,05, như trong trường hợp y = 8, thì nó nằm trong miền chấp nhận Do đó, không có đủ bằng chứng để khẳng định rằng p lớn hơn 0,6.
H 1 = p > p 0 tại mức ý nghĩa α Phương pháp Bayes là cách dễ hiểu, chúng ta cần làm các tính toán xác suất hậu nghiệm bằng cách
Bác bỏ giả thuyết H0 nếu xác suất hậu nghiệm nhỏ hơn α.
Chúng ta áp dụng tiên nghiệm Beta (1; 1) cho p, và với y = 8, hậu nghiệm cho p trở thành Beta (9; 3) Từ đó, xác suất hậu nghiệm cho giả thuyết không được tính là P(p ≤ 0,6/y = 8) = R 0 0,6 Γ(3)Γ(9) Γ(12) p 8 (1−p) 2 dp, cho kết quả là 0,1189, lớn hơn 0,05, điều này cho thấy không thể bác bỏ giả thuyết H0 ở mức α = 5%.
Ví dụ 1.4: Một đồng xu được tung 15 lần, quan sát thấy 10 lần xuất hiện mặt ngửa, xác suất p= 0,5.
1 Thiết lập giả thuyết và đối thuyết
2 Phân phối không là giả thuyết của Y khi giả thuyết là đúng, có phân phối nhị thức B(n= 15;p = 0,5).
3 Y có phân phối rời rạc, chúng ta chọn mức ý nghĩa cho kiểm định là 5%.
4 Chọn miền bác bỏ sao cho nó có xác suất củaα dưới giả thuyết không.Nếu ta chọn miền bác bỏ {Y ≤ 3} ∪ {Y ≥ 12} thì α = 0,0352.
5 Nếu giả thuyết của kiểm định nằm trong miền bác bỏ thì chúng ta bác bỏ giả thuyết H0 tại α, nếu không chúng ta không thể bác bỏ H0. Trong trường hợp này y = 10 nằm trong miền bác bỏ, chúng ta không thể bác bỏ H 0
6 p - giá trị = P(Y ≥ 10) +P(Y ≤ 5) = 2P(Y ≥ 10) = 0,302 > α, chúng ta không thể bác bỏ giả thuyết H 0 ii Theo Bayes
Theo quan điểm Bayes, phân phối hậu nghiệm của tham số là công cụ quan trọng để kiểm định giả thuyết Khi áp dụng tiên nghiệm liên, khoảng tin cậy Bayes cho p được sử dụng: nếu p0 nằm trong khoảng tin cậy, giả thuyết H0 sẽ được chấp nhận; ngược lại, nếu p0 nằm ngoài khoảng này, giả thuyết H0 sẽ bị bác bỏ.
Nếu áp dụng tiên nghiệm là phân phối đều, thì hậu nghiệm sẽ là phân phối Beta(11, 6) Khoảng tin Bayes 95% cho p được xác định bằng cách sử dụng xấp xỉ chuẩn.
Giá trị p = 0,5 nằm trong khoảng tin được, vì vậy chúng ta không thể bác bỏ giả thuyết, nó là giá trị tin được Vậy ta chấp nhận giả thuyết
Suy luận Bayes cho biến ngẫu nhiên liên tục
Định lý Bayes cho trung bỡnh à của phõn phối chuẩn với tiên nghiệm rời rạc
chuẩn với tiên nghiệm rời rạc
Giả sử Y ∼ N(à, σ 2 ), với phương sai đó biết và hàm mật độ chuẩn là f(y) = √ 1
2πσe − 2σ 1 2 (y−à) 2 Nếu chỳng ta lựa chọn phõn phối tiờn nghiệm rời rạc cho à là g(à) thỡ: g(à/y) = g(à)f(y/à)
Trong đó hàm hợp lý có dạng giống như hàm mật độ chuẩn.
Giả sử có một mẫu ngẫu nhiên \( y_1, y_2, \ldots, y_n \sim N(\mu, \sigma^2 = 1) \) với giá trị quan sát là 3,2 Các giá trị cụ thể của \( \mu \) có thể là: 2, 2,5, 3, 3,5, và 4 Dưới đây là bảng thể hiện các thông tin liên quan đến ước lượng: \( \mu \), hàm hợp lý, ước lượng tối ưu và hàm hợp lý hậu nghiệm.
Định lý Bayes cho trung bỡnh à của phõn phối chuẩn với tiên nghiệm liên tục
chuẩn với tiên nghiệm liên tục a Phương sai đã biết
Cho y 1 , y 2 , , y n ∼ N(à, σ 2 ) với σ đó biết, nếu ta dựng tiờn nghiệm liờn tục cho à thỡ phõn phối hậu nghiệm là g(à/y 1 , y 2 , , y n ) = g(à)f(y1, y2, , yn/à)
Rg(à)f(y 1 , y 2 , , y n /à)dà. i Tiờn nghiệm là phõn phối đều: g(à) = 1, 0 ≤à < +∞.
• Nếu với một quan sỏt đơn giản: f(y/à) ∝ e − 2σ 1 2 (y−à) 2 thỡ phõn phối hậu nghiệm là phõn phối chuẩn: g(à/y) ∝ e − 2σ 1 2 (à−y) 2
• Nếu có n quan sát: ta có mẫu ngẫu nhiên y 1 , y 2 , , y n Ta có y¯ ∼
N(à, σ n 2 ) Hàm hợp lý: f(¯y/à) ∝ e − 2σ 1 2 (¯ y−à) 2 Do đú phõn phối hậu nghiệm là phõn phối chuẩn: g(à/y)¯ ∝ e − 2σ 1 2 (à−¯ y) 2 Ta cú: (à/y) ∼
N(m 0 , s 0 2 ), trong đó: m 0 = ¯y và s 02 = σ n 2 ii Tiờn nghiệm là phõn phối chuẩn: à ∼ N(m, s 2 ), g(à) ∝ e − 2s 1 2 (à−m) 2 + Nếu Y là một quan sỏt đơn giản: f(y/à) ∝ e − 2σ 1 2 (y−à) 2 thỡ phõn phối hậu nghiệm: g(à/y) ∝ g(à)f(y/à) ∝ e −
2 s σ 2 +σ 2 s 2 2 h à− σ 2 m+s 2 y s 2 + σ 2 i2o Suy ra phõn phối hậu nghiệm là phõn phối chuẩn: (à/y) ∼ N(m 0 ;s 02 ) với m 0 = σ 2 m+ s 2 y s 2 +σ 2 1 s 2 1 s 2 + σ 1 2 m+
+ Nếu cú nhiều quan sỏt với mẫu ngẫu nhiờn y1, y2, , yn, f(¯y/à) ∝ e − 2σ n 2 (¯ y−à) 2 thỡ phõn phối hậu nghiệm cú dạng g(à/¯y) ∝ e − 2s n 02 (−¯ y+m 0 ) 2
Hậu nghiệm là phõn phối chuẩn (à/y)¯ ∼N(m 0 ;s 02 ) Trong đú m 0 = σ 2 m+ ns 2 y¯ ns 2 + σ 2 1 s 2 1 s 2 + σ n 2 m+ n σ 2 1 s 2 + σ n 2 ¯ y, s 0 = σ 2 s 2 ns 2 +σ 2 ⇒ 1 s 02 = 1 s 2 + n σ 2
Tiờn nghiệm chuẩn là tiờn nghiệm liờn hợp cho tham số à của biến ngẫu nhiên có phân phối chuẩn.
Ba sinh viên Arnie, Bard và Chuck tiến hành ước lượng chiều dài trung bình của cá hồi một năm tuổi trên một dòng suối Theo nghiên cứu trước đó, chiều dài của cá hồi tuân theo phân phối chuẩn với độ lệch chuẩn đã biết là 2cm Arnie áp dụng tiên nghiệm chuẩn N(30; 4²) trong nghiên cứu của mình.
Bart không biết phân tích về cá hồi nên đã sử dụng tiên nghiệm đều.
Chuck đã chọn sử dụng tiên nghiệm hình thang có trọng số, với các kích thước lần lượt là 18cm tại 0, 24cm tại 1, và 40cm, sau đó giảm xuống 0 tại 46cm Để tìm giá trị tiên nghiệm cho à, Chuck áp dụng công thức nội suy tuyến tính giữa các giá trị Họ thực hiện lấy mẫu với n = 12 và tính trung bình mẫu y¯ đạt 32cm.
Hậu nghiệm của Arnie cú phõn phối chuẩn (à/y)¯ ∼ N(m 0 ;s 02 ) trong đú: ¯ y ∼N(à,σ 2
Barb có hậu nghiệm là N(m 0 ;s 02 ) trong đó s 0 = σ n 2 = 2 12 2 = 0,3333 → s 0 0,5774, m 0 = ¯y = 32.
Chuck tìm hậu nghiệm sử dụng công thức: g(à/y 1 , y 2 , , y n ) = g(à)f(y 1 , y 2 , , y n /à)
Rg(à)f(y 1 , y 2 , , y n /à)dà.Hậu nghiệm của Arnie, Barb, Chuck là tương tự nhau và được thể hiện trong hình sau: b Phương sai chưa biết
Ta tính phương sai mẫu σˆ 2 = n−1 1 n
(yi−y)¯ 2 dựa vào dữ liệu của mẫu và tính s 0 , m 0 tương tự trên, trong đó thay σ bởi σ.ˆ
Ước lượng cho trung bỡnh à của phõn phối chuẩn
Cho y 1 , y 2 , , y n là một mẫu ngẫu nhiên từ một phân phối chuẩn
Y ∼N(à;σ 2 ) cú phõn phối mẫu tương ứng là y¯∼ N à, σ n 2 i Theo tần suất
Sử dụng y¯để ước lượng khụng chệch cho à : ˆ à F = ¯y. ii Theo Bayes
Sử dụng kỳ vọng của à trong phõn phối hậu nghiệm để ước lượng cho à ˆ à B = E(à/y 1 , y 2 , , y n ) = m 0 1 s 2 1 s 2 + σ n 2 m+ n σ 2 1 s 2 + σ n 2 ¯ y.
M S(ˆà B ) =bias 2 +V ar(ˆà), M S(ˆà F ) = σ 2 n Tương tự như đối với p ta cũng cú M S(ˆà B ) < M S(ˆà F ) : Ước lượng theoBayes tốt hơn tần suất. b Ước lượng khoảng i Theo tần suất
Khoảng tin cậy (1−α).100% cho à là: ¯ y −z α/2 σ
Sử dụng khoảng tin được Bayes để ước lượng cho à.
- Nếu phương sai đã biết: Nếu sử dụng tiên nghiệm là phân phối đều hoặc phõn phối chuẩn N(m, s 2 ) thỡ phõn phối hậu nghiệm của à là
N(m 0 , s 02 ) Một khoảng tin được Bayes (1−α).100% cho à là m 0 ±z α/2 s 0 , trong đó z α/2 là giá trị tìm từ bảng chuẩn tắc.
- Nếu phương sai chưa biết: Tính phương sai mẫu từ dữ liệu ˆ σ 2 = n−1 1 n
Khoảng tin được cho giá trị trung bình mẫu (yi−y)¯ 2 và các tham số m 0, s 02 sẽ được mở rộng bằng cách sử dụng giá trị từ bảng phân phối Student thay vì phân phối chuẩn tắc Khoảng tin Bayes được tính theo công thức: m 0 ± t α/2 s 0.
Khi áp dụng tiên nghiệm không chuẩn, phân phối hậu nghiệm cũng sẽ không đạt chuẩn Do đó, chúng ta có thể xác định khoảng tin cậy Bayes (1−α).100% như sau:
Arnie, Barb và Chuck đã xác định chiều dài của cá hồi cú phỗn phối chuẩn N(μ, σ² = 22) Họ thu thập mẫu ngẫu nhiên với kích thước n = 12 và tính được trung bình mẫu ȳ = 32cm Khoảng tin cậy 95% cho giá trị trung bình μ được tính theo công thức ȳ ± z0,025.
Khoảng tin được 95% cho à của Arnie, Barb, Chuck theo Bayes lần lượt là (30,84; 33,08); (30,87; 33,13); (30,82; 33,07).
Ta thấy các kết quả thu được theo tần suất và Bayes là tương tự nhau.
Kiểm định giả thuyết cho trung bỡnh à
a Kiểm định giả thuyết 1-phớa cho à i Theo tần suất
Xét bài toán kiểm định:
Miền bỏc bỏ 1-phớa tại mức α là z = y¯−à 0 σ/√ n > zα, p-giỏ trị= P Z ≥ y¯−à 0 σ/√ n
Nếu p-giá trị < α, bác bỏ giả thuyết H 0 ii Theo Bayes
1 Ta xét bài toán kiểm định
2 Kiểm định Bayes, sử dụng cách tính xác suất hậu nghiệm của giả thuyết không.
Khi phân phối hậu nghiệm là N(m 0 , s 02 ) thì
, trong đó Z ∼ N(0,1) Nếu xác suất nhỏ hơn α, chúng ta bác bỏ giả thuyết H 0
Ví dụ 1.6 [10] (tiếp): Arnie, Barb, Chuck đọc một tạp chí cho rằng chiều dài có hồi trong vòng một năm là 31cm Kiểm định
12 = 1,732> 1,645; bác bỏ giả thuyết H 0 + Tính p-giá trị= P
Z ≤ 31−31,96 0,5714 = 0,0465 Bác bỏ Barb N(32; 0,5714 2 ) P Z ≤ 31−32 0,5774 = 0,0416 Bác bỏ Chuck Lấy tích phân R31
−∞g(à ≤ /y 1 , y 2 , , y n )dà = 0,0489 Bỏc bỏ Kết quả nhận được là giống với tần suất. b Kiểm định giả thuyết 2-phớa cho à i Theo tần suất
Xét bài toán kiểm định
Ta chú ý miền bác bỏ cho kiểm định 2-phía tại mức α là Z y −à0 σ/√ n
> z α/2 và điều này tương đương với à0 < y−z α/2 σ
Ta thấy nếu bỏc bỏ giả thuyết tại α thỡ à0 nằm ngoài khoảng tin cậy
(1−α).100% Tương tự ta chấp nhận H 0 thỡ à 0 nằm trong khoảng tin cậy cho à. ii Theo Bayes
Chúng ta kiểm định 2-phía
Trong kiểm định Bayes, khi sử dụng tiên nghiệm liên tục, xác suất hậu nghiệm của giả thuyết không thể bằng không Do đó, khoảng tin cậy Bayes được áp dụng để xác định tính chính xác của giả thuyết.
Chuỗi Markov
Quá trình Markov
Xét một hệ thống tiến triển theo thời gian, với X(t) đại diện cho vị trí hoặc tình trạng của hệ tại thời điểm t Mỗi thời điểm t, X(t) được xem như một biến ngẫu nhiên mô tả trạng thái của hệ thống.
Quá trình {X (t) } t≥0 được gọi là một quá trình ngẫu nhiên.
Tập hợp tất cả các trạng thái có thể có của hệ được gọi là không gian trạng thái, kí hiệu S. b Quá trình Markov
Tính Markov mô tả một hệ thống mà xác suất chuyển trạng thái tại một thời điểm t (t > s) chỉ phụ thuộc vào trạng thái hiện tại i và thời gian s, mà không bị ảnh hưởng bởi các trạng thái trong quá khứ Cụ thể, nếu tại thời điểm s hệ ở trạng thái i và chúng ta muốn biết xác suất để hệ ở trạng thái j tại thời điểm t, thì xác suất này chỉ phụ thuộc vào bộ bốn (s, i, t, j).
Quá trình ngẫu nhiên {X (t) } có tính chất như trên được gọi là quá trình Markov. c Phân loại quá trình Markov
Nếu tập các giá trị t không quá đếm được (t = 0,1,2, ), ta có quá trình Markov với thời gian rời rạc
Nếu t ∈ [0,∞), ta có quá trình Markov thời gian liên tục. d Quá trình Markov thuần nhất thời gian
Xét một chuỗi Markov Nếu xác suất chuyển trạng thái p(s, i, t, j) =p(s+h, i, t+h, j), ∀i,∀j,∀t và ∀h >0 ta nói chuỗi Markov thuần nhất theo thời gian.
Không gian trạng thái rời rạc
Nếu không gian trạng thái S chứa một số hữu hạn hoặc vô hạn đếm được các trạng thái, thì quá trình Markov {X(t)} được gọi là chuỗi Markov (xích Markov) với trạng thái rời rạc.
Xét chuỗi Markov rời rạc và thuần nhất theo thời gian {X(t)}, với t = 0, 1, 2, và không gian trạng thái S gồm N phần tử S = {1, 2, 3, , N} Để phân tích chuỗi này, ta cần xây dựng ma trận xác suất chuyển trạng thái, mô tả xác suất chuyển từ trạng thái này sang trạng thái khác trong không gian S.
Kí hiệu: p ij = p(X (t+1) = j|X (t) = i) ∀t được gọi là xác suất chuyển trạng thái từ vị trí i sang vị trí j sau một bước.
Ma trận xác suất chuyển trạng thái được xây dựng bằng cách liệt kê tất cả các trạng thái theo hàng và cột, sau đó điền vào xác suất chuyển trạng thái tương ứng Ma trận P = [p ij ] N ×N được gọi là ma trận xác suất chuyển trạng thái sau một bước, trong khi p n là ma trận xác suất chuyển trạng thái sau n bước Vectơ phân phối kiện π (m) = (π 1 (m), π 2 (m), , π N (m)) thỏa mãn điều kiện π 1 (m) + π 2 (m) + + π N (m) = 1, được gọi là vectơ phân phối tại thời điểm t = m Tại t = 0, vectơ phân phối ban đầu được ký hiệu là π (0) = (π 1 (0), π 2 (0), , π N (0)).
Cho P là ma trận xác suất chuyển trạng thái của chuỗi Markov Xác suất để chuỗi ở trạng thái i sau n bước được xác định bởi thành phần thứ i trong vectơ: π(n) = πP^n Một khái niệm quan trọng trong chuỗi Markov là phân phối giới hạn.
Phân phối (π1, π2, , πN) thỏa mãn điều kiện π 1 +π 2 + + π N = 1 n→∞lim p (n) ij = πj không phụ thuộc i được gọi là phân phối giới hạn. ii Phân phối Ergodic
Phân phối (π 1 , π 2 , , π N ) thỏa mãn điều kiện π 1 +π 2 + + π N = 1 n→∞lim p (n) ij = π j không phụ thuộc i π j > 0,∀j được gọi là phân phối ergodic. iii Phân phối dừng
Chuỗi Markov rời rạc và thuần nhất với ma trận xác suất chuyển trạng thái P có phân phối dừng π ∗ thỏa mãn điều kiện π ∗ = π ∗ P Phân phối dừng này là duy nhất nếu phân phối giới hạn tồn tại.
Phương pháp chuỗi Markov Monte Carlo (MCMC)
Để áp dụng mô hình xác suất f(y, θ) thông qua MCMC, cần xây dựng chuỗi Markov trên tập trạng thái θ ∈ Θ, với phân phối dừng là phân phối hậu nghiệm của mô hình f(y, θ) MCMC cho phép xấp xỉ mật độ hậu nghiệm bằng cách sử dụng các mẫu rút ra từ hàm mật độ, tạo ra tập M mẫu {θ (1), , θ (M)}, trong đó mỗi mẫu được lấy từ f(θ|y).
Trong thống kê Bayes, thông tin được phản ánh qua phân phối hậu nghiệm f(θ|y), trong đó tham số θ được xem như một biến ngẫu nhiên Sau khi dữ liệu y được sử dụng để ước lượng θ, giá trị của θ sẽ được cập nhật Để đơn giản hóa, ta thay thế θ bằng biến ngẫu nhiên x tương ứng, dẫn đến việc phân phối hậu nghiệm trở thành f(x) Ý tưởng là chúng ta có thể lấy các mẫu x (1), , x (M) từ f(x), tức là x (t) ∼ f(x).
Phần lớn các đại lượng cần suy luận được tính toán từ tập mẫu {x(t)} M t=1, phản ánh các đặc trưng của f(x) Mô hình hóa dữ liệu là một bước quan trọng trong quá trình này.
MCMC hoạt động theo cách mô phỏng một chuỗi Markov thời gian rời
Chuỗi được khởi tạo giá trị ban đầu x (0)
Tính chất Markov chỉ ra rằng phân phối x (t+1) |x (t) , x (t−1) , chỉ phụ thuộc vào trạng thái hiện thời x (t)
Ma trận xác suất chuyển trạng thái sau n bước
Trong đó A là tập trạng thái của x.
MCMC xây dựng chuỗi Markov theo cách:
P n (x (0) , A) ≈ P(x) với một vài n tương ứng x (0) Thêm vào đó việc xấp xỉ tại mỗi bước:
|P n (x (0) , A)−P(x ∈ A)| → 0 khi n→ ∞ nghĩa là phân phối của trạng thái của chuỗi f(x (t) ) hội tụ tới phân phối mục tiêu f(x) khi t đủ lớn.
MCMC là một bước đột phá trong thống kê Bayes, cho phép mô phỏng dễ dàng các bài toán suy luận như f(θ|y), f(θ i |y), và f(˜y|y) Nhiều nhà khoa học đã nghiên cứu và phát triển các thuật toán thuộc phương pháp MCMC để giải quyết vấn đề lấy mẫu Trong số đó, thuật toán lấy mẫu Gibbs nổi bật với sức mạnh giải quyết vấn đề này, đặc biệt khi có sự hỗ trợ của máy tính điện tử.
Bài toán occam’s razor
Khái niệm
Nguyên tắc “Lưỡi dao cạo của Occam” do William Occam, nhà triết học Anh thế kỷ 14, đề xuất, nhấn mạnh rằng "Đối tượng không nên được phức tạp hóa khi không cần thiết" Nguyên tắc này khuyến khích việc ưu tiên những giả thuyết đơn giản nhất trong nghiên cứu và điều tra Trong suốt nhiều thế kỷ, “lưỡi dao cạo của Occam” đã chứng minh tính hiệu quả trong việc loại bỏ những yếu tố không cần thiết, giúp các nhà khoa học tập trung vào những giải thích có giá trị hơn, mặc dù họ có thể không luôn luôn trích dẫn nguyên tắc này một cách rõ ràng.
Nguyên tắc "Lưỡi dao cạo của Occam" khuyến khích chúng ta chọn giả thuyết đơn giản nhất phù hợp với dữ liệu Tuy nhiên, việc xác định giả thuyết ưa thích vẫn cần được xem xét kỹ lưỡng.
Occam’s razor trong bài toán của Galileo
Bài toán của Galileo đề cập đến việc thu thập dữ liệu về chuyển động của vật thể, tương tự như thí nghiệm nổi tiếng của ông tại tháp Pisa Trong thí nghiệm này, ông thả một vật có trọng lượng và ghi lại vị trí s của nó tại các thời điểm t trong quá trình rơi Mục tiêu là tìm ra một quy luật toán học mô tả chuyển động của vật thể, được thể hiện qua phương trình bậc hai quen thuộc với sinh viên vật lý: s = a + ut + 1.
Trong bài viết này, a, u và g là các thông số điều chỉnh có thể được gán giá trị tùy ý để phù hợp với dữ liệu thực nghiệm Cụ thể, a đại diện cho vị trí ban đầu của vật rơi, u là vận tốc ban đầu, và g là gia tốc do trọng lực.
Nhưng Galileo không hạn chế sự chú ý đến phương trình bậc hai Ông thấy có thể đề xuất một phương trình bậc ba, chẳng hạn như: s = a+ ut+ 1
Hệ số b là một tham số điều chỉnh thứ tư trong trường hợp này Không có lý do gì để không mở rộng đa thức lên bậc cao hơn Bằng cách thêm các điều kiện, phương trình có thể được phát triển đến bậc thứ tư, thứ năm hoặc thứ sáu của t.
Phương trình bậc hai được ưa chuộng bởi các nhà vật lý vì các hệ số a, u, g thường rất nhỏ, khiến cho các bậc cao hơn của t ít ảnh hưởng đến cấu trúc của các định luật vật lý Hơn nữa, mặc dù phương trình bậc cao có thể khớp chính xác với một bộ dữ liệu, nhưng khả năng dự đoán dữ liệu mới của chúng lại kém hiệu quả.
Trong một thí nghiệm với 7 kích thước, đa thức bậc sáu có thể phù hợp chính xác với dữ liệu, trong khi phương trình bậc hai sẽ gặp một số lỗi dư Tuy nhiên, khi thêm các kích thước bổ sung, đặc biệt là tại các giá trị t lớn hơn, phương trình bậc cao có thể gây ra những lỗi lớn hơn đáng kể so với phương trình bậc hai.
Các quan sát này có thể hỗ trợ việc bác bỏ định luật chuyển động gia tốc thông qua một phương trình bậc sáu, nhưng chúng không giải thích được một thực tế quan trọng: cả Galileo và một sinh viên vật lý hiện đại đều không xem xét phương trình bậc sáu từ đầu Họ ưa chuộng phương trình bậc hai vì tính đơn giản của nó, trong khi các đa thức bậc cao thường phức tạp một cách không cần thiết.
Bây giờ chúng ta sẽ tiếp cận bài toán Occam’s razor đối với việc lựa chọn mô hình hồi quy tuyến tính.
Occam’s razor trong mô hình hồi quy tuyến tính
Phụ thuộc tuyến tính
Trong phân tích thống kê, một tỷ lệ lớn các nghiên cứu liên quan đến các đại diện phụ thuộc nhau của các hiện tượng quan sát được Mục tiêu cuối cùng là tìm đại diện thích hợp cho các phân phối có điều kiện f(y|θ, x) dựa trên giá trị quan sát y và véc tơ quan sát x từ mẫu dữ liệu Tuy nhiên, việc ước lượng mật độ có điều kiện f thường vượt quá khả năng của chúng ta, và ước lượng θ cùng các đặc điểm của f thường được thực hiện trong khuôn khổ thống kê Bayes Phân phối của y được xác định bởi x thường được nghiên cứu trong bối cảnh các đơn vị thí nghiệm, chẳng hạn như bệnh nhân trong bệnh viện, với cả y và các biến x được đo lường Dữ liệu được tạo thành từ sự kết hợp của các véctơ y = (y₁, y₂, , yₙ).
Và ma trận cấp n×(k+ 1) của biến giải thích:
Nghiên cứu năm 1973 tại Mỹ đã sử dụng các bộ dữ liệu về sâu róm để đánh giá ảnh hưởng của nhiều yếu tố đến sự phát triển của chúng Biến kết quả được xác định là logarit biến đổi của số lượng trung bình sâu róm trên mỗi cây trong diện tích 500m² Nghiên cứu này bao gồm 10 biến số được định nghĩa trên 33 khu vực, bao gồm độ cao so với mực nước biển, độ dốc, số lượng cây thông, chiều cao và đường kính của cây mẫu, chỉ số mật độ định cư, định hướng khu vực, chiều cao cây chiếm ưu thế, số lượng thực vật tầng lớp địa tầng và chỉ số giải quyết.
Phân tích hồi quy nhằm xác định các biến giải thích có tác động mạnh đến số lượng các hệ số, trong khi một số biến như x1, x2, x8 và x9 chỉ ảnh hưởng hạn chế Mục tiêu là hiểu rõ cách các ảnh hưởng này tương tác và chồng chéo với nhau.
Mô hình hồi quy tuyến tính
Trong các mô hình hồi quy, chúng ta chú trọng vào mô hình hồi quy tuyến tính Gauss (chuẩn), trong đó giá trị kỳ vọng E[y|x, θ] là tuyến tính theo x và nhiễu tuân theo phân phối chuẩn Mô hình hồi quy tuyến tính chuẩn được biểu diễn dưới dạng: y|β, σ², X ∼ N n (Xβ, σ² I n).
Đối với sâu róm, với n = 33 và k = 10, chúng ta giả định rằng số logarit dự kiến y i của sâu róm trên mỗi cây trong một diện tích được mô phỏng như một tổ hợp tuyến tính của biến bị chặn cùng với 10 biến dự báo (i 1,2,…,10).
X j=1 β j x ij Trong đó sự thay đổi xung quanh kỳ vọng này là phân phối chuẩn.
Ước lượng cổ điển
Hàm hợp lý của mô hình tuyến tính chuẩn là: l(β, σ 2 |y, X) = (2πσ 2 ) − n 2 exp
(2.1) Ước lượng hợp lý cực đại của β là: βb = X T X −1 X T y Ước lượng βˆ là ước lượng không chệch với Eβb= β;V βb = σ 2 X T X −1 Tương tự, ước lượng không chệch của σ 2 là:
Và ma trận σb 2 X T X −1 xấp xỉ ma trận hiệp phương sai của β.ˆ Ta có thể xác định được một tiêu chuẩn t- thống kê là
∼ = n−k−1 (phân phối đa biến Student)
Trong đó ω (i,i) là phần tử (i, j) của ma trận (X T X) −1 t- thống kê được sử dụng trong kiểm định cổ điển Chẳng hạn:
√ ω (i,i) < F −1 n−k−1 1− α 2 , là đại lượng thứ 1− α 2 của phân phối
= n−k−1 Kiểm định tần suất bị ràng buộc bởi p-giá trị < α p i = P H 0 (|T i | > |t i |) < α,
Thống kê T i có thể được sử dụng để xây dựng trên các β i một khoảng tin cậy tần suất có dạng: n β i ; β i −βb i
Đối với sâu róm, ước lượng không chệch cho σ² là 0,688 Các tham số βi được ước lượng bằng lệnh R, trong đó β3, β6, β7, , β10 không có ý nghĩa theo mô hình cổ điển Điều kiện này chỉ có giá trị khi X là “ngoại sinh”, cho phép viết phân phối đồng thời của (y, X) dưới dạng: f(y, X|β, σ², α) = f(y|β, σ², X)f(X|α).
Trong đó (β, σ 2 ) và α là cố định.
Nếu X là “không ngoại sinh” ví dụ như X bao gồm các giá trị quá khứ của y, phân phối đồng thời phải được sử dụng để thay thế.
Bây giờ ta xét cách tiếp cận Bayes cho mô hình này.
Suy luận Bayes cho mô hình hồi quy tuyến tính
tính a Tiên nghiệm liên hợp
Ta chú ý rằng hàm hợp lý (2.1) thỏa mãn: l(β, σ 2 |y, X) = (2πσ 2 ) − n 2 exp
Hình dạng của hàm hợp lý (2.2) là Gauss/ Nghịch đảo Gammar Một tiên nghiệm liên hợp có thể được xây dựng cho mô hình này:
Tiên nghiệm điều kiện trên β : β|σ 2 , X ∼N k+1 β, σe 2 M −1
, Trong đó, M là ma trận cấp (k + 1, k + 1) là ma trận đối xứng xác định dương.
Tiên nghiệm biên duyên trên σ 2 : σ 2 |X ∼ IG(a, b), a, b >0 (IG: là hàm nghịch đảo Gammar)
Khi đó phân phối hậu nghiệm có điều kiện g(β|σ 2 , y, X) là:
Và phân phối hậu nghiệm biên duyên trên g(σ 2 |y, X) là:
(2.4) Chúng có dạng như phân phối tiên nghiệm.
Từ đó, ta ước lượng Bayes của β và σ 2 như sau:
Có mối liên hệ chặt chẽ giữa các ước lượng Bayes (2.5) của β và đỉnh hồi quy Ước lượng đỉnh được định nghĩa:
Và phụ thuộc vào yếu tố ổn định c Thiết lập: M = I k+1 c và βe = O k+1 trong phân phối tiên nghiệm, ta thấy ước lượng này là giống với trung bình hậu nghiệm.
Từ (2.3) và (2.4), ta có phân phối hậu nghiệm biên duyên của β là: g(β|y, X) ∝
Ta nhớ lại mật độ của một phân phối đa biến Student = p (υ, θ,Σ) là: f(t, υ, θ,Σ) = Γ ((υ +p)/2)/Γ (υ/2) pdet (Σ)υπ
Do đú, ta cú phõn phối hậu nghiệm biờn duyờn:(β|y, X) ∼ = k+1 n+ 2a,à,b Σb , trong đó: àb = M +X T X −1 X T X βb+Mβe (2.6) Σ =ˆ
Sự lựa chọn các siêu tham số trong các mô hình là rất quan trọng, tuy nhiên, điều này thường không dễ dàng trong thực tế Việc xây dựng niềm tin tiên nghiệm về mối tương quan giữa các thành phần của β thường gặp khó khăn Do đó, một trong những lý do mà M thường được chọn là đường chéo ma trận hoặc bội số của ma trận đơn vị là M = I k+1 c.
Trong ví dụ 2.1, khi nghiên cứu về sâu róm, chúng ta giả định không có thông tin chính xác về các siêu tham số a, b, βˆ và M Ví dụ, nếu ta chọn a = 2 và b = 2, điều này tương ứng với việc xác định trung bình tiên nghiệm và phương sai tiên nghiệm.
Bằng trực giác, phương sai tiên nghiệm là quá lớn để phân phối hậu nghiệm trở nên ít ảnh hưởng vào kết quả Tương tự, ta chọn βe= O k+1 và
Như trên, trực giác là nếu c lớn hơn, phân phối tiên nghiệm của β khuếch tán nhiều hơn và do đó mang tới ít kết quả.
Bảng 2.1 [10]: Ảnh hưởng lâu dài của c trên trung bình hậu nghiệm của σ 2 và β 0 , ước lượng Bayes chỉ ổn định cho giá trị rất lớn của c c E(σ 2 |y, X) E(β 0 |y, X) V ar(β 0 |y, X)
1000 0,5470 10,8476 7,3419Bảng 2.2 [10]: Ước lượng Bayes của β với c = 100 (mặc dù không minh họa ở đây, sự phụ thuộc vào (a, b) là rất chặt chẽ) β i E(β i |y, X) V ar(β i |y, X) β 0 9,6626 6,8355 β1 -0,0041 2×10 −6 β 2 -0,0516 0,0004 β 3 0,0418 0,0076 β 4 -1,2633 0,2615 β 5 0,2307 0,0090 β 6 -0,0832 1,9310 β 7 -0,1917 0,8254 β 8 0,1608 0,0046 β9 -1,2069 0,6127 β 10 -0,2567 0,4267
Một tiên nghiệm liên hợp tự nhiên cho thấy những hạn chế trong mô hình hiện tại Các siêu tham số có ảnh hưởng lâu dài, đặc biệt là đến phương sai hậu nghiệm, và cần có một giải pháp tốt hơn để thay thế.
Tiên nghiệm-G của Zellner sử dụng các thông tin tiên nghiệm có sẵn để giải quyết vấn đề lựa chọn của M Phương pháp này giúp cải thiện độ chính xác trong việc đưa ra quyết định dựa trên dữ liệu hiện có.
Tiên nghiệm-G của Zellner dựa trên một tiên nghiệm Gauss cho β và một tiên nghiệm Jeffeys cho σ 2 β|σ 2 , X ∼ N k+1 β, cσe 2 X T X −1 và g σ 2 |X ∝ σ −2 ,
Với tiên nghiệm này, phân phối hậu nghiệm của β là: g β, σ 2 |y, X ∝ f y|β, σ 2 , X g β, σ 2 |X
Phân phối hậu nghiệm biên duyên của β β|y, X ∼
Ước lượng Bayes của β và σ 2 được cho bởi
Phương trình (2.6) và (2.7) nhấn mạnh vào vai trò của c Khi c → ∞, ảnh hưởng của tiên nghiệm biến mất với tốc độ 1 c Hơn nữa:
Ví dụ 2.1 [10](tiếp): Vớiβe= 0 k+1 và c = 100,ước lượng tiên nghiệm-G của σ 2 cho sâu róm là 0,506; trong khi trung bình hậu nghiệm và phương sai hậu nghiệm là cho bởi:
Vớiβe= 0 k+1 và c = 1000, ước lượng tiên nghiệm-G của σ 2 cho sâu róm là 0,4899; trong khi trung bình hậu nghiệm và phương sai hậu nghiệm của β là cho bởi bảng sau
Bảng 2.4 [10] : β i E(β i |y, X) V ar(β i |y, X) β 0 10,9874 6,2604 β 1 -0,0044 2×10 −6 β2 -0,0538 0,0003 β 3 0,0679 0,0066 β 4 -1,2923 0,2125 β5 0,2314 0,0073 β 6 -0,3564 1,6403 β 7 -0,2372 0,6765 β 8 0,1809 0,0375 β 9 -1,2840 0,5100 β10 -0,4327 0,3670 i Khoảng tin được Bayes (HPD)
Thông tin về các véc tơ tham số β có thể được xác định từ phân phối hậu nghiệm biên của β Đối với một tham số đơn lẻ, ta có thể diễn đạt rằng β i |y, X ∼.
Trong đó ω (i,i) là phần tử thứ (i, i) của ma trận (X T X) −1
Với các thành phần K (i,i) , xét các biến đổi τi = β i −T i
√κ (i,i) ∼ = n , Khi đó khoảng tin được Bayes (1−α) được cho bởi
Phân phối biên duyên của y là phân phối đa biến t Từ β|σ 2 , X ∼
N k+1 β, cσe 2 X T X −1 , biến đổi tuyến tính của β thỏa mãn
Sử dụng g σ 2 = 1 σ 2 , ta có ii Thống kê bayes bằng nhân tố bayes
Xét bài toán kiểm định
Ta định nghĩa nhân tố Bayes củaH 0 đối với H 1 với phân phối tiên nghiệm g là:
Tỷ lệ P(θ ∈ Θ 1 )/P(θ ∈ Θ 0) cho thấy tầm quan trọng của nhân tố Bayes trong việc làm rõ sự chênh lệch giữa giả thuyết H0 và H1 khi đã có dữ liệu sẵn có Phương pháp này cho phép kiểm định Bayes mà không cần sử dụng hàm tổn thất, nhờ vào thang đo của Jeffrey.
• Nếu log 10 B 10 g ∈ (0; 0,5], các bằng chứng chống lại H0 là yếu,
• Nếu log 10 B 10 g ∈ (0,5; 1], là đáng kể,
> 2, là quyết định bác bỏ H 0
Nhân tố Bayes dựa vào thông tin tiên nghiệm, nhưng có khả năng giảm thiểu ảnh hưởng của mô hình tiên nghiệm và nhấn mạnh tầm quan trọng của quan sát Khi giả thuyết không phải là H0: θ = θ0, việc xây dựng phương pháp Bayes trở nên khó khăn, đặc biệt đối với tiên nghiệm liên tục.
Trở lại với bài toán kiểm định mô hình hồi quy Nếu giả thuyết không là H 0 : Rβ = r, mô hình dưới H 0 có thể viết như sau: y|β 0 , σ 2 , X 0 H ∼ 0 N n X 0 β 0 , σ 2 I n (2.9)
Trong đó, R là ma trận cấp (q, p) có hạng q, X0 là ma trận cấp (n, k+
1−q), và β 0 là vectơ (k+ 1−q) chiều với phân phối tiên nghiệm β 0 |X 0 , σ 2 ∼ N k+1−q βe 0 , c 0 σ 2 X 0 T X 0 ) −1 ,
Phân phối biên duyên của y dưới H0 là f (y|X 0 , H 0 ) = (c+ 1) − ( k+1−q 2 )π − n 2 Γ n 2 ×hy T y − c c 0
Và do đó, nhân tố Bayes được cho bởi
Để kiểm định giả thuyết H0: β8 = β9 = 0, với βe0 = 0,9 và c = c0 = 100, ta tính được B10g = 0,0165 Áp dụng mô hình bằng chứng của Jeffreys, ta có log10(B10g) = -1,78, cho thấy phân phối hậu nghiệm mạnh mẽ ủng hộ H0.
Sử dụng βe 0 = 0 11 và c = 100, chúng ta có thể xây dựng mô hình hồi quy Bayes trong R để thu được các nhân tố Bayes tương ứng với giả thuyết không H0: βi = 0 Kết quả cho thấy các biến quan trọng nhất bên cạnh việc bác bỏ giả thuyết H0.
Cả hai giải pháp đều có những hạn chế đáng kể do sự phụ thuộc vào c Tiếp theo, chúng ta sẽ xem xét hai giải pháp thiếu thông tin (noninformative) phức tạp hơn, trong đó có tiên nghiệm thiếu thông tin của Jeffreys.
Tiên nghiệm của Jeffreys có dạng: g β, σ 2 |X ∝ σ −2
Phân phối hậu nghiệm tương ứng là g β, σ 2 |y, X
Do đó: β|σ 2 , y, X ∼ N k+1 β, σb 2 X T X −1 , σ 2 |y, X ∼ IG (n−k−1)/2, s 2 /2 Ước lượng tương ứng của β và σ 2 cho bởi
Ước lượng Jeffreys của β là ước lượng hợp lý cực đại, trong khi ước lượng Jeffreys của σ² lại lớn hơn và phân tán hơn so với ước lượng hợp lý cực đại s² n, và thậm chí còn lớn hơn so với ước lượng cổ điển s² n−k−1.
Mô hình này cho thấy sự tương ứng mạnh mẽ giữa phân tích tần suất và khoảng tin cậy Bayes cho β i, với các cách hiểu khác nhau nhưng đều cho kết quả tương tự Cụ thể, cả hai đều bằng n β i và β i − βb i.
Ví dụ 2.1[10](tiếp): Ước lượng Bayes của σ 2 là 0,756 Khoảng tin cậy Bayes cho các thành phần β i được trình bày trong bảng sau:
Bảng 2.5[10] : Khoảng tin cậy 95% HPD cho các thành phần của β với c = 100 βi HPD β 0 [5,7434; 16,2533] β1 [-0,0071; -0,0018] β 2 [-0,0914; -0,0162] β 3 [-0,1029; 0,2387] β 4 [-2,2618; -0,3255] β 5 [0,0524; 0,4109] β6 [-3,0466; 2,3330] β 7 [-1,9649; 1,4900] β 8 [-0,2254; 0,5875] β 9 [-2,7704; 0,1997] β 10 [-1,6950; 0,8288]
Lưu ý rằng một số khoảng có giá trị βi = 0 không nhất thiết phải bác bỏ giả thuyết không H0: βi = 0, điều này tạo ra sự khác biệt lớn so với phương pháp cổ điển Hơn nữa, tiên nghiệm-G thiếu thông tin của Zellner cũng cần được xem xét.
Ta sử dụng tiên nghiệm-G với βe= 0 k+1 , và một phân phối tiên nghiệm trên c : g(c) = c −1 1N ∗ (c).
Phân phối hậu nghiệm biên duyên của các tham số sau đó là: g β, σ 2 |y, X = R g β, σ 2 |y, X, c g(c|y, X)dc
, Ước lượng Bayes của β và σ 2 cho bởi:
Hơn nữa phương sai của β thu được dưới dạng:
Một công thức lớn nhưng rõ ràng!
Trong thực tế, ràng buộc về c tăng lên cho đến khi kết quả ước lượng là một hằng số.
Với tiên nghiệm cụ thể, ước lượng σ² cho sâu róm là 0,7732 Bảng dưới đây cung cấp ước lượng Bayes cho β, cho thấy sự khác biệt so với ước lượng hợp lý cực đại khi c được cố định Cụ thể, ước lượng Bayes của σ² lớn hơn, trong khi ước lượng của β₀ gần 0 hơn.
Một yếu tố quan trọng trong phương pháp này là việc phân phối biên duyên của dữ liệu có thể được trình bày dưới dạng đóng (modulo tổng vô hạn), cụ thể là: f(y|X) ∝.
Ứng dụng của bài toán Occam’s Razor trong mô hình log-tuyến tính
Bảng dự phòng
Trong các mô hình thống kê, bảng dự phòng được coi là một thống kê đầy đủ Bảng này tổng hợp các số lượng phân loại của nhiều biến phân loại khác nhau.
Dữ liệu môi trường được thu thập từ Cục Bảo tồn New York và các dịch vụ thời tiết quốc gia Mỹ, bao gồm dữ liệu ozone và khí tượng Bộ dữ liệu này ghi lại hai phép đo trong hơn 111 ngày liên tục, cụ thể là nồng độ ozone trung bình từ 1h đến 3h chiều tại đảo Roosevelt và nhiệt độ tối đa hàng ngày tại sân bay LaGuardia Thời gian thu thập dữ liệu kéo dài từ tháng 5 đến tháng 9, với bảng dự phòng bao gồm các thông tin về nồng độ ozone và nhiệt độ.
Bảng dự phòng chứa 20 số hạng, được rút ra từ 3 biến phân loại u, v và ω Mỗi số hạng là một số nguyên mô hình hóa như một biến Poisson Chúng ta có thể biểu thị số lượng bằng y = (y₁, y₂, , yₙ), với giả định yᵢ ∼ P(λᵢ), và hàm hợp lý l(λ|y) cho n số hạng.
Khi chỳng ta thể hiện cỏc tham số trung bỡnh à i của mụ hỡnh log-tuyến tính như log (à i ) = x iT β.
Véc tơ hiệp biến x i được xác định duy nhất từ các chỉ số, trong khi ma trận tỷ lệ X có các hàng tương ứng với x i và chứa các thành phần là số 0 hoặc 1 Việc lựa chọn các biến chỉ số trong x i có thể thay đổi tùy thuộc vào mối quan hệ giữa các biến phân loại trong bảng dự phòng.
Cụ thể là:log à l(i,j,k) = β i u +β j v +β k ω (1 ≤ i ≤ I, 1≤ j ≤J, 1≤ k ≤K). Trong đó l(i, j, k) tương ứng với chỉ số của (i, j, k) trong bảng, cụ thể là khi u= i, v = j, ω = k.
Bằng cách tương tự với phân tích phương sai (ANOVA), chúng ta có thể biểu diễn công thức trên như là log à l(i,j,k) = λ+ λ u i +λ v j +λ ω k +λ uv ij +λ uω ik +λ vω jk +λ uvω ijk (3.1)
Trong đó λ là trung bình tổng thể, λ u i là sự chênh lệch biên duyên so với λ khi u = i, λ uv ij là sự chênh lệch tương tác so với (λ + λ u i + λ v j ) khi (u, v) = (i, j)
Biểu diễn không đồng nhất (3.1) yêu cầu áp đặt các hạn chế đồng nhất trên các tham số tương tự như trong mô hình ANOVA Một quy ước phổ biến là thiết lập các tham số tương ứng với loại đầu tiên của mỗi biến bằng 0 Ví dụ, trong bảng dự phòng 2×2 với hai biến u và v, các hạn chế có thể được thiết lập như sau: λ u 1 = λ v 1 = λ uv 11 = λ uv 12 = λ uv 21 = 0 Để đơn giản hóa ký hiệu, chúng ta giả sử β là véc tơ của các tham số sau khi áp dụng hạn chế "đồng nhất" và X là ma trận với các cột tương ứng đã bị loại bỏ.
Suy luận theo tiên nghiệm đều
Sử dụng một tiên nghiệm thiếu thông tin trên β : g(β) ∝ 1 Hậu nghiệm tương ứng g(β|y, X) ∝ n
Q i=1 exp x iT β y i exp −exp x iT β
Hậu nghiệm không phải là chuẩn và cần được xấp xỉ bằng thuật toán MCMC Thuật toán Metropolis-Hastings, dựa trên tiêu chuẩn Fisher, được sử dụng để xấp xỉ hàm hợp lý Trong thuật toán M-H, phân bố đề suất là Markov với mật độ chính q(x,y) Nếu phân bố mục tiêu có mật độ g, quy trình của thuật toán M-H sẽ diễn ra theo cách cụ thể.
Thuật toán 3.1[10]: Lấy mẫu M-H chung
Khởi tạo: Chọn một giá trị bắt đầu tùy ý x (0)
1 Cho biết x (t−1) , tạo ra xe∼q x (t−1) , x
2 Tính ρ x (t−1) ,xe = min g(ex)/q x (t−1) ,xe g x (t−1) /q x, xe (t−1) ,1
Với xác suất ρ(x (t−1) ,ex), chấp nhận xe và đặt x (t) = ex Nếu không từ chối ex và đặt x (t) = x (t−1)
Phân bố q cũng được gọi là phân bố công cụ, phân bố mục tiêu g là phân bố giới hạn của chuỗi Markov được tạo ra bởi Thuật toán trên.
Ví dụ 3.1[10](tiếp): Đối với dữ liệu môi trường Sử dụng tiên nghiệm bởi bảng sau
Tham số Trung bình Phương sai hậu nghiệm hậu nghiệm λ 2,8041 0,0612 λ u 2 -1,0684 0,2176 λ v 2 -5,8652 1,7141 λ ω 2 -1,4401 0,2735 λ ω 3 -2,7178 0,7915 λ ω 4 -1,1031 0,2295 λ ω 5 -0,0036 0,1127 λ uv 22 3,3559 0,4490 λ uω 22 -1,6242 1,2869 λ uω 23 -0,3456 0,8432 λ uω 24 -0,2473 0,6658 λ uω 25 -1,3335 0,7115 λ uω 22 4,5493 2,1997 λ uω 23 6,8479 2,5881 λ uω 24 4,6557 1,7201 λ uω 25 3,9558 1,7128
Chọn mô hình và ý nghĩa của các tham số
Để hiểu ý nghĩa của các tham số β i, tiên nghiệm cần phải được điều chỉnh cho phù hợp Bằng cách áp dụng tiên nghiệm-G với thông tin từ Zeller, ta có thể xác định phân phối hậu nghiệm g(β|y, X) ∝ X T X 1/2 Γ((2k−1)/4)(β T (X T X)β) −(2k−1)/4 π −k/2 × exp.
Trong ví dụ 3.1, chúng ta áp dụng tiên nghiệm-G thiếu thông tin của Zeller kết hợp với thuật toán Metropolis-Hastings qua 10.000 lần lặp Kết quả ước lượng cho 16 tham số của mô hình được dựa trên 9.000 lần lặp cuối cùng và được trình bày trong bảng dưới đây.
Tham số Trung bình Phương sai hậu nghiệm hậu nghiệm λ 2,7202 0,0603 λ u 2 -1,1237 0,1981 λ v 2 -4,5393 0,9336 λ ω 2 -1,4245 0,3164 λ ω 3 -2,5970 0,5596 λ ω 4 -1,1373 0,2301 λ ω 5 -0,0359 0,1166 λ uv 22 2,8902 0,3221 λ uω 22 -0,9385 0,8804 λ uω 23 0,1942 0,6055 λ uω 24 0,0589 0,5345 λ uω 25 -1,0534 0,5220 λ uω 22 3,2351 1,3664 λ uω 23 5,3978 1,3506 λ uω 24 3,5831 1,0452 λ uω 25 2,8051 1,0061
Kết quả thu được tương tự như các tiên nghiệm đã nêu Nếu tiên nghiệm không phù hợp cho việc so sánh các mô hình, chúng ta không thể tin tưởng vào các yếu tố Bayes tương ứng Điều này cho thấy rằng tiên nghiệm-G thiếu thông tin cần thiết.
Ví dụ 3.1[10](tiếp): Đối với dữ liệu môi trường, chúng ta có thể kiểm tra sự tương tác của 3 biến với nhau Đầu ra ANOVA là
Sự tương tác giữa u (ozone) và ω (tháng) là rất nhỏ, không đủ để ảnh hưởng đến các hiệu ứng khác Do đó, chúng ta có thể xem u và ω là độc lập với nhau.
Kết luận: Mô hình log-tuyến tính cho thấy rằng việc áp dụng tiên nghiệm-G thiếu thông tin của Zeller có thể đơn giản hóa và hiệu quả hóa quá trình chọn mô hình, tương tự như mô hình hồi quy đã trình bày ở chương 2 Điều này chính là giải pháp cho bài toán Occam’s razor trong mô hình này.
Quyết định Bayes trong mô hình chuỗi thời gian
Mô hình tự hồi quy AR
Một quá trình: (x t ) t∈ Z được xác định bởi công thức sau x t = à+%(x t−1 −à) +ε t (3.4)
Z thể được viết lại như sau xt = à+
Dễ thấy đây là một quá trình dừng cấp hai hồi quy.
Nếu |%| > 1, quá trình dừng cấp hai hồi quy của (3.4) là x t = à−
Phương pháp tính dừng cho thấy rằng x t có mối tương quan với tiếng ồn trắng tương lai (εt)s>t, điều này không xuất hiện trong mô hình AR(1) khi |%| > 1 Hạn chế này của quá trình AR(1) với |%| < 1 yêu cầu x t phải hồi quy trong giới hạn các mối quan hệ quá khứ (ε t ) s≤t Hơn nữa, hạn chế này liên quan đến tính nhân quả và quá trình tự hồi quy độc lập tương lai Cần lưu ý rằng tính nhân quả trong mô hình AR(1) có thể được kết hợp một cách tự nhiên với một tiên nghiệm thống nhất trên khoảng [−1,1].
Tổng quát của mô hìnhAR(1)là mô hình AR(p) thu được bằng cách tăng sự phụ thuộc vào các giá trị trong quá khứ, được xác định như sau x t = à+ p
Trong đó (ε t ) t∈(Z) là một tiếng ồn trắng.
Tính dừng và tính nhân quả có thể được áp dụng cho mô hình AR(p), trong đó quá trình AR(p) thể hiện cả tính nhân quả và tính dừng cấp hai Điều này xảy ra khi và chỉ khi tất cả nghiệm của đa thức thỏa mãn các điều kiện nhất định.
Là bên ngoài hình tròn đơn vị trong mặt phẳng phức.
Hàm hợp lý liên kết với các giá trị quan sát từ quá trình x0:T phụ thuộc vào các giá trị không quan sát được x−p, , x−1, được biểu diễn bởi l(à, % 1, , % p, σ|x 0:T, x −p:−1).
Các giá trị ban đầu không quan sát được có thể được xử lý theo nhiều cách khác nhau Đầu tiên, chúng có thể được thiết lập bằng cách sử dụng các phương pháp cụ thể; thứ hai, dựa vào tính dừng và tính nhân quả, quá trình (x t ) t∈ Z có phân phối dừng, cho phép giả định rằng x −p:−1 được phân phối từ phân phối dừng tương ứng, cụ thể là một phân phối N p (à1 p , A) Cuối cùng, chúng ta có thể tích hợp những giá trị ban đầu này để xây dựng hàm hợp lý biên duyên.
Dựa trên lập luận rằng các yếu tố này không thể quan sát trực tiếp, hàm hợp lý có thể được phân tích nhưng vẫn gặp nhiều khó khăn khi áp dụng một mẫu Gibbs để mô phỏng các giá trị ban đầu.
Một phương pháp tiếp cận khác và rõ ràng hơn là thay thế hàm hợp lý có điều kiện trên giá trị quan sát ban đầu x0:p−1 nghĩa là l c à, % 1 , , % p , σ|x p:T , x 0:(p−1)
Trong trường hợp này, nếu chúng ta không hạn chế không gian tham số thông qua điều kiện dừng, một tiên nghiệm liên hợp tự nhiên có thể
Khi áp dụng các hạn chế về tính dừng nhân quả cho % mà tất cả nghiệm của đa thức P nằm ngoài hình tròn đơn vị, chúng ta nhận thấy rằng bộ số của % trở nên phụ thuộc và không thể sử dụng phân phối tiên nghiệm với phân phối giới hạn chuẩn do thiếu thuật toán mô tả Một giải pháp khả thi được đề xuất dựa trên mối tương quan tự động của quá trình AR(p) Chúng ta cũng có thể tiếp cận vấn đề từ một góc độ khác, trong đó tham số được đơn giản hóa thông qua nghịch đảo của các nghiệm thực và phức của đa thức P trong khoảng (−1,1) và hình cầu tương ứng Nếu đại diện đa thức (3.7) dưới dạng nhân tử hóa của nó, chúng ta có thể dễ dàng phân tích hơn.
Trong bài viết này, chúng ta xem xét biểu thức (1−λ i x), trong đó các nghiệm nghịch đảo λ i (i = 1,2, , p) có thể là giá trị thực hoặc phức Dưới điều kiện tính dừng nhân quả, một tiên nghiệm tự nhiên được đưa ra là sử dụng tiên nghiệm thống nhất cho các nghiệm này Cụ thể, chúng ta áp dụng phân phối đều cho số lượng rp của các nghiệm phức liên hợp và phân phối đều trên khoảng [−1,1] cũng như trên hình cầu đơn vị ζ = {λ ∈ C;|λ| ≤1} cho các nghiệm thực và phức không liên hợp tương ứng.
Trong bài viết này, bp/2c + 1 đại diện cho số lượng giá trị khác nhau của rp Mặc dù yếu tố bp/2c + 1 không quan trọng trong một thiết lập cố định, nhưng nó cần được xem xét trong phân phối hậu nghiệm khi áp dụng thuật toán nhảy ngược để ước lượng độ trễ bậc p Điều này là cần thiết vì nó không biến mất trong việc chấp nhận xác suất của một di chuyển giữa mô hình AR(p) và mô hình AR(q).
Chú ý rằng các hệ số của đa thức P có thể được bắt nguồn từ các nghiệm nghịch đảoλi sử dụng các mối quan hệ lặp(i = 1, , p, j = 0, , p) ψ 0 i = 1, ψ i j = ψ j i−1 −λ i ψ j−1 i−1 ,
Trong đó ψ 0 0 = 1 và ψ j i = 0, ∀j > i và cho: %i = −ψ j p (j = 1, , p).
Chương trình Metropolis-Hasting mà chúng ta mô tả sử dụng phân phối tiên nghiệm dựa trên nghiệm nghịch đảo của P Đầu tiên, chúng ta chọn một hoặc nhiều nghiệm của P và đề xuất giá trị mới cho các nghiệm đó thông qua việc mô phỏng từ phân phối tiên nghiệm Tỷ lệ chấp nhận được đơn giản hóa theo tỷ lệ hàm hợp lý nhờ vào định lý Bayes Một thách thức quan trọng là phải thay đổi nghiệm phức bằng các cặp liên hợp Để khắc phục vấn đề này, chúng ta áp dụng một thuật toán nhảy ngược, phân biệt giữa số lượng của nghiệm phức.
Nếu ta xem xét hàm hợp lý có điều kiện (3.9), một thuật toán nhảy ngược cho mụ hỡnh AR(p) và tiờn nghiệm thiếu thụng tin g(à, σ) = 1 σ là như sau:
Thuật toán 3.2[10]: Khởi tạo AR(p)
1 Chọn ngẫu nhiên một nghiệm Nếu nghiệm này là thực, tạo ra một nghiệm thực mới từ một phân phối tiên nghiệm Nếu không, tạo ra một nghiệm phức mới từ phân phối tiên nghiệm và cập nhật nghiệm liên hợp.
Thay λ (t−1) bởi λ ∗ sử dụng giá trị mới đó
2 Chọn ngẫu nhiên 2 nghiệm thực hoặc 2 nghiệm phức liên hợp Nếu các nghiệm là thực, tạo ra một nghiệm phức mới từ phân phối tiên nghiệm và tính nghiệm liên hợp Nếu không, tạo ra 2 nghiệm thực mới từ phân phối tiên nghiệm.
Thay ξ bởi λ ∗ sử dụng giá trị mới đó
Chấp nhận λ (t) = λ ∗ với xác suất l c à (t−1) , % ∗ , σ (t−1) |x p:T , x 0:p−1 l c à (t−1) , % (t−1) , σ (t−1) |x p:T , x 0:p−1 ∧ 1 Nếu không, đặt λ (t) = ξ
3 Tạo ra à ∗ bởi một đề nghị ngẫu nhiờn Chấp nhận à (t) = à ∗ với xỏc suất: l c à ∗ , % (t) , σ (t−1) |x p:T , x 0:p−1 l c à (t−1) , % (t) , σ (t−1) |x p:T , x 0:p−1 ∧1 Nếu khụng đặt à (t) = à (t−1)
4 Tạo ra σ ∗ bởi một bộ đề nghị-log ngẫu nhiên
Chấp nhận σ (t) = σ ∗ với xác suất: l c à (t) , % (t) , σ ∗ |x p:T , x 0:p−1 l c à (t) , % (t) , σ (t−1) |x p:T , x 0:p−1 ∧1 Nếu không, đặt σ (t) = σ (t−1)
Chúng ta tiếp tục với ví dụ 3.2, nơi xử lý chuỗi Ahold Kon của Eurostoxx50 Thuật toán được áp dụng cho toàn bộ chuỗi với p = 5, sử dụng hành động nhảy phù hợp giữa các nghiệm phức khác nhau, và kết quả thu được như sau:
Hình 3.2[10]: Tóm tắt đầu ra MCMC lặp lại 5000 lần
Biểu đồ ở góc trên bên trái cho thấy sự nhảy giữa các nghiệm phức 2 và 0 với tần số cao, cho thấy thuật toán nhảy ngược hỗn hợp hoạt động tốt giữa hai mô hình Hai biểu đồ tiếp theo trên hàng đầu tiên liên quan đến các siêu tham số à và σ, với à được cập nhật tốt hơn so với σ trong quá trình nhảy ngược Các biểu đồ ở hàng giữa thể hiện ba hệ số đầu tiên của mô hình tự hồi quy (%1, %2, %3), cho thấy sự ổn định của chúng là chỉ số tốt về sự hội tụ của thuật toán nhảy ngược, trong đó ngoại trừ %1, các hệ số khác gần bằng 0 Hàng cuối cùng đánh giá sự phù hợp của mô hình và sự hội tụ của thuật toán MCMC, với biểu đồ đầu tiên thể hiện trình tự của các log-hàm hợp lý ổn định từ đầu, biểu đồ thứ hai là phân bố của các nghiệm phức, và biểu đồ cuối cùng cho thấy mối liên kết giữa chuỗi thực tế và dự đoán bước đầu tiên của nó.
Mô hình trung bình trượt MA
Một dạng thứ hai của mô hình chuỗi thời gian là mô hình trung bình trượt MA(q), có tính chất phụ thuộc tuyến tính và biểu hiện dưới dạng đóng Mô hình này được xem như phiên bản tương tự của mô hình tự hồi quy AR(p).
Một quá trình M A(1) : (x t ) t∈Z có điều kiện trên quá khứ (t ∈ T) cho bởi công thức x t = à+ε t −ϑε t−1 (3.10) Trong đó (ε t ) t∈T là một tiếng ồn trắng Do đó
Một tính chất quan trọng của (3.10) là mô hình không phải định danh cho mỗi gia nhập Thật vậy, chúng ta có thể viết lại x t như sau: x t = à+ eε t−1 − 1 ϑεe t , εe∼N 0, ϑ 2 σ 2
Vì vậy, cả hai cặp (ϑ, σ) và ϑ 1 , ϑσ là đại diện tương đương của mô hình trên Để đạt được tính đồng nhất, không gian tham số của quá trình
Mô hình M A(1) bị giới hạn bởi |ϑ| < 1, và quá trình này được gọi là nghịch đảo Tương tự như tính nhân quả, tính nghịch đảo không chỉ là đặc tính của một quá trình duy nhất (x t ) t∈Z mà còn là đặc điểm của mối liên kết giữa hai quá trình (x t ) t∈T và (ε t ) t∈T Để tăng cường sự phụ thuộc vào quá khứ, mô hình tổng quát M A(q) được xác định bởi t∈ T xt = à + εt q.
Trong đó (ε t ) t∈T là tiếng ồn trắng Điều kiện “đồng nhất” tương ứng trong mô hình này là tất cả nghiệm của đa thức
X i=1 ϑ i u i , Đều nằm bên ngoài hình tròn đơn vị trong mặt phẳng phức.
Một khác biệt lớn giữa mô hình M A(q) và AR(p) là cấu trúc của
M A(q) không phải là một quá trình Markov Trong trường hợp phân phối Gaussian, toàn bộ các véc tơ quan sát x 1:T được coi là một biến ngẫu nhiên chuẩn thực, có trung bình là hằng số à và ma trận hiệp phương sai là P.
Việc tính toán hàm hợp lý rõ ràng là cần thiết, nhưng quá trình này tốn kém do phải xử lý ma trận nghịch đảo của P.
Một biểu hiện khác của hàm hợp lý M A(q) là sử dụng hàm hợp lý của x1:T có điều kiện trên tiếng ồn trắng ε0, , ε−q+1 : l c (à, ϑ 1 , , ϑ q , σ|x 1:T , ε 0 , , ε −q+1 ) ∝ σ −T
Định nghĩa đệ quy của hàm hợp lý, mặc dù tốn kém do liên quan đến tổng T của q số hạng, nhưng lại dễ quản lý hơn so với biểu hiện chính xác chuẩn Mặc dù cần xử lý riêng các giá trị điều kiện (ε0, , ε −q+1) thông qua bước MCMC, sự phức tạp của biểu thức này vẫn có thể được kiểm soát tốt.
Chú ý rằng, phân phối có điều kiện của (ε0, , ε−q+1) cho cả hai x1:T và các tham số là một phân phối chuẩn Với cả hai x 1:T và tiếng ồn quá khứ
(ε 0 , , ε −q+1 ), phõn phối cú điều kiện của cỏc tham số (à, ϑ 1 , , ϑ q , σ) là rất gần với hậu nghiệm kết hợp với một phân phối hậu nghiệm AR(q).
Chúng ta có thể tái sử dụng thuật toán (3.2) để xử lý tiếng ồn quá khứ ε −i (i = 1, , q), dựa trên xt và các tham số à, σ và ϑ (ϑ 1 , , ϑ q) Điều này cho phép phân phối chính xác hơn trong các phân tích tiếp theo.
Việc tính toán Y −ˆ ε 2 /2σ 2 tơ (ε0, , ε −q+1 ) là rất tốn kém đối với các biến có giá trị thực của T Do đó, chúng ta áp dụng thuật toán hỗn hợp Gibbs, trong đó tiếng ồn biến mất ε = (ε 0 , , ε −q+1 ) được mô phỏng từ một đề nghị hoặc dựa trên giá trị mô phỏng trước đó của (ε 0 , , ε −q+1 ) hoặc dựa trên phân phối có điều kiện của (ε 0 , , ε −q+1 ) với các tham số theo phân phối chuẩn.
Khởi tạo: Chọn λ (0) , ε (0) , à (0) và σ (0) tựy ý.
1 Chạy các bước từ 1 đến 4 của thuật toán (3.2) với điều kiện trênε (t−1) với hàm hợp lý có điều kiện chính xác tương ứng.
2 Mô phỏng ε (t) bởi một bước Metropolis-Hasting.
Chúng ta phân tích 350 điểm đầu tiên của chuỗi Air Liquide trong Eurostoxx50, với kết quả đại diện cho q = 9 và thực hiện 10,000 lần lặp lại trong thuật toán (3.3).
Hàng trên cùng: biểu đồ bên trái là trình tự của các nghiệm phức (dao động từ 0 đến 8); biểu đồ ở giữa và phải là chuỗi của à và σ 2
Hàng giữa là trình tự ước lượng của các ϑ i (i = 1,2,3).
Hàng dưới cùng bao gồm ba biểu đồ: biểu đồ bên trái thể hiện trình tự hàm hợp lý được quan sát, biểu đồ ở giữa mô tả đám mây các nghiệm phức với ranh giới hình tròn đơn vị, và biểu đồ bên phải cho thấy sự phát triển của mô phỏng ε −t.
Mô hình ARMA
Mở rộng của hai mô hình trước đó là mô hình ARM A(p, q), trong đó xt(t∈ Z) được xác định bởi: x t = à− p
Trong đó εt là độc lập.
Cho phương trình quan sát: x t = à−(ϑ r−1 ϑ r−2 ϑ 1 −1)y t , y t+1
Với r = max(p, q + 1) và quy ước % m = 0 nếu m >p và ϑ m = 0 nếu m>q.
Trong trường hợp MA(q), không gian trạng thái này hỗ trợ hiệu quả cho việc phát triển các thuật toán MCMC nhằm đạt được sự hội tụ đến phân phối hậu nghiệm của các tham số trong mô hình Để thực hiện điều này, chúng ta định nghĩa (t>p) xe t = x t −à+ p.
Hàm hợp lý giống như hàm hợp lý tiêu chuẩn M A(q) trên xe t , các khôi phục của hàm hợp lý AR(p) là nhiều hơn Nếu định nghĩa số dư εe t q
P j=1 ϑ j ε t−j , log-hàm hợp lý điều kiện trên x 0:(p−1) là:
Rõ ràng là một log-hàm hợp lý AR(p) dạng đóng, ngoại trừ εe t
Thống kê Bayes đóng vai trò quan trọng trong việc xử lý các mô hình chuỗi thời gian như AR, MA, và ARMA, với điểm chung là sử dụng hàm tiên nghiệm thiếu thông tin và khác nhau ở hàm hợp lý Các hàm hợp lý này gắn liền với các giá trị quan sát Chúng ta sẽ xem xét hai phương pháp chọn hàm hợp lý cho mô hình AR(p) dựa trên các giá trị quan sát Đầu tiên, hàm hợp lý liên kết với các giá trị quan sát x₀:T phụ thuộc vào các giá trị không quan sát được x₋ₚ, , x₋₁, nhưng việc tính toán hàm hợp lý này khá tốn kém do liên quan đến tích phân lớn.
Thứ hai, việc xem xét hàm hợp lý liên kết với các giá trị quan sát x p:T, phụ thuộc vào các giá trị quan sát ban đầu x 0, , x p−1, là rất quan trọng Ta có thể áp dụng thuật toán nhảy ngược kết hợp với thuật toán Metropolis-Hastings để ước lượng các hệ số của các mô hình chuỗi thời gian Đối với các mô hình khác, việc chọn hàm hợp lý tương tự như mô hình AR(p) là đơn giản và rõ ràng, đồng thời vẫn hiệu quả trong việc ước lượng các hệ số Phương pháp này giải quyết bài toán Occam’s razor trong việc lựa chọn phương pháp xử lý mô hình chuỗi thời gian.
Bài viết đã tổng quan về thống kê Bayes, đồng thời so sánh nó với thống kê tần suất trong một số tình huống cụ thể Trong khi thống kê tần suất coi tham số là giá trị không biết nhưng không ngẫu nhiên, thống kê Bayes lại xem tham số như một biến ngẫu nhiên theo một phân phối nhất định, với sự phụ thuộc vào các siêu tham số (hyperparameters).
Luận văn nghiên cứu các suy luận Bayes trong ước lượng, kiểm định và dự đoán, phân tích các trường hợp tiên nghiệm có và thiếu thông tin dựa vào phân phối hậu nghiệm, đồng thời so sánh với tần suất Ngoài ra, luận văn còn ứng dụng nguyên tắc Occam’s razor để giải quyết các bài toán thực tiễn như lựa chọn biến trong mô hình hồi quy tuyến tính, bài toán của Galileo và phân tích mô hình chuỗi thời gian.
Mô hình hồi quy tuyến tính và các mô hình chuỗi thời gian đều có thể đạt được kết quả suy luận tốt cho dữ liệu thực tế nhờ vào thống kê Bayes, đặc biệt khi dữ liệu được cập nhật liên tục và có phân phối dừng Tuy nhiên, suy luận Bayes cũng gặp một số hạn chế trong việc tính toán, chẳng hạn như tính tích phân và yêu cầu kích thước mẫu lớn Để khắc phục những hạn chế này, luận văn đã trình bày phương pháp MCMC.
Tác giả mong muốn tiếp tục nghiên cứu sâu về thống kê Bayes để có được hiểu biết toàn diện hơn về phương pháp này Hy vọng rằng trong tương lai, các suy luận Bayes sẽ được áp dụng hiệu quả trong thực tiễn cuộc sống.
[1] Đào Hữu Hồ,Thống kê toán học, NXB ĐH và THCN, NXB ĐHQG
[2] Nguyễn Văn Hữu, Nguyễn Hữu Dư Phân tích thống kê và dự báo, NXB ĐHQG Hà Nội, (2003).
[3] Nguyễn Xuân Dực, Phương pháp mô phỏng Monte Carlo: Giải thuật Gibbs, Khóa luận tốt nghiệp, Trường Đại học Khoa học Tự nhiên.
[4] Andrew Gelman, John B Carlin, Hal S Stern and Donald, Bayesian Data analysis.
[5] Congdon, Bayesian Statistical Modelling, John Wiley, New York, (2001).
[6] Dupuis, Bayesian estimation of movement probabilities in open