CHƯƠNG II: MỘT VÀI TẬP NGẪU NHIÊN TRONG THỐNG KÊ
CHƯƠNG 3: TẬP NGẪU NHIÊN HỮU HẠN
3.5 Phân ph ối Entropy cực đại
Mô hình Entropy cực đại là mô hình dựa trên xác suất có điều kiện cho phép tích hợp các thuộc tính đa dạng từ dữ liệu mẫu nhằm hỗ trợ cho quá trình thống kê.
Ví dụ 3.5.1
Trước khi trình bày về mô hình Entropy cực đại, chúng ta cùng xem xét một ví dụ đơn giản sau. Xét quá trình ngẫu nhiên: gieo con súc sắc cân đối đồng chất.
Quan sát 1000 lần thử, thống kê xác suất hiện của từng mặt ta có nhận xét:
6
1
( ) 1
i
p i
=
∑ = (3.5.1)
p(i) là xác suất xuất hiện của mặt i chấm.
Dễ dàng nhận thấy có rất nhiều nghiệm thỏa mãn phương trình (3.5.1), ví dụ với p(1) = 1 và tất cả các mặt khác có xác suất là 0 nghĩa là mặt xuất hiện luôn là mặt 1.
Tuy nhiên, ta biết trong thực tế quá trình sinh các mặt là ngẫu nhiên nên phân phối giống phân phối thực nhất là: xác suất xuất hiện cho từng mặt là bằng nhau, hay nói cách khác phân phối xác suất ở đây là phân phối đều:
p(1) = p(2) = p(3) = p(4) = p(5) = p(6) = 1/6.
Giả sử, vì một lí do sản xuất nào đó, con súc sắc bị lệch về hai mặt 1 và 4 chiếm 50% số lần tung:
p(1) + p(4) = 1/2 (3.5.2)
Vì phân phối xác suất của các mặt vẫn tuân theo phương trình (3.5.1) nên ta có:
p(2) + p(3) + p(5) + p(6) = 1/2. (3.5.3) Rõ ràng có rất nhiều phân phối thỏa mãn cho cả phương trình (3.5.2) và (3.5.3), ví dụ với p(1) =1/3, p(4) = 1/6 và p(2) = 1/2, các mặt 3, 5, 6 có xác suất xuất hiện là 0. Tuy nhiên, lại một lần nữa ta thấy rằng, phân phối giống phân phối thực nhất là:
p (1) = p(4) = 1/4
p(2) = p(3) = p(5) = p(6) = 1/8.
Dữ liệu trong thế giới thực là vô hạn, khó đoán nhận, ta mong muốn xây dựng một mô hình mà ước lượng được gần đúng với phân phối thực thông qua một tập dữ liệu mẫu.
Qua ví dụ vừa nêu trên chúng ta có nhận xét rằng: trong tập dữ liệu mẫu mà ta có được, mô hình có phân phối đều nhất thì sẽ gần giống với phân phối thực nhất.
Vì vậy, vấn đề đặt ra là: làm thế nào để được mô hình như vậy? Phương pháp entropy cực đại cho phép tìm ra được mô hình này.
Tư tưởng chủ đạo của nguyên lí entropy cực đại rất đơn giản: ta phải xác định một phân phối mô hình sao cho phân phối đó tuân theo mọi giả thiết đã quan sát từ thực nghiệm, ngoài ra không cho thêm giả thiết nào khác. Điều đó có nghĩa là phân phối mô hình phải thỏa mãn các ràng buộc quan sát từ thực nghiệm, và phải gần nhất với phân phối đều.
Entropy là độ đo về tính đồng đều hay tính không chắc chắn của một phân phối xác suất. Một phân phối xác suất có entropy càng cao thì phân phối của nó càng đều.
Khi không có thông tin về một tập ngẫu nhiên hữu hạn để nói về tập U. Nó làm cho các phần tử của U là bình đẳng, nghĩa là giúp U có phân phối đồng đều.
Nếu xảy ra phần tử U được điều khiển bởi một hàm mật độ xác suất f trên U, thì độ đo không chắc chắn của hiện tượng là entropy của f, hay H f( ) f( ) log( ( ))f
θ
θ θ
= −∑
.
Tình huống đầu tiên mà chúng ta sẽ xét. Đặt U ={ , ,..., }θ θ1 2 θn
và m là mật độ trên 2U với ({ })m θi =αi và m U( ) 1= −∑α εi = . Vấn đề ở đây là phân chia đều εtheo αi để kết quả là mật độ trên U có entropy lớn nhất. Tức là, viết
ε =∑εi với εi ≥0 để entropy của hàm mật độ f cho bởi ( )f θi = +α εi i là lớn nhất.
Đây là tường thuật rõ ràng vấn đề.
Vấn đề 3.5.2
Với i=1, 2,...,n. Đặt αi≥0, εi ≥0 và ∑αi+∑εi =1. Xác định εi
mà H( ,ε ε1 2,...,εn)= −∑(α εi+ i) log(α εi+ i)lớn nhất.
Bổ đề 3.5.3
Với x và c - x dương thì L x( )= −[(c−x) log(c−x)+xlog( )]x là tăng theo x nếu c - x >
x.
Chứng minh
Lấy đạo hàm L x'( )= +1 log(c−x) 1 log( )− − x =log(c−x)−log( )x là dương khi c – x >
x
Bây giờ bổ sung αivà εithỏa mãn các điều kiện của vấn đề. Ta quan tâm lượng lớn nhất. H( ,ε ε1 2,...,εn)= −∑(α εi+ i) log(α εi+ i) Bổ sung thêm α ε α εi+ <i j+ j (ở đây i<j). Đặt δ thỏa δ >0,ε δj − >0 và α ε δ α ε δi+ + <i j+ −j . Dựa vào bổ đề
i i j j
c=α ε α ε+ + + và x= +α εi i,ta có −[(α εi+ i) log(α εi+ i) (+ α εj + j) log(α εj+ j)]
[(α ε δi i ) log(α ε δi i ) (α ε δj j ) log(α ε δj j )]
< − + + + + + + − + −
Vì vậy, H( ,ε ε1 2,...,ε δi+ ,...,ε δj− ,...,εn)>H( ,ε ε1 2,...,εn)
Kết quả cuối cùng là nếu sự phân bốε ε1, ,...,2 εn của ε để H lớn nhất, thì mỗi khi
i i j j
α ε α ε+ < +
chúng ta phải có εj =0. Bây giờ, đặt hệ chỉ số hóa của αi mà
1 2 ... n
α α≤ ≤ ≤α . Vì vậy, để H lớn nhất, ta phải có
1 1 2 2 ... k k k 1 ... n
α ε α ε+ = + = =α ε+ ≤α + ≤ ≤α (3.5.4) với αk i+ =0 với 0i> k có thể bằng n. Có một phép gán của εi giống thế này. Với những sự phân bố khác γ γ1, 2,...,γn của ε , vài ε γi < i và vài εj <γj, trong trường hợp này α γj + j <α γi+ i với γi >0. Nhưng (3.5.4) không có tính chất này, vì vậy chỉ có một sự phân phối thỏa mãn (3.5.4).
Để có εi thỏa mãn (3.5.4), đặt δ α αi = k− i, i=1, 2,...,k với k lớn nhất mà δ εi ≤
∑ . Bây giờ đặt ε δi = + −i (ε ∑δi) /k, i=1, 2,...,k, và εi =0 với i>k. Từ đó
1 1
( ( ) / )
n n
i i i
i i
ε δ ε δ k ε
= =
= + − =
∑ ∑ ∑ ,
và với i<k
( ) / ( ) / ( ) /
i i i i i k i k i i k k i k k k
α ε α δ+ = + + −ε ∑δ =α α α+ − + −ε ∑δ =α + −ε ∑δ =α +ε .
Do vậy chỉ có một tập của εi thỏa mãn (3.5.4) và nó là tập mà H có thể lớn nhất. Ta gọi sự phân phối này là sự phân phối chuẩn. Tại điểm này ta không biết sự phân phối H lớn nhất. H lớn nhất nếu những sự phân phối được thực hiện. Tồn tại một H lớn nhất sau đây từ định lí tổng quát. Một tập điểm
1 2
{( ,ε ε ,...,εn) :εi ≥0,∑εi =c} với mọi hằng số c là tập con đóng và bị chặn của n, và ảnh của nó trong H( ,ε ε1 2,...,εn)= −∑(α εi+ i) log(α εi+ i)là hàm liên tục và lớn nhất.
Có một vài ưu điểm đưa ra dẫn chứng xây dựng sự phân phối H lớn nhất. Ta đã chỉ ra có một sự phân phối và đã chỉ ra xây dựng nó như thế nào. Nhưng để chỉ ra sự lớn nhất cho H, ta yêu cầu phải tồn tại một lí thuyết tổng quát. Ở đây là việc xây dựng bằng chứng mà chuẩn cấu hình α ε α ε1+ =1 2+ = =2 ... α εk + ≤k αk+1≤ ≤... αn H cực đại. Đầu tiên ta nhận xét rằng ∑αi+∑εi =1là không thảo luận ở trên, chỉ có tổng là số dương.
Bổ sung γ γ1, 2,...,γn là một phân phối của ε , với α α1≤ 2 ≤ ≤... αn. Đặt i là chỉ số nhỏ nhất mà ε γi ≠ i. Nếu ε γi > i thì các chỉ số i i1, ,...,2 im mà
i j ij
ε+ >γ thỏa mãn
j j
i i i i
j j
γ − ε ≥ −ε γ
∑ ∑ (vài εij có thể bằng 0). Điều này đơn giản bởi vì ∑γj =∑εj.
Do đó ta có αij +γij >αij +εij ≥α ε α γi+ >i i+ i . Đặt δij thỏa γij −δij ≥0 ,
j j j
i i i i i
α +γ −δ ≥α γ+ và
i i i i ij
j
α ε α γ+ = + +∑δ . Với bổ đề trên, sự phân phối chứa γ bằng cách thay thế γij bằng γij −δij và γi bằng i ij
j
γ +∑δ có entropy lớn hơn. Sự phân phối mới này có số hạng thứ i trong ε ε1, ,...,2 εi.
Định lí 3.5.4
Đặt U ={ , ,..., }θ θ1 2 θn và m là hàm mật độ trên 2U với ( )m θi =αi và
( ) 1 i
m U = −∑α . Có một mật độ chính xác f trên U tương thích với m và có entropy lớn nhất: H f( ) f( ) log( ( ))f
θ
θ θ
= −∑
Nếu α α1≤ 2 ≤ ≤... αn thì hàm mật độ được cho bởi ( )f θi = +α εi i trong đó
i 0 ε ≥ ,
1
( )
k i i
ε m U
=
∑ = và α ε α ε1+ =1 2+ = =2 ... α εk+ ≤k αk+1≤ ≤... αn . Hàm mật độ này được xây dựng bằng cách đặt αi theo trật tự tăng, đặt δ α αi = k− i, i=1, 2,...,k
với k lớn nhất mà ∑δi ≤m U( ) , đặt ε δi = +i ( ( )m U −∑δi) /k , i=1, 2,...,k và đặt
i 0
ε = với i>k.
Việc thảo luận tổng quát ở trên là trường hợp khi thay ({ })m θi =αi, ta có ({ })i 0
m Θ =α , trong đó Θ Θ1, 2,...,Θn là phân hoạch của U. Đầu tiên ta quan sát rằng có một phép gán entropy cực đại. Tập gán là tập con đóng và bị chặn trong U , và entropy này là hàm liên tục trong và do đó nó đạt lớn nhất. Entropy cực đại đạt được bởi vì gán mỗi θ trong Θi bởi m(Θi) / Θi . Để nhìn thấy điều này, đầu tiên chú ý hai điểm trong Θi phải cùng xác suất. Nếu hai điểm trong được gán xác suất α ε+ và β γ+ , với α β, từ ( )m Θi và ε γ, từ m(U), và α β ε γ+ < + , thì β γ,
dương, và với bổ đề trên một phần được đổi chỗ α ε+ để entropy tăng. Vì vậy entropy trở thành lớn nhất, α β ε γ+ = + , và rõ ràng ta cho α β= và ε γ= . Do đó để entropy cực đại, ta bắt đầu bằng gán ( )m Θi trong số các phần tử của nó. Cuối cùng ta khẳng định có một phép gán entropy cực đại.
Nhận xét 3.5.5
Trong trường hợp này, đặt F là hàm phân phối trên 2U. Đặt F là lớp tất cả các hàm mật độ g trên U mà F≤Pg. Tìm một khẳng định để tính toán mật độ trong
m với nguyên lí entropy cực đại.
Kết luận 3.5.6
Đặt :U Γ× →U là hàm hữu ích trong vấn đề quyết định. Hành động tối ưu trong điều kiện của kì vọng hữu ích đòi hỏi thông tin chắc chắn về U. Khái niệm giá trị kì vọng hữu ích được thiết lập bởi kì vọng toán, các phần tử của U, được xác định bởi mật độ xác suất f. Vấn đề quyết định bao gồm E u af ( , )θ lớn nhất trên a trong Γ.
Nếu thông tin xác suất về U ít rõ ràng, ví dụ hàm mật độ trên U là chỉ biết vài sưu tập của mật độ thì vài tỉ lệ cần đưa ra để lựa chọn vài mật độ trong sưu tập và nghiên cứu như trong trường hợp mật độ đã biết.
Θi