3.3 Thuật toán ACO để giải quyết bài toán tương tác gen
3.3.3 Xác suất Chi-square và trị số
3.3.3.1 Xác suất Chi-square
Chi-square hay còn gọi là “khi bình phương của pearson” được nhà sinh toán người Anh Karl Pearson đề xuất vào năm 1900 [12].
Chi-Square được kí hiệu: , một công cụ toán thống kê để kiểm tra độ phù hợp giữa các trị số thực tế quan sát được và các trị số lý thuyết được kì vọng của một giả thuyết thống kê nào đó trong một cuộc khảo sát hay thí nghiệm [2].
Công thức tính:
(3.4) Trong đó:
n: Các đối tượng được xét trên một tập nhóm.
viết tắt bởi Observed: Trị số thực tế quan sát được trong một cuộc khảo sát hay thí nghiệm của đối tượng i trên tập nhóm.
viết tắt bởi Expected: Trị số lý thuyết được kì vọng của đối tượng i trên tập nhóm (tính theo một giả thuyết nào đó).
Một kiểm định thường bao gồm những bước như sau:
- Thiết lập giả thuyết vô hiệu và giả thuyết (phủ định với giả thuyết ).
- Tính theo giả thuyết .
- Đưa ra giá trị và tính trị số thực tế theo công thức 3.4.
- So sánh thực tế với lý thuyết:
i) Nếu thực tế nhỏ hơn lý thuyết, có (mức ý nghĩa thống kê) thì chấp giả thuyết .
ii) Nếu thực tế lớn hơn lý thuyết thì chấp nhận giả thuyết . thực tế càng lớn thì trị số quan sát và trị số lý thuyết càng có ý nghĩa hay trị số so với càng nhỏ càng tốt.
Ví dụ:
Để nghiên cứu mối quan hệ giữa tuổi với kết quả học tập của sinh viện tại một trường đại học, người ta tiến hành thử nghiệm ngẫu nhiên với 1140 sinh viên (với mức ý nghĩa và ). Với đối tượng là các độ tuổi và nhóm gồm có kết quả học tập tốt và không tốt. Kết quả được trình bày trong bảng 3.2:
Bảng 3.2 Tuổi và kết quả học tập của sinh viên
Kết quả học tập
Tuổi Tốt Không tốt Tổng cộng
(Ri)
198 90 288
114 97 211
166 211 377
92 172 264
Tổng cộng (Cj) 570 570 1140
Bài toán đưa ra với giả thuyết vô hiệu :
Giả thuyết : Không có mối liên hệ giữa tuổi và kết quả học tập.
Giả thuyết : Tồn tại mối liên hệ giữa tuổi và kết quả học tập.
Trong bảng 3.2 giá trị của các đối tượng chính là trị số thực tế quan sát được. Trị số lý thuyết kì vọng được tính (theo giả thuyết ): .
Với
- : = (288*570)/1140= 144 - : = (211*570)/1140=105.5 - : = (377*570)/1140=188.5 - : = (264*570)/1140=132.
Tính tương tự với .
Kết quả của giá trị và được thể hiện trong bảng 3.3. Giá trị trong ngoặc là giá trị của .
Bảng 3.3 Kết quả của trị số và của ví dụ
Tuổi
Kết quả học tập
Tốt Không tốt
198 (144) 90 (144) 114 (105,5) 97 (105,5) 166 (188,5) 211 (188,5)
92 (132) 172 (132)
Ta có trị số thực tế:
Ta thấy 71.5 > 12.84, tức là thực tế lớn hơn lý thuyết và = 2.03712E-15. Vậy giả thuyết bị bác bỏ. Nghĩa là tồn tại mối liên hệ giữa tuổi và kết quả học tập (chấp nhận giả thuyết ).
3.3.3.2 Trị số
Trị số được viết tắt của “Probability value ” hiểu là xác suất của dữ liệu xảy ra nếu giả thuyết vô hiệu là đúng. Trị số là một xác suất có điều kiện và ý nghĩa của trị số gắn liền với triết lý phản nghiệm trong khoa học.
Thực hiện xét một mô hình kiểm định thống kê để tiếp cận lý thuyết phản nghiệm. Mô hình gồm có các bước như sau:
- Bước một: Phát biểu giả thuyết vô hiệu , giả thuyết vô hiệu là giả thuyết ngược lại với giả thuyết mà nhà nghiên cứu muốn kiểm định.
- Bước hai: Thu thập dữ liệu E liên quan tới giả thuyết.
- Bước ba: Tính xác suất xảy ra với dữ liệu E thu được nếu giả thuyết là đúng hay có thể hiểu theo toán học là | ).
Quay trở lại với ví dụ trong mục 3.3.3.1:
- Với giả thuyết vô hiệu : Không có mối liên hệ giữa tuổi và kết quả học tập.
- Tính dữ liệu E theo giả thuyết , kết quả thể hiện trong bảng 3.3.
- Từ giá trị = 71.5 và bậc tự do = 3, thu được giá trị = 2.03712E-15.
- Xét giá trị với tiêu chí mà đầu bài cho, đây là xác suất mà để giữa tuổi và kết quả học tập không có mối liên hệ (hay là điều kiện mà giả thuyết vô hiệu là đúng). Giá trị thu được rất nhỏ so với vì thế rất có ý nghĩa
thống kê hay nói cách khác không tồn tại độc lập giữa tuổi và kết quả học tập.
Chấp nhận giả thuyết và bác bỏ giả thuyết . 3.3.3.3 Vận dụng Chi-square trong bài toán
Tính cho mỗi bộ SNP. Giả sử ta có bộ T gồm có tương tác với nhau. Mỗi một vị trí có thể nhận các giá trị 0|1|2. Vậy bộ T có thể nhận giá trị khác nhau. Xét mỗi giá trị của T:
- : Số lượng cá thể không (có) bệnh phân biệt bằng giá trị của T.
- : Số lượng cá thể có giá trị của T * ( : Số lượng cá thể không bị bệnh, n là số lượng cá thể).
- : Số lượng cá thể có giá trị của T * ( : số lượng cá thể không bị bệnh, n là số lượng cá thể).
- )
- Sau khi tính được , tính giá trị dựa vào thư viện hỗ trợ "gsl/gsl_cdf.h"
và so sánh với giá trị . Ví dụ:
Bảng 3.4 Ví dụ đầu vào của bài toán với 2 vị trí
Class
0 0 1
0 0 0
0 1 1
1 2 0
0 0 1
2 2 0
0 0 1
- Xét bộ T với k=2, gồm hai vị trí và và class thể hiện cá thể bị bệnh và không bị bệnh (1 và 0).
- Bộ T nhận các giá trị có thể có là giá trị khác nhau: 00; 01; 02; 10; 11;
12; 20; 21; 22. Mô tả trong bảng 3.5
Bảng 3.5 Các giá trị của T với mẫu cá thể
Cá thể
Giá trị của T Bị Bệnh Không bệnh Tổng cộng (Ri)
00 3 1 4
01 1 0 1
02 0 0 0
10 0 0 0
11 0 0 0
12 0 1 1
20 0 0 0
21 0 0 0
22 0 1 1
Tổng cộng (Cj) 4 3 7
Bài toán đưa ra với giả thuyết vô hiệu :
Giả thuyết : Hai vị trí và tương tác với nhau không liên quan đến bệnh.
Giả thuyết : Hai vị trí và tương tác với nhau liên quan đến bệnh.
Trong bảng 3.6 giá trị của các đối tượng chính là trị số thực tế quan sát được. Trị số lý thuyết kì vọng được tính (theo giả thuyết ): . Trong bảng 3.5 chỉ thực hiện lấy những đối tượng nào quan sát được có giá trị khác 0 và không lấy những đối tượng có giá trị quan sát cho cả trường hợp bị bệnh và không bệnh đều nhận giá trị 0.
Kết quả thể hiện trong bảng 3.6. Giá trị trong ngoặc là giá trị của .
Bảng 3.6 Kết quả của trị số và của ví dụ Cá thể
Giá trị của T Bị bệnh Không bệnh Tổng cộng (Ri)
00 3(16/7) 1(12/7) 4
01 1(4/7) 0(3/7) 1
12 0(4/7) 1(3/7) 1
22 0(4/7) 1(3/7) 1
Tổng cộng (Cj) 4 3 7
Vậy bộ T có