Bài toán phát hiện tương tác gen

Một phần của tài liệu Thuật toán ACO và ứng dụng vào tối ưu hóa (Trang 26 - 29)

2.2.1 Mục đích vì sao cần phát hiện tương tác gen

Gen là nhân tố di truyền nằm trên nhiễm sắc thể trong tế bào quy định một hay một số tính trạng nào đó của cơ thể. Đột biến genlà những biến đổi trong cấu trúc của gen xảy ra ở cấp độ phân tử tại một điểm nào đó trên phân tử DNA và có liên quan đến sự thay đổi về số lượng, thành phần, trật tự các cặp nucleotide trong gen. Sự thay đổi trật tự các nucleotide đã làm thay đổi mã di truyền.

Vật liệu di truyền của mỗi người có một mô hình SNP độc đáo được tạo thành nhiều biến thể di truyền khác nhau. Các nhà nghiên cứu đã tìm thấy rằng, hầu hết các SNPs không chịu trách nhiệm cho một bệnh tật nào. Thay vào đó, nó như là các dấu hiệu sinh học để xác định chính xác một căn bệnh trên bản đồ gen của con người. Bởi vì, những SNPs thường nằm gần một gen được tìm thấy có liên quan đến một căn bệnh nào đó. Thỉnh thoảng một SNPs thực sự có thể gây ra một căn bệnh, và do đó có thể được sử dụng để tìm kiếm và cô lập các gen gây bệnh. SNP yếu khi đứng một mình nhưng có tác động mạnh khi xảy ra tương tác.

Chẳng hạn, tương tác gen được áp dụng trong nghiên cứu bệnh thoái hóa điểm vàng và được kí hiệu là AMD (Age-related Macular Degeneration)[14]. Các nhà nghiên cứu phân tích dựa trên việc phát hiện ra các tương tác gen trội và đưa ra được gen CFH bị đột biến trong hệ miễn dịch, đây là một loại protein đóng vai trò điều tiết phản ứng viêm nhiễm. Người mắc bệnh AMD có nguy cơ bị biến đổi gen CFH cao gấp 4 lần so với người bình thường. Các nhà nghiên cứu vẫn đang tiến hành nghiên cứu tiếp để đưa ra những chất gây bệnh khác để từ đó có những hướng điều trị thích hợp và hiệu quả.

2.2.2 Khái quát quá trình nghiên cứu tìm tương tác gen

Nghiên cứu về một bệnh chứng liên quan tới cá thể bị bệnh và không bệnh.

Trong nghiên cứu về cá thể bị bệnh và không bệnh, mục đích để tìm hiểu mối quan hệ giữa một yếu tố nguy cơ với một bệnh cụ thể.

Thứ nhất: Chọn một nhóm đối tượng đã bị bệnh (hay còn gọi là case) mà nhà nghiên cứu muốn tìm hiểu.

Thứ hai: Chọn một nhóm đối chứng không bị mắc bệnh (hay còn gọi là control), nhưng những người trong nhóm này phải có những điều kiện nhất định: Cùng độ tuổi, cùng giới tính và các yếu tố lâm sàng khác với cùng đối tượng…

Thứ ba: Qua lấy mẫu nghiên cứu và phân tích, các nhà nghiên cứu đưa ra bộ dữ liệu SNP được xác định kiểu gen của nhóm cá thể bị bệnh và không bị bệnh.

Thứ tư: Tiến hành phân tích bộ dữ liệu SNP trên để tìm ra vị trí các SNP tương tác với nhau.

Ví dụ nghiên cứu về một bệnh chứng sốt rét có ảnh hưởng tới người Viêt Nam[25]. Bệnh viện Bệnh Nhiệt đới TP. Hồ Chí Minh và Đơn vị Nghiên cứu Lâm sàng Đại học Oxford tại Việt Nam. Tiến hành nghiên cứu với trên 1030 trường hợp sốt rét nặng và 2840 trường hợp đối chứng ở Việt Nam. Lấy mẫu các đối tượng đối chứng dựa trên các trường hợp: Độ tuổi, giới tính, chủng tộc và địa bàn cư trú. Kết quả đưa ra nghiên cứu các SNP ứng viên sốt rét liên quan tới sốt rét nặng ở Việt Nam xác định được kiểu gen của 67 SNP. Tiến hành nghiên cứu trên bộ dữ liệu SNP (tùy từng yêu cầu nghiên cứu của mỗi bài toán).

2.2.3 Phát biểu bài toán tương tác gen 2.2.3.1 Phát biểu bài toán

Để tạo ra những thử nghiệm di truyền, những gen có ảnh hưởng đến bệnh đã được xác định bởi các nhà khoa học bằng cách làm cuộc xét nghiệm các cá thể bị ảnh hưởng tới căn bệnh nào đó qua quá trình phân tích DNA đưa ra các mẫu SNP. Tương tự, các nhà nghiên cứu so sánh mô hình với các mẫu thu được bằng cách phân tích DNA từ các cá thể không bị ảnh hưởng tới căn bệnh này. Cuối cùng, thu được hồ sơ các SNP khả nghi liên quan tới bệnh. Sau đó chỉ là vấn đề thời gian, các nhà nghiên cứu có thể xác định một người nhạy cảm với một căn bệnh nào đó bằng cách phân tích các mẫu DNA của họ đưa ra mô hình cụ thể SNP.

Bài toán được phát biểu như sau:

cá thể, cá thể thứ được mô tả bởi vị trí: (trong đó

=0|1|2, mô tả SNP) và giá trị =0|1 (mô tả cá thể không bị bệnh hoặc bị bệnh). Yêu cầu của bài toán tìm ra k- vị trí tương tác với nhau liên quan đến bệnh dựa trên hàm kiểm định thống kê Chi-square (X2) và mức ý nghĩa thống kê P-Value.

Trong nghiên cứu GWA (Genome Wide Apporoach ), người ta quy định các chữ cái hoa: A,B,C… đại diện alens trội và chữ cái thường: a,b,c… đại diện cho alens lặn.

Mỗi một SNP có 3 kiểu gen: AA, Aa, aa được kí hiệu tương ứng bởi các giá trị 1,2,0[23].

Nghiên cứu GWA đó là cách tiếp cận cả bộ gen để nhận diện các gen bệnh trên mô hình người với những điều kiện nhiễm khuẩn tự nhiên có thể có tiềm năng phát hiện các gen mã hóa nhưng đáp ứng cho việc miễn dịch quan trọng còn chưa biết. Vì vậy các nghiên cứu GWA quyết định trong việc xác định sự góp phần của tất cả các gen đã biết và chưa biết trong việc dính líu liên quan đến bệnh.

2.2.3.2 Mô hình hóa bài toán

Input: Đầu vào của bài toán gồm có n cá thể và m SNPs được biểu diễn dưới dạng bảng ma trận S[n+1][m+1]. Trong đó:

+ S[0][j]: Chứa số thứ tự của các SNPs trong tập dữ liệu dataSNPS và được kí hiệu:

, với j=0,..,m-1

+ S[0][m]: Chứa thông tin về cá thể được kí hiệu: class.

+ S[i][j]=0|1|2, với i=1,..,n và j=0,..,m-1 +S[i][m]=

với i=1,..,n

Ví dụ: Đầu vào của bài toán được biểu diễn dưới dạng bảng ma trận như sau:

Bảng 2.1 Minh họa đầu vào của bài toán

rs0 rs1 … rsj … rsm-1 class

2 2 … 1 … 0 1

1 0 … 2 … 2 0

… … … Sij … … …

1 1 … 2 … 0 0

0 2 … 0 … 1 1

Output: Là một tập các bộ, mỗi bộ gồm k vị trí tương tác với nhau liên quan đến bệnh nhất, được xác định dựa theo hàm kiểm định thống kê Chi-square (X2) và mức ý nghĩa thống kê . Đầu ra của bài toán được biểu diễn trong bảng 2.3:

Bảng 2.2 Minh họa đầu ra của bài toán

Loci Chi-square Pvalue

, …., X Y

… … …

Chú ý: Giá trị khác so với giá trị . là một ngưỡng nhận một giá trị cụ thể đã được xác định trước hay được gọi là mức ý nghĩa thống kê, được xác định sau khi tính được hàm X2. Lựa chọn ra các bộ gồm với hàm kiểm định thống kê X2 có giá trị lớn nhất và phải thỏa mãn điều kiện .

CHƯƠNG III

Một phần của tài liệu Thuật toán ACO và ứng dụng vào tối ưu hóa (Trang 26 - 29)

Tải bản đầy đủ (PDF)

(64 trang)