Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

TỔNG QUAN CƠ SỞ LÝ THUYẾT

Tổng quan về các phương pháp học máy

Trong những năm gần đây, học máy đã trở thành xu hướng công nghệ toàn cầu và là một trụ cột của công nghệ thông tin Các ứng dụng của học máy xuất hiện trong nhiều lĩnh vực như khoa học máy tính, vật lý và y sinh học Với sự gia tăng không ngừng của dữ liệu, việc ứng dụng học máy trong phân tích dữ liệu ngày càng trở nên phổ biến và cần thiết cho tiến bộ công nghệ Học máy, theo Wikipedia, là lĩnh vực của trí tuệ nhân tạo liên quan đến nghiên cứu và phát triển các kỹ thuật cho phép hệ thống tự động học từ dữ liệu để giải quyết các vấn đề cụ thể.

Học máy là một lĩnh vực trong khoa học máy tính, tập trung vào các thuật toán và mô hình thống kê để thực hiện nhiệm vụ mà không cần hướng dẫn cụ thể Thay vào đó, nó dựa vào các mẫu dữ liệu đã lưu trữ và phân tích để tự học, cho phép hệ thống cải thiện hiệu suất mà không cần lập trình chi tiết.

Học máy hiện nay được ứng dụng rộng rãi trong nhiều lĩnh vực của cuộc sống, bao gồm dự đoán thị trường chứng khoán, phân tích xu hướng người dùng và dự báo thời tiết Đặc biệt, nó đóng vai trò quan trọng trong chẩn đoán y khoa, phân loại các chuỗi DNA và phân loại bệnh.

1.1.2 Phân loại bài toán học máy

Dựa trên phương thức học, có thể phân loại học máy thành các loại bài toán như: Học có giám sát (Supervised learning), học không giám sát

(Unsupervised learning), học bán giám sát (Semi-Supervised learning) và học củng cố (Reinforcement Learning)

1.1.2.1 Học có giám sát (Supervised Learning)

Học có giám sát là phương pháp phổ biến nhất trong các thuật toán học máy, trong đó dự đoán đầu ra cho dữ liệu mới dựa vào các cặp dữ liệu và nhãn đã biết Phương pháp này được mô hình hóa bằng toán học với tập các biến đầu vào X = {x1, x2, , xn}.

Tập các nhãn (đầu ra): Y = {y1, y2, yn}

Tập dữ liệu huấn luyện (training set) bao gồm các cặp dữ liệu biết trước (𝑥 𝑖 , 𝑦 𝑖 ), trong đó mỗi phần tử của tập X được ánh xạ tới một phần tử tương ứng trong tập Y thông qua một hàm số: 𝑦 𝑖 ~ f (𝑥 𝑖 ) cho mọi i = 1, 2, , n.

Học có giám sát là phương pháp huấn luyện mô hình thông qua việc giảm thiểu sai số dự đoán trong các vòng lặp huấn luyện Sau khi hoàn tất quá trình huấn luyện, mô hình có khả năng dự đoán đầu ra cho các đầu vào mới mà không có trong dữ liệu huấn luyện.

Trong học máy, có hai loại bài toán có giám sát chính là bài toán phân loại và bài toán hồi quy Bài toán phân loại xảy ra khi không gian đầu ra được biểu diễn dưới dạng rời rạc, trong khi bài toán hồi quy xảy ra khi không gian đầu ra được biểu diễn dưới dạng liên tục.

1.1.2.2 Học không giám sát (Unsupervised Learning)

Học không giám sát là một mô hình học chỉ sử dụng dữ liệu đầu vào (X) mà không có dữ liệu đầu ra (Y) tương ứng Mô hình này được huấn luyện để phát hiện cấu trúc hoặc mối quan hệ giữa các đầu vào Một số phương pháp học không giám sát quan trọng bao gồm phân cụm, giảm chiều dữ liệu và phân tích thành phần chính.

- Phương pháp phân cụm (clustering): toàn bộ dữ liệu đầu vào X được phân thành các nhóm nhỏ dựa trên sự liên quan giữa các dữ liệu trong mỗi nhóm

Các cụm khác nhau được hình thành dựa trên các đặc trưng riêng biệt của dữ liệu, và các đầu vào mới được phân loại vào các cụm này dựa trên những đặc trưng của chúng.

Phương pháp tìm liên kết (association) là kỹ thuật giúp xác định quy luật từ dữ liệu đầu vào đã cho Phương pháp này thường được áp dụng trong các hệ thống gợi ý quyết định, giúp cải thiện trải nghiệm người dùng và tối ưu hóa quá trình ra quyết định.

Học bán giám sát là phương pháp học máy khi có một lượng lớn dữ liệu đầu vào, nhưng chỉ một phần nhỏ trong số đó có đầy đủ cặp đầu vào - đầu ra (dữ liệu học), trong khi phần còn lại chỉ có đầu vào Nhiều bài toán trong machine learning áp dụng phương pháp này do việc thu thập dữ liệu có gán nhãn tốn nhiều thời gian và chi phí, đặc biệt là những loại dữ liệu cần sự can thiệp của chuyên gia để gán nhãn.

1.1.2.4 Học cùng cố (Reinforcement Learning)

Học củng cố là phương pháp tự động xác định hành vi tối ưu dựa trên hoàn cảnh nhằm tối đa hóa hiệu suất Hiện nay, phương pháp này chủ yếu được áp dụng trong Lý Thuyết Trò Chơi, nơi các thuật toán cần xác định nước đi tiếp theo để đạt điểm số cao nhất.

1.1.3 Một số mô hình học máy

SVM (Support Vector Machine) là một thuật toán học máy có giám sát, sử dụng kỹ thuật ánh xạ dữ liệu vào không gian nhiều chiều để xác định ranh giới phân chia dữ liệu một cách hiệu quả Thuật toán này hỗ trợ trong việc phân loại và hồi quy, giúp cải thiện độ chính xác trong các bài toán phân tích dữ liệu.

Để tìm ra một siêu phẳng phân cách tối ưu cho việc phân chia dữ liệu tuyến tính thành hai lớp khác nhau, phương pháp thực hiện bao gồm việc xác định siêu phẳng có khoảng cách lớn nhất giữa hai lớp dữ liệu Quá trình này giúp tối ưu hóa khả năng phân loại và cải thiện độ chính xác của mô hình.

- Cho một tập dữ liệu gồm n mẫu, mỗi mẫu được biểu diễn là một điểm trong không gian vector

- Phương pháp SVM sẽ tìm ra một siêu phẳng quyết định tốt nhất để chia không gian này thành hai lớp riêng biệt tương ứng là lớp “+” và lớp “-”

Khi không thể phân chia các mẫu bằng một siêu phẳng, SVM sẽ chuyển đổi không gian ban đầu của các mẫu sang một không gian nhiều chiều hơn, giúp việc phân tách trở nên dễ dàng hơn Ví dụ, trong không gian hai chiều, việc phân loại các điểm đỏ và xanh gặp khó khăn Tuy nhiên, khi các điểm này được biểu diễn trong không gian nhiều chiều (Feature Space), việc tìm kiếm một mặt phẳng phân chia giữa các điểm xanh và đỏ trở nên đơn giản hơn rất nhiều.

Hình 1.1 Phương pháp phân loại SVM

Học sâu (Deep learning) là gì?

Học sâu (Deep learning) là một nhánh của học máy (Machine Learning) dựa trên mạng nơ-ron nhân tạo (Artificial Neural Network), với mạng nơ-ron sâu (Deep Neural Network) gồm nhiều lớp xử lý dữ liệu, cho phép học các hàm phi tuyến phức tạp Khác với các phương pháp học máy truyền thống, học sâu không yêu cầu lựa chọn đặc trưng trước khi huấn luyện, mà có khả năng tự học các biểu diễn từ dữ liệu đầu vào và xác định các đặc trưng cần thiết cho bài toán.

1.2.1 Mạng nơ-ron nhân tạo (ANN)

Bộ não con người là một cỗ máy hoàn hảo và phức tạp nhất mà tự nhiên tạo ra, với hàng triệu tế bào thần kinh Mỗi tế bào thần kinh, hay còn gọi là nơ-ron, có nhiệm vụ truyền dẫn thông tin trong cơ thể.

Xung động thần kinh là tín hiệu quan trọng mà mỗi nơ-ron nhận từ môi trường bên ngoài hoặc từ nơ-ron trước đó Tín hiệu này được truyền dọc theo axon đến nhân soma và tiếp tục được chuyển đến nơ-ron tiếp theo qua các synapse Quá trình truyền xung động thần kinh giữa các nơ-ron trong mạng lưới nơ-ron là nền tảng cho mọi chức năng thần kinh của não bộ.

Hình 1.4 Mạng nơ-ron sinh học

Dựa trên cấu trúc của mạng nơ-ron sinh học, mạng nơ-ron nhân tạo (Artificial Neural Networks) là mô hình mô phỏng mạng nơ-ron tự nhiên, bao gồm các đơn vị tính toán đơn giản được kết nối chặt chẽ Các liên kết giữa các nơ-ron quyết định chức năng của mạng, cho phép chúng làm việc như một hệ thống thống nhất để giải quyết các vấn đề cụ thể Mạng nơ-ron nhân tạo được thiết lập cho các ứng dụng như nhận dạng mẫu và phân loại dữ liệu thông qua quá trình học từ tập mẫu huấn luyện, trong đó học chính là việc điều chỉnh trọng số liên kết giữa các nơ-ron.

Mạng nơ-ron nhân tạo, giống như mạng nơ-ron sinh học, được cấu tạo từ các nơ-ron nhân tạo với nhiều đầu vào và một đầu ra Các đầu vào nhận tín hiệu từ đầu ra của các nơ-ron khác hoặc từ môi trường bên ngoài Mỗi nơ-ron có bộ trọng số để khuếch đại tín hiệu kích thích, và sau đó tất cả các tín hiệu này sẽ được cộng lại.

Hàm phi tuyến tính, hay còn gọi là hàm kích hoạt, sẽ tiếp tục biến đổi tín hiệu, và cuối cùng tín hiệu này được chuyển đến đầu ra của nơ-ron Tín hiệu này có thể trở thành đầu vào cho các nơ-ron khác hoặc là tín hiệu đầu ra của toàn bộ mạng.

Hình 1.5 Kiến trúc mạng nơ-ron nhân tạo

Kiến trúc mạng nơ-ron nhân tạo được biểu diễn như hình 1.5 Các thành phần bao gồm:

- xi là các giá trị đầu vào - tín hiệu vào (input signals) của nơ-ron, các tín hiệu này thường được đưa vào dưới dạng một vector N chiều

Trọng số liên kết, ký hiệu là wji, đại diện cho mối quan hệ giữa tín hiệu đầu vào thứ j và nơ-ron thứ i trong mạng nơ-ron Mỗi liên kết đều có một trọng số tương ứng, được khởi tạo ngẫu nhiên khi mạng bắt đầu và được cập nhật liên tục trong quá trình huấn luyện để tối ưu hóa hiệu suất của mạng.

- ∑: bộ tổng (summing function): Thường dùng để tính tổng các tích các đầu vào với trọng số liên kết của nó

- Θj: độ lệch (bias) hay là ngưỡng, được đưa vào như một thành phần của hàm truyền

- aj : là kết quả sau khi cộng các tích đầu vào và trọng số kèm với độ lệch

- zj: đầu ra của nơ-ron, là tín hiệu đầu ra của một nơ-ron, với mỗi nơ- ron sẽ có là một đầu ra

Hàm kích hoạt g(x) trong mạng nơ-ron nhân tạo có vai trò quan trọng trong việc giới hạn phạm vi đầu ra của mỗi nơ-ron Nó nhận đầu vào từ kết quả của hàm tổng và ngưỡng Mạng nơ-ron có thể được coi là một mô hình toán học Y=F(X), trong đó X là véc-tơ số liệu đầu vào và Y là véc-tơ số liệu đầu ra Nơ-ron nhân tạo tiếp nhận tín hiệu đầu vào, xử lý chúng bằng cách nhân với trọng số liên kết, tính tổng các tích thu được, và sau đó gửi kết quả đến hàm truyền để tạo ra tín hiệu đầu ra.

1.2.1.1 Kiến trúc mạng nơ-ron

Khi các nơ-ron được kết hợp, chúng tạo thành một mạng nơ-ron nhân tạo, với kiến trúc phụ thuộc vào cách kết nối giữa các nơ-ron Mạng nơ-ron có thể được thiết lập theo hai cách: kết nối đầy đủ, trong đó mỗi nơ-ron liên kết với tất cả các nơ-ron khác, hoặc kết nối cục bộ, chỉ liên kết giữa các nơ-ron trong các tầng khác nhau.

Hình 1.6 Mạng nơ-ron đầy đủ

Hình 1.7 Mạng nơ-ron cục bộ

Các mạng nơ-ron được phân loại dựa vào cách thức liên kết giữa các nơ-ron Hai loại mạng thông dụng thường được sử dụng là mạng nơ-ron truyền thẳng và mạng nơ-ron hồi tiếp.

10 dụng phổ biến là mạng lan truyền thẳng (Hình 1.8) và mạng lan truyền hồi quy (Hình 1.9)

Hình 1.8 Mạng nơ-ron lan truyền thẳng

Mạng nơ-ron lan truyền thẳng (feedforward architecture) là một kiểu kiến trúc mạng không có kết nối ngược từ các nơ-ron đầu ra về nơ-ron đầu vào, do đó không lưu lại các trạng thái trước đó Kiến trúc này cho phép tín hiệu di chuyển theo một hướng duy nhất, tạo ra sự đơn giản và hiệu quả trong quá trình xử lý thông tin.

Hình 1.9 Mạng nơ-ron lan truyền ngược

Mạng nơ-ron lan truyền ngược (Feedback architecture) là một loại kiến trúc mạng đặc trưng bởi các kết nối giữa nơ-ron đầu ra và nơ-ron đầu vào Kiến trúc này cho phép mạng ghi nhớ các trạng thái trước đó, từ đó ảnh hưởng đến trạng thái tiếp theo, tạo ra sự liên kết chặt chẽ giữa các thông tin trong quá trình xử lý.

11 vào các tín hiệu đầu vào mà còn phụ thuộc vào các trạng thái trước đó của mạng

Mạng nơ-ron là tập hợp các nơ-ron đơn lẻ, trong đó hàm kích hoạt là thành phần quan trọng, khác biệt so với các thành phần khác như đầu vào, trọng số và độ lệch Hàm kích hoạt mô phỏng quá trình truyền xung qua axon của nơ-ron thần kinh, đóng vai trò phi tuyến tại đầu ra của các nơ-ron Khi loại trừ khả năng đơn vị thuộc lớp ra, giá trị kích hoạt sẽ được đưa vào một hay nhiều đơn vị khác Các hàm kích hoạt phổ biến thường được sử dụng trong mạng nơ-ron nhân tạo.

Hàm sigmoid rất hữu ích trong các mạng nơ-ron được huấn luyện bằng thuật toán lan truyền ngược, nhờ vào khả năng dễ dàng lấy đạo hàm, giúp giảm thiểu tính toán trong quá trình huấn luyện Hàm này thường được áp dụng trong các chương trình mà đầu ra cần nằm trong khoảng [0,1] Công thức và đồ thị của hàm sigmoid được trình bày trong PT 1.1 và Hình 1.10.

Hình 1.10 Đồ thị hàm sigmoid

- Hàm Relu: Hàm ReLU đang được sử dụng khá nhiều trong những năm gần đây khi huấn luyện các mạng nơ-ron Hàm ReLU đơn giản lọc các

12 giá trị nhỏ hơn 0 Công thức của hàm ReLU được thể hiện như dưới đây

𝑓(𝑥) = 𝑚𝑎𝑥⁡(0, 𝑥) PT 1.2 Dựa trên công thức, chúng ta có độ thị biểu diễn hàm ReLU như trong Hình 1.11

Hình 1.11 Đồ thị hàm ReLU

Hàm ReLU nổi bật với tốc độ hội tụ nhanh và khả năng tính toán hiệu quả hơn so với hàm sigmoid Tuy nhiên, một nhược điểm đáng lưu ý của hàm ReLU là hiện tượng "Dying ReLU", khi các giá trị đầu vào nhỏ hơn 0 được chuyển thành 0 Điều này dẫn đến việc các nơ-ron không còn hoạt động, không đóng góp vào bước kích hoạt tuyến tính ở lớp tiếp theo, và các hệ số tương ứng từ nơ-ron đó sẽ không được cập nhật.

Tổng quan về dữ liệu sinh học – omics data và đáp ứng thuốc của các dòng tế bào

Các dòng tế bào có vai trò quan trọng trong nghiên cứu cơ chế phân tử của bệnh tật, đặc biệt trong các lĩnh vực như tim mạch và khoa học thần kinh, nơi các mẫu cấy sơ cấp với đột biến di truyền thường được sử dụng Trong nghiên cứu ung thư, các dòng tế bào từ khối u là mô hình phổ biến do chứa nhiều quang sai, giúp nghiên cứu các quá trình sinh học và hỗ trợ trong các nghiên cứu dược lý học Một đánh giá gần đây của Sharma và các đồng nghiệp đã chỉ ra những ưu và nhược điểm của việc sử dụng các dòng tế bào làm nền tảng sàng lọc thuốc.

Các dòng tế bào là những khối tế bào bệnh được nuôi cấy trong môi trường đặc biệt trong phòng thí nghiệm Để tạo ra dòng tế bào, các mẫu từ khối u của bệnh nhân được đưa vào môi trường nuôi cấy trong tủ ấm chuyên dụng và được theo dõi thường xuyên cho đến khi hình thành dòng tế bào Những tế bào này sẽ tiếp tục sinh sản thay vì chết theo thời gian.

Các dòng tế bào ung thư đã được lập trình trước cung cấp một nguồn tế bào liên tục cho nghiên cứu, với ưu điểm là phát triển nhanh chóng và dễ bảo quản, chỉ cần tủ đông có giám sát Chúng cho phép thử nghiệm nhiều loại thuốc và các sự kết hợp thuốc một cách nhanh chóng và tiết kiệm chi phí Ngoài ra, các dòng tế bào này cũng dễ dàng thao tác để nghiên cứu nguyên nhân gây ra đột biến kháng thuốc và tìm kiếm các phương pháp khác nhau để tiêu diệt tế bào ung thư.

Quá trình xử lý tế bào có thể tạo ra các tế bào phát triển vĩnh viễn, mang lại lợi ích cho một số tế bào trong khi cho phép những tế bào khác chết Kết quả là, mô hình tế bào không hoàn toàn giống với khối u ban đầu, vì các tế bào trải qua nhiều thế hệ và có thể thay đổi đáng kể về đặc điểm Hơn nữa, các tế bào này không phản ánh chính xác vi môi trường khối u như trong điều kiện sống thực tế.

Hình 1.16 Minh họa nuôi cấy tế bào ung thư trong phòng thí nghiệm

Các dòng tế bào là mô hình quan trọng trong nghiên cứu sinh học bệnh, giúp kết nối hệ gene thay đổi với phản ứng của bệnh nhân ung thư đối với liệu pháp điều trị Nhiều bộ dữ liệu lớn đã được phát triển để liên kết giữa bộ gen và cấu hình dược lý của các dòng tế bào, từ đó nâng cao hiểu biết về phản ứng thuốc trong điều trị ung thư.

NCI-60 là một bộ dữ liệu quan trọng với 60 dòng tế bào ung thư, được sử dụng trong các nghiên cứu dược lý Các nguồn dữ liệu khác như GDSC cung cấp thông tin về đáp ứng thuốc của các dòng tế bào ung thư, trong khi CCLE là bách khoa toàn thư về các dòng tế bào ung thư Những dữ liệu này, bao gồm thông tin về hệ gen, biểu hiện gen, và methyl hóa, đóng góp quan trọng vào việc xác định các dấu ấn sinh học của bệnh Thêm vào đó, việc nghiên cứu đặc điểm bộ gen và các biến thể di truyền cũng là một yếu tố thiết yếu trong các nghiên cứu ung thư.

Nền tảng di truyền là một yếu tố quyết định quan trọng ảnh hưởng đến sức khỏe và bệnh tật của cá nhân Việc kiểm tra cấu trúc di truyền giúp xác định các đột biến hoặc biến thể liên quan đến sức khỏe Công nghệ giải trình tự gen hiện đại cho phép nghiên cứu bộ gen của toàn bộ quần thể với tốc độ và hiệu quả cao hơn Trong bộ gen, nhiều biến thể tồn tại, trong đó phần lớn là lành tính, một số có tính chất bảo vệ, nhưng cũng có những biến thể có thể gây hại hoặc tăng nhạy cảm với bệnh Các biến thể di truyền được phân loại thành biến thể đơn nucleotide (SNV) và biến thể cấu trúc (SV), với SNV bao gồm các biến thể nucleotide đơn và sự chèn/xóa nhỏ, trong khi SV bao gồm các biến thể số bản sao (CNVs) và nghịch đảo Dữ liệu về các đột biến này rất quan trọng trong việc nghiên cứu các dấu ấn sinh học dự đoán bệnh tật.

Thể hiện gene là quá trình mà thông tin từ gen được chuyển hóa thành cấu trúc trong tế bào, điều khiển hoạt động của tế bào thông qua protein hoặc RNA Dữ liệu từ quá trình này cung cấp thông tin quan trọng để hiểu rõ hơn về động lực của chuyển hóa tế bào và mô.

19 đồng thời đánh giá liệu những thay đổi trong hồ sơ phiên mã có ảnh hưởng đến sức khỏe và bệnh tật như thế nào

Các dữ liệu như protein và thông tin về methyl hóa (methylation) đang ngày càng được khai thác, đóng góp quan trọng trong việc phát hiện và điều trị bệnh.

1.2.2 Định nghĩa đáp ứng thuốc Đáp ứng thuốc là kết quả của quá trình tương tác giữa thuốc với các thành phần của tế bào trong cơ thể, tạo nên những đáp ứng của các tổ chức đối với thuốc Thông thường thuốc có tác dụng điều hòa (tăng cường hoặc ức chế) một hoặc một vài chức năng nào đó của cơ thể chứ không tạo ra chức năng mới [1]

Nồng độ ức chế tối đa một nửa (IC50) là thước đo khả năng của một chất trong việc ức chế chức năng sinh học hoặc sinh hóa, cho biết lượng chất ức chế cần thiết để giảm hoạt động sinh học xuống 50% IC50 thường được sử dụng trong nghiên cứu y dược như một chỉ số đánh giá khả năng đáp ứng thuốc, liên quan đến các thành phần sinh học như enzyme, tế bào, và vi sinh vật Bên cạnh IC50, chỉ số AUC (diện tích vùng dưới đường cong) cũng được sử dụng để đo đáp ứng thuốc, cùng với các chỉ số khác như pIC50 và EC50 Trong đó, pIC50 được tính toán từ IC50 theo công thức logarit, cho thấy khả năng ức chế mạnh hơn, trong khi EC50 biểu thị liều cần thiết để đạt được 50% hiệu quả tối đa trong huyết tương.

Thử nghiệm lâm sàng trên bệnh nhân và động vật thường tiêu tốn nhiều thời gian và chi phí Do đó, việc tính toán đáp ứng thuốc với các tế bào nuôi cấy trở thành một yếu tố quan trọng trong nghiên cứu tiền lâm sàng của các loại thuốc điều trị.

Trong nghiên cứu điều trị ung thư, 20 phương pháp trị liệu và các thử nghiệm trên dòng tế bào đã cho thấy hiệu quả đáng kể Các dòng tế bào này mang đầy đủ đặc tính di truyền của bệnh nhân, cho phép các nghiên cứu gần đây mở rộng các phép đo trên nhiều dòng tế bào và một lượng lớn thuốc Mục tiêu là xác định các dấu ấn sinh học, di truyền và phiên mã, từ đó định hướng cho các phương pháp điều trị hiệu quả hơn.

Hình 1.17 Minh họa đo giá trị đáp ứng thuốc IC50

Hình 1.17 minh họa quá trình đo đáp ứng thuốc, trong đó các khay dòng tế bào ung thư mẫu được xử lý với thuốc tại những thời điểm khác nhau, chẳng hạn như sau 6 giờ.

12 giờ và 48 giờ, sau đó tiến hành theo dõi đo nồng độ đáp ứng thuốc Tính giá trị đáp ứng chung theo công thức như sau [6]:

Ta có tập dữ liệu về nồng độ thuốc (drug concentration): X [x1, x2, …xn], tập giá trị phát triển ức chế (growth inhibition) Y [y1, y2, …yn] trong đó 𝑦 𝑖 thuộc [0,1]

Theo mô hình hồi quy tuyến tính ta có thể ước lượng giá trị IC50 theo công thức PT 1.3 tổng quan sau:

Từ tập nồng độ thuốc X và giá trị phát triển ức chế Y, chúng ta xác định các tham số a và b Sau khi xác định, giá trị IC50 được tính toán theo công thức PT 1.4.

1.2.3 Nguồn dữ liệu sinh học và đáp ứng thuốc

BÀI TOÁN DỰ ĐOÁN ĐÁP ỨNG THUỐC VÀ CÁC PHƯƠNG PHÁP TRÊN HỌC MÁY

Giới thiệu bài toán dự đoán đáp ứng thuốc

Mô hình tính toán dự đoán đáp ứng thuốc đóng vai trò quan trọng trong nghiên cứu tiền lâm sàng, đặc biệt là trong việc phát triển các công cụ sàng lọc thuốc trên máy tính (in silico).

Các công cụ nghiên cứu hiện đại giúp các nhà sinh học xác định các hợp chất tiềm năng, từ đó xây dựng chiến lược thử nghiệm hiệu quả và tiết kiệm chi phí Phương pháp tính toán dự đoán đáp ứng thuốc, dựa trên dữ liệu -omics, đang được nghiên cứu và cho thấy tín hiệu tích cực trong việc chẩn đoán và điều trị bệnh.

Hiện nay, các mô hình nghiên cứu phổ biến thường tập trung vào hai phương pháp chính: dự đoán đáp ứng thuốc theo hướng thuốc (drug-centric response) và dự đoán đáp ứng theo hướng bệnh (disease-centric response) Mỗi phương pháp này có khả năng xây dựng mô hình dự đoán cho một hoặc nhiều loại thuốc và bệnh cùng lúc.

Một phương pháp phổ biến trong nghiên cứu dược phẩm là xây dựng mô hình dự đoán độ nhạy thuốc cho các hợp chất riêng lẻ Bài toán này có thể được mở rộng để dự đoán đáp ứng cho nhiều hợp chất đồng thời Hướng tiếp cận này thường tập trung vào việc dự đoán hiệu quả điều trị cho một hoặc một vài phương pháp điều trị, thông qua việc nghiên cứu một nhóm bệnh nhân cụ thể hoặc thử nghiệm lâm sàng Ví dụ, có những mô hình dự đoán độ nhạy hoặc kháng thuốc của một loại thuốc đối với một loại ung thư cụ thể, như mô hình của Blumenschein et al.

[16] dự đoán đáp ứng 1 loại thuốc (sorafenib) cho bệnh nhân ung thư phổi từ thử nghiệm BATTLE

Gần đây, nhiều nghiên cứu đã phát triển mô hình dự đoán đáp ứng thuốc phối hợp, nhằm xác định độ nhạy của các cặp thuốc Trong khuôn khổ DREAM Challenges, đã có 31 mô hình được trình bày để dự đoán phản ứng với các cặp thuốc khác nhau.

Các mô hình đã được huấn luyện trên dữ liệu biểu hiện gen từ các dòng tế bào, bao gồm cả những dòng tế bào đã được điều trị và chưa được điều trị, với tổng cộng 14 hợp chất được sử dụng trong nghiên cứu.

Trong quá trình huấn luyện, các mô hình nhận thông tin về thuốc được chuyển hóa từ các hợp chất đơn lẻ và đưa ra dự đoán cho 91 cặp hợp chất Phương pháp dự đoán hiệu quả nhất trong nghiên cứu này là DIGRE.

DIGRE dựa trên giả thuyết rằng các hiệu ứng phiên mã do thuốc thứ nhất có thể ảnh hưởng đến tác dụng của thuốc thứ hai Để thực hiện điều này, DIGRE đã tính toán sự tương đồng giữa các ảnh hưởng của biểu hiện gen do hai loại thuốc gây ra Thông tin này, kết hợp với các giá trị đường cong liều-đáp ứng, được sử dụng làm đầu vào cho mô hình ước lượng tác dụng phụ Cuối cùng, quá trình tính toán điểm tác dụng phụ cho từng chuỗi điều trị được thực hiện.

Các phương pháp dự đoán đáp ứng thuốc

Hầu hết các phương pháp xây dựng mô hình dự đoán phản ứng thuốc chủ yếu dựa trên học giám sát, nhưng học không giám sát, đặc biệt là các kỹ thuật phân cụm, cũng rất quan trọng trong các bước cơ bản như lựa chọn và trực quan hóa dữ liệu Những bước này cần thiết trước khi áp dụng các kỹ thuật học có giám sát cho bài toán dự đoán.

Hình 2.1 Các bước chính xây dựng mô hình dự đoán đáp ứng thuốc

Từ Hình 2.1, ta có thể thấy, các bước chính trong việc xây dựng các mô hình tính toán để dự đoán đáp ứng thuốc bao gồm:

Dữ liệu được thu thập từ các nghiên cứu trên tế bào, động vật hoặc con người hiện đang được lưu trữ trong các kho dữ liệu khác nhau.

25 nhau, bao gồm cả dữ liệu công khai và dữ liệu bản quyền Các tập dữ liệu này bao gồm thông tin về phản ứng thuốc tương ứng

Tập dữ liệu thu được sẽ được sử dụng để huấn luyện mô hình dự đoán, bao gồm nhiều loại dữ liệu 'omics' khác nhau, chẳng hạn như phiên mã và trình tự DNA.

- Dữ liệu này được sử dụng làm đầu vào cho các mô hình thống kê hoặc học máy cũng như các phương pháp tính toán dự đoán khác nhau

Hiệu suất dự đoán của các mô hình được đánh giá thông qua các kỹ thuật như xác nhận chéo (cross-validation) hoặc phương pháp LOOV Các mô hình tiềm năng nhất sẽ được lựa chọn và kiểm tra bằng cách sử dụng các tập dữ liệu thử nghiệm mà không được sử dụng trong quá trình đào tạo.

Mô hình và các dự đoán có thể được xác nhận độc lập thông qua dữ liệu lâm sàng, nhằm thu hẹp khoảng cách giữa nghiên cứu phòng thí nghiệm và ứng dụng lâm sàng.

Hiện nay, các mô hình dự đoán đáp ứng thuốc chủ yếu sử dụng phương pháp học có giám sát, bao gồm hồi quy tuyến tính cho dữ liệu liên tục và phân loại cho dữ liệu rời rạc Những mô hình này thực hiện tính toán và ước lượng giá trị độ nhạy thuốc thông qua các phép đo như AUC và IC50.

Các mô hình phân lớp dự đoán độ nhạy theo các mức đáp ứng đã xác định, như độ nhạy cao và thấp, cũng như độ nhạy và kháng thuốc Nhiều kỹ thuật thống kê và học máy đã được áp dụng, bao gồm hồi quy tuyến tính, support vector machines, random forest, và k-nearest neighbors (KNN) Các nghiên cứu so sánh dựa trên bộ dữ liệu công khai và bản quyền cho thấy sự thiếu hụt trong các giải pháp đa mục tiêu, cần thiết để kết hợp thành mô hình tổng thể từ lựa chọn bộ dữ liệu, thuật toán và gán nhãn.

Không có phương pháp nào có thể vượt trội hơn các phương pháp khác khi áp dụng trên các tập dữ liệu và loại thuốc khác nhau.

Việc lựa chọn bộ dữ liệu mẫu và kích thước bộ dữ liệu là yếu tố quan trọng trong mô hình dự đoán Nghiên cứu của Jang và cộng sự đã chỉ ra rằng không có giải pháp chung cho các mô hình hồi quy và phân loại, và hiệu quả của một phương pháp có thể vượt trội hơn phương pháp khác tùy thuộc vào tập dữ liệu huấn luyện, chẳng hạn như CCLE hoặc CGP, cũng như cách đo độ nhạy của thuốc, ví dụ như IC50 hoặc AUC.

Một phương pháp tích hợp được áp dụng bằng cách kết hợp các tập dữ liệu trong bước tiền xử lý, tạo thành một đầu vào duy nhất Các nghiên cứu dựa trên mạng cho thấy kết quả khả quan khi phân tích các đặc tính -omics trong các mạng gene/protein hoặc mạng tương đồng giữa các dòng tế bào Zhang et al đã xây dựng các mạng tương đồng giữa các dòng tế bào và loại thuốc, xác định giá trị đáp ứng dự đoán cho mỗi dòng tế bào dựa trên phản ứng đã biết và các nút hàng xóm trong mạng thuốc và dòng tế bào, từ đó đưa ra các giá trị dự đoán thông qua mô hình trọng số.

Các mô hình học có giám sát, như học đa tác vụ, đang nổi lên như giải pháp tiềm năng cho việc cải thiện khả năng dự đoán đáp ứng thuốc Tuy nhiên, độ chính xác của các mô hình này phụ thuộc vào chất lượng dữ liệu huấn luyện từ bộ dữ liệu mẫu có kích thước đủ lớn Các mô hình có thể phân loại dựa trên khả năng xử lý nhiều loại dữ liệu đầu vào khác nhau, chẳng hạn như biểu hiện gen, số bản sao gen, và các giá trị định danh hoặc khuyết, nhằm tạo ra một mô hình duy nhất kết hợp tất cả các tính năng trong tập dữ liệu.

Thuật toán softImpute được sử dụng để dự đoán phản ứng thuốc cho các dòng tế bào chưa biết, dựa trên dữ liệu phản ứng thuốc của các dòng tế bào đã biết Phương pháp này cho phép dự đoán đồng thời cho nhiều loại thuốc khác nhau.

Hiện nay, công nghệ giải trình tự thông lượng cao và sự gia tăng nguồn dữ liệu đã tạo ra khối lượng thông tin khổng lồ khi kết hợp với các dữ liệu hình ảnh y sinh và hồ sơ miễn dịch Khi không gian đặc tính đủ lớn, các mô hình học máy sâu có khả năng học hỏi từ những tín hiệu dự đoán trong các nguồn dữ liệu phong phú này, dẫn đến sự cải thiện đáng kể về độ chính xác và hiệu suất của các phương pháp dự đoán.

Các phương pháp đánh giá mô hình dự đoán

Trong mô hình dự đoán đáp ứng với thuốc, việc đánh giá độ chính xác của mô hình được thực hiện thông qua các phương pháp như xác thực chéo K-fold (KF-CV) và xác thực chéo bỏ đi một (LOO-CV).

2.3.1 k-fold Cross-validation k-fold cross validation thường được sử dụng để so sánh và chọn ra mô hình tốt nhất cho một bài toán Kỹ thuật này dễ hiểu, dễ thực hiện và cho ra các ước lượng tin cậy hơn so với các phương pháp khác

Hình 2.2 Xác thực chéo k-fold

Phương pháp xác thực chéo k-fold, như mô tả trong Hình 2.2, chia tập dữ liệu đào tạo đầy đủ thành k tập con thông qua việc lấy mẫu ngẫu nhiên Trong đó, (k-1) tập được sử dụng để huấn luyện mô hình.

Mô hình 28 được thiết lập với giá trị k được chọn sao cho mỗi tập huấn luyện và kiểm thử đủ lớn và có tính đại diện cho dataset Sau khi điều chỉnh mô hình với dữ liệu, nó sẽ được đánh giá trên tập dữ liệu còn lại Quá trình này lặp lại cho tất cả các folds để sử dụng làm tập dữ liệu thử nghiệm Hiệu suất dự đoán được ước tính cho từng bộ thử nghiệm độc lập, và hiệu suất tổng thể của mô hình được tính trung bình trên toàn bộ các lần thử nghiệm.

LOO-CV, hay còn gọi là Leave-One-Out Cross-Validation, là một phương pháp trong đó mỗi mẫu trong tập dữ liệu được sử dụng để đánh giá mô hình một lần duy nhất Trong phương pháp này, giá trị của k được cố định bằng n, với n là kích thước của tập dữ liệu, đảm bảo rằng mỗi mẫu đều đóng vai trò quan trọng trong quá trình đánh giá mô hình.

2.3.3 Các phép tính toán hiệu năng

Hiệu năng của các phương pháp dự đoán trong mô hình hồi quy được đánh giá qua độ tương quan hoặc sự khác biệt giữa giá trị thực tế và giá trị dự đoán Hai chỉ số phổ biến được sử dụng để đo lường hiệu suất này là sai số toàn phương trung bình (MSE) hoặc sai số căn bậc hai của sai số toàn phương (RMSE) và hệ số tương quan Pearson (𝐶𝐶 𝑝).

Sai số toàn phương trung bình (MSE) là trung bình của bình phương các sai số giữa giá trị quan sát và giá trị dự đoán, đóng vai trò như một hàm rủi ro thể hiện kỳ vọng của sự mất mát sai số bình phương Sự khác biệt trong MSE có thể do ngẫu nhiên hoặc do các ước lượng thiếu thông tin, dẫn đến ước tính không chính xác Để tính toán độ lệch chuẩn, ta lấy căn bậc hai của MSE, cho ra sai số root-mean-square (RMSE) hoặc độ lệch root-mean-square (RMSD), với đơn vị tương tự như đại lượng được ước tính Đối với các đại lượng không có thiên vị, RMSE chính là căn bậc hai của phương sai, tương đương với độ lệch chuẩn.

Root Mean Squared Error (RMSE) được tính bằng công thức PT 2.1 sau:

Trong đó oi và yi là giá trị quan sát và giá trị dự đoán của tập n giá trị được dự đoán

Phép đo tương quan Pearson đánh giá mối quan hệ giữa các giá trị quan sát và giá trị dự đoán từ một phương pháp dự đoán Để tính toán, sử dụng phương sai của tập giá trị quan sát (𝜎 𝑜) và giá trị dự đoán (𝜎 𝛾) theo công thức Pearson PT 2.2.

Lựa chọn đề xuất mô hình cho bài toán dự đoán đáp ứng thuốc

Đột biến gen được xác định là nguyên nhân chính gây ra nhiều loại ung thư hiện nay Trong quần thể loài người, các gen bị đột biến có thể tồn tại ở dạng gen lặn, đóng vai trò quan trọng trong sự đa dạng hóa nguồn gen và cơ chế loại thải theo thuyết tiến hóa Điều này dẫn đến việc một số người có thể sinh ra với đột biến gen gây bệnh ung thư do sự kết hợp của các gen lặn Ngoài ra, các tác nhân vật lý, hóa học và sinh học xung quanh cũng ảnh hưởng đến sức khỏe con người Trong nghiên cứu này, tôi tập trung vào việc thu thập dữ liệu về biểu hiện đột biến gen ở các dòng tế bào ung thư và dữ liệu về đáp ứng thuốc đã biết, nhằm xây dựng mô hình dự đoán hiệu quả điều trị.

Trong khảo sát các phương pháp dự đoán đáp ứng thuốc hiện nay, thuật toán Random Forest và Support Vector Machine được đánh giá cao về độ chính xác Do đó, tôi đã chọn hai phương pháp này để triển khai bài toán dự đoán đáp ứng thuốc Ngoài ra, tôi cũng tiến hành thử nghiệm hiệu quả dự đoán bằng phương pháp học sâu thông qua mạng nơ-ron tích chập Kết quả của các dự đoán sẽ được trình bày trong phần ba của luận văn.

CÀI ĐẶT THỬ NGHIỆM VÀ ĐÁNH GIÁ

Xây dựng và chuẩn hóa bộ dữ liệu

Dữ liệu trong luận văn này được thu thập từ GDSC, nguồn dữ liệu công khai trực tuyến về mối quan hệ giữa các loại ung thư và thuốc chống ung thư GDSC mô tả các dòng tế bào ung thư qua đặc tính di truyền như trạng thái đột biến và số lượng bản sao Đối với thuốc, GDSC cung cấp tên và ID phức hợp (CID), giúp truy xuất thông tin chi tiết như cấu trúc phân tử IC50 được sử dụng làm thước đo hiệu quả của thuốc, chỉ ra lượng thuốc cần thiết để ức chế bệnh ung thư GDSC là dự án đang diễn ra và thường xuyên cập nhật, trong đó phiên bản 6.0 cung cấp nhiều thuốc và dòng tế bào hơn so với các phiên bản trước.

Tôi đã sử dụng bộ dữ liệu từ nguồn GDSC như sau:

Tập dữ liệu PANCANCER_Genetic_feature.csv chứa 990 dòng tế bào ung thư từ 23 loại bệnh ung thư khác nhau, với mỗi dòng gồm 3 thuộc tính: tên dòng tế bào (cell_line_name), đặc trưng đột biến (genetic_feature), và trạng thái thể hiện của dòng tế bào (cell_line_name) liên quan đến đột biến (genetic_feature) Mỗi dòng tế bào có thể được mô tả bởi tối đa 735 đặc trưng, như minh họa trong Hình 3.1.

Hình 3.1 Cấu trúc file PANCANCER_Genetic_feature.csv

- PANCANCER_IC.csv, chứa IC50 thông tin giữa 250 loại thuốc và

Bài viết đề cập đến 1074 dòng tế bào, mỗi dòng chứa 4 thuộc tính quan trọng Thuộc tính đầu tiên là tên thuốc (Drug name), giúp định danh thuốc Tiếp theo là mã thuốc (Drug Id), với mỗi loại thuốc có một mã định danh riêng biệt Thuộc tính thứ ba là tên dòng tế bào, được so khớp với tệp đặc trưng tế bào đã trình bày trước đó Cuối cùng, thuộc tính thứ tư là giá trị tương tác giữa thuốc và dòng tế bào, được thể hiện qua chỉ số IC50 Hình 3.2 minh họa rõ hơn về các thuộc tính này.

Hình 3.2 Cấu trúc file PANCANCER_IC.csv

3.1.2 Tiền xử lý dữ liệu

Do sự không đồng nhất về số lượng thuốc và số dòng tế bào trong các tệp dữ liệu, dòng tế bào với số đặc trưng lớn nhất lên tới 735 đặc trưng cần được tinh chỉnh Việc này nhằm tạo ra các bộ dữ liệu chuẩn hóa, từ đó hình thành bộ dữ liệu đầu vào cho mô hình dự đoán.

Bước đầu tiên trong quá trình xử lý dữ liệu là làm sạch danh sách thuốc Chúng ta cần lọc danh sách thuốc từ các file dữ liệu dựa trên ID và tên thuốc, qua đó thu được 223 loại thuốc có đầy đủ thông tin về tên và ID.

- Bước thứ hai là làm sạch danh sách các dòng tế bào Lọc các dòng tế bào trùng trong tập dữ liệu thu được 948 dòng tế bào

Bước thứ ba trong quá trình nghiên cứu là thống kê các cặp tương tác giữa thuốc và dòng tế bào có giá trị đáp ứng (IC50) Các cặp này được coi là các giá trị mẫu đã biết, trong khi các cặp còn lại không có giá trị được xem là các cặp chưa biết và không tham gia vào quá trình huấn luyện cũng như kiểm tra mô hình Kết quả thu được cho thấy có 223 × 948 = 211,404 cặp tương tác, chiếm 81,4% (172,114) giá trị IC50 được cung cấp, trong khi 18,6% (39,290) là giá trị khuyết và được loại trừ khỏi phân tích.

Bước thứ tư trong quy trình là chuẩn hóa dữ liệu IC50, giá trị này là số thực Để thuận tiện cho việc huấn luyện mô hình và so sánh, IC50 được chuẩn hóa về khoảng (0, 1) theo phương pháp [19] Công thức chuẩn hóa giá trị IC50 được trình bày trong PT 3.1.

Xây dựng mô hình dự đoán dựa trên các phương pháp đề xuất

3.2.1 Mô hình huấn luyện Để thực hiện dự đoán đáp ứng thuốc bằng mô hình rừng ngẫu nhiên hồi quy (RF regression) và máy vector hỗ trợ hồi quy (Support Vector Regression) tôi tiến hành cài đặt môi trường thực nghiệm trên scikit-learn Vì với tập dữ

Tôi đã lựa chọn ngẫu nhiên một bộ dữ liệu nhỏ khoảng 38.000 dòng từ tập dữ liệu lớn hơn 170.000 cặp dữ liệu đã được xử lý, như đã trình bày trong phần 3.1.2, để áp dụng phương pháp hồi quy rừng ngẫu nhiên (RFR).

Thực nghiệm này sử dụng thuật toán hồi quy rừng ngẫu nhiên, một phương pháp học máy hiệu quả Để thực hiện, tôi đã áp dụng thư viện scikit-learn trong Python.

Tôi đã chọn hàm đo lường chất lượng là MSE để làm tiêu chuẩn đánh giá trong luận văn này Tôi sẽ điều chỉnh các tham số như số lượng cây trong rừng (n_estimators), độ sâu của cây (max_depth), số lượng mẫu tối thiểu cần thiết để tách một nút nội bộ (min_samples_split) và số lượng thuộc tính tối đa (max_features) để tìm bộ tham số phù hợp nhất Bước đầu tiên, tôi thay đổi số lượng cây trong rừng và giữ các tham số khác ở giá trị mặc định (max_features = 3, min_samples_split = 2).

= auto), kết quả thực nghiệm được trình bày trong Bảng 3.1

Số lượng cây RMSE PEARSON Thời gian huấn luyện

Bảng 3.1 Kết quả thực nghiệm lựa chọn số lượng cây

Khi số lượng cây trong mô hình tăng lên, thời gian huấn luyện cũng gia tăng và chất lượng kết quả cải thiện, mặc dù độ chính xác không thay đổi nhiều Dựa vào bảng so sánh, tôi quyết định sử dụng số lượng cây n_estimators = 100 Tiếp theo, tôi sẽ điều chỉnh tham số độ sâu của cây (max_depth) trong khi giữ n_estimators = 100 và các tham số khác không thay đổi như trong các thí nghiệm trước đó.

Kết quả được trình bày trong Bảng 3.2

34 Độ sâu RMSE PEARSON Thời gian huấn luyện

Bảng 3.2 Kết quả thực nghiệm lựa chọn độ sâu của cây

Sau khi điều chỉnh độ sâu của cây, tôi nhận thấy sai số RMSE giảm và độ tương đồng Pearson tăng, mặc dù thời gian huấn luyện tăng 1.67 lần Vì vậy, tôi đã chọn độ sâu tối đa của cây là max_depth = 10 cho bài toán Sau khi xác định độ sâu và số lượng cây, tôi tiếp tục điều chỉnh số lượng mẫu tối thiểu cần thiết để tách một nút (min_samples_split), với các tham số đã được chọn là n_estimators = 100 và max_depth = 10 Kết quả được trình bày trong Bảng 3.3.

Mẫu tối thiểu RMSE PEARSON Thời gian huấn luyện

Bảng 3.3 Kết quả thực nghiệm lựa chọn số lượng mẫu tối thiểu

Dựa trên các tham số đã được phân tích, khi sử dụng tối thiểu 4 mẫu, độ tương đồng Pearson đạt kết quả cao hơn, trong khi thời gian huấn luyện chỉ tăng nhẹ.

Cuối cùng, tôi đã thử nghiệm với việc thay đổi số lượng thuộc tính tối đa (max_features) trong mô hình, với các tham số được lựa chọn là n_estimators = 100, max_depth = 10 và min_samples_split = 4 Kết quả của các thí nghiệm này được trình bày trong Bảng 3.4.

Thuộc tính tối đa RMSE PEARSON Thời gian huấn luyện auto 0.057 0.491 442.086 log2 0.061 0.747 5.561 sqrt 0.058 0.720 15.525

Bảng 3.4 Kết quả thực nghiệm lựa chọn thuộc tính tối đa

Với số lượng thuộc tính bằng log2 của đầu vào, kết quả Pearson cho thấy chất lượng khác biệt và thời gian huấn luyện giảm đáng kể so với phương pháp tự động.

Sau khi thử nghiệm thay đổi các tham số, tôi chọn tham số sau là tham số đưa ra kết tốt nhất:

- Số lượng cây trong rừng: 100

- Hàm tính sai số: mse

- Số lượng mẫu tối thiểu: 4

- Hàm tính số lượng tối đa: log2 b) Máy vector hỗ trợ hồi quy (SVR)

Tương tự như thuật toán RFR, tôi đã thiết lập một bộ thực nghiệm với các tham số thay đổi bao gồm phương pháp biến đổi kernel và loại hệ số biến đổi gamma Ban đầu, tôi sử dụng giá trị mặc định của kernel là rbf và tiến hành điều chỉnh các hệ số biến đổi gamma Kết quả thu được được trình bày trong Bảng 3.5.

Gamma RMSE PEARSON Thời gian huấn luyện scale 0.058 0.666 398.744 auto 0.058 0.666 406.462

Bảng 3.5 Kết quả thực nghiệm lựa chọn hệ số Gamma

Mặc dù sai số RMSE và độ tương đồng hàm số trong Bảng 3.5 là giống nhau, nhưng thời gian huấn luyện với Gamma ở chế độ scale lại nhanh hơn.

36 nhiên, nó chưa có sự thay đổi đáng kể Tiếp theo, tôi lựa chọn phương pháp biến đổi kernel

Tôi cố định về Gamma là scale và thay đổi về phương pháp biến đổi kernel Kết quả được trình bày trong Bảng 3.6

Kernel RMSE PEARSON Thời gian huấn luyện linear 0.048 0.732 215.430 poly 0.060 0.696 649.063 rbf 0.058 0.666 398.744 sigmoid 0.054 0.0285 3408.236

Bảng 3.6 Kết quả thực nghiệm lựa chọn Kernel

Dựa trên kết quả phân tích, tôi nhận thấy sự khác biệt của hàm biến đổi tuyến tính, đặc biệt là việc hàm này không chứa các tham số Vì lý do đó, tôi đã quyết định chọn hàm biến đổi tuyến tính làm hàm biến đổi chính trong phạm vi luận văn Bên cạnh đó, mô hình dự đoán sẽ được thực hiện thông qua mạng nơ-ron tích chập (CNN).

Tôi đã tiến hành thử nghiệm với hai mô hình học máy và dựa trên kết quả thu được, tôi chọn các tham số tối ưu để huấn luyện với dữ liệu đầy đủ Trong phần tiếp theo, tôi sẽ trình bày mô hình mạng tích chập nhằm dự đoán độ đáp ứng của thuốc đối với bệnh.

Vẫn như hai mô hình trước, tôi sử vẫn sử dụng một ma trận one-hot gồm 223 phần tử để biểu diễn định danh của thuốc (Hình 3.3)

Tôi sử dụng ma trận one-hot với 735 phần tử để biểu diễn các thuộc tính của dòng bệnh Mỗi ô trong ma trận tương ứng với một loại đột biến; nếu dòng tế bào chứa loại đột biến đó, ô tương ứng sẽ có giá trị 1, trong khi các ô còn lại sẽ có giá trị 0.

Hình 3.4 Biểu diễn dòng bệnh

Sau khi đã mã hóa đầu vào, tôi thực hiện xây dụng kiến trúc mạng như sau:

- Đối với thuốc, tôi sử dụng một mạng nơ-ron cơ bản sử dụng hàm kích hoạt Linear và ReLU để mã hóa đầu vào của thuốc

- Đối với dòng tế bào, tôi sử dụng mạng nơ-ron tích chập một chiều để trích chọn đặc trưng

- Và sử dụng một mạng nơ-ron hồi quy để đủ tổng hợp kết quả của hai phần trên

Hình 3.5 Mô hình dự đoán với mạng nơ-ron tích chập

Sau khi xây dựng xong kiến trúc mạng, tôi thực hiện chạy training trên máy server có cấu hình như sau:

- CPU: Intel® Xeon® Platinum 8380HL

Sau khi hoàn tất quá trình huấn luyện, tôi đã điều chỉnh các tham số đầu vào như tỷ lệ học và số lượng vòng lặp, và kết quả thu được được trình bày trong Bảng 3.7.

Tham số RMSE PEASON Thời gian

Bảng 3.7 Kết quả thực nghiệm các tham số

Kiểm thử và kết quả

Các mô hình đề xuất được thử nghiệm bằng cách chia bộ dữ liệu thuốc và dòng tế bào thành ba phần: 80% cho huấn luyện, 10% cho đánh giá và 10% cho thử nghiệm.

Kết quả dự đoán của mô hình RF chỉ có dữ liệu của dòng tế bào như sau:

Kết quả dự đoán của mô hình SVR chỉ có dữ liệu của dòng tế bào như sau:

Kết quả được biểu diễn trong Bảng 3.8 sau

Bảng 3.8 trình bày kết quả kiểm thử các mô hình học máy và học sâu Để làm nổi bật sự khác biệt về độ sai số RMSE, tôi đã sử dụng đồ thị trong Hình 3.8 Đồng thời, Hình 3.9 thể hiện độ tương đồng giữa các phương pháp.

Hình 3.8 Đồ thị độ sai số thử nghiệm mô hình dự đoán đáp ứng thuốc

Hình 3.9 Đồ thị độ tương đồng của các mô hình dự đoán đáp ứng thuốc

RF SVR CNN Độ sai s ố

RF SVR CNN Độ t ươn g đ ồ n g

Mô hình dự đoán sử dụng phương pháp học sâu đã cho thấy hiệu quả vượt trội trong việc dự đoán so với các mô hình học máy truyền thống như rừng ngẫu nhiên hồi quy (RF) và máy vectơ hỗ trợ hồi quy (SVR).

Tiêu đề	Ứng Dụng Mô Hình Học Máy Trong Dự Đoán Đáp Ứng Thuốc
Tác giả	Nguyễn Xuân Tùng
Người hướng dẫn	TS. Ban Hà Bằng
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Công nghệ thông tin
Thể loại	luận văn thạc sĩ
Năm xuất bản	2021
Thành phố	Hà Nội

Định dạng
Số trang	60
Dung lượng	1,27 MB