Các phương pháp học tập được phát triển trong và dành cho các ngành công nghiệp này mang lại tiềm năng to lớn để nâng cao nghiên cứu y tế và chăm sóc lâm sàng, đặc biệt là khi các nhà cu
Trang 1TRƯỜNG ĐẠI HỌC QUY NHƠN
-o0o -
LÊ THỊ PHƯƠNG THẢO
XÂY DỰNG MÔ HÌNH DỰ BÁO KHẢ NĂNG
BỊ ĐỘT QUỴ SỬ DỤNG THUẬT TOÁN
LIGHTGBM
ĐỀ ÁN THẠC SĨ KHOA HỌC DỮ LIỆU
Bình Định - 2024
Trang 2TRƯỜNG ĐẠI HỌC QUY NHƠN
-o0o -
LÊ THỊ PHƯƠNG THẢO
XÂY DỰNG MÔ HÌNH DỰ BÁO KHẢ NĂNG
BỊ ĐỘT QUỴ SỬ DỤNG THUẬT TOÁN
Trang 3Trong quá trình thực hiện và hoàn thiện đề án tốt nghiệpnày, tôi xin gửi lời cảm
ơn chân thành nhất đến các thầy cô trong Khoa Toán – Thống kê và Khoa công nghệ
thông tin trường Đại học Quy Nhơn cũng như các thầy thính giảng ở các trường, các
viện ở Thành phố Hồ Chính Minh đã cung cấp cho tôi những kiến thức quý báu trong
suốt 2 năm học vừa qua
Đặc biệt, tôi xin gửi lời cảm ơn sâu sắc nhất tới TS Hồ Văn Lâm đã dành nhiều
thuận lợi để tôi có thể hoàn thành tốt nhất đề án của mình
Tôi xin chân thành cảm ơn!
Học viên thực hiện
Lê Thị Phương Thảo
Trang 4Tôi xin cam đoan đây là công trình nghiên cứu và thực hiện đề ánthực sự của
riêng tôi, dưới sự hướng dẫn của TS Hồ Văn Lâm Mọi tham khảo từ các nguồn tài
liệu, công trình nghiên cứu liên quan trong nước và quốc tế đều được trích dẫn một cách
rõ ràng trong đề án Mọi sao chép không hợp lệ hay vi phạm quy chế tôi xin hoàn toàn
chịu trách nhiệm và chịu mọi kỷ luật của trường Đại học Quy Nhơn
Bình Định, ngày 8 tháng 11 năm2024
Học viên
Lê Thị Phương Thảo
Trang 5LỜI CẢM ƠN 1
LỜI CAM ĐOAN ii
MỤC LỤC iii
DANH MỤC TỪ VIẾT TẮT vi
DANH MỤC HÌNH ẢNH vii
DANH MỤC BẢNG viii
MỞ ĐẦU 1
1 Lý do chọn đề tài 1
2 Đối tượng và phạm vi nghiên cứu 3
2.1 Đối tượng nghiên cứu 3
2.2 Phạm vi nghiên cứu 3
2.3 Phương pháp nghiên cứu 3
3 Cấu trúc đề án 4
NỘI DUNG 6
CHƯƠNG I: TỔNG QUAN 6
1.1 Tổng quan về học máy, trí tuệ nhân tạo 6
1.2 Ứng dụng học máy trí tuệ nhân tạo trong y khoa 9
1.3 Cây quyết định (Decision tree) và thuật toán cây quyết định tăng cường độ dốc (Gradient boosting decision tree - GBDT) 12
1.3.1.Khái niệm cây quyết định 12
1.3.2.Thuật toán cây quyết định 13
1.3.3.Một số thuật toán cây quyết định 14
1.3.4.Thuật toán cây quyết định tăng cường độ dốc 17
Trang 61.4.1.Giới thiệu thuật toán LightGBM 18
1.4.2.Các đặc trưng của LightGBM 19
1.4.3.Thật toán LightGBM 20
1.4.4.Ưu điểm và nhược điểm của thuật toán LightGBM 21
1.4.5.Ứng dụng điển hình sử dụng thuật toán LightGBM 23
1.5 Tổng quan về đột quỵ và ứng dụng của AI trong chuẩn đoán đột quỵ 24
1.5.1.Đột quỵ là gì? 24
1.5.2.Ứng dụng AI trong chẩn đoán đột quỵ 25
CHƯƠNG II: BÀI TOÁN DỰ ĐOÁN NGUY CƠ BỆNH ĐỘT QUỴ 28
2.1 Phát biểu bài toán 28
2.2 Các bước phân tích dữ liệu và ứng dụng 28
2.3 Hiểu bài toán (Business Understanding) 29
2.3.1.Đặt vấn đề 29
2.3.2.Mục tiêu 30
2.3.3.Giải pháp thực hiện 31
2.4 Hiểu dữ liệu (Data understanding) 32
2.4.1.Mô tả dữ liệu 32
2.4.2.Các đặc điểm quan trọng trong dữ liệu 34
2.5 Chuẩn bị dữ liệu (Data Preparation) 35
2.5.1.Lựa chọn thuộc tính phù hợp cho mô hình 36
2.5.2.Kiểm tra giá trị bị thiếu 37
2.5.3.Thống kê mô tả dữ liệu 38
2.5.4.Xử lý ngoại lệ 42
Trang 7CHƯƠNG III: XÂY DỰNG MÔ HÌNH HỌC MÁY DỰ BÁO CHO BÀI TOÁN
DỰ ĐOÁN NGUY CƠ BỆNH ĐỘT QUỴ 50
3.1 Cài đặt môi trường và chia dữ liệu 50
3.2 Huấn luyện mô hình LightGBM 51
3.3 Các phương pháp đánh giá mô hình LightGBM 52
3.3.1.Đánh giá mô hình bằng sử dụng train và test dataset 53
3.3.2.Phương pháp k-fold cross-validation 54
3.3.3.Đánh quá hiệu năng của mô hình 56
3.3.4.Confusion-matrix 57
3.4 Lựa chọn đặc tính của mô hình LightGBM 60
3.5 Điều chỉnh tham số của thuật toán LightGBM 62
3.5.1.Điều chỉnh các tham số cho Leaf-wise (Best-first) Tree 62
3.5.2.Để có tốc độ nhanh hơn 63
3.5.3.Để có độ chính xác tốt hơn 63
3.5.4.Giải pháp với Over-fitting 63
3.5.5.Điều chỉnh tham số cho mô hình với bộ dữ liệu 64
KẾT LUẬN VÀ KIẾN NGHỊ 65
DANH MỤC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ CỦA TÁC GIẢ 66
TÀI LIỆU THAM KHẢO 67
Trang 8ML : Machine Learning
AI : Artificial Intelligence LightGBM : Light Gradient Boosting Machine ROC-AUC : Receiver Operating Characteristic Area
Under the Curve
DL : Deep Learning
DT : Decision Tree ID3 : Iterative Dichotomiser 3 CART : Classification and Regression Trees GBDT : Gradient Boosting Decision Tree XGBoost : eXtreme Gradient Boosting CatBoot : Categorical Boosting
CT : Computed Tomography MRI : Magnetic Resonance Imaging KNN : K-Nearest Neighbor
BMI : Body Mass Index
Trang 9Hình 1: Mối quan hệ của Trí tuệ nhân tạo (AI) và Học máy (ML) và Học sâu
(DL).13……….8
Hình 2: Hình ảnh các loại học máy.15 9
Hình 3: Hình ảnh mô tả vai trò Trí tuệ nhân tạo trong chăm sóc sức khỏe.18 12
Hình 4: Hình ảnh cây quyết định.19 13
Hình 5: Hình ảnh mô tả thuật toán cây quyết định tăng cường độ dốc.21 17
Hình 6: Hình ảnh minh họa cách hoạt động của thuật toán LightGBM và các thuật toán họ boosting khác.27 19
Hình 7: Hình ảnh về các loại đột quỵ 25
Hình 8: Hình ảnh mô tả bộ dữ liệu đột quỵ thu thập từ Bệnh viện quân y 175 32
Hình 9: Hình ảnh thang đo của chỉ số BMI.35 42
Hình 10: Hình ảnh phân bố BMI và Tình trạng Đột quỵ 42
Hình 11: Biểu đồ phân bố đột quỵ và không đột quỵ 44
Hình 12: Biểu đồ phân phối của các biến liên tục (Tuổi, Hàm lượng glucose, BMI) với biến mục tiêu (Đột quỵ) 45
Hình 13: Hình ảnh hóa phân bố nguy cơ đột quỵ theo một số đặc điểm 47
Hình 14: Biểu đồ tương quan giữa các biến trong tập dữ liệu dự đoán đột quỵ được sử dụng……… 49
Hình 15: Đồ thị thể hiện Logloss và error của mỗi epoch 57
Hình 16: Ma trận nhầm lẫn 60
Hình 17: Mức độ ảnh hưởng của các đặc trưng 62
Trang 10Bảng 1: So sánh kết quả huyến luyện giữa các mô hình học máy ……… 51
Trang 11MỞ ĐẦU
1 LÝ DO CHỌN ĐỀ TÀI
Học máy (Machine Learning - ML) là thuật ngữ dùng để chỉ cả học thuật và tập hợp các kỹ thuật cho phép máy tính thực hiện các nhiệm vụ phức tạp Như một học thuật, học máy bao gồm các yếu tố toán học, thống kê và khoa học máy tính Học máy là động cơ giúp thúc đẩy sự tiến bộ trong việc phát triển trí tuệ nhân tạo
Nó được áp dụng ấn tượng cả trong giới học thuật và công nghiệp để phát triển các
"sản phẩm thông minh" có khả năng đưa ra dự đoán chính xác bằng cách sử dụng các nguồn dữ liệu đa dạng.1 Cho đến nay, những ngành công nghiệp có khả năng thu thập dữ liệu lớn và thuê các chuyên gia về học máy và khoa học dữ liệu đã là những người hưởng lợi chính từ sự bùng nổ dữ liệu lớn, học máy và khoa học dữ liệu trong thế kỷ 21 Các phương pháp học tập được phát triển trong và dành cho các ngành công nghiệp này mang lại tiềm năng to lớn để nâng cao nghiên cứu y tế và chăm sóc lâm sàng, đặc biệt là khi các nhà cung cấp ngày càng sử dụng hồ sơ sức khỏe điện
tử.2 Hai lĩnh vực có thể được hưởng lợi từ việc áp dụng các kỹ thuật học máy trong lĩnh vực y tế là chẩn đoán và dự đoán kết quả.3,4 Điều này bao gồm khả năng xác định nguy cơ cao đối với các trường hợp khẩn cấp về y tế như tái phát hoặc chuyển sang trạng thái bệnh khác.5,6
Bên cạnh đó, tình trạng đột quỵ trong những năm gần đây vẫn được coi là một vấn đề sức khỏe nghiêm trọng trên toàn thế giới Đột quỵ là nguyên nhân gây tử vong đứng thứ hai, sau bệnh tim thiếu máu cục bộ và chiếm 9% số ca tử vong trên toàn thế giới Theo Tổ chức Y tế Thế giới (WHO), mười lăm triệu người trên toàn thế giới bị đột quỵ mỗi năm Trong số này, hơn 6 triệu người tử vong và 5 triệu người khác bị tàn tật vĩnh viễn.7
Trước đây, đột quỵ thường xảy ra ở người lớn tuổi Tuy nhiên, trong những năm gần đây, số ca đột quỵ ở nhóm tuổi trẻ hơn, bao gồm cả người trẻ và trẻ em, đã tăng đáng kể Điều này có thể liên quan đến các yếu tố nguy cơ như lối sống không lành mạnh, căng thẳng và các tình trạng bệnh lý tiềm ẩn Đột quỵ là một trong những
Trang 12nguyên nhân hàng đầu gây ra tình trạng tàn tật và tử vong trên toàn thế giới Nó có thể gây ra những hậu quả nghiêm trọng như mất khả năng vận động, mất khả năng nói, mất cảm giác và khó phục hồi.8,9
Do đó, việc ứng dụng học máy vào chẩn đoán lâm sàng để dự đoán đột quỵ
có tiềm năng rất lớn Trong nghiên cứu này, chúng tôi đã sử dụng mô hình máy họcLightGBM (Light Gradient Boosting Machine) để dự đoán khả năng một cá nhân bị
đột quỵ Vì thế, chúng tôi đã xây dựng đề án “Xây dựng mô hình dự báo khả năng
bị đột quỵ sử dụng thuật toán LightGBM”
Trong đề ánnày chúng tôi trình bày các tất cả các bước của một quy trình dự đoán bệnh Đột quỵ, ba bước đầu tiên: Hiểu nghiệp vụ (Business Understanding): xác định mục tiêu và yêu cầu của bài toán; Hiểu dữ liệu (Data Understanding): thu thập
và làm quen với dữ liệu thô ban đầu, đưa ra đánh giá về chất lượng của dữ liệu Chuẩn bị dữ liệu (Data Preparation): xây dựng được bộ dữ liệu cuối cùng, “đủ tiêu chuẩn” để cho chạy mô hình và phân tích; đã được thực hiện và được xem như là dữ liệu đầu vào của đề án này Bước thứ 4 mô hình hoá (Modelling): Lựa chọn và áp dụng các kỹ thuật cùng phương pháp phù hợp, sau đó xây dựng mô hình phân tích
dữ liệu Trong đề án này chúng tôi đã xây dựng mô hình học máy từ thuật toán LigthGBM cho việc dự đoán một người có nguy cơ bị bệnh đột quỵ hay không? Và khả năng bị bệnh là bao nhiêu phần trăm
Việc điều chỉnh các tham số để tối ưu hóa mô hình cũng được thực hiện trong bước này thông qua phân tích một số thuộc tính của mô hình như ma trận nhầm lẫn, biểu đồ ROC-AUC, biểu đồ Precission-Recall, các biến dữ liệu ảnh hưởng đến mô hình dự đoán Sang bước 5 chúng tôi sử dụng nhiều phương pháp khác nhau (Evaluation) để đánh giá kết quả thu được từ mô hình, đánh giá mô hình đã đáp ứng được mục tiêu đã đề ra hay chưa, phân tích các chỉ số đạt được của mô hình và đưa quyết định về việc sử dụng kết quả phân tích vào thực tế
Trang 132 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
2.1 Đối tượng nghiên cứu
Đối tượng nghiên cứu của đề án là dữ liệu bệnh nhân được thu thập từ Bệnh viện quân y 175 thành phố Hồ Chí Minh Dữ liệu này bao gồm các thông tin về bệnh
sử, các yếu tố nguy cơ liên quan đến đột quỵ như huyết áp, đường huyết, chỉ số BMI, tuổi, giới tính, tiền sử bệnh tật, thói quen sinh hoạt (hút thuốc), và các yếu tố khác
có liên quan Các thông tin này sẽ được sử dụng để xây dựng và huấn luyện mô hình
dự báo khả năng bị đột quỵ bằng cách sử dụng thuật toán LightGBM
2.3 Phương pháp nghiên cứu
Nghiên cứu lý thuyết:
Thu thập, đọc hiểu, phân tích thông tin, dữ liệu từ các giáo trình, sách, các bài báo liên quan đến thuật toán cây quyết định, Ensemble Learning, Xgboost,
LightGBM
Nghiên cứu thực nhiệm
- Từ những nghiên cứu lý luận, tác giả liên hệ với thầy hướng dẫn 1 lần/tuần qua hệ thống thư điện tử, liên hệ trực tiếp 1 lần/tháng để thực hiện các thực nghiệm theo kế hoạch đề ra
- Dựa trên các ý tưởng thầy hướng dẫn truyền đạt, tiếp thu và phát triển đề án
Trang 14- Phân tích các vấn đề liên quan đến dữ liệu bệnh nhân đột quỵ, các y văn để tường minh, giải thích dữ liệu, các bước thực hiện của thuật toán LightGBM
- Thực hiện các thực nghiệm trên bộ dữ liệu, phân tích, đánh giá kết quả đạt được, viết báo cáo kết quả nghiên cứu được thông qua xuất bản các bài báo khoa học chuyên ngành, đề án tốt nghiệp thạc sỹ
Chương 2 Bài toán dự đoán nguy cơ Đột quỵ
Trong chương này, đề án trình bày về bài toán dự đoán nguy cơ bị Đột quỵ
và đề xuất phương pháp sử dụng mô hình học máy sử dụng thuật toán LightGBM với bộ dữ liệu Đột quỵ từ Bệnh viện quân y 175 với các kỹ thuật chính sử dụng thuật toán LightGBM:
- Hiểu nghiệp vụ (Business Understanding): xác định mục tiêu và yêu cầu của bài toán
- Hiểu dữ liệu (Data Understanding): thu thập và làm quen với dữ liệu thô ban đầu, đưa ra đánh giá về chất lượng của dữ liệu
- Chuẩn bị dữ liệu (Data Preparation): xây dựng được bộ dữ liệu cuối cùng, “đủ tiêu chuẩn” để cho chạy mô hình và phân tích
- Mô hình hoá (Modelling): Lựa chọn và áp dụng các kỹ thuật cùng phương pháp phù hợp, sau đó xây dựng mô hình phân tích dữ liệu, …
Chương 3 Xây dựng mô hình học máy dự báo cho bài toán dự đoán nguy
cơ bệnh Đột quỵ
Trang 15Trình bày ý tưởng, phương pháp và kỹ thuật xây dựng mô hình học máy Thực nghiệm mô hình với dữ liệu thật được phân tích trong Chương 2 Phân tích, đánh giá kết quả thực hiện được của mô hình đã đáp ứng được mục tiêu đã đề ra hay chưa, phân tích các chỉ số đạt được của mô hình và đưa quyết định
về việc sử dụng kết quả phân tích vào thực tế
Đề xuất cách triển khai mô hình trong thực tế, trong đề án này chúng tôi đưa
ra cách triển khai được thực hiện một mô hình học máy được sử dụng vào một ứng dụng web giúp người dùng có thể tự dự đoán khả năng bị bệnh Đột quỵ khi chấp nhận cung cấp một số thông tin khảo sát
Trang 16NỘI DUNG
CHƯƠNG I: TỔNG QUAN
1.1 Tổng quan về học máy, trí tuệ nhân tạo
Thuật ngữ trí tuệ nhân tạo đã được sử dụng cho nhiều thập kỷ và đã mang những ý nghĩa và hàm ý khác nhau Thuật ngữ “Trí tuệ nhân tạo” (Artificial Intelligence- AI) lần đầu tiên được John McCarthy đặt ra cho một hội nghị về chủ
đề này được tổ chức tại Dartmouth vào năm 1956 với tên gọi “khoa học và kỹ thuật chế tạo máy tính thông minh” Nói cách khác, AI có thể được định nghĩa là “một nhánh của khoa học máy tính mà nhờ đó chúng ta tạo ra những cỗ máy thông minh
có thể suy nghĩ giống con người, hành động giống con người và có thể đưa ra quyết định giống con người”.10
Trí tuệ nhân tạo đã trở thành chủ đề rất được quan tâm trong những năm gần đây trong nhiều lĩnh vực khác nhau như khoa học máy tính, tâm lý học, toán học, khoa học thông tin, ngôn ngữ học và các lĩnh vực chuyên ngành khác AI có khả năng suy nghĩ và hành động như con người mà không cần bất kỳ sự can thiệp nào của con người, nó có thể giúp phát triển một thư viện thông minh với các vai trò thông minh tiềm ẩn để thực hiện mà không cần sự can thiệp của con người Khả năng
tự học của AI có thể chứng minh tầm quan trọng rất lớn đối với các thư viện về mặt
xử lý người dùng, kết nối mạng và giao tiếp Công nghệ AI cũng có thể được sử dụng để cung cấp các dịch vụ tham khảo ảo độc đáo thông qua các môi trường di động và mạng xã hội, bằng cách kết hợp tài nguyên thư viện hiện có và nội dung từ bên thứ ba.11
Học máy (Machine Learning - ML) là một lĩnh vực của trí tuệ nhân tạo và khoa học máy tính Machine Learning liên quan đến việc nghiên cứu và xây dựng các kỹ thuật cho phép các hệ thống “học” tự động từ dữ liệu để giải quyết những vấn
đề cụ thể Nó tập trung vào việc sử dụng dữ liệu và thuật toán để bắt chước cách con người học, sau đó dần dần cải thiện độ chính xác của nó Tuy nhiên, điều làm cho máy học trở nên khả thi là các thuật toán học tập, tạo điều kiện thuận lợi cho một
Trang 17trong hai cách tiếp cận mô hình học tập chính, đó là học tập có giám sát và học không giám sát Các thuật toán này có thể được mô tả đơn giản là, từng bước một hướng dẫn cho phép một máy tính để giải quyết một loại vấn đề học tập cụ thể
Hiện nay, học máy được coi là công cụ thay đổi cuộc chơi thông qua việc tiếp cận các giải pháp cho các vấn đề phức tạp trong thế giới thực theo cách có thể mở rộng, hữu ích với nhiều tác vụ điện toán Học máy đôi khi được kết hợp với khai thác
dữ liệu trong đó học máy tập trung vào dự đoán trên cơ sở các thuộc tính đã biết được học từ dữ liệu huấn luyện, mặt khác, khai thác dữ liệu tập trung vào việc khám phá các thuộc tính chưa biết trong dữ liệu.11
Học sâu (Deep Learning) là các loại học máy cụ thể Nó được liên kết với mạng neural, trong đó các lớp xử lý được thực hiện qua nhiều bước, hoặc sâu hơn, thay vì chỉ sử dụng một số bước xử lý hạn chế Học sâu khác biệt với các loại học máy kháctrongkhi học máy chỉ dự đoán, thì học sâu không chỉ dự đoán mà còn tạo
ra dữ liệu, có khả năng tổ chức dữ liệu không cấu trúc Học sâu cho phép các mô hình tính toán được tạo thành từ nhiều lớp xử lý để học các biểu diễn của dữ liệu với nhiều mức trừu tượng khác nhau Những phương pháp này đã cải thiện đáng kể trạng thái hiện tại trong nhận dạng giọng nói, nhận dạng đối tượng hình ảnh, phát hiện đối tượng và nhiều lĩnh vực khác như khám phá thuốc và di truyền học Học sâu khám phá cấu trúc phức tạp trong các tập dữ liệu lớn bằng cách sử dụng thuật toán lan truyền ngược (backpropagation) để chỉ ra cách máy tính nên thay đổi các tham số nội bộ mà được sử dụng để tính toán biểu diễn trong mỗi lớp từ biểu diễn trong lớp trước đó.12
Trang 18Hình 1: Mối quan hệ của Trí tuệ nhân tạo (AI) và Học máy (ML) và Học sâu
(DL) 13
Machine Learning được phân làm 3 loại chính:
Học có giám sát (Supervised learning): Một tập dữ liệu huấn luyện chứa các
ví dụ với các phản hồi chính xác (targets) được cung cấp và dựa trên tập dữ liệu này, thuật toán tổng quát hóa để đưa ra các phản ứng chính xác cho tất cả các đầu vào có thể có Đây cũng được gọi là học từ ví dụ
Học không có giám sát (Unsupervised learning): Không có phản hồi chính xác được cung cấp, thay vào đó thuật toán cố gắng xác định các điểm tương đồng giữa các đầu vào để phân loại các đầu vào có điểm chung Tiếp cận thống kê trong học không có giám sát được gọi là ước lượng mật độ
Trang 19Học tăng cường (Reinforcement learning): Đây là hình thức học nằm giữa học có giám sát và học không có giám sát Thuật toán được thông báo khi câu trả lời sai, nhưng không được chỉ dẫn cách sửa nó Nó phải khám phá và thử nghiệm các khả năng khác nhau cho đến khi tìm ra cách đưa ra câu trả lời đúng Học tăng cường đôi khi được gọi là học với người đánh giá vì sự theo dõi này đánh điểm câu trả lời
mà không đề xuất cải tiến.14
Hình 2: Hình ảnh các loại học máy 15
Loại hình học máy phổ biến nhất là học có giám sát và chúng tôi sẽ sử dụng
nó để tiến hành xây dụng mô hình học máy dự đoán đột quỵ cho tập dữ liệu của mình
1.2 Ứng dụng học máy trí tuệ nhân tạo trong y khoa
Trí tuệ nhân tạo (AI) là một lĩnh vực đang phát triển nhanh chóng có tiềm năng biến đổi ngành chăm sóc sức khỏe AI bao gồm nhiều công nghệ cho phép máy tính thực hiện các nhiệm vụ thường đòi hỏi trí thông minh của con người, chẳng hạn như học tập, lý luận và giải quyết vấn đề Việc sử dụng AI trong chăm sóc sức khỏe
đã cho thấy triển vọng trong việc cải thiện kết quả điều trị cho bệnh nhân, giảm chi phí và nâng cao hiệu quả Các công nghệ AI, chẳng hạn như học máy, xử lý ngôn
Trang 20ngữ tự nhiên và thị giác máy tính, đã cách mạng hóa nhiều khía cạnh của việc cung cấp dịch vụ chăm sóc sức khỏe Những tiến bộ này có tiềm năng cải thiện đáng kể việc chăm sóc bệnh nhân, nâng cao chẩn đoán, hợp lý hóa các quy trình hành chính
và thúc đẩy nghiên cứu và đổi mới y tế
Các nghiên cứu về AI đang ngày càng phổ biến Năm 2016, đầu tư vào các
dự án y tế liên quan đến AI đứng đầu trong bất kỳ lĩnh vực nào khác trong nền kinh
tế toàn cầu Sự quan tâm đến trí tuệ nhân tạo trong chăm sóc sức khỏe tăng vọt vào năm 2019 khi các nhà đầu tư rót 4 tỷ đô la Mỹ vào lĩnh vực này, tăng từ gần 2,7 tỷ
đô la Mỹ đầu tư vào AI chăm sóc sức khỏe vào năm 2018
Việc đưa ra quyết định lâm sàng dựa trên dữ liệu hiện có là nền tảng của y học dựa trên bằng chứng Thông thường, nhiệm vụ này được giải quyết bằng các phương pháp thống kê, giúp xác định các mô hình trong dữ liệu và diễn đạt chúng dưới dạng các phương trình toán học (ví dụ, hồi quy tuyến tính) Tuy nhiên, thông qua học máy, trí tuệ nhân tạo có thể thiết lập các mối quan hệ phức tạp mà khó có thể biểu diễn qua các phương trình đơn giản Ví dụ, mạng nơ-ron nhân tạo thể hiện
dữ liệu thông qua một số lượng lớn các nơ-ron kết nối với nhau, mô phỏng cách hoạt động của não người
Điều này cho phép các hệ thống học máy tiếp cận vấn đề theo cách tương tự như một bác sĩ đưa ra kết luận có cơ sở bằng cách phân tích kỹ lưỡng các bằng chứng Tuy nhiên, khác với con người, các hệ thống này có thể đồng thời giám sát
và xử lý lượng dữ liệu đầu vào gần như không giới hạn Hơn nữa, chúng có thể học
từ mỗi trường hợp mới và xử lý số lượng trường hợp nhiều hơn trong vài phút so với một bác sĩ có thể gặp trong suốt sự nghiệp của mình Điểm yếu của phương pháp này là phụ thuộc vào chất lượng dữ liệu, bao gồm độ tin cậy và sự đa dạng của dữ liệu.16
Một trong những ứng dụng đáng chú ý nhất của AI trong chăm sóc sức khỏe
là trong chẩn đoán và hình ảnh y tế Các thuật toán AI có thể phân tích hình ảnh y
tế, chẳng hạn như chụp X-quang, chụp CT và chụp MRI, để phát hiện các bất thường,
Trang 21khối u và các tình trạng khác với độ chính xác cao Điều này có tiềm năng cải thiện khả năng phát hiện và chẩn đoán sớm, dẫn đến kết quả điều trị tốt hơn
Trợ lý ảo và chatbot hỗ trợ AI cũng đã được ứng dụng vào trong ngành chăm sóc sức khỏe, cung cấp cho bệnh nhân sự hỗ trợ và thông tin được cá nhân hóa Các
hệ thống thông minh này có thể trả lời các câu hỏi y tế, cung cấp hướng dẫn về cách
tự chăm sóc và phân loại bệnh nhân dựa trên các triệu chứng của họ Điều này không chỉ cải thiện khả năng tiếp cận dịch vụ chăm sóc sức khỏe mà còn giảm gánh nặng cho các nhà cung cấp dịch vụ chăm sóc sức khỏe AI đã cho thấy triển vọng trong phân tích dự đoán và theo dõi bệnh nhân Bằng cách phân tích lượng lớn dữ liệu bệnh nhân, các thuật toán AI có thể xác định các mô hình và yếu tố rủi ro đối với các bệnh, cho phép các nhà cung cấp dịch vụ chăm sóc sức khỏe can thiệp sớm hơn và ngăn ngừa các sự kiện bất lợi Các thiết bị đeo được hỗ trợ AI và hệ thống theo dõi
từ xa cho phép theo dõi liên tục các dấu hiệu sinh tồn, cung cấp cảnh báo theo thời gian thực về những thay đổi quan trọng trong tình trạng sức khỏe của bệnh nhân.17
Đã có một số công trình nghiên cứu và bài báo khoa học liên quan được công
bố về việc sử dụng AI trong chăm sóc sức khỏe, giải quyết cả những lợi ích và thách thức tiềm ẩn Một số công trình liên quan trong lĩnh vực này bao gồm bài báo
“Artificial intelligence in healthcare: Past, present and future” của Jiang và cộng sự, được xuất bản năm 2017 trên tạp chí Stroke and Vascular Neurology, khám phá vai trò chuyển đổi của AI trong ngành chăm sóc sức khỏe Các tác giả thảo luận về khả năng mô phỏng các chức năng nhận thức của con người của AI và cách thức những tiến bộ trong tính khả dụng của dữ liệu và các kỹ thuật phân tích thúc đẩy việc áp dụng AI Các ứng dụng chính bao gồm phân tích dữ liệu chăm sóc sức khỏe có cấu trúc và không có cấu trúc, tận dụng các kỹ thuật học máy như mạng nơ-ron và học sâu, và xử lý ngôn ngữ tự nhiên.18 Bên cạnh đó, một bài báo được đăng trên tạp chí
Healthcare Analytics năm 2022 đã thảo luận về ứng dụng trí tuệ nhân tạo và và học
máy trong chăm sóc sức khỏe, cụ thể là để phát hiện bệnh tim Nhóm tác giả đã xây dựng hệ thống phát hiện bệnh tim dựa trên trí tuệ nhân tạo sử dụng các thuật toán
Trang 22học máy như logistic regression và random forest cho độ chính xác là 83% trên bộ
dữ liệu huấn luyện.19
Việc ứng dụng ML trong y tế mang lại nhiều tiềm năng to lớn, đặc biệt trong việc hỗ trợ chẩn đoán bệnh, cá nhân hóa điều trị, và dự đoán kết quả lâm sàng Tuy nhiên, hiệu quả và độ tin cậy của các mô hình trí tuệ nhân tạo y tế này phụ thuộc rất lớn vào chất lượng và sự đa dạng của dữ liệu Những mô hình này cần được huấn luyện trên bộ dữ liệu chính xác, phong phú và đại diện cho nhiều nhóm dân số khác nhau Nếu không, chúng có thể gặp phải sai lệch, dẫn đến kết quả không chính xác, ảnh hưởng đến quyết định y tế và kết quả điều trị
Hình 3: Hình ảnh mô tả vai trò Trí tuệ nhân tạo trong chăm sóc sức khỏe 20
1.3 Cây quyết định (Decision tree) và thuật toán cây quyết định tăng cường độ dốc (Gradient boosting decision tree - GBDT)
1.3.1 Khái niệm cây quyết định
Cây quyết định (Decision Trees) là một trong những phương pháp mạnh mẽ thường được sử dụng trong nhiều lĩnh vực khác nhau, chẳng hạn như học máy, xử
lý hình ảnh và nhận dạng mẫu Cây quyết định là một mô hình tuần tự, kết hợp một chuỗi các phép kiểm tra cơ bản một cách hiệu quả và liên kết chặt chẽ, trong đó một đặc trưng số học được so sánh với một giá trị ngưỡng trong mỗi phép kiểm tra Các quy tắc khái niệm dễ xây dựng hơn nhiều so với các trọng số số học trong mạng nơ-ron, nơi các kết nối giữa các nút được xác định Chủ yếu, cây quyết định được sử
Trang 23dụng cho mục đích phân nhóm Ngoài ra, cây quyết định là một mô hình phân loại thường được sử dụng trong khai phá dữ liệu Mỗi cây bao gồm các nút và nhánh Mỗi nút đại diện cho các đặc trưng trong một danh mục cần phân loại và mỗi tập con xác định một giá trị mà nút có thể nhận Nhờ vào phân tích đơn giản và độ chính xác cao trên nhiều dạng dữ liệu khác nhau, cây quyết định đã được ứng dụng trong nhiều lĩnh vực.21
Hình 4: Hình ảnh cây quyết định 21
1.3.2 Thuật toán cây quyết định
Cây quyết định là một thuật toán phân loại được biểu diễn dưới dạng phân chia không gian dữ liệu theo cách đệ quy Cấu trúc cây bao gồm các nút (nodes) tạo thành một cây có gốc (rooted tree), trong đó có một nút gốc không có cạnh vào, còn tất cả các nút khác đều có chính xác một cạnh vào Các nút với cạnh ra được gọi là
“nút kiểm tra” hoặc “nút nội bộ”, trong khi các nút còn lại được gọi là lá (leaves), hay còn gọi là “nút quyết định” hoặc “nút cuối”
Cấu trúc của cây quyết định:
Nút gốc (Root Node): Đây là điểm bắt đầu của quá trình phân loại, từ đó toàn
bộ dữ liệu được phân chia
Trang 24Nút nội bộ (Internal Node): Tại mỗi nút này, dữ liệu được phân chia thành các tập con dựa trên giá trị của một thuộc tính cụ thể
Nút lá (Leaf Node): Đây là kết quả cuối cùng sau khi đã phân loại Mỗi nút lá đại diện cho một lớp cụ thể hoặc có thể chứa một vector xác suất, cho biết xác suất của các giá trị của biến mục tiêu
Ở mỗi nút nội bộ, không gian dữ liệu được chia thành hai hoặc nhiều tập con nhỏ hơn dựa trên một hàm rời rạc của các giá trị thuộc tính đầu vào Trường hợp đơn giản nhất và thường gặp nhất là mỗi phép kiểm tra xét một thuộc tính duy nhất Đối với các thuộc tính số, điều kiện phân chia có thể dựa trên một khoảng giá trị cụ thể,
ví dụ như một điều kiện so sánh kiểu “lớn hơn” hoặc “nhỏ hơn” giá trị ngưỡng Các trường hợp dữ liệu (instances) được phân loại bằng cách di chuyển từ nút gốc xuống một nút lá, theo kết quả của các phép kiểm tra dọc theo con đường Ví
dụ, đối với một cây quyết định dùng để dự đoán phản hồi của khách hàng đối với việc gửi thư trực tiếp, mỗi nút nội bộ kiểm tra một thuộc tính, và các nhánh (branches) đại diện cho các giá trị tương ứng của thuộc tính đó
Cây quyết định cũng là một phương tiện có tính mô tả dành cho việc tính toán các xác suất có điều kiện Mặc khác cây quyết định cũng có thể được mô tả như là
sự kết hợp của các kỹ thuật toán học và tính toán nhằm hỗ trợ việc mô tả, phân loại
và tổng quát hóa một tập dữ liệu cho trước
Dữ liệu được cho dưới dạng các bản ghi có dạng: (x, y) = (x1, x2, x3 , xk, y) Biến phụ thuộc (dependant variable) y là biến mà chúng ta cần tìm hiểu, phân loại hay tổng quát hóa Các biến x1, x2, x3 giúp ta thực hiện công việc đó
Thuật toán cây quyết định là thuật toán học có giám sát (supervised learning),
có thể giải quyết cả bài toán hồi quy (regression) và phân loại (classification)
1.3.3 Một số thuật toán cây quyết định
Dưới đây là một số thuật toán cây quyết định tiêu biểu:
a) ID3 (Iterative Dichotomiser 3)
Trang 25ID3 là một trong những thuật toán cây quyết định đầu tiên, được phát triển bởi Ross Quinlan vào năm 1986 Thuật toán này xây dựng cây quyết định bằng cách
chọn các thuộc tính có độ lợi thông tin (Information Gain) cao nhất tại mỗi nút,
sử dụng khái niệm entropy để đo lường mức độ không chắc chắn trong dữ liệu
- Entropy: Đo lường độ hỗn loạn của dữ liệu Công thức tính entropy cho
một tập dữ liệu S với các lớp k với 𝑝𝑖 là xác suất của mỗi lớp trong tập dữ
liệu là:
𝐻(𝑆) = − ∑ 𝑝𝑖log2(𝑝𝑖)
𝑘
𝑖=1
- Độ lợi thông tin (Information Gain): Là sự giảm entropy khi dữ liệu được
chia nhỏ theo một thuộc tính cụ thể:
Trong đó, 𝑆𝑣 là tập con của S với giá trị thuộc tính A=v
ID3 hoạt động tốt với các bài toán phân loại, nhưng gặp khó khăn khi đối mặt với các thuộc tính số và dữ liệu phức tạp
- Chỉ số Gain Ratio: C4.5 thay thế độ lợi thông tin bằng tỷ số Gain (Gain
Ratio) để xử lý vấn đề quá thiên vị các thuộc tính có nhiều giá trị khác nhau
Trang 26Gain Ratio được tính bằng cách chia độ lợi thông tin cho giá trị gọi là Split Information: Gain Ratio = Split Information/ Information Gain
Split Information đo lường sự phân bố của các giá trị thuộc tính, giúp tránh việc chọn thuộc tính có nhiều giá trị nhưng ít thông tin
c) CART (Classification and Regression Trees)
CART là thuật toán xây dựng cây quyết định được Breiman và các đồng sự phát triển vào năm 1984 Khác với ID3 và C4.5, CART có thể được sử dụng cho cả bài toán phân loại và hồi quy
- Phân loại (Classification): CART sử dụng chỉ số Gini để đo lường độ thuần khiết của các tập con Chỉ số Gini được tính bằng công thức:
𝐺𝑖𝑛𝑖(𝑆) = 1 − ∑ 𝑝𝑖2
𝑘
𝑖=1
Trong đó, p i là xác suất của mỗi lớp
- Hồi quy (Regression): Đối với bài toán hồi quy, CART tối ưu hóa sai số
bình phương trung bình (MSE) để xây dựng cây quyết định Mỗi nút lá chứa giá trị dự đoán là trung bình của các giá trị đầu ra trong tập con tương ứng
CART được sử dụng rộng rãi trong nhiều bài toán học máy hiện đại, đặc biệt khi kết hợp với các phương pháp ensemble như Random Forest và Gradient Boosting
d) Random Forest
Random Forest là một phương pháp ensemble dựa trên cây quyết định, trong
đó nhiều cây quyết định được xây dựng và dự đoán của mô hình là kết quả tổng hợp
từ nhiều cây Mỗi cây được xây dựng dựa trên một tập con ngẫu nhiên của dữ liệu
và các thuộc tính, giúp giảm thiểu vấn đề quá khớp (overfitting) và tăng tính chính xác của mô hình
Trang 27Random Forest sử dụng thuật toán CART để xây dựng từng cây quyết định
và áp dụng bagging (Bootstrap Aggregating) để lấy mẫu dữ liệu ngẫu nhiên
e) Gradient Boosting Decision Trees (GBDT)
GBDT là một phương pháp khác dựa trên cây quyết định, nhưng thay vì xây dựng các cây độc lập như Random Forest, GBDT xây dựng các cây mới dựa trên sai
số của cây trước đó Mỗi cây trong GBDT cố gắng sửa các dự đoán sai của cây trước
đó, và kết quả cuối cùng là tổng hợp của tất cả các cây
LightGBM và XGBoost là những triển khai hiệu quả của GBDT, giúp tối ưu hóa tốc độ và hiệu suất cho các bài toán lớn
1.3.4 Thuật toán cây quyết định tăng cường độ dốc
Nhiều phương pháp tăng cường cổ điển đã cho thấy hiệu quả của chúng trong thực tế Trong số đó, cây quyết định tăng cường độ dốc (Gradient Boosting Decision Tree – GBDT) (Friedman, 2001, 2002) là một thuật toán đã nhận được nhiều sự chú
ý vì độ chính xác cao, kích thước mô hình nhỏ, đào tạo và dự đoán nhanh Nó đã được sử dụng rộng rãi để phân loại nhị phân, hồi quy và xếp hạng Trong GBDT, mỗi cây mới được đào tạo trên phần dư trên mỗi điểm được xác định là giá trị âm của độ dốc của hàm mất mát so với đầu ra của các cây trước đó.22
Hình 5: Hình ảnh mô tả thuật toán cây quyết định tăng cường độ dốc 23
Trang 28Mặc dù GBDT rất phổ biến có khá nhiều triển khai hiệu quả như XGBoost, CatBoost, … và nhiều tối ưu hóa kỹ thuật đã được áp dụng trong các triển khai này, nhưng hiệu quả và khả năng mở rộng vẫn chưa đạt yêu cầu khi kích thước tính năng cao và kích thước dữ liệu lớn Một lý do chính là đối với mỗi tính năng, chúng cần quét tất cả các trường hợp dữ liệu để ước tính mức tăng thông tin của tất cả các điểm phân chia có thể, điều này rất tốn thời gian.24
Chính vì những hạn chế này, thuật toán LightGBM ra đời với mục tiêu khắc phục những vấn đề về tốc độ và khả năng mở rộng của các phiên bản GBDT truyền thống LightGBM (Light Gradient Boosting Machine) không chỉ thừa hưởng những
ưu điểm của GBDT mà còn mang đến nhiều cải tiến đáng kể trong việc tối ưu hóa quá trình huấn luyện và xử lý dữ liệu lớn
1.4 Thuật toán Light Gradient Boosting Machine (LightGBM)
1.4.1 Giới thiệu thuật toán LightGBM
LightGBM (Light Gradient Boosting Machine) một khung công cụ (framework) học máy triển khai dựa trên thuật toán tăng cường độ dốc (GBDT), thuộc họ các thuật toán học tập dựa trên cây quyết định như XGBoost, CatBoot,
Nó có thể được sử dụng để giải quyết các vấn đề học có giám sát như sắp xếp, hồi quy, phân loại và nhiều tác vụ học máy khác Trong điều kiện không giảm độ chính xác, tốc độ tăng khoảng mười lần và bộ nhớ chiếm dụng giảm khoảng ba lần, có ưu điểm là hiệu quả đào tạo cao, chiếm dụng bộ nhớ thấp, độ chính xác cao và hỗ trợ song song, và GPU có thể được sử dụng để xử lý dữ liệu quy mô lớn.24-26
LightGBM được phát triển bởi Microsoft và nhanh chóng trở thành một công
cụ phổ biến trong cộng đồng học máy Nó là một mô hình học máy – trí tuệ nhân tạo, được thiết kế để tăng tốc độ huấn luyện và giảm chi phí bộ nhớ bằng cách sử dụng các thuật toán tối ưu hóa để tối ưu hóa các quyết định trên cây quyết định Trong khi các thuật toán tương tự khác phát triển cây ngang theo chiều ngang, LightGBM lại sử dụng cách tiếp cận thông minh và khôn ngoan hơn là xây dựng cây quyết định theo chiều dọc theo lá, hay nói một cách đơn giản là theo chiều dọc Lá
có tổn thất delta lớn nhất sẽ được thuật toán chọn để phát triển
Trang 29Cụ thể, nó chọn lá có sự giảm lỗi (delta loss) lớn nhất để phát triển tiếp Điều này có nghĩa là LightGBM tập trung vào việc phát triển các nhánh cây có khả năng giảm lỗi mạnh nhất trước Quá trình này tiếp tục cho đến khi đạt đến một điều kiện dừng Bởi vì nó chọn lá có sự giảm lỗi lớn nhất, nó có khả năng giảm thiểu lỗi mạnh hơn trong mỗi bước phát triển Điều này cũng dẫn đến tốc độ huấn luyện nhanh hơn
và khả năng tìm ra các mẫu phức tạp hơn, độ chính xác tốt hơn nhiều so với các thuật toán tăng cường độ dốc hiện có.27 Tuy nhiên, phương pháp lá khôn ngoan cũng có thể dẫn đến quá khớp nếu không được kiểm soát cẩn thận Nhờ những ưu điểm đáng chú ý của mình, LightGBM đã được sử dụng rộng rãi trong nhiều lĩnh vực, bao gồm
dự đoán tín dụng, xử lý ngôn ngữ tự nhiên và khám phá dữ liệu.28
Hình 6: Hình ảnh minh họa cách hoạt động của thuật toán LightGBM và các thuật
toán họ boosting khác 29
1.4.2 Các đặc trưng của LightGBM
Các đặc điểm nổi bật của LightGBM bao gồm:
- Tốc độ huấn luyện nhanh: LightGBM sử dụng một số kỹ thuật tối ưu để tăng tốc quá trình huấn luyện Điều này giúp tiết kiệm thời gian huấn luyện đặc biệt khi làm việc với dữ liệu lớn
Trang 30- Khả năng xử lý dữ liệu lớn: LightGBM được thiết kế để xử lý các tập dữ liệu lớn
Nó có thể tận dụng được đa luồng (multithreading) và sử dụng GPU để gia tăng hiệu suất tính toán
- Độ chính xác cao: LightGBM sử dụng một số kỹ thuật như tối ưu hoá tổng quát (generalized gradient boosting) và chia cây theo chiều sâu (leaf-wise) để tăng độ chính xác của mô hình
- Khả năng sử dụng bộ nhớ thấp: LightGBM sử dụng một số kỹ thuật để giảm yêu cầu về bộ nhớ, cho phép làm việc trên các máy tính có dung lượng bộ nhớ hạn chế.2
- Tỷ lệ lấy mẫu dữ liệu gradient lớn: a
- Tỷ lệ lấy mẫu dữ liệu gradient nhỏ: b
Quy trình:
1 Kết hợp các đặc trưng loại trừ lẫn nhau
Kết hợp các đặc trưng không bao giờ cùng có giá trị khác không của 𝜒𝑖, 𝑖 ={1, … , 𝑁} bằng kỹ thuật Exclusive Feature Bundling (EFB);
2 Khởi tạo mô hình:
Thiết lập mô hình ban đầu 𝜃0(𝜒) bằng cách tối thiểu hóa hàm mất mát:
𝜃0(𝜒) = arg min
𝑐 ∑ 𝐿(𝑦𝑖, 𝑐)
𝑁
𝑖
3 Lặp qua số lần huấn luyện M (từ 1 đến M)
3.1 Tính giá trị tuyệt đối của gradient:
Trang 31𝑟𝑖 = |𝜕𝐿(𝑦𝑖, 𝜃(𝑥𝑖)
𝜕𝜃(𝑥𝑖) |𝜃(𝑥)=𝜃
𝑚−1(𝑥)𝑣ớ𝑖 𝑖 = {1, … , 𝑁}
3.2 Lấy mẫu lại tập dữ liệu dựa trên kỹ thuật Gradient-Based One-Side Sampling (GOSS):
- Sắp xếp giá trị tuyệt đối của gradient:
3.5 Cập nhật mô hình 𝜃𝑚(𝜒)= 𝜃𝑚−1(𝜒) + 𝜃𝑚(𝜒)
4 Kết thúc vòng lặp
5 Sau khi hoàn thành 𝑀 lần lặp, trả về mô hình cuối cùng 𝜃̃(𝑥) = 𝜃𝑀(𝑥).26
1.4.4 Ưu điểm và nhược điểm của thuật toán LightGBM
LightGBM là một thuật toán học máy mạnh mẽ và được sử dụng rộng rãi trong các bài toán phân loại và hồi quy nhờ khả năng xử lý các tập dữ liệu lớn và phức tạp Tuy nhiên, giống như bất kỳ thuật toán nào, LightGBM cũng có những ưu điểm và nhược điểm cần xem xét khi lựa chọn áp dụng trong các bài toán cụ thể
Ưu điểm của LightGBM
Trang 32- Tốc độ nhanh và hiệu quả tính toán: LightGBM vượt trội về mặt hiệu suất
so với nhiều thuật toán học máy khác nhờ việc tối ưu hóa các quá trình học và sử dụng cây quyết định có cấu trúc lá thay vì mức (leaf-wise tree growth) Điều này giúp LightGBM có thể xây dựng các mô hình nhanh hơn và chính xác hơn, đặc biệt là khi xử lý tập dữ liệu lớn.26
- Xử lý dữ liệu không đồng đều: LightGBM được thiết kế để xử lý các tập
dữ liệu có số lượng lớn các giá trị trống hoặc không đồng đều (sparse data)
Cơ chế này giúp thuật toán hoạt động hiệu quả trên các tập dữ liệu có tính chất thưa thớt (sparse) mà không cần nhiều bước xử lý dữ liệu trước đó
- Hỗ trợ nhiều tính năng nâng cao: LightGBM cung cấp nhiều tham số giúp người dùng dễ dàng điều chỉnh mô hình, bao gồm hỗ trợ các phương pháp chính quy L1, L2, và khả năng xử lý dữ liệu phân loại dạng text Ngoài ra, thuật toán còn hỗ trợ việc dừng sớm (early stopping) trong quá trình huấn luyện mô hình, giúp ngăn chặn việc quá khớp (overfitting)
- Khả năng song song hóa và tính toán phân tán: LightGBM hỗ trợ song song hóa quá trình xây dựng cây quyết định trên nhiều lõi CPU, và còn có khả năng tính toán phân tán trên nhiều máy tính trong các cụm (cluster), giúp tiết kiệm thời gian huấn luyện trên các tập dữ liệu lớn.26
Nhược điểm của LightGBM
- Khả năng quá khớp (Overfitting): LightGBM sử dụng các kỹ thuật gradient boosting, vốn có nguy cơ dẫn đến overfitting khi mô hình quá phù hợp với dữ liệu huấn luyện và không tổng quát hóa tốt với dữ liệu mới Điều này đặc biệt nghiêm trọng khi làm việc với các tập dữ liệu nhỏ hoặc có nhiễu, không kiểm soát tốt các siêu tham số như chiều sâu cây (tree depth) hoặc số lượng cây (number of trees).26
- Yêu cầu về việc điều chỉnh siêu tham số: Một nhược điểm của LightGBM
là người dùng cần có kiến thức về việc điều chỉnh các siêu tham số Nếu không điều chỉnh đúng cách, mô hình có thể không đạt được hiệu suất tối
ưu, hoặc gặp phải hiện tượng quá khớp hoặc thiếu khớp (underfitting).30
Trang 33- Xử lý dữ liệu dạng nhỏ không tối ưu: Mặc dù LightGBM thường hoạt động tốt trên các tập dữ liệu lớn và phức tạp Tuy nhiên, với các tập dữ liệu nhỏ hoặc trung bình, hiệu suất của LightGBM có thể không tốt như các mô hình học máy khác như Random Forest hoặc Hồi quy Logistic Mô hình LightGBM có thể cho kết quả tương đương hoặc không tốt hơn với thời gian huấn luyện tương đương
- Cần dữ liệu chất lượng: LightGBM phụ thuộc vào chất lượng dữ liệu đầu vào Nếu dữ liệu không đủ tốt hoặc có nhiều giá trị sai lệch, hiệu suất của
mô hình có thể giảm đáng kể Điều này yêu cầu phải có các bước tiền xử
lý dữ liệu kỹ lưỡng trước khi sử dụng thuật toán này.21,30
1.4.5 Ứng dụng điển hình sử dụng thuật toán LightGBM
Thuật toán LightGBM đã được áp dụng rộng rãi trong nhiều lĩnh vực khác nhau nhờ khả năng xử lý dữ liệu nhanh chóng và hiệu quả Điểm mạnh của LightGBM là khả năng làm việc tốt với dữ liệu lớn và phức tạp, đồng thời tối ưu hóa tốc độ huấn luyện mà không làm giảm độ chính xác của mô hình Dưới đây là một
số ứng dụng tiêu biểu sử dụng thuật toán LightGBM:
Trong lĩnh vực dự báo tài chính, mô hình sử dụng thuật toán LightGBM được
sử dụng rộng rãi, đặc biệt là trong dự báo rủi ro tín dụng và phân tích tài chính Các nhà nghiên cứu đã sử dụng LightGBM để dự đoán nguy cơ vỡ nợ của các công ty bằng cách khai thác dữ liệu tài chính lịch sử và thông tin liên quan Kết quả nghiên cứu cho thấy LightGBM có khả năng dự đoán rủi ro tín dụng với độ chính xác cao hơn so với các mô hình truyền thống như KNN, decision tree, and random forest Điều này cho thấy rằng LightGBM không chỉ giúp cải thiện khả năng phát hiện rủi
ro mà còn tối ưu hóa quy trình ra quyết định trong quản lý tài chính, từ đó hỗ trợ các
tổ chức trong việc giảm thiểu thiệt hại do rủi ro tín dụng.31
Trong lĩnh vực y tế, LightGBM đã chứng tỏ là một công cụ mạnh mẽ trong việc cải thiện chẩn đoán bệnh thông qua phân tích hình ảnh y khoa Cụ thể, một
nghiên cứu được đăng trên tạp chí IEEE bởi Kanber và cộng sự (2024) đã minh
chứng thuật toán LightGBM có khả năng phân loại chính xác hình ảnh từ
Trang 34mammography và MRI, giúp bác sĩ phát hiện sớm ung thư vú Thuật toán này không chỉ nâng cao độ chính xác của việc chẩn đoán mà còn giảm thiểu thời gian xử lý, điều này rất quan trọng trong môi trường y tế, nơi thông tin cần được xử lý nhanh chóng để đưa ra quyết định điều trị kịp thời.32
Ngoài ra, LightGBM còn được áp dụng trong việc phát hiện bệnh mạch vành, một trong những nguyên nhân chính gây tử vong trên toàn thế giới Theo nghiên cứu của Zhang và cộng sự (2022), mô hình phát hiện bệnh mạch vành dựa trên LightGBM đã được phát triển với mục tiêu cải thiện độ chính xác của việc chẩn đoán Nghiên cứu này áp dụng các phương pháp cân bằng lớp để xử lý các dữ liệu không cân bằng, giúp tăng cường khả năng phát hiện bệnh trong các nhóm bệnh nhân khác nhau.33 Kết quả cho thấy mô hình LightGBM không chỉ đạt được độ chính xác cao mà còn có khả năng phân loại hiệu quả các tình trạng sức khỏe khác nhau dựa trên các đặc điểm lâm sàng và xét nghiệm Việc sử dụng LightGBM trong chẩn đoán bệnh mạch vành thể hiện tiềm năng lớn của thuật toán này trong việc hỗ trợ các bác
sĩ đưa ra quyết định điều trị kịp thời, từ đó nâng cao hiệu quả chăm sóc sức khỏe cho bệnh nhân Những ứng dụng này cho thấy khả năng mạnh mẽ của LightGBM trong việc phát hiện và chẩn đoán bệnh dựa trên dữ liệu y tế
Tóm lại, LightGBM là một công cụ mạnh mẽ và hiệu quả trong việc giải quyết các bài toán học máy lớn và phức tạp, đồng thời đã được chứng minh qua nhiều ứng dụng trong các lĩnh vực khác nhau Những lợi thế như tốc độ xử lý, khả năng mở rộng và tính chính xác đã giúp thuật toán này trở thành lựa chọn hàng đầu cho các nhà khoa học dữ liệu và kỹ sư trí tuệ nhân tạo
1.5 Tổng quan về đột quỵ và ứng dụng của AI trong chuẩn đoán đột
quỵ
1.5.1 Đột quỵ là gì?
Đột quỵ (stroke) còn gọi là tai biến mạch máu não thường xảy ra đột ngột khi nguồn máu cung cấp cho não bị tắc nghẽn, gián đoạn hoặc suy giảm Khi đó, não người bị thiếu oxy, dinh dưỡng và các tế bào não bắt đầu chết trong vòng vài phút
Trang 35Người bị đột quỵ có nguy cơ tử vong cao nếu không được phát hiện và cấp cứu kịp thời Đây là một trong những bệnh lý thần kinh nguy hiểm và phổ biến nhất Theo
Tổ chức Y tế Thế giới (WHO) đột quỵ là nguyên nhân gây tử vong đứng thứ 2 trên toàn cầu, chiếm khoảng 11% tổng số ca tử vong
Có 2 loại đột quỵ là đột quỵ do thiếu máu và đột quỵ do xuất huyết Đột quỵ
do thiếu máu cục bộ chiếm khoảng 85% tổng số các ca bị đột quỵ hiện nay Đây là tình trạng đột quỵ do các cục máu đông làm tắc nghẽn động mạch, cản trở quá trình máu lưu thông lên não Đột quỵ do xuất huyết là tình trạng mạch máu đến não bị vỡ khiến máu chảy ồ ạt gây xuất huyết não Nguyên nhân khiến mạch máu vỡ là do thành động mạch mỏng yếu hoặc xuất hiện các vết nứt, rò rỉ
Hình 7: Hình ảnh về các loại đột quỵ
Y học đột quỵ là một trong những lĩnh vực tiềm năng ứng dụng AI nhằm nâng cao độ chính xác trong chẩn đoán và chất lượng chăm sóc bệnh nhân AI đã mang đến nhiều giải pháp đột phá giúp tăng cường hiệu quả của quá trình chẩn đoán, đặc biệt là thông qua phân tích hình ảnh y tế
1.5.2 Ứng dụng AI trong chẩn đoán đột quỵ
Một trong những ứng dụng nổi bật của AI là phân tích hình ảnh y học, cụ thể
là hình ảnh chụp cắt lớp vi tính (CT) và chụp cộng hưởng từ (MRI) của não bộ để
Trang 36phát hiện các dấu hiệu sớm của đột quỵ Các thuật toán AI, đặc biệt là học sâu (deep learning), có khả năng xử lý lượng dữ liệu lớn từ các hình ảnh phức tạp, từ đó phát hiện những bất thường mà đôi khi con người có thể bỏ sót Một nghiên cứu đăng trên Journal of Stroke and Cerebrovascular Diseases đã chỉ ra rằng các mô hình AI
có thể phân tích chính xác và nhanh chóng hình ảnh CT não, xác định các vùng tổn thương do thiếu máu cục bộ hoặc xuất huyết não.34
Ngoài ra, một nghiên cứu được đăng trên Advances in Data-driven Computing and Intelligent Systems nêu rõ cách mà các kỹ thuật học máy, đặc biệt
là AI, có thể cải thiện quá trình chẩn đoán đột quỵ xuyên qua hình ảnh MRI Cụ thể,
AI giúp phân tích các hình ảnh chẩn đoán một cách tự động, nhận diện các dấu hiệu của đột quỵ và đánh giá mức độ tổn thương não bộ một cách nhanh chóng và chính xác Phương pháp này không chỉ rút ngắn thời gian chẩn đoán mà còn cải thiện tính chính xác trong việc xác định loại đột quỵ mà bệnh nhân gặp phải.35
Không chỉ dừng lại ở việc chẩn đoán mà AI còn được ứng dụng hỗ trợ dự đoán tiên lượng và lộ trình điều trị cá nhân hóa cho từng bệnh nhân đột quỵ Một nghiên cứu công bố trên Journal of Neurology cho thấy AI có thể phân tích các dữ liệu bệnh nhân như tuổi tác, tiền sử bệnh lý và hình ảnh y học để dự đoán khả năng hồi phục và nguy cơ tái phát đột quỵ Điều này rất quan trọng, bởi vì tiên lượng chính xác giúp các bác sĩ điều chỉnh phương pháp điều trị phù hợp với từng bệnh nhân, từ
đó cải thiện chất lượng chăm sóc và giảm thiểu chi phí y tế
Bên cạnh đó, AI còn giúp tối ưu hóa quyết định điều trị trong thời gian thực, điều này đặc biệt quan trọng trong các trường hợp đột quỵ cấp tính, khi mỗi phút đều
có thể quyết định sự sống còn của bệnh nhân Ví dụ, công nghệ AI có thể phân tích ngay lập tức các hình ảnh CT hoặc MRI khi bệnh nhân vừa nhập viện, sau đó đưa ra các đề xuất điều trị như sử dụng thuốc tan huyết khối hoặc can thiệp mạch máu.36
Tuy nhiên, một trong những hạn chế chính của AI trong chẩn đoán đột quỵ là phụ thuộc vào chất lượng và sự đa dạng của dữ liệu Các mô hình AI cần được huấn luyện trên tập dữ liệu lớn và đa dạng để đảm bảo tính chính xác và khả năng tổng quát hóa trên các nhóm bệnh nhân khác nhau Nghiên cứu cũng chỉ ra rằng AI có thể
Trang 37đưa ra kết quả sai lệch nếu gặp phải dữ liệu hình ảnh chất lượng kém hoặc không đầy đủ Do đó, việc cải thiện và chuẩn hóa dữ liệu y tế là yếu tố quan trọng để tối ưu hóa hiệu suất của AI trong y học
Trang 38CHƯƠNG II: BÀI TOÁN DỰ ĐOÁN NGUY CƠ BỆNH ĐỘT QUỴ
2.1 Phát biểu bài toán
Trong chương này, đề án sẽ trình bày về bài toán dự đoán nguy cơ bệnh đột quỵ, từ khâu hiểu nghiệp vụ cho đến các kỹ thuật chính sử dụng thuật toán LightGBM nhằm xây dựng mô hình dự báo chính xác và hiệu quả
Bài toán đặt ra là dựa trên dữ liệu bệnh nhân được cung cấp (bao gồm các thông tin về yếu tố nguy cơ), làm sao để xây dựng được một mô hình dự báo nguy
cơ mắc bệnh đột quỵ Mô hình này cần có khả năng phân tích và dự báo một cách chính xác để từ đó hỗ trợ bác sĩ trong việc phát hiện sớm và đưa ra phương pháp phòng ngừa, điều trị kịp thời, giúp giảm thiểu tác động nghiêm trọng của đột quỵ
2.2 Các bước phân tích dữ liệu và ứng dụng
Hiểu nghiệp vụ (Business Understanding): Bước đầu tiên trong quá trình
xây dựng mô hình là xác định mục tiêu và yêu cầu của bài toán Đề án tập trung vào việc dự đoán nguy cơ mắc bệnh đột quỵ ở bệnh nhân dựa trên các yếu tố nguy cơ khác nhau Mục tiêu chính của bài toán là xây dựng một mô hình có khả năng dự báo sớm bệnh đột quỵ, từ đó hỗ trợ các bác sĩ trong việc đưa ra quyết định điều trị
và phòng ngừa bệnh tật
Hiểu dữ liệu (Data Understanding): Sau khi xác định mục tiêu, bước tiếp
theo là thu thập và làm quen với dữ liệu thô ban đầu Dữ liệu bệnh nhân được cung cấp bao gồm nhiều thông tin về bệnh sử và các yếu tố nguy cơ khác nhau liên quan đến bệnh đột quỵ Trong giai đoạn này, khám phá dữ liệu thô ban đầu, đánh giá chất lượng dữ liệu, tìm hiểu xem có bất kỳ dữ liệu bị thiếu hoặc không hợp lệ nào không
Chuẩn bị dữ liệu (Data Preparation): Dữ liệu ban đầu thường chứa nhiều
nhiễu và thiếu sót, do đó cần phải qua giai đoạn tiền xử lý để đảm bảo rằng dữ liệu đưa vào mô hình là "đủ tiêu chuẩn" Giai đoạn này bao gồm:
- Xử lý các giá trị thiếu, loại bỏ hoặc thay thế các dữ liệu không hợp lệ
- Chuẩn hoá các biến số, mã hóa các biến phân loại, và tạo ra các đặc trưng mới dựa trên dữ liệu sẵn có
Trang 39- Phân chia dữ liệu thành các tập huấn luyện, kiểm thử và đánh giá nhằm đảm bảo tính khách quan của mô hình
Mô hình hoá (Modelling): Khi dữ liệu đã được chuẩn bị, giai đoạn tiếp theo
là lựa chọn và áp dụng các phương pháp mô hình hoá phù hợp Thuật toán LightGBM
sẽ được lựa chọn do ưu điểm về tốc độ và hiệu quả trong việc xử lý dữ liệu lớn và phức tạp
Đánh giá mô hình (Evaluation): Sau khi xây dựng xong mô hình, cần tiến
hành đánh giá để đảm bảo rằng mô hình đã đạt được các mục tiêu đề ra Các bước đánh giá bao gồm:
- Sử dụng các chỉ số đánh giá mô hình phổ biến như độ chính xác (accuracy), độ nhạy (recall), độ đặc hiệu (specificity), và chỉ số F1 để đo lường hiệu suất của
dự báo nguy cơ đột quỵ trong bệnh viện
2.3 Hiểu bài toán (Business Understanding)
2.3.1 Đặt vấn đề
Bệnh đột quỵ (tai biến mạch máu não) là một trong những nguyên nhân hàng đầu gây tử vong và tàn tật trên toàn cầu Sự xuất hiện của đột quỵ thường rất đột ngột và khó dự đoán, nhưng có những yếu tố nguy cơ đã được khoa học xác định có liên quan chặt chẽ đến khả năng mắc bệnh, như tuổi tác, huyết áp cao, tiểu đường, tiền sử bệnh tim mạch, và các thói quen sống không lành mạnh (hút thuốc, lười vận động, chế độ ăn uống không hợp lý) Những yếu tố này không chỉ gây ra nguy cơ đối với sức khỏe mà còn làm gia tăng tỷ lệ mắc bệnh đột quỵ trong cộng đồng
Trang 40Hiện nay, tình trạng đột quỵ xảy ra thường xuyên hơn và có xu hướng trẻ hóa, ảnh hưởng nghiêm trọng đến sức khỏe và cuộc sống của con người Sự trẻ hóa của bệnh đột quỵ là một vấn đề đáng báo động, vì nó không chỉ tác động đến nhóm dân
số lớn tuổi mà còn ảnh hưởng đến những người trong độ tuổi lao động, gây ra gánh nặng to lớn về mặt y tế và kinh tế
Việc nhận diện và dự đoán khả năng bị đột quỵ sớm là một trong những chìa khóa quan trọng để giảm thiểu tác động của bệnh Nghiên cứu các yếu tố nguy cơ và xây dựng các mô hình dự báo bệnh đột quỵ không chỉ giúp đưa ra các cảnh báo sớm
mà còn cung cấp những thông tin hữu ích cho công tác phòng ngừa và điều trị bệnh
2.3.2 Mục tiêu
Mục tiêu chính của đề án là xây dựng một mô hình học máy sử dụng thuật toán LightGBM nhằm dự đoán khả năng mắc bệnh đột quỵ dựa trên các yếu tố nguy
cơ trong dữ liệu bệnh nhân Cụ thể, các mục tiêu cụ thể bao gồm:
- Mô tả đặc điểm lâm sàng tình trạng đột quỵ ở bệnh nhân khám và điều trị tại Bệnh viện 175 Thành phố Hồ Chí Minh Mục tiêu này tập trung vào việc phân tích dữ liệu lâm sàng của những bệnh nhân có nguy cơ hoặc đã bị đột quỵ Các đặc điểm lâm sàng này bao gồm tuổi, giới tính, tiền sử bệnh tật, thói quen sinh hoạt, và các yếu tố nguy cơ khác như huyết áp, tiểu đường, và béo phì
- Mô hình hóa dữ liệu về những yếu tố nguy cơ gây đột quỵ giúp chẩn đoán sớm nguy cơ bệnh Xây dựng một mô hình học máy sử dụng thuật toán LightGBM,
để mô hình hóa và dự đoán nguy cơ mắc bệnh đột quỵ Mô hình sẽ dựa trên các yếu tố nguy cơ đã xác định và sẽ được sử dụng để hỗ trợ chẩn đoán sớm
- Ứng dụng trí tuệ nhân tạo trong việc hỗ trợ tư vấn phòng bệnh và tư vấn điều trị đột quỵ Sử dụng trí tuệ nhân tạo để phát triển hệ thống hỗ trợ quyết định, giúp
tư vấn phòng ngừa nguy cơ đột quỵ cho các bệnh nhân có yếu tố nguy cơ, và tư vấn điều trị phù hợp cho các trường hợp bệnh nhân đã có dấu hiệu hoặc nguy cơ cao