Khóa luận tốt nghiệp hệ hỗ trợ chuẩn đoán bệnh tim dựa trên kỹ thuật máy học

TỔNG QUAN VỀ ĐỀ TÀI

Lý do chọn đề tài

Bệnh tim mạch hiện đang là nguyên nhân hàng đầu gây tử vong toàn cầu, chiếm 31% tổng số ca tử vong Tại Việt Nam, bệnh này cũng chịu trách nhiệm cho 31% tổng số ca tử vong trong năm 2016, tương đương với hơn 170.000 trường hợp Tuy nhiên, hầu hết các bệnh tim mạch có thể được phòng ngừa nếu được phát hiện sớm và điều trị kịp thời, đúng cách.

Sự phát triển của công nghệ thông tin đã tạo ra nhiều ứng dụng thực tiễn trong y khoa, đặc biệt là hệ thống hỗ trợ chẩn đoán bệnh tim Hệ thống này không chỉ giúp các bác sĩ đưa ra quyết định lâm sàng chính xác hơn mà còn cải thiện chất lượng chăm sóc sức khỏe Đồng thời, nó giảm bớt gánh nặng nhân lực cho các cơ sở y tế và giảm thiểu chi phí khám chữa bệnh.

Khai phá dữ liệu sử dụng các phương pháp tiên tiến như máy học và biểu diễn dữ liệu để phát hiện thông tin tiềm ẩn Vai trò của khai phá dữ liệu trong y khoa là rất quan trọng, giúp giảm chi phí chẩn đoán lâm sàng và cải thiện chất lượng chăm sóc sức khỏe cho bệnh nhân, đồng thời thúc đẩy sự phát triển tích cực của ngành y tế.

Chúng tôi đã chọn đề tài "Hệ hỗ trợ chẩn đoán bệnh tim dựa trên kỹ thuật máy học" cho luận văn tốt nghiệp với mục tiêu phát triển phương pháp luận nhằm giúp các y bác sĩ phát hiện bệnh sớm hơn, từ đó nâng cao hiệu quả điều trị.

Mục tiêu và phạm vi

Nghiên cứu các kỹ thuật máy học nhằm phát triển các mô hình với bộ tham số tối ưu, từ đó nâng cao hiệu suất so với các nghiên cứu trước đây.

• Áp dụng tìm kiếm vét cạn và kiểm tra chéo để tìm ra bộ siêu tham số

Xây dựng ứng dụng hỗ trợ chẩn đoán bệnh tim nhằm giúp các chuyên gia y tế nhận diện và chẩn đoán lâm sàng các dấu hiệu liên quan đến bệnh.

• Đưa ra chẩn đoán lâm sàng dấu hiệu bệnh tim dựa trên tập dữ liệu được cung cấp từ Cleveland

Các nghiên cứu liên quan

Chẩn đoán lâm sàng bệnh tim là một quá trình phức tạp, trong đó nhiều nghiên cứu đã áp dụng các kỹ thuật khai thác dữ liệu để đưa ra các kết quả khác nhau Trong luận văn này, nhóm chúng em đã chọn bài báo của các tác giả Loris Nanni, Sheryl Brahnam, Alessandra Lumini và Tonya Barrier làm cơ sở để so sánh giá trị của các mô hình máy học, nhằm nâng cao hiệu quả chẩn đoán bệnh tim.

Bên cạnh đó các nghiên cứu khác cũng đóng góp các giá trị đáng kể trong công tác nâng cao chất lượng chẩn đoán bệnh như:

The article "Intelligent Heart Disease Prediction System Using Data Mining Techniques" by Sellappan Palaniappan and Rafiah Awang explores the use of Decision Trees, Naive Bayes, and Neural Networks for predicting heart disease Their experimental results demonstrate that each technique possesses unique strengths in effectively realizing the identified data mining objectives.

Bài báo “Hệ thống dự đoán bệnh tim hiệu quả sử dụng kỹ thuật khai thác dữ liệu” của Poornima Singh, Sanjay Singh và Gayatri S Pandi-Jain đã phát triển một hệ thống dự đoán dựa trên mạng nơ-ron để đánh giá mức độ rủi ro của bệnh tim Kết quả cho thấy hệ thống hỗ trợ chẩn đoán được thiết kế có khả năng cung cấp dự báo chính xác về nguy cơ mắc bệnh tim.

Trong nghiên cứu “Prediction of Heart Disease using Data Mining

Trong nghiên cứu của Era Singh Kajal và Nishika, tác giả đã áp dụng phương pháp gom cụm K-mean kết hợp với thuật toán MAFIA để phát triển hệ chẩn đoán bệnh tim, đạt được độ chính xác 89%.

The article "Early Heart Disease Prediction Using Data Mining Techniques" by Aditya Methaila, Prince Kansal, Himanshu Arya, and Pankaj Kumar explores the use of classification techniques in data mining, specifically decision trees, Naive Bayes, and neural networks, to predict early heart disease.

Network, cùng với việc đánh trọng số bằng các thuật toán Apriori [9] và MAFIA

• Đối sánh kết quả với hai mô hình cho chính xác cao nhất lần lượt là SVM

Random Subspace và GPC + Random Subspace được đề xuất bởi tác giả

[10] dựa trên chỉ số tỉ lệ lỗi phân lớp của mô hình

• Đưa ra mô hình phần lớp cho tỉ lệ tốt nhất để xây dựng ứng dụng hỗ trợ các chuyên gia chẩn đoán lâm sàng bệnh tim

• Thông tin bệnh án của bệnh nhân bao gồm các thông tin liên quan đến 13 đặc trưng trong bộ dữ liệu Cleveland

• Tách thành các phần huấn luyện/xác minh/kiểm thử

• Chuẩn hóa tất cả các thuộc tính sẽ có cùng một hệ số bằng standard scaler

• Tìm kiếm bộ tham số tối ưu trên tập huấn luyện và kiểm chứng chéo với

• Huấn luyện mô hình với bộ tham số tối ưu tìm được Đầu ra:

• Bệnh nhân có dấu hiệu bệnh hay không có dấu hiệu bệnh.

CƠ SỞ LÝ THUYẾT

Khái niệm về khai phá dữ liệu

Khai phá dữ liệu, hay Data Mining, là quá trình khám phá tri thức tiềm ẩn trong các cơ sở dữ liệu (CSDL) Nó bao gồm việc trích xuất và sản sinh những tri thức hoặc mẫu tiềm ẩn, chưa được biết đến nhưng có giá trị từ CSDL.

Khai phá dữ liệu có thể được chia thành hai loại chính: khai phá dữ liệu theo hướng kiểm tra và khai phá dữ liệu theo hướng khám phá Trong khai phá dữ liệu theo hướng kiểm tra, người dùng đưa ra giả thuyết và hệ thống sẽ kiểm tra tính chính xác của chúng thông qua các phương pháp như truy vấn, báo cáo, phân tích đa chiều và phân tích thống kê Ngược lại, khai phá dữ liệu theo hướng khám phá tập trung vào việc tìm kiếm tri thức tiềm ẩn trong cơ sở dữ liệu bằng cách xem xét tất cả các giả thuyết có thể.

Khai phá dữ liệu là quá trình tự động khảo sát và phân tích dữ liệu để phát hiện các mẫu, quy luật và mối quan hệ tiềm ẩn trong cơ sở dữ liệu Nguồn dữ liệu cho khai phá dữ liệu có thể đến từ các cơ sở dữ liệu lớn hoặc kho dữ liệu, bao gồm cả thông tin có cấu trúc và không có cấu trúc.

Tri thức được rút ra có thể:

- Giải thích dữ liệu đang có

Cung cấp cái nhìn sâu sắc về hành vi của các đối tượng, giúp doanh nghiệp hiểu rõ hơn về khách hàng của mình.

- Dự báo: dự đoán giá trị của những đối tượng mới

• Khuynh hướng mua hàng của khách hàng

• Xác định rủi ro tín dụng đối với một khách hàng

• Định hướng tập trung nguồn lực của doanh nghiệp.

Tại sao dùng khai phá dữ liệu

Khai phá dữ liệu là cần thiết đối với người dùng với những lý do sau:

Ngày càng nhiều dữ liệu được lưu trữ trong các cơ sở dữ liệu và kho dữ liệu, tạo thành một "mỏ vàng dữ liệu" chứa đựng thông tin chiến lược mà các hệ quản trị cơ sở dữ liệu thông thường không thể phát hiện và quản lý hiệu quả.

CSDL đang phát triển nhanh chóng về cả kích thước lẫn số lượng, mang đến nhiều thông tin thú vị không chỉ từ các sự kiện mà còn từ những suy diễn Tuy nhiên, với hàng triệu bản ghi và hàng trăm trường tin, việc tìm kiếm các mẫu và quy luật trong dữ liệu trở thành một thách thức lớn đối với các nhà phân tích dữ liệu.

- Không phải người dùng nào cũng là nhà thống kê hay nhà phân tích dữ liệu chuyên nghiệp

Khi người dùng có một ý tưởng mơ hồ hoặc cảm nhận không rõ ràng về thông tin cần tìm, họ nên sử dụng KPDL Ngược lại, nếu người dùng biết chính xác họ đang tìm kiếm gì, SQL sẽ là lựa chọn phù hợp hơn.

Khai phá dữ liệu là một công cụ hiệu quả trong các lĩnh vực:

- Sử dụng dữ liệu để xây dựng các mô hình dự báo

• Khả năng dự báo tiềm ẩn trong dữ liệu

• Gợi ý về các chiều và các nhóm dữ liệu có khả năng chứa các tri thức hữu ích

- Tạo tóm tắt và báo cáo rõ ràng

• Tự động tìm những phân đoạn trong dữ liệu

• Tìm ra những phân đoạn mà các nhà phân tích chưa biết hoặc hiểu biết chưa rõ ràng

- Cung cấp cơ chế hỗ trợ ra quyết định

Các công đoạn khám phá tri thức từ CSDL

Tiến trình khám phá tri thức từ CSDL bao gồm 3 công đoạn:

- Tường trình, báo cáo kết quả

Hình 2.1 Các công đoạn của tiến trình khám phá tri thức từ CSDL

(Nguồn: Sách Khai phá dữ liệu của Trường Đại học Công nghệ Thông tin [12])

Trong quá trình xử lý dữ liệu, có thể xảy ra việc quay lại một hoặc nhiều giai đoạn Chẳng hạn, trong giai đoạn khám phá hoặc mã hóa dữ liệu, tiến trình có thể trở về giai đoạn xóa bỏ dữ liệu hoặc quay lại giai đoạn làm giàu dữ liệu nếu có thông tin mới để cải thiện các tập dữ liệu hiện có.

Tổng quan về hệ hỗ trợ ra quyết định

Hệ thống hỗ trợ ra quyết định là một phần quan trọng của hệ thống thông tin, giúp phân tích dữ liệu và cung cấp thông tin cần thiết cho việc ra quyết định Nó hỗ trợ cá nhân, tổ chức và doanh nghiệp trong việc tham khảo và giải quyết các vấn đề một cách hiệu quả.

Trong lĩnh vực y tế, hệ thống hỗ trợ ra quyết định lâm sàng dựa trên tri thức đã học, giúp bác sĩ và chuyên gia y tế đưa ra quyết định chính xác hơn Hệ thống này kết nối tri thức với quan sát sức khỏe, từ đó cải thiện chất lượng chăm sóc sức khỏe Một số lợi ích của hệ thống hỗ trợ ra quyết định trong y tế bao gồm nâng cao hiệu quả điều trị, giảm thiểu sai sót y tế và tối ưu hóa quy trình chăm sóc bệnh nhân.

- Tăng cường chất lượng chẩn đoán, chăm sóc bệnh nhân

- Giảm nguy cơ sai sót để tránh các tình huống nguy hiểm cho bệnh nhân

- Tăng cường hiệu quả ứng dụng Công nghệ thông tin vào lĩnh vực y tế

Bài toán phân lớp

Phân lớp là quá trình phân loại dữ liệu vào các lớp đã xác định trước thông qua một mô hình phân lớp Mô hình này được phát triển dựa trên tập dữ liệu đã được gán nhãn, còn gọi là tập huấn luyện Quá trình này nhằm mục đích gán nhãn cho các đối tượng dữ liệu một cách chính xác.

Nhiệm vụ của bài toán phân lớp là xây dựng một mô hình phân loại nhằm xác định phân lớp của dữ liệu mới.

Có nhiều bài toán phân lớp dữ liệu như phân lớp nhị phân, phân lớp đa lớp:

Bài toán phân lớp nhị phân là quá trình gán nhãn cho dữ liệu, phân chia chúng thành hai lớp khác nhau dựa trên sự hiện diện hoặc vắng mặt của các đặc trưng của bộ phân lớp.

- Bài toán phân lớp đa lớp là quá trình phân lớp dữ liệu với số lượng lớp lớn hơn hai.

Hệ phân lớp độc lập

Hệ phân lớp độc lập (stand-alone classifier system) sử dụng một bộ phân lớp duy nhất để thực hiện quá trình phân loại Hệ thống này nhận dữ liệu đầu vào, tiến hành tiền xử lý và biến đổi nhằm giảm nhiễu và tăng cường tương quan trong dữ liệu Sau đó, nó trích xuất các đặc trưng phù hợp và điều chỉnh tham số của bộ phân lớp để tối ưu hóa việc học từ tập dữ liệu huấn luyện, nhằm gán nhãn cho các mẫu chưa biết trong tập dữ liệu kiểm tra.

Hình 2.2 Sơ lược chung về hệ thống phân lớp độc lập.

Hệ đa phân lớp

Hệ đa phân lớp (multiclassifier system) là một tập hợp các bộ phân lớp được huấn luyện từ dữ liệu để dự đoán thông tin mới trong tập dữ liệu kiểm tra Để tổng hợp các dự đoán từ các bộ phân lớp, có nhiều phương pháp khác nhau như sử dụng bộ kết hợp đại số (như mean rule, sum rule, product rule) hoặc các phương pháp dựa trên biểu quyết theo số đông như majority voting.

Hệ thống đa phân lớp được phát triển thông qua việc chia nhỏ hoặc xáo trộn các mẫu và đặc trưng trong tập dữ liệu huấn luyện Các bước chính để xây dựng hệ thống này bao gồm việc xác định các đặc trưng quan trọng và tổ chức lại dữ liệu để tối ưu hóa quá trình học máy.

• Bước 1: Tạo ra K tập training từ tập training ban đầu, với K là một số nguyên

• Bước 2: Huấn luyện một bộ phân lớp khác nhau ứng với mỗi K tập training mới

• Bước 3: Kết hợp K bộ phân lớp bằng cách dùng các phép kết hợp

Hình 2.3 Hệ thống đa phân lớp được xây dựng bằng cách xáo trộn các mẫu hoặc các đặc trưng của tập huấn luyện

(Nguồn: Bài báo “Data mining based on intelligent systems for decision support systems in healthcare”[10])

Các phương pháp biến đổi đặc trưng

Phân tích thành phần chính (PCA)

Phân tích thành phần chính (Principal Component Analysis - PCA) là một thuật toán thống kê giúp chuyển đổi tập dữ liệu từ không gian nhiều chiều sang không gian ít chiều hơn, nhằm tối ưu hóa việc phân tích và trực quan hóa dữ liệu.

Các véc-tơ riêng tương ứng với giá trị riêng lớn nhất của hiệp phương sai trong một tập mẫu được sử dụng để tạo ra không gian phụ có số chiều thấp hơn, tập trung vào phương sai của dữ liệu gốc Việc chiếu dữ liệu gốc lên không gian con này giúp biểu diễn đặc trưng với phương sai cực đại.

Các phương pháp và thuật toán phân lớp

Cây quyết định

Cây quyết định là mô hình phân lớp có cấu trúc dạng cây, bao gồm các nút thể hiện giá trị thuộc tính, các nhánh biểu diễn đầu ra của kiểm tra, và nút lá biểu thị nhãn lớp Quy trình tạo cây quyết định diễn ra qua hai giai đoạn chính: tạo cây và tỉa nhánh.

Trong quá trình xây dựng cây quyết định, tất cả các mẫu học khởi đầu từ nút gốc và sau đó được phân chia đệ quy dựa trên thuộc tính được lựa chọn Bước tỉa nhánh được thực hiện để phát hiện và loại bỏ những nhánh không thuộc về bất kỳ lớp nào.

Bước vận hành nhằm kiểm tra những giá trị thuộc tính của mẫu đối với các giá trị trên nhánh của cây quyết định

Giải thuật của cây quyết định bao gồm các bước sau:

• Bước 1: Cây được xây dựng đệ quy từ trên xuống và theo cách chia để trị

• Bước 2: Ban đầu tất cả mẫu học đều nằm ở gốc

• Bước 3: Thuộc tính được phân loại (nếu là giá trị liên tục được rời rạc hóa)

• Bước 4: Các mẫu học được phân chia đệ quy dựa trên thuộc tính chọn lựa

• Bước 5: Kiểm tra những thuộc tính được chọn dựa trên heuristic hoặc của Điều kiện để dừng phân chia tập huấn luyện:

- Tất cả những mẫu học đối với một nút cho trước đều cùng lớp

- Không còn thuộc tính nào để phân chia tiếp

Máy học vector hỗ trợ (SVM)

SVM [16] (Support Vector Machine) là mô hình hiệu quả và phổ biến cho bài toán phân dữ liệu có số chiều lớn

Bài toán cơ bản của SVM là phân loại 2 lớp: cho trước tập dữ liệu huấn luyện

D = {(di)} 𝑖=1 𝑁 = {(xi, yi)} 𝑖=1 𝑁 , với xi là vector M chiều, yi  Y (trong đó, Y là nhãn lớp, giả sử có 2 nhãn lớp Y  {+1,-1})

Giải thuật SVM nhằm tìm một siêu phẳng (hyperplane) để phân tách các điểm dữ liệu thành hai lớp tương ứng với nhãn của chúng Trong không gian M chiều, siêu phẳng H được biểu diễn bởi phương trình y = w.x - b, cùng với hai siêu phẳng hỗ trợ H1 và H2 song song với H, tạo khoảng cách đều nhau Siêu phẳng H chia tập dữ liệu D thành hai phần, mỗi phần chứa các đối tượng có cùng nhãn +1 hoặc -1, đồng thời không có phần tử nào nằm giữa H1 và H2, với điều kiện w.x - b >= +1 cho y = +1 và w.x - b >= -1 cho y = -1.

Kết hợp hai điều kiện trên ta có: y(w.x - b) >= 1

Phân lớp phần tử x dựa vào dấu của (w.x - b) Nếu giá trị biểu thức (w.x- b) >

0 thì gán nhãn cho x là lớp dương (lớp +1), ngược lại thì gán nhãn cho x là lớp âm (lớp -1) predict(x) = sign(w.x - b)

Khoảng cách giữa hai siêu phẳng hỗ trợ, được gọi là biên (margin), được tính bằng 2/|w|, trong đó |w| là độ lớn (2-norm) của vector pháp tuyến w Khi dữ liệu không thể phân tách tuyến tính, các phần tử nằm sai phía so với mặt phẳng hỗ trợ tương ứng với lớp của chúng được xem là lỗi, và khoảng cách từ phần tử lỗi đến siêu phẳng hỗ trợ được kí hiệu là zi (zi >= 0) Do đó, SVM cần đồng thời cực đại hóa biên và cực tiểu hóa lỗi.

Biến thể của giải thuật SVM cho phép sử dụng các hàm phân lớp khác nhau mà không cần thay đổi cấu trúc của giải thuật Điều này có thể đạt được bằng cách thay thế hàm nhân tuyến tính bằng các hàm nhân khác như Linear kernel, Polynomial kernel, và Radial basis function (Gaussian) kernel Nhờ đó, ta có thể xây dựng các mô hình phân lớp dựa trên các véc-tơ hỗ trợ khác nhau Để tìm hiểu thêm về SVM, bạn có thể tham khảo tài liệu [3].

Quy trình phân lớp Gaussian (GPC)

Quy trình Gaussian (GP) là một công cụ mạnh mẽ để mô hình hóa các cặp dữ liệu phi tuyến tính GP thiết lập một phân phối trên các hàm, cho phép thực hiện dự đoán với mức độ không chắc chắn.

Quy trình phân lớp Gaussian (Gaussian Process Classifier - GPC) là một kỹ thuật phân lớp xác suất dựa trên Quy trình Gaussian Để hiểu rõ hơn về phương pháp này từ góc độ toán học, độc giả có thể tham khảo chương 3 của tài liệu [14], được đăng tải tại http://www.gaussianprocess.org/gpml/.

Biến thể giải thuật của GPC sử dụng các hàm phân lớp khác nhau bằng cách thay thế hàm nhân tuyến tính bằng các hàm nhân như RBF, Matern, Rational quadratic, và Dot-Product Nhờ đó, ta có thể tạo ra các mô hình phân lớp đa dạng và hiệu quả.

K láng giềng gần nhất (KNN)

K láng giềng gần nhất (K-Nearest Neighbors) là một phương pháp phân lớp hiệu quả, dựa trên việc xác định khoảng cách gần nhất giữa đối tượng cần phân loại và các đối tượng trong tập dữ liệu huấn luyện Phương pháp này giúp đưa ra quyết định phân loại chính xác dựa trên sự tương đồng với các đối tượng lân cận.

• Bước 1: Xác định số láng giềng gần nhất K

• Bước 2: Tính khoảng cách giữa đối tượng cần phân lớp với tất cả các đối tượng trong training data

• Bước 3: Sắp xếp khoảng cách theo thứ tự tăng dần và xác định K láng giềng gần nhất với đối tượng cần phân lớp

• Bước 4: Lấy tất cả các lớp của K láng giềng gần nhất đã xác định

• Bước 5: Dựa vào phần lớn lớp của K láng giềng gần nhất để xác định lớp cho đối tượng cần phân lớp

Một số phương pháp phổ biến để tính khoảng cách giữa đối tượng cần phân lớp với tất cả các đối tượng trong tập dữ liệu huấn luyện là:

• Khoảng cách Euclidean: Khoảng cách giữa 2 điểm là chiều dài của đường thẳng nối chúng

Khoảng cách Manhattan là tổng chiều dài của tất cả các đoạn nối giữa hai điểm theo chiều dọc và chiều ngang, được tính theo một hướng nhất định.

• Khoảng cách Minkowski: Là sự tổng quát của cả khoảng cách Euclidean và Manhattan

• Khoảng cách Hamming: Tính khoảng cách giữa các vector nhị phân Đo sự khác biệt giữa hai trạng thái/hai đối tượng.

Hồi quy Logistic (LR)

Phân tích hồi quy logistic là một kỹ thuật thống kê quan trọng để nghiên cứu mối quan hệ giữa biến độc lập và biến phụ thuộc nhị phân Mô hình hồi quy logistic chuyển đổi quan hệ phi tuyến tính thành tuyến tính thông qua hàm logarit Mô hình này giả định rằng biến dự đoán có giá trị rời rạc; nếu chỉ có hai giá trị, nó được gọi là hồi quy logistic nhị phân, trong khi nhiều hơn hai giá trị sẽ là hồi quy logistic đa thức Luận văn này sẽ áp dụng phương pháp hồi quy logistic nhị phân để xây dựng hệ phân lớp.

Phương pháp hồi quy Logistic là một mô hình hồi quy được sử dụng để dự đoán các giá trị đầu ra rời rạc (biến mục tiêu rời rạc) y dựa trên một vector đầu vào x Mô hình này tương tự như việc phân loại các đầu vào x vào các nhóm y tương ứng Cụ thể, hồi quy Logistic là một thuật toán dự đoán thích hợp khi biến y có hai loại phân loại nhị phân, với đầu ra là 1 hoặc 0.

Bagging

Bagging (Bootstrap aggregating) là một phương pháp học kết hợp, trong đó mỗi thành viên được huấn luyện độc lập trên các bản sao khác nhau của tập huấn luyện Kết quả từ các mô hình học tập riêng lẻ sau đó được tổng hợp để tạo ra kết quả cuối cùng Phương pháp này thường sử dụng cây quyết định để xây dựng các mô hình, nhưng cũng có thể áp dụng cho các phương pháp học không ổn định khác.

Sự thành công của phương pháp này phụ thuộc vào việc chọn lựa bộ phân lớp cơ sở phù hợp Để đảm bảo tính đa dạng, bộ phân lớp cần có sự không ổn định, giúp các biến thể nhỏ trong tập huấn luyện tạo ra những thay đổi lớn Nếu các bộ phân lớp ổn định, hiệu suất tổng hợp sẽ kém hơn so với các bộ phân lớp độc lập.

1 Xây một tập con ngẫu nhiên X t lấy ngẫu nhiên các mẫu được chọn từ tập huấn luyện ban đầu

2 Huấn luyện một bộ phân lớp C t bằng tập con X t

3 Thêm bộ phân lớp đã huấn luyến vào bộ kết hợp

Xây dựng quy tắc quyết định cuối cùng bằng cách kết hợp kết quả từ các bộ phân lớp thông qua các phương pháp kết hợp là rất quan trọng Trong quá trình thực nghiệm, chúng tôi áp dụng phương pháp bỏ phiếu số đông để đảm bảo tính chính xác và hiệu quả của quyết định.

Random subspace

Random subspace là một thuật toán học máy kết hợp dự đoán từ nhiều cây quyết định, được đào tạo trên các tập con khác nhau của các đặc trưng trong dữ liệu Phương pháp này giúp cải thiện độ chính xác của mô hình bằng cách tận dụng sự đa dạng trong các tập dữ liệu.

Random subspace là một kỹ thuật học máy kết hợp nhằm giảm sự tương quan giữa các ước lượng trong một quần thể Phương pháp này thực hiện việc đào tạo các mô hình trên các mẫu đặc trưng ngẫu nhiên thay vì sử dụng toàn bộ đặc trưng Kết quả từ các mô hình sẽ được kết hợp thông qua các phép kết hợp, phổ biến nhất là bỏ phiếu số đông.

Rừng ngẫu nhiên (RF)

Rừng ngẫu nhiên (Random Forest) là mô hình học máy kết hợp nhiều cây quyết định không cắt nhánh, mang lại ưu điểm là giảm thiểu lỗi bias nhờ xây dựng cây từ các tập dữ liệu con khác nhau Việc tạo ra các không gian con thuộc tính ngẫu nhiên cũng giúp giảm mối tương quan giữa các cây quyết định Độ chính xác của mô hình Rừng ngẫu nhiên phụ thuộc vào chất lượng dự đoán của các cây quyết định cũng như mức độ tương quan giữa chúng.

Sơ lược về rừng ngẫu nhiên:

Cho một tập dữ liệu huấn luyện D = {(di)} 𝑖=1 𝑁 = {(xi, yi)} 𝑖=1 𝑁 , với xi là vector

Mô hình RF (Random Forest) hoạt động bằng cách thực hiện hai lần lựa chọn ngẫu nhiên: một lần cho mẫu và một lần cho thuộc tính trong quá trình xây dựng cây Giả sử Y là lớp với C nhãn lớp Y thuộc {1, 2, , C} và C ≥ 2 Ý tưởng chính là tạo ra nhiều cây quyết định để cải thiện độ chính xác của dự đoán.

• Bước 1: Từ tập dữ liệu ban đầu D, sử dụng kỹ thuật boostrap (lấy mẫu ngẫu nhiên có hoàn lại) để tạo ra t tập dữ liệu con S = {S1, S2 ,St }

Trong bước 2 của quy trình, mỗi tập dữ liệu Sj được sử dụng để xây dựng một cây quyết định hj, tạo thành mô hình Rừng ngẫu nhiên h = {hj} 𝑗=1 𝑡 Thay vì xem xét tất cả các biến ứng cử để tìm điểm chia tốt nhất, tại mỗi nút, Rừng ngẫu nhiên chọn ngẫu nhiên một không gian tập con M’ từ tập các thuộc tính ban đầu M, với M’ nhỏ hơn nhiều so với M Đồng thời, cây quyết định trong mô hình Rừng ngẫu nhiên không có cấu trúc cắt nhánh.

• Bước 3: RF dự đoán nhãn lớp của phần tử mới đến bằng chiến lược bình chọn số đông của các cây quyết định.

Mạng nơron nhân tạo

Mạng nơron nhân tạo (ANN) là mô hình xử lý thông tin dựa trên cách hoạt động của nơron sinh học Nó bao gồm nhiều nơron kết nối qua các liên kết có trọng số, hoạt động đồng bộ để giải quyết các vấn đề cụ thể.

Hình 2.4 Cấu tạo một Neural

(Nguồn: https://intellipaat.com/community/253/role-of-bias-in-neural-networks)

Các thành phần cơ bản của một nơron nhân tạo bao gồm:

• Tập các đầu vào: Là các tín hiệu vào (input signals) của nơron, các tín hiệu này thường được đưa vào dưới dạng một vector N chiều

• Tập các liên kết: mỗi liên kết được thể hiện bởi một trọng số liên kết – Synaptic weight

• Bộ tổng (Summing function): Thường dùng để tính tổng của tích các đầu vào với trọng số liên kết của nó

Hàm truyền (Transfer function) là một thành phần quan trọng trong mạng nơron, giúp giới hạn phạm vi đầu ra của từng nơron Hàm này nhận đầu vào từ kết quả của hàm tổng và ngưỡng, đảm bảo rằng đầu ra của nơron được điều chỉnh phù hợp với các giá trị mong muốn.

• Đầu ra: là tín hiệu đầu ra của một nơron, với mỗi sẽ có tối đa là nơron một đầu ra

Sơ lược về bệnh tim

Bệnh tim mạch (CVD) là kết quả của các rối loạn liên quan đến tim và mạch máu, bao gồm bệnh mạch vành, đột quỵ, tăng huyết áp, bệnh động mạch ngoại biên, bệnh thấp tim, bệnh tim bẩm sinh và suy tim Các yếu tố chính gây ra bệnh tim mạch bao gồm việc sử dụng thuốc lá, thiếu vận động, chế độ ăn uống không lành mạnh và tiêu thụ rượu-bia ở mức độ nguy hại Do đó, hầu hết các bệnh tim mạch có thể được phòng ngừa thông qua việc kiểm soát những yếu tố nguy cơ này.

Diễn biến lâm sàng bệnh tim

Một số diễn biến lâm sàng [17] về bệnh tim thường thấy ở bệnh sử của bệnh nhân là:

- Khó thở: một số biểu hiện của khó thở do tim như

• Liên quan đến gắng sức, trừ phi bệnh đã nặng, khó thở cả khi nghỉ ngơi

• Ngày càng nặng dần: thường được ước lượng bằng khoảng cách đi được

• Có thể có các dấu hiệu kèm theo như đau, hồi hộp, ho

- Cơn khó thở kịch phát về đêm (Paroxysmal nocturnal dyspnea)

• Thường xảy ra vào 2-4 giờ sau khi nằm, làm bệnh nhân thức, phải ngồi dậy hay đứng dậy

- Khó thở phải ngồi (Orthopnea)

• Khi bệnh nhân đã suy tim nặng Bệnh nhân phải chồng nhiều gối (2,3 hay 4) để ngủ trong đêm

• Thiếu máu cục bộ cơ tim do suy động mạch vành

• Bệnh lý màng ngoài tim/ bệnh động mạch chủ/ tăng áp động mạch phổi

Đau thắt ngực do thiếu máu cục bộ cơ tim thường biểu hiện bằng cảm giác nặng nề, bóp nghẹt hoặc khó chịu, kèm theo cảm giác nóng bỏng hoặc xiết chặt ở vùng trước tim hoặc sau xương ức Triệu chứng này thường kéo dài vài phút và hiếm khi vượt quá 10 phút.

• Cảm giác trên có thể lan tới cằm, 2 chi trên, ra sau lưng, tới thượng vị, nhưng không bao giờ quá rốn

• Cơn đau thường xảy ra khi gắng sức hoặc về đêm Bệnh nhân phải đứng hay nằm yên cho hết đau Có thể có kèm theo toát mồ hôi

Hiện tượng này xảy ra khi bệnh nhân nhận thức được tiếng đập của tim, có thể do cung lượng tim tăng cao, nhịp tim không đều, hoặc tim đập nhanh hơn 100 lần/phút ở người lớn, hoặc tim đập chậm dưới 60 lần/phút.

• Ghi điện tâm đồ để xác định cơ chế của hồi hộp Cần xác định nguyên nhân gây ra hồi hộp

• Hồi hộp còn do ngoại tâm thu

• Ho xảy ra khi nằm do sung huyết ở phổi (hậu quả của suy tim)

• Thường là ho khan, có thể đàm trong Có thể có kèm theo khái huyết (hemoptysis) và khó thở

Tim không duy trì được cung lượng cần thiết do một số hoạt động của cơ thể, như ngất khi gắng sức hoặc loạn nhịp tim, dẫn đến sự giảm đột ngột trong cung lượng tim.

• Các bệnh thường gây ra ngất khi gắng sức

• Nghẽn đường ra của thất trái (TD: hẹp van động mạch chủ, bệnh cơ tim phì đại)

• Nghẽn dòng chảy qua van 2 lá (TD: hẹp van 2 lá, u nhầy (myxoma) nhĩ trái)

• Tăng áp động mạch phổi nặng

Loạn nhịp tim, bao gồm nhịp nhanh thất và rung thất, cũng như loạn nhịp chậm như bloc nhĩ thất hoàn toàn, có thể dẫn đến tình trạng thiếu máu lên não, gây ngất Ngất do loạn nhịp có thể xảy ra trong cả lúc nghỉ ngơi và khi gắng sức, với cơn Adams – Stokes là một ví dụ điển hình của ngất do loạn nhịp chậm.

Chẩn đoán

Phân độ suy tim theo hội tim mạch New York (NYHA) được áp dụng rộng rãi trên toàn cầu, bao gồm cả Việt Nam Đây là một trong những tiêu chí quan trọng giúp bác sĩ chẩn đoán và điều trị bệnh suy tim hiệu quả.

Tình trạng suy tim của bệnh nhân được đánh giá qua mức độ hoạt động thể lực và các triệu chứng cơ năng, được phân loại thành 4 mức độ khác nhau.

Suy tim độ 1 được xem là giai đoạn tiềm tàng của bệnh, khi người bệnh vẫn có thể thực hiện các hoạt động thể lực và sinh hoạt hàng ngày mà không gặp phải triệu chứng khó thở, mệt mỏi hay hồi hộp Việc phát hiện suy tim ở giai đoạn này thường rất khó khăn.

Suy tim độ 2 là tình trạng suy tim nhẹ, trong đó người bệnh gặp phải một số hạn chế trong các hoạt động thể chất và sinh hoạt hàng ngày Khi nghỉ ngơi, họ không có triệu chứng nào, nhưng khi tham gia vào các hoạt động gắng sức, họ sẽ cảm thấy khó thở, mệt mỏi và có thể trải qua cảm giác đánh trống ngực.

Suy tim độ 3 là mức độ suy tim trung bình nặng, khiến bệnh nhân gặp phải nhiều hạn chế trong các hoạt động thể lực và sinh hoạt hàng ngày Mặc dù triệu chứng có thể giảm khi nghỉ ngơi, nhưng chỉ cần hoạt động nhẹ, bệnh nhân dễ bị khó thở, mệt mỏi và đánh trống ngực, dẫn đến việc phải nhập viện điều trị thường xuyên hơn Điều này khiến người bệnh rất lo lắng khi chuyển sang giai đoạn suy tim cấp độ 3.

Suy tim độ 4 là giai đoạn nặng của bệnh, khiến người bệnh không thể thực hiện bất kỳ hoạt động thể lực nào mà không cảm thấy khó chịu Sinh hoạt hàng ngày bị ảnh hưởng nghiêm trọng, và khó thở xuất hiện ngay cả khi nghỉ ngơi Trong tình trạng này, bệnh nhân chỉ có khả năng thực hiện những công việc nhẹ nhàng.

XÂY DỰNG MÔ HÌNH

Thống kê tập dữ liệu Cleveland

Tập dữ liệu Cleverland có 303 dòng dữ liệu

Số lượng dữ liệu bị rỗng trong từng đặc trưng

Hình 3.1 Thống kê lượng dữ liệu rỗng trong tập Cleveland

Ma trận tương quan với bản đồ nhiệt

Sự tương quan cho biết các đặc trưng có liên quan như thế nào với nhau và với kết quả của nhãn phân loại

Trong phân tích số liệu và thống kê học, phân tích tương quan là phương pháp đo lường mối liên hệ giữa hai hoặc nhiều biến Trong nghiên cứu khoa học, việc hiểu mối quan hệ giữa các biến giúp chúng ta tính toán và dự đoán sự thay đổi của một biến dựa trên thông tin từ các biến liên quan.

Mối tương quan giữa các đối tượng có thể được phân loại thành hai loại: tích cực, khi việc tăng giá trị của một đối tượng dẫn đến sự gia tăng giá trị của biến mục tiêu, và tiêu cực, khi việc tăng giá trị của đối tượng lại làm giảm giá trị của biến mục tiêu.

Bản đồ nhiệt là công cụ hữu ích để phân loại các đối tượng liên quan đến biến mục tiêu Chúng ta có thể kết hợp bản đồ nhiệt với biểu đồ tương quan bằng cách sử dụng thư viện seaborn trong Python.

Hình 3.2 Ma trận tương quan với bản đồ nhiệt của dữ liệu Cleverland

Thống kê các thuộc tính mang tính phân loại

Theo bộ dữ liệu Cleveland này, nam giới dễ mắc Bệnh tim hơn nữ giới

Hình 3.3 Thống kê số lượng mắc bệnh theo giới tính của dữ liệu Cleverland

Hầu hết các bệnh nhân Bệnh tim đều bị đau ngực không có triệu chứng (Giá trị 4)

Hình 3.4 Thống kê số lượng mắc bệnh theo loại cơn đau của dữ liệu Cleverland

Phần lớn các bệnh nhân tập thể dục bị đau thắt ngực thường mắc bệnh tim

Hình 3.5 Thống kê số lượng mắc bệnh theo triệu chứng đau thắt ngực khi tập thể dục của dữ liệu Cleverland

Hình 3.6 Thống kê số lượng mắc bệnh theo độ dóc ST segment khi tập thể dục của dữ liệu Cleverland

Bệnh tim rất phổ biến ở người từ 55 tuổi trở lên và cũng thường gặp ở nhóm tuổi từ 41 đến 55, trong khi đó, tỷ lệ mắc bệnh này lại hiếm gặp ở những người trong độ tuổi từ 19 trở xuống.

40 và rất hiếm ở nhóm tuổi từ 0 đến 18 tuổi

Hình 3.7 Sự phân bố số người mắc bệnh theo độ tuổi dữ liệu Cleverland

Hình 3.8 Sự phân bố số người mắc bệnh theo nồng độ cholesterol dữ liệu

Thống kê tập dữ liệu Hungarian

Tập dữ liệu Hungarian có 294 dòng dữ liệu

Số lượng dữ liệu bị rỗng trong từng đặc trưng

Hình 3.9 Thống kê lượng dữ liệu rỗng trong tập Hungarian

Hình 3.10 Ma trận tương quan với bản đồ nhiệt dữ liệu Hungarian

Thống kê các thuộc tính mang tính phân loại

Theo bộ dữ liệu Hungarian này, nam giới dễ mắc Bệnh tim hơn nữ giới

Hình 3.11 Thống kê số lượng mắc bệnh theo giới tính của dữ liệu Hungarian

Hầu hết các bệnh nhân Bệnh tim đều bị đau ngực không có triệu chứng (Giá trị 4)

Hình 3.12 Thống kê số lượng mắc bệnh theo loại cơn đau của dữ liệu Hungarian

Phần lớn các bệnh nhân tập thể dục bị đau thắt ngực thường mắc bệnh tim

Hình 3.13 Thống kê số lượng mắc bệnh theo triệu chứng đau thắt ngực khi tập thể dục của dữ liệu Hungarian

Hình 3.14 Thống kê số lượng mắc bệnh theo độ dóc ST segment khi tập thể dục của dữ liệu Hungarian

Bệnh tim chủ yếu xuất hiện ở người lớn từ 40 tuổi trở lên, trong khi tỷ lệ mắc bệnh ở nhóm tuổi 30 - 40 rất hiếm, và không có trường hợp nào dưới 30 tuổi bị bệnh này.

Hình 3.15 Sự phân bố số người mắc bệnh theo độ tuổi của dữ liệu Hungarian

Hình 3.16 Sự phân bố số người mắc bệnh theo nồng độ cholesterol của dữ liệu

Mô hình được đề xuất là sự kết hợp giữa SVM và Random Subspace, sử dụng 151 bộ phân lớp cơ sở với hàm nhân RBF Để đảm bảo hiệu suất tối ưu, mô hình sẽ được kiểm tra trên tập dữ liệu có tỷ lệ nhiễu thấp SVM có nhiều biến thể và tham số có thể điều chỉnh, cùng với các phương pháp học kết hợp dựa trên số lượng bộ phân lớp cơ sở Việc thay đổi hàm nhân và kết hợp với Random Subspace sẽ tạo ra một mô hình phân lớp hiệu quả thông qua phương pháp bỏ phiếu số đông Các siêu tham số có thể được tìm thấy trong bảng sau khi cài đặt thư viện sklearn.

Bảng 3.2 Các siêu tham số

Siêu tham số n_estimator xác định số lượng bộ phân lớp cơ sở khi áp dụng phương pháp Random Subspace, trong khi max_features quy định số lượng tối đa các đặc trưng được sao chép để tạo ra tập huấn luyện.

Mỗi bộ phân lớp cơ sở của Random Subspace trong kernel SVM bao gồm các loại như linear, poly, rbf, sigmoid và precomputed, với hệ số gamma được tính bằng 1/(số lượng đặc trưng) hoặc 1/(số lượng đặc trưng * phương sai của tập huấn luyện X) Khi tìm kiếm các siêu tham số của mô hình, cần thực hiện kiểm chứng chéo 10-fold để giảm thiểu tình trạng overfitting Ngoài ra, việc tiền xử lý dữ liệu đầu vào là rất quan trọng để đảm bảo mô hình hoạt động với hiệu suất cao.

Tiền xử lý

Tiền xử lý dữ liệu là công đoạn thiết yếu nhằm nâng cao hiệu quả của hệ thống phân lớp trong huấn luyện và kiểm tra Các kỹ thuật như loại bỏ dữ liệu thiếu, gán giá trị trung bình cho dữ liệu thiếu, và chuẩn hóa dữ liệu bằng standard scaler sẽ được áp dụng để tối ưu hóa bộ dữ liệu ban đầu Chuẩn hóa bằng standard scaler giúp các đặc trưng có giá trị trung bình là 0 và độ lệch chuẩn là 1, đảm bảo tất cả thuộc tính có cùng hệ số Các giá trị thiếu sẽ được loại bỏ hoặc thay thế bằng giá trị trung bình của thuộc tính Những kỹ thuật tiền xử lý này sẽ được sử dụng trong thực nghiệm của luận văn.

Lựa chọn đặc trưng

Lựa chọn đặc trưng (Feature Selection) là một bước quan trọng trong quá trình máy học, vì các đặc trưng không liên quan có thể làm giảm hiệu suất phân lớp của hệ thống Việc lựa chọn đúng đặc trưng giúp cải thiện độ chính xác phân lớp và giảm thời gian thực thi mô hình Trong nghiên cứu này, 13 đặc trưng sẽ được sử dụng trong bộ phân lớp, như đã nêu trong bài báo [10].

Xây dựng các mô hình phân lớp

Các thuật toán máy học như Cây quyết định, SVM, KNN, Bagging, Random Subspace, RF và GPC sẽ được áp dụng để xây dựng các hệ phân lớp Đồng thời, các phương pháp và thuật toán máy học cũng sẽ được kết hợp nhằm tìm ra hiệu quả tối ưu của các mô hình.

Phương pháp kiểm tra mô hình

Phương pháp kiểm chứng chéo (K-Fold Cross-Validation - CV) là phương pháp chủ yếu được sử dụng để kiểm tra mô hình dựa trên tiêu chí độ chính xác

Kiểm chứng chéo (K-Fold Cross-Validation) là phương pháp hiệu quả nhằm ngăn chặn sự trùng lặp giữa các tập kiểm thử, đảm bảo rằng các ví dụ không xuất hiện trong nhiều tập khác nhau.

• Tập toàn bộ các ví dụ D được chia thành K tập con không giao nhau (gọi là “fold”) có kích thước xấp xỉ nhau

• Mỗi lần (trong số K lần) lặp, một tập con được sử dụng làm tập kiểm thử, và (K-1) tập con còn lại được dùng để làm tập huấn luyện

• K giá trị lỗi (mỗi giá trị tương ứng với một fold) được tính trung bình cộng để thu được giá trị lỗi tổng thể

Các lựa chọn thông thường của K là 10, hoặc 5

Thông thường, mỗi tập con (fold) được lấy xấp xỉ phân tầng (xấp xỉ phân bố lớp) trước khi áp dụng quá trình kiểm chứng chéo

Phương pháp này phù hợp khi ta có tập ví dụ D vừa và nhỏ.

Lựa chọn tham số

Nhiều phương pháp học máy yêu cầu người dùng cung cấp giá trị cho các siêu tham số (hyperparameters) Để tìm ra giá trị tối ưu cho các tham số này, chúng ta sử dụng quy trình lựa chọn mô hình (model selection).

Model selection: từ một tập học D, cần lựa chọn bộ tham số trong phương pháp học A sao cho hệ thống được huấn luyện tốt nhất từ D

Tập tối ưu (validation set) được sử dụng để điều chỉnh các tham số trong thuật toán học máy, thường được lấy từ tập dữ liệu D Giá trị tối ưu của một tham số là giá trị mang lại hiệu suất cao nhất cho tập tối ưu.

Lựa chọn tham số bằng cách sử dụng K-fold Cross-Validation được tiến hành như sau:

- Cho trước tập quan sát D, ta lựa chọn tham số λ cho phương pháp học A như sau:

• Chọn tập hữu hạn S mà chứa các giá trị tiềm năng cho λ.

• Chọn độ đo P để đánh giá hiệu năng.

• Chia D thành K tập con không giao nhau, có kích thước xấp xỉ nhau: (K-1) Dtrain và 1Tvalidation Trong thực nghiệm của luận văn sẽ chọn K.

• Với mỗi giá trị λ  S: Học A từ tập học Dtrain trong lần lập Kvới tham số đầu vào λ Đo hiệu năng trên tập Tvalidation => thu được Pλ.

- Có thể học lại A từ D với tham số λ * để hệ thống thu được kết quả tốt nhất.

Đánh giá và lựa chọn mô hình

Cho trước tập quan sát D, ta cần lựa chọn tham số λ (model selection) cho phương pháp học A và đánh giá chất lượng tổng thể của A

- Chọn tập hữu hạn S mà chứa các giá trị tiềm năng cho λ.

- Chọn độ đo P để đánh giá hiệu năng

- Chia tập D thành 3 tập rời nhau: Dtrain, Tvalidation và Ttest.

- Sử dụng phương pháp lựa chọn tham số K-Fold Cross-Validation với K để chọn ra λ * mà có Pλ tốt nhất từ tập Dtrain, Tvalidation.

- Huấn luyện A trên tập Dtrain hợp vớiTvalidation với tham số λ *

- Đo hiệu năng của hệ thống trên tập Ttest

Xem thêm chi tiết tài liệu tham khảo “Đánh giá kết quả phân tích” [7]

Tiêu chí đánh giá hiệu năng hệ thống

Để đánh giá hiệu năng của hệ thống, luận văn sử dụng tỉ lệ phân lớp lỗi nhằm xác định tỉ lệ lỗi khi dự đoán của hệ thống đã được huấn luyện trên các ví dụ kiểm chứng Ma trận nhầm lẫn được áp dụng để xác định các giá trị cần thiết cho việc đánh giá hiệu quả của hệ thống.

Ma trận nhầm lẫn, hay còn gọi là bảng phân loại (Contingency Table), là công cụ quan trọng trong bài toán phân lớp Ma trận này có kích thước 2x2 và bao gồm các giá trị TP (True Positive), FP (False Positive), TN (True Negative) và FN (False Negative).

Bảng 3.3 Ma trận nhầm lẫn

Lớp C Được phân loại bởi hệ thống

Các giá trị trong ma trận nhầm lẫn cụ thể được mô tả như sau:

• TP (true positive): Số lượng dữ liệu thuộc lớp C được phân loại chính xác vào lớp C

• FP (false positive): Số lượng dữ liệu bên ngoài bị phân loại nhầm vào lớp

• TN (true negative): Số lượng dữ liệu không thuộc lớp C được phân loại (chính xác)

• FN: (false negative): Số lượng dữ liệu thuộc lớp C bị phân loại nhầm (vào các lớp C khác).

Từ ma trận nhầm lẫn, ta có các tiêu chí để đánh giá mô hình máy học như:

• Độ chính xác phân lớp: độ chính xác thể hiện tổng hiệu suất của hệ phân lớp như sau: accuracy = TP+TN

• Tỉ lệ phân lớp lỗi: là tổng phân lớp lỗi của mô hình phân lớp được tính theo công thức: error = FP+FN

Các công cụ và thư viện hỗ trợ

Python

Python là ngôn ngữ lập trình thông dịch, hướng đối tượng và bậc cao, hỗ trợ module và gói, khuyến khích tái sử dụng mã Trình thông dịch Python cùng với thư viện chuẩn có sẵn miễn phí dưới dạng mã nguồn hoặc nhị phân cho tất cả các nền tảng chính.

Một số đặc điểm của Python:

• Cú pháp đơn giản, dễ học

• Vừa hướng thủ tục, vừa hướng đối tượng

• Hỗ trợ module và hỗ trợ gói

• Kiểu dữ liệu động ở mức cao

• Có các bộ thư viện chuẩn và các module ngoài, đáp ứng tất cả các nhu cầu lập trình

• Có khả năng tương tác với các module khác được viết trên ngôn ngữ khác như C/C++, Java

• Có thể nhúng vào ứng dụng như một giao tiếp kịch bản (scripting interface)

Python là một ngôn ngữ lập trình đa nền tảng, có khả năng hoạt động trên nhiều hệ điều hành khác nhau Đặc biệt, Python là mã nguồn mở với một cộng đồng lập trình viên đông đảo, cung cấp nhiều thư viện chuẩn cũng như các thư viện mã nguồn được chia sẻ rộng rãi trên internet.

Hiện tại các thí nghiệm trong luận văn đều sử dụng Python phiên bản 3.7 để cài đặt.

Thư viện Scikit-learn

Hiện nay, có nhiều thư viện mã nguồn mở hỗ trợ nghiên cứu máy học, trong đó scikit-learn nổi bật nhờ khả năng cung cấp các thuật toán quan trọng một cách đơn giản và hiệu quả.

Scikit-learn là một trong những lựa chọn hàng đầu cho các nhà nghiên cứu và nhà phát triển, được hỗ trợ bởi các viện nghiên cứu hàng đầu thế giới như Inria, Télécom Paristech, Paris Saclay (Pháp), NYU Moore-Sloan Data Science Environment và Columbia University.

Hình 3.17 Các thuật toán trong Scikit-learn

Scikit-learn (hay còn gọi là sklearn) là một thư viện mã nguồn mở mạnh mẽ trong lĩnh vực máy học, rất phổ biến trong cộng đồng Python Thư viện này bao gồm hầu hết các thuật toán máy học hiện đại và đi kèm với tài liệu chi tiết cho từng thuật toán Sự phổ biến của Scikit-learn trong các học viện và ngành công nghiệp đã thúc đẩy việc nâng cấp liên tục và tạo ra một cộng đồng phát triển rất tích cực.

THỰC NGHIỆM VÀ ĐÁNH GIÁ MÔ HÌNH

Bộ dữ liệu Cleveland

- Phạm vi: số lượng mẫu cố định 303

- Nguồn: https://archive.ics.uci.edu/ml/machine-learning-databases/heart- disease/

Bộ dữ liệu Hungarian

- Phạm vi: số lượng mẫu cố định 294

- Nguồn: https://archive.ics.uci.edu/ml/machine-learning-databases/heart- disease/

Phương pháp thực hiện và đánh giá

Phương pháp nghiên cứu bao gồm việc thực hiện thí nghiệm và so sánh giữa các hệ phân lớp độc lập và hệ đa phân lớp để đánh giá hiệu suất của mô hình Tập dữ liệu Cleveland sẽ được sử dụng để thực nghiệm và so sánh hiệu suất theo tác giả [10], trong khi tập dữ liệu Hungarian sẽ được áp dụng để đối chiếu các kết quả của mô hình.

Tiến hành tìm kiếm vét cạn trên bộ dữ liệu đầu vào nhằm xác định bộ tham số tối ưu cho từng thuật toán Mỗi lần lựa chọn tham số, hệ phân lớp sẽ được kiểm chứng chéo với phương pháp 10-fold để đánh giá hiệu quả của mô hình.

Thí nghiệm và đánh giá hiệu năng bao gồm các công đoạn:

Chia bộ dữ liệu thành hai phần: 80% cho tập huấn luyện và 20% cho tập kiểm tra, đảm bảo rằng tỷ lệ các nhãn trong cả hai tập này đều được cân bằng và ổn định.

• Tiền xử lý dữ liệu để xử lý các đối tượng gây nhiễu và chuẩn hóa dữ liệu bằng Standard scaler

• Lựa chọn các đặc trưng thích hợp và biến đổi các đặc trưng

• Sử dụng bộ tham số tối ưu đã tìm được, tiến hành xây dựng và huấn luyện mô hình với 80% dữ liệu từ tập huấn luyện

• Tiến hành dự đoán 10 lần trên tập kiểm tra

• Sử dụng chỉ số tỉ lệ lỗi phân lớp, lấy trung bình cộng sau 10 lần dự đoán để đánh giá hiệu suất của hệ thống

Hình 4.1 Quy trình thí nghiệm với bộ dữ liệu của UCI

Hệ phân lớp được sử dụng

Bảng 4.1 Các phương pháp phân lớp trong thí nghiệm

Tên phương pháp máy học Diễn giải

SA Phân lớp độc lập trên cây quyết định

BAG Phân lớp kết hợp sử dụng Bagging

RS Phân lớp kết hợp sử dụng Random Subspace

RS-X Phân lớp kết hợp sử dụng Random Subspace của X phương pháp SVM Phân lớp Máy vector hỗ trợ độc lập

GPC Phân lớp Quy trình phân lớp Gaussian độc lập

KNN Phân lớp K láng giềng gần nhất độc lập

ANN Mạng nơron nhân tạo

Sa Hệ phân lớp độc lập

Thử nghiệm các phương pháp trên cơ sở dữ liệu của Cleveland

Bảng 4.2 Thống kê các tỉ lệ lỗi của các phương pháp

Phương pháp Tỉ lệ lỗi phân lớp (%)

Bảng 4.3 Kết quả tỉ lệ phân lớp lỗi của các phương pháp tốt nhất thu được từ thực nghiệm đối sánh với bảng 2 của tác giả [10]

Phương pháp Kết quả tác giả Kết quả thực nghiệm

Phân tích và đối sánh kết quả từ thí nghiệm thu được với các phần cài đặt tác giả [10] ta thấy:

Phương pháp SVM kết hợp với Random Subspace đã thể hiện hiệu suất vượt trội với tỷ lệ lỗi thấp hơn so với các phương pháp khác Thuật toán này được đề xuất bởi tác giả [10], nhưng hiệu suất của nó đã được tối ưu hóa rõ rệt so với cách tiếp cận ban đầu mà tác giả [10] sử dụng.

Việc tiền xử lý dữ liệu và điều chỉnh bộ tham số SVM với hàm nhân RBF mang lại kết quả tốt hơn cho thuật toán đề xuất, cho thấy khả năng phân lớp vượt trội hơn 3.76% so với GPC + Random Subspace.

- Bên cạnh đó mô hình phân lớp độc lập SVM cũng cho hiệu suất rất tốt trong việc phân lớp

Thử nghiệm các phương pháp trên trên cơ sở dữ liệu của Hungarian

Hình 4.3 Kết quả tỉ lệ phân lớp lỗi trên tập dữ liệu Hungarian

Bảng 4.4 Kết quả tỉ lệ phân lớp lỗi trên tập dữ liệu Hungarian của các phương pháp

Phương pháp Tỉ lệ lỗi phân lớp (%)

Phân tích các kết quả thu được từ thí nghiệm với bộ dữ liệu Hungarian:

Kết quả cho thấy phương pháp GPC và phiên bản kết hợp GPC với Bagging đạt hiệu quả tương đương nhau, đồng thời vượt trội hơn so với các phương pháp khác.

Các phương pháp khác không đạt được hiệu quả nổi bật và tối ưu như kết quả từ thí nghiệm 1, chủ yếu là do đặc điểm của tập dữ liệu Hungarian, trong đó tỷ lệ nhiễu tương đối cao.

- Cây quyết định cho hiệu quả thấp nhất nhưng khi kết hợp với các phương pháp kết hợp thì hiệu suất tăng lên đáng kể như Random Subspace

Phương pháp SVM kết hợp với Random Subspace trên bộ dữ liệu nhiễu cao cho thấy tỷ lệ phân lớp lỗi tương đối cao, điều này phản ánh những hạn chế của các phương pháp đã được áp dụng.

THỰC HIỆN ỨNG DỤNG MINH HỌA

Cài đặt Anaconda trên hệ điều hành Ubuntu

Đăng nhập vào máy chủ Ubuntu 18.04 với tài khoản người dùng không phải root có quyền sudo, sau đó di chuyển đến thư mục /tmp và sử dụng lệnh curl để tải gói cài đặt Anaconda từ trang web chính thức.

$ curl -O https://repo.anaconda.com/archive/Anaconda3-2019.03-Linux- x86_64.sh

Sau khi hoàn tất tải gói cài đặt, bạn có thể xác minh tính toàn vẹn của dữ liệu bằng cách kiểm tra mã băm SHA-256.

$ sha256sum Anaconda3-2019.03-Linux-x86_64.sh

45c851b7497cc14d5ca060064394569f724b67d9b5f98a926ed49b834a6bb73a Anaconda3-2019.03-Linux-x86_64.sh

Sau khi kiểm tra tính toàn vẹn dữ liệu, chúng ta bắt đầu chạy mã cài đặt anaconda

Chúng ta sẽ những được xem những thỏa thuận cấp phép bằng cách nhấn ENTER đến cuối trang

In order to continue the installation process, please review the license agreement Please, press ENTER to continue

Do you approve the license terms? [yes|no]

Khi đến cuối trang, hãy nhập yes nếu bạn đồng ý với giấy phép để hoàn tất cài đặt

Tiếp đến chúng ta chọn vị trí cài đặt Anaconda

Anaconda3 will now be installed into this location:

- Press ENTER to confirm the location

- Press CTRL-C to abort the installation

- Or specify a different location below

Sau khi cài đặt xong chúng ta sẽ nhận được thông báo như sau:

Do you wish the installer to prepend the Anaconda3 install location to PATH in your /home/sammy/.bashrc ? [yes|no]

Cài đặt môi trường Anaconda của ứng dụng

Sao chép thư mục chứa mã nguồn backend của ứng dụng lên máy chủ Ubuntu

Trong thư mục ứng dụng, có một tệp quan trọng được cấu hình sẵn mang tên environment.yml, đây là tệp cấu hình môi trường cần thiết cho ứng dụng.

Hình 5.2 Tập tin cấu hình môi trường trên Anaconda

Tạo môi trường heartml-env từ yêu cầu ứng dụng

$ conda env create -n heartml-env file environment.yml

Khởi chạy ứng dụng backend trên server

Sau khi cài đặt môi trường conda cần thiết cho ứng dụng, chúng ta bắt đầu khởi chạy main.py

Trước tiên chúng ta cần kích hoạt môi trường heartml-env đã được tạo bên trên

Sau đó chúng ta có thể khởi chạy ứng dụng bằng lệnh:

Sau khi ứng dụng được khởi chạy thành công, bạn có thể kiểm tra hoạt động của API bằng cách sử dụng đoạn mã JavaScript sau: fetch('http://:/api', { method: 'POST', body: JSON.stringify({ sex: 1, age: 60, cp: 2, trestbps: 160, chol: 207, fbs: 1, restecg: 1, thalach: 158, exang: 1, oldpeak: 1.4, slope: 1, ca: 1, thal: 6 }) });

then(async (res) => { const kq = await res.text(); console.log(kq);

catch((err) => { console.log(err);

Ứng dụng chẩn đoán bệnh tim được phát triển bằng React Native, một framework mã nguồn mở do Facebook phát triển, cho phép xây dựng ứng dụng di động trên cả iOS và Android, sử dụng kỹ thuật máy học để cải thiện độ chính xác trong việc phát hiện bệnh.

Ứng dụng hiện đã được phát triển trên nền tảng Android và iOS, sử dụng API từ máy chủ mà nhóm đã thiết lập để trình diễn Các nhóm phát triển sau có thể tái sử dụng và đóng gói lại ứng dụng dựa trên mã nguồn mà nhóm thực hiện đồ án đã cung cấp.

Ứng dụng minh họa của chúng tôi yêu cầu người dùng cung cấp thông tin như tuổi tác, giới tính, triệu chứng và kết quả xét nghiệm Các dữ liệu này sẽ được gửi về máy chủ nhằm dự đoán nguy cơ tiềm ẩn về bệnh tim của người dùng.

Giao diện cơ bản của ứng dụng Ứng dụng gồm 13 màn hình nhập thông tin tương ứng với số lượng đặc trưng cần để thực hiện chẩn đoán bệnh

Hình 5.3 Màn hình nhập thông tin giới tính người dùng

Hình 5.4 Màn hình nhập thông tin tuổi của người dùng

Hình 5.5 Màn hình nhập thông tin cơn đau ngực

Hình 5.6 Màn hình nhập thông tin huyết áp

Hình 5.7 Màn hình nhập thông tin cholesterol

Hình 5.8 Màn hình nhập thông tin đường huyết

Hình 5.9 Màn hình nhập thông tin kết quả điện tâm đồ

Hình 5.10 Màn hình nhập thông tin nhịp tim

Hình 5.11 Màn hình nhập thông tin cơn đau thắt ngực do vận động

Hình 5.12 Màn hình nhập thông tin giá trị ST depression do tập thể dục so với lúc nghỉ ngơi

Hình 5.13 trình bày màn hình nhập thông tin về độ dốc của đoạn ST trong quá trình tập thể dục, trong khi Hình 5.14 hiển thị màn hình nhập thông tin về số lượng ống chứa được tô màu trong quá trình thực hiện nội soi huỳnh quang.

Hình 5.15 Màn hình nhập thông tin trạng thái tim

Hình 5.16 Màn hình nhận kết quả chẩn đoán bệnh.

Định dạng
Số trang	81
Dung lượng	1,85 MB