Xây dựng mô hình dự đoán nguy cơ đau tim

Khai thác dữ liệu để xây dựng mô hình dự đoán nguy cơ đau tim sử dụng các thuật toán phân lớp, phân cụm và luật kết hợp, kết hợp với công nghệ nhận diện hình ảnh. Mô hình này giúp đánh giá và dự đoán nguy cơ đau tim của cá nhân, cung cấp thông tin quan trọng để đưa ra các biện pháp phòng tránh và chăm sóc sức khỏe phù hợp.

Trang 1

Giảng viên hướng dẫn: Bùi Thị Hồng Nhung

Nhóm thực hiện: Nhóm 09 Thành viên nhóm:

Nguyễn Thị Nguyệt Hà 23A4040031

Trang 2

BẢNG MỨC ĐỘ ĐÓNG GÓP CỦA CÁC THÀNH VIÊN

Họ và tên Mã sinh viên Phân chia công việc % đóng góp

Nguyễn Thị Nguyệt Hà 23A4040031 - Thuật toán phân cụm

- Trực quan hóa dữ liệu

Trang 3

NHẬN XÉT CỦA GIẢNG VIÊN

Trang 4

LỜI CAM ĐOAN

Nhóm em xin cam đoan bài nghiên cứu được thực hiện là do chính nhóm tự nghiên cứu, tìm hiểu và xây dựng dưới sự dẫn dắt trực tiếp từ cô Bùi Thị Hồng Nhung Trong quá trình nghiên cứu nhóm có tham khảo một số tài liệu, đã được liệt kê rõ ràng nguồn

và trích dẫn trong phần tài liệu tham khảo Nhóm em xin chịu trách nhiệm và mọi hình thức kỷ luật nếu có điều gì không đúng sự thật

Nhóm 9

Trang 5

LỜI CẢM ƠN

Trong quá trình học tập và tìm hiểu môn Khai phá dữ liệu, nhóm chúng em đã được tiếp nhận với nhiều kiến thức mới, học được nhiều điều và có thể áp dụng và hoàn thiện bài nghiên cứu của mình Chúng em xin gửi lời cảm ơn tới cô Bùi Thị Hồng Nhung – Giảng viên khoa Hệ thống thông tin Quản lý – Học viện ngân hàng đã trực tiếp giảng dạy, hướng dẫn tận tình chúng em bộ môn này Cô luôn sẵn sàng giải đáp những thắc mắc của nhóm trong suốt quá trình nghiên cứu bài tập lớn, một lời nữa chúng em xin cảm ơn cô

Do kinh nghiệm thực tế còn hạn chế nên một số nội dung trong bài báo cáo sẽ không tránh khỏi những thiếu sót Vì vậy, chúng em rất mong được có thể nhận được những nhận xét và ý kiến đóng góp của thầy cô, để bài báo cáo cuối kì của nhóm có thể hoàn thiện hơn Chúng em xin chân thành cảm ơn

Trang 6

MỤC LỤC

LỜI CAM ĐOAN iii

LỜI CẢM ƠN iv

DANH MỤC HÌNH ẢNH vii

DANH MỤC BẢNG BIỂU x

MỞ ĐẦU 1

CHƯƠNG 1: PHÁT BIỂU BÀI TOÁN 2

1.1 Đặt vấn đề 2

1.2 Tính cấp thiết của đề tài 3

1.3 Một số kết quả nghiên cứu 3

1.4 Đối tượng và phương pháp nghiên cứu 4

1.5 Ý nghĩa đề tài 4

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 6

2.1 Tổng quan về kỹ thuật khai phá dữ liệu 6

2.1.1 Khái niệm khai phá dữ liệu 6

2.1.2 Các giai đoạn khai phá dữ liệu 6

2.2 Bài toán phân lớp trong khai phá dữ liệu 7

2.2.1 Khái niệm phân lớp 7

2.2.2 Quá trình phân lớp dữ liệu 8

2.2.3 Một số thuật toán phân lớp 8

2.3 Bài toán phân cụm trong khai phá dữ liệu 12

2.3.1 Khái niệm về phân cụm 12

2.3 Một số thuật toán phân cụm 13

2.4 Bài toán luật kết hợp trong khai phá dữ liệu 16

2.4.1 Khái niệm về luật kết hợp 16

2.4.2 Quá trình luật kết hợp dữ liệu 18

2.4.3 Một số thuật toán luật kết hợp 18

2.5 Bài toán nhận diện hình ảnh 21

2.5.1 Khái niệm về nhận diện hình ảnh 21

2.5.2 Giới thiệu tổng quan thuật toán sử dụng 21

Trang 7

CHƯƠNG 3: XÂY DỰNG MÔ HÌNH DỰ BÁO 24

3.1 Cơ sở dữ liệu xây dựng mô hình 24

3.1.1 Giới thiệu về dữ liệu 24

3.1.2 Tiền xử lý dữ liệu 27

3.1.3 Trực quan hoá dữ liệu 34

3.2 Xây dựng mô hình 42

3.2.1 Xây dựng mô hình theo thuật toán phân lớp 42

3.2.1.1 Cây quyết định 42

3.2.1.2 Hồi quy Logistic 45

3.2.1.3 Rừng ngẫu nhiên (Random Forest) 49

3.2.2 Xây dựng mô hình theo thuật toán phân cụm 54

3.2.3 Xây dựng mô hình theo thuật toán luật kết hợp 61

3.2.4 Xây dựng mô hình nhận diện hình ảnh 69

CHƯƠNG 4: ĐÁNH GIÁ KẾT QUẢ VÀ ĐỀ XUẤT 80

4.1 Kết quả đạt được 80

4.2 Hạn chế của đề tài 80

4.3 Hướng phát triển của đề tài 80

TÀI LIỆU THAM KHẢO 81

Trang 8

DANH MỤC HÌNH ẢNH

Hình 1 Những nguyên nhân hàng đầu gây tử vong theo WHO (2000-2019) 2

Hình 2 Hình ảnh mô tả hàm hồi quy tuyến tính và hồi quy Logistic 10

Hình 3 Hình ảnh mô tả mô hình Rừng ngẫu nhiên 11

Hình 4 Sơ đồ thuật toán 23

Hình 5 Mô tả bộ dữ liệu 24

Hình 6 Khai báo thư viện 27

Hình 7 Tải lên dữ liệu 27

Hình 8 Đọc dữ liệu 28

Hình 9 In ra 10 dòng dữ liệu đầu tiên 28

Hình 10 Tách cột Blood Pressure thành 2 cột Systolic và Diastolic 29

Hình 11 Loại bỏ cột Patient ID 29

Hình 12 thông tin kiểu dữ liệu 30

Hình 13 In ra thông tin thống kê đối với các dữ liệu định lượng 31

Hình 14 Kiểm tra giá trị khuyết thiếu 31

Hình 15 Tạo Dataframe mới 32

Hình 16 Tạo ma trận tương quan 32

Hình 17 Biểu đồ Heatmap 33

Hình 18 Xử lý giá trị ngoại lai 34

Hình 19 Xử lý giá trị ngoại lai 34

Hình 20 Phân tích dữ liệu với các biến số 37

Hình 21 Nguy cơ đau tim theo nhóm hoạt động thể chất 40

Hình 22 Nguy cơ đau tim theo nhóm tuổi 41

Hình 23 Số lượng người tham gia khảo sát theo Châu lục và các quốc gia trên thế giới 41

Hình 26 Xác định thuộc tính mô tả và dự đoán 43

Hình 27 Chia bộ dữ liệu thành 2 tập dữ liệu train test 44

Hình 28 Khai báo mô hình cây quyết định 44

Trang 9

Hình 29 Thực thi và kiểm thử mô hình 45

Hình 30 Ma trận nhầm lẫn 45

Hình 31 Độ chính xác của mô hình 45

Hình 35 Chia bộ dữ liệu train test 48

Hình 36 Khai báo và thực thi mô hình 48

Hình 37 Kiểm thử và đánh giá mô hình 49

Hình 41 Chia bộ dữ liệu thành 2 tập train test 51

Hình 42 Tạo cây quyết định, chọn mô hình tốt nhất và đánh giá 52

Hình 43 Kết quả đánh giá 52

Hình 44 Một số kết quả khác 53

Hình 45 Biến đổi dữ liệu để phân cụm 54

Hình 46 Chia thuộc tính ‘Exercise Hours Per Week’ thành 3 nhóm 55

Hình 47 Chia thuộc tính ‘Income’ thành 3 nhóm 55

Hình 48 Thay đổi thuộc tính ‘Blood Pressure’ 55

Hình 49 Chia bộ dữ liệu train test để huấn luyện 56

Hình 50 Chọn ra 25 thuộc tính quan trọng nhất bằng 2 phương pháp Prison và Anova 57

Hình 51 Kết quả phân cụm 58

Hình 52 Biểu đồ thể hiện mối quan hệ giữa các cụm 59

Hình 53 Phân cụm theo DBSCAN 60

Hình 54 Cài đặt thư viện Apriori 61

Hình 55 Tạo ra một dataframe mới 61

Hình 56 Bộ dữ liệu mới 65

Hình 57 Nhóm dữ liệu liên quan thành một cột mới 65

Trang 10

Hình 58 Xây dựng thuộc tính kết hợp 66

Hình 59 Drive lưu trữ dữ liệu hình ảnh 70

Hình 60 Tập ảnh Người bình thường (Normal) 71

Hình 61 Tập ảnh người có nguy cơ bị đau tim (Attack) 71

Hình 62 Sao chép đường dẫn đến tập dữ liệu 74

Hình 63 Tiền xử lý dữ liệu với ImageDataGenerator 75

Hình 64 Đọc dữ liệu Train và Validation 75

Hình 65 Xây dựng mô hình 76

Hình 66 Thiết lập tham số huấn luyện mô hình 76

Hình 67 Huấn luyện mô hình (1) 77

Hình 68 Huấn luyện mô hình (2) 77

Hình 69 Sử dụng mô hình 78

Hình 70 Kết quả sau khi sử dụng mô hình 79

Trang 11

DANH MỤC BẢNG BIỂU

Bảng 1 So sánh 3 thuật toán phân cụm 16

Bảng 2 Mô tả các thuộc tính của bảng 27

Bảng 3 Bảng mô hình cho thuật toán phân lớp 54

Bảng 4 Tham số để thực hiện Luật kết hợp 67

Bảng 5 Hiển thị từng luật kết hợp với độ hỗ trợ, độ tin cậy và lift rõ ràng 69

Trang 12

MỞ ĐẦU

Theo các chuyên gia của Viện Tim mạch Quốc gia, bệnh tim mạch đã trở thành nguyên nhân hàng đầu gây tử vong trên toàn thế giới, mỗi năm cướp đi 19,5 triệu sinh mạng (theo báo cáo về gánh nặng bệnh tật toàn cầu năm 2022), chiếm khoảng 1/3 tử vong do mọi nguyên nhân

Một thực tế đáng lo ngại nữa là, tỷ lệ mắc và tử vong do bệnh tim mạch gia tăng nhanh chóng ở các nước có thu nhập thấp và trung bình thấp (chiếm 75% tổng số tử vong), trong đó có các quốc gia khu vực Đông Nam Á (ASEAN) và Việt Nam

Do đó, phát hiện sớm để giảm thiểu các bệnh về tim mạch, đồng thời tăng tiếp cận các liệu pháp điều trị phù hợp, tiên tiến là một giải pháp rất quan trọng Với mục đích giúp phát hiện sớm để cải thiện kết quả và sự sống còn của bệnh nhân không may mắc

bệnh tim mạch, Nhóm 9 đã lựa chọn đề tài: “Ứng dụng AI và các thuật toán xây

dựng mô hình dự đoán nguy cơ đau tim”

Bài báo cáo được xây dựng gồm: lời mở đầu, kết luận và 4 chương nội dung:

Chương 1: Phát biểu bài toán

Chương 2: Cơ sở lý thuyết

Chương 3: Xây dựng mô hình dự báo

Chương 4: Đánh giá kết quả và đề xuất

Nội dung bài sẽ không tránh khỏi thiếu sót vì thiếu các kinh nghiệm thực tế

Nhóm 9 rất mong sẽ được nhận những lời đóng góp và ý kiến cô để có thể hoàn thiện bài báo cáo của mình

Chúng em xin cảm ơn

Trang 13

CHƯƠNG 1: PHÁT BIỂU BÀI TOÁN

1.1 Đặt vấn đề

Bệnh tim mạch là một trong các nguyên nhân gây tử vong hàng đầu trên thế giới, cũng như tại Việt Nam Theo số liệu của Tổ chức Y tế Thế giới năm 2019, tử vong do bệnh tim mạch chiếm tới 39,5%, trong đó: bệnh mạch máu não (55,4%), bệnh tim thiếu máu cục bộ (32%), bệnh tim do tăng huyết áp (6,9%) và bệnh tim mạch khác (5,7%)

Tại Việt Nam, xu hướng tử vong do bệnh tim mạch đang ngày càng tăng, trong đó

tử vong do bệnh mạch máu não chiếm tỷ lệ lớn nhất, với tỷ suất tử vong tăng từ 127,3/100.000 dân (năm 2000) lên 164,9/100.000 dân hiện nay

Gánh nặng bệnh tật vẫn tiếp tục gia tăng, đặc biệt là gánh nặng về bệnh lý tim mạch

và xu hướng trẻ hóa ở những người trong độ tuổi lao động

Hình 1 Những nguyên nhân hàng đầu gây tử vong theo WHO (2000-2019)

Trang 14

1.2 Tính cấp thiết của đề tài

Theo số liệu thống kê trong Báo cáo EvoHealth White Paper on ASCVD in Vietnam, năm 2019 có 2,4 triệu người mắc các bệnh tim mạch trong đó 65% là bệnh tim mạch do xơ vữa động mạch Đây cũng là nguyên nhân hàng đầu dẫn tới tử vong với tỉ lệ rất cao trên bệnh tim do thiếu máu cục bộ và đột quỵ nhồi máu não

Tại Việt Nam, xu hướng tử vong do bệnh tim mạch đang ngày càng tăng, trong đó

tử vong do bệnh mạch máu não chiếm tỷ lệ lớn nhất, với tỷ suất tử vong tăng từ 127,3/100.000 dân (năm 2000) lên 164,9/100.000 dân hiện nay

Chính vì vậy, nhóm em xin đề xuất các giải pháp phân tích dữ liệu nhằm dự đoán khả năng mắc bệnh tim mạch của một cá nhân dựa trên các chỉ số y khoa bao gồm: Cholesterol (Mỡ trong máu), Blood Pressure (Huyết áp), Heart Rate (Nhịp tim), Diabetes (Bệnh đái tháo đường),

1.3 Một số kết quả nghiên cứu

Đã có nhiều nghiên cứu phương pháp, thuật toán để chẩn đoán khả năng mang bệnh tim mạch của một cá nhân cụ thể

 "Prediction of Coronary Artery Disease Using Machine Learning: An

Experimental Study" (2018)

Tác giả: Rajesh Kumar Jampala, Harika Maddala, et al

Nguồn: International Journal of Engineering and Technology (IJET)

Tóm tắt: Nghiên cứu này sử dụng các thuật toán máy học như Support Vector Machine (SVM), Decision Tree, Random Forest, và Neural Network để dự đoán bệnh mạch động mạch và so sánh hiệu suất của chúng

● "Cardiovascular Disease Detection Using Deep Learning Algorithms and

Computed Tomography Angiography" (2019)

Trang 15

Tác giả: Saeed Anwar, Muhammad Majid, et al

Nguồn: Computers, Materials & Continua

Tóm tắt: Nghiên cứu này tập trung vào việc sử dụng mô hình Deep Learning, đặc biệt là Convolutional Neural Networks (CNN), để phân loại ảnh CT angiography và

dự đoán bệnh tim mạch

● "Prediction of Coronary Heart Disease Based on Logistic Regression Algorithm" (2019)

Tác giả: Yifan Wang, Xing Li, et al

Nguồn: Journal of Healthcare Engineering

Tóm tắt: Nghiên cứu này sử dụng mô hình Logistic Regression để dự đoán bệnh tim mạch dựa trên dữ liệu lâm sàng và yếu tố rủi ro

1.4 Đối tượng và phương pháp nghiên cứu

Trang 16

viện để nâng cao khả năng chẩn đoán về triệu chứng đau tim, từ đó sẽ có các can thiệp

y tế kịp thời để làm giảm khả năng dẫn đến tử vong của bệnh nhân khi gặp phải tình trạng này

Trang 17

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1 Tổng quan về kỹ thuật khai phá dữ liệu

2.1.1 Khái niệm khai phá dữ liệu

Khai phá dữ liệu (Data Mining) là một khái niệm ra đời vào những năm cuối của thập kỷ 80 Nó bao hàm một loạt các kỹ thuật nhằm phát hiện và trích xuất các thông tin có giá trị tiềm tàng trong tập dữ liệu lớn (cơ sở dữ liệu, kho dữ liệu, ) Bản chất, khai phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra các mẫu hình có tính chính quy (regularities) trong tập dữ liệu

Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn sử dụng một số thuật ngữ khác như: khai phá tri thức từ cơ sở dữ liệu, trích lọc dữ liệu, phân tích dữ liệu/mẫu, Thực tế thì không phải vậy, khai phá dữ liệu chỉ là một bước thiết yếu trong quá trình Phát hiện tri thức trong CSDL Có thể nói, Khai phá dữ liệu là bước quan trọng nhất trong tiến trình Phát hiện tri thức từ cơ sở dữ liệu, các tri thức này hỗ trợ trong việc ra quyết định trong khoa học và kinh doanh

2.1.2 Các giai đoạn khai phá dữ liệu

Bước 1 Làm sạch dữ liệu (data cleaning & preprocessing): Loại bỏ nhiễu và các dữ

liệu không cần thiết

Bước 2 Tích hợp dữ liệu (data integration): quá trình hợp nhất dữ liệu thành những

kho dữ liệu (data warehouses & data marts) sau khi đã làm sạch và tiền xử lý (data cleaning & preprocessing)

Bước 3 Trích chọn dữ liệu (data selection): trích chọn dữ liệu từ những kho dữ liệu và

sau đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức Quá trình này bao gồm cả việc xử lý với dữ liệu nhiễu (noisy data), dữ liệu không đầy đủ (incomplete data), v.v

Trang 18

Bước 4 Chuyển đổi dữ liệu: Các dữ liệu được chuyển đổi sang các dạng phù hợp cho

quá trình xử lý

Bước 5 Khai phá dữ liệu (data mining): Là một trong các bước quan trọngnhất, trong

đó sử dụng những phương pháp thông minh để chắt lọc ra những mẫu dữ liệu

2.2 Bài toán phân lớp trong khai phá dữ liệu

2.2.1 Khái niệm phân lớp

Có rất nhiều cách hiểu thế nào là phân lớp dữ liệu, dưới đây là một vài khái niệm về phân lớp dữ liệu:

Theo Jiawei han, Micheline Kamber & Jian Pei (2011) phân lớp là quá trình tìm kiếm một mô hình (hoặc chức năng) mô tả và phân biệt các lớp hoặc khái niệm dữ liệu, nhằm mục đích có thể sử dụng mô hình để dự đoán lớp của các đối tượng mà chưa có nhãn

Phân lớp dữ liệu là quá trình học có giám sát trên một tập dữ liệu đầu vào nhằm xây dựng một mô hình để có thể dự đoán xu hướng cho các dữ liệu mới

Đầu vào: Tập các dữ liệu có dạng (x, y) = (x1, x2, , xn, y)

- x là biến độc lập (Independent variable) mô tả các thuộc tính của một đối tượng

- y là biến phụ thuộc (Dependent variable) cần tìm hiểu, phân loại y còn gọi là thuộc tính nhãn

Đầu ra: Một mô hình có khả năng phân loại đúng cho tập dữ liệu đầu vào

Trên thực tế, phân lớp dữ liệu ngày càng được ứng dụng nhiều trong các lĩnh vực như học máy (machine learning), thống kê (statistics), Đa số các thuật toán ra đời trước đều sử dụng cơ chế dữ liệu cư trú trong bộ nhớ, thường thao tác với bộ dữ liệu

bé Một số thuật toán ra đời sau này đã sử dụng kỹ thuật cư trú trên đĩa, cải thiện đáng

kể khả năng mở rộng thuật toán với những tập dữ liệu lớn

Trang 19

2.2.2 Quá trình phân lớp dữ liệu

Gồm 2 bước chính:

- Bước học (bước huấn luyện): Xây dựng mô hình

● Xác định tập dữ liệu huấn luyện gồm các mẫu đã được gán nhãn y

● Chạy một thuật toán phân lớp trên tập dữ liệu huấn luyện

● Mô hình được biểu diễn dưới dạng các luật phân lớp, các cây quyết định hoặc các công thức toán

- Bước phân loại: Sử dụng mô hình để gán nhãn thích hợp cho các dữ liệu chưa được gán nhãn

- Ước lượng độ chính xác của mô hình:

● Xác định tập dữ liệu kiểm thử gồm các mẫu đã được gán nhãn y (dữ liệu kiểm thử và dữ liệu huấn luyện phải khác nhau để tránh tình trạng quá khớp - overfitting)

● Chạy mô hình với tập dữ liệu kiểm thử thu được nhãn y’

● So sánh y và y’ để xác định độ chính xác của mô hình

- Nếu mô hình chính xác, sử dụng nó để dự đoán nhãn cho các dữ liệu cần gán nhãn

2.2.3 Một số thuật toán phân lớp

a Thuật toán ID3

ID3 là thuật toán cơ bản nhất trong lĩnh vực học cây quyết định, hầu hết các thuật toán học cây quyết định cải tiến sau này đều dựa trên nó

Nhiệm vụ của ID3 là học cây quyết định từ một tập các mẫu huấn luyện gồm:

Trang 20

- Đầu vào: Một tập hợp các mẫu, mỗi mẫu bao gồm các thuộc tính mô tả một đối tượng xác định và một thuộc tính nhãn phân lớp giá trị của nó

- Đầu ra: Cây quyết định có khả năng phân loại đúng đắn các mẫu trong tập dữ liệu huấn luyện và hy vọng phân loại đúng cho cả các mẫu chưa gặp trong tương lai

- Các bước thực hiện:

● Bước 1: Tạo nút gốc cho cây quyết định

● Bước 2: IF tất cả các mẫu huấn luyện đều có giá trị của nhãn C và P, RETURN cây có một nút duy nhất là Nút_gốc với nhãn P

● Bước 3: IF A rỗng, RETURN cây có một nút duy nhất là Nút_gốc với nhãn là giá trị phổ biến nhất của C và D

● Bước 4:

4.1 Gọi X là thuộc tính của A phân lớp D tốt nhất 4.2 Gán nhãn cho nút gốc với tên thuộc tính X 4.3 Foreach giá trị v của X

● Bước 5: RETURN nút gốc

b Hàm hồi quy Logistic (logistic Regression)

Là một mô hình thống kê được sử dụng để phân loại nhị phân (dự đoán đối tượng vào 1 trong 2 nhóm Làm việc dựa trên nguyên tắc hàm logarit Mặc dù tên gọi chứa

“Regression” nhưng đây là thuật toán thuộc loại Classification (phân loại) Đây là một trong những thuật toán học máy được sử dụng phổ biến nhất

Là một thuật toán dựa vào thống kê đánh giá các input đầu vào (feature X) và trả về kết quả (y) Với y = 1 thì sự kiện đó xảy ra và y = 0 thì ngược lại

Trang 21

Hình 2 Hình ảnh mô tả hàm hồi quy tuyến tính và hồi quy Logistic

Công thức hàm hồi quy logistic áp dụng phép biến đổi logarit, cho xác suất thành công hay thất bại của biến phân loại

Với:

- y: đưa ra xác suất thành công hay thất bại của biến phân loại y

- e(X): nghịch đảo của hàm logarit

- b0, b1x1…: hệ số hồi quy của biến độc lập, khi có nhiều giá trị

c Thuật toán rừng ngẫu nhiên (Random forest)

Là thuật toán sẽ xây dựng cây quyết định bằng thuật toán Cây quyết định, tuy nhiên mỗi cây quyết định sẽ khác nhau (có yếu tố ngẫu nhiên) Sau đó kết quả dự đoán được tổng hợp từ các cây quyết định

Ý tưởng tổng hợp các cây quyết định của thuật toán Random Forest giống với ý tưởng của The Wisdom of Crowds được đề xuất bởi by James Surowiecki vào năm

Trang 22

2004 The Wisdom of Crowds nói rằng thông thường tổng hợp thông tin từ 1 nhóm sẽ tốt hơn từ một cá nhân Ở thuật toán Random Forest mình cũng tổng hợp thông tin từ 1 nhóm các cây quyết định và kết quả cho ra tốt hơn thuật toán Decision Tree với 1 cây quyết định

Xây dựng thuật toán:

- Lấy ngẫu nhiên dữ liệu, lấy ngẫu nhiên thuộc tính

- Dùng thuật toán cây quyết định để xây dựng cây quyết định với bộ dữ liệu đã lấy

- Kết quả được tổng hợp từ nhiều cây quyết định

Hình 3 Hình ảnh mô tả mô hình Rừng ngẫu nhiên

Quá trình xây dựng mỗi cây quyết định đều có yếu tố ngẫu nhiên nên kết quả các cây quyết định trong thuật toán Random Forest có thể khác nhau Thuật toán Random Forest không dùng tất cả các dữ liệu training, cũng không dùng tất cả các thuộc tính để xây dựng nên mỗi cây có thể sẽ có dự đoán không tốt Tuy nhiên, thuật toán được tổng hợp từ nhiều cây quyết định nên thông tin từ các cây sẽ bổ sung cho nhau dẫn đến mô hình có kết quả dự đoán tốt

Trang 23

2.3 Bài toán phân cụm trong khai phá dữ liệu

2.3.1 Khái niệm về phân cụm

Phân cụm dữ liệu là quá trình học không giám sát trên một tập dữ liệu đầu vào nhằm phân chia tập dữ liệu ban đầu thành các tập dữ liệu con có tính chất tương tự nhau

- Đầu vào: Tập dữ liệu D gồm n phần tử trong không gian m chiều

D = {x1, x2,…,xn}

xi = (x1i, x2i,…, xmi) mô tả m thuộc tính của phần tử thứ i

- Đầu ra: Phân các dữ liệu thuộc D thành các cụm sao cho:

+ 11 Các phần tử trong cùng một cụm có tính chất tương tự nhau (gần nhau) + Các phần tử ở các cụm khác nhau có tính chất khác nhau (xa nhau)

2.3.2 Quá trình phân cụm dữ liệu

Bước 1: Tiền xử lý dữ liệu

- Xử lý dữ liệu thiếu

+ Thay thế dữ liệu thiếu bằng giá trị dữ liệu trung bình

+ Thay thế dữ liệu thiếu bằng giá trị dữ liệu xuất hiện nhiều nhất

+ Thay thế dữ liệu thiếu bằng giá trị dữ liệu xuất hiện ít nhất

+ Loại bỏ bản ghi có chứa dữ liệu thiếu…

- Xử lý dữ liệu nhiễu: Phát hiện và xử lý tương tự dữ liệu thiếu

Bước 2: Xác định các độ đo dữ liệu

Bước 3: Sử dụng các thuật toán thích hợp

Trang 24

2.3 Một số thuật toán phân cụm

Nhóm sử dụng 3 thuật toán trong phân cụm để phân tích nguy cơ đau tim từ bộ dữ liệu : Kmeans, Hierarchical Clustering, DBSCAN

2.3.1 Thuật toán phân cụm Kmeans

Thuật toán K-Means là một phương pháp phân cụm dữ liệu phổ biến trong lĩnh vực học máy và khai phá dữ liệu Nó chia dữ liệu thành các cụm dựa trên đặc tính tương đồng giữa các điểm dữ liệu

Kết quả của K-Means là việc phân loại dữ liệu thành các cụm, mỗi cụm có một tâm, và mỗi điểm dữ liệu được gán vào một cụm cụ thể K-Means thường được sử dụng trong nhiều lĩnh vực như phân loại hình ảnh, nhóm khách hàng, nén dữ liệu và các ứng dụng khác yêu cầu phân cụm dữ liệu

Cơ chế hoạt động của K-Means:

1 Khởi tạo cụm ban đầu: Chọn ngẫu nhiên K điểm dữ liệu từ tập dữ liệu làm các điểm tâm ban đầu của các cụm

2 Gán điểm dữ liệu vào cụm: Mỗi điểm dữ liệu được gán vào cụm gần nhất (cụm

có tâm gần nhất với nó) dựa trên khoảng cách Euclidean

3 Cập nhật tâm cụm: Tính toán lại tâm cho mỗi cụm bằng cách lấy trung bình của tất cả các điểm dữ liệu trong cụm đó

4 Lặp lại quá trình: Lặp lại quá trình gán điểm dữ liệu vào cụm và cập nhật tâm cụm cho đến khi không có sự thay đổi đáng kể nào hoặc đạt đến điều kiện dừng được đặt ra

5 Điều kiện dừng: Điều kiện dừng thường là khi không có sự thay đổi đáng kể trong vị trí của các tâm cụm hoặc khi số lần lặp đã đạt đến một ngưỡng cố định

2.3.2 Thuật toán phân cụm Hierarchical Clustering

Trang 25

Thuật toán Hierarchical Clustering (phân cụm phân cấp) là một phương pháp phân cụm dữ liệu không yêu cầu số lượng cụm cần phân chia được xác định trước Nó tạo ra một cây phân cấp của các cụm, cho phép hiển thị cấu trúc phân cấp của dữ liệu

Hierarchical Clustering thường được sử dụng để tìm hiểu cấu trúc của dữ liệu, phân loại văn bản, phân loại hình ảnh, và trong nhiều lĩnh vực khác yêu cầu khám phá cấu trúc phân cấp của dữ liệu

Cơ chế hoạt động của Hierarchical Clustering:

1 Bắt đầu từ từng điểm dữ liệu là một cụm riêng biệt: Mỗi điểm dữ liệu được coi là một cụm độc lập

2 Gộp các cụm gần nhất: Thuật toán tìm hai cụm gần nhất dựa trên khoảng cách (distance) giữa chúng và gộp chúng thành một cụm mới Quá trình này tiếp tục cho đến khi tất cả các điểm dữ liệu được gộp vào một cụm duy nhất hoặc đến một

số cụm nhất định

3 Biểu diễn dưới dạng cây phân cấp (dendrogram): Kết quả của thuật toán là một biểu đồ cây (dendrogram), nó thể hiện cấu trúc phân cấp của dữ liệu, trong đó mỗi nút biểu thị một cụm và khoảng cách giữa các cụm

2.3.3 Thuật toán phân cụm DBSCAN

Thuật toán DBSCAN (Density-Based Spatial Clustering of Applications with Noise) là một phương pháp phân cụm dữ liệu dựa trên mật độ (density-based), có khả năng phát hiện các cụm có hình dạng và kích thước đa dạng, đồng thời xử lý tốt dữ liệu nhiễu

DBSCAN thường được sử dụng trong việc phân cụm dữ liệu không có cấu trúc rõ ràng, như trong phát hiện gian lận tín dụng, nhóm khách hàng, hoặc trong các ứng dụng yêu cầu xử lý dữ liệu nhiễu

Cơ chế hoạt động của DBSCAN:

1 Đặc điểm chính:

Trang 26

a Điểm lõi (Core Point): Một điểm được xem là điểm lõi nếu có đủ số lượng điểm xung quanh nó nằm trong một bán kính được xác định trước (epsilon, ε)

b Vùng lõi (Core Region): Vùng lõi là tập hợp các điểm được kết nối với nhau thông qua các điểm lõi

a Mỗi điểm thuộc về một trong ba loại: điểm lõi, điểm biên hoặc điểm nhiễu

b Kết quả của DBSCAN là việc phân loại các điểm dữ liệu thành các cụm và nhận diện điểm nhiễu

2.3.4 So sánh 3 thuật toán phân cụm

Trang 27

Tiêu chí K-Means Hierarchical

Clustering DBSCAN

Độ phức tạp

tính toán

Tuyến tính tốt, phù hợp dữ liệu lớn

Cao, đặc biệt với dữ liệu lớn

Tăng nhanh với dữ liệu lớn, hiệu quả với dữ liệu có mật

Xử lý dữ

liệu nhiễu

Nhạy cảm với nhiễu

Tương đối nhạy cảm với nhiễu

Xử lý tốt dữ liệu nhiễu và phân loại thành cụm riêng

Linh hoạt Thích hợp với cụm

rõ ràng, yêu cầu số lượng cụm trước

Hiểu cấu trúc phân cấp, không cần xác định trước số lượng cụm

Thích hợp với dữ liệu có mật độ không đồng nhất và

dữ liệu nhiễu

Bảng 1 So sánh 3 thuật toán phân cụm

2.4 Bài toán luật kết hợp trong khai phá dữ liệu

2.4.1 Khái niệm về luật kết hợp

Luật kết hợp là mối quan hệ giữa các tập thuộc tính trong cơ sở dữ liệu Luật kết hợp là phương tiện hữu ích để khám phá các mối liên kết trong dữ liệu

Đây là một trong những chủ đề phổ biến của khai phá dữ liệu Mục đích của luật kết hợp trong khai phá dữ liệu là xác định mối quan hệ, sự kết hợp giữa các mục dữ liệu (item) trong một CSDL lớn Việc xác định các quan hệ này không phân biệt vai

Trang 28

trò khác nhau cũng như không dựa vào các đặc tính dữ liệu vốn có của các mục dữ liệu

mà chỉ dựa vào sự xuất hiện cùng lúc của chúng

Một luật kết hợp là một mệnh đề kéo theo có dạng X -> Y, trong đó X, Y ⊆ I, thỏa mãn điều kiện X giao Y = rỗng Các tập hợp X và Y được gọi là các tập hợp thuộc tính (itemset) Tập X gọi là nguyên nhân, tập Y gọi là hệ quả Có 2 độ đo quan trọng đối với luật kết hợp: Độ hỗ trợ (support) và độ tin cậy (confidence), được định nghĩa như phần dưới đây

Độ tin cậy (Confidence) của luật kết hợp X -> Y trong D, kí hiệu conf (X -> Y, D), là

tỉ lệ giữa số giao dịch chứa cả X và Y trên số giao dịch chỉ chứa X

Trang 29

Ký hiệu độ tin cậy của một luật r là conf(r) Ta có 0 <= conf(r) <= 1

2.4.2 Quá trình luật kết hợp dữ liệu

Bước 1: Mining frequent itemsets/ patterns: Khai phá tất cả các tập phổ biến từ cơ

sở dữ liệu D với ngưỡng tối thiểu minsup

Bước 2: Generating strong rules from mined frequent itemsets/ patterns: Sinh tất cả

các luật mạnh từ các tập phổ biến được khai phá ở bước trước với ngưỡng tin cậy tối thiểu minconf

2.4.3 Một số thuật toán luật kết hợp

Có hai thuật toán điển hình khai phá tập mục thường xuyên là: Thuật toán Apriori

và Thuật toán FP-Growth Trong đó, thuật toán Apriori tiêu biểu cho phương pháp sinh ra các tập mục ứng viên và kiểm tra độ hỗ trợ của chúng Còn thuật toán FP-Growth, đại diện cho phương pháp không sinh ra tập mục ứng viên, cơ sở dữ liệu được nén lên cấu trúc cây, sau đó khai phá bằng cách phát triển dần các mẫu trên cây này

2.4.3.1 Thuật toán Apriori

Apriori là thuật toán khai phá tập mục thường xuyên do R.Agrawal và R.Srikant đề xuất vào năm 1993 Thuật toán Apriori còn là nền tảng chi việc phát triển nhiều thuật toán khai phá tập mục thường xuyên khác về sau

a, Nguyên tắc Apriori

Trang 30

– Đếm số lượng của từng Item, tìm các Item xuất hiê ̣n nhiều nhất

– Tìm các că ̣p ứng viên: Đếm các că ̣p => că ̣p item xuất hiê ̣n nhiều nhất – Tìm các bô ̣ ba ứng viên: Đếm các bô ̣ ba => bô ̣ ba item xuất hiê ̣n nhiều nhấ t Và tiếp tu ̣c với bô ̣ 4, bô ̣ 5, …

– Nguyên tắc chủ yếu: Mo ̣i tâ ̣p con của tâ ̣p phổ biến phải là tâ ̣p con phổ biến

b, Các bước triển khai

- Bươ ́ c 1: Đếm số support cho mỗi tâ ̣p gồm mô ̣t phần tử và xem chúng như mô ̣t

Large itemset Support củ a chúng là minsup

- Bươ ́ c 2: Với mỗi tâ ̣p Large item bổ sung các item vào và ta ̣o mô ̣t Large

itemset mớ i, tâ ̣p này được go ̣i là tâ ̣p ứng viên (Candidate itemset - C) Đếm số support cho mỗi tập C trên cơ sở dữ liệu, từ đó quyết định tập C nào là Large Item thực sự, và ta dùng làm hạt giống cho bước kế tiếp

- Bươ ́ c 3: Lă ̣p la ̣i bước 2 cho đến khi không còn tìm thấy thêm, mô ̣t tâ ̣p Large

itemset nữa

2.4.3.2 Thuật toán FP-Growth

Thuật toán Apriori có chi phí lớn, đôi lúc lại kém hiệu quả Để khắc phục nhược điểm này, J.Han, J Pei, Y.Yin và R.Mao đã đề xuất thuật toán FP-Growth

a, Thuật toán FP-Growth được xây dựng dựa trên hai tính chất cốt lõi:

- Hai giao dịch có chức cùng một số các mục, thì đường đi của chúng sẽ có phần (đoạn) chung

- Càng nhiều các đường đi có phần tử chung, thì việc biểu diễn bằng FP-Tree sẽ càng gọn

Trang 31

b, Các bước triển khai

Bước 1: Nén cơ sở dữ liệu giao dịch gốc vào cây FP-tree

- Quét cơ sở dữ liệu một lần, tìm các tập phổ biến 1-itemsets (chỉ có một hạng

- Duyệt từng hạng mục phổ biến (1-itemsets) theo thứ tự tăng dần của tần số (p,

m, b, a, c, f) Với mỗi hạng mục, xây dựng cơ sở mẫu điều kiện và các cây tree có điều kiện tương ứng của nó:

FP Bắt đầu với hạng mục p, cơ sở mẫu điều kiện của nó là tất cả các đường đi tiền

tố của cây FP-Tree khi duyệt từ nút gốc {} đến nút p, các đường đi này chính là fcam: 2 và cb:1 ( trong đó số theo sau là số lần xuất hiện của nút p tương ứng

với mỗi tiền tố đó)

- Xây dựng cây FP-Tree có điều kiện từ mẫu trên bằng cách trộn tất cả các đường

đi và giữ lại các nút có tần số theo yêu cầu

Trang 32

2.5 Bài toán nhận diện hình ảnh

2.5.1 Khái niệm về nhận diện hình ảnh

Nhận dạng ảnh (còn gọi là nhận dạng đối tượng; tiếng Anh image recognition, object recognition) là thuật ngữ dùng để chỉ các công nghệ máy tính có khả năng nhận biết người, động vật, vật thể hoặc các đối tượng mục tiêu khác thông qua việc sử dụng các phương pháp, thuật toán trong học máy Thuật ngữ nhận dạng ảnh liên quan chặt chẽ với các thuật ngữ thị giác máy tính (computer vision), một thuật ngữ bao quát cho quá trình huấn luyện máy tính để chúng có thể “nhìn” được như con người, và xử lý ảnh (image processing), thuật ngữ đề cập đến việc thực hiện các công việc chuyên sâu trên dữ liệu ảnh bằng máy tính (xt Thị giác máy tính, Xử lý ảnh)

2.5.2 Giới thiệu tổng quan thuật toán sử dụng

Convolutional Neural Network (CNNs – Mạng nơ-ron tích chập) là một trong

những mô hình Deep learning tiên tiến giúp xây dựng được những hệ thống thông minh với độ chính xác cao như ngày nay Mô hình này thường được sử dụng nhiều trong các bài toán nhận diện hình ảnh Về kỹ thuật, mô hình CNN để training và kiểm tra, mỗi hình ảnh đầu vào sẽ chuyển nó qua 1 loạt các lớp tích chập với các bộ lọc (Kernels), tổng hợp lại các lớp được kết nối đầy đủ (Full Connected) và áp dụng hàm Softmax để phân loại đối tượng có giá trị xác suất giữa 0 và 1 Hiện nay vẫn chưa có định nghĩa một cách chính xác nhất về thuật toán CNN nhưng có thể hiểu mạng CNN được thiết kế với mục đích xử lý dữ liệu thông qua nhiều lớp mảng Dưới đây là toàn

bộ luồng CNN để xử lý hình ảnh đầu vào và phân loại các đối tượng dựa trên giá trị (Hình 1) Có thể thấy mạng CNN là một tập hợp gồm có các lớp convolution chồng lên nhau Mạng nơron tích chập có thể lấy hình ảnh đầu vào, gán độ quan trọng (các trọng số - weights và độ lệch - bias có thể học được) cho các đặc trưng khác nhau trong hình ảnh và có thể phân biệt được từng đặc trưng này với nhau Ngoài ra, CNN

có thể tạo ra được hệ thống thông minh, phản ứng với độ chính xác tương đối cao

Trang 33

Mục đích của phép tính tích chập là trích xuất các đặc trưng cấp cao như các cạnh

từ hình ảnh đầu vào Lớp tích chập đầu tiên thường phục vụ để nắm bắt các đặc trưng cấp thấp như màu sắc (colors), hướng dốc (gradient orientation), Mô hình với việc

bổ sung các lớp tích chập được thêm vào để nắm bắt các đặc trưng cấp cao Từ Đó, cung cấp cho người sử dụng một mạng lưới nơron tích chập có sự hiểu biết toàn diện

về hình ảnh trong tập dữ liệu, tương tự như cách chúng ta - con người hiểu về hình ảnh

Hàm kích hoạt Relu layer: Hàm này còn được gọi là activation function, có tác

dụng mô phỏng các nơron có tỷ lệ truyền xung qua axon Trong đó, hàm kích hoạt sẽ bao gồm các hàm cơ bản như: Sigmoid, Tanh, Relu, Leaky Relu, Maxout Hiện nay, hàm Relu đang được sử dụng khá phổ biến và thông dụng Những ưu điểm của Relu

có thể kể đến như việc hỗ trợ tính toán nhanh nên rất được ưa chuộng sử dụng trong việc huấn luyện các mạng Neuron

Lớp gộp (Pooling): Lớp gộp có hai loại: gộp cực đại (Max pooling) và gộp trung

bình (Average Pooling) Gộp cực đại trả về giá trị lớn nhất từ phần hình ảnh được bộ lọc bao phủ.Mặt khác, gộp trung bình trả về giá trị trung bình của tất cả các giá trị từ phần hình ảnh được bộ lọc che phủ Lớp gộp tối đa cũng hoạt động như một công cụ khử nhiễu thông qua việc loại bỏ nguồn nhiễu và thực hiện khử nhiễu song song với việc giảm kích thước Trong khi đó, gộp trung bình chỉ thực hiện giảm kích thước như

Trang 34

với gộp trung bình Lớp pooling sẽ giảm bớt số lượng tham số khi hình ảnh quá lớn và không gian pooling còn được gọi là lấy mẫu con hoặc lấy mẫu xuống làm giảm kích thước nhưng vẫn giữ lại thông tin quan trọng

Lớp kết nối đầy đủ (Fully connected layer): Sử dụng mạng nơron được kết nối

đầy đủ là cách làm phổ biến nhất để học các tổ hợp phi tuyến tính từ các đặc trưng được trích xuất từ kết quả ma trận tích chập.Một mạng nơron kết nối đầy đủ có thể học được các đặc trưng trong không gian phi tuyến này Hình ảnh đầu vào sẽ được chuyển đổi sang một dạng thích hợp cho mạng nơron đa lớp Trước khi đến với lớp này, ảnh

sẽ chuyển từ dạng ma trận về mảng 1 chiều qua lớp Flatten, hình ảnh đầu vào này được chuyển thành một vectơ cột Vectơ Đầu ra sau khi được làm phẳng sẽ được đưa vào một mạng nơron suy luận tiến (feedforward) và phương pháp truyền ngược (backpropagation) được áp dụng cho quá trình huấn luyện Thông qua một loạt các lần lặp lại, mô hình có thể phân biệt giữa các đặc trưng cốt lõi và các đặc trưng không thiết yếu trong hình ảnh và phân loại chúng bằng kỹ thuật phân loại Softmax (softmax classification) Sơ đồ thuật toán có thể được biểu diễn như sau:

Hình 4 Sơ đồ thuật toán

Trang 35

CHƯƠNG 3: XÂY DỰNG MÔ HÌNH DỰ BÁO

3.1 Cơ sở dữ liệu xây dựng mô hình

3.1.1 Giới thiệu về dữ liệu

● Cách thức thu thập dữ liệu:

Dữ liệu được nhóm thu thập trên trang Kaggle.com Đường link bộ dữ liệu được nhóm nghiên cứu sử dụng: https://www.kaggle.com/datasets/iamsouravbanerjee/heart-attack-prediction-dataset/data

Nhóm sử dụng kỹ thuật khai phá dữ liệu và học máy trên bộ dữ liệu sẵn có để đưa

ra dự đoán Để mô tả bộ dữ liệu nhóm sử dụng, nhóm mô tả bộ dữ liệu qua bảng dưới đây gồm 8763 bản ghi với 26 thuộc tính như sau:

Hình 5 Mô tả bộ dữ liệu

Bài toán nhóm em xây dựng mô hình dự báo bệnh nhân mắc bệnh tim mạch với bộ

dữ liệu sẵn có là thông tin của những bệnh nhân được chẩn đoán ở cột thuôc ̣tính Heart Attack Risk, với 2 nguy cơ: 1: Có; 0: Không

Mô tả các thuộc tính của bảng:

STT Tên thuộc tính Giải thích thuộc tính

1 Cholesterol Nồng độ mỡ trong máu của bệnh nhân

Trang 36

Smoking Tình trạng hút thuốc của bệnh nhân (1: Hút

thuốc, 0: Không hút thuốc)

Trang 37

14 Sedentary Hours Per Day Số giờ hoạt động ít vận động mỗi ngày

17 Triglycerides Chất béo trung tính của bệnh nhân

18 Physical Activity Days Per

19 Sleep Hours Per Day Giờ ngủ mỗi ngày

21 Continent Lục địa nơi bệnh nhân cư trú

Trang 38

22 Hemisphere Bán cầu nơi bệnh nhân cư trú

23 Heart Attack Risk Có nguy cơ đau tim (1: Có, 0: Không)

Bảng 2 Mô tả các thuộc tính của bảng 3.1.2 Tiền xử lý dữ liệu

- Khai báo thư viện

Hình 6 Khai báo thư viện

- Tải dữ liệu lên để phân tích và làm rõ cấu trúc của dữ liệu

Hình 7 Tải lên dữ liệu

- Đọc dữ liệu:

Trang 39

Hình 8 Đọc dữ liệu

● Nhận xét: Sau khi đọc dữ liệu xong, sẽ cho ra được số dòng và số cột có

trong bộ dữ liệu đang sử dụng (Bao gồm 8763 dòng và 26 cột.)

- Đọc thông tin 10 dòng dữ liệu đầu tiên:

Hình 9 In ra 10 dòng dữ liệu đầu tiên

Trang 40

- Tách cột Blood Pressure thành 2 cột Systolic và Diastolic, sau đó xóa cột

Blood Pressure:

Hình 10 Tách cột Blood Pressure thành 2 cột Systolic và Diastolic

- Xoá những cột không cần thiết:

Tiêu đề	Ứng dụng AI và các thuật toán xây dựng mô hình dự đoán nguy cơ đau tim
Tác giả	Nguyễn Thị Nguyệt Hà, Đào Thị Thanh Mai, Đào Phương Chi, Hoàng Thu Trang, Nguyễn Thu Trang
Người hướng dẫn	Bùi Thị Hồng Nhung
Trường học	Học viện Ngân hàng
Chuyên ngành	Khoa Hệ Thống Thông Tin Quản Lý
Thể loại	Bài thi kết thúc học phần
Năm xuất bản	2023
Thành phố	Hà Nội

Định dạng
Số trang	92
Dung lượng	5,49 MB
File đính kèm	09_KPDLlop03_K23_Bệnh Tim.rar (5 MB)