Ứng dụng phương pháp học tập chuyển đổi trong nhận diện bệnh tim Ứng dụng phương pháp học tập chuyển đổi trong nhận diện bệnh tim Ứng dụng phương pháp học tập chuyển đổi trong nhận diện bệnh tim Ứng dụng phương pháp học tập chuyển đổi trong nhận diện bệnh tim Ứng dụng phương pháp học tập chuyển đổi trong nhận diện bệnh tim
TỔNG QUAN
Tổng quan về lĩnh vực nghiên cứu
Tỷ lệ mắc bệnh tim mạch (CVD) đang gia tăng, với khoảng 17.7 triệu ca tử vong mỗi năm, chiếm 31% tổng số ca tử vong toàn cầu Nguyên nhân chính gây ra loạn nhịp tim chủ yếu là do bệnh tim mạch Việc giải mã thông tin trong tín hiệu ECG trở nên khó khăn do biên độ và thời gian tín hiệu rất nhỏ.
Công cụ máy tính hỗ trợ giúp bác sĩ chẩn đoán bệnh tim mạch dễ dàng hơn, đặc biệt trong bối cảnh hiện đại với sự gia tăng bệnh béo phì, đái tháo đường, thói quen hút thuốc lá và thay đổi lối sống Một trong những biến chứng phổ biến của bệnh tim mạch là rối loạn tâm nhĩ và tâm thất, trong đó loạn nhịp tim là thuật ngữ chỉ các điều kiện liên quan đến hoạt động điện bất thường của tim.
Bệnh tim mạch là nguyên nhân hàng đầu gây tử vong tại Việt Nam và toàn cầu, với tỷ lệ bệnh nhân ở các thành phố ngày càng tăng Các bệnh tim do yếu tố bên ngoài như mỡ trong máu và cholesterol cao đang trở thành vấn đề mãn tính nghiêm trọng Phân tích tín hiệu ECG, bao gồm các thành phần như phức hợp QRS, sóng P và sóng T, là rất quan trọng trong chẩn đoán và điều trị bệnh tim Việc chẩn đoán rối loạn nhịp tim bằng công nghệ máy tính phụ thuộc vào khả năng phân tích chính xác các tín hiệu này, tạo ra thách thức cho hệ thống y tế.
Chẩn đoán bệnh tim, đặc biệt là phân loại loạn nhịp, sử dụng nhiều kỹ thuật khác nhau Các nghiên cứu đã thu thập thông tin từ tín hiệu ECG, kiểm tra các phương pháp lý thuyết so với thực tế Tuy nhiên, vẫn còn một khoảng cách đáng kể giữa lý thuyết và ứng dụng trong các trường hợp cụ thể.
Các kết quả nghiên cứu trong nước và ngoài nước đã công bố
Phân loại tín hiệu điện tim (ECG) hiện nay gặp nhiều thách thức do sự thiếu chuẩn hóa các đặc điểm của tín hiệu và tính biến đổi của chúng Mỗi mẫu ECG có những đặc trưng riêng, không có quy tắc phân loại tối ưu nào cho bộ phân loại ECG, và mỗi bệnh nhân sở hữu một dạng sóng ECG đặc thù Việc phát triển một bộ phân loại hiệu quả, có khả năng phân loại rối loạn nhịp tim trong thời gian thực là rất cần thiết Các ứng dụng phân loại tín hiệu ECG hiện đã có khả năng phát hiện các tín hiệu bất thường, đồng thời cung cấp phân tích chính xác hơn so với phương pháp thủ công, hỗ trợ trong chẩn đoán và điều trị bệnh nhân tim mạch.
1.2.1 Các kết quả nghiên cứu trong nước
Tại hội thảo quốc tế về kiến thức và hệ thống kỹ thuật năm 2009, Phan Anh Phong và Kieu Quang Thien đã nghiên cứu phân loại loạn nhịp tim bằng hệ thống mờ TSK loại 2 Bài báo đề xuất phương pháp xây dựng hệ mờ TSK loại 2 để phân tích điện tim đồ (ECG), nhằm phân biệt nhịp xoang bình thường (NSR), rung tâm thất (VF) và nhịp tim nhanh thất (VT) Hai đặc trưng của tín hiệu ECG, bao gồm khoảng thời gian trung bình và độ rộng xung, được sử dụng làm đầu vào cho bộ phân loại mờ Ngoài ra, tác giả áp dụng thuật toán phân cụm trung bình fuzzy và kỹ thuật truyền lại để xác định các tham số cho bộ phân loại fuzzy TSK loại 2 Kết quả thí nghiệm từ cơ sở dữ liệu Malignant Ventricular Arrhythmia MIT-BIH cho thấy độ chính xác phân loại đạt 100% cho tín hiệu NSR, 93,3% cho tín hiệu VF và 92% cho tín hiệu VT.
Nghiên cứu về điện tâm đồ (ECG) trong nước đã chỉ ra những vấn đề như ngưỡng tối ưu cho thuật toán nén ECG hai trạng thái và hạn chế loại bỏ nhiễu tín hiệu ECG bằng phương pháp wavelet Tuy nhiên, hầu hết các nghiên cứu chưa đi sâu vào phân loại tín hiệu điện tim Một nghiên cứu sử dụng hệ thống mờ TSK 2 chỉ phân loại theo từng loại bệnh như nhịp xoang bình thường, rung tâm thất và nhịp tim nhanh thất Luận văn này sẽ mở rộng phạm vi phân loại để bao quát hầu hết các loại bệnh tim theo tiêu chuẩn ANSI/AAMI EC57:1998, từ đó cung cấp cái nhìn tổng quan hơn về phân loại tín hiệu điện tim.
1.2.2 Các kết quả nghiên cứu quốc tế
Nghiên cứu về bệnh tim mạch đã sử dụng các phương pháp như PCA, LDA, ICA và biến đổi wavelet rời rạc để phân loại tín hiệu điện tim Năm loại rối loạn nhịp tim theo khuyến cáo của Hiệp hội dụng cụ y tế (AAMI) đã được phân tích, bao gồm nhịp tim không lạc vị, nhịp tim supra-ventricular ectopic, nhịp tim ventricular ectopic, nhịp tim fusion và nhịp tim không nhận dạng được Các thuật toán PCA, LDA và ICA được áp dụng độc lập để giảm kích thước dữ liệu, sau đó kết hợp với các bộ phân loại như SVM, mạng nơ ron (NN) và phân loại mạng thần kinh xác suất (PNN) cho chẩn đoán tự động Kết quả cho thấy tính năng ICA kết hợp với PNN đạt độ nhạy 99,97%, độ đặc hiệu 99,83%, giá trị tiên đoán dương 99,21% và độ chính xác 99,28% thông qua phương pháp xác nhận chéo 10 lần Nghiên cứu này không chỉ chứng minh độ chính xác cao mà còn so sánh hiệu quả của các phương pháp phân loại khác nhau Tác giả đã thực hiện lại phân loại tín hiệu điện tim, tách riêng dữ liệu huấn luyện và kiểm tra để xác minh độ chính xác của bộ phân loại.
Mục tiêu của đề tài
Mục tiêu của đề tài là ứng dụng phương pháp học chuyển đổi để nhận diện bệnh tim, nhằm tăng độ chính xác của bộ phân loại tín hiệu điện tim ECG Để đạt được hiệu quả tối ưu, cần chuẩn hóa bộ dữ liệu đầu vào và thu thập đủ dữ liệu từ tất cả các dây điện cực của tín hiệu điện tim.
Nhiệm vụ và giới hạn của đề tài
1.4.1 Nhiệm vụ của đề tài
Dựa trên mục tiêu đã đề ra, tác giả đề tài cần phải thực hiện các nhiệm vụ sau đây đề hoàn thành đề tài:
Thu thập và xây dựng tập dữ liệu điện tim, sau đó chuyển đổi tín hiệu sang miền tần số bằng phương pháp DWT Tiến hành giảm chiều dữ liệu bằng các phương pháp PCA và LDA Cuối cùng, thực hiện nhận dạng tín hiệu điện tim thông qua Neural Network mà không sử dụng phương pháp học chuyển đổi.
Ứng dụng hiệu ứng kéo theo giúp xây dựng lại tập dữ liệu và chuyển đổi tín hiệu sang miền tần số thông qua phương pháp DWT Để trích xuất đặc trưng, chúng ta sử dụng các phương pháp PCA và LDA Cuối cùng, nhận dạng tín hiệu điện tim được thực hiện bằng phương pháp Neural Network mà không cần sử dụng phương pháp học chuyển đổi.
Ứng dụng hiệu ứng kéo theo giúp xây dựng lại tập dữ liệu và chuyển đổi tín hiệu sang miền tần số thông qua phương pháp DWT Để trích xuất đặc trưng, bài viết sử dụng phương pháp PCA và LDA Cuối cùng, nhận dạng tín hiệu điện tim được thực hiện bằng cách áp dụng Neural Network với phương pháp học chuyển đổi.
- So sánh kết quả từ các trường hợp phân loại dựa theo ma trận nhầm lẫn (confusion matrix) và đường cong đặc tính ROC
- Tổng kết, viết bài báo khoa học và báo cáo
1.4.2 Giới hạn của đề tài
- Chỉ dùng một bộ dữ liệu
- Phương pháp phân loại chỉ dùng Neural Network
Phương pháp học máy cần một phần cứng mạnh mẽ với bộ vi xử lý có tốc độ và dung lượng lớn để xử lý bộ dữ liệu có nhiều mẫu, từ đó nâng cao độ chính xác của bộ phân loại.
Phương pháp nghiên cứu
Các nghiên cứu trước đây về phân loại tín hiệu ECG chủ yếu tập trung vào việc sử dụng các phương pháp cụ thể mà chưa xem xét đến việc thu thập dữ liệu thực tế, điều này gây khó khăn cho những người không chuyên về y học Để giải quyết vấn đề này, cần xây dựng một bộ phân loại tín hiệu ECG dựa trên các nghiên cứu đã có và dữ liệu từ nguồn sẵn có.
Hướng nghiên cứu đề xuất sử dụng dữ liệu có sẵn thông qua bộ phân loại Neural Network để cân bằng tỷ lệ các nhóm bệnh trong cùng một bộ dữ liệu Nghiên cứu sẽ thực hiện huấn luyện và kiểm tra trên cùng hoặc khác dây điện cực, đồng thời áp dụng phương pháp học chuyển đổi nhằm nâng cao hiệu suất bộ phân loại tín hiệu điện tim Phân tích và xử lý dữ liệu sẽ được thực hiện bằng phần mềm MATLAB, phiên bản R2017a.
CƠ SỞ LÝ THUYẾT
Tổng quan về tín hiệu điện tim ECG
Điện tim (ECG hoặc EKG) là một phương pháp ghi lại hoạt động điện của trái tim qua các điện cực đặt trên da Đây là một bài kiểm tra tim mạch phổ biến, giúp theo dõi sức khỏe tim Tín hiệu ECG bao gồm nhiều nhịp đập, trong đó mỗi nhịp bao gồm sóng P, phức hợp QRS và sóng T, phản ánh hoạt động điện của tim.
R, S, T và U), khoảng thời gian (PR, RR, QRS, ST và QT) và các phân đoạn (PR và ST) của các tín hiệu ECG có những giá trị biên độ hoặc thời gian bình thường của nó Những đỉnh, khoảng thời gian và các phân đoạn này được gọi là các tính năng ECG Hình 1.1 chỉ ra các tính năng này cho một chu kỳ tim ECG, được mô tả trong bảng 1.1 Một nhịp tim gồm có các khoảng thời gian PR, khoảng thời gian phức hợp QRS, khoảng thời gian ST, khoảng thời gian QT, và khoảng thời gian RR Ngoài ra một nhịp tim còn có phân đoạn PR, phân đoạn ST Chính những khoảng thời gian và phân đoạn này là những hình ảnh mô tả nhịp tim có bình thường hay không để bác sĩ dựa vào đây để chẩn đoán bệnh Bảng 1.1 trình bày các tính năng ECG với mô tả và thời gian của nó Các tính năng được đặt tên theo các đỉnh của nó như tính năng RR, P,
PR, QRS, PR, J, ST, T, ST, QT, U là các thành phần quan trọng trong điện tâm đồ, với thời gian mỗi tính năng chỉ tính bằng milli giây Thời gian dài nhất, từ 0.6 đến 1.2 giây, chính là khoảng thời gian giữa hai đỉnh R, tương ứng với khoảng cách thời gian giữa hai nhịp tim.
Bảng 2.1: Tính năng và khoảng thời gian bình thường của tín hiệu ECG
Tính năng Mô tả Khoảng thời gian
RR Khoảng thời gian giữa sóng R và sóng R tiếp theo 0.6-1.2 giây
P Xu hướng tăng ngắn hạn của tín hiệu ECG 80 milli giây
PR Đo từ đầu sóng P đến đầu bộ phức hợp QRS 120-200 milli giây
Thường bắt đầu với độ võng xuống của Q, độ cong lên lớn hơn của R và kết thúc bởi sự đi xuống của sóng S
PR Kết nối sóng P và bộ phức hợp QRS 50-120 milli giây Điểm J Điểm kết thúc bộ phức hợp QRS và bắt đầu phân đoạn ST Không áp dụng
ST Kết nối bộ phức hợp QRS và sóng T 80-120 milli giây
T Thường là một dạng sóng tăng lên vừa phải 160 milli giây
ST Được đo từ điểm J đến kết thúc của sóng T 320 milli giây
QT Được đo từ khi bắt đầu bộ phức hợp QRS đến khi kết thúc sóng T 420 milli giây
U Thông thường có biên độ thấp và thường hoàn toàn vắng mặt Không đề cập đến
Tim là bộ phận thiết yếu trong cơ thể con người, giữ vai trò bơm máu và oxy đến mọi cơ quan Nhịp tim, đo bằng số nhịp đập mỗi phút, là chỉ số quan trọng để đánh giá sức khỏe Cả nam và nữ có nhịp tim cao đều đối mặt với nguy cơ tử vong cao do nhồi máu cơ tim Vì vậy, việc theo dõi nhịp tim là cách hiệu quả để bảo vệ sức khỏe và cuộc sống.
Thu thập dữ liệu điện tim
Tập dữ liệu ECG MIT-BIH Arrhythmia, được sử dụng trong nghiên cứu này, là một nguồn tài nguyên quan trọng đã được trích dẫn trong nhiều báo cáo khoa học toàn cầu Người dùng có thể tải xuống miễn phí từ trang web physionet Dữ liệu này được thu thập từ năm 1975 đến 1979 tại phòng thí nghiệm chứng rối loạn nhịp tim của bệnh viện Beth Israel, hiện nay là trung tâm y tế Beth Israel Deaconess Medical Center (BIDMC) ở Boston, Massachusetts, và được công bố lần đầu tiên vào năm 1980.
Tập dữ liệu này bao gồm 48 bản thu tín hiệu ECG từ 2 dây điện cực, ghi lại trong nửa giờ cho 47 bệnh nhân (tín hiệu 201 và 202 thuộc về cùng một bệnh nhân) Trong số 48 bản thu, 23 bản thu đầu tiên được chọn ngẫu nhiên từ 4000 bộ thu ECG linh động có độ dài 24 giờ, trong đó 60% là của bệnh nhân nội trú và 40% là của bệnh nhân ngoại trú 25 bản thu còn lại được chọn từ cùng một bộ, bao gồm các nhịp tim ít phổ biến nhưng có triệu chứng lâm sàng quan trọng.
Dữ liệu và các chú thích trên cơ sở dữ liệu PhysioNet chủ yếu được lưu trữ theo định dạng WFDB, bao gồm MIT format và European Data Format (EDF) Trong luận văn này, dữ liệu điện tim MIT-BIH Arrhythmia sử dụng định dạng MIT format, với tần số lấy mẫu 360 Hz (360 mẫu/giây) trên mỗi dây điện cực và độ phân giải ADC 11-bit trong dải điện áp 10mV Khoảng 110,000 chú thích về các bệnh tim đã được ít nhất hai bác sĩ chuyên khoa tim độc lập thẩm định cho mỗi bản thu, và mọi bất đồng trong kết quả thẩm định sẽ được giải quyết để đạt được kết quả khách quan cuối cùng.
Bảng 2.2 trình bày ý nghĩa của các định dạng dữ liệu tín hiệu điện tim theo tiêu chuẩn của MIT, bao gồm ba loại tệp: *.dat, *.hea và *.atr Mỗi định dạng mang một ý nghĩa riêng nhưng chúng bổ sung cho nhau, hỗ trợ các nhà nghiên cứu trong việc phân tích dữ liệu hiệu quả hơn.
Bảng 2.2 Bảng mô tả ý nghĩa của định dạng dữ liệu tín hiệu điện tim MIT- format
.dat files hea files atr files
Tập tin MIT Signal files là các tập tin nhị phân chứa mẫu tín hiệu số hóa, được lưu trữ dưới dạng sóng Tuy nhiên, để hiểu đúng các tín hiệu này, cần có các tập tin header tương ứng.
Những tập tin này có dạng: TEN_FILE.dat
Các tập tin header MIT là những tệp tin ngắn chứa ký tự, dùng để mô tả nội dung của các tệp tin liên kết như dat và atr.
Tập tin MIT Annotation là các tệp nhị phân chứa chú thích cho từng nhịp tim, tương ứng với tệp dat Để đọc tệp atr, cần kết hợp với các tệp header liên quan.
Tập dữ liệu MIT-BIH Arrhythmia cung cấp thông tin chi tiết về các bệnh nhân, bao gồm tên, tuổi, giới tính, cùng với các thông số như dây điện cực thứ nhất và thứ hai, cũng như số lượng nhịp tim tương ứng với từng loại bệnh.
Bảng 2.3 Thống kê chi tiết của tập dữ liệu MIT-BIH Arrhythmia
Tổng cộng: 48 bộ tín hiệu 181022 5552 14464 1604 22266 47 người
Phương pháp phân tích wavelet rời rạc
Biến đổi Fourier là công cụ quan trọng trong phân tích tần số tín hiệu, nhưng không thể phát hiện sự thay đổi tần số Để khắc phục điều này, biến đổi Fourier thời gian ngắn (STFT) sử dụng cửa sổ trượt để cung cấp thông tin về cả thời gian và tần số Tuy nhiên, độ dài cửa sổ trượt giới hạn độ phân giải tần số Phương pháp biến đổi wavelet được giới thiệu như một giải pháp, tương tự như biến đổi Fourier, nhưng khác biệt ở chỗ nó nhóm các hàm trong cả miền thời gian thực và không gian Fourier, giúp cải thiện khả năng phân tích tín hiệu.
( , ) = ( ) ( , ) ∗ ( ) (2.1) với * là liên hợp phức và hàm là một số hàm có thể được lựa chọn ngẫu nhiên để tuân theo một quy tắc nhất định
Biến đổi wavelet là một tập hợp vô hạn các biến đổi khác nhau, tùy thuộc vào mục đích sử dụng, và thường được nhắc đến trong nhiều tình huống và ứng dụng khác nhau Các loại biến đổi wavelet có thể được phân loại theo nhiều cách, trong đó nghiên cứu này tập trung vào phân loại dựa trên sự trực giao wavelet Wavelet trực giao phát triển biến đổi wavelet rời rạc, trong khi wavelet không trực giao phát triển biến đổi wavelet liên tục Hai loại biến đổi này có những thuộc tính riêng biệt, góp phần vào sự đa dạng và ứng dụng của biến đổi wavelet trong các lĩnh vực khác nhau.
Biến đổi wavelet rời rạc tạo ra một vector dữ liệu có độ dài tương đương với vector dữ liệu ngõ vào, trong đó nhiều giá trị gần như bằng 0 Phản hồi này phân rã thành bộ dữ liệu wavelet trực giao tương ứng với tỷ lệ của nó, dẫn đến số hệ số quang phổ wavelet bằng hoặc ít hơn số dữ liệu ngõ vào Nhờ vậy, quang phổ wavelet rất hiệu quả cho việc xử lý và nén tín hiệu.
Biến đổi wavelet liên tục tạo ra một mảng dữ liệu lớn hơn so với đầu vào, cho phép phân tích hình ảnh thời gian và tần số trong dữ liệu 1D Điều này giúp dễ dàng nhận diện các tần số tín hiệu trong suốt quá trình biểu diễn và so sánh quang phổ với các phổ tín hiệu khác.
Biến đổi wavelet rời rạc (DWT) nổi bật với khả năng nén tín hiệu, được áp dụng để lọc các tín hiệu điện tim trong vùng tần số nhất định DWT sử dụng bộ chia tỷ lệ và dịch wavelet theo các quy tắc cụ thể, cho phép phân tách tín hiệu thành các wavelet trực giao Điều này tạo ra sự khác biệt so với biến đổi wavelet liên tục (CWT) và biến đổi wavelet liên tục rời rạc thời gian (DT-CWT) Các wavelet được xây dựng từ một hàm chia tỷ lệ, tuy nhiên, hàm này cần phải trực giao với bản dịch rời rạc và tuân theo một số điều kiện toán học nhất định.
Chuyển đổi wavelet rời rạc (DWT) đã nổi lên như một công cụ mạnh mẽ trong lĩnh vực xử lý tín hiệu y sinh học Công thức 2.1 thể hiện rõ mối liên hệ giữa biến đổi wavelet liên tục (CWT) và DWT, cho thấy sự khác biệt rõ ràng giữa hai phương pháp này.
DWT và CWT là hai phương pháp sử dụng các giá trị vị trí và tỷ lệ dựa trên công suất của chúng Trong đó, các giá trị được xác định là = 2, = ∗ 2 và ( , ), như được thể hiện trong công thức (2.2).
Các vấn đề chính trong phân tích DWT và DWT đảo bao gồm việc phân tách và tái thiết lập tín hiệu Nguyên tắc cơ bản của quá trình này là áp dụng bộ lọc thông thấp và bộ lọc thông cao để thực hiện lấy mẫu xuống và lấy mẫu lên Kết quả của phân rã wavelet tạo ra các cấp phân rã được tổ chức theo thứ bậc, cho phép người dùng chọn cấp độ phân rã dựa trên tần số cắt mong muốn Hình 2.1 minh họa bộ phân loại DWT thuận với ba cấp độ, sử dụng bộ lọc đệ quy hai kênh.
ℎ ( ) tương ứng là bộ lọc thông thấp và thông cao, khối ↓ 2 là khối lấy mẫu xuống
Tín hiệu ngõ vào được phân tách thành bốn tín hiệu, bao gồm một tín hiệu thô (hay tín hiệu xấp xỉ) và ba tín hiệu chi tiết tương ứng với ba bộ phân giải khác nhau.
Hình 2.1 Bộ lọc thuận DWT ba cấp độ hai kênh
Hình 2.2 minh họa bộ phân loại DWT nghịch ba cấp độ sử dụng bộ lọc đệ quy hai kênh, với ℎ( ) là bộ lọc thông thấp và ℎ( ) là bộ lọc thông cao Khối ↑2 thực hiện việc lấy mẫu lên 2 lần Bốn tín hiệu ( ), ( ), ( ) và ( ) được kết hợp và tái cấu trúc để tạo ra tín hiệu ngõ ra ( ) Các bộ lọc đáp ứng xung hữu hạn phải thỏa mãn những mối quan hệ nhất định.
Với: là chiều dài của bộ lọc, và = 1, 2, … ,
Ngõ ra của DWT đảo chính là ngõ vào của DWT thuận, và không có phương pháp tuyệt đối nào để chọn wavelet Việc lựa chọn wavelet phụ thuộc vào loại tín hiệu cần phân tích và ứng dụng cụ thể Các loại wavelet phổ biến bao gồm Haar, Daubechies, Biorthogonal, Coiflets, Symlets, Morlet, Mexican Hat và Meyer Trong số đó, wavelet Daubechies (Db4) cho thấy khả năng biểu diễn tín hiệu chi tiết chính xác hơn so với các họ wavelet khác Hơn nữa, wavelet này thể hiện sự tương đồng với phức hợp QRS và phổ năng lượng tập trung ở tần số thấp Do đó, tác giả đã chọn wavelet Daubechies (Db4) để trích xuất các tính năng của ECG trong ứng dụng phân loại tín hiệu điện tim, và tín hiệu ECG sẽ được phân tích bằng Db4 Wavelet từ thứ tự 1 đến 8.
Hình 2.2 Bộ lọc nghịch DWT ba cấp độ hai kênh
Tín hiệu điện tim trong nghiên cứu này được lấy từ cơ sở dữ liệu MIT-BIH Arrhythmia, bao gồm 48 bản ghi tín hiệu ECG Mỗi bản ghi chứa tín hiệu ECG hai kênh trong 30 phút, được chọn từ các bản ghi 24 giờ của 47 bệnh nhân khác nhau Tập tin đầu đề cung cấp thông tin chi tiết về số mẫu, tần suất lấy mẫu, định dạng tín hiệu ECG, loại và số lượng điện cực ECG, cũng như lịch sử bệnh nhân và thông tin lâm sàng Các tín hiệu ECG (tập tin dat) đã được tải về từ Physionet.
Dữ liệu từ 15 được chuyển đổi sang định dạng MatLab (.mat), cho phép đọc riêng biệt các tín hiệu từ hai điện cực Từ đó, tác giả luận văn tiến hành phân tích dựa trên điện cực II.
Phương pháp giảm chiều dữ liệu
Giảm chiều dữ liệu (DR) đóng vai trò quan trọng trong nhiều lĩnh vực, giúp phân loại, hình dung và nén dữ liệu đa chiều, đồng thời giảm thiệt hại về chiều và các đặc tính không mong muốn Thiệt hại khi giảm chiều thường liên quan đến việc thiếu những giả định đơn giản và kích thước mẫu cần thiết để ước tính hàm của các biến với độ chính xác cao Trong lý tưởng nhất, DR là quá trình chuyển đổi dữ liệu đa chiều thành một biểu diễn có ít chiều hơn.
Giảm chiều dữ liệu được chia thành hai loại: kỹ thuật giảm chiều tuyến tính và phi tuyến Kỹ thuật tuyến tính giả định dữ liệu nằm gần không gian tuyến tính, trong khi kỹ thuật phi tuyến không dựa vào giả thuyết này Hai phương pháp phổ biến trong giảm chiều dữ liệu là phân tích thành phần chính (PCA) và phân tích phân loại tuyến tính (LDA) PCA thay đổi hình dạng và vị trí của dữ liệu khi chuyển sang không gian khác, trong khi LDA giữ nguyên vị trí và tập trung vào việc tách biệt các lớp dữ liệu Việc giảm kích thước dữ liệu giúp loại bỏ thông tin dư thừa, nâng cao chất lượng dữ liệu trong phân tích.
2.4.1 Phương pháp phân tích thành phần chính (Principal Component Analysis PCA)
Phân tích thành phần chính (PCA) là một công cụ thống kê phổ biến dùng để phân tích dữ liệu, với mục tiêu giảm kích thước của dữ liệu chứa nhiều biến tương quan mà vẫn giữ lại các biến đại diện cho tập dữ liệu Quá trình giảm chiều dữ liệu thông qua PCA không làm ảnh hưởng đến đặc trưng nguyên thủy của tín hiệu, từ đó mang lại kết quả chính xác hơn và thể hiện sự tương đồng cũng như khác biệt giữa các thành phần Kỹ thuật PCA giúp chuyển đổi dữ liệu thành một tập các đặc trưng mới mà không làm mất đi nhiều thông tin từ các thành phần dữ liệu ban đầu.
Chuyển đổi PCA giúp giảm chiều không gian, tập trung vào các biến chính trong bộ dữ liệu Ý tưởng cốt lõi của PCA là phân tích và khai thác thông tin từ ma trận hiệp phương sai của dữ liệu, từ đó tối ưu hóa việc xử lý và phân tích dữ liệu.
Biến 1 (2.7) thể hiện sự tương tác giữa các tính năng riêng lẻ và các biến chéo, phản ánh hiệp phương sai giữa các cặp tính năng tương ứng Qua đó, CPCA được tạo ra khi dữ liệu được chuyển đổi Y.
= PX với các hàng của P là eigenvector cả XX T , do đó
CPCA là số phương sai của dữ liệu theo hướng của thành phần chính tương ứng
Kỹ thuật này giúp giảm chiều dữ liệu bằng cách loại bỏ các thành phần ít quan trọng, đồng thời giữ lại những thành phần có đặc tính nổi bật hơn.
2.4.2 Phương pháp phân tích phân biệt tuyến tính (Linear Discriminant Analysis
Phân tích phân biệt tuyến tính (LDA) là một kỹ thuật giảm kích thước tuyến tính cổ điển, nhằm tối ưu hóa sự phân tán giữa các lớp trong dữ liệu LDA đo lường sự khác biệt giữa các lớp và sự khác biệt bên trong lớp, đảm bảo khả năng tách biệt tối đa cho dữ liệu Quá trình này không thay đổi vị trí của dữ liệu mà chỉ tạo ra sự tách biệt và xác định vùng quyết định giữa các lớp Bằng cách này, LDA giúp hiểu rõ hơn về phân phối các tính năng dữ liệu, phát hiện các tính năng quan trọng và chuyển đổi chúng thành một không gian mới, bao gồm những đặc trưng nổi bật nhất của dữ liệu.
LDA, hay Phân tích phân biệt tuyến tính, là một phương pháp phổ biến trong thống kê, nhận dạng mô hình và máy học, nhằm tìm ra sự kết hợp tuyến tính giữa các đặc trưng để phân tách các lớp đối tượng hoặc sự kiện Trong lĩnh vực máy học, LDA được xếp vào phương pháp học có giám sát, vì nó xem xét các biến phụ thuộc để xác định hệ số học phù hợp cho từng điểm dữ liệu thuộc các lớp khác nhau.
LDA và PCA đều tìm kiếm sự kết hợp tuyến tính của các biến để giải thích dữ liệu, nhưng LDA tập trung vào việc mô hình hóa sự khác biệt giữa các lớp trong khi PCA chỉ xem xét sự dao động giữa các chiều dữ liệu mà không phân biệt lớp LDA sử dụng biến phụ thuộc để đo lường sự dao động độc lập cho từng lớp dữ liệu, từ đó thực hiện phép chiếu sang không gian dữ liệu mới, nơi các lớp được phân biệt rõ ràng hơn.
Các phép đo lường trong lớp (SW) và giữa các lớp (Sb) được tính bằng cách sử dụng phương trình dưới đây:
Xác suất của các lớp được biểu thị qua ma trận hiệp phương sai, trong khi ma trận tán xạ giữa các lớp khác nhau thể hiện sự khác biệt giữa chúng Đồng thời, ma trận tán xạ trong cùng một lớp cho thấy sự phân tán của các điểm dữ liệu trong lớp đó.
Các véc tơ giá trị riêng ( , , … , ) tương ứng với các giá trị riêng ( , , … , ) được tìm ra bằng các giải phương trình trực giao = trong đó:
Chọn các véc tơ riêng (v1, v2, …, vn) theo thứ tự giảm dần của các giá trị riêng (λ1, λ2, …, λn) Từ đó, tạo ra ma trận giảm chiều W [v1, v2, …, vn], trong đó mỗi cột của ma trận đại diện cho một véc tơ riêng.
Dữ liệu giảm chiều có được bằng cách chiếu tập dữ liệu gốc sang không gian giảm chiều mới dùng công thức sau:
Trong đó: × là ma trận tập dữ liệu gốc × là ma trận ánh xạ giảm chiều × là ma trận dữ liệu trong không gian giảm chiều mới
Phương pháp học tập chuyển đổi Large Margin Nearest Neighbor – LMNN [9]
Nhiều thuật toán máy học, như k-nearest neighbor (KNN) và k-Means, đều cần tính toán khoảng cách để thực hiện phân loại và phân cụm dữ liệu.
Khi tính toán khoảng cách bằng số liệu khoảng cách Euclidean, có 19 trường hợp khác nhau cần xem xét Tuy nhiên, việc áp dụng khoảng cách cố định không phải lúc nào cũng mang lại hiệu quả cho tất cả các vấn đề.
Một số nghiên cứu đã tập trung vào các phương pháp tiếp cận dữ liệu cụ thể nhằm suy ra chỉ số tốt nhất, và kỹ thuật này được biết đến với tên gọi là học chuyển đổi (Metric Learning).
2.5.1 Không gian metric và khoảng cách Mahalanobis [10, 11]
Để hiểu rõ về đại số tuyến tính, trước tiên cần nắm vững một số thuật ngữ cơ bản Một phép ánh xạ từ không gian véc tơ A đến không gian véc tơ B được gọi là không gian metric nếu nó thỏa mãn các thuộc tính nhất định cho tất cả các véc tơ ∀ ⃗ , ⃗ , ⃗ ∈ A.
⃗ , ⃗ + ⃗ , ⃗ ≥ ( ⃗ , ⃗ ) (bất đẳng thức tam giác) (2.14)
Một phép ánh xạ thỏa mãn ba thuộc tính đầu nhưng không thỏa thuộc tính thứ tư, theo công thức 2.17, được gọi là không gian giả metric Điều này có nghĩa rằng nếu hai vector ⃗ và ⃗ bằng nhau, thì chúng có thể phân biệt được.
Chúng ta có thể xây dựng một họ không gian metric trên không gian véc tơ bằng cách tính toán các khoảng cách Euclidean sau khi thực hiện phép chuyển đổi tuyến tính Không gian metric này tính toán khoảng cách vuông theo công thức cụ thể, từ đó tạo ra các đặc trưng hình học cho không gian véc tơ.
Phương trình 2.18 được tham số bởi ma trận, xác định một không gian metric hợp lệ khi hạng của ma trận là đầy đủ Ngược lại, nếu hạng của ma trận không đầy đủ, phương trình 2.18 sẽ định nghĩa một không gian giả metric.
Thông thường để biểu diễn các khoảng cách bình phương theo phương trình 2.18 về dạng ma trận vuông theo phương trình như sau:
Bất kỳ ma trận M nào được tạo ra từ một ma trận có giá trị thực đều đảm bảo tính chất bán xác định dương, tức là có các giá trị riêng không âm Khoảng cách bình phương liên quan đến ma trận M được ký hiệu một cách cụ thể.
Khoảng cách Mahalanobis, hay còn gọi là công thức trên, được xem là một trường hợp tổng quát của khoảng cách Euclidean Cụ thể, khoảng cách Euclidean có thể được phục hồi từ công thức này bằng cách thiết lập ma trận M là một ma trận xác định.
Mô hình LMNN dựa trên hai trực giác cơ bản:
Mỗi dữ liệu ngõ vào huấn luyện ⃗ nên kết nối gần hơn với k các điểm lân cận
⃗ gần nhất có cùng dán nhãn ⃗
Mỗi dữ liệu ngõ vào huấn luyện ⃗ nên được tách biệt rộng ra so với các điểm dữ liệu khác loại ⃗ được dán nhãn ⃗
Phương pháp LMNN tập trung vào việc tối ưu hóa sự chuyển đổi tuyến tính của không gian đầu vào để các đầu vào huấn luyện đạt được các đặc tính mong muốn Hai trực giác cơ bản trong LMNN tương ứng với hai thuật ngữ đối lập trong hàm mục tiêu: đầu tiên là tạo ra khoảng cách lớn giữa các điểm dữ liệu cùng nhãn, và thứ hai là duy trì khoảng cách nhỏ giữa các điểm dữ liệu khác nhãn Để làm rõ khái niệm "lớn" và "nhỏ", chúng ta cần giới thiệu một số thuật ngữ mới Trong ngữ cảnh toán học, điểm ngoại lai (impostors) được định nghĩa thông qua một bất đẳng thức đơn giản: cho một điểm dữ liệu mục tiêu có nhãn ⃗ và các lân cận mục tiêu ⃗, một điểm ngoại lai là bất kỳ điểm dữ liệu nào có nhãn ⃗ khác với ⃗.
Một điểm ngoại lai ⃗ được định nghĩa là bất kỳ điểm dữ liệu nào được gán nhãn khác biệt so với điểm dữ liệu mục tiêu ⃗ Điều này có thể được biểu diễn bằng bất đẳng thức ‖ ( ⃗ − ⃗ )‖ ≤ ‖ ( ⃗ − ⃗ )‖ + 1, cho thấy rằng khoảng cách giữa điểm ngoại lai và điểm mục tiêu không vượt quá một giá trị nhất định.
21 chiếm chu vi và biên lề (chu vi và biên lề được định nghĩa bởi các điểm lân cận mục tiêu ⃗ của điểm dữ liệu ⃗
Phương pháp học chuyển đổi LMNN được minh họa trong hình 2.3, cho thấy rằng trước khi thực hiện quá trình học tập, dữ liệu đầu vào bao gồm cả các điểm lân cận và điểm ngoại lai trong một khu vực cụ thể Trong quá trình học tập, các điểm ngoại lai sẽ bị đẩy ra khỏi chu vi hình thành bởi các điểm lân cận Kết quả cuối cùng là một biên giới rõ ràng giữa chu vi và các điểm ngoại lai sau khi hoàn tất quá trình học chuyển đổi.
Hình 2.3 Sơ đồ minh họa vùng lân cận của một dữ liệu ngõ vào trước khi huấn luyện (trái) với sau khi huấn luyện (phải)
Các khoảng cách đã được tối ưu như sau:
Sau khi huấn luyện, có ba láng giềng mục tiêu (k=3) nằm trong một bán kính nhỏ hơn, trong khi các ngõ vào khác loại lại nằm ngoài bán kính này với một khoảng cách nhất định.
(iii) Các mũi tên chỉ thị độ chênh lệch (gradient) khoảng cách
Hàm chi phí (cost function hoặc loss function) cho học tập chuyển đổi khoảng cách é ( ) = ⃗ − ⃗
L: là ma trận chuyển đổi tuyến tính của không gian ngõ vào
Hinge Loss là một tiêu chuẩn quan trọng trong học máy, với hai hàm chi phí chính: hàm chi phí é ( ) dùng để tính toán khoảng cách lớn giữa các mẫu cùng loại, và hàm chi phí đẩ ( ) áp dụng cho khoảng cách nhỏ giữa các mẫu khác loại.
[0,1]: là tham số trọng số để cân bằng hàm chi phí
Thông số có thể được điều chỉnh thông qua đánh giá chéo, và kết quả thực nghiệm cho thấy giá trị không có ảnh hưởng đáng kể đến việc tối ưu hóa hàm chi phí Thực tế cho thấy giá trị = 0.5 đã mang lại hiệu quả tốt.
2.5.3 Tối ưu mặt lồi –Convex Optimization
Phương pháp phân loại sử dụng Neuron Network
Mạng nơron nhân tạo (Artificial Neural Networks) mô phỏng cấu trúc nơron sinh học, bao gồm các đơn vị tính toán đơn giản liên kết chặt chẽ với nhau Các liên kết giữa các nơron quyết định chức năng của mạng, tạo nên những đặc trưng cơ bản quan trọng trong việc xử lý thông tin.
- Gồm một tập các đơn vị xử lý (các neural nhân tạo)
- Trạng thái kích hoạt hay đầu ra của đơn vị xử lý
Mỗi liên kết giữa các đơn vị được xác định bởi trọng số Wjk, cho biết tác động của tín hiệu từ đơn vị j đến đơn vị k.
- Một luật lan truyền quyết định cách tính tín hiệu ra của từng đơn vị từ đầu vào của nó
- Một hàm kích hoạt, hay hàm chuyển (activation function, transfer function), xác định mức độ kích hoạt khác dựa trên mức độ kích hoạt hiện tại
- Một đơn vị điều chỉnh (độ lệch) (bias, offset) của mỗi đơn vị
- Phương pháp thu thập thông tin (luật học - learning rule)
- Môi trường hệ thống có thể hoạt động
Các thành phần cơ bản của mạng neural nhân tạo bao gồm: đơn vị xử lý, hàm kết hợp, hàm kích hoạt
2.6.1 Đơn vị xử lý mạng neural network Đơn vị xử lý còn được gọi là một nơron hay một nút (node), thực hiện một công việc rất đơn giản: nó nhận tín hiệu vào từ các đơn vị phía trước hay một nguồn bên ngoài và sử dụng chúng để tính tín hiệu ra sẽ được lan truyền sang các đơn vị khác
Hình 2.4 Đơn vị xử lý trong Neuron Network
Sau đây là công thức tính aj và zj
Trong mạng nơron, các đầu vào được ký hiệu là xi, trong khi các trọng số tương ứng với các đầu vào được ký hiệu là wji Độ lệch, hay bias, được ký hiệu là θj Aj đại diện cho đầu vào mạng (net-input), và zj là đầu ra của nơron Hàm chuyển hay hàm kích hoạt được biểu diễn bằng g(x).
Trong một mạng nơron có ba kiểu đơn vị:
- Các đơn vị đầu vào (input units), nhận tín hiệu từ bên ngoài
- Các đơn vị đầu ra (output units), gửi dữ liệu ra bên ngoài
- Các đơn vị ẩn (hidden units), tín hiệu vào (input) và ra (output) của nó nằm trong mạng
Mỗi đơn vị j trong mạng có thể nhận một hoặc nhiều đầu vào như x0, x1, x2, … xn, nhưng chỉ có một đầu ra duy nhất là zj Các đầu vào này có thể là dữ liệu từ bên ngoài mạng, đầu ra của một đơn vị khác, hoặc thậm chí là đầu ra của chính đơn vị đó.
2.6.2 Hàm kết hợp trong neural network
Trong một mạng nơron, mỗi đơn vị kết hợp các giá trị đầu vào thông qua liên kết với các đơn vị khác để tạo ra giá trị net input Hàm kết hợp, được định nghĩa bởi một luật lan truyền cụ thể, thực hiện nhiệm vụ này Thông thường, mỗi đơn vị cung cấp một bộ cộng đầu vào cho đơn vị mà nó liên kết Tổng đầu vào của đơn vị j là tổng trọng số của các đầu ra từ các đơn vị kết nối cộng thêm ngưỡng hay độ lệch (bias) Khi giá trị đầu vào lớn hơn 0, nơron được coi là kích thích, trong khi giá trị nhỏ hơn 0 cho thấy nơron ở trạng thái kiềm chế Các đơn vị này được gọi là sigma units, và trong một số trường hợp, có thể áp dụng các luật lan truyền phức tạp hơn như luật sigma-pi.
Nhiều hàm kết hợp áp dụng một "độ lệch" hay "ngưỡng" để tính toán đầu vào ròng cho đơn vị Đối với đơn vị đầu ra tuyến tính, thường thì θj được xác định là một hằng số, và trong bài toán xấp xỉ đa thức, θj được chọn là 1.
2.6.3 Hàm kích hoạt trong neural network
Trong mạng nơron, các đơn vị thường sử dụng hàm kích hoạt để chuyển đổi đầu vào thành mức độ kích hoạt, với kết quả là giá trị được đưa vào các đơn vị khác Các hàm kích hoạt, thường bị giới hạn trong một khoảng nhất định, được gọi là hàm bẹp và bao gồm các loại phổ biến như hàm đồng nhất, hàm bước nhị phân, hàm sigmoid và hàm lưỡng cực.
Các hàm chuyển của các đơn vị ẩn là yếu tố quan trọng để đưa tính phi tuyến vào mạng nơ-ron Mặc dù hợp thành của các hàm đồng nhất tạo thành một hàm đồng nhất, nhưng tính phi tuyến cho phép mạng nhiều tầng biểu diễn các ánh xạ phi tuyến hiệu quả Đối với luật học lan truyền ngược, yêu cầu hàm phải khả vi và gắn trong một khoảng nhất định để đạt được hiệu quả tốt nhất.
Hàm sigmoid là lựa chọn phổ biến cho các đơn vị đầu ra, đặc biệt khi giá trị ra nằm trong khoảng [0,1] Nó hữu ích cho các giá trị liên tục trong khoảng này, giúp cung cấp các giá trị ra được căn trong hàm kích hoạt đầu ra Tuy nhiên, nếu giá trị đích không có khoảng xác định, hàm đồng nhất (identity function) thường được sử dụng Đối với giá trị mong muốn dương mà không biết cận trên, hàm kích hoạt dạng mũ (exponential output activation function) là lựa chọn thích hợp.
2.6.4 Hàm mục tiêu Để huấn luyện một mạng và xét xem nó thực hiện tốt đến đâu, ta cần xây dựng một hàm mục tiêu (hay hàm giá) để cung cấp cách thức đánh giá khả năng hệ thống
Việc chọn hàm mục tiêu chính xác là rất quan trọng vì nó thể hiện các mục tiêu thiết kế và quyết định thuật toán huấn luyện phù hợp Phát triển một hàm mục tiêu đo lường chính xác những gì chúng ta mong muốn không phải là điều đơn giản Trong số các hàm cơ bản được sử dụng rộng rãi, hàm tổng bình phương lỗi (sum of squares error function) là một trong những lựa chọn phổ biến.
Trong bài viết này, p đại diện cho số thứ tự mẫu trong tập huấn luyện, trong khi i là số thứ tự của đơn vị đầu ra Các ký hiệu t pi và y pi lần lượt biểu thị đầu ra mong muốn và đầu ra thực tế của mạng đối với đơn vị đầu ra thứ i trên mẫu thứ p.
Trong các ứng dụng thực tế, việc làm phức tạp hàm số với một số yếu tố bổ sung là cần thiết để kiểm soát mức độ phức tạp của mô hình.
2.6.5 Thuật toán lan truyền ngược (Back-Propagation)
Có hai dạng thuật toán chính để huấn luyện mạng nơron: học giám sát và học không giám sát Mạng nơron truyền thẳng nhiều lớp thường được huấn luyện bằng phương pháp học có thầy, trong đó mạng thực hiện chức năng của mình và so sánh kết quả với đầu ra mong muốn Quá trình này giúp điều chỉnh các tham số của mạng, cho phép nó học hỏi từ những sai sót đã mắc phải.
Phương pháp đánh giá một bộ phân loại
Khi đã xác định vấn đề và dữ liệu cần phân loại, việc áp dụng các thuật toán machine learning trở nên cần thiết để giải quyết bài toán Thời gian dành cho việc lựa chọn, thực hiện và điều chỉnh các thuật toán cần được tối ưu để đảm bảo hiệu quả và đạt được mục tiêu Để đánh giá độ chính xác của bộ phân loại, có nhiều phương pháp như confusion matrix, positive predictive value, null error rate, Cohen’s Kappa, F Score và ROC curve Tuy nhiên, bài viết này chỉ tập trung vào hai phương pháp là confusion matrix và đường cong ROC để đánh giá tỉ lệ lỗi của bộ phân loại đề xuất.
Trong khoa học thống kê, đường cong ROC (Receiver Operating Characteristic) là biểu đồ thể hiện khả năng chẩn đoán của hệ thống phân loại nhị phân với ngưỡng phân loại thay đổi Đường cong ROC thường được sử dụng để hình dung hiệu suất của bộ phân loại, trong khi AUC (Area Under Curve) tóm tắt hiệu suất này thành một số duy nhất ROC và AUC là công cụ hữu ích cho các nhà khoa học dữ liệu, nhà thực hành máy học và nhà nghiên cứu y học trong việc đánh giá và điều chỉnh bộ phân loại Phân tích ROC liên quan trực tiếp đến quyết định chi phí và lợi ích của các quyết định chẩn đoán.
Đường cong ROC cho thấy rằng nếu nó đi dọc theo biên trái và biên trên của không gian ROC, kết quả kiểm tra sẽ càng chính xác Ngược lại, nếu đường cong tiến gần đến đường chéo 45 độ, độ chính xác sẽ giảm Hệ số góc của đường thẳng tiếp tuyến tại điểm cắt cho biết tỷ lệ LR tại giá trị điểm cắt đó Diện tích dưới đường cong ROC là thước đo độ chính xác của bộ phân loại, với giá trị 1 là tối ưu và 0.5 là kém, phản ánh khả năng phân biệt tốt hay xấu Để tính diện tích này, có hai phương pháp chính: sử dụng tham số và không sử dụng tham số, được hiện thực hóa qua các chương trình tính toán Kết quả cho ra diện tích và sai số chuẩn, giúp so sánh giữa các phép kiểm tra khác nhau hoặc trong cùng một phép kiểm tra với số cá thể khác nhau.
Trong hình 2.4, các điểm ROC A, B, C đại diện cho ba mô hình khác nhau Mô hình A đạt kết quả tốt nhất với tỷ lệ Accuracy là 0.68 Mô hình B, với điểm B nằm trên đường dự báo ngẫu nhiên, chỉ đạt Accuracy là 0.5, cho thấy đây là kết quả của việc dự báo ngẫu nhiên khi chưa xác định được xác suất xảy ra của các trường hợp positive và negative.
Mô hình C có tỷ lệ Accuracy thấp nhất, với kết quả dự báo kém hơn so với dự báo ngẫu nhiên Tuy nhiên, khi phản chiếu mô hình C qua điểm trung tâm (0.5, 0.5), mô hình C’ cho kết quả tốt hơn mô hình A Phản chiếu này đơn giản là đảo ngược dự báo của mô hình C từ Positive sang Negative Một mô hình có độ chính xác cao sẽ có điểm biểu diễn trên đồ thị ROC gần góc trái phía trên Tuy nhiên, việc lựa chọn mô hình phù hợp không chỉ dựa vào đồ thị ROC mà còn cần xem xét giá trị rủi ro có thể tránh khỏi.
Việc so sánh hai đồ thị ROC của các mô hình chỉ mang tính tương đối; chỉ số chính xác hơn để đánh giá sức mạnh của mô hình là khoảng cách của điểm ROC với đường random line Khoảng cách này càng lớn thì mô hình có sức mạnh phân loại cao hơn Khi điểm ROC trùng với đỉnh góc trên bên trái, mô hình đạt được phân loại hoàn hảo với Sensitivity = 100% và False positive rate = 0% Ngược lại, điểm ở góc dưới bên phải thể hiện mô hình dự báo hoàn toàn sai với Sensitivity = 0% và False positive rate = 100% Một mô hình có sức mạnh dự báo lớn hơn so với dự báo ngẫu nhiên khi ROC nằm phía trên bên trái đường random line Giá trị cutpoint tốt nhất để phân loại Positive và Negative cho mô hình là điểm tiệm cận của đường thẳng song song với đường random line và ROC curve.
Ma trận nhầm lẫn cung cấp thông tin về phân loại thực tế và dự đoán của hệ thống phân loại, giúp đánh giá hiệu suất của hệ thống Bảng 2.4 minh họa ma trận nhầm lẫn cho một trình phân loại hai lớp, từ đó cho phép chúng ta rút ra các thông tin quan trọng về khả năng phân loại của mô hình.
- TP (True Positive): mẫu mang nhãn dương được phân lớp đúng vào lớp dương
- FN (False Negative): mẫu mang nhãn dương bị phân lớp sai vào lớp âm
- FP (False Positive): mẫu mang nhãn âm bị phân lớp sai vào lớp dương
- TN (True Negative): mẫu mang nhãn âm bị phân lớp đúng vào lớp âm
Bảng 2.4 Ma trận nhầm lẫn
Độ chính xác (AC) trong ma trận nhầm lẫn 2 lớp được định nghĩa là tỷ lệ giữa tổng số dự đoán chính xác và tổng số dự đoán Công thức tính độ chính xác được thể hiện qua một phương trình cụ thể.
Tỷ lệ thu hồi, hay tỷ lệ dương tính đúng (TP), là chỉ số phản ánh tỷ lệ các trường hợp dương tính được xác định chính xác Tỷ lệ này được tính toán thông qua một phương trình cụ thể.
Tỷ lệ dương tính sai (FP) là tỷ lệ các trường hợp âm tính đã được phân loại không chính xác và được tính toán bằng phương trình:
Tỷ lệ âm tính đúng (TN) được định nghĩa là tỷ lệ các trường hợp âm tính được phân loại chính xác được tính bằng phương trình:
Tỷ lệ âm tính sai (FN) là tỷ lệ các trường hợp dương tính bị phân loại sai thành tiêu cực, được tính toán theo một phương trình cụ thể.
Cuối cùng, độ chính xác (P) là tỷ lệ các trường hợp dương tính tiên đoán được chính xác như được tính bằng phương trình:
Độ chính xác của bộ phân loại có thể bị ảnh hưởng bởi sự phân bố không đồng đều trong các lớp hoặc khi có nhiều hơn hai lớp trong dữ liệu Ma trận nhầm lẫn là công cụ hữu ích để đánh giá độ chính xác của bộ phân loại, giúp xác định tính phù hợp của mô hình và loại lỗi xảy ra Ưu điểm của ma trận nhầm lẫn là khả năng chỉ ra các tình huống quan trọng, từ đó cung cấp cái nhìn sâu sắc về hiệu suất của các lớp phân loại khác nhau Tuy nhiên, nhược điểm của nó là cần thực hiện nhiều thí nghiệm để hiểu rõ hơn và không phải là phương pháp đồ họa.
Đường cong ROC là một phương pháp đánh giá độ chính xác của bộ phân loại, giúp hiển thị thông tin phản hồi một cách đơn giản và trực quan Việc thu thập 33 giá trị số từ bảng confusion matrix rất khác nhau và cần được so sánh riêng biệt.