1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đánh giá tỷ lệ lỗi của bộ phân loại tín hiệu điện tim dùng neural network

99 8 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Đánh Giá Tỷ Lệ Lỗi Của Bộ Phân Loại Tín Hiệu Điện Tim Dùng Neural Network
Thể loại thesis
Định dạng
Số trang 99
Dung lượng 2,69 MB

Cấu trúc

  • CHƯƠNG I: TỔNG QUAN (10)
    • 1.1 Tổng quan về lĩnh vực nghiên cứu (10)
    • 1.2 Các kết quả nghiên cứu trong và ngoài nước đã công bố (10)
      • 1.2.1 Các kết quả nghiên cứu trong nước (10)
      • 1.2.2 Các kết quả nghiên cứu quốc tế (12)
    • 1.3 Mục tiêu của đề tài (13)
    • 1.4 Nhiệm vụ và giới hạn của đề tài (14)
      • 1.4.1 Nhiệm vụ của đề tài (14)
      • 1.4.2 Giới hạn của đề tài (14)
    • 1.5 Phương pháp nghiên cứu (15)
  • CHƯƠNG II: CƠ SỞ LÝ THUYẾT (17)
    • 2.1 Khái niệm về tín hiệu điện tim ECG (17)
    • 2.2 Cách tính toán nhịp tim (19)
    • 2.3 Phương pháp đề xuất phân loại tín hiệu ECG (21)
    • 2.4 Thu thập dữ liệu (22)
    • 2.5 Phương pháp phân loại (26)
    • 2.6 Phương pháp đánh giá độ chính xác của bộ phân loại (31)
      • 2.6.1 Confusion matrix (31)
      • 2.6.2 Đường cong ROC (35)
  • CHƯƠNG III: PHÂN LOẠI TÍN HIỆU ECG DÙNG NEURAL NETWORK (38)
    • 3.1 Trích đặc trưng tín hiệu điện tim (39)
      • 3.1.1 Tách từng nhịp tim từ bộ dữ liệu Arrythmia (39)
      • 3.1.2 Chuyển đổi wavelet rời rạc tín hiệu nhịp tim từ miền thời gian sang miền tần số32 (41)
      • 3.1.3 Giảm chiều dữ liệu sử dụng phương pháp phân tích thành phần chính PCA (46)
    • 3.2 Phân loại tín hiệu điện tim sử dụng phương pháp mạng thần kinh nhân tạo Neural (51)
  • CHƯƠNG IV: KẾT QUẢ (54)
  • CHƯƠNG V: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN (67)
    • 5.1 Kết luận (67)
    • 5.2 Hướng phát triển của đề tài (67)
  • TÀI LIỆU THAM KHẢO (69)
    • B. PHỤ LỤC (71)
      • B.1 CHƯƠNG TRÌNH MATLAB (71)
      • B.2 BÀI BÁO KHOA HỌC (93)

Nội dung

TỔNG QUAN

Tổng quan về lĩnh vực nghiên cứu

Với tỷ lệ tử vong cao do bệnh tim, việc phát hiện sớm và phân loại chính xác tín hiệu ECG là cực kỳ cần thiết để giúp bác sĩ chẩn đoán các bệnh tim khác nhau ECG ghi lại nhịp tim, từ đó cho phép xác định các vấn đề về tim mạch Việc áp dụng kỹ thuật máy tự học (machine learning) trong phân loại tín hiệu ECG cung cấp cho bác sĩ những phân tích ban đầu quan trọng để đưa ra chẩn đoán Phân loại và phát hiện các rối loạn nhịp tim giúp nhận diện các tín hiệu bất thường trong ECG, từ đó phát hiện bệnh tim và cải thiện phương pháp điều trị cho bệnh nhân.

Phân loại tín hiệu ECG gặp nhiều khó khăn do sự thiếu chuẩn hóa và tính biến đổi của các đặc điểm tín hiệu Mỗi mô hình ECG mang đặc tính riêng, không có quy tắc phân loại tối ưu nào cho bộ phân loại ECG, và mỗi bệnh nhân có dạng sóng ECG khác nhau Việc phát triển một bộ phân loại hiệu quả, có khả năng phân loại rối loạn nhịp tim trong thời gian thực là một thách thức lớn Các ứng dụng phân loại tín hiệu ECG hiện nay đã phát hiện được nhiều loại tín hiệu bất thường và cung cấp phân tích chính xác hơn so với phương pháp thủ công, đồng thời hỗ trợ trong chẩn đoán và điều trị bệnh nhân mắc bệnh tim.

Các kết quả nghiên cứu trong và ngoài nước đã công bố

1.2.1 Các kết quả nghiên cứu trong nước

Tại tọa đàm “Vì trái tim khỏe Việt Nam” bệnh viện tim Hà Nội vào ngày 25 tháng

Theo thống kê năm 2015, tại Việt Nam, cứ ba người trưởng thành thì có một người có nguy cơ mắc bệnh tim mạch Mỗi năm, bệnh này ảnh hưởng đến sức khỏe của hàng triệu người dân.

Bệnh tim mạch đang trở thành một vấn đề nghiêm trọng tại Việt Nam, cướp đi khoảng 200.000 sinh mạng mỗi năm, chiếm một phần tư tổng số ca tử vong Theo GS Phạm Gia Khải, nguyên Chủ tịch Hội tim mạch, tỷ lệ mắc bệnh tim ở Việt Nam rất cao, có thể là cao nhất về bệnh suất và tử suất Ông ví von bệnh tim như một "sát thủ thầm lặng," vì nhiều người bị tăng huyết áp hoặc các biến chứng tim mạch thường không nhận thức được tình trạng của mình Các trường hợp tử vong do suy tim, loạn nhịp tim và tắc mạch vành đang ngày càng trở nên phổ biến.

Các nhà nghiên cứu từ Đại học Khoa học Công nghệ Hà Nội và Viện Dân số, Sức khỏe, Phát triển Việt Nam đã phát triển một thiết bị di động giá rẻ có khả năng theo dõi tín hiệu điện tim ECG bằng hai điện cực dương Thiết bị này được thiết kế linh hoạt và dễ dàng sử dụng cho từng cá nhân Nhờ vào pin của điện thoại thông minh, ứng dụng di động được xây dựng với thuật toán phức tạp, cho phép xử lý thời gian thực và ước lượng tham số Sử dụng điện thoại thông minh cũng mở ra khả năng phát triển các ứng dụng khác trong tương lai, như phát hiện hoạt động bất thường và cảnh báo về sức khỏe.

Tại hội thảo quốc tế năm 2009, Phan Anh Phong và Kieu Quang Thien đã nghiên cứu phân loại loạn nhịp tim bằng hệ thống mờ TSK loại 2 Bài báo giới thiệu phương pháp xây dựng hệ mờ Takagi-Sugeno-Kang (TSK) loại 2 để phân tích điện tim đồ (ECG), nhằm phân biệt nhịp xoang bình thường (NSR), rung tâm thất (VF) và nhịp tim nhanh thất (VT) Hai đặc trưng chính của tín hiệu ECG, bao gồm khoảng thời gian trung bình và độ rộng xung, được sử dụng làm đầu vào cho bộ phân loại mờ Ngoài ra, các tác giả áp dụng thuật toán phân cụm trung bình fuzzy và kỹ thuật truyền lại để xác định các thông số của bộ phân loại fuzzy TSK loại 2 Kết quả từ thí nghiệm trên dữ liệu Malignant Ventricular Arrhythmia MIT-BIH cho thấy độ chính xác phân loại đạt 100% cho tín hiệu NSR, 93,3% cho tín hiệu VF và 92% cho tín hiệu VT.

Nghiên cứu trong nước về tín hiệu điện tim (ECG) đã tập trung vào ngưỡng tối ưu cho thuật toán nén hai trạng thái và việc loại bỏ nhiễu tín hiệu bằng phương pháp wavelet, nhưng chưa đi sâu vào phân loại tín hiệu Một số nghiên cứu chỉ phân loại các loại bệnh như nhịp xoang bình thường, rung tâm thất và nhịp tim nhanh thất, trong khi nghiên cứu này mở rộng phạm vi phân loại hầu hết các loại bệnh tim theo tiêu chuẩn ANSI/AAMI EC57:1998 Do đó, luận văn này sẽ cung cấp cái nhìn tổng quan hơn về phân loại tín hiệu điện tim.

1.2.2 Các kết quả nghiên cứu quốc tế

Tỷ lệ mắc bệnh tim mạch (CVD) đang gia tăng, với 17.7 triệu ca tử vong mỗi năm, chiếm 31% tổng số ca tử vong toàn cầu Nguyên nhân chủ yếu gây loạn nhịp tim là bệnh tim mạch, và việc giải mã thông tin từ tín hiệu ECG gặp khó khăn do biên độ và thời gian nhỏ Sự gia tăng bệnh tim mạch hiện đại liên quan đến các yếu tố như béo phì, đái tháo đường, thói quen hút thuốc và thay đổi lối sống Rối loạn nhịp tim, một biến chứng phổ biến của bệnh tim mạch, bao gồm nhiều tình trạng điện hoạt bất thường Do đó, công cụ máy tính hỗ trợ là cần thiết để giúp bác sĩ chẩn đoán hiệu quả hơn.

Nghiên cứu về bệnh tim mạch đã sử dụng các phương pháp như PCA, LDA, ICA và chuyển đổi wavelet rời rạc để phân loại tín hiệu điện tim Năm loại rối loạn nhịp tim theo AAMI đã được phân tích, bao gồm nhịp tim không lạc vị, nhịp tim supra-ventricular ectopic, nhịp tim ventricular ectopic, nhịp tim fusion, và nhịp tim không nhận dạng được Các thuật toán giảm kích thước PCA, LDA và ICA được áp dụng độc lập, và các đặc trưng này được sử dụng trong bộ phân loại SVM, mạng nơ ron (NN) và phân loại mạng thần kinh xác suất (PNN) để chẩn đoán tự động Kết quả cho thấy tính năng ICA kết hợp với PNN đạt hiệu suất tốt hơn so với PCA và LDA, với độ nhạy 99,97%, độ đặc hiệu 99,83%, giá trị tiên đoán dương 99,21% và độ chính xác 99,28% qua phương pháp xác nhận chéo 10 lần Nghiên cứu này không chỉ đạt độ chính xác cao mà còn cho phép so sánh hiệu quả của các phương pháp phân loại Do đó, tác giả đã tiến hành phân loại lại tín hiệu điện tim, tách biệt dữ liệu huấn luyện và kiểm tra để xác minh độ chính xác của bộ phân loại.

Mục tiêu của đề tài

Mục tiêu của nghiên cứu là đánh giá tỷ lệ lỗi trong bộ phân loại tín hiệu tim sử dụng phương pháp Neural Network Kết quả cho thấy để đảm bảo độ chính xác trong phân loại, cần tách biệt dữ liệu nhịp tim của bệnh nhân dùng để huấn luyện và kiểm tra, thay vì sử dụng nhịp tim của cùng một bệnh nhân cho cả hai mục đích.

Nhiệm vụ và giới hạn của đề tài

1.4.1 Nhiệm vụ của đề tài

Các nội dung chính được thực hiện trong đề tài:

Chúng tôi đã thu thập và xây dựng một tập dữ liệu điện tim gồm 48 tín hiệu từ 46 bệnh nhân tại MIT-BIH Sau đó, các tín hiệu này được chuyển đổi sang môi trường MATLAB để tiến hành phân loại.

- Tiền xử lý tín hiệu dùng phương pháp chuyển đổi wavelet rời rạc DWT

- Trích đặc trưng nhịp tim dùng phương pháp phân tích thành phần chính PCA

- Nhận dạng tín hiệu điện tim dùng phương pháp phân loại mạng thần kinh nhân tạo Neural Network

- Đánh giá tỷ lệ lỗi của bộ phân loại sử dụng phương pháp ma trận nhầm lẫn và đường cong ROC

- Tóm tắt nội dung và viết báo cáo

1.4.2 Giới hạn của đề tài

Các vấn đề trong phân loại tín hiệu ECG bao gồm thiếu tính chuẩn hóa các đặc trưng của ECG, sự biến đổi giữa các tín hiệu ECG, và tính chất đặc trưng của ECG Hiện tại, chưa có quy tắc phân loại tối ưu cho bộ phân loại ECG, cùng với sự biến đổi dạng sóng ECG theo từng bệnh nhân và sự lựa chọn bộ phân loại phù hợp nhất Những giới hạn này sẽ được trình bày chi tiết dưới đây.

Giới hạn 1: Thiếu hụt các đặc tính chuẩn của ECG dẫn đến việc phương pháp khai thác tính năng tạm thời không đạt được độ chính xác cao Việc lựa chọn các tính năng ECG là yếu tố quan trọng ảnh hưởng đến kết quả của phương pháp này.

Sáu thuộc tính phát hiện có thể ảnh hưởng đến độ chính xác của phân loại Một sự thay đổi nhỏ trong các đặc tính này có thể dẫn đến phân loại sai lệch trên các tập dữ liệu lớn.

Nhịp đập của tim chịu ảnh hưởng bởi các yếu tố vật lý và tâm trạng của con người, như căng thẳng, kích động và hoạt động thể chất Những yếu tố này có thể làm thay đổi nhịp tim, dẫn đến sự biến đổi trong các khoảng thời gian như khoảng RR, khoảng PR và khoảng QT.

Giới hạn 3 đề cập đến việc nhận biết các loại bệnh có dấu hiệu tương tự nhau Khi hai bệnh khác nhau nhưng có những đặc điểm chung, việc phân loại chúng có thể gặp khó khăn.

Giới hạn 4: Không tồn tại bộ phân loại tối ưu cho tính toán ECG

Giới hạn 5: Hai người khác nhau, nhịp tim khác nhau nên cùng một loại bệnh nếu nhịp tim ở những người khác nhau sẽ khác nhau

Giới hạn 6 đề cập đến độ thay đổi của nhịp tim trong một tín hiệu ECG duy nhất Đầu vào là một chuỗi gồm nhiều khung hình khác nhau, với mỗi tín hiệu ECG chứa gần hàng ngàn nhịp tim.

Giới hạn 7: Việc tìm kiếm một bộ phân loại phù hợp để phân loại rối loạn nhịp tim trong thời gian thực là một thách thức lớn, bởi độ chính xác của bộ phân loại phụ thuộc vào nhiều yếu tố như loại rối loạn nhịp tim, sự đa dạng của các dạng rối loạn nhịp tim, và cơ sở dữ liệu được sử dụng cho chứng loạn nhịp tim.

Phương pháp nghiên cứu

Các nghiên cứu đã công bố trên các bài báo hội nghị và tạp chí khoa học cho thấy các bộ phân loại tín hiệu ECG chủ yếu tập trung vào việc sử dụng phương pháp nào để phân loại ECG Bên cạnh đó, việc thu thập dữ liệu thực tế để thực hiện phân loại cũng là một thách thức đáng lưu ý.

Việc xây dựng bộ phân loại tín hiệu ECG là một thách thức lớn đối với học viên không chuyên ngành y Để thực hiện điều này, cần dựa vào các bộ phân loại đã được phát triển trong những nghiên cứu trước và sử dụng dữ liệu từ các nguồn có sẵn.

Hướng nghiên cứu này tập trung vào việc sử dụng dữ liệu có sẵn thông qua bộ phân loại Neural Network, đồng thời tách biệt bộ dữ liệu huấn luyện và dữ liệu kiểm tra để xác định tỷ lệ tối ưu, nhằm nâng cao độ chính xác của bộ phân loại Phân tích và xử lý dữ liệu được thực hiện bằng phần mềm Matlab, phiên bản R2016a.

CƠ SỞ LÝ THUYẾT

Khái niệm về tín hiệu điện tim ECG

Điện tim (ECG hoặc EKG) là một phương pháp ghi lại hoạt động điện của trái tim thông qua các điện cực đặt trên da, và là một bài kiểm tra tim mạch phổ biến Tín hiệu ECG bao gồm nhiều nhịp đập, mỗi nhịp gồm sóng P, phức hợp QRS và sóng T Các đỉnh (P, Q, R, S, T và U), khoảng thời gian (PR, RR, QRS, ST và QT) và các phân đoạn (PR và ST) của tín hiệu ECG có các giá trị biên độ và thời gian bình thường Những thành phần này được gọi là tính năng ECG, và chúng được mô tả chi tiết trong các hình và bảng liên quan Nhịp tim bao gồm các khoảng thời gian PR và phức hợp QRS, đóng vai trò quan trọng trong việc đánh giá sức khỏe tim mạch.

Khoảng thời gian ST, QT và RR, cùng với các phân đoạn PR và ST, là những yếu tố quan trọng trong việc đánh giá nhịp tim Những khoảng thời gian và phân đoạn này giúp bác sĩ xác định liệu nhịp tim có bình thường hay không, từ đó hỗ trợ chẩn đoán bệnh chính xác.

Bảng 1.1 liệt kê các tính năng ECG cùng với mô tả và thời gian tương ứng Các tính năng này được đặt tên theo các đỉnh của chúng, bao gồm RR, P, PR, QRS, J, ST, T, và QT.

U Thời gian của từng tính năng khá nhỏ tính bằng đơn vị milli giây Khoảng thời gian dài nhất là 0.6 đến 1.2 giây chính là khoảng thời gian giữa hai đỉnh R cũng là khoảng cách về thời gian của hai nhịp tim

Hình 1.1 Dạng sóng ECG bình thường [10]

Bảng 1.1 Tính năng và khoảng thời gian bình thường của tín hiệu ECG

Tính năng Mô tả Khoảng thời gian

RR Khoảng thời gian giữa sóng R và sóng R tiếp theo 0.6-1.2 giây

P Xu hướng tăng ngắn hạn của tín hiệu ECG 80 milli giây

PR Đo từ đầu sóng P đến đầu bộ phức hợp QRS 120-200 milli giây

Thường bắt đầu với độ võng xuống của Q, độ cong lên lớn hơn của R và kết thúc bởi sự đi xuống của sóng S

PR Kết nối sóng P và bộ phức hợp QRS 50-120 milli giây Điểm J Điểm kết thúc bộ phức hợp QRS và bắt đầu phân đoạn ST Không áp dụng

ST Kết nối bộ phức hợp QRS và sóng T 80-120 milli giây

T Thường là một dạng sóng tăng lên vừa phải 160 milli giây

Tính năng Mô tả Khoảng thời gian

ST Được đo từ điểm J đến kết thúc của sóng T 320 milli giây

QT Được đo từ khi bắt đầu bộ phức hợp QRS đến khi kết thúc sóng T 420 milli giây

U Thông thường có biên độ thấp và thường hoàn toàn vắng mặt Không đề cập đến

Tim là bộ phận quan trọng trong cơ thể, chịu trách nhiệm bơm máu và oxy đến các bộ phận khác nhau Nhịp tim, được đo bằng số nhịp đập mỗi phút, là chỉ số hữu ích để đánh giá sức khỏe Nhịp tim cao ở cả nam và nữ có thể làm tăng nguy cơ tử vong do nhồi máu cơ tim Vì vậy, việc theo dõi nhịp tim là cần thiết để bảo vệ sức khỏe và duy trì cuộc sống.

Cách tính toán nhịp tim

Tín hiệu ECG được ghi lại trên giấy lưới, với trục ngang biểu diễn thời gian và trục thẳng đứng là điện áp Mỗi ô vuông lớn kích thước 5mm chứa 25 ô vuông nhỏ 1mm, cho phép xác định thời gian: 5 ô vuông lớn tương ứng với 1 giây và 300 ô vuông lớn tương ứng với 1 phút Số lượng đỉnh R trong 300 ô vuông lớn phản ánh nhịp tim trong 1 phút Ví dụ, nếu trong lead II có 60 đỉnh R trong 300 ô vuông lớn, nhịp tim của bệnh nhân là 60 bpm Để tính nhịp tim từ tín hiệu ECG, xác định 2 đỉnh R, đếm số ô vuông giữa chúng và lấy 300 chia cho số ô vuông đó.

Hình 2.1 Tín hiệu ECG thu được trên giấy phân chia bởi các ô vuông

Hình 2.2 Cách tính nhịp tim

Phương pháp đề xuất phân loại tín hiệu ECG

Phân loại tín hiệu ECG là yếu tố quan trọng trong chẩn đoán bệnh tim mạch, nhưng sự khác biệt trong tín hiệu ECG giữa các cá nhân và sự tương đồng trong triệu chứng của các bệnh khác nhau gây khó khăn cho việc chẩn đoán chính xác Để cải thiện khả năng chẩn đoán loạn nhịp ECG ở bệnh nhân mới, việc áp dụng các kỹ thuật phân loại mẫu là cần thiết Một chu kỳ tim bao gồm các sóng P, Q, R, S, T và U, với mỗi tín hiệu ECG chứa hàng ngàn nhịp Các bước chính trong quá trình phân loại ECG bao gồm tiền xử lý, khai thác tính năng, tiêu chuẩn hóa và phân loại.

Tín hiệu ECG thường chứa nhiều loại nhiễu có thể ảnh hưởng đến việc khai thác tính năng cho phân loại Do đó, bước tiền xử lý là rất quan trọng để loại bỏ nhiễu Quá trình khai thác tính năng giúp trích xuất các đặc điểm điện tâm đồ, từ đó cung cấp đầu vào cho mô hình phân loại Các nhà nghiên cứu đã áp dụng nhiều kỹ thuật tiền xử lý khác nhau để cải thiện độ chính xác của việc phân loại ECG Để loại bỏ nhiễu, có thể sử dụng các kỹ thuật như bộ lọc thông thấp tuyến tính và bộ lọc thông cao tuyến tính Đối với việc điều chỉnh cơ bản, các bộ lọc trung bình và bộ lọc thông cao pha tuyến tính cũng được áp dụng.

Researchers utilize various feature extraction techniques, including Discrete Wavelet Transform (DWT), Continuous Wavelet Transform (CWT), Discrete Cosine Transform (DCT), S-Transform (ST), Discrete Fourier Transform (DFT), Principal Component Analysis (PCA), Daubechies wavelet (Db4), the Pan-Tompkins algorithm, and Independent Component Analysis (ICA).

Phương pháp tiêu chuẩn hóa các tính năng sử dụng các kỹ thuật như Z-score và

The article discusses various classification techniques utilized in SD (Unity Standard Deviation), including Multilayer Perceptron Neural Network (MLPNN), Fuzzy C-Means clustering (FCM), feedforward neuro-fuzzy systems, ID3 decision trees, Support Vector Machines (SVM), Quantum Neural Networks (QNN), Radial Basis Function Neural Networks (RBFNN), Type-2 Fuzzy Clustering Neural Networks (T2FCNN), and Probabilistic Neural Networks (PNN).

Thu thập dữ liệu

Dữ liệu được tải xuống từ cơ sở dữ liệu MIT-BIH về rối loạn nhịp tim, một nguồn tài nguyên đã được kiểm nghiệm và áp dụng rộng rãi trong nhiều nghiên cứu khoa học Việc sử dụng cơ sở dữ liệu có sẵn thay vì thu thập dữ liệu thực tế giúp đảm bảo tính chính xác và độ tin cậy của kết quả nghiên cứu.

- Việc thu thập dữ liệu thực tế rất khó khăn (thiếu chính xác, nhiễu) đối với sinh viên không thuộc chuyên ngành y

Dữ liệu từ MIT-BIH đã được gán nhãn sẵn, bao gồm thông tin chi tiết về bệnh nhân, thời gian lấy mẫu, vị trí đo và loại bệnh, cùng với nhiều thông tin hỗ trợ khác.

Công cụ đọc Database từ MIT-BIH là một phần mềm mã nguồn mở, tương thích với nhiều nền tảng, được phát triển bởi PhysioNet và được hỗ trợ bởi hiệp hội NIGMS và NIBIB.

Nguồn gốc của các tín hiệu ECG trong tập cơ sở dữ liệu MIT-BIH bao gồm 4000 tín hiệu Holter dài hạn được thu thập từ năm 1975 đến 1979 tại Phòng Thí nghiệm Chứng loạn nhịp tim, Bệnh viện Beth Israel Khoảng 60% tín hiệu này được lấy từ bệnh nhân nội trú Tập dữ liệu chứa 23 tín hiệu (đánh số từ 100 đến 124, với số 110 không tồn tại) được chọn ngẫu nhiên và 25 tín hiệu (đánh số từ 200 đến 234, với một số không xuất hiện) từ cùng một tập hợp, bao gồm các hiện tượng hiếm gặp nhưng có triệu chứng lâm sàng quan trọng.

14 nhỏ trên Holter 48 tín hiệu đều kéo dài trên 30 phút Hình 2.3 thể hiện ảnh chụp màn hình của phần mềm Holter ECG

Hình 2.3 Screen shot của Holter ECG Software

Nhóm đầu tiên (tín hiệu 100 đến 124) chứa nhiều dạng sóng ECG phổ biến, được ghi lại trong khoảng nửa giờ với chất lượng đủ tốt để bác sĩ có thể phân tích Nhóm thứ hai bao gồm các trường hợp loạn nhịp trên thất và các dấu hiệu bất thường, với một số tín hiệu được chọn do phức hợp QRS có dạng sóng biến đổi hoặc chất lượng tín hiệu đủ để phát hiện rối loạn nhịp tim Nghiên cứu bao gồm 25 nam giới từ 32 đến 89 tuổi và 22 nữ giới từ 23 đến 89 tuổi, trong đó tín hiệu 201 và 202 thuộc về cùng một người đàn ông Bảng 2.1 liệt kê tên các tín hiệu ECG với ba loại file: “*.atr”, “*.dat” và “*.hea”.

Bảng 2.1 Toàn bộ tín hiệu ECG từ MIT-BIH

File chú thích File dữ liệu File tiêu đề

100.dat 101.dat 102.dat 103.dat 104.dat 105.dat 106.dat 107.dat 108.dat 109.dat 111.dat 112.dat 113.dat 114.dat 115.dat 116.dat 117.dat 118.dat 119.dat 121.dat 122.dat 123.dat 124.dat 200.dat

100.hea 101.hea 102.hea 103.hea 104.hea 105.hea 106.hea 107.hea 108.hea 109.hea 111.hea 112.hea 113.hea 114.hea 115.hea 116.hea 117.hea 118.hea 119.hea 121.hea 122.hea 123.hea 124.hea 200.hea

File chú thích File dữ liệu File tiêu đề

201.dat 202.dat 203.dat 205.dat 207.dat 208.dat 209.dat 210.dat 212.dat 213.dat 214.dat 215.dat 217.dat 219.dat 220.dat 221.dat 222.dat 223.dat 228.dat 230.dat 231.dat 232.dat 233.dat 234.dat

201.hea 202.hea 203.hea 205.hea 207.hea 208.hea 209.hea 210.hea 212.hea 213.hea 214.hea 215.hea 217.hea 219.hea 220.hea 221.hea 222.hea 223.hea 228.hea 230.hea 231.hea 232.hea 233.hea 234.hea

Phương pháp phân loại

Có nhiều phương pháp phân loại ECG, nhưng phương pháp đơn giản nhất được đề xuất dựa trên nghiên cứu gần đây ECG tâm đồ là công cụ quan trọng trong chẩn đoán các bệnh lý về rối loạn nhịp tim và bất thường cấu trúc Để đọc ECG chính xác, cần có cách tiếp cận phù hợp, vì hoạt động của tim phụ thuộc vào sự thay đổi biên độ và thời gian của ECG Nghiên cứu chỉ ra rằng các thành phần cơ bản trên miền thời gian của tín hiệu ECG và hệ số DWT cho thấy sự phân biệt tốt hơn giữa nhịp tim bình thường và rối loạn trong miền DWT Những thay đổi nhỏ về biên độ và thời gian không rõ ràng như trong miền DWT Hình ảnh từ bộ dữ liệu nhịp tim bình thường cho thấy việc phân biệt các thay đổi trong từng nhịp tim là khó khăn, trong khi phân tích wavelet cho phép nhận diện rõ ràng các đặc trưng của tín hiệu thông qua các cấp độ chi tiết và tín hiệu xấp xỉ.

Hình 2.4 Tín hiệu ECG bình thường trong miền thời gian [13]

Hình 2.5 Phân tích Wavelet: (a) Nhịp tim gốc; (b) Tín hiệu chi tiết cấp 2; (c) Tín hiệu chi tiết cấp 3; (d) Tín hiệu chi tiết cấp 4; (e) Tín hiệu xấp xỉ cấp 4

Sau khi phân tích ECG trong miền DWT, nhiều đặc trưng tín hiệu được rút trích nhưng không phải tất cả các hệ số đều phản ánh chính xác tính chất nhịp tim Do đó, cần áp dụng thuật toán giảm chiều để chọn ra các đặc trưng đại diện cho ECG Các thuật toán phổ biến hiện nay bao gồm PCA và ICA Phân tích thành phần chính (PCA) là một kỹ thuật giảm chiều tuyến tính, giúp chiếu dữ liệu vào các hướng biến đổi cao nhất Khi dữ liệu ban đầu có nhiều biến và thường xuyên tương quan với nhau, việc xây dựng mô hình tính toán trở nên khó khăn, và số lượng biến giải thích lớn gây cản trở cho việc trực quan hóa dữ liệu.

Hình 2.6 Nén dữ liệu: (a) Tập dữ liệu trong không gian 3D; (b) Tập dữ liệu trong không gian 3D nhìn từ hướng khác; (c) Tập dữ liệu sau khi đã nén từ 3D thành 2D

Phương pháp PCA giúp chuyển đổi dữ liệu đa chiều thành không gian với cơ sở trực giao, trong đó mỗi cơ sở trong không gian mới có thể được coi là một biến.

Phương pháp PCA (Phân tích thành phần chính) giúp chuyển đổi dữ liệu gốc sang một không gian mới với các biến độc lập, nhằm tối ưu hóa việc giữ lại thông tin quan trọng mà không làm mất mát dữ liệu PCA tìm kiếm không gian mới với tiêu chí phản ánh càng nhiều thông tin càng tốt, trong đó phương sai được sử dụng làm thước đo cho khái niệm thông tin Hình 2.6 minh họa quá trình nén dữ liệu, trong đó dữ liệu 3D được chiếu lên hai trục z1 và z2, tạo thành tập dữ liệu trong không gian 2D Mục tiêu chính của PCA là xác định một không gian mới với số chiều nhỏ hơn, trong đó các trục tọa độ được xây dựng để tối đa hóa độ biến thiên của dữ liệu.

Cả PCA và ICA đều tìm ra các vector cho tập dữ liệu, cho phép biểu diễn bất kỳ điểm nào trong tập dữ liệu dưới dạng kết hợp tuyến tính Trong khi PCA tìm kiếm hướng tối ưu để giảm thiểu lỗi tổng bình phương cho các tín hiệu tương quan, ICA lại tập trung vào việc tách biệt các nguồn tín hiệu độc lập, ngay cả khi chúng chỉ là những vector nhỏ Cụ thể, vector đầu tiên của PCA là giải thích tốt nhất cho sự thay đổi dữ liệu, trong khi ICA cung cấp một vector cho mỗi tín hiệu độc lập trong dữ liệu Như vậy, PCA chủ yếu giúp nén dữ liệu, còn ICA hỗ trợ trong việc phân tách các nguồn tín hiệu.

Sau khi giảm chiều dữ liệu, bước tiếp theo là sử dụng bộ phân loại Hai phương pháp phân loại phổ biến hiện nay là Máy Vectơ Hỗ Trợ (SVM) và Mạng Nơ-ron SVM, viết tắt của support vector machine, là một phương pháp học có giám sát trong thống kê và khoa học máy tính, được áp dụng rộng rãi để phân loại dữ liệu.

SVM (Support Vector Machine) là một thuật toán phân loại nhị phân, nhận dữ liệu và phân loại chúng thành hai lớp khác nhau Thuật toán này xây dựng một mô hình SVM dựa trên một bộ ví dụ luyện tập thuộc hai thể loại, nhằm tối ưu hóa ranh giới giữa chúng Mô hình SVM biểu diễn các điểm trong không gian và xác định ranh giới sao cho khoảng cách từ các ví dụ luyện tập đến ranh giới là lớn nhất Khi có ví dụ mới, thuật toán sẽ dự đoán thể loại của nó dựa trên vị trí của ví dụ đó so với ranh giới đã được thiết lập.

Mạng nơ-ron nhân tạo, hay còn gọi là mạng nơ-ron, là mô hình toán học dựa trên các mạng nơ-ron sinh học, bao gồm nhóm nơ-ron nhân tạo (nút) kết nối và xử lý thông tin thông qua các kết nối Đây là hệ thống thích ứng, tự thay đổi cấu trúc dựa trên thông tin bên trong và bên ngoài trong quá trình học Mạng nơ-ron thường được sử dụng để mô hình hóa dữ liệu thống kê phi tuyến, giúp xác định mối quan hệ phức tạp giữa dữ liệu đầu vào và kết quả, cũng như tìm kiếm các mẫu trong dữ liệu Với khả năng xấp xỉ hàm phi tuyến bất kỳ với sai số nhỏ, mạng nơ-ron rất hiệu quả trong nhận dạng hệ thống, điều khiển dựa vào mô hình và điều khiển thích nghi Trong nghiên cứu này, tác giả đã chọn mạng nơ-ron để phân loại nhịp tim từ tín hiệu ECG.

Phương pháp đánh giá độ chính xác của bộ phân loại

Khi xác định vấn đề và dữ liệu cần phân loại, việc áp dụng các thuật toán machine learning là cần thiết để giải quyết bài toán Thách thức lớn là làm sao để thời gian dành cho việc lựa chọn, thực hiện và điều chỉnh các thuật toán trở nên hiệu quả, giúp đạt được mục tiêu đề ra Có nhiều phương pháp đánh giá độ chính xác của bộ phân loại, như confusion matrix, positive predictive value, null error rate, Cohen’s Kappa, F Score và ROC curve Tuy nhiên, bài viết này chỉ tập trung vào hai phương pháp là confusion matrix và ROC curve để đánh giá tỷ lệ lỗi của bộ phân loại Phần tiếp theo sẽ đi sâu vào phương pháp confusion matrix.

Trong lĩnh vực máy học, confusion matrix (ma trận nhầm lẫn) là một công cụ quan trọng để đánh giá hiệu suất của các thuật toán phân loại Đây là một bảng mô tả mối quan hệ giữa các lớp thực tế và các lớp dự đoán trên một bộ dữ liệu thử nghiệm đã biết Mỗi hàng trong ma trận đại diện cho lớp quan sát, trong khi mỗi cột đại diện cho lớp dự đoán, với các ô chứa số lượng mẫu giao nhau giữa các lớp Mặc dù cấu trúc của confusion matrix dễ hiểu, nhưng các thuật ngữ liên quan có thể gây nhầm lẫn.

Bảng 2.2 Ví dụ về confusion matrix cho bộ phân loại số nhị phân n5 Predicted: NO Predicted: YES

Trong dự đoán bệnh, có hai khả năng là "YES" (mắc bệnh) và "NO" (không mắc bệnh) Bộ phân loại đã đưa ra 165 dự đoán cho 165 bệnh nhân, trong đó có 110 trường hợp dự đoán "YES" và 55 trường hợp dự đoán "NO" Tuy nhiên, thực tế chỉ có 105 bệnh nhân mắc bệnh và 60 bệnh nhân không mắc bệnh Các khái niệm cơ bản trong ma trận nhầm lẫn (confusion matrix) sẽ được trình bày sau đây.

- True Positives (TP): đây là những trường hợp mà bộ phân loại dự đoán “YES” và thực tế là những người bệnh này có mắc bệnh

- True Negatives (TN): bộ phân loại dự đoán “NO” và những người bệnh này không mắc bệnh

- False Positives (FP): bộ phân loại dự đoán “YES”, nhưng thực sự những người bệnh này không mắc bệnh (hay còn gọi là “Type I error”)

- False Negatives (FN): bộ phân loại dự đoán “NO”, nhưng thực sự những người này mắc bệnh (hay còn gọi là “Type II error”)

Sau đây là bảng confusion matrix khi thêm các thuật ngữ và tổng số hàng cũng như tổng số cột

Bảng 2.3 Ví dụ về confusion matrix khi thêm các thuật ngữ n5 Dự đoán: NO Dự đoán: YES

Thực tế: NO TNP FP TN+FP`

Thực tế: YES FN=5 TP0 FN+TP5

Sau đây là danh sách các tỷ lệ thường được tính trong bộ confusion matrix phân loại nhị phân:

- Accuracy: độ chính xác của bộ phân loại

- Misclassification Rate: tỷ lệ phân loại sai, còn được gọi là “Tỷ lệ lỗi” (“Error rate”) Bằng 1 trừ đi độ chính xác (accuracy)

- True positive rate/Sensitivity/Recall: là tỷ lệ bộ phân loại dự đoán là “YES” thực tế cũng là “YES” so với tổng số lượng “YES” thực tế

- False positive rate: là tỷ lệ bộ phân loại dự đoán là “YES” nhưng thực tế là “NO” so với tổng số lượng “NO” thực tế

Specificity measures the proportion of actual negative cases that are correctly identified as "NO" by a classifier, calculated as the ratio of true negatives to the total number of actual negatives It is also expressed as one minus the false positive rate.

- Precision: là tỷ lệ bộ phân loại dự đoán đúng là “YES” và thực tế cũng là “YES” so với tổng số lượng “YES” dự đoán

- Prevalence: là tỷ lệ thực tế “YES” trong tổng số các trường hợp

Bảng nhầm lẫn, hay còn gọi là confusion matrix, là một công cụ hữu ích để tóm tắt hiệu suất của thuật toán phân loại Nó giúp xác định độ chính xác của bộ phân loại và phân tích các lỗi phân loại một cách chi tiết.

Ma trận nhầm lẫn (confusion matrix) là công cụ hữu ích để đánh giá độ chính xác của bộ phân loại, đặc biệt trong trường hợp có sự không đồng đều giữa các lớp hoặc khi có nhiều hơn hai lớp trong tập dữ liệu Nó giúp xác định xem mô hình phân loại có phù hợp hay không và loại lỗi nào đang xảy ra Ưu điểm của ma trận nhầm lẫn là khả năng chỉ ra các tình huống quan trọng, từ đó cung cấp cái nhìn sâu sắc về hiệu suất của các lớp phân loại khác nhau Tuy nhiên, nhược điểm của nó là cần thực hiện nhiều thí nghiệm để hiểu rõ và không phải là phương pháp đồ họa Để so sánh các mô hình, các giá trị từ ma trận nhầm lẫn cần được thu thập và phân tích riêng biệt Do đó, đường cong ROC là một phương pháp đánh giá độ chính xác khác, cung cấp cách hiển thị đơn giản và trực quan hơn về thông tin phản hồi.

Trong khoa học thống kê, đường cong ROC (Receiver Operating Characteristic) là biểu đồ thể hiện khả năng chẩn đoán của hệ thống phân loại nhị phân với các ngưỡng phân loại khác nhau Đường cong này thường được sử dụng để hình ảnh hóa hiệu suất của bộ phân loại, trong đó AUC (Area Under the Curve) là chỉ số tóm tắt hiệu suất thành một con số duy nhất ROC và AUC là công cụ hữu ích cho các nhà khoa học dữ liệu, nhà thực hành máy học và nhà nghiên cứu y học trong việc đánh giá kết quả và điều chỉnh bộ phân loại Phân tích ROC cũng liên quan chặt chẽ đến quyết định chi phí và lợi ích trong quá trình chẩn đoán.

Đường cong ROC có tính chất quan trọng là nếu nó càng gần biên trái và di chuyển dọc theo biên trên của không gian ROC, điều này chứng tỏ kết quả kiểm tra có độ chính xác cao.

Độ chính xác của kiểm tra càng giảm khi đường cong ROC tiến gần đến đường chéo 45 độ Hệ số góc của đường thẳng tiếp tuyến tại điểm cắt tương ứng cho tỷ lệ LR của giá trị điểm cắt đó trong bài kiểm tra.

Diện tích dưới đường cong ROC là thước đo quan trọng cho độ chính xác của bộ phân loại, với giá trị 1 thể hiện hiệu suất tối ưu và 0.5 thể hiện hiệu suất kém Phần diện tích này phản ánh khả năng phân biệt giữa các lớp tốt và xấu Để tính toán diện tích này, có hai phương pháp chính: phương pháp sử dụng tham số và phương pháp không sử dụng tham số, cả hai đều có thể được thực hiện qua các chương trình tính toán trên máy tính Kết quả trả về bao gồm diện tích và sai số chuẩn, giúp so sánh hiệu suất giữa các phép kiểm tra khác nhau hoặc trong cùng một phép kiểm tra với số lượng cá thể khác nhau.

Hình 2.7 Cách biểu diễn một đường cong ROC

Đường cong ROC, như thể hiện trong Hình 2.7, là công cụ quan trọng để đánh giá độ chính xác của bộ phân loại tín hiệu điện tim ECG Trong đó, TP (True Positive) được biểu diễn bằng diện tích màu cam, cho thấy số lượng phân loại đúng và thực tế cũng đúng; TN (True Negative) là diện tích màu xanh lam, thể hiện kết quả phân loại sai nhưng thực tế cũng sai; FP (False Positive) là diện tích màu hồng, chỉ ra kết quả phân loại sai nhưng thực tế đúng; và FN (False Negative) là diện tích màu xanh nhạt, cho thấy kết quả phân loại đúng nhưng thực tế sai Việc sử dụng đường cong ROC, bên cạnh ma trận nhầm lẫn, giúp khẳng định kết luận của nghiên cứu một cách hiệu quả.

PHÂN LOẠI TÍN HIỆU ECG DÙNG NEURAL NETWORK

Trích đặc trưng tín hiệu điện tim

Trong quá trình trích đặc trưng tín hiệu điện tim, có ba bước chính: đầu tiên là thu thập từng nhịp tim, tiếp theo là chuyển đổi nhịp tim từ miền thời gian sang miền tần số bằng phương pháp DWT Mayer 4, và cuối cùng là giảm chiều dữ liệu thông qua PCA Phần 3.1.1 sẽ trình bày chi tiết về phương pháp thu thập từng nhịp tim.

3.1.1 Tách từng nhịp tim từ bộ dữ liệu Arrythmia

Tín hiệu ECG từ 48 bệnh nhân đã được mã hóa và cần chuyển đổi sang định dạng file Matlab để xử lý Sau khi chuyển đổi, tín hiệu ECG chưa qua xử lý được MIT gán nhãn cho mỗi đỉnh R, chỉ rõ loại bệnh, lead thu thập và số nhịp tim Hầu hết tín hiệu được lấy từ lead MLII, chỉ có 2 tín hiệu không thuộc lead này, do đó, những bệnh nhân này đã được loại bỏ để tạo thành bộ dữ liệu đồng nhất.

Sau khi giải mã tập dữ liệu của MIT bằng file Matlab, người thực hiện đã tách từng nhịp tim theo hình thức cụ thể Mỗi nhịp tim được lấy 200 mẫu, bắt đầu từ đỉnh R và lấy về phía trước.

Bài viết này trình bày 100 mẫu và lấy về 99 mẫu với tần số lấy mẫu 360Hz Sau khi thu thập 200 mẫu, chúng ta có được dạng sóng nhịp tim như trong hình 3.3 Hình 3.2 thể hiện ECG tải từ MIT-BIH, trong khi hình 3.3 là một nhịp tim được tách ra từ bộ dữ liệu này.

Hình 3.2 Tín hiệu ECG tải từ MIT-BIH

Hình 3.3 Tín hiệu ECG sau khi tách từng nhịp

Sau khi tách chuỗi nhịp tim của 46 bệnh nhân thành từng nhịp riêng lẻ, người thực hiện nghiên cứu đã áp dụng phương pháp DWT để chuyển đổi các nhịp tim từ miền thời gian sang miền tần số.

3.1.2 Chuyển đổi wavelet rời rạc tín hiệu nhịp tim từ miền thời gian sang miền tần số

Phép biến đổi Fourier (FT) là công cụ toán học quan trọng trong xử lý tín hiệu, giúp chuyển đổi giữa miền không gian và tần số Tuy nhiên, FT chỉ cung cấp thông tin toàn cục và phù hợp với tín hiệu tuần hoàn, không thể xử lý các đột biến hoặc thay đổi không dự báo Để khắc phục hạn chế này, Dennis Gabor đã phát triển phép biến đổi Fourier cửa sổ, cho phép phân tích tín hiệu theo từng đoạn nhỏ nhưng vẫn bị giới hạn bởi nguyên lý bất định Heisenberg Tiếp theo, vào năm 1975, Morlet đã phát triển phương pháp đa phân giải sử dụng sóng nhỏ (wavelet) để so sánh với tín hiệu ở từng đoạn riêng biệt Kỹ thuật này bắt đầu với sóng nhỏ có tần số thấp và dần nén để nâng cao tần số dao động, cho phép phân tích chi tiết tín hiệu ở các độ phân giải cao hơn, giúp phát hiện các thành phần biến thiên nhanh bên trong tín hiệu.

Biến đổi wavelet là một quá trình phức tạp, đặc biệt là biến đổi wavelet liên tục, khi mà nó lấy mẫu quá nhiều từ dạng sóng tín hiệu gốc, tạo ra nhiều hệ số không cần thiết Mặc dù sự dư thừa này không gây vấn đề trong phân tích, nhưng nó trở thành một thách thức lớn khi khôi phục tín hiệu gốc, dẫn đến thời gian khôi phục kéo dài Đối với các ứng dụng yêu cầu biến đổi hai chiều, cần một phép biến đổi tạo ra ít hệ số nhất để khôi phục tín hiệu nhanh chóng Biến đổi wavelet rời rạc đáp ứng yêu cầu này, cung cấp mối quan hệ chặt chẽ giữa tín hiệu trong miền thời gian và tần số.

+ 𝑊(𝑗, 𝑛) là các hệ số của phép biến đổi wavelet rời rạc

+ 𝑠(𝑛) là tín hiệu gốc đã được rời rạc hóa

+ 𝜓 là hàm biến đổi wavelet rời rạc

Phép biến đổi wavelet rời rạc cho phép phân tích tín hiệu s(n) thành các thành phần nhỏ thông qua bộ lọc thông thấp và bộ lọc thông cao Thuật toán wavelet decomposition chia tín hiệu thành các dải tần số khác nhau, bao gồm xấp xỉ thô (coarse approximation) và thông tin chi tiết (detail information) Tín hiệu rời rạc s(n) được xử lý tuần tự qua các bước này để thu được các thành phần cần thiết.

Bộ lọc thông thấp h[n] và bộ lọc thông cao g[n] được sử dụng để tách biệt các thành phần tín hiệu Ngõ ra của bộ lọc thông thấp h[n] tạo ra thành phần xấp xỉ (a) để phân tích sâu hơn, trong khi ngõ ra của bộ lọc thông cao g[n] cung cấp thành phần thông tin chi tiết (d) Qua mỗi bộ lọc, băng thông của tín hiệu sẽ được chia đôi, và công thức tính toán cho hai thành phần này được trình bày trong các phương trình (3.2) và (3.3).

Hình 3.4 Sơ đồ thuật toán phân rã dùng wavelet

Khi thực hiện phân tích wavelet, quá trình bắt đầu với việc tạo ra thành phần 𝑎 1 [𝑘] và 𝑑 1 [𝑘], gọi là phân tích ở mức 1 Thành phần 𝑎 1 [𝑘] sẽ tiếp tục được phân tích thêm một lần nữa để tạo ra 𝑎 2 [𝑘] và 𝑑 2 [𝑘], được gọi là phân tích ở mức 2 Quá trình này sẽ tiếp tục cho tới mức phân tích thứ l theo yêu cầu Hình 3.4 minh họa sơ đồ thuật toán phân rã wavelet, cho thấy mối quan hệ giữa thành phần xấp xỉ a và thành phần thông tin chi tiết d.

+ 𝑎 𝑁 [𝑘] là xấp xỉ tại mức phân tích thứ N

+ 𝑎 𝑁−1 [𝑘] là xấp xỉ tại mức phân tích thứ N – 1

+ 𝑑 𝑗 [𝑘] là chi tiết tại mức phân tích thứ j

Từ đó ta có tín hiệu s[k] sau khi áp dụng thuật toán phân rã dùng wavelet sẽ được tính như công thức (3.5):

Sau khi áp dụng thuật toán phân rã wavelet, tín hiệu rời rạc s[k] sẽ được phân tách thành nhiều thành phần nhỏ hơn, với băng thông giảm đi một nửa ở mỗi mức phân tích Hình 3.5 minh họa tổng quát quy trình của thuật toán phân rã này.

Hình 3.5 Chi tiết thuật toán phân rã dùng wavelet

Hình 3.6 Nhịp tim sau khi được phân rã wavelet

Mỗi nhịp tim gồm 200 mẫu được phân tách thành bốn cấp độ sử dụng xấp xỉ FIR của wavelet Mayer (‘dmey’) Hệ số xấp xỉ mức độ 4 có dải tần từ 0 đến 11,25 Hz, trong khi hệ số chi tiết mức độ 4 nằm trong khoảng từ 11,25 đến 22,25 Hz Nghiên cứu chỉ ra rằng mật độ phổ công suất của các nhịp đập khác nhau có thông tin phân biệt rõ ràng trong các hệ số này Các hệ số được giảm chiều bằng phương pháp PCA Hình 3.2 là nhịp tim ECG tách ra từ chuỗi nhịp tim, còn hình 3.6 là tín hiệu nhịp tim sau khi phân rã wavelet đến các hệ số xấp xỉ và chi tiết cấp 4 Phần tiếp theo sẽ trình bày về quá trình giảm chiều dữ liệu sử dụng PCA.

3.1.3 Giảm chiều dữ liệu sử dụng phương pháp phân tích thành phần chính PCA

Phân tích thành phần đặc trưng (PCA) là một phương pháp thống kê nhằm phân tích mối liên hệ giữa các chiều (dimension) hoặc biến (variances) trong một bộ dữ liệu (dataset) PCA giúp giảm số lượng biến cần thiết để mô tả bộ dữ liệu, đồng thời giữ lại tối đa thông tin, từ đó hỗ trợ quá trình nén dữ liệu hiệu quả Dưới đây là nghiên cứu về cơ sở toán học của PCA.

Cho một bộ dữ liệu S như sau:

+ S: Tập dữ liệu ta có

+ S1, S2, …, Sn : Các chiều (dimensions) của tập dữ liệu S

+ n : Số lượng chiều của tập S

+ m : Số lượng mẫu (sample) của tập S

Tiến hành tính toán để tìm các thông số sau:

+ C (covariance matrix) : Ma trận Hiệp phương sai của tập dữ liệu S + (eigenvalue) : Giá trị riêng của ma trận C

+ U (eigenvector) : Véc tơ trị riêng của ma trận C

+ P (principal component) : thành phần đặc trưng của tập dữ liệu S

Giá trị trung bình (mean value) của mỗi chiều dữ liệu được tính theo công thức: ij

Giá trị hiệp phương sai (covariance value) giữa các cặp chiều dữ liệu và ma trận hiệp phương sai (covariance matrix) của tập dữ liệu S được tính toán theo công thức cụ thể.

Giá trị hiệp phương sai (covariance value):

Ma trận hiệp phương sai C (covariance matrix) được tính theo công thức sau đây:

1 2 cov( ,S ) cov( ,S ) cov( ,S ) cov( ,S ) cov( ,S ) cov( ,S ) cov( ,S ) cov( ,S ) cov( ,S ) n n n n n n

Giá trị riêng  (eigenvalue)và véc tơ trị riêng U (eigenvector) của ma trận C được tính bằng cách giải phương trình sau:

C (covariance matrix) : Ma trận Hiệp phương sai của tập dữ liệu S

 (eigenvalue) : Giá trị riêng của ma trận C

In (identify matrix n-by-n ) : Ma trận xác định kích thước nxn

U (eigenvector) : Véc tơ trị riêng của ma trận C (bằng kích thước với ma trận C là nxn);

Sau khi giải phương trình trên ta sẽ thu được  va U có dạng như sau:

Các cột của ma trận U được sắp xếp theo thứ tự giảm dần của các giá trị riêng λ từ trái sang phải Giá trị riêng λi càng lớn thì véc tơ trị riêng tương ứng cũng càng quan trọng.

U  i càng mang nhiều thông tin của tập dữ liệu S Thành phần chính P (Pricipal component) của tập dữ liệu S được tính như sau:

Giá trị riêng  dạng ma trận đường chéo

Khôi phục tập dữ liệu S từ các phần chính

Phân loại tín hiệu điện tim sử dụng phương pháp mạng thần kinh nhân tạo Neural

Trong nghiên cứu này, mô hình phân loại sử dụng mạng neural network feed-forward với cấu trúc bao gồm 12 nút đầu vào, 10 neuron ở lớp ẩn, và 6 neuron ở lớp đầu ra đại diện cho 6 dạng tín hiệu điện tim Lựa chọn 10 neuron cho lớp ẩn dựa trên phương pháp thử và sai, cho thấy độ chính xác cao nhất trong các thử nghiệm Các trọng số của neural network được cập nhật thông qua phương pháp lan truyền ngược lỗi, với MSE (Mean Square Error) được tính toán dựa trên sự khác biệt giữa đáp ứng mong muốn và thực tế Quá trình cập nhật trọng số tiếp tục cho đến khi MSE đạt ngưỡng dưới 0,0001 Sau khi hoàn tất huấn luyện, dữ liệu kiểm tra được đưa vào bộ phân loại Neural Network để tiến hành phân loại.

Hình 3.8 Mô hình bộ phân loại Neural Network

Thuật toán lan truyền ngược để huấn luyện mạng truyền thằng ba lớp được tóm tắt như sau:

Bước 1: Chọn tốc độ 𝜂 > 0, chọn sai số cực đại 𝐸 𝑚𝑎𝑥

- Gán các trọng số 𝑤 𝑖𝑞 (𝑘), 𝑣 𝑞𝑗 (𝑘) (𝑖 = 1, 𝑛̅̅̅̅̅; 𝑗 = 1, 𝑚̅̅̅̅̅̅; 𝑞 = 1, 𝑙̅̅̅̅) bằng giá trị ngẫu nhiên nhỏ bất kỳ

Bước 3: (Truyền thuận dữ liệu) Tính ngõ ra của mạng với tín hiệu vào là 𝑥 (𝑘) :

𝑦 𝑖 (𝑘) = 𝑎 𝑜 (𝑛𝑒𝑡 𝑖 (𝑘)) (𝑖 = 1, 𝑛̅̅̅̅̅) (3.19) Bước 4: (Lan truyền ngược sai số) Cập nhập trọng số của mạng:

Bước 5: Tính sai số tích lũy:

Bước 6: Nếu k

Ngày đăng: 20/09/2022, 16:30

HÌNH ẢNH LIÊN QUAN

Bảng 1.1 Tính năng và khoảng thời gian bình thường của tín hiệu ECG - Đánh giá tỷ lệ lỗi của bộ phân loại tín hiệu điện tim dùng neural network
Bảng 1.1 Tính năng và khoảng thời gian bình thường của tín hiệu ECG (Trang 18)
Hình 1.1 Dạng sóng ECG bình thường [10] - Đánh giá tỷ lệ lỗi của bộ phân loại tín hiệu điện tim dùng neural network
Hình 1.1 Dạng sóng ECG bình thường [10] (Trang 18)
nhỏ trên Holter. 48 tín hiệu đều kéo dài trên 30 phút. Hình 2.3 thể hiện ảnh chụp màn hình của phần mềm Holter ECG - Đánh giá tỷ lệ lỗi của bộ phân loại tín hiệu điện tim dùng neural network
nh ỏ trên Holter. 48 tín hiệu đều kéo dài trên 30 phút. Hình 2.3 thể hiện ảnh chụp màn hình của phần mềm Holter ECG (Trang 23)
Bảng 2.1 Tồn bộ tín hiệu ECG từ MIT-BIH - Đánh giá tỷ lệ lỗi của bộ phân loại tín hiệu điện tim dùng neural network
Bảng 2.1 Tồn bộ tín hiệu ECG từ MIT-BIH (Trang 24)
Hình 2.4 Tín hiệu ECG bình thường trong miền thời gian [13] - Đánh giá tỷ lệ lỗi của bộ phân loại tín hiệu điện tim dùng neural network
Hình 2.4 Tín hiệu ECG bình thường trong miền thời gian [13] (Trang 26)
Hình 2.5 Phân tích Wavelet: (a) Nhịp tim gốc; (b) Tín hiệu chi tiết cấp 2; (c) Tín hiệu chi tiết cấp 3; (d) Tín hiệu chi tiết cấp 4; (e) Tín hiệu xấp xỉ cấp 4 - Đánh giá tỷ lệ lỗi của bộ phân loại tín hiệu điện tim dùng neural network
Hình 2.5 Phân tích Wavelet: (a) Nhịp tim gốc; (b) Tín hiệu chi tiết cấp 2; (c) Tín hiệu chi tiết cấp 3; (d) Tín hiệu chi tiết cấp 4; (e) Tín hiệu xấp xỉ cấp 4 (Trang 27)
Hình 2.6 Nén dữ liệu: (a) Tập dữ liệu trong không gian 3D; (b) Tập dữ liệu trong khơng gian 3D nhìn từ hướng khác; (c) Tập dữ liệu sau khi đã nén từ 3D thành 2D - Đánh giá tỷ lệ lỗi của bộ phân loại tín hiệu điện tim dùng neural network
Hình 2.6 Nén dữ liệu: (a) Tập dữ liệu trong không gian 3D; (b) Tập dữ liệu trong khơng gian 3D nhìn từ hướng khác; (c) Tập dữ liệu sau khi đã nén từ 3D thành 2D (Trang 28)
Bảng 2.2 Ví dụ về confusionmatrix cho bộ phân loại số nhị phân - Đánh giá tỷ lệ lỗi của bộ phân loại tín hiệu điện tim dùng neural network
Bảng 2.2 Ví dụ về confusionmatrix cho bộ phân loại số nhị phân (Trang 32)
Bảng 2.3 Ví dụ về confusionmatrix khi thêm các thuật ngữ - Đánh giá tỷ lệ lỗi của bộ phân loại tín hiệu điện tim dùng neural network
Bảng 2.3 Ví dụ về confusionmatrix khi thêm các thuật ngữ (Trang 33)
Hình 2.7 Cách biểu diễn một đường cong ROC - Đánh giá tỷ lệ lỗi của bộ phân loại tín hiệu điện tim dùng neural network
Hình 2.7 Cách biểu diễn một đường cong ROC (Trang 36)
Dựa trên cơ sở lý thuyết đã trình bày trong chương 2, hình 3.1 sau đây là sơ đồ khối đề xuất của bộ phân loại tín hiệu điện tim - Đánh giá tỷ lệ lỗi của bộ phân loại tín hiệu điện tim dùng neural network
a trên cơ sở lý thuyết đã trình bày trong chương 2, hình 3.1 sau đây là sơ đồ khối đề xuất của bộ phân loại tín hiệu điện tim (Trang 38)
ánh tình hình tài chính trên Bảng cân đối kế tốn là đời sản, nợ phải trả và vốn chủ - Đánh giá tỷ lệ lỗi của bộ phân loại tín hiệu điện tim dùng neural network
nh tình hình tài chính trên Bảng cân đối kế tốn là đời sản, nợ phải trả và vốn chủ (Trang 39)
Hình 3.3 Tín hiệu ECG sau khi tách từng nhịp - Đánh giá tỷ lệ lỗi của bộ phân loại tín hiệu điện tim dùng neural network
Hình 3.3 Tín hiệu ECG sau khi tách từng nhịp (Trang 40)
Hình 3.2 Tín hiệu ECG tải từ MIT-BIH - Đánh giá tỷ lệ lỗi của bộ phân loại tín hiệu điện tim dùng neural network
Hình 3.2 Tín hiệu ECG tải từ MIT-BIH (Trang 40)
Hình 3.4 Sơ đồ thuật toán phân rã dùng wavelet - Đánh giá tỷ lệ lỗi của bộ phân loại tín hiệu điện tim dùng neural network
Hình 3.4 Sơ đồ thuật toán phân rã dùng wavelet (Trang 43)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w