Khảo sát hiện tượng phân cực dữ liệu trong phân loại tín hiệu điện tim Khảo sát hiện tượng phân cực dữ liệu trong phân loại tín hiệu điện tim Khảo sát hiện tượng phân cực dữ liệu trong phân loại tín hiệu điện tim Khảo sát hiện tượng phân cực dữ liệu trong phân loại tín hiệu điện tim
TỔNG QUAN
Tổng quan về lĩnh vực nghiên cứu
Sự phát triển kinh tế và xã hội hiện nay đang dẫn đến những thách thức lớn về sức khỏe, đặc biệt là nguy cơ gia tăng bệnh lý tim mạch Điều này không chỉ tạo ra gánh nặng cho sức khỏe cộng đồng mà còn làm tăng chi phí điều trị các bệnh tim mạch.
Bệnh tim mạch là một trong những nguyên nhân hàng đầu gây tử vong, với khoảng 17,5 triệu ca tử vong mỗi năm trên toàn thế giới, trong đó Việt Nam cũng không phải là ngoại lệ Theo thống kê của Viện Tim Mạch Việt Nam, tỷ lệ mắc bệnh tim mạch ở người trên 25 tuổi đạt 47,3%, và mỗi năm, bệnh tim cướp đi sinh mạng của 200.000 người, chiếm 1/4 tổng số ca tử vong trong nước Sự gia tăng nhanh chóng của các bệnh như tăng huyết áp, thiếu máu cục bộ, đột quỵ và các bệnh van tim do thấp trong vài thập kỷ qua đã làm nổi bật tầm quan trọng của việc phát hiện sớm và phân loại chính xác tín hiệu ECG Điện tâm đồ là công cụ ghi lại nhịp tim, giúp chẩn đoán các bệnh tim mạch, trong khi việc sử dụng kỹ thuật máy học để phân loại và phát hiện rối loạn nhịp tim sẽ hỗ trợ bác sĩ trong việc đưa ra các phân tích và chẩn đoán chính xác hơn.
Hiện nay, việc phân loại các bệnh tim gặp nhiều khó khăn do mỗi tín hiệu điện tim có những đặc trưng riêng biệt Điều này không tuân theo quy tắc phân loại tối ưu nào cho bộ phân loại ECG, dẫn đến sự thiếu chuẩn hóa các đặc trưng của tín hiệu điện tim.
Để cải thiện chẩn đoán và điều trị, cần phát triển một mô hình phân loại sử dụng kỹ thuật máy tự học, cùng với một bộ phân loại có khả năng phân loại hiệu quả các bệnh lý rối loạn nhịp tim trong thời gian thực Việc này sẽ giúp khắc phục vấn đề ghi chép thủ công trên giấy hiện tại.
Các kết quả nghiên cứu trong và ngoài nước đã công bố
Sự phát triển liên tục của thiết bị ghi lại tín hiệu điện tim đóng vai trò quan trọng trong việc hỗ trợ bác sĩ đưa ra chẩn đoán chính xác Tại Việt Nam, nghiên cứu về bệnh tim vẫn chỉ dừng ở mức độ cơ bản và cận lâm sàng, với một số nghiên cứu điển hình về tim.
Kiểm soát mối liên quan giữa kiểm soát huyết áp và chất lƣợng cuộc sống của bệnh nhân tăng huyết áp
Nghiên cứu chức năng tâm trương thất trái và thất phải bằng siêu âm Doppler tim
Góp phần chuẩn đoán và điều trị dò mạch vành bẩm sinh: nhân 20 trường hợp tại bệnh viện tim tâm đức
Xây dựng mô hình tiên lƣợng hiệu chỉnh cho bệnh nhân nhồi máu cơ tim cấp tại viện tim thành phố Hồ Chí Minh
Hiện nay, nhiều thiết kế và phân tích tín hiệu điện tim đã được phát triển để thu nhận và đo đạc tín hiệu điện tim Tuy nhiên, khi xử lý tín hiệu ECG từ bệnh nhân, phần lớn tín hiệu ghi nhận chỉ thể hiện nhịp tim bình thường, không đủ thông tin cho chẩn đoán bệnh Chỉ có một số chu kỳ cho thấy nhịp tim bất thường kèm theo sự thay đổi hình dạng của ECG Do đó, việc sử dụng các phương pháp truyền thống trong thu nhận và xử lý tín hiệu điện tim gặp nhiều khó khăn và tốn kém.
Có ba bộ nhớ được sử dụng để ghi lại các tín hiệu không phục vụ cho việc chẩn đoán bệnh, trong khi bộ nhớ của máy ghi lại không đủ dung lượng để lưu trữ các chu kỳ bệnh lý dài hơn.
Theo Tổ Chức Y Tế Thế Giới, bệnh tim thiếu máu cục bộ là nguyên nhân tử vong hàng đầu với hơn 10 triệu ca mỗi năm Do đó, nghiên cứu về tim đã được tiến hành từ lâu và đã đạt được nhiều kết quả quan trọng Một số kết quả nghiên cứu bao gồm tối ưu phân loại ECG thông qua lựa chọn tính năng, đánh giá cơ sở dữ liệu của các bộ phân loại nhịp tim, và nhận dạng con người từ tín hiệu điện tim qua phân bố thưa thớt của các phân đoạn ECG Ngoài ra, còn có hệ thống trích xuất tính năng chuyển mạch để phân loại nhịp tim ECG, sử dụng PCA, LDA, ICA và chuyển đổi wavelet rời rạc để phân loại tín hiệu điện tim Phân loại tín hiệu ECG cá nhân hóa bằng mạng Neural-Network và phương pháp tối ưu bầy đàn cũng đã được nghiên cứu, cùng với việc áp dụng máy học cực trị trong phân loại các tín hiệu điện tim.
Nhiều nghiên cứu đã chỉ ra rằng độ chính xác trong việc phân loại tín hiệu ECG có thể đạt tới 99.83% và 99.97% Tuy nhiên, bài nghiên cứu này không tập trung vào việc so sánh hiệu quả của các bộ phân loại khác nhau, mà chủ yếu đánh giá lại tập dữ liệu ECG, trong đó có quá nhiều nhịp tim bình thường, dẫn đến sự phân cực trong quá trình phân loại tín hiệu điện tim.
Mục tiêu của đề tài
Để phân tích và nghiên cứu tín hiệu điện tim, cơ sở dữ liệu MIT-BIH cung cấp 48 đoạn ECG của 47 đối tượng Các nghiên cứu trước đây dựa trên bộ dữ liệu này chủ yếu tập trung vào nhịp tim bình thường, dẫn đến sự sai lệch trong đánh giá Tuy nhiên, hiện nay chúng ta đang chú trọng nhiều hơn đến các nhịp tim bệnh lý Do đó, nghiên cứu này xem xét ảnh hưởng của việc phân cực dữ liệu đến bộ phân loại tín hiệu điện tim sau khi đã loại bỏ nhịp tim bình thường, đồng thời phân tích tác động của số lượng dữ liệu được sử dụng.
Số lượng mẫu dữ liệu huấn luyện ảnh hưởng đáng kể đến độ chính xác của bộ phân loại Kết quả thí nghiệm cho thấy bộ dữ liệu MIT không đủ đầy đủ để phát triển một bộ phân loại hiệu quả.
Nhiệm vụ và giới hạn của đề tài
1.4.1 Nhiệm vụ của đề tài
Các nội dung chính đƣợc thực hiện trong đề tài:
- Thu thập và xây dựng tập dữ liệu trên môi trường Matlab
- Tiền xử lý tín hiệu dùng phương pháp DWT
- Trích đặc trưng và giảm chiều dữ liệu dùng phương pháp PCA
- Đánh giá phân cực dữ liệu của bộ phân loại sử dụng phương pháp ma trận nhầm lẫn và đường cong ROC
- Phân loại bệnh dùng mạng Neural Network
- Kết luận, phân tích và đánh giá kết quả
- Tóm tắt nội dung và viết báo cáo
1.4.2 Giới hạn của đề tài
Vấn đề phân loại tín hiệu điện tim ECG gặp khó khăn do mỗi tín hiệu có những đặc trưng riêng, không tuân theo quy tắc phân loại tối ưu nào, dẫn đến thiếu chuẩn hóa các đặc trưng này Nhịp tim trong bộ dữ liệu MIT-BIH phụ thuộc vào nhiều yếu tố vật lý, môi trường và tâm trạng của người ghi lại, gây ra sự biến đổi trong các khoảng RR, PR, QT.
Dữ liệu huấn luyện để phân loại bệnh chỉ sử dụng từ một nguồn duy nhất là MIT-BIH, dẫn đến độ chính xác chỉ mang tính khách quan Mỗi máy đo điện tâm đồ có độ chính xác khác nhau, nên khi một bộ phân loại nhận dữ liệu ECG huấn luyện khác nhau, kết quả phân loại có thể không chính xác khi áp dụng thực tế trên các máy khác nhau.
Phương pháp nghiên cứu
Trong các nghiên cứu về tín hiệu ECG, việc sử dụng dữ liệu thực tế để phân loại là một thách thức lớn Nhiều tác giả thường dựa vào tập dữ liệu MIT-BIH ARHYTHMIA DATABASE cho bộ phân loại của họ, tập trung vào việc cải thiện độ chính xác phân loại Tuy nhiên, cần lưu ý rằng tập dữ liệu này có tỷ lệ 83.6% nhịp tim bình thường và chỉ 16.4% nhịp tim bị bệnh, điều này có thể ảnh hưởng đến tính khả thi của các phương pháp phân loại.
Nghiên cứu này đánh giá lại việc phân loại tín hiệu nhịp tim thông qua hai thí nghiệm Thí nghiệm đầu tiên sử dụng tập dữ liệu ECG từ MIT, bao gồm nhiều nhịp tim bình thường, trong khi thí nghiệm thứ hai loại bỏ các tín hiệu nhịp tim bình thường trước khi đưa vào bộ phân loại Kết quả cho thấy rằng dữ liệu hiện có trong tập dữ liệu đã công bố chưa đủ để đưa ra kết quả chính xác về phân loại bệnh tim, và sự hiện diện của nhiều nhịp tim bình thường ảnh hưởng đến độ chính xác của bộ phân loại.
Phân tích và xử lý dữ liệu đƣợc thực hiện trên phần mềm và công cụ hỗ trợ của Matlab, phiên bản R2016a
CƠ SỞ LÝ THUYẾT
Khái niệm về tín hiệu điện tim ECG
Điện tâm đồ (ECG) là một xét nghiệm y tế quan trọng giúp phát hiện bất thường của tim bằng cách đo hoạt động điện từ các cực điện đặt trên tay, chân và ngực bệnh nhân Dữ liệu này được chuyển đến máy ghi, nơi nó được khuếch đại và hiển thị dưới dạng dấu vết trên màn hình hoặc giấy Sau khi lọc nhiễu, tín hiệu điện tim được thể hiện bằng các nhịp đập, mỗi nhịp bao gồm sóng P, phức hợp QRS và sóng T, cho phép bác sĩ đánh giá tình trạng sức khỏe của cơ tim.
S, T và U), khoảng thời gian (PR, RR, QRS, ST và QT) và các phân đoạn (PR và ST) của các tín hiệu ECG có những giá trị biên độ hoặc thời gian bình thường của nó [5] Những đỉnh, khoảng thời gian và các phân đoạn này đƣợc gọi là các đặc trƣng của tín hiệu ECG Chính những phân đoạn này và dựa vào khoảng thời gian của nó để bác sĩ phân loại và chuẩn đoán các loại bệnh Thời gian của từng tính năng khá nhỏ tính bằng đơn vị milli giây Khoảng thời gian dài nhất là 0.6 đến 1.2 giây chính là khoảng thời gian giữa hai đỉnh R cũng là khoảng cách về thời gian của hai nhịp tim Ngoài ra các phân đoạn PR, QRS, ST và QT cũng mang những đặc trƣng của mỗi loại bệnh khác nhau Hình 2.1 mô tả một nhịp tim ECG bình thường
Hình 2.1 Dạng sóng ECG bình thường [6]
Ý nghĩa các thành phần trên điện tâm đồ
Nhịp tim thường được đo bằng cách kiểm tra mạch đập, nhưng điện tâm đồ đóng vai trò quan trọng trong việc chẩn đoán chính xác các loạn nhịp tim đơn giản và tiết kiệm chi phí Một chu kỳ tim trên điện tâm đồ bao gồm sóng P, phức hợp QRS, sóng T và sóng U Hình dạng, thời gian kéo dài của các sóng và phức hợp, cùng với khoảng thời gian giữa các thành phần, đều có ý nghĩa quan trọng trong việc chẩn đoán và phân loại bệnh.
Sóng P được hình thành từ quá trình khử cực của cả hai tâm nhĩ, nhĩ trái và nhĩ phải Biên độ sóng P thường dưới 2mm (0.2mV), và thời gian của sóng này cũng rất quan trọng trong việc đánh giá hoạt động điện tim.
P có giá trị từ 0.08 đến 0.1 giây, cho thấy việc tăng biên độ và kéo dài thời gian của sóng có thể chỉ ra tình trạng tâm nhĩ lớn Cụ thể, biên độ tăng cao gợi ý đến sự phì đại của nhĩ phải, trong khi thời gian khử cực kéo dài cho thấy sự phì đại của nhĩ trái.
Phức hợp QRS phản ánh quá trình khử cực của tâm thất, với sự thay đổi về chiều khử cực và vị trí điện cực dẫn đến các phức bộ khác nhau trên giấy ghi Thời gian bình thường của phức hợp QRS dao động từ 0.06 đến 0.1 giây, thể hiện sự ưu thế của sóng R hoặc sóng S.
Sóng T là sóng xuất hiện sau phức bộ QRS, thể hiện quá trình tái cực muộn của hai tâm thất Sóng T có vai trò quan trọng trong việc đánh giá tình trạng cơ tim thiếu máu, với thời gian bình thường khoảng 120 mili giây.
Sóng U trên điện tâm đồ là sóng nhỏ xuất hiện sau sóng T, thường có hình dạng đảo ngược hoặc nhô cao Sóng U có thể gặp trong nhiều bệnh lý tim như bệnh mạch vành, tăng huyết áp, bệnh van tim, tim bẩm sinh, bệnh lý cơ tim, cường giáp, ngộ độc, và rối loạn điện giải.
Khoảng PR là khoảng thời gian dẫn truyền từ nhĩ đến thất, thường dao động từ 0.12 đến 0.2 giây Sự kéo dài của khoảng PR cho thấy quá trình dẫn truyền chậm, trong khi khoảng PR ngắn có thể chỉ ra hội chứng kích thích sớm.
Khoảng ST thường không quan trọng về thời gian mà chủ yếu về hình dạng, với sự chênh lệch tối thiểu so với đường đẳng điện Đoạn ST đóng vai trò cực kỳ quan trọng trong việc chẩn đoán nhồi máu cơ tim Thời gian của nhịp tim bình thường khoảng 320 mili giây.
Khoảng QT là thời gian tâm thu điện học của tâm thất, với giá trị bình thường phụ thuộc vào tần số tim QT kéo dài bất thường có liên quan đến nguy cơ cao mắc loạn nhịp thất, đặc biệt là xoắn đỉnh.
Hội chứng QT ngắn bẩm sinh, liên quan đến nguy cơ tăng cao về rung nhĩ và đột tử do tim, đã được phát hiện gần đây Mặc dù điện tâm đồ là một xét nghiệm đơn giản, nhưng nó không thể loại trừ các bệnh tim nghiêm trọng Hơn nữa, không phải tất cả các cơn đau tim đều có thể được phát hiện qua điện tâm đồ, và một bệnh tim phổ biến như đau thắt ngực cũng không được chẩn đoán bằng phương pháp này Việc đánh giá tình trạng bệnh tim cần những phương pháp chẩn đoán khác.
9 nhân thông qua điện tâm đồ bằng phương pháp máy học (machine learning) cần nắm vững các khái niệm cơ bản về tín hiệu điện tim ECG.
Thu thập dữ liệu
Việc thu thập bộ dữ liệu thực tế cho sinh viên không chuyên ngành y là rất khó khăn do vấn đề chính xác và nhiễu Do đó, dữ liệu từ cơ sở MIT-BIH arrythmia đã được kiểm nghiệm và sử dụng rộng rãi trong nghiên cứu tín hiệu điện tim Dữ liệu này không chỉ cung cấp các tín hiệu ECG mà còn đi kèm với nhãn thông tin về các bệnh lý liên quan đến từng nhịp tim, cũng như thông tin về bệnh nhân, thời gian lấy mẫu, tần số lấy mẫu, vị trí đo và nhiều thông tin khác.
Hình 2 Cách thu thập dữ liệu từ bộ dữ liệu chuẩn có sẵn [8]
Dữ liệu tín hiệu điện tim từ MIT bao gồm 48 tín hiệu ECG được thu thập từ 47 bệnh nhân trong giai đoạn 1975 đến 1979, tại Phòng Thí nghiệm Chứng loạn nhịp tim.
Bệnh viện Beth Israel cung cấp 10 tín hiệu ECG độc đáo, mỗi tín hiệu được ghi chú với thông tin chi tiết về bệnh nhân, tần số lấy mẫu, vị trí đo và loại bệnh Khoảng 60% tín hiệu được thu thập từ bệnh nhân nội trú, và tập dữ liệu này bao gồm 23 tín hiệu được đánh số từ 1 đến 23.
Trong nghiên cứu này, 25 tín hiệu được chọn ngẫu nhiên từ dãy số 200 đến 234, trong khi một số không tồn tại Bên cạnh đó, 23 hồ sơ được phân tích, bao gồm các hiện tượng hiếm gặp nhưng có triệu chứng lâm sàng quan trọng, mặc dù chúng xuất hiện một cách ngẫu nhiên và với tần suất khá thấp.
Dữ liệu ECG từ MIT-BIH bao gồm ba tệp: “*.atr”, “*.dat” và “*.hea” cho mỗi tín hiệu điện tim Sau khi tải bộ dữ liệu về, người dùng có thể sử dụng Tool kit đọc Database từ MIT-BIH, một mã nguồn mở tương thích với nhiều nền tảng, được phát triển bởi PhysioNet và nhận hỗ trợ từ Viện Khoa Học Y Khoa Quốc Gia (NIGMS) cùng Viện Nghiên Cứu Sinh Học và Kỹ Thuật Y Sinh Quốc Gia (NIBIB).
Bảng 2.1 Toàn bộ tín hiệu ECG từ MIT-BIH
File chú thích File dữ liệu File tiêu đề
100.dat 101.dat 102.dat 103.dat 104.dat 105.dat 106.dat 107.dat 108.dat 109.dat 111.dat
100.hea 101.hea 102.hea 103.hea 104.hea 105.hea 106.hea 107.hea 108.hea 109.hea 111.hea
File chú thích File dữ liệu File tiêu đề
112.dat 113.dat 114.dat 115.dat 116.dat 117.dat 118.dat 119.dat 121.dat 122.dat 123.dat 124.dat 200.dat 201.dat 202.dat 203.dat 205.dat 207.dat 208.dat 209.dat 210.dat 212.dat 213.dat 214.dat 215.dat 217.dat
112.hea 113.hea 114.hea 115.hea 116.hea 117.hea 118.hea 119.hea 121.hea 122.hea 123.hea 124.hea 200.hea 201.hea 202.hea 203.hea 205.hea 207.hea 208.hea 209.hea 210.hea 212.hea 213.hea 214.hea 215.hea 217.hea
File chú thích File dữ liệu File tiêu đề
219.dat 220.dat 221.dat 222.dat 223.dat 228.dat 230.dat 231.dat 232.dat 233.dat 234.dat
219.hea 220.hea 221.hea 222.hea 223.hea 228.hea 230.hea 231.hea 232.hea 233.hea 234.hea
Thuật toán biến đổi Wavelet
Trong xử lý tín hiệu, biến đổi Fourier là công cụ mạnh mẽ cho phân tích dữ liệu, nhưng nó có nhược điểm là mất thông tin về thời gian khi chuyển tín hiệu từ miền thời gian sang miền tần số Hơn nữa, biến đổi Fourier không phù hợp với tín hiệu không ổn định và bị nhiễu Để khắc phục những hạn chế này, phép biến đổi Wavelet đã được phát triển, cho phép phân tích đồng thời cả miền thời gian và miền tần số.
13 a) Biến đổi Wavelet liên tục
Một hàm f(t) được xây dựng từ hàm Wavelet mẹ ψ(t), trong đó ψ(t) có thể là bất kỳ hàm số thực hoặc phức liên tục nào, miễn là nó đáp ứng các tiêu chí nhất định.
Tích phân suy rộng trên toàn bộ trục t của hàm ψ (t ) là bằng 0 Tức là:
(2.1) Biến đổi Wavelet liên tục của một hàm bình phương khả tích f(t) được tính theo công thức:
(2.2) là một hàm của hai tham số thực a và b Dấu * ký hiệu là liên hiệp phức của ψ(t) Với:
(2.3) Chúng ta có thể viết:
dt t t f( ) a , b ( ) Theo toán học ta gọi đây là tích vô hướng của hai hàm f (t) và ψa,b(t) Giá trị a
1 là hệ số chuẩn hoá để đảm bảo rằng tích phân năng lƣợng của hàm ψa,b(t) sẽ độc lập với a và b : dt t dt b t a
Với mỗi giá trị của a, hàm ψa,b(t) được dịch b đơn vị trên trục thời gian, trong đó b được gọi là tham số dịch Khi đặt tham số dịch b = 0, ta nhận được hàm gốc.
(2.5) thấy rằng a là tham số tỷ lệ Hệ số tỷ lệ càng nhỏ, wavelet càng đƣợc nén mạnh hơn
Hình 2.2 Các thành phần wavelet tương ứng với các tỉ lệ vị trí khác nhau b) Biến đổi wavelets rời rạc
Việc tính toán các hệ số wavelet trên tất cả các tỉ lệ rất phức tạp và tạo ra khối lượng dữ liệu lớn Để đơn giản hóa, người ta chỉ chọn một tập hợp nhỏ các giá trị tỉ lệ và vị trí, cụ thể là các tỷ lệ và vị trí theo luỹ thừa cơ số 2, nhằm đạt được kết quả hiệu quả và chính xác hơn Quá trình chọn lựa này tạo thành lưới nhị tố (dynamic), cho phép thực hiện phân tích thông qua biến đổi wavelet rời rạc một cách hiệu quả.
Phân tích wavelet, các xấp xỉ và chi tiết:
- Xấp xỉ là thành phần có tỷ lệ cao, tức là độ co dãn cao, tần số thấp cảu tín hiệu
- Chi tiết là thành phần có tỷ lệ thấp, tức độ co dãn thấp, tần số cao của tín hiệu
Nội dung tần số thấp đóng vai trò quan trọng trong việc xác định tín hiệu, trong khi nội dung tần số cao chỉ làm tăng thêm hương vị Ví dụ, nếu loại bỏ tần số cao trong giọng nói, nội dung vẫn có thể được hiểu, nhưng nếu tần số thấp bị loại bỏ quá nhiều, sẽ không còn nghe rõ Trong phân tích hình ảnh, chúng ta chú ý đến hai thuật ngữ: thành phần tần số thấp tương ứng với xấp xỉ và thành phần tần số cao tương ứng với chi tiết Phân tích wavelet cho phép chúng ta tách biệt và làm rõ hai thành phần này.
Hình 2.3 Biến đổi Wavelet rời rạc của tín hiệu
Việc tính toán biến đổi DWT thực chất là quá trình rời rạc hóa biến đổi Wavelet liên tục (CWT) Quá trình này được thực hiện thông qua việc lựa chọn các hệ số a và b, trong đó a = 2^m và b = 2^mn, với m, n thuộc tập số nguyên Z.
Có thể hiểu phép biến đổi Wavelet rời rạc – DWT nhƣ là áp dụng một tập các bộ lọc thông cao và thông thấp
Biến đổi DWT một chiều được minh họa trong Hình 8, trong đó tín hiệu gốc được xử lý qua các bộ lọc thông cao (H) và thông thấp (L) Sau đó, tín hiệu này được lấy mẫu xuống với hệ số 2, tạo thành biến đổi DWT mức 1.
Hình 2.4 Quá trình phân tích tín hiệu dùng biến đổi DWT một chiều
Thuật toán PCA
Phân tích thành phần đặc trưng (PCA) là một phương pháp thống kê giúp phân tích mối liên hệ giữa các chiều (dimension) hoặc biến (variances) trong một bộ dữ liệu (dataset) PCA cho phép giảm số lượng biến cần thiết để mô tả bộ dữ liệu, đồng thời giữ lại tối đa thông tin, nhờ vào khả năng nén dữ liệu hiệu quả Dưới đây là phần nghiên cứu cơ sở toán học của PCA.
Cho một bộ dữ liệu S nhƣ sau:
S: Tập dữ liệu ta có
S1, S2, …, Sn : Các chiều (dimensions) của tập dữ liệu S
17 n : Số lƣợng chiều của tập S m : Số lƣợng mẫu (sample) của tập S
Tiến hành tính toán để tìm các thông số sau:
C (covariance matrix) : Ma trận Hiệp phương sai của tập dữ liệu S
(eigenvalue) : Giá trị riêng của ma trận C
U (eigenvector) : Véc tơ trị riêng của ma trận C
P (principal component) : thành phần đặc trƣng của tập dữ liệu S
Giá trị trung bình (mean value) của mỗi chiều dữ liệu đƣợc tính theo công thức:
(2.6) Giá trị hiệp phương sai (covariance value):
Ma trận hiệp phương sai C (covariance matrix) được tính theo công thức sau đây:
1 2 cov( ,S ) cov( ,S ) cov( ,S ) cov( ,S ) cov( ,S ) cov( ,S ) cov( ,S ) cov( ,S ) cov( ,S ) n n n n n n
Tính giá trị riêng (eigenvalue)và véc tơ trị riêng U (eigenvector) của Ma trận C
CU=U hoặc (C-In)U=0 trong đó:
C (covariance matrix) : Ma trận Hiệp phương sai của tập dữ liệu S
(eigenvalue) : Giá trị riêng của ma trận C
In (identify matrix n-by-n ) : Ma trận xác định kích thước nxn
U (eigenvector) : Véc tơ trị riêng của ma trân C (bằng kích thước với ma trận C là nxn);
Sau khi giải phương trình trên ta sẽ thu được va U có dạng như sau:
Khôi phục tập dữ liệu S từ các phần chính:
Mạng neural network
Mạng nơron nhân tạo (Artificial Neural Network - ANN) là hệ thống xử lý thông tin song song, mô phỏng cấu trúc và chức năng của bộ não con người Các nơron trong mạng được kết nối qua các trọng số liên kết, cho phép thực hiện các nhiệm vụ cụ thể một cách hiệu quả.
Khả năng xử lý của mạng nơron được phát triển thông qua việc điều chỉnh trọng số liên kết giữa các nơron, tức là học từ tập hợp mẫu huấn luyện Các hành vi thu thập minh họa khả năng học hỏi, nhắc lại và tạo ra từ dữ liệu huấn luyện Mạng nơron nhân tạo (ANN) rất hiệu quả trong các nhiệm vụ phân loại, xấp xỉ hàm, tối ưu hóa, lượng tử vectơ và phân nhóm dữ liệu, đặc biệt là trong những trường hợp mà các phép toán thông thường không thể thực hiện thành công.
_Hình 2.5 Cấu trúc mạng neural network
Ngõ vào: là 12 nút tương ứng với 12 đặc trưng được sử dụng
Một lớp ẩn bao gồm 10 neuron và một lớp ngõ ra 5 neuron đại diện cho 5 dạng tín hiệu điện tim
Lý do lựa chọn 10 neuron cho lớp ẩn trong nghiên cứu này là dựa trên phương pháp thử và sai Theo nghiên cứu, tác giả đã tiến hành phân loại bằng Neural Network ba lớp với số nút ẩn khác nhau, và kết quả cho thấy độ chính xác cao nhất đạt được với mô hình có 10 neuron Các trọng số của mạng nơ-ron được cập nhật thông qua phương pháp lan truyền ngược lỗi.
2.6.2 Giải thuật huấn luận mạng Neural Work
Thuật toán lan truyền ngƣợc để huấn luyện mạng truyền thằng ba lớp đƣợc tóm tắt nhƣ sau:
Bước 1: Chọn tốc độ , chọn sai số cực đại
- Gán các trọng số ( ) ( ) ( ̅̅̅̅̅ ̅̅̅̅̅̅ ̅̅̅̅) bằng giá trị ngẫu nhiên nhỏ bất kỳ
Bước 3: (Truyền thuận dữ liệu) Tính ngõ ra của mạng với tín hiệu vào là ( ) :
Bước 4: (Lan truyền ngược sai số) Cập nhập trọng số của mạng:
Bước 5: Tính sai số tích lũy:
Bước 6: Nếu k