Xử lý dữ liệu bỏ sót

5. Phương pháp luận nghiên cứu

2.5 Các giá trị đặc điểm đặc trƣng bị bỏ sót (Missing feature values)

2.5.2 Xử lý dữ liệu bỏ sót

Như đã nhấn mạnh ở trước, quá trình xử lý các giá trị đặc điểm đặc trưng bỏ sót là một quá trình sống còn trong các nghiên cứu khai phá dữ liệu có giám sát và không giám sát bởi vì nó có thể ảnh hưởng chất lượng của dữ liệu bản thân nó, nó có thể ảnh hưởng đến chất lƣợng bộ phân lớp.

Các báo cáo nghiên cứu đã chỉ ra có rất nhiều nỗ lực để xử lý các giá trị đặc điểm đặc trƣng bỏ sót.

Các phương pháp phổ biến nhất để xử lý nó là bỏ qua các thể hiện, và tối đa hoá kỳ vọng. Tất cả các phương pháp đó có thể được áp dụng kết hợp với bất kỳ bộ phân lớp nào nó vận hành trên dữ liệu đầy đủ [24].

 Loại bỏ các thể hiện

Trong phương thức loại bỏ các thể hiện, bất kỳ một bản ghi dữ liệu nó chứa đựng các giá trị đặc điểm đặc trƣng bỏ sót bị xoá từ tập dữ liệu. Sau khi loại bỏ thể hiện nó chứa giá

thế, nó không phải là một phương pháp chung. Tuy nhiên, nó có thể được sử dụng nếu có một khối lƣợng dữ liệu bỏ sót nhỏ [24].

 Phép gán các đặc điểm đặc trƣng

Phép gán các đặc điểm đặc trưng là một phương pháp rất nổi tiếng để xây dựng các giá trị đặc điểm đặc trưng bỏ sót trong tập dữ liệu cho mục đích học. Phương pháp gán đặc điểm chức năng có thể đƣợc phân chia thành hai loại chính: phép gán đơn và phép gán bội số [24].

Trong phương pháp gán đơn, giá trị các đặc điểm đặc trưng bỏ sót được thay thế bằng giá trị các đặc điểm đặc trưng tương ứng theo các luật cụ thể như kiểu, trung bình, phương thức của giá trị đặc điểm đặc trưng hay thuật toán học. Ví dụ phép gán trung bình tính toán giá trị trung bình của đặc điểm đặc trƣng f trong tập dữ liệu, nó chứa đựng các giá trị. Giá trị trung bình cho đặc điểm đặc trƣng f là giá trị đã bị bỏ sót, sau đó đƣợc sử dụng để điền giá trị cho đặc điểm đặc trƣng f .

Một ví dụ khác là phép gán hồi quy. Phép gán hồi quy là một phương pháp, để giải quyết các giá trị đặc điểm đặc trƣng bị bỏ sót bằng việc xây dựng các mô hình hồi quy, nó tạo ra giá trị đặc điểm đặc trƣng bị bỏ sót dựa trên các đặc điểm đặc trƣng quan sát đƣợc (các đặc điểm đặc trƣng nó chứa đựng giá trị). Mô hình hồi quy đƣợc sử dụng để tiên đoán giá trị của các thuộc tính [24].

Cách để xây dựng các giá trị đặc điểm đặc trƣng bị bỏ sót trong các phép gán bội số tương tự cách cho phép gán đơn. Tuy nhiên, phép gán bội số sử dụng nhiều hơn một giá trị để điền vào các giá trị đặc điểm đặc trƣng bị bỏ sót trong tập dữ liệu, nhƣ trung bình của các giá trị đặc điểm đặc trƣng đƣợc quan sát, kiểu giá trị đặc điểm đặc trƣng đƣợc quan sát, và phương pháp hồi quy.

Các phép gán bội số tiếp cận theo chiều ngƣợc lại bao gồm chi phí tính toán cao hơn trong phép gán đơn. Tuy nhiên, chất lƣợng phân lớp (độ chính xác) thì cao hơn phép gán đơn [24].

 Tối đa hoá kỳ vọng

Hai phương thức quan trọng nhất để giải quyết vấn đề giá trị các đặc điểm đặc trưng bị bỏ sót trong các báo cáo khoa học gần đây là tối đa hoá kỳ vọng và gán đa bội [33].

Tối đa hoá kỳ vọng là một trong các phương pháp hiệu quả nhất để xử lý dữ liệu bị bỏ sót [24].

Để diễn giải tối đa hoá kỳ vọng, khảo sát dữ liệu nhƣ chỉ ra bảng 2-6. Các giá trị đặc điểm đặc trưng bị bỏ sót là chỉ số nhận diện, sự mệt mỏi, tuổi, và chiều cao, lương.

Bảng 2-6 Các giá trị đặc điểm đặc trƣng bị bỏ sót ID Sự mệt mỏi Tuổi Chiều cao Lương

1 5 32 32,010

2 17 173 31.600

3 7 169 48,020

4 5 24 186 17,400

. .

100 4 45 201 7,800

Để thực hiện tối đa hoá kỳ vọng, đầu tiên, giá trị trung bình, giá trị thay đổi, giá trị đồng biến đƣợc ƣớc lƣợng từ các thể hiện mà dữ liệu của chúng là đầy đủ nhƣ chỉ ra trong hàng thứ 4 của bảng 2-6.

Trong thực tế, tối đa hoá kỳ vọng sẽ tính toán các giá trị nhƣ đƣợc chỉ ra trong bảng 2-7.

Giá trị trung bình của sự mệt mỏi, tuổi, chiều cao và cân nặng tương ứng là:

4.71,37.50,183.21 và 45504.43.

Giá trị thay đổi của sự mệt mỏi, tuổi, chiều cao và cân nặng tương ứng là 3.55,9.43,194.43 và 14403.12 và xuất hiện trên đường chéo của bảng sau:

(Các ô khác là giá trị đồng biến giữa từng cặp đôi biến) Bảng 2-7 Tối đa hoá kỳ vọng

Sự mệt mỏi Tuổi Chiều cao Lương Sự mệt mỏi 3.55

Tuổi 7.42 9.43

Thứ hai, tối đa hoá kỳ vọng sử dụng quy trình tối đa hoá khả năng có thể xẩy ra để ƣớc lƣợng các công thức hồi quy tính toán mối quan hệ giữa các biến. Ví dụ, thuật toán tối đa hoá khẳ năng có thể xẩy ra có thể tạo ra các công thức sau:

Mục đích của tối đa hoá khẳ năng có thể xẩy ra là để bảo đảm các công thức đó dự đoán các giá trị trung bình, giá trị thay đổi, và giá trị đồng biến chính xác hơn các công thức khác.

Thứ ba, các công thức này có thể đƣợc sử dụng để ƣớc lƣợng các giá trị bị bỏ sót. Quy trình ƣớc lƣợng các giá trị bị bỏ sót đƣợc chỉ ra nhƣ sau:

 Xét công thức Độ mệt mỏi = -15.3+0.01 x tuổi +0.004x chiều cao +0.0005 x lương

 Công thức này sau đó có thể đƣợc sử dụng để ƣớc lƣợng sự mệt mỏi cho từng cá nhân những người không được cung cấp thông tin của họ.

 Đối với trường hợp thứ hai, 17,173,và 31600 sẽ được thay vào công thức này

 Độ mệt mỏi cho người này là 1.362

Đối với các giá trị đặc điểm đặc trưng bị bỏ sót khác, quy trình tương tự được sử dụng sau khi xem xét vế phải. Các giá trị đặc điểm đặc trƣng bị bỏ sót đƣợc xây dựng nhƣ đƣợc là các số in đậm trong bảng 2-8.

Bảng 2-8 Xây dựng các giá trị đặc điểm đặc trƣng bị bỏ sót

2.6 Thuật toán lan truyền ngƣợc Levenberg-Marquardt

Đây là thuật toán đƣợc sử dụng phổ biến nhất trong việc huấn luyện mạng nơ ron.

Giả thiết ta có mạng nơ ron 3 lớp như hình dưới [10]

Trong mạng trên thì đầu ra của lớp trước sẽ là đầu vào của lớp sau, công thức mô tả mối quan hệ là:

1 1 1 1

(W )

m m m m m

a   f  a b  với m =0,1,2..,M-1, (2-15)

Trong đó M là số lớp trong mạng. Số nơ ron trong lớp thứ nhất nhận các đầu vào bên

Chỉ tiêu đánh giá chuất lƣợng

Thuật toán lan truyền ngƣợc cho các mạng nhiều lớp chính là sự khái quát hóa thuật toán LMS, cả hai thuật toán đều sử dụng chỉ tiêu đánh giá chất lƣợng là sai số bình phương trung bình. Thuật toán được cung cấp với một tập các ví dụ của mối quan hệ vào ra nhƣ sau:   1, 1 , 2, 2,..., , Q,

p t p t pQt

Trong đó

pqlà một đầu vào của mạng, và tq là đáp ứng đầu ra đã biết của mạng ( target). Khi từng đầu vào đƣợc đƣa vào mạng, đầu ra của mạng đƣợc so sánh với target.

Thuật toán sẽ điều chỉnh các tham số của mạng để tối thiểu sai số bình phương trung bình :

F(x) = E    e2 E  t a  2 (2-18)

Trong đó x là ma trận các véc tơ trọng số và các hệ số bias. Nếu mạng có nhiều đầu ra thì ta có thể khái khoát bằng công thức sau:

     

T T

x Ee e  E t a  t a   (2-19) Với thuật toán LMS ta có thể xấp xỉ gần đúng sai số bình phương trung bình theo công thức sau:

       T      T   

F x  t k  a k t k  a k e k e k (2-20)

Trong đó kỳ vọng sai số bình phương được thay thế bằng sai số bình phương ở bước lặp thứ k

1 ,

1 w

m m m m

i i j j i

n a b





   (2-21)

Phương pháp Newton để tối ưu hóa chỉ số F(x) là:

1 k

k k gk

x  x A , (2-22)

Trong đó: 2   |

k F x x

A   x và   |

x k

k F x

g   x (2-23)

Từ:   2     

N T

i i

F x v x v x v x



   (2-24)

Ta có phần tử thứ j của gradient là

       

j j i i j

F x x

x v

F x v

x  x

 

 

 

  (2-25)

Gradient có thể được viết dưới dạng ma trận như sau:

  2 T   

F x J x v x

  (2-26)

Trong đó ma trận Jacobian là:

  1

1,1 1,1 1,1 1,1

1 1 1 1

1,1 1,2 , 1

1,2 1,2 1,2 1,2

1 1 1 1

1,1 1,2 , 1

... ...

w w w w w w

S J x R

b b

   

 

    

 

      

    

 

(2-27)

Và phần tử thứ k ,j của ma trận Hessian là

          2  

, 1

2 2

i i i

k j i k j i k j

x x x

k j

F x v v v

F x v

x x x x

x x 

  

 

        

  

   (2-28)

Ma trận Hessian biểu diễn ở dạng ma trận

       

2F x 2JT x J x 2S x

 (2-29)

Trong đó:     2  

1 N

i i

x x x

S v v



  (2-30)

Nếu chúng ta giả thiết S x là nhỏ, chúng ta có thể xấp xỉ ma trận Hessian nhƣ sau:

     

2F x 2JT x J x

 . Nếu thay các công thức trên vào ta đƣợc

xk 1 xk 2 JT    x Jk xk 12 J xT   k v xk



      (2-31)

    1    

k k k k

T k k v

x x J x J x J x x



      (2-32)

Nếu ma trận H J JT không khả đảo thì ta xấp xỉ ma trận H bằng ma trận G nhƣ sau:

GHI (2-33)

Thuật toán Levenberg-Marquardt là:

    1 T   

T  

   

    1 T   

k k k

T k k k v

x   J x J x    J x x

   (2-35)

Nếu từng đầu ra biết trước (target) xuất hiện với sắc xuất bằng nhau, sai số bình phương trung bình tỉ lệ theo tổng sai số bình phương trên Q target trong tập huấn luyện:

  1 1 1 , 2 1 2 

( ) ( )

Q Q N

q q j i

Q S

T T

F x q q q q q q j q x

t a t a e e e v

   

 

    

   (2-36)

Trong đó ej q, là phần tử sai số thứ j cho cặp đầu vào/target thứ q.

Độ có nhậy

m i m

s F

 

  (2-37)

Độ nhậy Marquardt

, ,

,q ,q

m h k q

m m

i h

i i

v e

s n n

  

 

  (2-38)

Trong đó: h    q 1 k

Luật lan truyền ngƣợc LM đƣợc khởi tạo theo công thức:

 

M M M

q F q

s   n (2-39)

Các cột của ma trận độ nhậy có thể đƣợc lan truyền với nhau theo công thức

   W 1T 1

m m m m

q q q

S F n m S  (2-40)

Ma trận độ nhậy tổng thể Marquardt cho từng lớp đƣợc xác định theo

1 | 2 | ... |

m m m m

S  S S SQ (2-41)

 ,i , , ,q , ,q , ,q1

, j ,q , j , j

w w w

m m

m m m

k q k q i i

m m m i h m i h i

i i i i i

e e n n

J v s s a

x n

  

   

    

     (2-42)

Nếu xi là hệ số bias

 ,i , , ,q , ,q ,

m m

k q k q i i

m m m i h m i h

i i i i i

e e n n

J v s s

x b n b b

 

   

    

     (2-43)

Các bước lặp của thuật toánlan truyền ngược Levenberg-Marquardt (LMBP) có thể đƣợc tổng kết lại nhƣ sau:

1. Đặt các đầu vào tới mạng và tính toán đầu ra mạng theo công thức (2-44) và công thức (2-45) sau đó tính sai số theo công thức e t aq q Mq . Tính toán tổng sai số bình phương của các đầu vào, F(x) sử dụng công thức (2-46).

2. Tính toán ma trận Jacobian , theo công thức (2-47) , tính toán các độ nhậy theo công thức (2-48) sau khi bắt đầu với công thức (2-49). Chuyển các các ma trận riêng rẽ thành các độ nhậy Marquardt theo công thức (2-50) .Tính toán các số hạng của ma trận Jacobian theo công thức (2-51) và (2-52)

3. Tính  xktheo công thức (2-53)

4.Tính toán lại tổng sai số bình phương sử dụng công thức xk xk. Nếu tổng của cỏc bỡnh phương mới nhỏ hơn mà nú được tớnh toỏn trong bước 1 thỡ chia à cho , hay lấy xk1xk xk và quay lại bước 1, Nếu tổng bình phương không giảm thì, thì nhõn à với  và quay lại bước 3.

2.7 Khai phá dữ liệu

Khám phá kiến thức từ các cơ sở dữ liệu hay khai phá dữ liệu liên quan tới trích chọn các mối quan hệ hữu dụng và các mẫu từ các cơ sở dữ liệu lớn. Đƣa vào một lƣợng lớn dữ liệu và thu được đầu ra dữ liệu hữu dụng, một phương pháp có tính hệ thống phải được áp dụng. Nó trở thành một hệ số mà chất lƣợng dữ liệu sẽ đƣa đến đầu ra chính xác hơn dữ liệu thô. Dữ liệu thô là một khái niệm chung trong khai phá dữ liệu nó mô tả một số các đặc tính không mong muốn nhƣ sự không đầy đủ, nhiễu, và không tin cậy. Trong nghiên cứu này, phương pháp nghiên cứu liên quan tới các quá trình khai phá dữ liệu khác nhau

2.7.1 Thu thập dữ liệu

Sẽ rất là quan trọng để thu thập dữ liệu chất lƣợng cao, nó dựa vào chất lƣợng của quá trình thu thập dữ liệu. Dữ liệu nghiên cứu đƣợc đề xuất để thu thập dữ liệu từ các bệnh viện tại Việt nam, tuy nhiên tai Việt nam mới đang bước đầu trong giai đoạn triển khai bệnh án điện tử tại một số bệnh viện, nên việc thu thập dữ liệu là không khả thi.

Cho nên việc tìm kiếm nguồn dữ liệu lấy từ các nguồn khác, mà ở nghiên cứu này lấy từ trường đại học Wisconsin. Tập dữ liệu về ung thư vú có 348 bản ghi, mỗi bản ghi có 9 đặc điểm đặc trưng và một thuộc tính lớp đầu ra như bảng dưới

2.7.2 Lựa chọn dữ liệu

Lựa chọn dữ liệu hay lƣa chọn đặc điểm đặc trƣng là một vùng nghiên cứu rất tích cực trong vấn đề nhận diện mẫu, thống kê, và khai phá dữ liệu. Sự hỗ trợ bên cạnh lựa chọn đặc điểm đặc trƣng là để lựa chọn một tập con của các bản ghi có thể thay đổi đƣợc bằng việc lờ đi các đặc điểm đặc trƣng với các thông tin ít quan trọng. Ví dụ, các bác sỹ có thể dựa trên một số các đặc điểm đặc trƣng để đƣa ra một quyết định có hay không một ca phẫu thuật nguy hiểm.

Thu thập dữ liệu

Lựa chọn dữ liệu

Tiền xử lý dữ liệu

Phương pháp khai phá dữ liệu Đánh giá

Giám sát các kết quả

Hình 2-11 Quá trình khai phá dữ liệu

Trong nghiên cứu hiện tại, phương thức lựa chọn đặc điểm đặc trưng được sử dụng để tối thiểu hoá số lượng các đặc điểm đặc trưng trong tập dữ liệu trước khi đưa vào quá trình xử lý dữ liệu.

2.7.3 Tiền xử lý dữ liệu

Giai đoạn thu thập dữ liệu có thể tạo ra tập dữ liệu nó chứa đựng các dữ liệu không chắc chắn, không chính xác và chƣa đầy đủ. Dữ liệu không chính xác có các giá trị thuộc tính sai, điều này có thể dẫn tới làm sai lệch dữ liệu đầu vào, lỗi trong quá trình thu thập dữ liệu, sai số trong việc truyền dữ liệu, và người sử dụng có thể đề xuất giá trị sai khi điền vào các trường có tính chất bắt buộc trong quá trình khảo sát.

Dữ liệu chƣa đầy đủ có thể xuất hiện vì nhiều lý do. Ví dụ, một số các giá trị thuôc tính là không quan trọng, trong quá trình vào dữ liệu và một số các thuộc tính không có.

Sự không tin cậy xuất hiện khi có một bản ghi nó xung đột với các bản ghi khác trên tập cơ sở dữ liệu.

Dữ liệu đầy đủ, chính xác, và tin cậy là các yếu tố nó định nghĩa chất lƣợng dữ liệu.

Tiền xử lý dữ liệu là một bước quan trọng trong quá trình khai phá dữ liệu để thoả mãn các yếu tố chất lƣợng dữ liệu.

Vì thế, nghiên cứu hiện tại sẽ tiến hành quá trình tiền xử lý dữ liệu để bảo đảm rằng tập dữ liệu là sẵn sàng cho quá trình khai phá để tạo ra các kết quả chính xác có thể. Kết thúc quá trình này dữ liệu sẽ sãn sàng cho quá trình khai phá.

2.7.4 Áp dụng các phương thức khai phá dữ liệu

Ở giai đoạn này, dữ liệu đã sẵn sàng cho quá trình khai phá mà không cần phải tiền xử lý dữ liệu gì thêm. Việc lựa chọn phương pháp khai phá dữ liệu được thực hiện bởi một số các thuật toán để thực hiện một công việc nhất định theo ý đồ của người khai thác.

Ví dụ như trong luận văn này phương pháp khai phá dữ liệu là cây phân lớp, mạng nơ ron nhân tạo, mạng Naive Bayes, hệ ANFIS để phân lớp bệnh nhân ung thƣ vú là lành tính

2.7.5 Đánh giá dữ liệu

Việc đánh giá dữ liệu là một phần quan trọng của quá trình khai phá dữ liệu. Trong quá trình thực hiện việc này, sự hỗ trợ của các chuyên gia khai phá dữ liệu là để kiểm tra và đánh giá các mô hình đƣợc đề xuất. Nếu mô hình không thoả mãn sự kỳ vọng, thì các chuyên gia dữ liệu thường xây dựng lại các mô hình bằng việc thay đổi các tham số đến khi kết quả mong muốn đạt đƣợc.

Việc đánh giá các phương pháp được thực hiện bằng việc so sánh các mô hình với các giá trị dữ liệu thực ( các đặc điểm đặc trƣng trong lớp) theo độ chính xác phân lớp và sai số đƣợc tính toán.

Sai số của bộ phân lớp đƣợc định nghĩa nhƣ là giá trị trung bình của các mẫu bị phân lớp sai chia cho tổng số các bản ghi trong tập cơ sở dữ liệu.

Một cách tiếp cận khác để đánh giá kết quả bằng việc tạo ra sự so sánh các kết quả thu được theo các phương pháp được đề xuất và các phương pháp trước đó trong các bài báo khoa học.

Trong phần lớp các trường hợp, tập dữ liệu được sử dụng trong phương pháp được đề xuất nên là giống với tập dữ liệu được sử dụng bởi các phương pháp khác trong các báo cáo khoa học để bảo đảm thu nhận được một phương pháp tốt hơn.

2.7.6 Công cụ phát triển phần mềm học máy

Hiện nay có hai công cụ phần mềm rất nổi tiếng đế nghiên cứu học máy là WEKA và MATLAB. WEKA là tiêu chuẩn phân tích kiến thức cho môi trường Waikato.

WEKA là phần mềm mã nguồn mở đƣợc viết bằng ngôn ngữ JAVA. WEKA cung cấp môi trường để để tính toán sự gia tăng thông tin và chứa đựng một số phương pháp học máy và khai phá dữ liệu cho việc tiền xử lý dữ liệu, phân lớp, hồi quy, phân chùm dữ liệu, các luật kết hợp, và sự giám sát hoá.

MATLAB là môi trường tương tác cho các tính toán số, giám sát hoá và lập trình.

MATLAB dùng để phân tích dữ liệu, phát triển các thuật toán, và tạo ra các mô hình và

các ứng dụng. MATLAB đƣợc sử dụng rộng rải trong nghiên trong các tổ chức nghiên cứu và học thuật cũng nhƣ các tập đoàn công nghiệp.

2.7.7 Giám sát các kết quả

Ở cuối của pha đánh giá, các chuyên gia khai phá dữ liệu sẽ quyết định làm thế nào để biểu diễn đƣợc các kết quả khai phá dữ liệu. Sự hỗ trợ của công cụ giám sát nó cho phép người sử dụng có thể xem và sử dụng các kết quả thu được để thực hiện các công việc theo ý muốn. Khi đó, khai phá dữ liệu thường liên quan tới rút trích các thông tin chƣa có từ một tập cơ sở dữ liệu.

Người sử dụng có thể đặt ra một số câu hỏi về nguồn thông tin và làm thế nào để sử dụng nó. Tuy nhiên trong các cơ sở dữ liệu, người sử dụng thường mong đợi thông tin có sẵn trong cơ sở dữ liệu. Các biểu bảng, các đồ thị, và các hình đã đƣợc sử dụng để chứng minh các kết quả thu đƣợc.

2.8 Học máy trong chẩn đoán bệnh

Các phương pháp học có thể được sử dụng cho các ứng dụng chẩn đoán và chăm sóc sức khoẻ.

Chức năng của các thuật toán học máy là khả năng học từ các trường hợp đã biết và nó có khẳ năng tạo ra một mô hình tiên đoán.

Mô hình kết quả được sử dụng để tiên đoán các trường hợp mới, tạo ra các củng cố (kiến thức) từ một khối lƣợng lớn dữ liệu, hay để phân lớp dữ liệu thành các mẫu.

Có rất nhiều lợi ích khi sử dụng học máy trong lĩnh vực chăm sóc sức khoẻ. Lợi ích chính của học máy trong lĩnh vực chăm sóc sức khỏe có thể đƣợc phân loại nhƣ sau: hiệu quả trong việc điều trị, quản lý sức khoẻ, quản lý mối quan hệ khách hàng, chẩn đoán trong y tế, phát hiện các trường hợp lạm dụng và làm sai, ( chẩn đoán với sự trợ giúp của máy tính) [4].

Công nghệ lựa chọn chức năng

Học máy trong chẩn đoán bệnh