Khai phá dữ liệu

Một phần của tài liệu Học máy và phân loại trong xử lý tín hiệu y sinh và chẩn đoán bệnh (Trang 53 - 57)

5. Phương pháp luận nghiên cứu

2.7 Khai phá dữ liệu

Khám phá kiến thức từ các cơ sở dữ liệu hay khai phá dữ liệu liên quan tới trích chọn các mối quan hệ hữu dụng và các mẫu từ các cơ sở dữ liệu lớn. Đƣa vào một lƣợng lớn dữ liệu và thu được đầu ra dữ liệu hữu dụng, một phương pháp có tính hệ thống phải được áp dụng. Nó trở thành một hệ số mà chất lƣợng dữ liệu sẽ đƣa đến đầu ra chính xác hơn dữ liệu thô. Dữ liệu thô là một khái niệm chung trong khai phá dữ liệu nó mô tả một số các đặc tính không mong muốn nhƣ sự không đầy đủ, nhiễu, và không tin cậy. Trong nghiên cứu này, phương pháp nghiên cứu liên quan tới các quá trình khai phá dữ liệu khác nhau

2.7.1 Thu thập dữ liệu

Sẽ rất là quan trọng để thu thập dữ liệu chất lƣợng cao, nó dựa vào chất lƣợng của quá trình thu thập dữ liệu. Dữ liệu nghiên cứu đƣợc đề xuất để thu thập dữ liệu từ các bệnh viện tại Việt nam, tuy nhiên tai Việt nam mới đang bước đầu trong giai đoạn triển khai bệnh án điện tử tại một số bệnh viện, nên việc thu thập dữ liệu là không khả thi.

Cho nên việc tìm kiếm nguồn dữ liệu lấy từ các nguồn khác, mà ở nghiên cứu này lấy từ trường đại học Wisconsin. Tập dữ liệu về ung thư vú có 348 bản ghi, mỗi bản ghi có 9 đặc điểm đặc trưng và một thuộc tính lớp đầu ra như bảng dưới

2.7.2 Lựa chọn dữ liệu

Lựa chọn dữ liệu hay lƣa chọn đặc điểm đặc trƣng là một vùng nghiên cứu rất tích cực trong vấn đề nhận diện mẫu, thống kê, và khai phá dữ liệu. Sự hỗ trợ bên cạnh lựa chọn đặc điểm đặc trƣng là để lựa chọn một tập con của các bản ghi có thể thay đổi đƣợc bằng việc lờ đi các đặc điểm đặc trƣng với các thông tin ít quan trọng. Ví dụ, các bác sỹ có thể dựa trên một số các đặc điểm đặc trƣng để đƣa ra một quyết định có hay không một ca phẫu thuật nguy hiểm.

Thu thập dữ liệu

Lựa chọn dữ liệu

Tiền xử lý dữ liệu

Phương pháp khai phá dữ liệu Đánh giá

Giám sát các kết quả

Hình 2-11 Quá trình khai phá dữ liệu

Trong nghiên cứu hiện tại, phương thức lựa chọn đặc điểm đặc trưng được sử dụng để tối thiểu hoá số lượng các đặc điểm đặc trưng trong tập dữ liệu trước khi đưa vào quá trình xử lý dữ liệu.

2.7.3 Tiền xử lý dữ liệu

Giai đoạn thu thập dữ liệu có thể tạo ra tập dữ liệu nó chứa đựng các dữ liệu không chắc chắn, không chính xác và chƣa đầy đủ. Dữ liệu không chính xác có các giá trị thuộc tính sai, điều này có thể dẫn tới làm sai lệch dữ liệu đầu vào, lỗi trong quá trình thu thập dữ liệu, sai số trong việc truyền dữ liệu, và người sử dụng có thể đề xuất giá trị sai khi điền vào các trường có tính chất bắt buộc trong quá trình khảo sát.

Dữ liệu chƣa đầy đủ có thể xuất hiện vì nhiều lý do. Ví dụ, một số các giá trị thuôc tính là không quan trọng, trong quá trình vào dữ liệu và một số các thuộc tính không có.

Sự không tin cậy xuất hiện khi có một bản ghi nó xung đột với các bản ghi khác trên tập cơ sở dữ liệu.

Dữ liệu đầy đủ, chính xác, và tin cậy là các yếu tố nó định nghĩa chất lƣợng dữ liệu.

Tiền xử lý dữ liệu là một bước quan trọng trong quá trình khai phá dữ liệu để thoả mãn các yếu tố chất lƣợng dữ liệu.

Vì thế, nghiên cứu hiện tại sẽ tiến hành quá trình tiền xử lý dữ liệu để bảo đảm rằng tập dữ liệu là sẵn sàng cho quá trình khai phá để tạo ra các kết quả chính xác có thể. Kết thúc quá trình này dữ liệu sẽ sãn sàng cho quá trình khai phá.

2.7.4 Áp dụng các phương thức khai phá dữ liệu

Ở giai đoạn này, dữ liệu đã sẵn sàng cho quá trình khai phá mà không cần phải tiền xử lý dữ liệu gì thêm. Việc lựa chọn phương pháp khai phá dữ liệu được thực hiện bởi một số các thuật toán để thực hiện một công việc nhất định theo ý đồ của người khai thác.

Ví dụ như trong luận văn này phương pháp khai phá dữ liệu là cây phân lớp, mạng nơ ron nhân tạo, mạng Naive Bayes, hệ ANFIS để phân lớp bệnh nhân ung thƣ vú là lành tính

2.7.5 Đánh giá dữ liệu

Việc đánh giá dữ liệu là một phần quan trọng của quá trình khai phá dữ liệu. Trong quá trình thực hiện việc này, sự hỗ trợ của các chuyên gia khai phá dữ liệu là để kiểm tra và đánh giá các mô hình đƣợc đề xuất. Nếu mô hình không thoả mãn sự kỳ vọng, thì các chuyên gia dữ liệu thường xây dựng lại các mô hình bằng việc thay đổi các tham số đến khi kết quả mong muốn đạt đƣợc.

Việc đánh giá các phương pháp được thực hiện bằng việc so sánh các mô hình với các giá trị dữ liệu thực ( các đặc điểm đặc trƣng trong lớp) theo độ chính xác phân lớp và sai số đƣợc tính toán.

Sai số của bộ phân lớp đƣợc định nghĩa nhƣ là giá trị trung bình của các mẫu bị phân lớp sai chia cho tổng số các bản ghi trong tập cơ sở dữ liệu.

Một cách tiếp cận khác để đánh giá kết quả bằng việc tạo ra sự so sánh các kết quả thu được theo các phương pháp được đề xuất và các phương pháp trước đó trong các bài báo khoa học.

Trong phần lớp các trường hợp, tập dữ liệu được sử dụng trong phương pháp được đề xuất nên là giống với tập dữ liệu được sử dụng bởi các phương pháp khác trong các báo cáo khoa học để bảo đảm thu nhận được một phương pháp tốt hơn.

2.7.6 Công cụ phát triển phần mềm học máy

Hiện nay có hai công cụ phần mềm rất nổi tiếng đế nghiên cứu học máy là WEKA và MATLAB. WEKA là tiêu chuẩn phân tích kiến thức cho môi trường Waikato.

WEKA là phần mềm mã nguồn mở đƣợc viết bằng ngôn ngữ JAVA. WEKA cung cấp môi trường để để tính toán sự gia tăng thông tin và chứa đựng một số phương pháp học máy và khai phá dữ liệu cho việc tiền xử lý dữ liệu, phân lớp, hồi quy, phân chùm dữ liệu, các luật kết hợp, và sự giám sát hoá.

MATLAB là môi trường tương tác cho các tính toán số, giám sát hoá và lập trình.

MATLAB dùng để phân tích dữ liệu, phát triển các thuật toán, và tạo ra các mô hình và

các ứng dụng. MATLAB đƣợc sử dụng rộng rải trong nghiên trong các tổ chức nghiên cứu và học thuật cũng nhƣ các tập đoàn công nghiệp.

2.7.7 Giám sát các kết quả

Ở cuối của pha đánh giá, các chuyên gia khai phá dữ liệu sẽ quyết định làm thế nào để biểu diễn đƣợc các kết quả khai phá dữ liệu. Sự hỗ trợ của công cụ giám sát nó cho phép người sử dụng có thể xem và sử dụng các kết quả thu được để thực hiện các công việc theo ý muốn. Khi đó, khai phá dữ liệu thường liên quan tới rút trích các thông tin chƣa có từ một tập cơ sở dữ liệu.

Người sử dụng có thể đặt ra một số câu hỏi về nguồn thông tin và làm thế nào để sử dụng nó. Tuy nhiên trong các cơ sở dữ liệu, người sử dụng thường mong đợi thông tin có sẵn trong cơ sở dữ liệu. Các biểu bảng, các đồ thị, và các hình đã đƣợc sử dụng để chứng minh các kết quả thu đƣợc.

Một phần của tài liệu Học máy và phân loại trong xử lý tín hiệu y sinh và chẩn đoán bệnh (Trang 53 - 57)

Tải bản đầy đủ (PDF)

(94 trang)