Phương pháp xử lý giá trị chức năng bị bỏ sót

Một phần của tài liệu Học máy và phân loại trong xử lý tín hiệu y sinh và chẩn đoán bệnh (Trang 74 - 81)

5. Phương pháp luận nghiên cứu

3.2 Chẩn đoán ung thư vú bằng phương pháp cây phân lớp

3.2.2 Phương pháp xử lý giá trị chức năng bị bỏ sót

Phương pháp được đề xuất bởi Mohammad Ashra [3], tích hợp thuật toán k lân cận gần nhất và lan truyền độ chính xác phân lớp tới một ngưỡng nhất định. Phương pháp k- NN để tìm ra các lân cận gần nhất n1, ,nk, cho một thực thể cụ thể   xi nó chứa đựng các giá trị đặc điểm đặc trƣng bị bỏ sót, sử dụng Euclidean, Minkowski. Sau đó cách tiếp cận đƣợc đề xuất là để tìm thực thể giống nhất với  xi từ các thực thể n1, ,nk

và sử dụng công thức bằng việc giá trị khoảng cách  cni

(3-4) Trong đó  cni biểu thị cho các lân cận gần nhất với thực thể x d x ni,  j, j là

khoảng cách giữa thực thể xjvà lân cận njnij là chức năng i của lân cận nj.

Sau khi tìm lân cận gần nhất ( giá trị nhỏ nhất của cni ) gọi nó là giá trị đặc điểm đặc trƣng bị bỏ sót trong xisẽ đƣợc điền bằng các giá trị đặc điểm đặc trƣng bị bỏ sót trong xinó có khoảng cách tới xi.

Quá trình điền các giá trị bị bở sót sẽ tạo ra một tập dữ liệu huấn luyện mới nó không chứa đựng giá trị bị bỏ sót.

Để xác nhận độ chính xác của giá trị đặc điểm đặc trƣng bị bỏ sót đƣợc xây dựng, tập dữ liệu huấn luyện mới được áp dụng theo phương pháp cây quyết định và ghi lại độ chính xác. Nếu độ chính xác phân lớp thấp hơn một ngƣỡng nhất định nào đó, thì thuật toán thì thuật toán sẽ quay lại bước điền các giá trị đặc điểm đặc trưng bị bỏ sót đến khi độ chính xác phân lớp mong muốn đạt đƣợc.

Hình 3-8 trình bày lưu đồ thuật toán cho phương pháp.

Dữ liệu huấn luyện ban đầu

Tìm k-NN để xitạo ra một tập các dữ liệu lân cận n1, ,nk

Tìm ni gần giống nhất xitừ n1, ,nk sử dụng công thức (3)

Tìm các thuộc tính bị bỏ sót trong xibằng giá trị thuộc tính tương đương

Không có thêm giá trị bị bỏ sót

Dữ liệu huấn luyện mới

Phân lớp dữ liệu huấn luyện mới sử dụng cây phân lớp

Độ chính xác phân lớp <ngƣỡng

Dữ liệu huấn luyện đã đầy đủ NO

NO

3.2.3 Công nghệ cây hồi quy và cây phân lớp 3.2.3.1 Giới thiệu chung

Phân tích cây hồi quy và phân lớp (CART) là một công cụ phân tích mạnh và khá đơn giản nó hỗ trợ để xác định biến quan trọng nhất ( dựa trên toán giải thích) trong một tập dữ liệu cụ thể và có thể hỗ trợ các nhà nghiên cứu phác hoạ một mô hình giải thích.

3.2.3.2 CART trong lĩnh vực y tế

CART có thể chỉ ra theo phương pháp thống kế các hệ số là quan trọng có tính thực tiễn trong một mô hình hay mối quan hệ các thuật ngữ của sức mạnh diễn giải và các biến. Quá trình này đƣợc nhận diện theo các công nghệ hồi quy quen thuộc, nhƣng trình bày các dự liệu theo một cách nó dễ dàng để diễn tả bởi cả những người không thông thạo về các phân tích thống kê.

Theo cách đó CART biểu diễn những mối quan hệ phức hợp của các biến trong dữ liệu và có thể được sử dụng như là bước đầu tiên trong việc xây dựng một mô hình thông tin.

Trong các dự án lớn trong ngành y học, các nhà thống kê có thể sử dụng CART để biểu diễn dữ liệu sơ cấp cho các bác sỹ và những chuyên gia tham gia vào dự án để họ với các hiểu biết trong thực tế và trực quan có thể đƣa ra các chú thích về các kết quả thống kê.

Quá trình đi đến thống nhất giữa các bác sỹ và các nhà thống kê đối với sự có liên quan của các biến trong dữ liệu để mang lại một mô hình thông tin thống kê và đƣợc thông tin tốt hơn cách tiếp cận của các nhà thống kê và y học một cách riêng rẽ. Ví dụ, các mô hình hồi quy phức hợp đƣợc trình bày trên các bài báo kinh tế chỉ cần ít sự giới thiệu và sự giải thích khi các độc giả quen với các công nghệ đó, và quan tâm nhiều hơn.

3.2.3.3 Lý thuyết và ứng dụng

Trong quá trình thống kê sự hồi quy và phân lớp trong phân tích cây là tương tự

Đối với một biến đáp ứng nó có lớp, thường là nhị phân 0 và 1, chúng ta muốn tổ chức tập dữ liệu thành các nhóm theo các biến đáp ứng gọi là sự phân lớp. Khi biến đáp ứng có giá trị là số hay liên tục chúng ta muốn sử dụng dữ liệu để dự đoán đầu ra, chúng ta sẽ sử dụng cây hồi quy.

Một sự giải thích dựa trên lý thuyết toán sau một cây phân lớp phân tách dữ liệu dựa trên sự đồng nhất, ở đó sự phân loại dựa trên các dữ liệu tương tự nhau, lọc ra các nhiễu để làm cho nó "sạch" hơn ở đây là khái niệm tiêu chuẩn sạch. Trong trường hợp ở đó biến đáp ứng không có lớp, một mô hình hồi quy sẽ phù hợp với từng biến độc lập, việc cách ly các biến này nhƣ các nút nó bao hàm sự giảm sai số.

Quá trình này có thể mô tả theo cấu trúc nhƣ sau:

Hình 3-10 Cấu trúc của CART.

Giả thiết các biến x1, x2, xn thuộc miền X là các biến tiên lƣợng, để dự đoán đáp ứng đầu ra tương ứng

y1, y2, ym thuộc Y.

Hình 3-10 trên là miền của tất cả các biến tiên lƣợng đƣợc kết hợp với đầu ra Y theo thứ tự giản dần về độ quan trọng.

Trong mô hình hồi quy truyền thống, tuyến tính và đa thức một tập dữ liệu đầu vào đƣợc biểu diễn bằng một công thức ( mô hình).

CART tiếp cận khác với mô hình này, ở đó không gian dữ liệu đƣợc phân chia thành các phần nhỏ hơn, ở đó sự tương tác giữa các biến là rõ ràng hơn.

Phân tích CART sử dụng sự phân hoạch hồi quy này để tạo ra một cây ở đó từng nút T nhƣ trong hình 1 biểu diễn một tế bào của sự phân hoạch. Từng tế bào đƣợc gán với một mô hình đã đƣợc đơn giản nó chỉ áp dụng cho tế bào đó. Ở đó khi chúng ta di chuyển xuống các nút, hay các lá cây, của cây, chúng ta đang kiểm tra điều kiện trên một biến cụ thể nào đó - ví dụ nhƣ tuổi của bệnh nhân, hay sự xuất hiện đồng thời của hai căn bệnh nào đó.

Sự phân tách cuối cùng hay nút hay nút cuối cùng đôi khi còn gọi là lá. Trong hình 3-9, A, B và C là các nút cuối cùng ( lá ), điều này hàm ý rằng sau khi phân tách này việc phân tách tiếp theo sẽ không giải thích đủ các biến liên quan theo Y đã đƣợc mô tả.

Sử dụng các ký hiệu từ bộ sách bách khoa toàn thƣ về thống kê (Encyclopedia of Statistics in Qualityand Reliability[7] ) chúng ta biểu diễn quá trình này theo các công thức toán học nhƣ sau:

Nhớ lại rằng, chúng ta muốn tìm một hàm d(x) để ánh xạ miền đầu vào X thành các biến đáp ứng đầu ra Y, chúng ta cần giả thiết sự tồn tại của một mẫu n quan sát

Theo các công thức hồi quy tiêu chuẩn của chúng ta để lựa chọn d(x) sẽ là sai số dự đoán bình phương trung bình Ed x      E x y | 2 hay kỳ vọng chi phí phân lớp sai trong trường hợp cây phân lớp.

Đối với từng nút-lá l c là các mẫu huấn luyện trong cây hồi quy, thì mô hình

của chúng ta là 1

1

1 C

c

y c y

  :" trung bình mẫu của các biến đáp ứng trong tế bào", nó tạo ra mô hình hằng số trong phạm vi hẹp. Trong trường hợp cây phân lớp với nút lá l , mẫu huấn luyện c p c l   | là xác suất mà một biến quan sát l thuộc về một lớp c.

Chỉ số Gini về tiêu chuẩn không tinh khiết cho nút là đƣợc sử

trong đó từng phân tách tối đa hoá sự suy giảm về sự không tinh khiết. Cho dù sử dụng phân lớp hay hồi quy đều phải giảm sai số trong việc phân lớp hay dự đoán đó là nguyên tắc dẫn dắt ý tưởng trong thuật toán CART.

3.2.4 Kết quả

Trong nghiên cứu thống kê và khai phá dữ liệu, cách tiếp cận phân tách các mẫu là đƣợc sử dụng chung trong các nghiên cứu nó chứa đựng tập dữ liệu lớn.

Trong nghiên cứu này 313 mẫu dữ liệu đƣợc chia thành 10 tập dữ liệu con một cách ngẫn nhiên có kích thước tương đối bằng nhau, sau đó sử dụng 9 tập dữ liệu để huấn luyện và một tập dữ liệu để kiểm tra.

Phần mềm trên Matlab đã xây dựng lên cây phân lớp nhƣ sau:

Hình 3-11 Cây phân lớp đề xuất

Cây quyết định có 13 nút trong đó có 7 nút là nút lá ( nút kết thúc), với nút gốc là nút thứ 3. Trong đó: (x1,x2,...x9) tương ứng với 9 chức năng (clump thickness, uniformity of cell size, uniformity of cell shape, marginal adhesion, single epithelial cell size, bare nuclei, bland chromatin, normal nucleoli, and marginal adhesion).

Việc đánh giá trong nghiên cứu này đƣợc dựa theo phuơng pháp chia tập dữ liệu gốc ra thành 10 tập dữ liệu con một cách ngẫu nhiên, lấy 9 tập con để làm huấn luyện cây phân lớp, và một tập dữ liệu con làm tập kiểm tra kết quả cho độ chính xác là 91.69%.

Một phần của tài liệu Học máy và phân loại trong xử lý tín hiệu y sinh và chẩn đoán bệnh (Trang 74 - 81)

Tải bản đầy đủ (PDF)

(94 trang)