1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng khai phá dữ liệu trích chọn thông tin sự kiện y tế trên các trang web tiếng việt,khoá luận tốt nghiệp

98 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng Dụng Khai Phá Dữ Liệu Trích Chọn Thông Tin Sự Kiện Y Tế Trên Các Trang Web Tiếng Việt
Tác giả Tạ Quốc Anh
Người hướng dẫn TS. Chu Thị Hồng Hải
Trường học Học viện Ngân hàng
Chuyên ngành Hệ thống thông tin quản lý
Thể loại khóa luận tốt nghiệp
Năm xuất bản 2019
Thành phố Hà Nội
Định dạng
Số trang 98
Dung lượng 1,63 MB

Cấu trúc

  • ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRÍCH CHỌN THÔNG TIN SỰ KIỆN Y TẾ TRÊN CÁC TRANG WEB TIẾNG VIỆT

  • LỜI CẢM ƠN

  • LỜI CAM KẾT

  • NHẬN XÉT

    • (Của giáo viên hướng dẫn)

  • MỤC LỤC

    • DANH MỤC CÁC CHỮ VIẾT TẮT

    • DANH MỤC BẢNG BIỂU HÌNH VẼ •

      • LỜI MỞ ĐẦU

      • Chương 4: Thực nghiệm và đánh giá

      • 1.1. Tổng quan về khai phá dữ liệu

      • 1.1.1. Khái niệm khai phá dữ liệu

      • 1.1.2. Các kỹ thuật áp dụng trong khai phá dữ liệu

      • 1.1.3. Các nguồn dữ liệu có thế khai phá

      • 1.1.4. Ứng dụng của khai phá dữ liệu

      • 1.2. Khai phá Web

      • 1.2.1. Khái niệm khai phá dữ liệu web

      • 1.2.2. Lợi ích của khai phá Web

      • 1.2.3. Các kiêu dữ liệu Web

      • 1.2.4. Xử lý dữ liệu văn bản ứng dụng trong khai phá dữ liệu Web

      • 1.2.4.1. Dữ liệu văn bản

      • 1.2.4.2. Một số vấn đề trong xử lý dữ liệu văn bản

      • 1.3. Tổng quan về sự kiện

      • 1.3.1. Định nghĩa sự kiện

      • 1.3.2. Trích chọn sự kiện

      • 1.4. Ý nghĩa của bài toán trích chọn sự kiện

      • 1.4.1. Ý nghĩa khoa học

      • 1.4.2. Ý nghĩa thực tiễn

      • 1.5. Kết luận chương

    • CHƯƠNG 2: MỘT SỐ PHƯƠNG PHÁP TIEP CẬN TRONG KHAI PHÁ DỮ LIỆU VÀ TRÍCH CHỌN THÔNG TIN

      • 2.1. Phương pháp tiếp cận dựa trên tập luật (Rule - Based)

      • 2.1.1. Luật cú pháp

      • 2.1.2. Luật ngữ nghĩa

      • 2.1.3. Các luật cho đa thực thể

      • 2.1.4. Chọn lựa hình dạng của các tập luật

      • 2.2 Phương pháp tiếp cận dựa trên học máy

      • 2.3 Phương pháp tiếp cận kết hợp luật và học máy

      • 2.4.1. Khai phá văn bản Web

    • 2.4. Phương pháp Khai phá cấu trúc Web

      • 2.5.1. Tiêu chuẩn đánh giá độ tương tự

      • 2.5.2. Khai phá và quản lý cộng đồng web

    • 2.5. Kết luận chương

      • 3.1 Phát biểu bài toán

      • 3.2 Giải bài toán trích chọn sự kiện y tế

      • 3.2.1 Phương pháp đề xuất

      • 3.2.2. Thực hiện giải quyết bài toán phát hiện sự kiện và bài toán trích chọn sự kiện y tế

      • 3.2.2.1. Bài toán thứ nhất (Pha 1) - Phát hiện sự kiện y tế

      • Dịch cúm chèt người áp sát biên giới, Việt Nam khân cap phòng ngừa

      • 3.2.2.2. Bài toán thứ hai (Pha 2) - Trích chọn sự kiện y tế

      • 3.3 Kết luận chương

      • 4.1 Môi trường và công cụ để tiến hành thực nghiệm

      • 4.2 Bộ thu thập dữ liệu

      • 4.3. Tiền xử lý dữ liệu

      • 4.4.3 Đánh giá quá trình phân lớp

      • 4.5.1 Mô tả thực nghiệm

    • PxR

    • P+R

      • Thực nghiệm thông qua bộ phân lớp

    • Nguyên nhân khiến chẩn đoán viêm gan B sai lệch

      • 4.5. Các để xuất sử dụng kết quả phân tích

      • 4.8. Kết luận chương

      • KẾT LUẬN

        • Định hướng trong tương lai

        • 4.7.1. Thống kê số ca mắc bệnh

        • 4.7.2. Thống kê số ca mắc bệnh

        • 4.7.3. Thống các dịch bệnh tại Hà Nội và Tp.Hồ Chí Minh

      • HÀ NỘI

  • DANH MỤC TÀI LIỆU THAM KHẢO

  • PHỤ LỤC

    • 2.1.2. Hình dạng và biểu diễn của tập luật

    • 2.1.3. Các thuộc tính của các thẻ

    • 2.1.4. Các định luật đánh dấu ranh giới thực thể

    • 2.4. Phương pháp Khai phá nội dung Web

    • 2.4.1. Khai phá kết quả tìm kiếm

    • Hà Nội: Gân 27 nghìn trường hợp sôt xuât huyêt, 7 ca tử vong

    • Hà Nội: Số ca mắc sởi cao gấp 15 lần cùng kỳ

      • 4.3. Bộ phát hiện sự kiện

      • 4.4.1. MÔ tả thực nghiệm

Nội dung

CƠ SỞ LÝ THUYẾT

MỘT SỐ PHƯƠNG PHÁP TIẾP CẬN TRONG KHAI PHÁ DỮ LIỆU VÀ TRÍCH CHỌN THÔNG TIN

Các định luật đánh dấu ranh giớithực thể

Chi tiết bài khóa luận được chia thành 4 chương như sau:

Chương 1: Cơ sở lý thuyết

Chương này giới thiệu các khái niệm cơ bản về khai phá dữ liệu và khai phá dữ liệu web, đồng thời đề cập đến vấn đề trích chọn sự kiện trong bối cảnh phát triển mạnh mẽ của công nghệ thông tin và Internet Ngoài ra, chương cũng nhấn mạnh ý nghĩa khoa học và thực tiễn của việc trích chọn sự kiện, đặc biệt là trong lĩnh vực y tế trên các trang web tiếng Việt.

Chương 2: Một số phương pháp tiếp cận trong khai phá dữ liệu và trích chọn thông tin sự kiện

Chương 2 tập trung trình bày một số các phương pháp sử dụng để tiếp cận nhằm giải quyết được bài toán trích chọn sự kiện đó là phương pháp tiếp cận dựa trên luật, phương pháp tiếp cận dựa trên học máy và phương pháp kết hợp giữa luật và học máy Ngoài ra trình bày thêm một số các phương án tiếp cận bổ sung như sử dụng mô hình để rút trích văn bản, phương pháp khai phá dữ liệu dựa trên nội dung web và cấu trúc web Đây là các nền tảng kĩ thuật về công nghệ để thực hiện việc khai phá dữ liệu ở chương 3.

Chương 3: Đề xuất mô hình trích chọn sự kiện y tế

Chương này sẽ mô tả bài toán cần giải quyết và xây dựng các mô hình cùng tập luật dựa trên lý thuyết để tìm ra giải pháp hiệu quả cho vấn đề.

Chương 4: Thực nghiệm và đánh giá

Chương này trình bày quy trình thực nghiệm và đánh giá kết quả dựa trên phân tích từ chương 3 Trong giai đoạn phát hiện sự kiện, ba chỉ số được áp dụng là độ chính xác, độ hồi tưởng và độ đo F1 để tiến hành đánh giá hiệu quả.

CHƯƠNG 1 CƠ SỞ LÝ THUYẾT 1.1 Tổng quan về khai phá dữ liệu

1.1.1 Khái niệm khai phá dữ liệu

Trong bối cảnh hiện nay, khai phá dữ liệu (KPDL) đang nổi lên như một lĩnh vực nghiên cứu hứa hẹn, giúp các doanh nghiệp khai thác thông tin từ các cơ sở dữ liệu lớn một cách tự động Điều này không chỉ nâng cao hiệu quả sản xuất mà còn thúc đẩy phát triển kinh doanh và tạo ra lợi thế cạnh tranh Các nghiên cứu và ứng dụng thành công cho thấy KPDL có tiềm năng lớn và có thể phát triển mạnh mẽ trong tương lai Hiện tại, KPDL đang được áp dụng rộng rãi trong nhiều lĩnh vực như thương mại, viễn thông và tài chính ngân hàng.

Trong lĩnh vực Khoa học Dữ liệu, nhiều kỹ thuật phổ biến được áp dụng thường kế thừa từ các lĩnh vực như trí tuệ nhân tạo và cơ sở dữ liệu Do đó, có thể khái quát hóa khái niệm khai phá dữ liệu như một quá trình tìm kiếm và phân tích thông tin có giá trị từ dữ liệu lớn.

Khai phá dữ liệu là quá trình khám phá và phát hiện tri thức mới, hữu ích từ các cơ sở dữ liệu lớn Quá trình này giúp chuyển đổi dữ liệu thô thành thông tin có giá trị, hỗ trợ ra quyết định hiệu quả.

Hình 1.1 Quá trình khám phá tri thức

Khai phá dữ liệu (KPDL) là bước quan trọng trong quy trình khám phá tri thức (KDD), nhằm trích xuất thông tin hữu ích từ khối dữ liệu lớn Mặc dù KPDL và KDD thường được coi là tương đương, nhưng thực tế KPDL chỉ là một phần trong quá trình tổng thể của KDD.

1.1.2 Các kỹ thuật áp dụng trong khai phá dữ liệu

KDD, hay Khai thác Dữ liệu, là một lĩnh vực liên ngành kết hợp giữa tổ chức dữ liệu, học máy, trí tuệ nhân tạo và nhiều khoa học khác Sự kết hợp này tạo ra một nền tảng vững chắc cho việc phân tích và rút ra thông tin giá trị từ dữ liệu lớn.

Hình 1.2 Các lĩnh vực liên quan đến khám phá tri thức trong CSDL Đứng trên quan điểm của học máy, các kỹ thuật trong KPDL, bao gồm:

Học có giám sát là quá trình gán nhãn lớp cho các phần tử trong cơ sở dữ liệu, dựa trên một tập hợp các ví dụ huấn luyện cùng với thông tin về nhãn lớp đã biết.

Học không có giám sát là quá trình phân loại dữ liệu thành các nhóm hoặc cụm tương tự mà không cần thông tin trước về lớp hoặc ví dụ huấn luyện.

Học nửa giám sát là phương pháp phân loại dữ liệu thành các lớp dựa trên một tập hợp nhỏ các ví dụ huấn luyện và thông tin từ một số nhãn lớp đã biết Dựa vào loại bài toán cần giải quyết, KPDL bao gồm nhiều kỹ thuật áp dụng khác nhau.

Phân lớp và dự báo là quá trình sử dụng các mẫu lịch sử giao dịch để dự đoán những trường hợp có khả năng xảy ra tiếp theo Đối với các giá trị liên tục, phương pháp hồi quy sẽ được áp dụng Phân tích hồi quy là một kỹ thuật thống kê quan trọng trong việc phân tích dữ liệu và xây dựng các mô hình thực nghiệm, giúp khám phá mô hình hồi quy nhằm phục vụ cho mục đích dự báo hoặc học cách tạo ra các mẫu mới.

Luật kết hợp là một phương pháp quan trọng trong khai thác dữ liệu, giúp xác định các quy luật dự đoán từ một tập hợp dữ liệu giao dịch lịch sử Mục tiêu của bài toán này là phát hiện tất cả các luật dựa trên hai yếu tố chính: độ hỗ trợ (minsup) và độ tin cậy (minconf) Giải thuật Apriori là một trong những giải thuật nổi bật trong việc phát hiện các luật kết hợp này.

Phân tích chuỗi theo thời gian là phương pháp tương tự như khai phá luật kết hợp, nhưng bổ sung thêm yếu tố thứ tự và thời gian Phương pháp này được áp dụng phổ biến trong lĩnh vực tài chính và thị trường chứng khoán do khả năng dự báo cao của nó.

Phương pháp tiếp cận kết hợp luật và học máy

Phương pháp kết hợp luật và học máy (lai - hybrid) là một giải pháp hiệu quả cho các bài toán trích chọn thông tin và sự kiện Các hệ thống dựa trên tri thức thường được cải thiện nhờ vào các phương thức dựa vào dữ liệu, giúp khắc phục những hạn chế của phương pháp tri thức Chẳng hạn, nghiên cứu của Pisk và cộng sự đã áp dụng kỹ thuật bootstrapping trong việc trích chọn sự kiện liên quan đến hành vi bạo lực từ các bản tin trực tuyến, đạt được độ chính xác và độ hồi tưởng cao.

Morik [8] đã kết hợp các luật ngữ nghĩa với Conditional Random Fields dưới dạng đồ thị vô hướng để trích xuất sự kiện từ phiên họp toàn thể của nghị viện Đức, đồng thời giải quyết những hạn chế của thuật toán học có giám sát đối với các cụm Lee và cộng sự [8] áp dụng ontology mờ để trích chọn sự kiện từ các bảng tin tiếng Trung Quốc, sử dụng thống kê ngữ pháp và gán nhãn từ loại Chun và các cộng sự [3] đã trích chọn các sự kiện y sinh bằng cách kết hợp các luật cú pháp với đồng tham chiếu.

Phương pháp Khai phá nội dung Web

Khai phá nội dung web tập trung vào việc phân tích các thành phần bên trong trang web, bao gồm hình ảnh, âm thanh và văn bản Kỹ thuật này được coi là một phần của khai phá dữ liệu trong cơ sở dữ liệu quan hệ, giúp nhận diện và phân loại tri thức từ dữ liệu không cấu trúc trong tài liệu web Hầu hết tài liệu web có dạng nửa cấu trúc hoặc cấu trúc tương tự như các thành phần dữ liệu trong cơ sở dữ liệu để tạo ra trang HTML, nhưng chủ yếu là dữ liệu văn bản không có cấu trúc Điều này tạo ra những thách thức lớn cho quá trình khai phá nội dung web với các nhiệm vụ phức tạp hơn.

2.4.1 Khai phá kết quả tìm kiếm

Hiện nay, xu hướng sử dụng công cụ Web Searching Engine ngày càng phổ biến để tự động phân loại tài liệu web Công cụ này cho phép chúng ta đánh trọng số cho các website, giúp tối ưu hóa quá trình tìm kiếm thông tin Việc đánh trọng số được thực hiện qua một quy trình cụ thể, mang lại hiệu quả cao trong việc quản lý và sắp xếp dữ liệu trực tuyến.

- (1): Tải các dữ liệu web từ các website về;

Công cụ tìm kiếm web thực hiện việc trích xuất thông tin chỉ mục để mô tả trang web, đồng thời lưu trữ những thông tin này cùng với URL của trang đó trong hệ thống của nó.

Áp dụng các phương pháp KPDL giúp tự động hóa quá trình phân lớp và phân loại trang web, tạo điều kiện thuận lợi cho việc tổ chức thông tin thông qua các cấu trúc siêu liên kết chặt chẽ.

Trực quan hóa kết quả tìm kiếm là một yếu tố quan trọng trong việc nâng cao hiệu quả phân tích dữ liệu Việc áp dụng kỹ thuật phân cụm giúp nhóm các tài liệu tương tự về nội dung, từ đó cải thiện chất lượng tìm kiếm Cụ thể, các tài liệu liên quan sẽ được sắp xếp vào cùng một nhóm, trong khi những tài liệu không tương tự sẽ được phân loại riêng Ngoài ra, việc phân loại tài liệu theo các tiêu chí nhất định cũng giúp người dùng tìm kiếm một cách nhanh chóng và hiệu quả hơn nhờ vào sự sắp xếp khoa học và hợp lý.

2.4.1 Khai phá văn bản Web

Khai phá văn bản là quá trình áp dụng các kỹ thuật KPDL lên tập văn bản để phát hiện tri thức ẩn chứa bên trong KPVB liên quan chặt chẽ đến KPDL, tìm kiếm thông tin và xử lý ngôn ngữ tự nhiên Đối tượng của KPVB bao gồm dữ liệu có cấu trúc, bán cấu trúc và không có cấu trúc Kết quả của KPVB là phân loại mục đích tài liệu để đáp ứng nhu cầu cụ thể và hiểu trạng thái chung của mỗi tài liệu Quy trình làm việc của KPVB được mô tả qua một sơ đồ.

Hình 2.2: Quá trình khai phá văn bản Web

Nguồn dữ liệu web là văn bản được định dạng có sẵn trên website, được tích hợp để tạo ra các tài liệu đáp ứng nhu cầu khai thác và phân phối dịch vụ Web Việc này được thực hiện thông qua ứng dụng các kỹ thuật truy xuất thông tin.

2.4.2.2 Tiền xử lý dữ liệu

Tiền xử lý dữ liệu là bước quan trọng trước khi phân tích và khai thác dữ liệu, nhằm làm rõ và thể hiện dữ liệu một cách rõ ràng Quá trình này giúp loại bỏ dữ liệu dư thừa và "rác", tạo điều kiện thuận lợi cho việc khai thác Các bước cơ bản trong quá trình tiền xử lý dữ liệu bao gồm việc làm sạch và chuẩn hóa dữ liệu để nâng cao hiệu quả phân tích.

Để tối ưu hóa nội dung, cần tìm hiểu và xác định rõ nhu cầu của người dùng, đồng thời nhận diện các mối liên hệ giữa các tri thức từ các đối tượng dữ liệu khác nhau.

- (2): Tiến hành chuẩn hóa và sắp xếp lại những tri thức này;

Kết quả đầu ra cuối cùng cần đảm bảo các tiêu chí quan trọng như dữ liệu phải được thống nhất, giảm thiểu số chiều và nâng cao hiệu quả phát hiện tri thức Điều này đạt được thông qua quá trình chuyển đổi dữ liệu, cưỡng bức dữ liệu, và loại bỏ những thuộc tính gây nhiễu cũng như không liên quan, nhằm tránh tình trạng dữ liệu có quá nhiều chiều không cần thiết.

Bản chất của KPVB Web là khai thác các tài liệu HTML, do đó cần biến đổi và biểu diễn dữ liệu một cách hợp lý để phục vụ phân tích Một phương pháp hiệu quả là lưu trữ dữ liệu trong mảng 2 chiều, phản ánh các đặc trưng của tài liệu Thông thường, mô hình TF-IDF được sử dụng để vector hóa dữ liệu, nhưng nó có thể loại bỏ những từ có tần suất thấp, dẫn đến mất mát thông tin Bước tiếp theo là chọn lọc từ còn lại và phân lớp chúng để mô tả đặc trưng tài liệu.

2.4.2.4 Trích rút ra các từ đặc trưng

Rút ra đặc trưng là một phương pháp phổ biến, cho phép xử lý số chiều lớn của vector đặc trưng thông qua kỹ thuật KPVB Phương pháp này tập trung vào việc trích xuất các đặc trưng dựa trên hàm trọng số.

Mỗi từ ngữ đặc trưng được gán một giá trị trọng số tin cậy thông qua hàm trọng số, với tần số xuất hiện cao cho thấy khả năng phản ánh chủ đề văn bản Nếu từ đó là tiêu đề, từ khóa hoặc thuộc phân cụm, giá trị tin cậy sẽ cao hơn Các đặc trưng này sẽ được lưu lại để xử lý hiệu quả, và kích thước của tập đặc trưng sẽ được xác định từ thực nghiệm.

Phương pháp rút ra đặc trưng trong phân tích thống kê tập trung vào việc phân tích các thành phần cốt lõi nhằm giảm thiểu số chiều của dữ liệu Ý tưởng chính là thay thế các từ đặc trưng bằng một số ít từ thể hiện hiện nay trong phần mô tả Đồng thời, việc áp dụng phương pháp quy nạp thuộc tích dữ liệu giúp tổng hợp nhiều thông tin thành một mức cao, từ đó giảm chiều của vector một cách hiệu quả.

2.4.2.5 Khai phá dữ liệu văn bản

Sau khi thực hiện các bước tập hợp, lựa chọn và rút trích văn bản để hình thành các đặc trưng cơ bản, chúng ta đã có một nền tảng vững chắc cho KPDL Điều này giúp dễ dàng tiến hành phân loại, phân cụm và mở rộng nghiên cứu về phân tích và dự đoán.

Kết luận chương

Chi tiết bài khóa luận được chia thành 4 chương như sau:

Chương 1: Cơ sở lý thuyết

Chương này trình bày các khái niệm và vấn đề liên quan đến khai phá dữ liệu và khai phá dữ liệu web Nó cũng đề cập đến các khái niệm cơ bản về trích chọn sự kiện trong bối cảnh bùng nổ công nghệ thông tin và Internet Cuối cùng, chương nêu rõ ý nghĩa khoa học và thực tiễn của việc trích chọn sự kiện, đặc biệt là trong lĩnh vực y tế trên các trang web tiếng Việt.

Chương 2: Một số phương pháp tiếp cận trong khai phá dữ liệu và trích chọn thông tin sự kiện

Chương 2 tập trung trình bày một số các phương pháp sử dụng để tiếp cận nhằm giải quyết được bài toán trích chọn sự kiện đó là phương pháp tiếp cận dựa trên luật, phương pháp tiếp cận dựa trên học máy và phương pháp kết hợp giữa luật và học máy Ngoài ra trình bày thêm một số các phương án tiếp cận bổ sung như sử dụng mô hình để rút trích văn bản, phương pháp khai phá dữ liệu dựa trên nội dung web và cấu trúc web Đây là các nền tảng kĩ thuật về công nghệ để thực hiện việc khai phá dữ liệu ở chương 3.

ĐỀ XUẤT MÔ HÌNH TRÍCH CHỌN SỰ KIỆN Y TẾ

THỰC NGHIỆM

Ngày đăng: 07/04/2022, 11:20

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Sunita Sarawagi (2008), Information Extraction, Indian Institute of Technology, CSE, Mumbai 400076, India Sách, tạp chí
Tiêu đề: Information Extraction
Tác giả: Sunita Sarawagi
Năm: 2008
[2] Douglas E. Appelt. Introduction to information extraction technology. In Tutorialheld at IJCAI-99, Stockholm, Swenden,1999 Sách, tạp chí
Tiêu đề: InTutorial
[3] Young-Sook Hwang Chun Hong-Woo and Hae-Chang Rim. Unsupervised event extraction from biomedical literature using co-occurrence information and basic pattems. In: Ist International Joint Conference on Natural Language Processing (IJCNLP 2004). Lecture Notes in Computer Science. Springer- Verlag Berlin Heidelberg, vol.3248:7772786,2004 Sách, tạp chí
Tiêu đề: In: Ist International Joint Conference on Natural Language Processing(
[4] Uzay Kaymak Frederik Hogenboom, Flavius Frasincar and Franciska de Jong.Anoverview of event extratiom from text. Workshop on Detection, Representation, and Exploitation of Events in the Semantic Web (DeRiVE 2011) at Tenth International Semantic Web Conference (ISWC 2011), 779:pp.48257, 2011.10 Sách, tạp chí
Tiêu đề: Workshop on Detection, Representation, andExploitation of Events in the Semantic Web (DeRiVE 2011) at Tenth InternationalSemantic Web Conference (ISWC 2011)
[5] M.A Heast. Automatic acquisition of hyponyms from large text corpora. In: 14th Conference on Computational Linguistics (COLING 1992), vol. 2;5392 545, 1992 Sách, tạp chí
Tiêu đề: In: 14thConference on Computational Linguistics (COLING 1992)
[7] Frederik Hogenboom jethro Borsje and Flavius Frasonacar. Semi-automatic financial events discovery based on lexico-semantic patterms. International journal of Web Engineering and Technology, 6(2): 1152 140, 2010 Sách, tạp chí
Tiêu đề: International journalof Web Engineering and Technology
[8] Yea-Juan Chen Lee Chang-Shing and Zhi-Wei Jian. Ontology-besed fuzzy event extraction agent for chinese e-news summarization. In Expert Systems with Applications 25(3),4312 447,2003 Sách, tạp chí
Tiêu đề: In Expert Systems withApplications
[9] Okamoto Masayyki and Masaaki Kikuchi. Discovering volatile events in your neightborhood: Local-area topic extraction from blog entries. In: 5th Asia Information Retrieval Symposium (AIRS 2009). Lecture Notes in Computer Science.Springer-Verlag Berlin Heidelberg, vol , 5839:1812 192, 2009 Sách, tạp chí
Tiêu đề: In: 5th AsiaInformation Retrieval Symposium (AIRS 2009). Lecture Notes in Computer Science."Springer-Verlag Berlin Heidelberg
[10] Liang Xiang Xing Chen Mingrong Liu, Yicen Liu and Qing Yang. Extracting key entities and significant events from online daily news.In :9th International Conference on Intel- ligent Data Engineering and Automated Learning Heidelberg, vol.5326:2012 209,2008 Sách, tạp chí
Tiêu đề: In :9th InternationalConference on Intel- ligent Data Engineering and Automated Learning Heidelberg
[12] Hristo Tenev Piskorski Jakub and Pinar Oezden Wennerberg. Extracting violent events from on-line news for ontology population. In: 10th International Conference on Business Information Systems (BIS 2007). Lecture Notes in Computer Science.Springer- Verlag Berlin Heidelberg, vol. 4439:2872 300, 2007 Sách, tạp chí
Tiêu đề: In: 10th International Conferenceon Business Information Systems (BIS 2007). Lecture Notes in Computer Science."Springer- Verlag Berlin Heidelberg
[14] Ai kawazoe Son Doan and Nigel Collier. Global health monitoer- a web- based system for detecting and mapping infectious discases. Proc. International Joint Conference on Natural Language Processing ( IJCNLP), Companion Voulume, Hyderabad, India: pp, 9512 956, 2008 Sách, tạp chí
Tiêu đề: International JointConference on Natural Language Processing ( IJCNLP), Companion Voulume,Hyderabad, India
[16] Yusuke Miyao Akane Yakushiji, Yuka Tateisi and Jun ichi Tsujii.Event extraction from biomedical papers using a full parser. In In: 6th Pacific Symposium on Biocomputing (PSB 2001) :pp, 4082 419, 2001 Sách, tạp chí
Tiêu đề: In: 6th PacificSymposium on Biocomputing (PSB 2001)
[18] S.Soderland, “Learning information extraction rules for semi - structured and free text,” Machine Learning, vol. 34, 1999 Sách, tạp chí
Tiêu đề: Learning information extraction rules for semi - structured andfree text,” "Machine Learning
[19] H Cunningham, D. Maynard, K. Bontcheva, and V. Tablan, “Gate: A frameworkand graphical development environment for robust nlp tools and applications,” in Proceedings of the 40th Anniversary Meeting of the Association for Comutational Linguistics, 2002 Sách, tạp chí
Tiêu đề: Gate: Aframeworkand graphical development environment for robust nlp tools and applications,” in"Proceedings of the 40th Anniversary Meeting of the Association for ComutationalLinguistics
[20] W. Shen, A . Doan, J, F. Naughton, and R. Ramakrishnan, “Declarative information extraction using datalog with embedded extraction predicates,” in VLDB, pp. 1033-1044, 2007 Sách, tạp chí
Tiêu đề: Declarativeinformation extraction using datalog with embedded extraction predicates
[6] M.A Hearst. Wordnet: An electronic lexical database and come of its applications.In Automated Discovery of WordNet Relations, pp, 1312 151. MIT Press, 1998 Khác
[13] Silja Huttunen Ralph Grishman and Roman Yangaber. Information extraction for endenced access to disease outbreak reports. Journal of Biomerdical Informastic, 35(4):pp.2362 246,2002 Khác
[15] William H. Hsu Svitlana Volkova, Doina Caragea and Swathi Bujuru.Animal disease event recognition andclassification.2010 Khác
[17] Helen LJohnson Chris Rocder Philip V. Ogren- William A.Baumgartner Jr.Elizabeth White Hannah Tipney K. Bretonnel Cohen, Karin Verspoor and Lawrence Hunter. High-precision biological event extraction with a concept recognizwer. In In: Workshop on Bio NLP: Shared Task collocated with the NAACL- HLT 2009 Meeting. pp. 502 58. Association for Computational Linguistics, 2009 Khác

HÌNH ẢNH LIÊN QUAN

2.4. Hình dạng và biểu diễn của .......................................... tập luật - Ứng dụng khai phá dữ liệu trích chọn thông tin sự kiện y tế trên các trang web tiếng việt,khoá luận tốt nghiệp
2.4. Hình dạng và biểu diễn của .......................................... tập luật (Trang 7)
hiện trong hình dưới đây: - Ứng dụng khai phá dữ liệu trích chọn thông tin sự kiện y tế trên các trang web tiếng việt,khoá luận tốt nghiệp
hi ện trong hình dưới đây: (Trang 15)
Hình 1.2. Các lĩnh vực liên quan đến khám phá tri thức trong CSDL - Ứng dụng khai phá dữ liệu trích chọn thông tin sự kiện y tế trên các trang web tiếng việt,khoá luận tốt nghiệp
Hình 1.2. Các lĩnh vực liên quan đến khám phá tri thức trong CSDL (Trang 16)
Hình 1.3: Các nguồn dữliệu có thể khaiphá - Ứng dụng khai phá dữ liệu trích chọn thông tin sự kiện y tế trên các trang web tiếng việt,khoá luận tốt nghiệp
Hình 1.3 Các nguồn dữliệu có thể khaiphá (Trang 18)
Hình 1.4. Các nội dung trong khaiphá web - Ứng dụng khai phá dữ liệu trích chọn thông tin sự kiện y tế trên các trang web tiếng việt,khoá luận tốt nghiệp
Hình 1.4. Các nội dung trong khaiphá web (Trang 22)
Hình 2.2: Quá trình khaiphá văn bản Web - Ứng dụng khai phá dữ liệu trích chọn thông tin sự kiện y tế trên các trang web tiếng việt,khoá luận tốt nghiệp
Hình 2.2 Quá trình khaiphá văn bản Web (Trang 44)
Hình 3.2: Thành phần phát hiện sựkiện - Ứng dụng khai phá dữ liệu trích chọn thông tin sự kiện y tế trên các trang web tiếng việt,khoá luận tốt nghiệp
Hình 3.2 Thành phần phát hiện sựkiện (Trang 56)
Hình 3.2: Thành phần tríchchọn sựkiện - Ứng dụng khai phá dữ liệu trích chọn thông tin sự kiện y tế trên các trang web tiếng việt,khoá luận tốt nghiệp
Hình 3.2 Thành phần tríchchọn sựkiện (Trang 67)
Cấu hình phần cứng và các công cụ phần mềmđể sử dung trong thực nghiệm - Ứng dụng khai phá dữ liệu trích chọn thông tin sự kiện y tế trên các trang web tiếng việt,khoá luận tốt nghiệp
u hình phần cứng và các công cụ phần mềmđể sử dung trong thực nghiệm (Trang 73)
Trong chương này, khóa luận đã đề xuất ra được phương pháp và mô hình để nhằm giải quyết bài toán tổng quan trích chọn sự kiện y tế - Ứng dụng khai phá dữ liệu trích chọn thông tin sự kiện y tế trên các trang web tiếng việt,khoá luận tốt nghiệp
rong chương này, khóa luận đã đề xuất ra được phương pháp và mô hình để nhằm giải quyết bài toán tổng quan trích chọn sự kiện y tế (Trang 73)
Hình 4.3 Kết quả quá trình thu thập list URL - Ứng dụng khai phá dữ liệu trích chọn thông tin sự kiện y tế trên các trang web tiếng việt,khoá luận tốt nghiệp
Hình 4.3 Kết quả quá trình thu thập list URL (Trang 76)
Hình 4.2 Kết quả quá trình thu thập URL băng công cụ Octoparse - Ứng dụng khai phá dữ liệu trích chọn thông tin sự kiện y tế trên các trang web tiếng việt,khoá luận tốt nghiệp
Hình 4.2 Kết quả quá trình thu thập URL băng công cụ Octoparse (Trang 76)
Bước 1: Import bảng danh sách các URL đã thu thập được ở Bộ thu thập dữliệu vào - Ứng dụng khai phá dữ liệu trích chọn thông tin sự kiện y tế trên các trang web tiếng việt,khoá luận tốt nghiệp
c 1: Import bảng danh sách các URL đã thu thập được ở Bộ thu thập dữliệu vào (Trang 77)
Hình 4.5 Quá trình lựa chọn các thành phần trên trang web để thu thập - Ứng dụng khai phá dữ liệu trích chọn thông tin sự kiện y tế trên các trang web tiếng việt,khoá luận tốt nghiệp
Hình 4.5 Quá trình lựa chọn các thành phần trên trang web để thu thập (Trang 78)
Bảng 4.4: Tỷ lệ lỗi của quá trình lọc dữliệu - Ứng dụng khai phá dữ liệu trích chọn thông tin sự kiện y tế trên các trang web tiếng việt,khoá luận tốt nghiệp
Bảng 4.4 Tỷ lệ lỗi của quá trình lọc dữliệu (Trang 81)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w