CƠ SỞ LÝ THUYẾT
MỘT SỐ PHƯƠNG PHÁP TIẾP CẬN TRONG KHAI PHÁ DỮ LIỆU VÀ TRÍCH CHỌN THÔNG TIN
Các định luật đánh dấu ranh giớithực thể
Chi tiết bài khóa luận được chia thành 4 chương như sau:
Chương 1: Cơ sở lý thuyết
Chương này giới thiệu các khái niệm cơ bản về khai phá dữ liệu và khai phá dữ liệu web, đồng thời đề cập đến vấn đề trích chọn sự kiện trong bối cảnh phát triển mạnh mẽ của công nghệ thông tin và Internet Ngoài ra, chương cũng nhấn mạnh ý nghĩa khoa học và thực tiễn của việc trích chọn sự kiện, đặc biệt là trong lĩnh vực y tế trên các trang web tiếng Việt.
Chương 2: Một số phương pháp tiếp cận trong khai phá dữ liệu và trích chọn thông tin sự kiện
Chương 2 tập trung trình bày một số các phương pháp sử dụng để tiếp cận nhằm giải quyết được bài toán trích chọn sự kiện đó là phương pháp tiếp cận dựa trên luật, phương pháp tiếp cận dựa trên học máy và phương pháp kết hợp giữa luật và học máy Ngoài ra trình bày thêm một số các phương án tiếp cận bổ sung như sử dụng mô hình để rút trích văn bản, phương pháp khai phá dữ liệu dựa trên nội dung web và cấu trúc web Đây là các nền tảng kĩ thuật về công nghệ để thực hiện việc khai phá dữ liệu ở chương 3.
Chương 3: Đề xuất mô hình trích chọn sự kiện y tế
Chương này sẽ mô tả bài toán cần giải quyết và xây dựng các mô hình cùng tập luật dựa trên lý thuyết để tìm ra giải pháp hiệu quả cho vấn đề.
Chương 4: Thực nghiệm và đánh giá
Chương này trình bày quy trình thực nghiệm và đánh giá kết quả dựa trên phân tích từ chương 3 Trong giai đoạn phát hiện sự kiện, ba chỉ số được áp dụng là độ chính xác, độ hồi tưởng và độ đo F1 để tiến hành đánh giá hiệu quả.
CHƯƠNG 1 CƠ SỞ LÝ THUYẾT 1.1 Tổng quan về khai phá dữ liệu
1.1.1 Khái niệm khai phá dữ liệu
Trong bối cảnh hiện nay, khai phá dữ liệu (KPDL) đang nổi lên như một lĩnh vực nghiên cứu hứa hẹn, giúp các doanh nghiệp khai thác thông tin từ các cơ sở dữ liệu lớn một cách tự động Điều này không chỉ nâng cao hiệu quả sản xuất mà còn thúc đẩy phát triển kinh doanh và tạo ra lợi thế cạnh tranh Các nghiên cứu và ứng dụng thành công cho thấy KPDL có tiềm năng lớn và có thể phát triển mạnh mẽ trong tương lai Hiện tại, KPDL đang được áp dụng rộng rãi trong nhiều lĩnh vực như thương mại, viễn thông và tài chính ngân hàng.
Trong lĩnh vực Khoa học Dữ liệu, nhiều kỹ thuật phổ biến được áp dụng thường kế thừa từ các lĩnh vực như trí tuệ nhân tạo và cơ sở dữ liệu Do đó, có thể khái quát hóa khái niệm khai phá dữ liệu như một quá trình tìm kiếm và phân tích thông tin có giá trị từ dữ liệu lớn.
Khai phá dữ liệu là quá trình khám phá và phát hiện tri thức mới, hữu ích từ các cơ sở dữ liệu lớn Quá trình này giúp chuyển đổi dữ liệu thô thành thông tin có giá trị, hỗ trợ ra quyết định hiệu quả.
Hình 1.1 Quá trình khám phá tri thức
Khai phá dữ liệu (KPDL) là bước quan trọng trong quy trình khám phá tri thức (KDD), nhằm trích xuất thông tin hữu ích từ khối dữ liệu lớn Mặc dù KPDL và KDD thường được coi là tương đương, nhưng thực tế KPDL chỉ là một phần trong quá trình tổng thể của KDD.
1.1.2 Các kỹ thuật áp dụng trong khai phá dữ liệu
KDD, hay Khai thác Dữ liệu, là một lĩnh vực liên ngành kết hợp giữa tổ chức dữ liệu, học máy, trí tuệ nhân tạo và nhiều khoa học khác Sự kết hợp này tạo ra một nền tảng vững chắc cho việc phân tích và rút ra thông tin giá trị từ dữ liệu lớn.
Hình 1.2 Các lĩnh vực liên quan đến khám phá tri thức trong CSDL Đứng trên quan điểm của học máy, các kỹ thuật trong KPDL, bao gồm:
Học có giám sát là quá trình gán nhãn lớp cho các phần tử trong cơ sở dữ liệu, dựa trên một tập hợp các ví dụ huấn luyện cùng với thông tin về nhãn lớp đã biết.
Học không có giám sát là quá trình phân loại dữ liệu thành các nhóm hoặc cụm tương tự mà không cần thông tin trước về lớp hoặc ví dụ huấn luyện.
Học nửa giám sát là phương pháp phân loại dữ liệu thành các lớp dựa trên một tập hợp nhỏ các ví dụ huấn luyện và thông tin từ một số nhãn lớp đã biết Dựa vào loại bài toán cần giải quyết, KPDL bao gồm nhiều kỹ thuật áp dụng khác nhau.
Phân lớp và dự báo là quá trình sử dụng các mẫu lịch sử giao dịch để dự đoán những trường hợp có khả năng xảy ra tiếp theo Đối với các giá trị liên tục, phương pháp hồi quy sẽ được áp dụng Phân tích hồi quy là một kỹ thuật thống kê quan trọng trong việc phân tích dữ liệu và xây dựng các mô hình thực nghiệm, giúp khám phá mô hình hồi quy nhằm phục vụ cho mục đích dự báo hoặc học cách tạo ra các mẫu mới.
Luật kết hợp là một phương pháp quan trọng trong khai thác dữ liệu, giúp xác định các quy luật dự đoán từ một tập hợp dữ liệu giao dịch lịch sử Mục tiêu của bài toán này là phát hiện tất cả các luật dựa trên hai yếu tố chính: độ hỗ trợ (minsup) và độ tin cậy (minconf) Giải thuật Apriori là một trong những giải thuật nổi bật trong việc phát hiện các luật kết hợp này.
Phân tích chuỗi theo thời gian là phương pháp tương tự như khai phá luật kết hợp, nhưng bổ sung thêm yếu tố thứ tự và thời gian Phương pháp này được áp dụng phổ biến trong lĩnh vực tài chính và thị trường chứng khoán do khả năng dự báo cao của nó.
Phương pháp tiếp cận kết hợp luật và học máy
Phương pháp kết hợp luật và học máy (lai - hybrid) là một giải pháp hiệu quả cho các bài toán trích chọn thông tin và sự kiện Các hệ thống dựa trên tri thức thường được cải thiện nhờ vào các phương thức dựa vào dữ liệu, giúp khắc phục những hạn chế của phương pháp tri thức Chẳng hạn, nghiên cứu của Pisk và cộng sự đã áp dụng kỹ thuật bootstrapping trong việc trích chọn sự kiện liên quan đến hành vi bạo lực từ các bản tin trực tuyến, đạt được độ chính xác và độ hồi tưởng cao.
Morik [8] đã kết hợp các luật ngữ nghĩa với Conditional Random Fields dưới dạng đồ thị vô hướng để trích xuất sự kiện từ phiên họp toàn thể của nghị viện Đức, đồng thời giải quyết những hạn chế của thuật toán học có giám sát đối với các cụm Lee và cộng sự [8] áp dụng ontology mờ để trích chọn sự kiện từ các bảng tin tiếng Trung Quốc, sử dụng thống kê ngữ pháp và gán nhãn từ loại Chun và các cộng sự [3] đã trích chọn các sự kiện y sinh bằng cách kết hợp các luật cú pháp với đồng tham chiếu.
Phương pháp Khai phá nội dung Web
Khai phá nội dung web tập trung vào việc phân tích các thành phần bên trong trang web, bao gồm hình ảnh, âm thanh và văn bản Kỹ thuật này được coi là một phần của khai phá dữ liệu trong cơ sở dữ liệu quan hệ, giúp nhận diện và phân loại tri thức từ dữ liệu không cấu trúc trong tài liệu web Hầu hết tài liệu web có dạng nửa cấu trúc hoặc cấu trúc tương tự như các thành phần dữ liệu trong cơ sở dữ liệu để tạo ra trang HTML, nhưng chủ yếu là dữ liệu văn bản không có cấu trúc Điều này tạo ra những thách thức lớn cho quá trình khai phá nội dung web với các nhiệm vụ phức tạp hơn.
2.4.1 Khai phá kết quả tìm kiếm
Hiện nay, xu hướng sử dụng công cụ Web Searching Engine ngày càng phổ biến để tự động phân loại tài liệu web Công cụ này cho phép chúng ta đánh trọng số cho các website, giúp tối ưu hóa quá trình tìm kiếm thông tin Việc đánh trọng số được thực hiện qua một quy trình cụ thể, mang lại hiệu quả cao trong việc quản lý và sắp xếp dữ liệu trực tuyến.
- (1): Tải các dữ liệu web từ các website về;
Công cụ tìm kiếm web thực hiện việc trích xuất thông tin chỉ mục để mô tả trang web, đồng thời lưu trữ những thông tin này cùng với URL của trang đó trong hệ thống của nó.
Áp dụng các phương pháp KPDL giúp tự động hóa quá trình phân lớp và phân loại trang web, tạo điều kiện thuận lợi cho việc tổ chức thông tin thông qua các cấu trúc siêu liên kết chặt chẽ.
Trực quan hóa kết quả tìm kiếm là một yếu tố quan trọng trong việc nâng cao hiệu quả phân tích dữ liệu Việc áp dụng kỹ thuật phân cụm giúp nhóm các tài liệu tương tự về nội dung, từ đó cải thiện chất lượng tìm kiếm Cụ thể, các tài liệu liên quan sẽ được sắp xếp vào cùng một nhóm, trong khi những tài liệu không tương tự sẽ được phân loại riêng Ngoài ra, việc phân loại tài liệu theo các tiêu chí nhất định cũng giúp người dùng tìm kiếm một cách nhanh chóng và hiệu quả hơn nhờ vào sự sắp xếp khoa học và hợp lý.
2.4.1 Khai phá văn bản Web
Khai phá văn bản là quá trình áp dụng các kỹ thuật KPDL lên tập văn bản để phát hiện tri thức ẩn chứa bên trong KPVB liên quan chặt chẽ đến KPDL, tìm kiếm thông tin và xử lý ngôn ngữ tự nhiên Đối tượng của KPVB bao gồm dữ liệu có cấu trúc, bán cấu trúc và không có cấu trúc Kết quả của KPVB là phân loại mục đích tài liệu để đáp ứng nhu cầu cụ thể và hiểu trạng thái chung của mỗi tài liệu Quy trình làm việc của KPVB được mô tả qua một sơ đồ.
Hình 2.2: Quá trình khai phá văn bản Web
Nguồn dữ liệu web là văn bản được định dạng có sẵn trên website, được tích hợp để tạo ra các tài liệu đáp ứng nhu cầu khai thác và phân phối dịch vụ Web Việc này được thực hiện thông qua ứng dụng các kỹ thuật truy xuất thông tin.
2.4.2.2 Tiền xử lý dữ liệu
Tiền xử lý dữ liệu là bước quan trọng trước khi phân tích và khai thác dữ liệu, nhằm làm rõ và thể hiện dữ liệu một cách rõ ràng Quá trình này giúp loại bỏ dữ liệu dư thừa và "rác", tạo điều kiện thuận lợi cho việc khai thác Các bước cơ bản trong quá trình tiền xử lý dữ liệu bao gồm việc làm sạch và chuẩn hóa dữ liệu để nâng cao hiệu quả phân tích.
Để tối ưu hóa nội dung, cần tìm hiểu và xác định rõ nhu cầu của người dùng, đồng thời nhận diện các mối liên hệ giữa các tri thức từ các đối tượng dữ liệu khác nhau.
- (2): Tiến hành chuẩn hóa và sắp xếp lại những tri thức này;
Kết quả đầu ra cuối cùng cần đảm bảo các tiêu chí quan trọng như dữ liệu phải được thống nhất, giảm thiểu số chiều và nâng cao hiệu quả phát hiện tri thức Điều này đạt được thông qua quá trình chuyển đổi dữ liệu, cưỡng bức dữ liệu, và loại bỏ những thuộc tính gây nhiễu cũng như không liên quan, nhằm tránh tình trạng dữ liệu có quá nhiều chiều không cần thiết.
Bản chất của KPVB Web là khai thác các tài liệu HTML, do đó cần biến đổi và biểu diễn dữ liệu một cách hợp lý để phục vụ phân tích Một phương pháp hiệu quả là lưu trữ dữ liệu trong mảng 2 chiều, phản ánh các đặc trưng của tài liệu Thông thường, mô hình TF-IDF được sử dụng để vector hóa dữ liệu, nhưng nó có thể loại bỏ những từ có tần suất thấp, dẫn đến mất mát thông tin Bước tiếp theo là chọn lọc từ còn lại và phân lớp chúng để mô tả đặc trưng tài liệu.
2.4.2.4 Trích rút ra các từ đặc trưng
Rút ra đặc trưng là một phương pháp phổ biến, cho phép xử lý số chiều lớn của vector đặc trưng thông qua kỹ thuật KPVB Phương pháp này tập trung vào việc trích xuất các đặc trưng dựa trên hàm trọng số.
Mỗi từ ngữ đặc trưng được gán một giá trị trọng số tin cậy thông qua hàm trọng số, với tần số xuất hiện cao cho thấy khả năng phản ánh chủ đề văn bản Nếu từ đó là tiêu đề, từ khóa hoặc thuộc phân cụm, giá trị tin cậy sẽ cao hơn Các đặc trưng này sẽ được lưu lại để xử lý hiệu quả, và kích thước của tập đặc trưng sẽ được xác định từ thực nghiệm.
Phương pháp rút ra đặc trưng trong phân tích thống kê tập trung vào việc phân tích các thành phần cốt lõi nhằm giảm thiểu số chiều của dữ liệu Ý tưởng chính là thay thế các từ đặc trưng bằng một số ít từ thể hiện hiện nay trong phần mô tả Đồng thời, việc áp dụng phương pháp quy nạp thuộc tích dữ liệu giúp tổng hợp nhiều thông tin thành một mức cao, từ đó giảm chiều của vector một cách hiệu quả.
2.4.2.5 Khai phá dữ liệu văn bản
Sau khi thực hiện các bước tập hợp, lựa chọn và rút trích văn bản để hình thành các đặc trưng cơ bản, chúng ta đã có một nền tảng vững chắc cho KPDL Điều này giúp dễ dàng tiến hành phân loại, phân cụm và mở rộng nghiên cứu về phân tích và dự đoán.
Kết luận chương
Chi tiết bài khóa luận được chia thành 4 chương như sau:
Chương 1: Cơ sở lý thuyết
Chương này trình bày các khái niệm và vấn đề liên quan đến khai phá dữ liệu và khai phá dữ liệu web Nó cũng đề cập đến các khái niệm cơ bản về trích chọn sự kiện trong bối cảnh bùng nổ công nghệ thông tin và Internet Cuối cùng, chương nêu rõ ý nghĩa khoa học và thực tiễn của việc trích chọn sự kiện, đặc biệt là trong lĩnh vực y tế trên các trang web tiếng Việt.
Chương 2: Một số phương pháp tiếp cận trong khai phá dữ liệu và trích chọn thông tin sự kiện
Chương 2 tập trung trình bày một số các phương pháp sử dụng để tiếp cận nhằm giải quyết được bài toán trích chọn sự kiện đó là phương pháp tiếp cận dựa trên luật, phương pháp tiếp cận dựa trên học máy và phương pháp kết hợp giữa luật và học máy Ngoài ra trình bày thêm một số các phương án tiếp cận bổ sung như sử dụng mô hình để rút trích văn bản, phương pháp khai phá dữ liệu dựa trên nội dung web và cấu trúc web Đây là các nền tảng kĩ thuật về công nghệ để thực hiện việc khai phá dữ liệu ở chương 3.