1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(LUẬN văn THẠC sĩ) trích chọn sự kiện dịch bệnh cho hệ thống giám sát trực tuyến 04

61 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Trích Chọn Sự Kiện Dịch Bệnh Cho Hệ Thống Giám Sát Trực Tuyến
Tác giả Nguyễn Minh Tiến
Người hướng dẫn TS. Nguyễn Trớ Thành, PGS.TS. Hà Quang Thầy, TS. Phan Xuân Hiểu
Trường học Đại học Quốc gia Hà Nội
Chuyên ngành Công nghệ Thông tin
Thể loại luận văn
Năm xuất bản 2014
Thành phố Hà Nội
Định dạng
Số trang 61
Dung lượng 1,93 MB

Cấu trúc

  • Tổng quan về bài toán trích xuất sự kiện

    • Bài toán trích xuất thông tin từ dữ liệu lớn

      • Bài toán trích xuất thông tin

      • Dữ liệu lớn - Cơ hội và thách thức cho lĩnh vực trích chọn thông tin

    • Tổng quan về sự kiện

      • Định nghĩa sự kiện

      • Trích chọn sự kiện

    • Bài toán trích chọn sự kiện dịch bệnh

      • Trích chọn sự kiện dịch bệnh - Ý nghĩa và tầm quan trọng

      • Phát hiện sự kiện

      • Trích chọn sự kiện

    • Ý nghĩa bài toán trích chọn sự kiện dịch bệnh

      • Ý nghĩa khoa học

      • Ý nghĩa thực tế

    • Khó khăn và thách thức

    • Tổng kết

  • Một số phương pháp tiếp cận

    • Phương pháp tiếp cận dựa trên luật

      • Luật cú pháp

      • Luật ngữ nghĩa

    • Phương pháp tiếp cận dựa trên học máy

    • Phương pháp kết hợp luật và học máy

    • Một số nhận xét

    • Tổng kết

  • Mô hình đề xuất

    • Các đặc tính của sự kiện dịch bệnh

    • Phát biểu bài toán

    • Phương pháp đề xuất

    • Mô hình phát hiện và trích chọn sự kiện

    • Bài toán phát hiện sự kiện

      • Phát biểu bài toán

      • Xây dựng tập luật

      • Xây dựng mô hình phân lớp

    • Bài toán trích chọn sự kiện

      • Phát biểu bài toán

      • Trích chọn thời gian

      • Trích chọn tên bệnh

      • Trích chọn địa điểm

    • Tổng kết

  • Thực nghiệm và đánh giá kết quả

    • Môi trường và các công cụ cài đặt

      • Cấu hình phần cứng

      • Công cụ phần mềm

      • Các gói chương trình

    • Xây dựng tập dữ liệu

      • Thu thập dữ liệu

      • Tiền xử lý dữ liệu

    • Đánh gía quá trình phát hiện sự kiện

      • Đánh giá bộ lọc dữ liệu

      • Đánh giá quá trình phân lớp

    • Đánh gía quá trình trích chọn sự kiện

    • Phân tích lỗi và bàn luận

      • Phân tích lỗi bộ lọc dữ liệu

      • Phân tích lỗi quá trình trích chọn sự kiện

    • Tổng kết

Nội dung

Bài toỏn trớch xuòt thụng tin t¯ d˙ liêu lển

Bài toỏn trớch xuòt thụng tin

Trích xuất thông tin (IE) bao gồm hai lĩnh vực chính là thu hái thông tin (Information Retrieval - IR) và hiểu văn bản (Text Understanding) Không giống như thu hái thông tin chỉ tập trung vào các mẫu thông tin có liên quan trong văn bản, trích xuất thông tin còn quan tâm đến các sự kiện có liên quan trong văn bản và biểu diễn chúng dưới dạng các khuôn mẫu (template) Bên cạnh đó, khác với hiểu văn bản chỉ tập trung vào mặt phản hồi văn bản (câu, đoạn văn), trích xuất thông tin quan tâm đến toàn bộ nội dung văn bản.

Trích xuất thông tin là quá trình thu thập và tổ chức dữ liệu từ các nguồn không biết trước trong miền dữ liệu Mục tiêu của trích xuất thông tin là làm nổi bật các thông tin quan trọng từ các sự kiện, thực thể hoặc mối quan hệ Do đó, trích xuất thông tin có thể được coi là một kỹ nghệ làm nổi bật và biểu diễn tri thức thành những thông tin có hình thức và hữu ích từ nguồn dữ liệu trên Internet.

• ảu ra: thụng tin h˙u ớch (tri th˘c) cú còu trỳc.

CH◊ÃNG 1 T NG QUAN Vó BÀI TOÁN TRÍCH XUáT S‹ KIõN 2

Dữ liệu có thể được phân loại thành nhiều loại khác nhau như dữ liệu có cấu trúc, dữ liệu bán cấu trúc, và dữ liệu không có cấu trúc Ngoài ra, dữ liệu cũng có thể được chia thành dữ liệu không gian và dữ liệu thời gian Đối với bất kỳ loại dữ liệu nào, nhiệm vụ của việc trích xuất thông tin là phải đưa ra các kết quả có cấu trúc ngắn gọn và ý nghĩa.

D˙ liêu lển - Cẽ hẻi và thỏch th˘c cho lổnh vác trớch chÂn thông tin

“We are drowning in data, but starving for knowledge!" [26] 1 John chứ ra răng chỳng ta ang d˜ th¯a d˙ liêu tuy nhiờn lĐi nghốo nàn v∑ tri th˘c.

According to NOAA (National Oceanic and Atmospheric Administration, USA) statistics as of April 2012, the amount of data available on the Internet reached approximately 60,000 Terabytes, with projections suggesting it could grow to around 160,000 Terabytes in the near future.

8 n´m tểi Sá t´ng tr˜ng ˜ềc minh hoĐ trong hỡnh 1.1 2

Hỡnh 1.1: Sá t´ng tr˜ng d˙ liêu t¯ n´m 2004 ∏n n´m 2020

Theo thống kê từ statisticbrain.com vào ngày 01-01-2014, mỗi ngày có khoảng 135.000 người đăng nhập vào Twitter, với tổng số tweet hàng ngày đạt khoảng 58 triệu Trung bình, mỗi giây có khoảng 9.100 tweet được người dùng đăng tải Thông tin chi tiết được minh họa trong bảng 1.1.

Theo thậng k∏ cıa Qmee 4 5 , d˙ liêu trờn Internet trong 60 giõy cú th∫ ˜ềc

1 John Naisbitt (www.naisbitt.com/)

2 http://celebrating200years.noaa.gov/visions/data_mgmt/

3 http://www.statisticbrain.com/twitterstatistics/

4 http://blog.qmee.com/qmee-online-in-60-seconds/

5 http://www.independent.co.uk/life-style/gadgets-and-tech/news/what-happens-in-60-seconds-on-the-internet-

BÊng 1.1: Thậng kờ trờn d˙ liêu Twitter

Sậ l˜ềng cỏc ng˜èi dựng ´ng k˛ tớch các 645.750.000

Sậ l˜ềng cỏc ng˜èi dựng ´ng nh™p mẻt ngày 135.000

Sậ l˜ềng cỏc trang ∞c biêt ˜ềc th´m hàng thỏng 190 triêu

Sậ l˜ềng thụng iêp mẻt ngày 58 triêu

Sậ l˜ềng cỏc truy vòn thụng quan ch˘c n´ng tỡm ki∏m mẻt ngày 2.1 t

Sậ l˜ềng cỏc ng˜èi dựng tớch các hàng thỏng 115 triêu

Sậ ngày mà tÍng sậ thụng iêp Đt tểi 1 t 5 ngày

Sậ l˜ềng cỏc thụng iêp mẻt giõy 9.100 trác quan hoỏ nh˜ hỡnh 1.2.

Hỡnh 1.2: D˙ liêu trờn Internet trong 60 giõy

Mỗi giây, có khoảng 72 giờ video được tải lên YouTube, 2 triệu lượt tìm kiếm trên Google, 41.000 thông điệp được gửi qua Facebook, 20 triệu bức ảnh được tải lên Flickr, và 204 triệu email được gửi đi Những con số này cho thấy sự gia tăng mạnh mẽ và phong phú của nội dung trên Internet.

Dữ liệu trên Internet đang có xu hướng bùng nổ, tuy nhiên, nhiều dữ liệu không đảm bảo rằng người dùng có thể dễ dàng tiếp cận thông tin Quá trình chuyển đổi dữ liệu thành thông tin và cuối cùng là tri thức là một quá trình dài, đòi hỏi nhiều phương pháp xử lý phức tạp Quá trình này có thể được minh họa trong hình 1.3.

Theo Fayyad và cộng sự, quá trình biến đổi dữ liệu thành tri thức là một quá trình dài hạn và phức tạp Trong suốt quá trình này, dữ liệu thể hiện qua ba mức độ: dữ liệu thô, thông tin (mới), và tri thức.

CH◊ÃNG 1 T NG QUAN Vó BÀI TOÁN TRÍCH XUáT S‹ KIõN 4 ly understandable patterns in data (Fayyad, Piatetsky-Shapiro, and Smyth 1996).

Data refers to a collection of facts, such as cases stored in a database, while a pattern is a representation or expression in a specific language that describes a subset of this data or a model relevant to that subset.

In this context, extracting a pattern refers to the process of fitting a model to data, identifying structure within the data, or creating a comprehensive high-level description of a dataset.

Knowledge Discovery in Databases (KDD) is a multi-step process that includes data preparation, pattern search, knowledge evaluation, and refinement, often involving several iterations The term "nontrivial" indicates that this process requires complex search or inference, rather than simply calculating predefined metrics such as the average of a dataset.

The identified patterns must demonstrate validity on new data with a certain level of confidence Additionally, these patterns should be novel, ideally offering new insights to both the system and the user, and should provide potential benefits for the user or task at hand Lastly, it is essential that the patterns are comprehensible, either immediately or through subsequent processing.

Quantitative measures can be established to evaluate extracted patterns, focusing on certainty, such as estimated prediction accuracy on new data, and utility, like financial gains from improved predictions While concepts like novelty and understandability are more subjective, understandability can sometimes be gauged by simplicity, such as the number of bits needed to describe a pattern A key concept known as interestingness serves as a comprehensive measure of a pattern's value, integrating factors like validity, novelty, usefulness, and simplicity Interestingness can be explicitly defined or reflected implicitly through the ranking of patterns or models by the KDD system.

A pattern can be regarded as knowledge if it surpasses a certain threshold of interestingness This definition is not intended to philosophically or popularly define knowledge; rather, it is user-oriented and domain-specific Ultimately, the determination of what constitutes knowledge relies on the functions and thresholds set by the user.

Data mining is a crucial phase in the Knowledge Discovery in Databases (KDD) process, where data analysis and discovery algorithms are employed to identify specific patterns or models within the data This process is conducted while adhering to acceptable computational efficiency standards.

Figure 1 An Overview of the Steps That Compose the KDD Process

Hỡnh 1.3: Cỏc b˜ểc trong quỏ trỡnh khỏm phỏ tri th˘c trong cẽ s d˙ liêu [15]

Dữ liệu được coi là một tập hợp các sự kiện, với thông tin là một biểu diễn trong ngữ nghĩa của tập con dữ liệu Cuối cùng, thông tin trở thành tri thức khi vượt qua ngưỡng Trong khuôn khổ luận văn, tác giả Áng quan tâm đến dữ liệu, thông tin và tri thức theo quan điểm của Fayyad và các tác giả khác.

Mạng Internet hiện nay mang đến nhiều thách thức và cơ hội cho các nhà khoa học trong việc thu thập thông tin Sự phát triển của Internet đã tạo ra nhiều nguồn dữ liệu phong phú, không chỉ giới hạn ở văn bản mà còn bao gồm hình ảnh, âm thanh, thời gian và không gian Các nguồn dữ liệu này cung cấp điều kiện thuận lợi cho việc nghiên cứu và trích xuất thông tin Ngoài ra, dữ liệu hiện nay không chỉ đơn thuần là tin tức mà còn bao gồm thông tin cảm xúc và ý kiến cá nhân Những dữ liệu mới này có thể hỗ trợ quá trình tích hợp thông tin một cách hiệu quả hơn.

Trong lĩnh vực trích dẫn thông tin, việc xử lý dữ liệu từ nhiều nguồn khác nhau gặp phải nhiều thách thức Để đảm bảo chất lượng thông tin, cần áp dụng những kỹ thuật phù hợp Khi xử lý trong môi trường hạn chế, trích dẫn thông tin phải tương thích với các dữ liệu phức tạp như hình ảnh, âm thanh, không gian hoặc thời gian Đồng thời, việc sử dụng nguồn dữ liệu hiệu quả trong quá trình tích hợp dữ liệu phức tạp là rất quan trọng Mục đích của trích dẫn thông tin là để làm rõ nội dung có ý nghĩa, do đó, sau quá trình trích dẫn, dữ liệu cần được tổng hợp từ nhiều nguồn khác nhau để cuối cùng tạo ra thông tin có giá trị cho người sử dụng Cuối cùng, bài toán về tốc độ và tính toán cũng cần được giải quyết Với sự đa dạng và phức tạp của nội dung yêu cầu, các phương pháp trích dẫn thông tin cần có thời gian xử lý hợp lý.

TÍng quan v∑ sá kiên

Trớch chÂn sá kiên

Trích dẫn sự kiện và trích dẫn thông tin là hai khái niệm khác biệt trong lĩnh vực thông tin Trong khi trích dẫn thông tin chú trọng vào các dữ liệu cụ thể như tên người, địa chỉ, và các con số, thì trích dẫn sự kiện lại tập trung vào tính chất và mức độ liên quan của thông tin trong một sự kiện cụ thể Điều này giúp người đọc dễ dàng suy luận ra các thông tin có nghĩa Ví dụ, trong câu “Thảm họa mệt mỏi do bệnh tay chân miệng tại Quảng Nam vào ngày 12/06/2012”, trích dẫn thông tin cung cấp các kết quả cụ thể như mệt, Quảng Nam và ngày 12/06/2012, trong khi trích dẫn sự kiện lại đưa ra các thuộc tính biểu diễn cho sự kiện như tay chân miệng, Quảng Nam và 12/06/2012 Rõ ràng, với tập dữ liệu này, thông tin trở nên hữu ích và có giá trị hơn khi được trình bày rõ ràng.

Mẻt cỏch tÍng quỏt là phương pháp giúp phân tích và hiểu rõ các sự kiện, từ đó tạo ra thông tin có cấu trúc Những thông tin này có thể ảnh hưởng đến các hệ thống giám sát hoặc các hệ thống hỗ trợ quyết định Trích chân sá kiên có thể được áp dụng cho nhiều miền dữ liệu khác nhau, từ các lĩnh vực cụ thể như dịch bệnh, cháy nổ đến các miền dữ liệu mở Áng thèi cũng cung cấp các thông tin xung quanh sự kiện, thường bao gồm tác động và ý nghĩa của chúng.

CH◊ÃNG 1 T NG QUAN Vó BÀI TOÁN TRÍCH XUáT S‹ KIõN 8 nhân, thÌi gian, ‡a i∫m, sË l˜Òng,

Theo Grishman, việc trích xuất thông tin có cấu trúc là một bài toán quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) và khai thác dữ liệu Đặc biệt, nhận dạng thực thể có tên (Named Entity Recognition - NER) đóng vai trò then chốt trong việc nhận diện và phân loại các thực thể trong văn bản Mặc dù NER đã đạt được nhiều kết quả khả quan, vẫn còn nhiều thách thức cần được giải quyết để nâng cao độ chính xác và hiệu quả của phương pháp này.

Bài viết này khám phá các ngôn ngữ không phải tiếng Anh và nhấn mạnh tầm quan trọng của việc hiểu biết về quy trình trích dẫn Việc nắm rõ quy tắc trích dẫn không chỉ giúp tăng tính chính xác mà còn nâng cao giá trị của tài liệu, đồng thời tránh những sai sót có thể xảy ra trong quá trình nghiên cứu.

Bài toỏn trớch chÂn sá kiên d‡ch bênh

Trớch chÂn sá kiên d‡ch bênh - fi nghổa và tảm quan trÂng 8

Trích chân sách kiến thức về dịch bệnh là một phần quan trọng trong việc nghiên cứu và quản lý dịch bệnh Nếu trích chân sách kiến thức áp dụng cho miền dữ liệu đóng (close domain) hoặc miền dữ liệu mở (open domain), thì trích chân sách cần tập trung vào những vấn đề liên quan đến dịch bệnh Ví dụ, khi người dùng tìm kiếm các bài báo liên quan đến một dịch bệnh cụ thể (như tay chân miệng), họ thường mong muốn có được thông tin chi tiết, bao gồm tên bệnh, địa điểm bùng phát và thời gian bùng phát Do đó, yêu cầu là cần trích dẫn đầy đủ các thông tin liên quan đến dịch bệnh từ các tài liệu có sẵn.

Bài toán trích chân dịch bệnh có ý nghĩa quan trọng không chỉ trong nghiên cứu mà còn trong đời sống, đặc biệt trong việc hợp các dịch bệnh nguy hiểm bùng phát và lây lan trên diện rộng Do sự bùng phát của dịch bệnh thường diễn ra trong thời gian ngắn và lây lan rất nhanh trên một phạm vi rộng, điều này có thể tác động xấu đến người dân và nền kinh tế Vì vậy, trích chân và giám sát sự lây lan của các dịch bệnh có ý nghĩa rất quan trọng trong việc ứng phó với sự lây lan của chúng.

Bài toán phát hiện và trích chân xác kiến thức về dịch bệnh đang thu hút sự quan tâm từ phía các nhà khoa học Grishman và các đồng nghiệp đã nghiên cứu sâu về vấn đề này.

Các mối quan hệ giữa các thực thể trong các mẫu sự kiện (event patterns) có thể được phân tích để trích xuất các thông tin quan trọng về dịch bệnh Ví dụ, mẫu "np (DISEASE) vg (KILL) np (VICTIM)" có thể được áp dụng để so sánh với câu "Cholera killed 23 inhabitants" Sự phát hiện này thể hiện rõ ràng mối liên hệ giữa hai cụm danh từ: "outbreak of " và "died from " Nghiên cứu của chúng tôi cho thấy hiệu quả của quá trình trích xuất đạt 53.98% (F-score).

Volkova và cẻng sá đã tập trung vào việc trích xuất chân sác kiến thức bênh trên dữ liệu Quá trình nhận dạng sự kiện bao gồm ba bước chính: đầu tiên là nhận dạng các thác thịnh mà không có cấu trúc, thứ hai là phân lớp các cấu trúc trên các thác thịnh, và cuối cùng là các thác thịnh trong mẻt cấu trúc để tạo thành sự kiện Độ chính xác trong việc nhận dạng sự kiện và phân lớp lần lượt đạt 75% và 65% trên hai tập dữ liệu WordNet và GoogleSet.

Doan và các cộng sự đã phát triển hệ thống Global Health Monitor nhằm theo dõi các sự kiện dịch bệnh trên toàn cầu Hệ thống này bao gồm ba thành phần chính: (1) phân loại sự kiện, (2) nhận dạng thực thể (NER), và (3) phát hiện các thành phần của sự kiện (disease/location detection) Các tác giả sử dụng Naive Bayes cho bài toán phân loại sự kiện với độ chính xác khoảng 88.10% Đối với nhận dạng thực thể, họ áp dụng Support Vector Machine và đạt độ chính xác khoảng 76.97% (F-score) Cuối cùng, các tác giả sử dụng phương pháp Ontology với độ chính xác lên tới 93.49%.

Những mảnh ghép của sự kiện dịch bệnh có thể được coi như những mẫu hình phản ánh các thuộc tính của sự kiện Trách nhiệm trong việc theo dõi sự kiện dịch bệnh cần chú trọng đến những dữ liệu liên quan, bao gồm cả con người và động vật.

Phỏt hiên sá kiên

Bài toán trích chân sác kiện dịch bệnh được chia thành hai phần chính: bài toán phát hiện sự kiện và bài toán trích chân sác kiện Bài toán phát hiện sự kiện trả lời câu hỏi “làm thế nào để phát hiện một văn bản có chứa sự kiện dịch bệnh?” Quá trình phát hiện sự kiện cần xác định xem văn bản đó có chứa sự kiện dịch bệnh hay không Theo Grishman và các cộng sự, phát hiện sự kiện là quá trình học không giám sát, tác giả sử dụng các từ khóa để quyết định xem văn bản có chứa sự kiện dịch bệnh hay không Hai từ khóa quan trọng được sử dụng là “outbreak of ” và “died from ”.

Theo Doan và cẻng sákiên, bài toán phát hiện sự kiện có thể coi như quá trình học có giám sát Trong nghiên cứu của mình, tác giả sử dụng phương pháp phân lớp Naive Bayes để phân loại các tài liệu Phương pháp này dựa trên một tập các dữ liệu đã được gán nhãn Qua quá trình huấn luyện, phương pháp phân lớp sẽ quyết định mức độ ảnh hưởng của văn bản vào việc chứa sự kiện dịch bệnh hay không.

Trớch chÂn sá kiên

Bài toán phát hiện sự kiện liên quan đến việc xác định "mặt ván bên có chứa sự kiện hay không?" và "làm thế nào trích chân các thuộc tính của mặt sự kiện?" Phương pháp sử dụng luật (học không giám sát) để giải quyết bài toán này Quá trình trích chân bằng phương pháp này thể hiện sự sử dụng các luật dựa trên quá trình khai thác dữ liệu để trích chân ra các thuộc tính của mặt sự kiện.

CH◊ÃNG 1 T NG QUAN Vó BÀI TOÁN TRÍCH XUáT S‹ KIõN 10

Một cách tiếp cận khác là sử dụng học máy và các kỹ thuật của NLP để giải quyết bài toán trích chân số liệu Quá trình này thường sử dụng NER để lấy ra các thuộc tính liên quan đến số liệu như: thời gian, địa điểm, tên người, sau đó kết hợp các thuộc tính này thành một số liệu Bên cạnh đó, NER có thể kết hợp với Ontology để tổ chức các số liệu theo một cấu trúc trực quan Như vậy, có thể nói bài toán trích chân số liệu nói chung và trích chân số liệu bệnh nói riêng có thể được chia thành hai bài toán nhỏ, đó là: phát hiện số liệu và trích chân số liệu Trong luận văn này, tác giả sẽ mô tả chi tiết các kỹ thuật được áp dụng trong hai bài toán này.

fi nghổa bài toỏn trớch chÂn sá kiên d‡ch bênh

fi nghổa khoa hÂc

Vấn đề về trích chân số liệu khoa học, bao gồm trích chân số liệu kiên núi chung và trích chân số liệu kiên dịch bệnh núi riêng, là một trong những bài toán cơ bản trong trích chân thông tin Giải quyết bài toán này sẽ giúp cải thiện các bài toán khác như phát hiện chuỗi sự kiện, dự đoán xu hướng, và tối ưu hóa cho các hệ thống giám sát và phản hồi.

Nghiên cứu về trách nhiệm xã hội trong kiên dịch bệnh trên thế giới đã thu hút nhiều kết quả quan trọng Tuy nhiên, số lượng nghiên cứu liên quan đến vấn đề này trên dữ liệu tiếng Việt còn hạn chế Do đó, bài toán này cần được giải quyết một cách thấu đáo trên nền tảng dữ liệu tiếng Việt.

fi nghổa thác t∏

Bài toán trích chân xác kiến dịch bệnh có ý nghĩa rõ ràng trong bối cảnh hiện nay, đặc biệt trong việc hợp tác giữa các bên liên quan Trong trường hợp này, các nhà quản lý, chính phủ và cộng đồng cần có những giải pháp theo dõi diễn tiến tình hình dịch bệnh để đưa ra những quyết định phù hợp Trong ngữ cảnh bùng phát thông tin liên quan đến dịch bệnh, trích chân xác kiến là một giải pháp hợp lý nhằm cung cấp những thông tin hữu ích tới người dùng.

Hệ thống Peoteous-BIO cung cấp thông tin chi tiết về các sự kiện và tình huống, giúp người dùng nắm bắt được những dữ liệu quan trọng Grishman cùng đội ngũ của mình đã phát triển hệ thống này nhằm hỗ trợ người dùng trong việc truy xuất thông tin một cách hiệu quả và trực quan.

Hệ thống BioCaster do Collier và cộng sự phát triển cho phép người dùng theo dõi các sự kiện trên toàn cầu, đặc biệt là các sự kiện dịch bệnh Ngoài ra, hệ thống HealthMap của Freifeld và các đồng nghiệp cũng cung cấp thông tin về tình hình dịch bệnh, kết hợp với dữ liệu từ các trang web và báo cáo của Tổ chức Y tế Thế giới (WHO) và ProMed.

13 http://www.who.int/csr/don/en/

Việt Nam đang phát triển hệ thống giao thông thông minh với ba lĩnh vực chính: chạy xe, tai nạn giao thông và chế tạo phần mềm Các nguồn dữ liệu từ nhiều trang web được sử dụng để cải thiện hiệu quả và an toàn cho hệ thống này.

Khó kh´n và thách th˘c

Mặc dù có nhiều nghiên cứu khoa học về việc nâng cao độ chính xác của quá trình trích dẫn, nhưng vẫn phải đối mặt với nhiều thách thức Độ chính xác của quá trình trích dẫn phụ thuộc vào bài toán phát hiện sự kiện, trong đó bài toán này lại phụ thuộc vào độ chính xác của việc phân lớp (giám sát hoặc không giám sát) Trong khi bài toán phân lớp đã đạt được những kết quả quan trọng trong tiếng Anh, việc áp dụng trong tiếng Việt gặp nhiều khó khăn do sự khác biệt về ngôn ngữ.

Th˘ hai, do quỏ trỡnh trớch chÂn phˆ thuẻc nhi∑u vào cỏc kˇ thu™t cıa NLP,

NER (Nhận diện thực thể) là một lĩnh vực quan trọng trong xử lý ngôn ngữ tự nhiên Mặc dù các bài toán NER đã được giải quyết hiệu quả trong tiếng Anh, nhưng trong tiếng Việt vẫn còn nhiều thách thức Một số vấn đề cần giải quyết bao gồm việc hiểu nghĩa của từ (Word Sense Disambiguation), tham chiếu đồng (Co-References), và nhận diện tính đa nghĩa trong tiêu đề (Syntactically Ambiguous Headlines), điều này ảnh hưởng đến độ chính xác của quá trình trích xuất thông tin.

Cuộc chiến chống lại bệnh sởi đang gặp khó khăn trong việc điều trị và theo dõi tình hình dịch bệnh Ví dụ, với câu “Bệnh sởi bùng phát tại Hà Nội tháng 4”, kết quả của quá trình theo dõi dịch bệnh là {bệnh sởi, Hà Nội, tháng 4} Đối với thông tin về địa điểm không chi tiết, rất khó để xác định chính xác dịch bệnh bùng phát ở đâu (quận, huyện, hoặc xã) Bên cạnh đó, thời gian của sự kiện cũng không thể xác định rõ ràng.

∏n viêc tớnh thèi gian chớnh xỏc cıa sá kiên g∞p khú kh´n.

TÍng k∏t

Trong chương 1, bài viết trình bày về bài toán trích chân số liệu, vai trò của trích chân thông tin trong ngữ cảnh bùng nổ dữ liệu Chương này giới thiệu những khái niệm cơ bản về trích chân số liệu nói chung và trích chân số liệu dịch bệnh nói riêng Đồng thời, chương này cũng cấp tới hai bài toán liên quan đến trích chân số liệu dịch bệnh, bao gồm bài toán phát hiện số liệu và bài toán trích chân số liệu; nhằm làm rõ nghĩa của bài toán trích chân số liệu dịch bệnh trong khoa học và thực tiễn Trong chương tiếp theo, bài viết sẽ trình bày một số phương pháp tiếp cận để giải quyết bài toán trích chân số liệu và số liệu dịch bệnh.

Mẻt sậ ph˜ẽng phỏp ti∏p c™n

Trong chương này, tác giả trình bày các phương pháp tiếp cận cho bài toán trích chân sác kiến thức bênh Các phương pháp này bao gồm: phương pháp dựa trên luật, phương pháp dựa trên học máy, và phương pháp kết hợp giữa luật và học máy Phản cuồng cựng, tác giả đưa ra một số bàn luận về các phương pháp Dựa trên các nền tảng này, tác giả nêu rõ chân phương pháp phù hợp cho bài toán trích xuất.

Ph˜ẽng phỏp ti∏p c™n dáa trờn lu™t

Lu™t cú pháp

Luật cú pháp, hay còn gọi là các mẫu cú pháp (lexico-syntactic patterns), được coi là phương pháp hiệu quả trong việc sử dụng sém trong bài toán trích xuất chân sác kiên Các mẫu này được sinh ra từ các chuyên gia miền (domain experts) dựa trên các luật (rules) Hình thức của phương pháp này chính là các luật để biểu diễn dựa trên biểu thức chính quy (regular expression).

Các luật cú pháp kết hợp sẽ biểu diễn các ký tự và thông tin cú pháp về các biểu thức chính quy Sau khi các biểu thức chính quy được xây dựng, những biểu thức này sẽ được so khớp với dữ liệu trong văn bản đầu vào để trích xuất các thông tin cần thiết Trong một số trường hợp, luật cú pháp được biểu diễn dưới dạng các từ khóa Các luật cú pháp được sử dụng trong trích xuất các thông tin của mặt sự kiện Trong nghiên cứu của mình, Nishihara và cộng sự đã sử dụng ba từ khóa: địa điểm (place), đối tượng (object), và hành vi (action) để biểu diễn mặt sự kiện được trích xuất từ blogs Trong lĩnh vực tiền tệ và chính trị, Aone và cộng sự đã xây dựng các luật cú pháp để trích xuất các thông tin của mặt sự kiện.

Xu và cẻng sá s˚ dˆng cỏc mđu cỳ phỏp ∫ hÂc cỏc mđu t¯ d˙ liêu cỏc sá kiên

[40] Các m®u này óng vai trò là t™p nhân (seeds) trong kˇ thu™t bootstrapping.

Các luật cũn có thể được sử dụng để trích dẫn thông tin trong miền dữ liệu sinh Yakushiji và các nghiên cứu khác đã sử dụng phương pháp phân tích kết hợp với ngữ pháp để xác định mối quan hệ và các sự kiện Các luật này có ý nghĩa quan trọng đối với cấu trúc tham số trong văn bản.

Lu™t ng˙ nghổa

Trong việc trích chân sách kiến thức ngôn ngữ, cần phải trích dẫn các khái niệm có nghĩa đặc biệt và các mối quan hệ giữa các thành phần trong trích dẫn Tuy nhiên, các luật pháp hiện hành không giải quyết vấn đề này Để giải quyết vấn đề này, phương pháp thuyết phục được áp dụng là sử dụng luật ngữ nghĩa (lexico-semantic patterns) Các luật ngữ nghĩa không chỉ đơn thuần là tập hợp các từ ngữ biểu thị chính quy mà còn là các mô hình được xây dựng để diễn đạt các từ và mối quan hệ giữa chúng.

Các luật này được sử dụng với nhiều mục đích khác nhau Li Fang và các cộng sự sử dụng các luật ngữ nghĩa để trích xuất thông tin từ sàn giao dịch chứng khoán Cohen và các cộng sự áp dụng nhận diện trên miền dữ liệu y sinh để trích xuất các sự kiện y sinh từ tập dữ liệu Cách tiếp cận tương tự cũng được áp dụng bởi Vargas-Vera và Celjuska khi tác giả xây dựng khung cho việc nhận diện các sự kiện tập trung trên các bài báo của Knowledge Media Institute (KMi).

[6] s˚ dˆng cỏc mđu ng˙ nghổa ∫ trớch chÂn sá kiên cho hê thậng tá ẻng cÊnh báo sÓm.

Trách chân sá kiện có thể áp dụng trong nhiều lĩnh vực, đặc biệt là trong miền dịch bệnh Grishman R và các cộng sự đã sử dụng 120 mẫu sá kiện ngữ nghĩa (linguistic event patterns) để phân tích các câu và trách chân các thông tin liên quan đến mặt sá kiện dịch bệnh.

CH◊ÃNG 2 MÀT Sằ PH◊ÃNG PHÁP TIũP CọN 14

Cỏc mđu này ˜ềc xõy dáng dáa trờn cỏc t¯ cà mậi quan hê gi˙a chỳng Vớ dˆ, mđu “np (DISEASE) vp (KILL) np (VICTIM)" s≥ so khểp vểi mẻt mênh ∑ nh˜

Cholera has resulted in the deaths of 23 individuals The data highlights the critical phrases "outbreak of " and "people died from " which are essential for understanding the disease's impact These patterns are applied to extract significant facts about the epidemic, achieving an F-score of approximately 53.98%.

Ph˜ẽng phỏp ti∏p c™n dáa trờn hÂc mỏy

Phương pháp dựa trên học máy thường được sử dụng cho các ứng dụng xử lý ngôn ngữ tự nhiên và yêu cầu tập dữ liệu huấn luyện lớn để phù hợp với các hiện tượng ngôn ngữ Cách tiếp cận này thường dựa vào mô hình xác suất, lý thuyết thông tin và đại số tuyến tính Trong đó, một số phương pháp tiêu biểu bao gồm TF-IDF (Term Frequency - Inverse Document Frequency), phân giải nghĩa từ, n-grams và phân tích cảm xúc.

Cú thót tóm tắt nhiều vấn đề liên quan đến việc sử dụng các kỹ thuật căn cứ trên dữ liệu trích chân xác kiên trong các nghiên cứu về trích chân thông tin Năm 2009, Okamoto và cộng sự đã đề xuất khung (framework) để phát hiện các sự kiện cục bộ (local events) Trong nghiên cứu của mình, tác giả sử dụng các kỹ thuật của phân cảm phần cốt Trong khi bên phân cảm có thể sinh ra các kết quả tật cho trích chân xác kiên, Liu M và cộng sự kết hợp các đồ thị có trọng số không hướng (weighted undirected bipartite graphs) và phân cảm để trích chân các thác thịnh chốn và các sự kiện có nghĩa tỉ lệ thông tin hàng ngày Các kỹ thuật phân cảm cũng được sử dụng bởi Tanev và cộng sự để trích chân các sự kiện biến động và thêm hỗ trợ cho hệ thống giám sát.

Bờn cĐnh ú, cỏc kˇ thu™t dáa trờn d˙ liêu cÙng ˜ềc ỏp dˆng cho mi∑n d˙ liêu d‡ch bênh Doan S và cẻng sá[12] đã xõy dáng hê thậng giỏm sỏt s˘c khoƠ toàn cầu (Global Health Monitor system) để giám sát sự lây lan dịch bệnh trên toàn thế giới Hệ thống này bao gồm ba thành phần chính: (1) phân lớp chỉ số, (2) nhận dạng tác nhân, và (3) phát hiện tên bệnh và đánh giá mức độ phát dịch bệnh Trong thành phần thứ nhất, việc phân lớp Naive Bayes cho thấy độ chính xác của quá trình phân lớp khoảng 88.10% Trong thành phần thứ hai, tác giả sử dụng Support Vector Machine (SVM) cho bài toán nhận dạng tác nhân và đạt độ chính xác cao.

⇡76.97% vểi ẻ o F (F-score) Thành phản cuậi cựng tỏc giÊs˚dˆng mẻt ontology(BioCaster Ontology) ∫ phỏt hiên tờn bênh và ‡a i∫m bựng phỏt ẻchớnh xỏc cıa thành phản th˘ ba này khoÊng ⇡ 93.40%.

Ph˜ẽng phỏp k∏t hềp lu™t và hÂc mỏy

Phương pháp kết hợp lai (hybrid) thường được sử dụng trong các bài toán trích xuất thông tin Hệ thống tri thức (knowledge-driven systems) được xây dựng dựa trên học máy, cho phép giải quyết các vấn đề phức tạp của phương pháp sử dụng luật Ví dụ, Jungermann và Morik kết hợp các luật ngữ nghĩa với Conditional Random Fields (CRFs) để trích xuất các sự kiện từ phiên hấp dẫn toàn thể của người dùng Piskorski và cộng sự sử dụng các kỹ thuật bootstrapping với thống kê để trích xuất các sự kiện liên quan tới báo cáo tin tức với độ chính xác và hồi tưởng cao Tác giả đã giải quyết vấn đề hạn chế của thuật toán học mẫu với các cảm Chun và cộng sự trích xuất các sự kiện y sinh bằng cách sử dụng các luật cú pháp kết hợp với sự đồng xuất hiện (co-occurrences) Lee và cộng sự áp dụng ontology để trích xuất các sự kiện từ các bên tin tiếng Trung Quốc Tác giả cũng sử dụng thống kê dựa trên ngữ pháp và gán nhãn từ loại (part-of-speech tagging); do đó, phương pháp này có thể được coi là phương pháp lai.

Volkova S và cẻng sá đã nghiên cứu việc nhận dạng thác thịnh và phân lớp mức cấu trúc cho các sự kiện dịch bệnh trên động vật Quá trình nhận dạng thác thịnh bao gồm ba bước chính: (1) nhận dạng thác thịnh từ văn bản, (2) các câu đề cập phân loại dựa trên các thác thịnh, và (3) các thác thịnh trong mối cấu sự kiện đề cập tới hợp tác để tạo thành một cấu trúc trực quan Trong quá trình nhận dạng sự kiện, các sự kiện cũng cần chứa tên bệnh và mối liên quan tới bệnh đó Độ chính xác của việc nhận dạng sự kiện và phân lớp mức cấu trúc đạt 75% và 65% trên hai tập dữ liệu chính là Google-Set và WordNet Bên cạnh đó, phương pháp của Son D và cẻng sá được xem là phương pháp lai do sử dụng ontology trong quá trình trích xuất sự kiện.

Mẻt sậ nh™n xột

Trong mục 2.1, các hệ thống tri thức sử dụng phương pháp tiếp cận dựa trên luật (rule-based) để giải quyết bài toán trích chân sác kiến Phương pháp này có ưu điểm trong việc xử lý dữ liệu huấn luyện, đồng thời cũng có khả năng xây dựng các biểu thức để trích xuất các thành phần dựa trên quy tắc và các thành phần ngữ nghĩa Tiếp cận theo luật là cách hợp lý để trích xuất các thông tin cụ thể, chẳng hạn như các thông tin thời gian.

∑ c™p khụng rừ ràng: “hụm qua", “rĐng sỏng nay") Cú th∫ dπ dàng nh™n thòy ph˜ẽng phỏp ti∏p c™n dáa trờn lu™t Đt ẻ chớnh xỏc ròt cao (do ˜ềc xõy dáng

CH◊ÃNG 2 MÀT Sằ PH◊ÃNG PHÁP TIũP CọN 16

∫ lòy ra cỏc thụng tin ∞c biêt) nh˜ng cú ẻ hÁi t˜ng thòp Khi chứ quan tõm tểi ẻ chớnh xỏc thỡ s˚ dˆng lu™t là mẻt ph˜ẽng phỏp hiêu quÊ.

Bờn cĐnh nh˙ng˜u i∫m, ph˜ẽng phỏp s˚dˆng lu™t cÙng cú nh˙ng nh˜ềc i∫m

Việc xây dựng một bộ luật độc lập cần có sự tham gia của những chuyên gia trong lĩnh vực, nhằm đảm bảo tính chính xác và hiệu quả Các luật sư có trách nhiệm cung cấp thông tin cụ thể, do đó, khi thay đổi luật, cần phải điều chỉnh các quy định cho phù hợp Tuy nhiên, việc thay đổi này có thể tốn nhiều thời gian và chi phí.

Ngọc lãi với cách tiếp cận dùng luật và cách tiếp cận sử dụng học máy không đòi hỏi nhiều kiến thức về ngữ nghĩa và chuyên môn; tuy nhiên, phương pháp này lại khá mệt mỏi liên quan đến việc tập huấn luyện Dựa trên các dữ liệu này, các phương pháp dựa trên dữ liệu sẽ dựng các mô hình xác suất để xếp sắp mô hình huấn luyện với dữ liệu Phương pháp này có những ưu điểm sau: thứ nhất, cách tiếp cận này không yêu cầu sự tham gia của chuyên gia miền và chuyên gia ngữ nghĩa Thứ hai, các mô hình sau khi huấn luyện dễ dàng được sử dụng với nhiều miền dữ liệu khác nhau.

Cách tiếp cận sử dụng học máy có những nhược điểm riêng Các phương pháp tiếp cận dựa trên dữ liệu không giải quyết được vấn đề về ngữ nghĩa trong bài toán trích chân sác kiên, vì chúng chỉ phát hiện các quan hệ trong tập dữ liệu mà không giải quyết được ngữ nghĩa Một nhược điểm khác là các phương pháp này yêu cầu một lượng lớn dữ liệu để huấn luyện, nhưng trong một số trường hợp hẹp, việc thu thập dữ liệu tốn thời gian và chi phí Cuối cùng, do các phương pháp này dựa trên các mô hình xác suất thống kê, nên trong một số trường hợp hẹp, kết quả của quá trình trích chân không cao, dẫn đến quy trình làm dữ liệu huấn luyện không hiệu quả.

Trong thác tri thức, các hệ thống tri thức kết hợp giữa các phương pháp sử dụng luật và phương pháp dựa trên học máy Phương pháp kết hợp giúp giải quyết các nhược điểm của phương pháp tiếp cận sử dụng luật và học máy, đặc biệt trong việc xử lý các trường hợp thiếu chuyên gia miền Đồng thời, các nhà nghiên cứu cũng kết hợp các tiếp cận thống kê với tri thức để tránh các kết quả không mong muốn và bổ sung cho các phương pháp thống kê Như vậy, chúng ta có thể cải thiện các phương pháp học bằng cách sử dụng tri thức chuyên gia để tạo ra các mô hình tốt hơn.

Trong các hệ thống trích dẫn xác kiến sử dụng phương pháp lai, việc áp dụng các phương pháp tiếp cận học máy là rất cần thiết để có dữ liệu huấn luyện hiệu quả Bên cạnh đó, các hệ thống này cần phải có các luật, tuy nhiên không thể thiếu sự tham gia của chuyên gia để bổ sung dữ liệu Kết hợp giữa luật và học máy giúp các hệ thống trích dẫn xác kiến thu thập thông tin cụ thể Tuy nhiên, phương pháp này cũng gặp khó khăn trong việc tích hợp hệ thống khi kết hợp hai phương pháp dựa trên luật và dữ liệu Tác giả đã chỉ ra rằng việc kết hợp giữa luật và học máy có thể gặp phải vấn đề khi dữ liệu trong hệ thống lớn (khoảng 4 triệu bài báo), nếu dữ liệu này không được dựng trắc tiếp cho bậc phân lớp thì sẽ làm tăng thời gian phát hiện xác kiến Do đó, tác giả cần sử dụng các luật cụ thể để lọc bớt dữ liệu không cần thiết khi sử dụng bậc phân lớp Thêm vào đó, trong ba thông tin của xác kiến gám: thời gian, tên bệnh, và đặc điểm bùng phát, thông tin về thời gian là đặc biệt quan trọng Khi thông tin này được cung cấp không rõ ràng và thiếu chi tiết về thời gian, tác giả sẽ sử dụng luật ngữ nghĩa để trích dẫn thông tin này Một điểm khác là tác giả cần sử dụng mô hình lai trong hệ thống có chức năng phân lớp và nhận dạng các yếu tố này để thể hiện rõ các mô hình xác suất dựa trên dữ liệu Chi tiết phương pháp được trình bày trong chương 3.

TÍng k∏t

Trong chương này, tác giả trình bày các phương pháp giải bài toán trích chân xác kiến dịch bệnh Tác giả cũng đưa ra một số bàn luận về các phương pháp và cho rằng phương pháp kết hợp giữa luật và học máy phù hợp với bài toán đề cập trong chương 3 Trong chương tiếp theo, tác giả sẽ trình bày chi tiết bài toán trích chân xác kiến dịch bệnh và mô hình sẽ giúp giải quyết bài toán này.

Chương này tập trung vào việc giải bài toán trích chân xác kiến dịch bệnh, bao gồm các yếu tố bên cạnh mặt xác kiến dịch bệnh Nó sẽ tổng hợp mô hình giải quyết bài toán dựa trên những phân tích trong chương 2 Đồng thời, chương cũng trình bày chi tiết hai bài toán quan trọng trong luận văn, đó là bài toán phát hiện xác kiến và bài toán trích chân xác kiến.

Cỏc ∞c tớnh cıa sá kiên d‡ch bênh

Quá trình khảo sát trên miền dữ liệu chứa sự kiện dịch bệnh bao gồm các thông tin quan trọng như tên bệnh, thời gian bùng phát dịch bệnh, các địa điểm mà dịch bệnh bùng phát, và thông tin về các nạn nhân của dịch bệnh Trong một số trường hợp, các sự kiện dịch bệnh còn thể hiện thêm các thông tin liên quan đến phương thức lây lan (lây truyền trực tiếp hoặc qua các vật trung gian) hoặc môi trường lây nhiễm Như vậy, các thông tin chính của sự kiện dịch bệnh bao gồm tên bệnh, thời gian, và địa điểm bùng phát.

Grishman R và các tác giả khác cho rằng việc xác định tên bệnh, thời gian và địa điểm dịch bệnh bùng phát là rất quan trọng Tuy nhiên, trong giới hạn của luận văn, tác giả chỉ tập trung vào ba thông tin chính: tên bệnh, thời gian và địa điểm mà dịch bệnh bùng phát Tác giả phê phán việc sử dụng thông tin không chính xác từ các trang web thay vì các báo cáo y tế Như vậy, trong các trường hợp hợp, thông tin về phương thức hoặc môi trường lây lan không được đề cập một cách rõ ràng Hơn nữa, mặc dù có nhiều tác nhân gây bệnh, nhưng trong luận văn, tác giả thường sử dụng tên bệnh thay cho tác nhân.

Bờn cĐnh ú, quá trình khéo sắt dữ liệu trên các bài báo chữa sá kiên dịch bệnh cùng chứa răng tên bệnh ủi khi giảng về triệu chứng của bệnh Đây là một trong những lý do gây nhầm lẫn trong quá trình trích chân sá kiên Ví dụ, “cảm” là một triệu chứng của bệnh cảm gia cảm H5N1, tuy nhiên triệu chứng cảm vẫn dễ nhận diện là một bệnh.

Phát bi∫u bài toán

Bài toán trích chân thông tin chung tập trung vào việc trích dẫn các thông tin liên quan đến mặt sự kiện dịch bệnh, đặc biệt là các vấn đề không có cấu trúc rõ ràng Mặt khác, bài toán có thể được phát biểu theo nhiều hình thức khác nhau.

• ảu vào: mẻt bài bỏo iên t˚.

• ảu ra: mụ hỡnh s≥ phÊi ki∫m tra xem bài bỏo  ảu vào cú ch˘a sákiên d‡ch bênh hay khụng? N∏u cú thỡ trớch chÂn cỏc thụng tin cıa d‡ch bênh.

Trong phĐm vi cıa lu™n v´n, mẻt sá kiên d‡ch bênh (t¯ nay gÂi là sá kiên) ˜ềc

Nghĩa của mẻt bẻ E gÁm ba thành phản bao gồm: tên dịch bệnh, thời gian, và vị trí dịch bệnh bùng phát Cách hình thức, sá kiến E đề cập nghĩa nằm trong công thức (3.1).

E = (3.1) vÓi:

• tờn bênh: là tờn cıa d‡ch bênh ˜ềc ∑ c™p trong bài bỏo.

• thèi gian: là thèi gian mà d‡ch bênh bựng phỏt.

• ‡a i∫m: là ‡a i∫m mà d‡ch bênh bựng phỏt ‡a i∫m cú th∫ là mẻt ho∞c mẻt t™p hềp cỏc ‡a i∫m.

Vào ngày 12 tháng 06 năm 2012, dịch cúm A/H5N1 đã bùng phát tại Quảng Ngãi Thông qua ba thông tin có sẵn, chúng ta có thể dễ dàng nhận thấy sự xuất hiện của virus cúm này trong khu vực.

Trong phản ánh nghĩa bài toán, các trang báo điện tử đóng vai trò quan trọng Thứ nhất, thông tin trên các trang báo có độ tin cậy và tính cập nhật cao Nếu một bệnh dịch bùng phát, thông tin về dịch bệnh sẽ được cập nhật nhanh chóng trên các trang báo điện tử Thứ hai, quá trình thu thập dữ liệu từ các trang báo điện tử cũng khá đồng nhất Hầu hết các trang báo mạng đều cung cấp thông tin một cách chính xác và kịp thời.

Do v™y, d˙liêu cho mụ hỡnh luụn Êm bÊo tớnh a dĐng và tớnh c™p nh™t.

Mụ hỡnh trong phản ánh nghĩa bài toán được chia thành hai phần chính: phần đầu tiên là bài toán phát hiện một bài báo có chứa thông tin hay không, và phần thứ hai là sau khi phát hiện bài báo có thông tin, cần phải trích dẫn đầy đủ ba thông tin chính có bên trong bài báo đó Trong phạm vi luận văn, bài toán thứ hai được gọi là phần trích dẫn.

Chương 3 mô hình xuất 20 phát hiện sự kiện và bài toán thứ hai đề cập đến trách chân sự kiện Bên cạnh đó, luôn cần chú trọng vào việc trách chân các thông tin liên quan đến dịch bệnh trên người trong miền dữ liệu tiếng Việt với dữ liệu được lấy từ các trang báo điện tử của Việt Nam Chi tiết phương pháp sẽ được trình bày trong phản tiểu tiếp theo.

Ph˜ẽng phỏp ∑ xuòt

Trong chương 2, bài viết trình bày các phương pháp chính để trích chân dữ liệu, bao gồm phương pháp dựa trên quy tắc, phương pháp học máy, và phương pháp kết hợp giữa quy tắc và học máy Những phương pháp này nhằm phát triển hiệu quả việc trích xuất dữ liệu trong bài toán trích chân dữ liệu bệnh.

Trong quá trình phát hiện sự kiện, việc thu thập dữ liệu từ Internet thường gặp phải vấn đề về số lượng các trang báo Mỗi ngày, một trang báo có thể đăng tải hàng nghìn tin bài, nhưng số lượng bài viết liên quan đến dịch bệnh chỉ chiếm một phần nhỏ trong đó Để giải quyết vấn đề này, cần phải giảm số lượng các bài báo trước khi đưa vào phân tích Từ đó, tác giả có thể xây dựng một bể dữ liệu chứa các bài báo trong miền dịch bệnh, giúp nhận diện các thông tin có liên quan đến dịch bệnh một cách hiệu quả.

∫ làm viêc này, tỏc giÊs˚dˆng mẻt bẻ phõn lểp Nh˜ v™y, ˛ t˜ng ∫ giÊi quy∏t bài toỏn phỏt hiên sá kiên là k∏t hềp gi˙a hÂc mỏy và lu™t.

Trong quá trình trích xuất thông tin, việc xác định ba yếu tố quan trọng là tên bệnh, thời gian và địa điểm là rất cần thiết Tên bệnh và địa điểm có thể được trích xuất dễ dàng thông qua việc sử dụng nhận dạng thực thể tên (NER) và ontology, trong khi việc xác định thời gian có thể gặp khó khăn hơn Thời gian có thể được biểu thị dưới dạng định dạng cụ thể (dd/mm/yyyy) hoặc các cách diễn đạt tương đối (như hôm qua, sáng nay, ) Do đó, việc áp dụng các quy tắc trích xuất thông tin thời gian là rất quan trọng.

Trong phần này, tác giả sử dụng kết hợp luật và học máy để giải quyết bài toán nhận dạng và trích xuất thông tin Chi tiết của mô hình và hai bài toán sẽ được trình bày trong phản hồi tiếp theo.

Mụ hỡnh phỏt hiên và trớch chÂn sá kiên

Quá trình phát hiện và trích chân xác kiến thức về dịch bệnh được minh họa trong hình 3.1, thể hiện sự phát triển của các biện pháp phản ứng chính nhằm kiểm soát dịch bệnh hiệu quả.

• Thu th™p d˙ liêu: thành phản này cú nhiêm vˆ tá ẻng thu th™p cỏc bài bỏo

Bộ thu thập dữ liệu

Tiền xử lý dữ liệu

Bộ phát hiện sự kiện

Bộ trích chọn sự kiện Trực quan hoá

Hỡnh 3.1: Quỏ trỡnh phỏt hiên và trớch chÂn sá kiên t¯ cỏc trang trờn Internet và chuy∫n cho thành phản ti∑n x˚ l˛ d˙ liêu.

Tiến trình xử lý dữ liệu bắt đầu khi nhận dữ liệu từ phản thu thập, sau đó thực hiện các bước như phân tích các thẻ HTML, lấy nội dung văn bản và chuyển đổi dữ liệu này để thành phần phát hiện sự kiện có thể sử dụng.

Phát hiện sự kiện: Thành phần này nhận diện liệu thuốc thành phẩm tiềm ẩn sau khi kiểm tra xem liệu liệu có thuộc miền dịch bệnh hay không (theo dự luật); nếu liệu thuốc thuộc miền dịch bệnh thì chuyển liệu tới bộ phận lập Tại đây, bài báo sẽ quyết định xem nó có chứa sự kiện hay không? Nếu có, chuyển liệu tới phòng trách chân; ngược lại thì lo liệu bệ.

• Trớch chÂn sákiên: thành phản này trớch chÂn ra ba thụng tin cıa mẻt sákiên d‡ch bênh gÁm: tờn bênh, thèi gian, và ‡a i∫m.

• Trác quan hoỏ: thành phản cuậi cựng trác quan hoỏ thụng tin trờn mẻt bÊn Á trác tuy∏n (Geographic Information System - GIS).

Trong phần vi của luận văn, tác giả tập trung vào hai thành phần chính là thành phần phát hiện sự kiện và thành phần trích dẫn sự kiện Hai thành phần này được trình bày chi tiết trong mục 3.5 và 4.4.

Bài toỏn phỏt hiên sá kiên

Phát bi∫u bài toán

Mục tiêu của bài viết này là xác định xem bài báo có chứa số liệu dịch bệnh hay không Một cách hình thức, bài toán phát hiện số liệu có thể được biểu diễn như sau:

• ảu vào: d˙ liêu dĐng thụ cıa bài bỏo sau khi ó ˜ềc ti∑n x˚ l˛.

• ảu ra: bài bỏo cú ch˘a sá kiên d‡ch bênh hay khụng?

Phát hiện sá kiên gám hai chức năng chính, đó là: bộ lọc dữ liệu và bộ phận phân loại Bộ lọc dữ liệu sử dụng các luật có nhiệm vụ xác định các bài báo có liên quan đến dịch bệnh, trong khi bộ phận phân loại sẽ quyết định bài báo có chứa sá kiên hay không Quá trình phát hiện sá kiên được minh họa trong hình.

CH◊ÃNG 3 MÔ HÌNH ó XUáT 22

Hỡnh 3.2: Thành phản phỏt hiên sá kiên

3.2 Trong ch˘c n´ng lÂc d˙ liêu, tiờu ∑ cıa mẻt bài bỏo ˜ềc s˚ dˆng ∫ lÂc ra cỏc d˙ liêu cú liờn quan tểi mi∑n d˙ liêu d‡ch bênh Sau ú, n∏u bài bỏo thuẻc mi∑n d‡ch bênh, nú s≥ ˜ềc chuy∫n tểi bẻ phõn lểp – õy, bài bỏo s≥ ˜ềc quy∏t

‡nh xem nú cú ch˘a sá kiên d‡ch bênh hay khụng.

Xõy dáng t™p lu™t

Nội dung bài báo đã phát hiện hai chức năng chính: mặt bên lạc dữ liệu và mặt bên phân lệch Mặt bên lạc dữ liệu sử dụng các luật để giảm tải lượng bài báo cho mặt bên phân lệch phía sau Qua quá trình khảo sát dữ liệu, tác giả nhận thấy tiêu đề của mặt bài báo có thể ảnh hưởng đến nội dung của bài báo đó Điều này có nghĩa, nếu tiêu đề của bài báo nói về dịch bệnh, thì khả năng lên bài báo nói về dịch bệnh cũng cao; và ngược lại Do đó, tác giả quyết định sử dụng tiêu đề bài báo thay vì toàn bộ nội dung của bài báo cho chức năng lạc dữ liệu.

Hoạt động của bảng điều khiển có thể tóm tắt như sau: (1) tác giả sẽ xây dựng một tập luật dựa vào quá trình khai thác dữ liệu, các luật này chứa các thông tin liên quan đến miền dữ liệu dịch bệnh; (2) bảng điều khiển sẽ dựng các luật này và so khớp với tiêu chí của các bài báo, nếu tiêu chí chứa các luật thì điều đó có nghĩa bài báo thuộc miền dữ liệu dịch bệnh, ngược lại thì không thuộc.

Tập hợp các tài liệu và các cụm từ liên quan đến miền dữ liệu dịch bệnh là rất cần thiết Trong bài viết này, tác giả đã tiến hành thu thập dữ liệu từ các bài báo chuyên mục "Sức khỏe" trên website Báo Mới Việc tổng hợp thông tin từ nhiều nguồn khác nhau giúp đảm bảo tính chính xác và đa dạng của từ khóa, nâng cao khả năng tối ưu hóa SEO cho nội dung.

Sau quá trình thËng kê, tác gi£ thu ˜Òc 34 t¯ khoá (hay còn gÂi là t™p các t¯ th˜èng xuyờn - frequent-words set) Cỏc t¯ ˜ềc s≠p x∏p theo th˘ tá giÊm dản

1 http://www.baomoi.com/Home/SucKhoe.epi

Bài viết này phân tích sự xuất hiện của các từ khóa trong nội dung, đồng thời không tính đến các từ dừng (stop words) Mục tiêu là xác định tần suất xuất hiện của các bài báo, từ đó rút ra kết luận về xu hướng và mức độ quan tâm của độc giả Kết quả từ quá trình khảo sát cho thấy sự thay đổi trong cách thức người dùng tương tác với thông tin hiện nay.

B£ng 3.1: Danh sách các t¯/cˆm t¯ th˜Ìng xuyên

10 Kh˚ trùng 1143 thậng kờ cho thòy hảu h∏t cỏc bài bỏo ch˘a cỏc t¯trong t™p t¯ th˜èng xuyờn ∑u liờn quan tểi sá kiên d‡ch bênh Do v™y, ˛ t˜ng cıa cỏc giÊ là xõy dáng t™p cỏc lu™t băng cỏch k∏t hềp cỏc t¯/cˆm t¯ trong t™p t¯ th˜èng xuyờn ∫ thác hiên viêc tĐo ra cỏc lu™t, tỏc giÊ ∑ xuòt hai mđu cú tờn là Mđu 1 và Mđu 2 Cỏc m®u này ˜Òc minh ho§ trong công th˘c (3.2) và (3.3).

Mđu 1= danh t¯ # ẻng t¯ (3.2) vểi: cỏc danh t¯ và ẻng t¯ ˜ềc lòy trong t™p t¯ th˜èng xuyờn.

Vớ dˆ 1: minh hoĐ th∫ hiên cıa Mđu 1:

Mđu 2= tờn bênh # ẻng t¯ (3.3) vÓi:

• tờn bênh ˜ềc lòy t¯ BioCaster Ontology [9] và thụng bỏo cıa Bẻ Y t∏ Viêt Nam này 24 tháng 06 n´m 2011 3

• ẻng t¯ lòy t¯ t™p t¯ th˜èng xuyờn.

Vớ dˆ 2: minh hoĐ cỏc th∫ hiên cıaMđu 2:

• tiờu chÊy còp # phỏt hiên

• tiờu chÊy còp # lõy lan

3 http://www.moh.gov.vn/

CH◊ÃNG 3 MÔ HÌNH ó XUáT 24

• tiờu chÊy còp # bựng phỏt

• tiờu chÊy còp # ch∏t (t˚ vong)

• tiờu chÊy còp # d˜ẽng tớnh

Cê hai mđu ∑u cú hai thành phản ˜ềc ng´n cỏch vểi nhau bi dòu # Tỏc giÊ s˚dˆng 52 danh t¯/cˆm danh t¯ và 10 ẻng t¯/cˆm ẻng t¯ ∫ xõy dáng Mđu 1 Nh˙ng ẻng t¯ và danh t¯ này ˜ềc lòy t¯ t™p t¯ th˜èng xuyờn T˜ẽng tá nh˜ v™y, tỏc giÊ s˚ dˆng 186 tờn bênh và 6 ẻng t¯/cˆm ẻng t¯ ∫ xõy dáng Mđu 2 Mẻt sậ ẻng t¯/cˆm ẻng t¯ trong Mđu 1 và Mđu 2 giậng nhau.

Sau khi xõy dáng t™p lu™t, tỏc giÊthu ˜ềc 229 lu™t cıa Mđu 1 vàMđu 2 T™p lu™t này ˜ềc s˚ dˆng ∫ lÂc d˙liêu cho bẻ phõn lểp phớa sau.

Xõy dáng mụ hỡnh phõn lểp

Bẻ phõn lểp là một phương pháp quan trọng trong việc phát hiện nội dung bài báo có chứa thông tin về sự kiện dịch bệnh hay không Phương pháp này chia nội dung thành hai lớp: lớp chứa thông tin về sự kiện (EVENT) và lớp không chứa thông tin (NOT_EVENT) Quá trình khảo sát cần đảm bảo tiêu chí và phản hồi tích cực để cung cấp thông tin chính xác về nội dung của bài báo.

Do v™y, các thông tin này ˜Òc s˚dˆng ∫ t§o vector ∞c tr˜ng bi∫u diπn v´n b£n. Tỏc giÊ xõy dáng mẻt t™p d˙ liêu huòn luyên và dựng t™p d˙ liêu huòn luyên này

Trong quá trình huấn luyện mô hình, việc sử dụng các n-grams như 2-grams, 3-grams và 4-grams là rất quan trọng Số lượng n-grams được sử dụng trong quá trình này đạt tổng cộng là 4.552.

Trong quá trình huấn luyện, tác giả sử dụng mô hình Maximum Entropy (ME) để tối ưu hóa việc tích hợp các đặc trưng trong tập dữ liệu huấn luyện cho bài toán phân loại Mô hình ME dựa trên xác suất có điều kiện, giúp xác định phân phối xác suất tối ưu cho các biến đầu vào.

Để cải thiện hiệu suất của mô hình học máy, việc sử dụng dữ liệu huấn luyện mà không thêm bớt các yếu tố không cần thiết là rất quan trọng Điều này có nghĩa là các đặc trưng của dữ liệu huấn luyện cần phải được chọn lọc cẩn thận, và càng ít biến thể trong dữ liệu thì mô hình sẽ càng chính xác hơn Tác giả nhấn mạnh rằng: (1) dữ liệu trong quá trình huấn luyện là cố định, do đó, khi biểu diễn dữ liệu bằng vector, nó cần được chuẩn hóa; (2) hiệu quả của mô hình học máy được chứng minh là tốt hơn so với các thuật toán khác, như SVM, trong việc xử lý dữ liệu cố định; (3) có thể có sự biến đổi nguồn gốc của mô hình, vì đây là một nguồn thông tin quan trọng.

Sau quá trình huấn luyện, toàn bộ dữ liệu sẽ được đưa vào mô hình Tại đây, những văn bản có nhãn EVENT sẽ được sử dụng cho quá trình trích chân; ngược lại, mô hình sẽ bỏ qua những văn bản có nhãn NOT_EVENT.

4 http://www.cs.princeton.edu/maxent

Bài toỏn trớch chÂn sá kiên

Phát bi∫u bài toán

Bẻ trớch chân sákiên là một trong hai thành phần quan trọng của mô hình, nơi mà thông tin của một sự kiện dịch bệnh được phản ánh chân thực Một cách hình thức, có thể phát biểu bài toán bẻ trớch chân sá kiên như sau:

• ảu vào: mẻt v´n bÊn ch˘a sá kiên d‡ch bênh.

Thông tin về dịch bệnh bao gồm: tên bệnh, thời gian bùng phát, và địa điểm bùng phát Lưu ý rằng địa điểm bùng phát dịch bệnh có thể là một hoặc nhiều nơi khác nhau.

Bài toỏn trớch chÂn sá kiên cú th∫ ˜ềc minh hoĐ trong hỡnh 3.3 Bẻ trớch chÂn

Luật Trích chọn tên bệnh

Từ điển tên bệnh Trích chọn địa điểm

Cây phân cấp địa điểm

Hình 3.3 mô tả ba chức năng chính của hệ thống: trích xuất thời gian, trích xuất tên bệnh, và trích xuất thông tin địa điểm Chức năng đầu tiên sử dụng các luật để lấy thông tin thời gian của dịch bệnh; chức năng thứ hai nhằm xác định các tên bệnh; và chức năng cuối cùng kết hợp nhận dạng thực thể (NER) với thông tin địa điểm để thu thập dữ liệu liên quan đến dịch bệnh Cuối cùng, các thông tin được trích xuất sẽ được lưu trữ trong một cơ sở dữ liệu để phục vụ cho việc phân tích và nghiên cứu.

CH◊ÃNG 3 MÔ HÌNH ó XUáT 26

Trích chÂn thÌi gian

Kết quả của quá trình khảo sát trên tập dữ liệu cho thấy thông tin thời gian được biểu diễn bằng hai cách: tuyệt đối và tương đối Khi thời gian được biểu diễn dưới dạng tuyệt đối, nó có định dạng DD/MM/YYYY; trong đó DD là ngày, MM là tháng, và YYYY là năm xảy ra dịch bệnh Ví dụ, “Dịch sởi bùng phát tại Quảng Ngãi vào ngày 12/06/2012" Tuy nhiên, trong nhiều trường hợp, thông tin liên quan đến dịch bệnh được cung cấp mơ hồ và không trực tiếp Ví dụ, “Chiều tại ngày 12/06/2012, Bộ Y tế đã công bố dịch cúm A/H5N1 bùng phát tại Yên Bái" Lúc này, thông tin về thời điểm dịch bệnh bùng phát không rõ ràng.

“Chi∑u tậi" Nh˜v™y, cản k∏t hềp ngày chớnh xỏc và cˆm t¯ “Chi∑u tậi" ∫ ˜a ra ˜Òc thông tin v∑ thÌi gian.

Thời gian được biểu diễn theo hai cách, bao gồm việc sử dụng các luật để xây dựng sẵn và lôi ra thông tin thời gian Trong trường hợp này, thời gian có thể được trích xuất bằng cách sử dụng biểu thức chính quy (Regular Expression - RE) Đối với việc biểu diễn thời gian, có thể nhận thấy hai thành phần chính: thành phần tiền tệ và thời gian Thành phần tiền tệ là tập hợp các từ chỉ thời gian tương đối (như hôm nay, ngày qua, ), trong khi thành phần thời gian thể hiện rõ ràng theo định dạng DD/MM/YYYY Do đó, tác giả sử dụng luật để trích xuất thời gian một cách hiệu quả trong nghiên cứu của mình.

THếI GIAN=+NGÀY THÁNG (3.4) vÓi:

• THếI GIAN T◊ÃNG ằI gÁm cỏc t¯: vào, ngày, sỏng, hụm nay, sỏng hụm nay, chi∑u, hôm qua, tËi qua, r§ng sáng, tháng.

• NGÀY THÁNG có ‡nh d§ng DD/MM/YYYY.

Trong trường hợp bài báo không cập nhật tới thời gian hiện tại, thời gian mặc định sẽ được lấy từ bên bài báo Ví dụ, ở các mục 3 và 4, chúng ta minh họa việc sử dụng biểu thức chính quy và luật thời gian để trích xuất thời gian của sự kiện.

Vớ dˆ 3: “Ngày 12/03/2012, Bẻ Y t∏ cụng bậ d‡ch cỳm A H5N1 ó tỏi phỏt tĐi Qu£ng Ngãi."

Vớ dˆ 4:“Sỏng ngày 15/01/2012, S Y t∏ thành phậ Hà Nẻi thụng bỏo bênh nhõn ảu tiờn nhiπm cỳm A/H5N1 ó t˚ vong."

Trong Ví đề 3, thời gian được trích dẫn theo cách sử dụng biểu thức chính quy, trong khi đó, trong Ví đề 4, thời gian được trích dẫn theo luật thời gian (3.4) Kết quả cho thấy thông tin thời gian trong Ví đề 3 là 12/03/2012, còn trong Ví đề 4 là sáng ngày 15/01/2012.

Trớch chÂn tờn bênh

Trách chân tờn bênh là chức năng thứ hai trong bức trách chân sá kiên, có nhiệm vụ lôi ra thông tin của dịch bênh trong tờ văn bên ảu vào.

Tên bệnh là một thuật ngữ quan trọng trong y học, được sử dụng để chỉ định các tình trạng bệnh lý Việc hiểu rõ về tên bệnh giúp phân biệt các loại bệnh khác nhau và hỗ trợ trong quá trình chẩn đoán và điều trị Tên bệnh thường được so sánh với các triệu chứng và đặc điểm lâm sàng của bệnh nhân, từ đó xác định đúng tên gọi cho từng tình trạng sức khỏe.

Quá trình tiến hành xử lý dữ liệu để tách cấu và tách từ cho các văn bản bên cạnh đã được mô tả trong hình 3.1 Mỗi văn bản sẽ có mặt trong danh sách các từ/cụm từ Công việc trích chân ra tên bệnh là tìm các từ dài nhất khớp với mặt mũi bột ký trong tên bệnh, với tổng cộng 186 tên bệnh được ghi nhận.

Quá trình trích chân tên bệnh được chia thành hai bước chính: đầu tiên, tìm cảm từ dài nhất và so sánh với tên bệnh trong tài liệu; thứ hai, so sánh các viên với văn bản gốc để kiểm tra tính chính xác của tên bệnh Bước đầu tiên tập trung vào việc xác định cảm từ dài nhất và đối chiếu với tên bệnh trong tài liệu Nếu tên bệnh chưa được xác định, có khả năng nó xuất hiện trong văn bản gốc Ở bước thứ hai, cảm từ và tên bệnh được kiểm tra để xác định xem chúng có xuất hiện trong văn bản gốc hay không Tên bệnh được tìm thấy sau hai bước này phải có mặt trong văn bản gốc Quá trình trích chân tên bệnh được minh họa qua ví dụ 5.

Ví dˆ 5:“D‡ch cúm A/H5N1 bùng phát t§i B∏n Tre"

Sau khi phân tích, tác giả đã tập trung vào hai căn bệnh liên quan đến cúm: cúm thông thường và cúm A/H5N1 Quá trình tìm kiếm cho thấy có sự tương đồng giữa các thuật ngữ này Đặc biệt, cúm A/H5N1 là một trong những căn bệnh chính mà tác giả đề cập Kết quả kiểm tra cho thấy cúm gia cầm không xuất hiện trong văn bản liên quan, do đó không phải là tên bệnh chính xác Tên bệnh chính xác được xác định là cúm A/H5N1, vì nó xuất hiện trong văn bản.

Trích chÂn ‡a i∫m

Xõy dáng chức năng thứ ba khúc khắt hẽn hai chức năng trực bãi vỡ sá nhập nhằng giữa các địa điểm Trong thực tế, một vài địa điểm có thể có cùng tên, ví dụ, thị trấn HÊi có thể thuộc tỉnh Trà Vinh hoặc Quảng Ninh Như vậy, trong một sắp xếp hợp, nếu bài báo không nêu rõ về địa điểm (xã, huyện, tỉnh) thì thông tin về địa điểm đó sẽ trở nên nhảm nhí Để giải quyết vấn đề này, tác giả đã kết hợp giữa nhận dạng thực thể (NER) và một số kỹ thuật địa điểm nhằm nâng cao độ chính xác trong quá trình trích xuất thông tin địa điểm Sử dụng NER giúp thu thập thông tin liên quan đến địa điểm một cách dễ dàng hơn.

Mô hình xuất thác 28 thác thỉnh (cụ thể là LOCATION) sử dụng mẻt tài liệu để giải quyết các trường hợp khi thông tin địa điểm không được cung cấp một cách rõ ràng, ví dụ như chỉ có tên xã hoặc huyện mà không có tên tỉnh.

Quá trình trích xuất thông tin từ tài liệu có thể chia thành ba bước: (1) Nhận diện thực thể tên (NER), (2) Thu thập thông tin từ tài liệu, và (3) Quá trình chuẩn hóa Đầu tiên, nhận diện thực thể tên (NER) giúp phát hiện các thực thể kiểu LOCATION Nhờ vậy, các thông tin trong bài báo sẽ được gộp nhóm lại theo một cách có hệ thống.

Sau khi thu thập thông tin từ các nhóm dữ liệu, tác giả đã duyệt qua toàn bộ các nhóm và chỉ giữ lại những nội dung liên quan đến bài cấp nhón Cuối cùng, mọi thông tin đã được chuẩn hóa bằng cách so khớp với thông tin trong cấu phần cấp nhón Thông tin cuối cùng là thông tin đã được chuẩn hóa Tác giả sử dụng dữ liệu đã được chuẩn hóa như là một cây phân cấp (taxonomy), được minh họa trong hình 3.4.

Huyện 1.1 Thị xã 1.2 Huyện 2.1 Thị xã 2.2 Huyện n.1 Thị xã n.2

Phường 1.1.1 Xã 1.1.2 Phường 2.1.1 Xã 2.1.2 Phường n.1.1 Xã n.1.2

Hỡnh 3.4: Bi∫u diπn cıa cõy phõn còp ‡a i∫m

Trong còu trỳc phõn còp này, m˘c cao nhòt là nỳt gậc; m˘c mẻt bi∫u diπn

Việt Nam hiện có 63 tỉnh thành, 692 huyện và 11.101 xã, phường, thị trấn Dữ liệu từ năm đến cho thấy sự thay đổi về giá trị của các đơn vị hành chính này Thông tin được cập nhật phản ánh sự phát triển và biến động của các khu vực, giúp xác định mối quan hệ giữa các xã, phường, thị trấn, huyện và tỉnh Các số liệu này được thể hiện rõ ràng trong biểu đồ 3.4, minh chứng cho sự thay đổi trong cơ cấu hành chính của đất nước.

Ví dˆ 6: “Ngày 12/04/2013, S Y t∏ Qu£ng Ngãi thông báo d‡ch cúm A H5N1 ã bựng phỏt tĐi th‡ tròn Sụng Vê"

Vớ dˆ này chứ ∑ c™p tểi th‡ tròn (Sụng Vê), nẽi mà d‡ch cỳm A H5N1 bựng

Trong quá trình phát triển, thông tin về tình hình dịch bệnh tại tỉnh Quảng Ngãi đã được cập nhật liên tục Các biện pháp phòng ngừa và ứng phó với dịch bệnh đã được triển khai nhằm bảo vệ sức khỏe cộng đồng Sự chú ý đối với việc phân tích dữ liệu từ các nguồn thông tin cũng như việc áp dụng công nghệ nhận dạng thực thể (NER) là rất quan trọng trong việc đưa ra các quyết định kịp thời và hiệu quả.

“Sụng Vê" ˜ềc gỏn nhón bi c∞p thƠ và , trong khi ú QuÊng Ngói ˜ềc gỏn nhón là ORG The cỏch thụng th˜èng, sau khi lòy v∑ thụng tin cıa

Sụng Vê là thông tin về địa điểm nằm trong cặp thời gian và , liên quan đến dịch bệnh bùng phát Tuy nhiên, thông tin này không được trực quan hóa trên bên ÁGIS do nó không ảnh hưởng Để giải quyết vấn đề này, thông tin và thu hồi dữ liệu so khớp trên cây phân cấp địa điểm Khi mất nút chưa có giá trị để tìm thấy, quá trình chuẩn hóa sẽ duyệt các nút hiện tại và nút gập để ra thông tin ảnh hưởng Trong ví dụ này, khi tìm thấy nút chưa cảm tác Sụng Vê, quá trình chuẩn hóa sẽ ảnh hưởng đến nút hiện tại, và duyệt ngược để tìm thông tin ảnh hưởng là: thôn Sụng Vê, huyện Tân Nghĩa, tỉnh Quảng Nam.

Cuộc khảo sát này tập trung vào việc thu thập thông tin về thời gian, tên bệnh và danh sách các biến chứng liên quan đến dịch bệnh Những dữ liệu này sẽ được lưu trữ trong một cơ sở dữ liệu nhằm mục đích cung cấp thông tin cho các nghiên cứu và phản ánh tình hình dịch bệnh một cách chính xác.

Môi tr˜Ìng và các công cˆ cài ∞t

Xõy dáng t™p d˙ liêu

ỏnh gớa quỏ trỡnh phỏt hiên sá kiên

Phân tích lÈi và bàn lu™n

Ngày đăng: 27/06/2022, 15:47

HÌNH ẢNH LIÊN QUAN

Hình 1.1: S¸ t´ng tr˜ng d˙ liªu t¯n ´m 2004 ∏n n´m 2020 - (LUẬN văn THẠC sĩ) trích chọn sự kiện dịch bệnh cho hệ thống giám sát trực tuyến   04
Hình 1.1 S¸ t´ng tr˜ng d˙ liªu t¯n ´m 2004 ∏n n´m 2020 (Trang 13)
Hình 1.2: D˙ liªu trên Internet trong 60 giây - (LUẬN văn THẠC sĩ) trích chọn sự kiện dịch bệnh cho hệ thống giám sát trực tuyến   04
Hình 1.2 D˙ liªu trên Internet trong 60 giây (Trang 14)
tr¸c quan hoá nh˜ hình 1.2. - (LUẬN văn THẠC sĩ) trích chọn sự kiện dịch bệnh cho hệ thống giám sát trực tuyến   04
tr ¸c quan hoá nh˜ hình 1.2 (Trang 14)
Hình 1.3: Các b˜Óc trong quá trình khám phá tri th˘c trong cÏ s d˙ liªu [15] - (LUẬN văn THẠC sĩ) trích chọn sự kiện dịch bệnh cho hệ thống giám sát trực tuyến   04
Hình 1.3 Các b˜Óc trong quá trình khám phá tri th˘c trong cÏ s d˙ liªu [15] (Trang 15)
Hình 3.1: Quá trình phát hiªn và trích chÂn s¸ kiªn - (LUẬN văn THẠC sĩ) trích chọn sự kiện dịch bệnh cho hệ thống giám sát trực tuyến   04
Hình 3.1 Quá trình phát hiªn và trích chÂn s¸ kiªn (Trang 32)
Hình 3.2: Thành ph¶n phát hiªn s¸ kiªn - (LUẬN văn THẠC sĩ) trích chọn sự kiện dịch bệnh cho hệ thống giám sát trực tuyến   04
Hình 3.2 Thành ph¶n phát hiªn s¸ kiªn (Trang 33)
BÎ trích chÂn s¸ kiªn làm Ît trong hai thành ph¶n quan trÂng cıa mô hình, nÏi mà thông tin cıa mÎt s¸kiªn d‡ch bªnh˜Òc trích chÂn - (LUẬN văn THẠC sĩ) trích chọn sự kiện dịch bệnh cho hệ thống giám sát trực tuyến   04
tr ích chÂn s¸ kiªn làm Ît trong hai thành ph¶n quan trÂng cıa mô hình, nÏi mà thông tin cıa mÎt s¸kiªn d‡ch bªnh˜Òc trích chÂn (Trang 36)
Hình 3.4: Bi∫u diπn cıa cây phân cßp ‡a i∫m - (LUẬN văn THẠC sĩ) trích chọn sự kiện dịch bệnh cho hệ thống giám sát trực tuyến   04
Hình 3.4 Bi∫u diπn cıa cây phân cßp ‡a i∫m (Trang 39)
4.1.1 Cßu hình ph¶n c˘ng - (LUẬN văn THẠC sĩ) trích chọn sự kiện dịch bệnh cho hệ thống giám sát trực tuyến   04
4.1.1 Cßu hình ph¶n c˘ng (Trang 41)
• sË s¸ kiªn úng là sË s¸ kiªn ˜Òc mô hình trích chÂn chính xác. •sËs¸kiªn sailà sËs¸kiªn˜Òc mô hình trích chÂn sai. - (LUẬN văn THẠC sĩ) trích chọn sự kiện dịch bệnh cho hệ thống giám sát trực tuyến   04
s Ë s¸ kiªn úng là sË s¸ kiªn ˜Òc mô hình trích chÂn chính xác. •sËs¸kiªn sailà sËs¸kiªn˜Òc mô hình trích chÂn sai (Trang 47)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN