1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Hệ thống thông tin quản lý: Rút trích các thuộc tính khoa học của các tập dữ liệu mở dạng JSON

60 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Rút trích các thuộc tính khoa học của các tập dữ liệu mở dạng JSON
Tác giả Nguyờn Hữu Nhân
Người hướng dẫn PTS. Ĉһng Trҫn Khỏnh, TS. Lờ Hӗng Trang, PGS.TS. Nguyờn TuҩQ ĈăQJ, PGS.TS. Trҫn Minh Quang, PGS.TS. Nguyờn Thanh Bỡnh
Trường học ĈҤi HӐc Bách Khoa Tp. HCM
Chuyên ngành HӋ Thӕng Thụng Tin Quҧn Lý
Thể loại LuұQ 9Ă1 7+Ҥ& 6Ƭ
Thành phố TP. HӖ CHÍ MINH
Định dạng
Số trang 60
Dung lượng 776,62 KB

Cấu trúc

  • 1.1 Lý do chӑQÿӅ tài (12)
  • 1.2 Mөc tiêu (12)
  • 1.3 Giӟi hҥn nghiên cӭu cӫDÿӅ tài (13)
  • 1.4 KӃt quҧ cө thӇ (14)
  • 1.5 éQJKƭDWKӵc tiӉn (14)
  • 2.1 Giӟi thiӋu vӅ dӳ liӋu mӣ (14)
  • 2.2 Giӟi thiӋu vӅ tұp dӳ liӋu (17)
  • 2.3 Thuӝc tính cӫa tұp dӳ liӋu (19)
  • 2.5 JSON (28)
  • 2.6 HӋ thӕng quҧn lý dӳ liӋu mӣ CKAN (30)
  • 3.3 Tұp dӳ liӋu mӣ cho quá trình nghiên cӭu, thӵc nghiӋm (33)
  • 3.4 Dӳ liӋXÿҫu ra (33)
  • 4.2 Lӵa chӑn thuӝFWtQKWUrQQJѭӥQJSKѭѫQJVDL (36)
  • 4.6 Mӝt sӕ SKѭѫQJSKiSNKiF (48)
    • 4.6.2 Phép phân tích thành phҫn chính (Principle Component Analysis ± PCA) (50)
  • 5.1 Forward Selection (50)
  • 5.2 Backward Elimination (52)

Nội dung

Cây ÿLQKEDGӳ liӋu lӟn, phân tích dӳ liӋu và giҧi thuұt hӑc máy trӣ thành công cө mҥnh mӁ ÿӇ cung cҩp nhӳng dӵ ÿRiQÿ~QJÿҳn giúp viӋc hӛ trӧ ra quyӃWÿӏnh trong các tә chӭc, chính sách cӫD1

Lý do chӑQÿӅ tài

Phân tích dӳ liӋu là mӝWOƭQKYӵc ngày càng hҩp dүQYjÿyQJYDLWUzTXDQWUӑQJKѫQ trong viӋc hӛ trӧ ra các quyӃWÿӏnh cho các cá nhân, tә chӭc thay vì chӍ dӵa vào các yӃu tӕ kinh nghiӋm, cҧPWtQKFiLQKuQÿѫQGLӋn cӫa mӝt sӕ QJѭӡLÿӭQJÿҫu Bên cҥQKÿyVӵ bùng nә thông tin ngày nay làm cho dӳ liӋu là vô cùng nhiӅXYjÿDGҥng trên nhiӅXOƭQKYӵc Nhu cҫu phân tích dӳ liӋu và sӵ bùng nә cӫa dӳ liӋu tҥo ra các giá trӏ to lӟQÿӕi vӟi các tә chӭFĈLӅu này làm cho dӳ liӋXÿmGҫn trӣ thành mӝt loҥi tài sҧn mӟi bên cҥnh các dҥng tài sҧn truyӅn thӕng.ViӋc phân tích dӳ liӋu sӁ trӣ nên hiӋu quҧ KѫQQӃXÿӕLWѭӧng thӵc hiӋn có kinh nghiӋm, kiӃn pháp vӅ FiFOƭQKYӵc liên quan và dӳ liӋXSKkQWtFKÿѭӧFOѭXWUӳ Gѭӟi dҥng các tұp dӳ liӋXGDWDVHWÿѭӧc tӕi ѭXKyDWK{QJTXDYLӋc rút trích, lӵa chӑQÿѭӧc các thuӝFWtQKÿһFWUѭQJFҫn thiӃt Xuҩt phát tӯ thӵc tiӉn nêu trên, viӋc nghiên cӭXÿӅ WjL³/ӵa chӑn, rút trích các thuӝc tính khoa hӑc cӫa các tұp dӳ liӋu mӣ dҥQJ-621´ÿӇ ÿѭDUDFiFJLҧLSKiSSKѭѫQJ pháp lӵa chӑn các thuӝc tính cӫa tұp dӳ liӋu mӣ JL~SWăQJKLӋu quҧ cӫa nhu cҫu phân tích dӳ liӋu, hӛ trӧ tӕWKѫQFKRYLӋc ra quyӃWÿӏnh là mӝt viӋc làm cҫn thiӃt và sӁ ÿѭӧc hӑc viên trình bày cө thӇ KѫQWURQJFiFSKҫn sau.

Mөc tiêu

Mͭc tiêu t͝ng quát: ÿѭDUDÿѭӧFSKѭѫQJSKiSNKҧ WKLÿӇ rút trích, thu thұSÿѭӧc các thuӝc tính khoa hӑc cӫa các tұp dӳ liӋu mӣ dҥQJ-621JL~SWăQJKLӋu quҧ cӫa quá trình phân tích dӳ liӋu

- Nghiên cӭu và nҳPÿѭӧc các khái niӋPFѫEҧn cӫa tұp dӳ liӋu, các thuӝc tính cӫa tұp dӳ liӋu

- Phân loҥi các thuӝFWtQKGQJÿӇ tóm tҳt tұp dӳ liӋu, các thuӝc tính cӫa siêu dӳ liӋu

- Thu thұp, xây dӵng mӝt tұp các câu truy vҩn cӫDQJѭӡi dùng khi tìm kiӃm tұp dӳ liӋu ӣ mӝt sӕ OƭQKYӵc

- Tìm hiӇXFiFSKѭѫQJSKiSÿiQKJLiPӭFÿӝ quan trӑQJÿӝ phӫ cӫa tӯng thuӝc WtQKÿһFWUѭQJULrQJOҿ cӫa tұp dӳ liӋu

- Tìm hiӇXFiFSKѭѫQJSKiSÿӇ ÿiQKJLiPӭFÿӝ OLrQTXDQÿӝ quan trӑng giӳa các thuӝFWtQKÿһFWUѭQJYӟi nhau và giӳa các thuӝFWtQKÿӝc lұp vӟi thuӝc tính mөFWLrXÿҫu ra cӫa viӋc phân tích dӳ liӋu, sӱ dөng các giҧi thuұt, mô hình hӑFPi\ÿӇ dӵ ÿRiQNӃt quҧ

- Xây dӵQJSKѭѫQJSKiSSKkQWtFKGӳ liӋXÿӇ phân tích các câu truy vҩn cӫa QJѭӡi dùng

- ĈiQKJLiÿѭӧc tính khҧ thi cӫDSKѭѫQJSKiS[iFÿӏnh các thuӝc tính khoa hӑc cӫa tұp dӳ liӋu và hoàn cҧnh áp dөng cө thӇ

- Giҧi quyӃWÿѭӧc vҩQÿӅ U~WWUtFKÿѭӧc thuӝc tính khoa hӑc cӫa tұp dӳ liӋu

- Áp dөng cho tұp dӳ liӋu mӣ dҥng JSON và các dҥng dӳ liӋu có cҩu trúc khác csv, không áp dөng cho các tұp dӳ liӋu dҥng graph, dҥng hình ҧnh

- Mong muӕn có khҧ QăQJJL~SQkQJFDRKLӋu quҧ cӫa viӋc phân tích dӳ liӋu sӱ dөng các giҧi thuұt hӑc máy.

Giӟi hҥn nghiên cӭu cӫDÿӅ tài

Dӳ liӋu mӣ là dӳ liӋu cӫa rҩt nhiӅXOƭQKYӵc khác nhau Trong khҧ QăQJFӫDÿӅ tài chӍ lӵa chӑn mӝWYjLOƭQKYӵc nhӓ ÿӇ ÿiQKJLi, hiӋn thӵc khҧ QăQJU~WWUtFKFiFWKXӝc tính khoa hӑc

Xây dӵng, thu thұp các câu truy vҩn cӫDQJѭӡi dùng tìm kiӃPFNJQJFyJLӟi hҥn và chӫ yӃXOjQJѭӡi dùng có thӵc hành, hiӇu biӃWFѫEҧn vӅ dӳ liӋXĈӅ WjLFKѭDÿiQKJLi ÿѭӧc các câu truy vҩn cӫDQJѭӡi dùng không quen thuӝc viӋc thao tác vӟi các tұp dӳ liӋu hoһc không biӃt vӅ tұp dӳ liӋX'RÿyFKҳc chҳn sӁ có sӵ thiên lӋch trong viӋc xây dӵng các câu truy vҩn và lӏch sӱ tìm kiӃm tұp dӳ liӋu

ViӋc thu thұp các tұp dӳ liӋXÿӇ ÿiQKJLiFNJQJFyKҥn chӃ và viӋFÿiQKJLiFiFWKXӝc tính cӫa tұp dӳ liӋu và siêu dӳ liӋu ít nhiӅXFNJQJFyVӵ chӫ quan cӫDQJѭӡi thӵc hiӋn

&iFSKѭѫQJSKiSJLҧi thuұt nghiên cӭu sӱ dөng nhiӅu kiӃn pháp vӅ toán hӑc, xác suҩt thӕng kê, lý thuyӃt thông tin, cùng vӟi các hҥn chӃ vӅ mһt kiӃn pháp cӫa hӑc viên có thӇ khiӃn kӃt quҧ chӍ phù hӧp cho mӝWYjLWUѭӡng hӧp, khó áp dөQJÿҥi trà, tәng quan cho mӑi tұp dӳ liӋu

Nghiên cӭu chӍ tұp trung chính vào các tұp dӳ liӋu dҥng có cҩu trúc csv, JSON, không áp dөng rӝQJUmLÿѭӧc cho các tұp dӳ liӋu có cҩXWU~FNKiFQKѭ[POKD\FiFWұp dӳ liӋu dҥng phi cҩu trúc khác.

KӃt quҧ cө thӇ

ĈѭDUDÿѭӧc giҧi pháp khҧ thi, mô hình phù hӧp có khҧ QăQJWtFKKӧp vào các hӋ thӕng sҹn có

éQJKƭDWKӵc tiӉn

ViӋc rút trích các thuӝc tính khoa hӑc cӫa tұp dӳ liӋu mӣ WK{QJTXDFiFSKѭѫQJSKiS thӕng kê hoһFSKѭѫQJSKiSOӑc lӵa giúp làm giҧm sӕ chiӅu cӫa tұp dӳ liӋu, tӕLѭXKyD kӃt quҧ phân tích dӳ liӋu, cҧi thiӋn mô hình dӵ ÿRiQKӑc máy, tӯ ÿyPDQJOҥi nhӳng kӃt quҧ dӵ ÿRiQFKtQK[iFKѫQQkQJFDo khҧ QăQJWiLVӱ dөng cӫa tұp dӳ liӋu mӣ

Giӟi thiӋu vӅ dӳ liӋu mӣ

Ngày nay, bên cҥnh các dҥng tài sҧn sӣ hӳu truyӅn thӕQJQKѭWLӅn bҥc, vàng, bҩWÿӝng sҧn dӳ liӋu vӟi tҫm quan trӑng ngày càng lӟQÿmWUӣ thành mӝt dҥng tài sҧn mӟi cӫa các tә chӭc sӣ hӳu nó Dӳ liӋu thӇ hiӋn vai trò cӵc kǤ quan trӑQJÿӕi vӟi sӵ phát triӇn cӫa tҩt cҧ FiFOƭQKYӵc, tӯ kinh tӃYăQKyDF{QJQJKӋ, kӻ thuұt tӟi giáo dөc, y tӃ, xã hӝi ĈӇ hiӋn thӵc hóa nhӳng ҧQKKѭӣng tích cӵc, khai phá ra các giá trӏ cӫa dӳ liӋu, khoa hӑc dӳ liӋu, phân tích dӳ liӋXÿmYjÿDQJSKiWWULӇn bùng nә QKѭPӝt sӵ xXKѭӟng tҩt yӃX;XKѭӟQJQj\ÿmGүn tӟi nhu cҫu chia sҿ dӳ liӋu, cung cҩp dӳ liӋu cho mӑLQJѭӡi dùng chung, tӯ ÿyKuQKWKjQKQrQPӝt mô hình dӳ liӋu mӣ ViӋc cung cҩp Dӳ liӋu mӣ cӫa mӝt Chính phӫ có ҧQKKѭӣng rҩt lӟQÿӃn kinh tӃ, xã hӝLYjÿDQJWUӣ thành mӝWWLrXFKtÿiQKJLiFKtQKWURQJEӝ chӍ WLrXÿiQKJLiFӫa Liên hiӋp quӕc và các tә chӭc quӕc tӃ vӅ xӃp hҥng phát triӇn Chính phӫ ÿLӋn tӱ

Dӳ liӋu mӣ là dӳ liӋXÿѭӧc cung cҩp miӉn phí cho mӑLQJѭӡi, cho phép tái sӱ dөng hoһc tái phân phӕi bӣi bҩt kǤ cá nhân, tә chӭc nào mà không bӏ ràng buӝc bӣi bҧn quyӅn hoһFFiFFѫFKӃ kiӇm soát.[2]

- Tính sҹn sàng truy cұp: toàn bӝ dӳ liӋu phҧi luôn ӣ trҥng thái sҹn sàng và không tӕQFKLSKtÿӇ tái tҥo, có thӇ tҧi xuӕng tӯ Internet Dӳ liӋXFNJQJSKҧi sҹn sàng ӣ dҥng tiӋn lӧi và có thӇ sӱDÿәi

- Tái sӱ dөng và phân phӕi lҥi: Dӳ liӋu phҧLÿѭӧc cung cҩSWKHRFiFÿLӅu khoҧn FKRSKpSÿѭӧc tái sӱ dөng và tái phân phӕi, bao gӗm cҧ viӋc trӝn lүn vӟi các tұp hӧp dӳ liӋu khác

- Tham gia toàn cҫu: mӑi QJѭӡi phҧi có thӇ sӱ dөng, tái sӱ dөng và phân phӕi lҥi - NK{QJÿѭӧc phân biӋWÿӕi xӱ vӟLFiFOƭQKYӵc nӛ lӵc hoһc chӕng lҥi các cá nhân hoһc nhóm

&iFÿһc tính trên nhҵm nhҩn manh khҧ QăQJWѭѫQJWiFFӫa các hӋ thӕQJYjÿDGҥng các tә chӭc làm viӋc cùng nhDXWiFÿӝQJÿӃn mӝt hoһc nhiӅu tұp dӳ liӋu vӟi nhau trong hӋ thӕng mӣ

Dӳ liӋu mӣ WKѭӡQJÿѭӧc dành nhiӅu sӵ quan tâm tӯ các nhà quҧn lý và nhân viên khu vӵc công, nhӳQJQJѭӡLÿѭӧc giao nhiӋm vө ÿLӅu phӕi hoһc tә chӭc mӝt sáng kiӃn

Dӳ liӋu mӣ'RÿyGӳ liӋu mӣ WKѭӡQJÿѭӧc gҳn liӅn vӟi Chính phӫ mӣ phù hӧp vӟi phong trào cӣi mӣ nói chung, tìm cách làm cho hoҥWÿӝng cӫa các chính phӫ trӣ nên minh bҥch, có trách nhiӋm giҧLWUuQKYjÿiSӭng nhu cҫu cӫDQJѭӡi dân Nó bao gӗm FiFOêWѭӣng vӅ dân chӫ, quy trình hӧp pháp, sӵ tham gia cӫDQJѭӡi dân và dӳ liӋu mӣ cӫa chính phӫ Mӝt cách tiӃp cұn triӋWÿӇ ÿӕi vӟi chính phӫ mӣ FNJQJVӁ tìm cách tҥRÿLӅu kiӋn cho sӵ tham gia cӫDQJѭӡi dân, ví dө, vào viӋc soҥn thҧo và sӱDÿәi luұt pháp và thiӃt lұp ngân sách

- Cho phép Chính phӫ ÿLӅXKjQKJL~SÿѭDUDQKӳng sáng tҥo trong kinh doanh, dӏch vө cung cҩp giá trӏ xã hӝLYjWKѭѫQJPҥi

- /jFKuDNKyDÿӇ nâng cao chҩWOѭӧng dӏch vө và cuӝc sӕng

- Ĉҭy nhanh tiӃQÿӝ lan truyӅn các dӏch vө kӻ thuұt sӕ trên web và nӅn tҧng di ÿӝng

- Trao quyӅn và thu hút sӵ tham gia cӫDQJѭӡi dân

- /jÿҫu vào cho nghiên cӭu và giáo dөc

- Giúp Chính phӫ cҧi thiӋQÿѭӧc tính minh bҥFKYjF{QJNKDLYuQJѭӡi dân luôn Fyÿѭӧc các thông tin cҫn thiӃWÿӇ có thӇ VRViQKYjÿӕi chiӃu; cho phép tiӃp cұn thông tin, dӳ liӋu chính là tҥRUDÿLӅu kiӋn thuұn lӧi nhҩWFKRQJѭӡi dân thӵc hiӋn quyӅn dân chӫ và tham gia quҧn lý

- Giúp làm giҧPFKLSKtYjWăQJKLӋu quҧ hoҥWÿӝQJFKRFiFFѫTXDQ1KjQѭӟc, các tә chӭc, Doanh nghiӋp và công dân

HӋ thӕng dӳ liӋu mӣ là mӝt hӋ thӕng cho phép xuҩt bҧn, phân loҥi, tìm kiӃm và trӵc quan hóa dӳ liӋX1Jѭӡi dùng có thӇ thao tác vӟi hӋ thӕng thông qua cәng dӳ liӋu mӣ Mӝt hӋ thӕng dӳ liӋu mӣ phҧLÿҧm bҧo các yêu cҫu sau:

- Các tұp dӳ liӋu phҧLÿѭӧFÿӏQKGDQKU}UjQJÿӇ OѭXWUӳ và truy vӃt

- Không chӭa các dӳ liӋu cá nhân hay tә chӭc nhҥy cҧm: dӳ liӋXÿӏnh danh, dӳ liӋXÿLӇm sӕ cӫDWUѭӡng hӑc, dӳ liӋXWjLFKtQKô

- Dӳ liӋu phҧLDQWRjQNK{QJÿѭӧc cài nhӳng yӃu tӕ gây hҥLYLUXVPmÿӝc tҩn công thiӃt bӏ truy cұp cӫDQJѭӡi dùng

- Nguӗn dӳ liӋu phҧLWLQWѭӣng và có tә chӭc chӏu trách nhiӋm vӟi mӛi bӝ dӳ liӋu, có chӳ NêÿLӋn tӱ, xuҩt xӭ, thӡi gian cӫa bӝ dӳ liӋu.

Giӟi thiӋu vӅ tұp dӳ liӋu

Tұp dӳ liӋu, hay tұp dӳ liӋu, chӍ ÿѫQJLҧn là mӝt tұp hӧp dӳ liӋXĈӏnh dҥQJÿѫQJLҧn và phә biӃn nhҩt cho tұp dӳ liӋu tìm thҩy trӵc tuyӃn là bҧng tính hoһFÿӏnh dҥng csv

- mӝt tӋp duy nhҩWÿѭӧc tә chӭFGѭӟi dҥng bҧng gӗm các hàng và các thuӝc tính phân ÿӏnh bҵng ký tӵ dҩu phҭy Mӝt sӕ tұp dӳ liӋu sӁ ÿѭӧFOѭXWUӳ ӣ FiFÿӏnh dҥng khác và chúng không nhҩt thiӃt phҧi là mӝt tӋSĈ{LNKLPӝt tұp dӳ liӋu có thӇ là mӝt tӋp zip hoһFWKѭPөc chӭa nhiӅu bҧng dӳ liӋu vӟi dӳ liӋu liên quan.[10]

7URQJWUѭӡng hӧp dӳ liӋu dҥng bҧng, mӝt tұp dӳ liӋXWѭѫQJӭng vӟi mӝt hoһc nhiӅu bҧQJFѫVӣ dӳ liӋXWURQJÿyPӛi cӝt cӫa bҧQJÿҥi diӋn cho mӝWÿһFWUѭQJKD\WKXӝc tính cө thӇ và mӛLKjQJWѭѫQJӭng vӟi mӝt bҧn ghi (thӵc thӇ) nhҩWÿӏnh cӫa tұp dӳ liӋXÿѭӧFÿӅ cұp

Các thӵc thӇ ÿѭӧc mô tҧ bӣi các loҥLÿһFWUѭQJJLӕQJQKDXÿѭӧc nhóm lҥLÿӇ tҥo thành tұp dӳ liӋu.[12] Mӝt tұp dӳ liӋXQKѭÿmJLӟi thiӋu ӣ phҫn trên có thӇ là tұp hӧp cӫa nhiӅu tұp tin dӳ liӋXYjÿѭӧc mô tҧ phҫn nào qua siêu dӳ liӋu (metadata)

Siêu dӳ liӋu (metadata):dҥng dӳ liӋu mô tҧ thông tin chi tiӃt vӅ dӳ liӋX7URQJFѫVӣ dӳ liӋu, metadata là các sӱDÿәi các dҥng biӇu diӉn khác nhau cӫDFiFÿӕLWѭӧng trong mӝWFѫVӣ dӳ liӋX7URQJFѫVӣ dӳ liӋu quan hӋ thuPHWDGDWDOjFiFÿӏQKQJKƭDFӫa bҧng, cӝWFѫVӣ dӳ liӋu, view và nhiӅXÿӕLWѭӧng khác

Trong kho dӳ liӋu, metadata là dҥQJÿӏQKQJKƭDGӳ liӋXQKѭEҧng, cӝt, mӝt báo cáo, các luұt doanh nghiӋp hay nhӳng quy tҳc biӃQ ÿәi Metadata bao quát tҩt cҧ các SKѭѫQJGLӋn cӫa kho dӳ liӋu Trong quҧn lý tұp tin, metadata chӭa các thông tin thuӝc tính cӫa tұSWLQÿyQKѭWrQWұp tin, mô tҧ tóm tҳt, kích cӥ, ngày tҥo ra, [1]

Metadata phҧi chӭa nhӳng thông tin:

- Thông tin mô tҧ vӅ bҧn thân dӳ liӋu metadata

- Thuұt toán sӱ dөQJÿӇ tәng hӧp dӳ liӋu

- Thông tin vӅ các cá nhân và tә chӭFOLrQTXDQÿӃn dӳ liӋu mà metadata mô tҧ

Metadata là dӳ liӋXÿӇ mô tҧ dӳ liӋu Khi dӳ liӋXÿѭӧc cung cҩSFKRQJѭӡi dùng cuӕi, thông tin metadata sӁ cung cҩp nhӳng thông tin cho phép hӑ hiӇXU}KѫQEҧn chҩt vӅ dӳ liӋu mà hӑ ÿDQJFy1Kӳng thông tin này sӁ JL~SFKRQJѭӡLGQJFyÿѭӧc nhӳng quyӃWÿӏnh sӱ dөQJÿ~QJÿҳn và phù hӧp vӅ dӳ liӋu mà hӑ có

Hình 2-3 Ví dͭ t̵p dͷ li u d̩ng JSON (2006 - 2011 NYS Math Test Results by Grade - Citywide - by Race-Ethnicity)

(Nguӗn: https://data.cityofnewyork.us/api/views/825b-niea/rows.json)

Thuӝc tính cӫa tұp dӳ liӋu

ThuӝFWtQKWKѭӡQJÿѭӧc mô tҧ bӣi mӝt tұp các giá trӏ WѭѫQJӭQJÿҥi diӋQFKRÿһc ÿLӇm cӫDÿӕLWѭӧng dӳ liӋu trong tұp dӳ liӋu

Ví dөÿӕLWѭӧng dӳ liӋu trong tұp dӳ liӋu là sinh viên thì sӁ có các thuӝFWtQKQKѭ mã sӕ VLQKYLrQWrQVLQKYLrQQJj\WKiQJQăPVLQKÿLӇm sӕNKRDÿDQJWKHR hӑFôÿӇ mụ tҧ nhӳQJÿһFÿLӇm cӫa mӝt sinh viờn

Mӝt thuӝFWtQK>@ÿһFWUѭQJÿҫu vào, thӭ nguyên, biӃn hoһc dӵ ÿRiQW\QJӳ cҧnh áp dөng) là mӝt dһFÿLӇm duy nhҩt cӫa tұp dӳ liӋu Mӛi cӝt trong Bҧng 1 là mӝt thuӝc tính Các thuӝc tính có thӇ là kiӇu dӳ liӋu sӕ, phân loҥi, ngày-giӡ YăQ Eҧn hoһc Boolean

B̫ng 1 Ví dͭ m͡t b̫ng dͷ li u (Department for the Aging (DFTA) Geriatric Mental Health Contracted Providers)

Thuӝc tính cӫa dӳ liӋu có thӇ ÿѭӧc phân loҥi dӵa trên loҥi cӫa giá trӏ ÿҥi diӋn cho thuӝc tính Có thӇ chia thành thuӝc tính loҥLÿӏnh tính (Qualitative) và thuӝc tính loҥLÿӏQKOѭӧng (Quantitative).[8]

ThuӝFWtQKÿӏnh tính mô tҧ FiFWKѭӟFÿRFKӫ quan hoһc giҧi thích vӅ phҭm chҩt hoһc ÿһFÿLӇm hoһc nhӳng thӭ không thӇ ÿROѭӡng bҵng dӳ liӋu sӕ hӑc, chҷng hҥQQKѭ màu túc, màu da, quӕc tӏFKô7KXӝFWtQKÿӏnh tớnh rҩt tӕWÿӇ giỳp trҧ lӡi cỏc cõu hӓi tҥi sao Ví dө: tҥi sao mӝt sӕ QJѭӡi có thӇ thích mӝt cҫu thӫ bóng dá nhҩWÿӏnh hoһc thích làm mӝWKjQKÿӝQJQjRÿy ÿӑFViFKÿҥS[HKѫQQKӳQJQJѭӡLNKiFKѫQQKӳng QJѭӡi khác.[9]

- ThuӝFWtQKGDQKQJKƭDQRPLQDO- OLrQTXDQÿӃn tên: Các giá trӏ cӫa thuӝc WtQKGDQKQJKƭDOjGҥng ký tӵ OLrQTXDQÿӃn tên cӫa sӵ vұt, mӝt sӕ loҥi ký hiӋu Giá trӏ cӫa thuӝFWtQKGDQKQJKƭDÿҥi diӋn cho mӝt sӕ danh mөc hoһc trҥng thái ThuӝFWtQKGDQKQJKƭDOjWKXӝc tính phân loҥi và không có thӭ tӵ (cҩp bұc, vӏ trí) giӳa các giá trӏ cӫa thuӝFWtQKGDQKQJKƭD

Ví dө: màu mҳt: trҳng, xanh

- Thuӝc tính nhӏ phân (binary): thuӝc tính chӍ có 2 giá trӏ/trҥng thái Ví dө có hoһc không, bӏ ҧQKKѭӣng hoһc không bӏ ҧQKKѭӣQJÿ~QJKRһc sai

LĈӕi xӭng: Cҧ hai giá trӏ ÿӅu quan trӑQJQKѭQKDX*Lӟi tính)

LL.K{QJÿӕi xӭng: Cҧ hai giá trӏ không quan trӑQJQKѭQKDX.Ӄt quҧ)

Ví dө: giӟi tính: nam, nӳ; kӃt quҧ xét nghiӋPGѭѫQJWtQKkPWtQK

- Thuӝc tính thӭ tӵ (ordinal): chӭa các giá trӏ có mӝt chuӛi hoһc xӃp hҥng (thӭ tӵFyêQJKƭDJLӳDFK~QJQKѭQJÿӝ lӟn giӳa các giá trӏ không thӵc sӵ ÿѭӧc biӃt, thӭ tӵ cӫa các giá trӏ cho biӃWÿLӅu gì là quan trӑQJQKѭQJNK{QJFKRELӃt mӭFÿӝ quan trӑng cӫa nó

Vớ dөÿLӇm sinh viờn dҥng chӳ$%&'ô

ThuӝFWtQKÿӏQKOѭӧng là tҩt cҧ vӅ FiFWKѭӟFÿRFө thӇ và khách quan cӫa các dӳ kiӋn sӕ hӑF&iFWKѭӟFÿRQj\WKѭӡng có thӇ là nhӳng câu trҧ lӡi cӫa câu hӓi sӕ Oѭӧng bao nhiêu hay tҫn suҩt vӅ mӝt vҩQÿӅ Nói cách khác, thuӝFWtQKÿӏQKOѭӧng là nhӳng thuӝc tính có thӇ ÿROѭӡQJÿѭӧc

ThuӝFWtQKÿӏQKOѭӧng có thӇ ÿѭӧc trӵc quan hóa thông qua biӇu diӉn bҵng các biӇu ÿӗ hoһFÿӗ thӏ

ThuӝFWtQKÿӏQKOѭӧng gӗm:

- Thuӝc tính sӕ (numeric): Thuӝc tính sӕ OjÿӏQKOѭӧng bӣLYuQyOjÿҥLOѭӧng có thӇ ÿROѭӡQJÿѭӧFÿѭӧc biӇu diӉn bҵng giá trӏ nguyên hoһc giá trӏ thӵc Thuӝc tính sӕ có 2 loҥi, khoҧng và tӹ lӋ

- Các thuӝc tính rӡi rҥc (discreteOLrQTXDQÿӃn tình huӕQJWURQJÿyWәng sӕ giá trӏ OjWѭѫQJÿӕi nhӓ (hӳu hҥn).Thuӝc tính rӡi rҥc có thӇ ӣ dҥng sӕ YjFNJQJFy thӇ ӣ dҥng phân loҥi Trong khi vӟLFiFÿӕLWѭӧng liên tөc, tәng sӕ giá trӏ là rҩt lӟn (vô hҥn) và bao gӗm mӝt khoҧng (phҥm vi) cө thӇ và giá trӏ không phҧi ӣ dҥng các trҥng thái

Hình 2-4 Phân lo̩i thu͡c tính

Mӝt cách phân loҥi khác cӫa các thuӝc tính là nhóm chúng theo chӫ ÿӅ FKtQKQKѭVDX mӭFÿӝ liên quan (relevance), khҧ QăQJVӱ dөng (usability) và chҩWOѭӧng (quality).[3]

MӭFÿӝ OLrQTXDQÿӅ cұSÿӃn viӋc mӝt nӝi dung cӫa tұp dӳ liӋXFyÿѭӧc coi là áp dөng cho mӝt nhiӋm vө cө thӇ hay không; ví dө tұp dӳ liӋXÿѭӧc dùng Fyÿ~QJFKӫ ÿӅ QJѭӡi dùng quan tâm không

- Phҥm vi (ví dөFKX\rQÿӅÿӏa lý, thӡi gian)

- MӭFÿӝ chi tiӃt (ví dө: sӕ Oѭӧng sӵ cӕ giao thông mӛi giӡ, ngày, tuҫn)

- Tài liӋu (ví dө: tính dӉ hiӇu cӫa các biӃn, mүu)

Khҧ QăQJVӱ dөQJÿӅ cұSÿӃn mӭFÿӝ phù hӧp cӫa tұp dӳ liӋXFyQJKƭDOjêQJKƭD thӵc tӃ cӫa, ví dөÿӏnh dҥng hoһc giҩy phép

- Ĉӏnh dҥng (ví dө: kiӇu dӳ liӋu, cҩu trúc, mã hóa )

- Tài liӋu (ví dө: tính dӉ hiӇu cӫa các biӃn, mүu)

- Khҧ QăQJ so sánh (ví dө: sӕ nhұn dҥQJÿѫQYӏ ÿROѭӡng)

- Tham chiӃXÿӃn các nguӗQÿѭӧc kӃt nӕi

- QuyӅn truy cұp (ví dө: giҩy phép, API)

- Ngôn ngӳ (ví dөÿѭӧc sӱ dөQJWURQJWLrXÿӅ hoһc cho các giá trӏ chuӛi)

ChҩWOѭӧQJÿӅ cұSÿӃn bҩt kǤ thӭ JuPjQJѭӡi tham gia sӱ dөQJÿӇ ÿiQKJLiÿLӅu kiӋn hoһc tiêu chuҭn cӫa bӝ dӳ liӋu cho mӝt nhiӋm vө, chҷng hҥQQKѭYtGө: sӵ ÿҫ\ÿӫ

- Xuҩt xӭ (ví dө: tính có thҭm quyӅn, ngӳ cҧnh và nguyên bҧn mөFÿtFK

- Ĉӝ chính xác (tӭFOjWtQKÿ~QJÿҳn cӫa dӳ liӋu)

- 7tQKÿҫ\ÿӫ (ví dө: thiӃu giá trӏ)

- Tính sҥch sӁ (ví dөÿѭӧFÿӏnh dҥng tӕt, không có lӛi chính tҧ, không có lӛi)

- 3KѭѫQJSKiSOXұn (ví dө: dӳ liӋXÿѭӧc thu thұSQKѭWKӃ nào, mүu)

- Tính kӏp thӡi (ví dө: tҫn suҩt cұp nhұt)

Mӝt cách phân loҥLNKiFÿѭӧc sӱ dөng phә biӃn trong viӋc áp dөng các thuұt toán máy hӑc, các kiӃn pháp thӕng kê và lý thuyӃt thông tin là chia thuӝc tính thành hai loҥLQKѭVDX

- Thuӝc tính liên tөc (continuous attribute): các thuӝc tính có kiӇu dӳ liӋu là dҥng sӕ và có miӅn giá trӏ trҧi dài

- Thuӝc tính phân loҥi (categorical attribute): có tính chҩWQKѭWKXӝFWtQKÿӏnh OѭӧQJQKѭNLӇu phân loҥLÿmWUuQKEj\ӣ phҫn trên, chӫ yӃu là thuӝc tính có tұp giá trӏ hӳu hҥn và rӡi rҥc

Thuӝc tính khoa hӑc là loҥi thuӝFWtQKÿһFWUѭQJFKRWӯQJOƭQKYӵc cө thӇ PjQJѭӡi sӱ dөng quan tâm Thuӝc tính khoa hӑc cung cҩp cái nhìn tәng quan và các hiӇu biӃt sâu sҳc giúp tҥo ra thông tin hoһFWULSKiSFKRQJѭӡi dùng khi thao tác và phân tích dӳ liӋu

3KѭѫQJSKiSU~WWUtFKWKXӝc tính cӫa tұp dӳ liӋu

3KѭѫQJSKiSU~WWUtFKdӵa vào khҧo sát và tóm tҳt tұp dӳ liӋu

7UѭӟFÿk\FiFQKjQJKLrQFӭu tìm cách tóm tҳt mӝt tұp dӳ liӋu thông qua viӋc cӕ gҳng thu thұp tҩt cҧ thông tin tӯ phҫn mô tҧ (description), các thuӝc tính cӫa tұp dӳ liӋu tӯ schema cӫa tұp dӳ liӋu[1] và dùng các công cө ÿѭӧc xây dӵng sҹn sӱ dөng kӻ thuұt tҥo ngôn ngӳ tӵ nhiên (natural language generation -NLG)

Mӝt sӕ nhà nghiên cӭXÿm[k\Gӵng mӝW³NKXQJWuPNLӃm tұp dӳ liӋX´IUDPHZRUN for dataset search) [4] và nghiên cӭu hành vi khi tìm kiӃm tұp dӳ liӋX>@ÿӇ cӕ gҳng dӵDYjRÿyFKӑQÿѭӧc các thuӝc tính cҫn thiӃt cho viӋc tóm tҳt tұp dӳ liӋu

Hӑ chӫ yӃu sӱ dөng khҧRViWÿiPÿ{QJÿӇ thu thұSÿѭӧc cách mӝWQJѭӡi tìm kiӃm và chӑn các thuӝc tính cӫa mӝt tұp dӳ liӋXÿӇ mô tҧ tұp dӳ liӋXÿyFKRQJѭӡi khác Ĉӗng thӡi nhóm nghiên cӭu còn thӵc hiӋn phân tích dӳ liӋu tìm kiӃm[6], câu truy vҩn cӫDQJѭӡLGQJÿӇ biӃWÿѭӧc nhӳng loҥi thuӝFWtQKQjRÿѭӧc quan tâm nhiӅu nhҩt

Tӯ ÿyQKyPQJKLrQFӭu xây dӵng mӝt bӝ mүu các câu hӓi quan trӑng khi thӵc hiӋn tìm kiӃm các tұp dӳ liӋXWK{QJTXDÿyFNJQJ[iFÿӏQKÿѭӧc nhӳng thuӝFWtQKÿӇ rút trích khi tóm tҳt và nghiên cӭu mӝt tұp dӳ liӋu

3KѭѫQJSKiSU~WWUtFKGӵa trên bӝ lӑc thuӝFWtQKYjÿiQKJLiÿӝ quan trӑng thuӝc tính

JSON

JSON là viӃt tҳt cӫa JavaScript Object Notation, là mӝt kiӇXÿӏnh dҥng dӳ liӋu tuân theo mӝt quy luұt nhҩWÿӏnh mà hҫu hӃt các ngôn ngӳ lұp trình hiӋQQD\ÿӅu có thӇ ÿӑFÿѭӧc.[7]

JSON là mӝt tiêu chuҭn mӣ ÿӇ WUDRÿәi dӳ liӋu trên web

-621ÿѭӧc ӭng dөng rӝng rãi trong nhiӅXOƭQKYӵFNKiFQKDXWUDRÿәi dӳ liӋXOѭX trӳ thiӃt lұSFjLÿһW-621ÿѭӧc thiӃt kӃ QKѭOjPӝt ngôn ngӳ WUDRÿәi dӳ liӋu vӯa dӉ ÿӑc, dӉ hiӇu vӟLQJѭӡi dùng, vӯa dӉ xӱ OêFKRPi\WtQKĈѭӧc xây dӵng dӵa trên chuҭn ECMA-262 cӫa JavaScript, JSON sӱ dөQJTX\ѭӟc khá giӕng vӟi nhӳng ngôn ngӳ lұSWUuQKQKѭ&&&-DYD-DYDVFULSW7X\QKLrQ-621NK{QJEӏ phө thuӝc vào ngôn ngӳ và có thӇ làm viӋc vӟi nhiӅu ngôn ngӳ khác nhau Ĉӏnh dҥng JSON sӱ dөng các cһp key ± YDOXHÿӇ dӳ liӋu sӱ dөng Nó hӛ trӧ các cҩu trúc dӳ liӋXQKѭÿӕLWѭӧng và mҧQJ7K{QJWKѭӡng, mӝWQJѭӡi có thӇ không cҫn phҧi có quá nhiӅu kiӃn pháp vӅ NƭWKXұt, nghiӋp vө FNJQJFyWKӇ ÿӑc hiӇXÿѭӧc mӝWÿoҥn WK{QJWLQÿѭӧFOѭXWUӳ Gѭӟi dҥng JSON JSON có các kiӇu dӳ liӋu sau:

- Mӝt trong 3 giá trӏ ÿһc biӋt: true, false, null

- DҥQJÿӕLWѭӧng (object)

Cú pháp cӫa JSON có 2 phҫQÿyOjNH\YjYDOXH

- ChuӛL-621ÿѭӧc bao lҥi bӣi dҩu ngoһc nhӑn {}

- Các key, value cӫa JSON bҳt buӝc phҧLÿһt trong dҩXQKi\NpS^³`QӃXÿһt nó trong dҩXQKi\ÿѫQWKuÿk\NK{QJSKҧi là mӝt chuӛL-621ÿ~QJFKXҭn NӃXWUѭӡng hӧp trong value cӫa bҥn có chӭa dҩu nháy kép " thì hãy dùng dҩu (\ÿӇ ÿһWWUѭӟc nó, ví dө \"json là gì\"

- NӃu có nhiӅu dӳ liӋu thì dùng dҩu phҭ\ÿӇ QJăQFiFK

- Các key cӫD-621QrQÿѭӧFÿһt chӳ cái không dҩu hoһc sӕ, dҩu _ và không có khoҧng trҳng, ký tӵ ÿҫXWLrQNK{QJQrQÿһt là sӕ

JSON là mӝWÿӏnh dҥng phә biӃQÿӇ WUDRÿәi dӳ liӋu dҥng data object giӳa các hӋ thӕQJ7URQJÿyFyUҩt nhiӅXFiFKÿӇ truyӅn dӳ liӋu dҥng JSON theo kiӇu streaming

&iF-621REMHFWVÿѭӧFÿӏnh dҥng bҵng các cách sau:

- Không chӭa ký tӵ xuӕng dòng trong JSON object và sӱ dөng ký tӵ này làm dҩu phân cách

- Mӝt ký tӵ ÿLӅu khiӇQSKkQWiFKÿѭӧc gӱi kèm vӟL-621REMHFWYjÿѭӧc dùng làm dҩu phân cách

- Các JSON object không có dҩu phân cách và dӵDYjRFiFSDUVHUÿӇ trích xuҩt chúng

- Các JSON object không có dҩXSKkQFiFKQKѭQJFyWLӅn tӕ chӭa thông tin vӅ ÿӝ dài cӫa chúng và dӵDYjRFiFSDUVHUÿӇ trích xuҩt chúng

HӋ thӕng quҧn lý dӳ liӋu mӣ CKAN

Comprehensive Knowledge Archive Network (CKAN) là mӝt cәng dӳ liӋu mӣ mã nguӗn mӣ ÿӇ OѭXWUӳ và phân phӕi dӳ liӋu mӣ%DQÿҫu, lҩy cҧm hӭng tӯ khҧ QăQJ quҧn lý gói cӫD'HELDQ/LQX[&.$1ÿmSKiWWULӇn thành mӝt hӋ thӕng danh mөc dӳ liӋu mҥnh mӁ, chӫ yӃXÿѭӧc sӱ dөng bӣi các tә chӭc công muӕn chia sҿ dӳ liӋu cӫa hӑ vӟi công chúng

CKAN cung cҩp công cө ÿӇ xuҩt bҧn, chia sҿ, tìm kiӃm và sӱ dөng dӳ liӋu (bao gӗm OѭXWUӳ dӳ liӋu và cung cҩSFiFWKѭYLӋn dӳ liӋu APIs mҥnh mӁ&.$1ÿѭӧc dùng bӣi các chính phӫ YjFiFQKyPQJѭӡi sӱ dөng trên toàn thӃ giӟi[12] và và quyӅn hҥn mӝt loҥt các cәng thông tin dӳ liӋu chính pháp và cӝQJÿӗng bao gӗm cәng thông cho chính quyӅQÿӏDSKѭѫQJTXӕc gia và quӕc tӃ Các phiên bҧn phát hành cӫa CKAN ÿѭӧc phӕi hӧp, thӱ nghiӋm và triӇn khai bӣLÿӝLQJNJF{QJQJKӋ làm viӋc OkXQăP WURQJOƭQKYӵc open data Là mӝt dӵ án nguӗn mӣ, CKAN và các phҫn mӣ rӝng cӫa Qyÿѭӧc phát triӇn bӣi mӝt cӝQJÿӗng lӟn

- CKAN cung cҩp mӝt cách sҳp xӃp hӧSOêÿӇ làm cho dӳ liӋu cӫDQJѭӡi dùng có thӇ khám phá và hiӇn thӏ ÿѭӧc Mӛi tұp dӳ liӋXÿѭӧc cung cҩp trang riêng ÿӇ liӋt kê các tài nguyên dӳ liӋu và mӝt bӝ VѭXWұp siêu dӳ liӋu phong phú, làm cho nó trӣ thành mӝt danh mөc dӳ liӋu có giá trӏ và dӉ dàng tìm kiӃm

- Cung cҩp nhiӅXWtQKQăQJYjFyKѫQWLӋn ích mӣ rӝng cӝQJÿӗng có thӇ lҩSÿҫy hҫu hӃt mӑi khoҧng trӕng vӅ WtQKQăQJ

- Cung cҩSÿҫ\ÿӫ các chӭFQăQJYjJLҧLJLiSÿӇ quҧn lý dӳ liӋu mӣ thông qua web portal

Phҫn back-end cӫa CKAN, phҫn chҥy trên máy chӫ :HEÿѭӧc viӃt chӫ yӃu bҵng Python Các trang web mà nó cung cҩp cho trình duyӋt cӫD QJѭӡi dùng bao gӗm JavaScript CKAN duy trì thông tin vӅ các tұp dӳ liӋu sӁ ÿѭӧc cung cҩSFKRQJѭӡi

GQJWURQJFѫVӣ dӳ liӋu PostgreSQL Tìm kiӃPÿѭӧc thӵc hiӋn bӣL6ROU&iFFjLÿһt CKAN có thӇ ÿѭӧc truy vҩn thông qua các API Web

CKAN có mӝt sӕ ѭXÿLӇPQKѭVDX

- Mã nguӗn mӣ, cӝQJÿӗng lӟn và có nguӗQWtQKQăQJPӣ rӝng phong phú

- Có khҧ QăQJOѭXWUӳ dӳ liӋu lӟn, dӳ liӋu streaming, dӳ liӋu có cҩu trúc lүn không có cҩu trúc vӟi nhiӅu nhiӅXÿӏnh dҥng phong phú

- Tìm kiӃm dӳ liӋXÿѫQJLҧn và hiӋu quҧ nhӡ search engine và metadata

- Có khҧ QăQJPӣ rӝng và tích hӧp vӟi các hӋ thӕng khác

- Quҧn lý dӳ liӋXYjQJѭӡi dùng thông hӋ thӕng quyӅn truy cұp

Nghiên cӭu thông qua các tài liӋu, bài báo khoa hӑc, tӯ ÿyU~WWUtFKUDÿѭӧc các kiӃn pháp xây dӵng giҧi pháp trên nӅn tҧng logic

TiӃn hành thӱ nghiӋm trên mô hình, giҧi pháp hiӋn có

TiӃn hành thӱ nghiӋPWUrQP{KuQKÿһt ra nhҵP[iFÿӏnh tính khҧ thi cӫa giҧi pháp

TiӃn hành so sánh kӃt quҧ vӟLFiFP{KuQKÿmFyKRһFWѭѫQJWӵSKkQWtFKѭXÿLӇm và khuyӃWÿLӇm nhҵPÿiQKJLiNӃt quҧ ĈӅ xuҩt cҧi tiӃn

Thӵc hiӋn chӑn lӵa mӝWYjLOƭQKYӵc nhӓ ÿӇ kiӇm tra tính chính xác cӫDSKѭѫQJSKiS TuǤ thuӝFYjRÿһc tính cӫa dӳ liӋu, hӋ thӕng mà tính khҧ dөng cӫa giҧLSKiSÿѭӧc phát huy BҵQJSKѭѫQJSKiSWKӵc nghiӋm trên các tұp dӳ liӋXKRjQNKiFQKDXÿӇ có thӇ ÿiQKJLiÿѭӧc hiӋXQăQJKLӋu quҧ cӫa giҧi pháp ĈiQKJLiÿӝ phù hӧSÿӝ bao phӫ cӫa tұp hӧp các câu truy vҩn, lӏch sӱ tìm kiӃm cӫa QJѭӡLGQJÿӇ có thӇ biӃWÿѭӧc chúng có khҧ dөng vӟLOƭQKYӵc nhӓ ÿѭӧc chӑn hay không

Phân tích dӳ liӋu dӵa trên câu truy vҩn, lӏch sӱ tìm kiӃm cӫDQJѭӡi dùng không phҧi OjSKѭѫQJpháp duy nhҩt nhҵm giҧi quyӃWEjLWRiQÿѭӧc nêu ra Tuy nhiên mӛLSKѭѫQJ pháp có nhӳQJѭXÿLӇm khuyӃWÿLӇPULrQJNKLÿѭDYjRWKӵc tӃ vұn hành, chí phí, thӡi JLDQFNJQJÿyQJYDLWUzTXDQWUӑng trong viӋFÿѭDUDTX\ӃWÿӏnh lӵa chӑQSKѭѫQJSKiS 6RViQKѭXÿLӇPQKѭӧFÿLӇm cӫDSKѭѫQJSKiSÿӅ xuҩt vӟLFiFSKѭѫQJSKiSÿmFy ÿӇ có thӇ biӃWÿѭӧc gӍai pháp phù hӧp vӟi bӕi cҧnh cө thӇ nào ĈiQKJLiFiFORҥi thuӝFWtQKÿӇ biӃt loҥi nào sӁ ÿѭӧc chӑQÿӇ rút trích nhiӅu nhҩt và chính xác nhҩt

Sӱ dөQJFiFSKѭѫQJSKiSOӑc thuӝc tính dӵa trên hӋ sӕ thӕng kê và lý thuyӃt thông WLQÿӇ ÿiQKJLiPӭFÿӝ OLrQTXDQWѭѫQJTXDQJLӳa các thuӝFWtQKYjWѭѫQJTXDQYӟi thuӝc tính mөc tiêu Tӯ ÿyOӵa chӑn dӵa theo xӃp hҥng thuӝc tính hoһc so sánh vӟi mӝWQJѭӥng cho phép Ĉҧm bҧRÿӝ chính xác trong quá trình vұn hành Sau mӛi lҫQWKD\ÿәi các dӳ liӋu kiӇm tra, kӃt quҧ FyWKD\ÿәi hay không.

Tұp dӳ liӋu mӣ cho quá trình nghiên cӭu, thӵc nghiӋm

ĈӇ phөc vө cho quá trình nghiên cӭu luұQYăQWDFyWKӇ sӱ dөng dӳ liӋu tӯ trang http://opendatatoolkit.worldbank.org/en/essentials.html, Kaggle, Microsoft Research Open Data, catalog.data.gov, https://archive.ics.uci.edu/ml/datasets.php HӋ thӕng có sӵ ÿDGҥng dӳ liӋu tӯ cá nhân, tә chӭc, chính phӫ phù hӧp vӟLÿӅ WjLQKѭGӳ liӋu y khoa, dӳ liӋu nông nghiӋp, dӳ liӋu kinh tӃ tài chính, dӳ liӋu vұn tҧi, dӳ liӋu hoҥt ÿӝng chớnh phӫ cӫDFiFQѭӟFôĈӏnh dҥng dӳ liӋXÿѭӧc chia sҿ Gѭӟi hỡnh phỏp file FVY-621ô

Dӳ liӋXÿҫu ra

Dӳ liӋXÿҫu vào là các tұp dӳ liӋu dҥng json gӗm các thuӝc tính, sau khi thӵc hiӋn quá trình rút trích các thuӝc tính khoa hӑc sӁ trҧ vӅ kӃt quҧ là các tұp các thuӝc tính khoa hӑFGѭӟi dҥng json

Hình 3-1 Ĉ̯XYjRYjÿ̯u ra cͯDSK˱˯QJSKiS

4 &È&3+ѬѪ1*3+È3/ӴA CHӐN THUӜC TÍNH DҤNG LӐC

3KѭѫQJSKiSGӵa trên sӵ WѭѫQJTXDQJLӳa các thuӝc tính

Sӵ WѭѫQJTXDQOjWKѭӟFÿRPӭFÿӝ quan hӋ tuyӃn tính giӳa hai hoһc nhiӅu thuӝc tính vӟi nhau Nhìn vào mӭFÿӝ WѭѫQJTXDQWDFyWKӇ dӵ ÿRiQÿѭӧc mӝt thuӝc tính thông qua các thuӝc tính còn lҥi Thông qua sӵ WѭѫQJTXDQWDFyWKӇ ÿiQKJLiÿѭӧc quan hӋ giӳa các thuӝc tính vӟi thuӝc tính mөc tiêu

Thuӝc tính có sӵ WѭѫQJTXDQFjQJFDRWKuFjQJSKө thuӝc tuyӃQWtQKYjGRÿyFyҧnh KѭӣQJWѭѫQJWӵ ÿӕi vӟi thuӝc tính còn lҥi NӃu có hai thuӝFWtQKWѭѫQJTXDQFDRYӟi nhau, ta có thӇ loҥi bӓ mӝt thuӝc tính kha khӓi tұp dӳ liӋXÿDQJ[HP[pW

HӋ sӕ WѭѫQJTXDQÿѭӧc dùng phә biӃn là Pearson correlation coefficient

7ѭѫQJTXDQ3HDUVRQOjWӍ lӋ giӳa hiӋSSKѭѫQJVDLFӫDKDLÿӕLWѭӧQJYjWtFKÿӝ lӋch chuҭn cӫDKDLÿӕLWѭӧQJÿy ߩ ௑ǡ௒ ൌ ாሾሺ௑ିஜ ఙ ೉ ሻሺ௒ିஜ ೊ ሻሿ ೉ఙ ೊ (1) ߪ ௑ ǡ ߪ ௒ Ojÿӝ lӋch chuҭn cӫDÿӕLWѭӧQJ;

Ngày đăng: 03/08/2024, 23:02

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w