1. Trang chủ
  2. » Luận Văn - Báo Cáo

Thu thập và tiền xử lý dữ liệu tổng quan về dữ liệu

16 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Thu thập và tiền xử lý dữ liệu tổng quan về dữ liệu
Tác giả Nguyễn Ngọc Trọn, Phạm Minh Sang, Trần Lê Phương Thảo, Nguyễn Thành Thất, Lê Thanh Xuân
Người hướng dẫn ThS. Lê Anh Nhựt Uyên
Trường học Trường Đại Học Kỹ Thuật - Công Nghệ Cần Thơ
Chuyên ngành Khoa Học Máy Tính
Thể loại Đồ án
Năm xuất bản 2020
Thành phố Cần Thơ
Định dạng
Số trang 16
Dung lượng 1,5 MB

Nội dung

Dữ liệu sẵn sàng : dữ liệu đã được xử lý và sẵn sàng để sử dụng ngay trong một hệ thống hoặc ứng dụng.. Dữ liệu đã xử lý : Là dữ liệu được xử lý từ dữ liệu thô, dữ liệu thô được thu thập

Trang 1

KHOA CÔNG NGHỆ THÔNG TIN



THU THẬP VÀ TIỀN XỬ LÝ DỮ

LIỆU

TỔNG QUAN VỀ DỮ LIỆU

GIẢNG VIÊN HƯỚNG

ThS Lê Anh Nhã Uyên Nguyễn Ngọc Trân (MSSV:

2001250) Phạm Minh Sang (MSSV: 2001185) Trần Lê Phương Thảo (MSSV: 2001068)

Nguyễn Thành Thất (MSSV: 2001074)

Lê Thanh Xuân (MSSV: 2001188) NGÀNH : KHOA HỌC MÁY TÍNH 2020

Trang 2

Cần Thơ 2023

LỜI CAM ĐOAN

Đây là đề tài nghiên cứu được thực hiện dưới sự hướng dẫn của ThS Lê Anh Nhã Uyên Đề tài này đã được hoàn thành sau một thời gian nghiên cứu, tìm hiểu các nguồn tài liệu và thông tin trên mạng đáng tin cậy Nội dung của bài được tôi tập hợp lại từ các nguồn tài liệu tham khảo (cuối đề tài), không sao chép toàn bộ các đề tài và quá trình nghiên cứu của các tác giả khác

Tôi xin chịu hoàn toàn trách nhiệm về nội dung trong đồ án của mình đã thực hiện

Cần Thơ, ngày… tháng… năm 2023

Sinh viên thực hiện

Trang 3

LỜI CẢM ƠN

Lời đầu tiên em xin cảm ơn quí thầy cô Khoa Công Nghệ Thông Tin trường Đại Học Kỹ Thuật - Công Nghệ Cần Thơ đã truyền dạy kiến thức cho em trong thời gian qua để

em có thể hoàn thành nghiên cứu và thực hiện đồ án Trong quá trình hoàn thành đồ án khoa học, ngoài những

cố gắng của bản thân, em sẽ không thể nào hoàn thành tốt được công việc của mình nếu không có sự chỉ bảo và hướng dẫn tận tình của Giảng viên Lê Anh Nhã Uyên Em xin được gửi lời cảm ơn chân thành nhất tới cô vì đã trang bị cho em những kiến thức, kỹ năng cơ bản cần có để hoàn thành đề tài khoa học này

Trong quá trình làm đồ án, khó tránh khỏi sai sót, rất mong Thầy (cô) bỏ qua Đồng thời do trình độ lý luận cũng như kinh nghiệm của nhóm em còn hạn chế nên đồ án không thể tránh khỏi những thiếu sót, em rất mong nhận được ý kiến đóng góp của Thầy (cô) để nhóm em học thêm được nhiều kinh nghiệm và sẽ hoàn thành tốt hơn những bài đồ án sắp tới

Xin chân thành cảm ơn!

Trang 4

Trường Kỹ Thuật Công Nghệ Cần Thơ Cộng Hòa Xã Hội Chủ

Nghĩa Việt Nam Khoa Công Nghệ Thông Tin

Độc lập -Tự do - Hạnh phúc

PHIẾU NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN Giảng viên hướng dẫn: ThS Lê Anh Nhã Uyên Nhận xét của giảng viên hướng dẫn: ···

···

···

···

···

···

···

···

···

···

···

···

···

Cần Thơ, ngày 8 tháng 2 năm 2023

GIẢNG VIÊN HƯỚNG DẪN

Trang 5

LÊ ANH NHÃ UYÊN

MỤC LỤC

LỜI CAM ĐOAN 1

LỜI CẢM ƠN 2

PHIẾU NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN 3

MỤC LỤC 4

TỔNG QUAN VỀ DỮ LIỆU 5

1 Nhu cầu dữ liệu 5

2 Khái niệm dữ liệu thô, dữ liệu sẵn sàng, dữ liệu đã xử lý, tập dữ liệu 5

3 Các thành phần của dữ liệu sẵn sàng 5

4 Nguồn dữ liệu 6

5 Đinh dạng dữ liệu trong file cung cấp từ các nguồn phổ biến 7

6 Các ứng dụng sử dụng dữ liệu đã sẵn sàng 7

7 Giới thiệu về khai thác dữ liệu 8

8 Giới thiệu về chuẩn bị dữ liệu 8

9 Giới thiệu về thu giảm dữ liệu 9

TÀI LIỆU THAM KHẢO 10

Trang 6

MỞ ĐẦU

Sự phát triển của công nghệ thông tin và việc ứng dụng

công nghệ thông tin ở hầu hết các lĩnh vực trong nhiều năm qua cũng đồng nghĩa với lượng dữ liệu đã được thu thập và lưu trữ ngày càng lớn Các hệ quản trị cơ sở dữ liệu truyền thống cũng chỉ khai thác được một lượng thông tin nhỏ đã không còn đáp ứng đầy đủ những yêu cầu, những thách thức mới Do vậy một khuynh hướng mới được ra đời

đó là kỹ thuật phát hiện tri thức trong cơ sở dữ liệu (KDD) Khai phá dữ liệu là 1 bước quan trọng trong tiến trình KDD,

nó tập trung vào việc khám phá các mẫu, mối quan hệ và kiến thức trong các tập dữ liệu lớn, kết hợp các yếu tố từ thống kê, học máy và quản lý cơ sở dữ liệu để trích xuất thông tin hữu ích từ dữ liệu Nhìn chung, khai phá dữ liệu là một công cụ mạnh mẽ cho phép các tổ chức trích xuất những hiểu biết và kiến thức có giá trị từ các tập dữ liệu lớn Với những tiến bộ trong công nghệ, khai phá dữ liệu tiếp tục phát triển và mở rộng, mang đến những cơ hội mới cho các tổ chức để khai thác sức mạnh của dữ liệu

Trang 7

TỔNG QUAN VỀ DỮ LIỆU

I Tổng quan về dữ liệu

1 Nhu cầu dữ liệu

Nhu cầu dữ liệu là sự cần thiết của một tổ chức, cá nhân hoặc hệ thống để có được những thông tin, số liệu hoặc dữ liệu cần thiết để hoạt động, quản lý hoặc thực hiện các quyết định Nhu cầu dữ liệu có thể liên quan đến nhiều lĩnh vực khác nhau, bao gồm kinh doanh, y tế, khoa học và công nghệ

2 Khái niệm dữ liệu thô, dữ liệu sẵn sàng, dữ liệu đã

xử lý, tập dữ liệu

a Dữ liệu thô: chủ yếu không có cấu trúc hoặc chưa định

dạng dữ liệu kho Nó có thể ở dạng tập tin, hình ảnh trực quan, hồ sơ cơ sở dữ liệu hoặc bất kỳ dữ liệu kỹ thuật số khác Nó bao gồm các giá trị trống, sai hoặc không đồng nhất, và cần phải được xử lý trước khi sử dụng cho mục đích phân tích hoặc quản lý Dữ liệu thôwlà cácwsố,wký

tự,whình ảnhwhay các kết quả khác của các thiết bị chuyển đổi các lượng vật lý thành các ký hiệu Các dữ liệu thuộc loại này thường đượcwxử lýwtiếp bởi người hoặc đưa vàowmáy tính Trong máy tính, dữ liệu được lưu trữ

và xử lý tại đó hoặc được chuyển (output) cho một người hoặc một máy tính khác

b Dữ liệu sẵn sàng : dữ liệu đã được xử lý và sẵn sàng để

sử dụng ngay trong một hệ thống hoặc ứng dụng Dữ liệu

đã đi qua các bước như tích hợp, làm sạch, chuyển đổi

dữ liệu, bổ sung thêm thông tin để tăng cường chất lượng dữ liệu và lưu trữ dữ liệu Dữ liệu sẵn sàng là một thành phần quan trọng trong nhiều lĩnh vực như phân

Trang 8

tích dữ liệu, ra quyết định và báo cáo Nówcó thể truy cập được vào bất cứ thời gian và từ bất cứ địa điểm nào khi cần, ngay cả khi xảy ra sự cố gián đoạn Nó cho thấy mức độ liên tục người dùng cuối (end user) có thể truy cập vào dữ liệu, ứng dụng và bất kỳ hệ thống quy trình IT nào

c Dữ liệu đã xử lý : Là dữ liệu được xử lý từ dữ liệu thô,

dữ liệu thô được thu thập, sàng lọc, sắp xếp, xử lý, phân tích, lưu trữ và cuối cùng là được trình bày ở dạng chúng

ta có thể đọc, chuyển nó thành những thông tin hữu ích,

có ý nghĩa được như đồ thị, biểu đồ, tài liệu…dữ liệu đã được chuyển đổi, tác động, hoặc sắp xếp theo để nó có thể sử dụng, có ý nghĩa hoặc dễ dàng phân tích Quá trình này có thể bao gồm việc làm sạch, chuyển đổi, lọc, tổng hợp hoặc hợp nhất dữ liệu từ nhiều nguồn khác nhau vào một định dạng cấu trúc Mục tiêu của việc xử lý

dữ liệu là chuyển dữ liệu gốc thành thông tin hữu ích có thể sử dụng cho việc quản lý, báo cáo hoặc mục đích khác

d Tập dữ liệu : Tập dữ liệu là một tập hợp dữ liệu Trong

trường hợp dữ liệu dạng bảng, tập dữ liệu tương ứng với một hoặc nhiều bảng cơ sở dữ liệu, trong đó mỗi cột của bảng đại diện cho một biến cụ thể và mỗi hàng tương ứng với một bản ghi nhất

3 Các thành phần của dữ liệu sẵn sàng

Dữ liệu sẵn sàng bao gồm các thành phần sau:

 Tên cột (column names): Tên của các cột trong bảng dữ liệu, tương đương với tên cột trong bảng excel hoặc tên trường trong cơ sở dữ liệu

 Dữ liệu (data): Là nội dung chính của bảng dữ liệu, gồm các giá trị của từng cột

 Kiểu dữ liệu (data type): Xác định kiểu dữ liệu của từng cột, ví dụ như số nguyên, số thực, chuỗi, ngày tháng, v.v

Trang 9

 Giới hạn (constraints): Xác định các ràng buộc cho dữ liệu, ví dụ như giới hạn kích thước, giới hạn giá trị, v.v

 Chỉ mục (indexes): Chỉ mục giúp tăng tốc độ truy vấn dữ liệu

 Liên kết (links): Liên kết giữa các bảng dữ liệu để xác định mối quan hệ giữa các bảng

 Những thành phần này cùng nhau tạo nên một bảng dữ liệu sẵn sàng để sử dụng và phân tích Lưu ý rằng các thành phần trên có thể khác nhau tùy vào mô hình dữ liệu và yêu cầu sử dụng dữ liệu

4.Nguồn dữ liệu

 Nguồn dữ liệu là gì ? : là vị trí mà dữ liệu đang được sử dụng bắt nguồn từ đó.w

Nguồn dữ liệu có thể là vị trí ban đầu nơi dữ liệu được tạo ra hoặc nơi thông tin vật lý được số hóa lần đầu tiên, tuy nhiên, ngay cả dữ liệu tinh tế nhất cũng có thể đóng vai trò là nguồn, miễn là mộtwquy trình khác truy cập và sử dụngwnó.wCụ thể, nguồn dữ liệu có thể là cơ sở dữ liệu, tệp phẳng, phép đo trực tiếp từ thiết bị vật lý, dữ liệu web được loại bỏ hoặc bất kỳwdịch vụ dữ liệu tĩnh và truyền trực tuyếnwnào có rất nhiều trên internet

Nguồn dữ liệu trong thu thập và tiền xử lý dữ liệu là tập hợp các đối tượng hoặc hệ thống mà chúng ta có thể thu thập dữ liệu từ đó Nguồn dữ liệu có thể là các hệ thống quản lý, các trang web, các cổng thông tin, các tổ chức hoặc cá nhân, v.v

Nguồn dữ liệu có thể là dữ liệu mở hoặc dữ liệu riêng tư, và

có thể được lưu trữ trong các định dạng khác nhau, chẳng hạn như các tập tin văn bản, các bảng tính, các cơ sở dữ liệu,

 Ví dụ: Một thương hiệu thời trang bán sản phẩm trực tuyến.wĐể hiển thị xem một mặt hàng có hết hàng hay không, trang web sẽ lấy thông tin từ cơ sở dữ liệu hàng tồn kho.wTrong trường hợp này, các bảng kiểm kê là một nguồn dữ liệu, được truy cập bởi ứng dụng web phục vụ trang web cho khách hàng

Trang 10

Tập trung vào cách thuật ngữ được sử dụng trong ngữ cảnh quản lý cơ sở dữ liệu quen thuộc sẽ giúp làm rõ loại nguồn dữ liệu nào tồn tại, cách chúng hoạt động và khi chúng hữu ích

Các loại nguồn dữ liệu : nguồn dữ liệu được phân thành hai loại chính , nguồn dữ liệu máy và nguồn ngày tháng của tệp

a) Nguồn dữ liệu máy

Nguồn dữ liệu máy có tên do người dùng xác định, phải nằm trên máy đang nhập dữ liệu và không thể dễ dàng chia sẻ.wGiống như các nguồn dữ liệu khác, nguồn dữ liệu máy cung cấp tất cả thông tin cần thiết để kết nối với dữ liệu, chẳng hạn như trình điều khiển phần mềm có liên quan và trình quản lý trình điều khiển, nhưng người dùng chỉ cần gọi DSN là tốc ký để gọi kết nối hoặc truy vấn dữ liệu

Thông tin kết nối được lưu trữ trong các biến môi trường, tùy chọn cấu hình cơ sở dữ liệu hoặc một vị trí bên trong máy hoặc ứng dụng đang được sử dụng.wVí dụ: nguồn

dữ liệu Oracle sẽ chứa vị trí máy chủ để truy cập DBMS từ

xa, thông tin về trình điều khiển nào sẽ sử dụng, công cụ trình điều khiển và bất kỳ phần liên quan nào khác của chuỗi kết nối điển hình, chẳng hạn như ID hệ thống và người dùng và xác thực.w

b) Nguồn dữ liệu tệp

Nguồn dữ liệu tệp chứa tất cả thông tin kết nối bên trong một tệp máy tính duy nhất, có thể chia sẻ (thường có phần mở rộng dsn).wNgười dùng không quyết định tên nào được gán cho nguồn dữ liệu tệp vì các nguồn này không được đăng ký cho các ứng dụng, hệ thống hoặc người dùng riêng lẻ và trên thực tế không có DSN giống như DSN của các nguồn dữ liệu máy.wMỗi tệp lưu trữ một chuỗi kết nối cho một nguồn dữ liệu

Nguồn dữ liệu tệp, không giống như nguồn máy, có thể chỉnh sửa và sao chép được giống như bất kỳ tệp máy tính nào khác.wĐiều này cho phép người dùng và hệ thống chia

Trang 11

sẻ một kết nối chung (bằng cách di chuyển nguồn dữ liệu giữa các máy hoặc máy chủ riêng lẻ) và để hợp lý hóa các quy trình kết nối dữ liệu (ví dụ: bằng cách giữ một tệp nguồn trên một tài nguyên được chia sẻ để nó có thể được

sử dụng đồng thời bởi nhiều ứng dụng và người dùng) Điều quan trọng cần lưu ý là các tệp dsn 'không thể chia sẻ' cũng tồn tại.wĐây là cùng một loại tệp như được mô tả ở trên, nhưng chúng tồn tại trên một máy duy nhất và không thể di chuyển hoặc sao chép.wCác tệp này trỏ trực tiếp đến nguồn dữ liệu của máy.wĐiều này có nghĩa là các nguồn dữ liệu tệp không thể chia sẻ là trình bao bọc cho các nguồn

dữ liệu máy, đóng vai trò là proxy cho các ứng dụng chỉ mong đợi các tệp nhưng cũng cần kết nối với dữ liệu máy

5 Đinh dạng dữ liệu trong file cung cấp từ các nguồn phổ biến

Dữ liệu nghiên cứu có nhiều định dạng khác nhau: văn bản,

số, đa phương tiện, mô hình, ngôn ngữ phần mềm, chuyên ngành cụ thể (ví dụ: tệp thông tin tinh thể (CIF) trong hóa học) và công cụ cụ thể

Các định dạng có nhiều khả năng truy cập được trong tương lai là:

+ Không độc quyền

+ Các tiêu chuẩn mở, được ghi lại

+ Được cộng đồng nghiên cứu sử dụng phổ biến

+ Sử dụng mã hóa ký tự tiêu chuẩn (ASCII, UTF-8) + Không nén (mong muốn, cho phép dung lượng) Một số định dạng dữ liệu thông dụng:

- CSV (Comma Separated Values): Là một định dạng tập tin văn bản đơn giản mà mỗi hàng là một bản ghi và các trường được phân tách bằng dấu phẩy

- JSON (JavaScript Object Notation): Là một định dạng

dữ liệu cho phép lưu trữ dữ liệu đa chiều và có thể

dễ dàng chuyển đổi giữa các ngôn ngữ lập trình

Trang 12

- SQL (Structured Query Language): Là một ngôn ngữ truy vấn dữ liệu cho phép lưu trữ, truy vấn và cập nhật dữ liệu trong cơ sở dữ liệu

6 Các ứng dụng sử dụng dữ liệu đã sẵn sàng

Dữ liệu sẵn sàng có rất nhiều ứng dụng trong nhiều lĩnh vực khác nhau, bao gồm:

 Kinh doanh: Phân tích dữ liệu để quản lý tài chính,

theo dõi doanh số, tìm kiếm cơ hội mới

 Marketing: Phân tích dữ liệu để xây dựng chiến lược

marketing, theo dõi hiệu quả chiến dịch

 Y tế: Phân tích dữ liệu để quản lý bệnh viện, theo dõi

tình trạng sức khỏe của bệnh nhân

 Nghiên cứu khoa học: Sử dụng dữ liệu để nghiên

cứu vấn đề khoa học, phát hiện mẫu mã

 Quản trị: Phân tích dữ liệu để quản lý tài nguyên,

theo dõi hoạt động công ty

 Giải trí: Sử dụng dữ liệu để tìm kiếm nội dung phù

hợp, theo dõi sự quan tâm của người dùng

 Đầu tư: Phân tích dữ liệu để quản lý rủi ro, tìm kiếm

cơ hội đầu tư

 Bảo mật: Sử dụng dữ liệu để phát hiện các hoạt động gian lận và bảo vệ thông tin cá nhân

 Nghiên cứu khoa học: các nhà nghiên cứu có thể sử

dụng dữ liệu sẵn sàng để phân tích và trả lời các câu hỏi về các vấn đề nghiên cứu của họ

 Phần mềm trực tuyến: các ứng dụng web và di động

có thể sử dụng dữ liệu sẵn sàng để cung cấp cho người dùng các thông tin về thị trường, giá cả, v.v

 Mạng xã hội: các mạng xã hội có thể sử dụng dữ liệu

sẵn sàng để tạo ra các bản đồ về mạng lưới người dùng và các mối quan hệ giữa chúng

 Trí tuệ nhân tạo: các mô hình trí tuệ nhân tạo có thể

sử dụng dữ liệu sẵn sàng để huấn luyện và dự đoán các kết quả

Khai phá dữ liệu (Data Mining) là một khái niệm ra đời vào những năm cuối của thập kỷ 80 Nó bao hàm một loạt các

Trang 13

kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong các tập dữ liệu lớn (các kho dữ liệu) Về bản chất, khai phá dữ liệu liên quan đến việc phân tích các dữ liệu và

sử dụng các kỹ thuật để tìm ra các mẫu hình có tính chính quy (regularities) trong tập dữ liệu

Khai phá dữ liệu là 1 trong 6 bước KDD (Knowledge

Discovery in Databases ) và KDD được xem như 6 quá trình khác nhau theo thứ tự như sau: Problem Specification (đặc tả) - > Problem Understanding (hiểu vấn đề) - > Data Preprocessing (tiền xử lý dữ liệu) - > Data Mining (khai phá

dữ liệu) - > Evaluation (đánh giá) - > Result Exploitation (khai thác kết quả)

Khai phá dữ liệu là quá trình phân loại các tệp dữ liệu lớn

kết hợp với các công cụ và kỹ thuật giúp hỗ trợ giải quyết các vấn đề kinh doanh Đồng thời nó giúp các doanh nghiệp có thể dự đoán các xu hướng trong tương lai chính xác hơn

Data Mining là yếu tố quan trọng có khả năng tạo ra các thông tin được sử dụng cho BI và các công việc phân tích nâng cao khác Ngoài ra, các cỗ trợ Data Mining đem lại hiệu quả ở nhiều khía cạnh khác nhau trong kinh doanh và quản lý hoạt động như tiếp thị, quảng cáo, bán hàng, hỗ trợ khách hàng, quản lý chuỗi cung ứng, tài chính và nhân sự Data Mining hoạt động dựa trên quy trình gồm bốn giai đoạn chính như sau:

a) Thu thập dữ liệu

Các dữ liệu liên quan đến ứng dụng phân tích được xác định, thu thập và lưu trữ trong nhiều hệ thống nguồn khác nhau như kho dữ liệu hoặc hồ dữ liệu Trong đó, kho lưu trữ ngày càng trở nên phổ biến trong môi trường có nhiều loại

dữ liệu khác nhau

b) Chuẩn bị dữ liệu

Quá trình chuẩn bị cho Data Mining gồm nhiều bước khác nhau lần lượt từ như thăm dò, lập hồ sơ, xử lý trước dữ liệu và cuối cùng là quét sửa lỗi dữ liệu Ngoài ra, bạn có

Ngày đăng: 21/11/2024, 18:01

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w