Tổng quan về khai thác dữ liệu

Một phần của tài liệu Đánh giá các thuật toán khai thác tập mục lợi ích cao (Trang 21 - 25)

Khai thác dữ liệu – Data Mining (KTDL) là một quá trình trích xuất tri thức từ lƣợng lớn dữ liệu. KTDL đó là tiến trình trích lọc, sản sinh những tri thức hoặc các mẫu tiềm ẩn, chƣa biết nhƣng hữu ích từ các CSDL lớn. KTDL là tiến trình khái quát các sự kiện rời rạc trong dữ liệu thành các tri thức mang tính khái quát, tính quy luật hỗ trợ tích cực cho các tiến trình ra quyết định.

Hình 1.1: Vị trí của KTDL

Nguồn dữ liệu phục vụ cho khai thác dữ liệu có thể là các CSDL lớn hay các kho dữ liệu có hoặc không có cấu trúc. Khai thác dữ liệu chỉ thực sự phát huy tác dụng trên các CSDL lớn, nơi mà khả năng diễn dịch và trực giác của con người cũng nhƣ các kỹ thuật truyền thống không thể thực hiện đƣợc hoặc nếu thực hiện đƣợc thì hiệu quả không cao. KTDL là một công đoạn trong tiến trình lớn hơn là khám phá tri thức từ CSDL. KTDL mang tính trực giác, cho phép thu đƣợc những hiểu biết rõ ràng và sâu sắc hơn, vƣợt xa kho dữ liệu. KTDL giúp phát hiện những xu thế phát triển từ những thông tin quá khứ, cũng nhƣ cho phép đề xuất các dự báo mang tính thống kê, gom cụm và phân loại dữ liệu. Kho dữ liệu điển hình trong những doanh nghiệp cho phép người dùng hỏi và trả lời những câu hỏi như “Doanh số bán ra là bao nhiêu tính theo khu vực, theo nhân viên bán hàng”. Trong khi đó,

Ra quyết định Trình bày dữ liệu Các công cụ trực quan

Data Mining Khảo sát dữ liệu

Phân tích thống kê, truy vấn và báo cáo

Data Warehouses/Data Marts OLAP, MDA

Nguồn dữ liệu

Giấy tờ, tập tin, trình cung cấp thông tin,hệ thống CSDL,OLTP

Mẫu kết quả từ khai thác dữ liệu

Tăng khả năng hỗ trợ quyết định kinh doanh

Người dùng

Nhà phân tích kinh doanh

Nhà phân tích dữ liệu

DBA

KTDL cho phép người ra quyết định kinh doanh hỏi và trả lời cho những câu hỏi nhƣ là “Ai là khách hàng chính yếu của công ty đối với một mặt hàng cụ thể?” hoặc

“Dòng sản phẩm nào sẽ bán trong khu vực này và ai sẽ mua chúng, dựa vào việc bán những sản phẩm tương tự ở ở khu vực đó?”.Vị trí của KTDL được thể hiện qua sơ đồ ở hình 1.1

Hình 1.2: Quá trình khám phá tri thức từ CSDL

Quá trình khám phá tri thức là một chuỗi lặp gồm các bước [3, 7]:

 Bước 1: Làm sạch dữ liệu

Phần lớn các CSDL đều ít nhiều mang tính không nhất quán. Do vậy, khi KTDL trên các CSDL đó thường không đảm bảo tính đúng đắn. Do đó trước khi bắt đầu KTDL, chúng ta phải tiến hành xóa bỏ dữ liệu không cần thiết, loại bỏ dữ liệu nhiễu, hiệu chỉnh phần dữ liệu không nhất quán.

 Bước 2: Tích hợp dữ liệu

Trộn dữ liệu từ nhiều nguồn khác nhau vào một kho dữ liệu.

 Bước 3: Chọn lọc dữ liệu Làm sạch dữ liệu

Tích hợp dữ liệu Chọn lọc dữ liệu

Biến đổi dữ liệu Khai thác dữ liệu

Đánh giá mẫu và biểu diễn tri thức

Các nguồn dữ liệu

Tri thức

Kho dữ liệu

Dữ liệu cụ thể sẽ đƣợc khai thác

Đây là giai đoạn chọn lọc, trích rút các dữ liệu cần thiết từ CSDL tác nghiệp vào một CSDL riêng. Chúng ta chỉ chọn những dữ liệu cần thiết cho các giai đoạn sau.

 Bước 4: Biến đổi dữ liệu

Mục đích của giai đoạn biến đổi là chuyển đổi kiểu dữ liệu về những dạng thuận tiện để tiến hành các thuật toán khai thác dữ liệu.

 Bước 5: Khai thác dữ liệu

KTDL là tiến trình “điều chỉnh đúng” các mô hình dữ liệu. Áp dụng các kỹ thuật khai thác dữ liệu nhằm trích lọc những mẫu tin, những mối liên hệ đặc biệt trong dữ liệu.

 Bước 6: Đánh giá và biểu diễn dữ liệu

Là quá trình giải thích và hiển thị trực quan các kết quả KTDL để hỗ trợ việc định giá chất lƣợng dữ liệu, đánh giá mô hình dữ liệu đƣợc lựa chọn có phù hợp hay không? và thể hiện mô hình. Mỗi bước (trừ lưu trữ dữ liệu) cho phép tương tác người dùng, và một số bước (ví dụ như lựa chọn tài nguyên) có thể thực hiện hoàn toàn thủ công.

Quá trình khám phá tri thức là một chuỗi lặp gồm các bước được thực thi với:

 Các nguồn dữ liệu

 Kho dữ liệu

 Dữ liệu cụ thể sẽ đƣợc khai thác

 Mẫu kết quả từ khai thác dữ liệu

 Tri thức đạt đƣợc

1.2.2. Các ứng dụng của Khai thác dữ liệu [3, 4]

Khai thác dữ liệu đƣợc ứng dụng rộng rãi trong rất nhiều lĩnh vực nhƣ [2,3]:

a. Ngân hàng

 Xây dựng mô hình dự báo rủi ro tín dụng

 Tìm kiếm tri thức, quy luật của thị trường chứng khoán và đầu tư bất động sản

b. Thương mại điện tử

 Công cụ tìm hiểu, định hướng, thúc đẩy, giao tiếp với khách hàng

 Phân tích khách hàng duyệt web

 Phân tích hành vi mua sắm trên mạng và cho biết thông tin tiếp thị phù hợp với loại khách hàng trong một phân khu thị trường nhất định

c. Công nghệ sinh học và dƣợc phẩm

Xây dựng công cụ KTDL trực quan cho phép phát hiện sự hiện diện của dƣợc chất, phân tích dữ liệu di truyền.

d. Nhân sự

 Giúp nhà tuyển dụng chọn ứng viên thích hợp nhất theo nhu cầu của công ty.

 Phát hiện giả mạo thẻ trong lĩnh vực viễn thông

 Phát hiện dùng thẻ tín dụng giả trên mạng và là công cụ hữu ích cho dịch vụ quản lý rủi ro cho thương mại điện tử

 Phát hiện xâm nhập mạng trái phép

Một phần của tài liệu Đánh giá các thuật toán khai thác tập mục lợi ích cao (Trang 21 - 25)

Tải bản đầy đủ (PDF)

(83 trang)