Khai thác dữ liệu – Data Mining (KTDL) là một quá trình trích xuất tri thức từ lƣợng lớn dữ liệu. KTDL đó là tiến trình trích lọc, sản sinh những tri thức hoặc các mẫu tiềm ẩn, chƣa biết nhƣng hữu ích từ các CSDL lớn. KTDL là tiến trình khái quát các sự kiện rời rạc trong dữ liệu thành các tri thức mang tính khái quát, tính quy luật hỗ trợ tích cực cho các tiến trình ra quyết định.
Hình 1.1: Vị trí của KTDL
Nguồn dữ liệu phục vụ cho khai thác dữ liệu có thể là các CSDL lớn hay các kho dữ liệu có hoặc không có cấu trúc. Khai thác dữ liệu chỉ thực sự phát huy tác dụng trên các CSDL lớn, nơi mà khả năng diễn dịch và trực giác của con người cũng nhƣ các kỹ thuật truyền thống không thể thực hiện đƣợc hoặc nếu thực hiện đƣợc thì hiệu quả không cao. KTDL là một công đoạn trong tiến trình lớn hơn là khám phá tri thức từ CSDL. KTDL mang tính trực giác, cho phép thu đƣợc những hiểu biết rõ ràng và sâu sắc hơn, vƣợt xa kho dữ liệu. KTDL giúp phát hiện những xu thế phát triển từ những thông tin quá khứ, cũng nhƣ cho phép đề xuất các dự báo mang tính thống kê, gom cụm và phân loại dữ liệu. Kho dữ liệu điển hình trong những doanh nghiệp cho phép người dùng hỏi và trả lời những câu hỏi như “Doanh số bán ra là bao nhiêu tính theo khu vực, theo nhân viên bán hàng”. Trong khi đó,
Ra quyết định Trình bày dữ liệu Các công cụ trực quan
Data Mining Khảo sát dữ liệu
Phân tích thống kê, truy vấn và báo cáo
Data Warehouses/Data Marts OLAP, MDA
Nguồn dữ liệu
Giấy tờ, tập tin, trình cung cấp thông tin,hệ thống CSDL,OLTP
Mẫu kết quả từ khai thác dữ liệu
Tăng khả năng hỗ trợ quyết định kinh doanh
Người dùng
Nhà phân tích kinh doanh
Nhà phân tích dữ liệu
DBA
KTDL cho phép người ra quyết định kinh doanh hỏi và trả lời cho những câu hỏi nhƣ là “Ai là khách hàng chính yếu của công ty đối với một mặt hàng cụ thể?” hoặc
“Dòng sản phẩm nào sẽ bán trong khu vực này và ai sẽ mua chúng, dựa vào việc bán những sản phẩm tương tự ở ở khu vực đó?”.Vị trí của KTDL được thể hiện qua sơ đồ ở hình 1.1
Hình 1.2: Quá trình khám phá tri thức từ CSDL
Quá trình khám phá tri thức là một chuỗi lặp gồm các bước [3, 7]:
Bước 1: Làm sạch dữ liệu
Phần lớn các CSDL đều ít nhiều mang tính không nhất quán. Do vậy, khi KTDL trên các CSDL đó thường không đảm bảo tính đúng đắn. Do đó trước khi bắt đầu KTDL, chúng ta phải tiến hành xóa bỏ dữ liệu không cần thiết, loại bỏ dữ liệu nhiễu, hiệu chỉnh phần dữ liệu không nhất quán.
Bước 2: Tích hợp dữ liệu
Trộn dữ liệu từ nhiều nguồn khác nhau vào một kho dữ liệu.
Bước 3: Chọn lọc dữ liệu Làm sạch dữ liệu
Tích hợp dữ liệu Chọn lọc dữ liệu
Biến đổi dữ liệu Khai thác dữ liệu
Đánh giá mẫu và biểu diễn tri thức
Các nguồn dữ liệu
Tri thức
Kho dữ liệu
Dữ liệu cụ thể sẽ đƣợc khai thác
Đây là giai đoạn chọn lọc, trích rút các dữ liệu cần thiết từ CSDL tác nghiệp vào một CSDL riêng. Chúng ta chỉ chọn những dữ liệu cần thiết cho các giai đoạn sau.
Bước 4: Biến đổi dữ liệu
Mục đích của giai đoạn biến đổi là chuyển đổi kiểu dữ liệu về những dạng thuận tiện để tiến hành các thuật toán khai thác dữ liệu.
Bước 5: Khai thác dữ liệu
KTDL là tiến trình “điều chỉnh đúng” các mô hình dữ liệu. Áp dụng các kỹ thuật khai thác dữ liệu nhằm trích lọc những mẫu tin, những mối liên hệ đặc biệt trong dữ liệu.
Bước 6: Đánh giá và biểu diễn dữ liệu
Là quá trình giải thích và hiển thị trực quan các kết quả KTDL để hỗ trợ việc định giá chất lƣợng dữ liệu, đánh giá mô hình dữ liệu đƣợc lựa chọn có phù hợp hay không? và thể hiện mô hình. Mỗi bước (trừ lưu trữ dữ liệu) cho phép tương tác người dùng, và một số bước (ví dụ như lựa chọn tài nguyên) có thể thực hiện hoàn toàn thủ công.
Quá trình khám phá tri thức là một chuỗi lặp gồm các bước được thực thi với:
Các nguồn dữ liệu
Kho dữ liệu
Dữ liệu cụ thể sẽ đƣợc khai thác
Mẫu kết quả từ khai thác dữ liệu
Tri thức đạt đƣợc
1.2.2. Các ứng dụng của Khai thác dữ liệu [3, 4]
Khai thác dữ liệu đƣợc ứng dụng rộng rãi trong rất nhiều lĩnh vực nhƣ [2,3]:
a. Ngân hàng
Xây dựng mô hình dự báo rủi ro tín dụng
Tìm kiếm tri thức, quy luật của thị trường chứng khoán và đầu tư bất động sản
b. Thương mại điện tử
Công cụ tìm hiểu, định hướng, thúc đẩy, giao tiếp với khách hàng
Phân tích khách hàng duyệt web
Phân tích hành vi mua sắm trên mạng và cho biết thông tin tiếp thị phù hợp với loại khách hàng trong một phân khu thị trường nhất định
c. Công nghệ sinh học và dƣợc phẩm
Xây dựng công cụ KTDL trực quan cho phép phát hiện sự hiện diện của dƣợc chất, phân tích dữ liệu di truyền.
d. Nhân sự
Giúp nhà tuyển dụng chọn ứng viên thích hợp nhất theo nhu cầu của công ty.
Phát hiện giả mạo thẻ trong lĩnh vực viễn thông
Phát hiện dùng thẻ tín dụng giả trên mạng và là công cụ hữu ích cho dịch vụ quản lý rủi ro cho thương mại điện tử
Phát hiện xâm nhập mạng trái phép