Quá trình khai phá dữ liệu của Oracle

Một phần của tài liệu Một số vấn đề liên quan đến khai phá dữ liệu bằng cây quyết định (Trang 67)

Tương tự như quá trình khai phá dữ liệu cơ bản, để đạt được kết quả trong khai phá và thành công trong việc phân tích dữ liệu thì trong ODM thông thường chúng ta cũng thực hiện theo bốn bước sau [2], [9]:

Định nghĩa vấn đề: Đây là bước quan trọng nhất và là nơi để các chuyên gia lĩnh vực chuyển đổi một mục tiêu công việc cụ thể, ví dụ như “ làm thế nào để tôi có thể bán nhiều sản phẩm của tôi cho khách hàng?” thành phát biểu có liên quan đến vấn đề về khai phá dữ liệu, ví dụ như “khách hàng nào thích mua sản phẩm A nhất”. Để xây dựng một mô hình dự báo dự đoán khách hàng nào thích mua sản phẩm A nhất, thì chúng ta phải có dữ liệu miêu tả những khác hàng đã mua sản phẩm A trong quá khứ. Khi đó chúng ta có thể bắt đầu chuẩn bị dữ liệu để khai phá.

Thu thập và chuẩn bị dữ liệu: Tại bước này chúng ta phải xem xét cẩn thận những dữ liệu chúng ta đã có, và quyết định những dữ liệu nào cần phải thêm vào để phục vụ cho việc khai phá. Thông thường chúng ta bắt đầu làm việc với một tập dữ liệu mẫu hợp lý, ví dụ như vài trăm cho đến vài nghìn hoặc thậm trí hàng triệu bản ghi, tùy vào từng lĩnh vực cụ thể. Một số phép xử lý được áp dụng để biến đổi dữ liệu, ví dụ như trường “Ngay_sinh” trở thành “tuổi” …Trong thực tế những chức năng khai phá dữ liệu của ODM được nhúng bên trong cơ sở dữ liệu làm cho việc xử lý dữ liệu trở nên đơn giản đi nhiều.

Xây dựng và đánh giá mô hình: Được tiến hành khi đã hoàn thành bước 1 và bước hai, là bước sử dụng các thuật toán khai phá dữ liệu để chọn lọc toàn bộ dữ liệu nhằm tìm ra những mẫu và để xây dựng một mô hình dự đoán. Thông thường, khi đi phân tích dữ liệu, chúng ta nên xây dựng một vài mô hình và thay đổi các tham số khai phá để cố gắng xây dựng các mô hình tốt nhất hay hiệu quả nhất. Với ODM, không cần thiết phải đưa dữ liệu ra ngoài cơ sở dữ liệu để khai phá.

69

Triển khai tri thức khi ODM đã tìm ra một mô hình có ích phù, hợp với mô hình của dữ liệu. ODM được tích hợp các thuật toán khai phá dữ liệu nên loại bỏ việc phải di chuyển mô hình đã tìm được đến với dữ liệu trong cơ sở dữ liệu hoặc phải đưa một lượng lớn các bản ghi chưa được đánh giá ra ngoài cơ sở dữ liệu để sử dụng mô hình vừa tìm được. Vì thế việc xây dựng và áp dụng mô hình được ODM tiến hành một cách đơn giản.

Một phần của tài liệu Một số vấn đề liên quan đến khai phá dữ liệu bằng cây quyết định (Trang 67)

Tải bản đầy đủ (PDF)

(90 trang)