Công cụ khai phá dữ liệu Oracle (Oracle Data Mining – ODM) là một phần mềm khai phá dữ liệu mạnh, được tích hợp cùng với cơ sở dữ liệu Oracle. Cho phép chúng ta có được những hiểu biết sâu sắc, những thông tin mới, ẩn chứa trong dữ liệu. ODM giúp các nhà kinh doanh nhắm đến những khách hàng tốt nhất, tìm ra và ngăn ngừa những sai sót, tìm ra những yếu tố có tác dụng nhiều nhất, ảnh hưởng đến chỉ số hiệu năng then chốt. ODM giúp các chuyên gia kỹ thuật tìm thấy những mẫu trong dữ liệu, nhận diện các thuộc tính quan trọng, phát hiện ra sự phân cụm, kết hợp và mang lại những hiểu biết có giá trị [2],[8].
ODM là một lựa chọn đáng giá của phiên bản Oracle Database 10g Enterprise Edition (EE). Với ODM, các chức khai phá dữ liệu và áp dụng các mô hình đã tìm thấy được tích hợp hoàn hảo vào trong CSDL Oracle – dữ liệu và các hoạt động khai phá dữ liệu luôn được đặt bên trong cơ sở dữ liệu. Thay thế cách truyền thống, bắt buộc chúng ra phải đưa dữ liệu ra khỏi cơ sở dữ liệu, cách làm này vừa không
67
tin cậy và tốn kém. Khai phá dữ liệu bên trong cơ sở dữ liệu vừa hạn chế phải di chuyển dữ liệu, vừa tin cậy và dữ liệu luôn là mới nhất.
ODM nhúng các thuật toán phân lớp và hồi quy, tập hợp và phân nhóm các mô hình, xác định thuộc tính quan trọng, lựa chọn đặc tính, khai phá văn bản, sắp xếp và đối sánh chuỗi trong cơ sở dữ liệu Oracle. Các chức năng xây dựng và áp dụng mô hình có thể truy cập bằng cả giao diện lập trình ứng dụng Java, PL/SQL và một công cụ giao diện đồ họa là Oracle Data Miner. Sự kết hợp của Oracle Data Miner với PL/SQL và Java ODM APIs của ODM cung cấp một cơ sở vững chắc để các nhà phân tích dữ liệu và các nhà phát triển ứng dụng tích hợp việc khai phá dữ liệu với các ứng dụng CSDL một cách hoàn hảo.
ODM cho phép kết hợp sử dụng rộng rãi các thuật toán nổi tiếng để chắt lọc thông tin tiềm ẩn, chúng là những kỹ thuật học máy dùng cho phân tích dữ liệu của một số loại vấn đề cụ thể. Các thuật toán khác nhau thì phù hợp với những loại phân tích khác nhau. ODM hỗ trợ cả kỹ thuật học có giám sát (phân lớp, hồi quy và dự báo vấn đề ) và không giám sát (phân cụm, kết hợp và vấn đề lựa chọn đặc trưng), kỹ thuật tìm thuộc tính quan trọng, khai phá dữ liệu văn bản và ngoài ra còn có một thuật toán khác như tìm kiếm tuần tự và vấn đề sắp xếp.
ODM cung cấp bốn thuật toán học có giám sát: Naïve Bayes (NB), cây quyết định, Mạng tương thích Bayes (ABN), Support Vector Machines cho việc phân lớp và dự báo và năm thuật toán cho kỹ thuật học không giám sát đó là: Phân cụm K- trung bình mở rộng (enhanced k-means clustering) và phân cụm phân chia trực giao (Orthogonal Partitioning Clustering ) cho gom nhóm dữ liệu một cách tự nhiên; Phát hiện dị thường để tìm ra những sự kiện ít thấy hay nghi ngờ; Luật kết hợp để tìm ra các mẫu của các sự kiện xảy ra một cách đồng thời, và cuối cùng là Tìm ma trận thừa số không âm - Nonnegative Matrix Factorization (NMF) cho việc tạo ra những đặc trưng và giảm số lượng các thuộc tính.
ODM cung cấp thuật toán Minimum Description Length (MDL) cho vấn đề thuộc tính quan trọng để nhận ra thuộc tính có ảnh hưởng nhiều nhất lên một trường hay một thuộc tính phụ thuộc. Cuối cùng, ODM còn có kỹ thuật tìm kiếm sắp xếp nội tại cơ bản (Basic Local Alignment Search Technique) tìm kiếm trên dữ liệu gen
68
và tế bào để tìm ra các chuỗi gần khớp nhất với một chuỗi nào đó. Tóm lại, các thuật toán của ODM có thể đáp ứng được mọi yêu cầu trong kinh doanh, kỹ thuật và khoa học về vấn đề khai phá dữ liệu.