1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai thác luật kết hợp sử dụng oracle

64 25 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Khai Thác Luật Kết Hợp Sử Dụng Oracle
Tác giả Nguyễn Tấn Danh
Người hướng dẫn PGS.TS Võ Đình Bảy
Trường học Trường Đại Học Công Nghệ Tp. Hcm
Chuyên ngành Công Nghệ Thông Tin
Thể loại Luận Văn Thạc Sĩ
Năm xuất bản 2016
Thành phố Tp. Hcm
Định dạng
Số trang 64
Dung lượng 1,84 MB

Cấu trúc

  • CHƯƠNG 1: KHAI THÁC DỮ LIỆU (15)
    • 1.1 Tổng quan khai thác dữ liệu (15)
    • 1.2 Quá trình khám phá tri thức (16)
    • 1.3 Dữ liệu (17)
    • 1.4 Khuôn dạng bảng của dữ liệu có thể thuộc hai loại (18)
    • 1.5 Tiền xử lý dữ liệu (19)
    • 1.6 Mô hình khai thác dữ liệu (21)
  • CHƯƠNG 2: CÁC THUẬT TOÁN KH I THÁC DỮ LIỆU TRONG (0)
    • 2.1 Phân lớp (Classification) (23)
    • 2.2 Phân lớp - một quá trình hai bước (24)
    • 2.3 Phân lớp bằng học cây quyết định (25)
    • 2.4 Minh hoạ việc áp dụng các phép đo khi tạo cây quyết định: . 16 (27)
    • 2.5 Hồi qui (32)
    • 2.6 Thuật toán SVM cho Hồi qui (34)
    • 2.7 Phân nhóm (34)
    • 2.8 Kỹ thuật dựa tâm - Thuật toán K-mean (36)
    • 2.9 Khai thác luật kết hợp (37)
    • 2.10 Phân tích giỏ hang (37)
    • 2.11 Thuật toán Apriori (39)
    • 2.12 Sinh ra Candidate của Apriori (43)
    • 2.13 Hàm Subset (44)
  • CHƯƠNG 3: KHAI THÁC LUẬT KẾT HỢP SỬ DỤNG ORC LE . 35 (46)
    • 3.1 Cơ sở dữ liệu giao dịch (46)
    • 3.2 Lựa chọn công cụ khai thác (47)
    • 3.3 Oracle Data Mining (ODM) (48)
    • 3.4 DBMS_Data_Mining (50)
    • 3.5 Mục tiêu khai thác thông tin của CSDL giao dịch (51)
  • CHƯƠNG 4: THỰC NGHIỆM KH I THÁC LUẬT KẾT HỢP SỬ DỤNG OR CLE (0)
    • 4.1 Thực nghiệm trên cơ sở dữ liệu giao dịch (53)
    • 4.2 Xác định nội dung khai thác (55)
  • CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN (61)
    • 5.1. Kết luận (61)
    • 5.2. Hướng phát triển (62)

Nội dung

KHAI THÁC DỮ LIỆU

Tổng quan khai thác dữ liệu

Khai thác dữ liệu dựa trên hai phương pháp chính là thống kê và học máy Thống kê, với nguồn gốc từ toán học, tập trung vào độ chính xác và mong muốn thiết lập các lý thuyết có cơ sở toán học trước khi thực nghiệm Ngược lại, học máy có nguồn gốc từ thực tiễn tính toán, nhấn mạnh vào việc kiểm thử và đánh giá hiệu suất mà không cần chờ đợi chứng minh chính thức.

Khai thác dữ liệu là quá trình phát hiện các mô hình, tổng kết và giá trị từ tập dữ liệu đã cho.

Khai thác dữ liệu là quá trình thăm dò và phân tích lượng dữ liệu lớn nhằm phát hiện các mẫu hợp lệ, mới lạ và hữu ích Qua đó, việc khai thác dữ liệu giúp chúng ta hiểu rõ hơn về thông tin tiềm ẩn trong dữ liệu.

Hợp lệ là các mẫu mang tính tổng quát, mới lạ là những mẫu chưa được biết đến trước đó, có ích khi cho phép đưa ra các hành động phù hợp, và hiểu được là khả năng biên dịch cũng như thấu đáo các mẫu đó.

Kỹ năng phân tích của con người đang gặp nhiều hạn chế do kích thước và chiều của dữ liệu ngày càng lớn, cùng với tốc độ tăng trưởng dữ liệu rất nhanh Bên cạnh đó, các công nghệ hiện đại hỗ trợ thu thập, lưu trữ, tính toán và phần mềm cũng đã phát triển mạnh mẽ, đòi hỏi sự thành thạo chuyên môn cao Hơn nữa, môi trường cạnh tranh hiện nay không chỉ tập trung vào giá cả mà còn vào chất lượng dịch vụ, đặc biệt trong các lĩnh vực như ngân hàng, siêu thị, công ty điện thoại, khách sạn và dịch vụ cho thuê.

Bí quyết thành công nằm ở việc nắm bắt những thông tin mà người khác chưa biết, như Onassis đã nói Chính điều này đã thúc đẩy sự phát triển mạnh mẽ của khai thác dữ liệu.

Quá trình khám phá tri thức

Trong khai thác dữ liệu, cần phân biệt rõ giữa hai thuật ngữ “mô hình” và “mẫu” Mô hình được hiểu là một cấu trúc quy mô lớn, tổng kết các quan hệ từ nhiều trường hợp, thậm chí có thể bao gồm tất cả các trường hợp Ngược lại, mẫu là một cấu trúc cục bộ, chỉ được xác lập bởi một số ít trường hợp hoặc trong một miền nhỏ của không gian dữ liệu Do đó, có thể xem mẫu như một mô hình cục bộ trong bối cảnh khai thác dữ liệu.

Quá trình khám phá tri thức tiến hành theo các bước sau:

1 Xác định bài toán nghiệp vụ: Trước tiên phải tìm hiểu lĩnh vực của ứng dụng nghiệp vụ; Tìm hiểu các tri thức liên quan và các mục đích của ứng dụng

- Lựa chọn dữ liệu: Xác định các tập dữ liệu đích và các trường liên quan

- Làm sạch dữ liệu: Xoá bỏ nhiễu, tiền xử lý Phần việc này có thể chiếm tới 60% công sức

Giảm bớt dữ liệu và chuyển đổi dữ liệu là quá trình quan trọng trong phân tích dữ liệu, giúp xác định các đặc trưng hữu dụng và loại bỏ những chiều hoặc biến không cần thiết Điều này cho phép biểu diễn lại các đại lượng bất biến một cách hiệu quả hơn, từ đó nâng cao chất lượng và độ chính xác của các mô hình phân tích.

- Lựa chọn chức năng khai thác dữ liệu: Tổng kết, phân lớp, Hồi qui, kết hợp, phân nhóm

- Lựa chọn thuật toán khai thác

- Thực hiện khai thác dữ liệu ( Data Mining ): Tìm kiếm các mẫu quan tâm

- Đánh giá các mẫu và biểu diễn tri thức

Hình 1.1 Quá trình khám phá tri thức [7]

3 Áp dụng khám phá tri thức vào thực tiễn

4 Đánh giá và đo đạc các mẫu khai thác đƣợc

5 Triển khai và tích hợp các mẫu khai thác vào thực tiễn.

Dữ liệu

Do sự đa dạng của các kiểu dữ liệu, các hệ thống cơ sở dữ liệu (CSDL) được sử dụng trong ứng dụng cũng khác nhau, dẫn đến nhu cầu của người dùng về một hệ thống khai thác dữ liệu có khả năng quản lý tất cả các loại dữ liệu Thực tế, các CSDL phổ biến hiện nay chủ yếu là CSDL quan hệ, và hệ thống khai thác dữ liệu thường hoạt động hiệu quả với dữ liệu quan hệ Tuy nhiên, đối với các CSDL chứa kiểu dữ liệu phức tạp như hypertext, multimedia, dữ liệu tạm, không gian (spatial) và dữ liệu kế thừa (legacy), thường cần có các hệ thống khai thác dữ liệu riêng biệt để xử lý hiệu quả các kiểu dữ liệu này.

Dữ liệu khai thác có thể bao gồm cả dữ liệu có cấu trúc và không có cấu trúc, trong đó mỗi bản ghi dữ liệu được xem như một trường hợp hoặc ví dụ cụ thể.

Trong phân tích dữ liệu, thuộc tính được chia thành hai kiểu chính: phân loại (categorical) và số (numerical) Các thuộc tính phân loại có giá trị thuộc về một số lượng nhỏ các phân loại hoặc lớp riêng biệt, không có thứ tự ẩn giữa chúng Nếu thuộc tính chỉ có hai giá trị như yes/no hay male/female, nó được gọi là thuộc tính nhị phân (binary) Ngược lại, nếu thuộc tính có hơn hai giá trị, chẳng hạn như nhỏ, vừa, lớn, và rất lớn, thì nó được xem là thuộc tính đa lớp (multiclass).

Các thuộc tính số là những thuộc tính có giá trị liên tục, chẳng hạn như thu nhập hàng năm hoặc tuổi Những giá trị này có thể dao động từ 0 đến vô hạn, mặc dù thường chỉ xuất hiện trong các khoảng thực tế nhất định Bên cạnh đó, các thuộc tính số cũng có thể được chuyển đổi thành dạng phân loại (categorical).

Ví dụ, thu nhập hàng năm có thể đƣợc chia thành các loại: thấp, trung bình, cao

Dữ liệu không có cấu trúc có thể áp dụng các thuật toán khai thác dữ liệu thường là dữ liệu kiểu Text.

Khuôn dạng bảng của dữ liệu có thể thuộc hai loại

- Dữ liệu dạng đơn bản ghi (còn gọi là kiểu không giao dịch), đây là các bảng dữ liệu quan hệ thông thường

Dữ liệu dạng đa bản ghi, hay còn gọi là kiểu giao dịch, được sử dụng cho dữ liệu có nhiều thuộc tính Trong khi đó, dữ liệu đơn bản ghi, hay kiểu không giao dịch, lưu trữ mỗi bản ghi như một dòng trong bảng mà không cần khóa để xác định duy nhất từng bản ghi Tuy nhiên, việc sử dụng khóa là cần thiết trong các trường hợp kết hợp để đạt được kết quả trong học có giám sát.

Trong dạng đa bản ghi (kiểu giao dịch), mỗi trường hợp được lưu trữ trong nhiều bản ghi của một bảng, bao gồm các cột như dãy số định danh, tên thuộc tính và giá trị.

Bảng 1.1 Khuôn dạng đơn bảng ghi và đa bảng ghi

Tiền xử lý dữ liệu

Trước khi tiến hành khai thác tri thức, dữ liệu cần được chọn lọc và trải qua bước tiền xử lý Quá trình thu thập và tiền xử lý dữ liệu rất phức tạp, vì việc áp dụng một thuật toán DM trên toàn bộ cơ sở dữ liệu có thể trở nên cồng kềnh và kém hiệu quả Trong khai thác dữ liệu, thường phải liên kết và tích hợp dữ liệu từ nhiều nguồn khác nhau, nhưng các hệ thống hiện có được thiết kế cho những mục đích khác nhau có thể dẫn đến tình trạng dư thừa, xung đột, và dữ liệu không đồng nhất Do đó, việc chọn lọc và làm sạch dữ liệu là điều cần thiết để đảm bảo tính chính xác và hiệu quả trong quá trình khai thác.

Khi sử dụng dữ liệu từ kho dữ liệu (DW) làm đầu vào cho quá trình khai thác, sẽ rất thuận lợi vì dữ liệu này đã được làm sạch, đồng nhất và có tính chất hướng chủ thể.

ID Thuộc tính Giá trị

Dữ liệu dạng đơn bảng ghi

Dữ liệu dạng đa bảng ghi

Tuy nhiên nhiều khi vẫn phải có thêm một số bước tiền xử lý để đưa dữ liệu về đúng dạng cần thiết

Trong quá trình tiền xử lý dữ liệu, ngoài các bước xử lý thông thường như biến đổi và tập hợp dữ liệu từ nhiều nguồn về một kho chung, cần chú ý đến việc đảm bảo tính nhất quán của dữ liệu Điều này bao gồm việc loại bỏ các trường hợp lặp, thống nhất cách ký hiệu và chuyển đổi dữ liệu về khuôn dạng thống nhất, chẳng hạn như đơn vị tiền tệ và định dạng ngày tháng.

Khi xử lý dữ liệu thiếu (missing data), người dùng thường không cần phải áp dụng phương pháp đặc biệt nào, vì các thuật toán khai thác dữ liệu thường tự động bỏ qua các giá trị thiếu Tuy nhiên, trong một số trường hợp, cần chú ý để đảm bảo rằng thuật toán có thể phân biệt giữa giá trị có nghĩa ("0") và giá trị trống.

Outlier, hay giá trị gây nhiễu, là những giá trị nằm ngoài miền thông thường trong tập dữ liệu, thể hiện sự chênh lệch rõ rệt so với chuẩn mực Sự hiện diện của các outlier có thể ảnh hưởng đáng kể đến hiệu quả của các mô hình khai thác dữ liệu.

Outliers có tác động lớn đến quá trình khai thác dữ liệu, đặc biệt trong giai đoạn tiền xử lý dữ liệu Chúng có thể ảnh hưởng đến các quyết định của người sử dụng hoặc quá trình tự động trong việc xây dựng mô hình Việc nhận diện và xử lý outliers là rất quan trọng để đảm bảo độ chính xác và hiệu quả của các mô hình phân tích dữ liệu.

Binning is a valuable technique in data mining that enhances the performance of various algorithms for both numerical and categorical data Algorithms such as Naive Bayes, Adaptive Bayes Network, Clustering, Attribute Importance, and Association Rules can significantly benefit from the application of binning.

Binning là quá trình nhóm các giá trị tương tự để giảm số lượng giá trị riêng biệt của một thuộc tính, giúp tạo ra mô hình gọn nhẹ và nhanh chóng hơn Tuy nhiên, việc này cũng có thể dẫn đến mất độ chính xác trong dữ liệu.

Mô hình khai thác dữ liệu

Mô hình khai thác dữ liệu là một mô tả chi tiết về một khía cạnh cụ thể của tập dữ liệu, giúp tạo ra các giá trị đầu ra dựa trên tập hợp các giá trị đầu vào.

Ví dụ: Mô hình Hồi qui tuyến tính, mô hình phân lớp, mô hình phân nhóm

- Một mô hình khai thác dữ liệu có thể đƣợc mô tả ở 2 mức:

- Mức chức năng (Function level): Mô tả mô hình bằng những thuật ngữ về dự định sử dụng Ví dụ: Phân lớp, phân nhóm

- Mức biểu diễn (representation level): Biểu diễn cụ thể một mô hình Ví dụ: Mô hình log-linear, cây phân lớp, phương pháp láng giềng gần nhất

Các mô hình khai thác dữ liệu được phân loại thành hai kiểu học chính: học có giám sát và học không giám sát, thường được gọi là học trực tiếp và học không trực tiếp.

Các hàm học có giám sát được sử dụng để dự đoán giá trị, trong khi các hàm học không giám sát giúp khám phá cấu trúc, mối quan hệ hoặc sự tương đồng trong dữ liệu mà không cần nhãn Ví dụ về thuật toán học không giám sát bao gồm phân nhóm K-mean và các luật kết hợp priori, trong khi Naive Bayes là một ví dụ của thuật toán học có giám sát cho phân lớp.

Tương ứng có 2 loại mô hình khai thác dữ liệu:

- Các mô hình dự báo (học có giám sát):

 Phân lớp: nhóm các items thành các lớp riêng biệt và dự đoán một item sẽ thuộc vào lớp nào

 Hồi qui (Regression): xấp xỉ hàm và dự báo các giá trị liên tục trọng nhất trong các kết quả dự báo

- Các mô hình mô tả (học không giám sát):

 Phân nhóm (Clustering): Tìm các nhóm tự nhiên trong dữ liệu

 Các mô hình kết hợp ( ssociation models): Phân tích “giỏ hàng”

 Trích chọn đặc trƣng (Feature extraction): Tạo các thuộc tính (đặc trƣng) mới nhƣ là kết hợp của các thuộc tính ban đầu

CÁC THUẬT TOÁN KH I THÁC DỮ LIỆU TRONG

Phân lớp (Classification)

Trong bài toán phân lớp, ta có dữ liệu lịch sử (các ví dụ đƣợc gán nhãn

Phân lớp là quá trình xây dựng mô hình dựa trên dữ liệu lịch sử để dự đoán chính xác nhãn của các ví dụ chưa được gán nhãn Mỗi ví dụ đã gán nhãn bao gồm nhiều thuộc tính dự báo và một thuộc tính đích, trong đó giá trị của thuộc tính đích chính là nhãn của lớp Các ví dụ không được gán nhãn chỉ chứa các thuộc tính dự báo.

Nhiệm vụ phân lớp bắt đầu bằng việc xây dựng dữ liệu huấn luyện với các nhãn lớp đã biết Các thuật toán phân lớp áp dụng nhiều kỹ thuật khác nhau để xác định mối quan hệ giữa các thuộc tính dự báo và thuộc tính đích trong dữ liệu huấn luyện Những mối quan hệ này được tổng hợp trong một mô hình, từ đó được sử dụng để dự đoán các giá trị đích cho các trường hợp mới có giá trị chưa biết.

Mô hình phân lớp có thể áp dụng cho bộ dữ liệu kiểm thử nhằm so sánh các giá trị dự báo với các câu trả lời đã biết, giúp đánh giá hiệu quả của mô hình.

Kỹ thuật kiểm tra mô hình đo độ chính xác dự báo của mô hình Khi áp dụng mô hình phân lớp cho dữ liệu mới, quá trình này được gọi là sử dụng mô hình, và dữ liệu này được gọi là dữ liệu sử dụng hay dữ liệu trung tâm Việc sử dụng dữ liệu thường được gọi là "scoring the data".

Sự phân lớp đóng vai trò quan trọng trong việc phân đoạn khách hàng và phân tích tín dụng, giúp các công ty như công ty thẻ tín dụng dự đoán khả năng không trả đúng hạn của khách hàng Mỗi khách hàng được xem như một trường hợp riêng biệt, với dữ liệu đầu vào bao gồm các thuộc tính nhân khẩu học và các yếu tố dự báo khác Thuộc tính đích cho biết liệu khách hàng có vỡ nợ hay không, tạo ra hai lớp khả năng: vỡ nợ và không vỡ nợ.

Dữ liệu huấn luyện sẽ được sử dụng để phát triển mô hình dự đoán khả năng chi trả nợ của khách hàng mới trong tương lai.

Trong bài toán phân lớp, việc xác định chi phí liên quan đến quyết định sai lầm là rất quan trọng, đặc biệt khi có sự chênh lệch lớn giữa các phân lớp sai Ví dụ, trong trường hợp dự báo khách hàng sẽ trả lời thư quảng cáo, có hai phân loại: YES (khách hàng trả lời) và NO (khách hàng không trả lời) Nếu phản hồi tích cực từ khách hàng mang lại giá trị $500 và chi phí gửi thư là $5, thì khi mô hình dự đoán YES và giá trị thực tế cũng là YES, chi phí phân lớp sai là $0 Tuy nhiên, nếu mô hình dự đoán YES mà giá trị thực tế lại là NO, chi phí phân lớp sai sẽ cần được tính toán để đánh giá chính xác hơn.

Nếu mô hình dự báo NO nhưng giá trị thực tế là YES, phân lớp sai sẽ tốn $500 Ngược lại, nếu mô hình dự báo NO và giá trị thực tế cũng là NO, chi phí sẽ là $0.

Ma trận chi phí bao gồm chỉ số hàng ứng với các giá trị thực và chỉ số cột tương ứng với các giá trị dự báo Mỗi cặp chỉ số thực-dự báo trong ma trận thể hiện chi phí liên quan đến việc phân lớp sai.

Một số thuật toán như Adaptive Bayes Network tối ưu hóa ma trận chi phí trực tiếp để tạo ra giải pháp với chi phí tối thiểu Trong khi đó, các thuật toán khác như Naive Bayes sử dụng ma trận chi phí để dự đoán xác suất và tìm kiếm kết quả trên dữ liệu thực nhằm đưa ra giải pháp có chi phí thấp nhất.

Phân lớp - một quá trình hai bước

Bước 1 Xây dựng mô hình (Học)

Xây dựng mô hình bằng cách phân tích tập dữ liệu huấn luyện, sử dụng hoặc các công thức toán học, mạng nơron…

Bước này còn được coi là bước tạo ra bộ phân lớp (classifier)

Bước 2: Sử dụng mô hình phân lớp để áp dụng cho tập dữ liệu kiểm thử với các lớp đã xác định, nhằm kiểm tra và đánh giá độ chính xác của mô hình Nếu độ chính xác đạt yêu cầu, mô hình sẽ được sử dụng để phân lớp cho các dữ liệu mới.

Có ba tập dữ liệu có cấu trúc và các thuộc tính dự đoán tương đồng: Tập huấn luyện và tập kiểm thử đã xác định lớp, trong khi tập dữ liệu mới chưa xác định lớp.

Phân lớp bằng học cây quyết định

Phương pháp tạo ra các bộ phân lớp hiệu quả từ dữ liệu là sinh ra cây quyết định, một biểu diễn logic phổ biến Cây quyết định bao gồm các nodes nơi các thuộc tính được kiểm tra, và các nhánh của mỗi node tương ứng với tất cả các kết quả khả thi từ việc kiểm tra đó Ví dụ, một cây quyết định đơn giản có thể được sử dụng để phân lớp các mẫu với hai thuộc tính đầu vào X và Y.

Trong hình 1.3, tất cả các mẫu có giá trị đặc trưng X > 1 và Y = B thuộc về Class2, trong khi các mẫu có giá trị X < 1 đều thuộc về Class1, bất kể giá trị của Y.

Hình 2.1: Cây quyết định đơn giản với các tests trên các thuộc tính X và Y

Y=A, Y=B, Y=C được khởi đầu từ tập các mẫu huấn luyện Kết quả là thuật toán tạo ra một bộ phân lớp dưới dạng cây quyết định, bao gồm hai loại nút: nút lá, đại diện cho một lớp, và nút quyết định, thể hiện kiểm tra trên một giá trị thuộc tính đơn Mỗi nút quyết định có nhánh và cây con tương ứng cho mỗi khả năng đầu ra của kiểm tra.

Cây quyết định được sử dụng để phân lớp mẫu mới bằng cách bắt đầu từ gốc cây và di chuyển qua các node cho đến khi gặp lá Tại mỗi node không phải lá, đầu ra sẽ được xác định qua kiểm tra tại node đó, từ đó lựa chọn di chuyển tới gốc của cây con Ví dụ, với mô hình phân lớp và mẫu đã cho, thuật toán sẽ tạo đường đi qua các node C và F (node lá) để đưa ra quyết định phân lớp cuối cùng là CLASS2.

Mô hình cây quyết định sử dụng thuật toán phát triển cây (tree-growing) để tạo ra cây quyết định thông qua các phân tách đơn biến, với ID3 và phiên bản mở rộng C4.5 là những thuật toán chủ yếu trong quá trình này.

Trong quá trình lựa chọn một kiểm tra với n đầu ra cho một đặc trưng nhất định, nhiệm vụ là phân chia tập mẫu học T thành các tập con T1, T2,…, Tn Thông tin hướng dẫn chủ yếu dựa vào sự phân tán của các lớp trong tập T và các tập con Ti tương ứng Đối với một tập mẫu bất kỳ S, freq(Ci, S) thể hiện số lượng mẫu trong S thuộc lớp Ci, trong khi |S| đại diện cho tổng số mẫu trong tập S.

1) Cây quyết định 2) Ví dụ phân lớp thuộc tính đƣợc kiểm tra, dựa trên khái niện lý thuyết thông tin: entropy Quan hệ sau đây đƣa ra tính toán của entropy của tập S: k k

Info(S) = -  pi log 2 p i = -  ((freq(Ci, S) / |S|) * log 2 (freq(C i , S) / |S|) i=1 i=1

Xem xét tập T sau khi đã được phân chia theo n đầu ra của thuộc tính kiểm tra X Thông tin mong đợi có thể được xác định bằng cách tính tổng trọng số của các entropies trên các tập con tương ứng với n.

Info x (T) = -  ((|Ti| / |T|) * Info(T i )) i=1 là công thức tính độ đo lợi ích thông tin Gain, cho thấy một thuộc tính có lợi ích thông tin cao giúp cải thiện khả năng phân lớp Cụ thể, khi biết giá trị của thuộc tính, việc xác định lớp của đối tượng trở nên dễ dàng hơn Ví dụ, trong hình 1.3, nếu biết X>1, ta có thể ngay lập tức xác định đối tượng thuộc lớp Class1.

X đƣợc đo bằng độ giảm entropy trung bình của tập T sau khi đã biết giá trị của X:

Minh hoạ việc áp dụng các phép đo khi tạo cây quyết định: 16

CSDL T có 14 trường hợp được mô tả với 3 thuộc tính đầu vào và được phân loại thành 2 nhóm: CL SS1 và CL SS2, như thể hiện trong bảng 1.1.

9 mẫu thuộc vào CL SS1 và 5 mẫu thuộc CL SS2, vậy entropy trước khi phân tách là:

Thông tin (Info(T)) được tính toán bằng công thức: Info(T) = – 9/14 log 2 (9/14) – 5/14 log 2 (5/14) = 0.940 bits Sau khi sử dụng thuộc tính 1 để chia tập mẫu T ban đầu thành 3 tập con, kết quả thông tin thu được sẽ phản ánh sự phân loại dựa trên biểu diễn lựa chọn một trong 3 giá trị: B hoặc C.

Bảng 2.1: CSDL đơn giản gồm các ví dụ huấn luyện CSDL T:

Thông tin thu đƣợc bằng kiểm tra x1 này là:

Gain (x1) = 0.940 – 0.694 = 0.246 bits Khi kiểm tra và phân tách dựa trên attribute3, với x2 là biển diễn lựa chọn giữa hai giá trị True hoặc False, các tính toán tương tự sẽ mang lại những kết quả mới.

Gain tương ứng được tính là Gain(x 2) = 0.940 – 0.892 = 0.048 bits Thuật toán cây quyết định sử dụng tiêu chí lợi ích (gain criterion) để xác định kiểm tra tối ưu, dựa trên giá trị lợi ích cao hơn Để thực hiện điều này, cần phân tích kiểm tra trên thuộc tính số (attribute2) với các giá trị liên tục Mặc dù đã giải thích kiểm tra chuẩn cho các thuộc tính phân loại, nhưng quy trình thiết lập kiểm tra cho các thuộc tính số vẫn cần được làm rõ Việc thiết lập kiểm tra trên các thuộc tính liên tục gặp khó khăn trong việc công thức hóa, do nó yêu cầu một ngưỡng để phân tách tất cả các giá trị thành hai khoảng.

Có một thuật toán để tính toán giá trị ngưỡng tối ưu Z bằng cách sắp xếp các mẫu học dựa trên giá trị của thuộc tính Y Các giá trị này được ký hiệu trong thứ tự đã sắp xếp là {v1, v2, …, vm} Mọi giá trị ngưỡng nằm giữa vi và vi+1 sẽ có tác dụng tương tự, vì chúng chia các trường hợp thành các phần mà giá trị thuộc tính Y nằm trong {v1, v2, …, vi} và trong các phần tiếp theo.

Trong tập hợp {v i+1 , v i+2 , …, vm}, chỉ có m-1 khả năng trên Y cần được kiểm tra một cách hệ thống để đạt được phân tách tối ưu Thông thường, ngưỡng được chọn là điểm giữa của mỗi khoảng, được tính bằng công thức (vi + v i+1 )/2.

Quá trình tìm ngưỡng cho CSDL T bắt đầu bằng việc phân tích khả năng phân tách của attribute2 Sau khi sắp xếp, tập các giá trị của attribute2 được xác định là {65, 70, 75, 78, 80, 85, 90, 95, 97}, trong khi tập các giá trị ngưỡng tiềm năng Z là {65, 70, 75, 78, 80, 85, 90, 95} Để tối ưu hóa thông tin lợi ích, cần lựa chọn giá trị Z tối ưu, trong trường hợp này là Z = 80 Quá trình này cũng bao gồm việc tính toán thông tin lợi ích tương ứng cho kiểm tra x3 với điều kiện attribute2 ≤ 80.

+ 5/14 ( – 2/5 log 2 (2/5) – 3/5 log 2 (3/5)) = 0.837 bits Gain(x 3 ) = 0.940 – 0.837 = 0.103 bits

So sánh thông tin lợi ích cho ba thuộc tính, ta nhận thấy attribute1 mang lại lợi ích cao nhất với 0.246 bits Do đó, thuộc tính này sẽ được chọn làm gốc để kiểm tra các giá trị của attribute1, từ đó tạo ra ba nhánh, mỗi nhánh tương ứng với một giá trị của thuộc tính Cây quyết định ban đầu này cùng với các tập con mẫu trong các nút con được thể hiện trong hình.

Hình 2.3: Cây quyết định ban đầu và tập con các trường hợp cho một CSDL trong bảng 2.1

Sau khi thực hiện phân tách ban đầu, mỗi nút con sẽ chứa một số mẫu từ cơ sở dữ liệu, và quy trình lựa chọn cùng tối ưu kiểm tra sẽ được lặp lại cho tất cả các nút con Ví dụ, nếu nút con kiểm tra x1: attribute1 = B có 4 trường hợp và tất cả đều thuộc CLASS1, thì nút này sẽ trở thành nút lá và không cần thực hiện thêm kiểm tra nào cho nhánh này của cây.

Khi chọn node con còn lại, có 5 trường hợp trong tập con T1 Các kiểm tra trên các thuộc tính còn lại có thể được thực hiện, và một kiểm tra tối ưu với thông tin có ích cực đại sẽ là kiểm tra x4 với 2 lựa chọn: Attribute2 ≤ 70 hoặc Attribute2 > 70.

Info (T 1 ) = – 2/15 log 2 (2/5) – 3/15 log 2 (3/5) = 0.940 bits Dùng ttribute2 để chia T1 thành 2 tập con (kiểm tra x4 biểu diễn lựa chọn của một trong 2 khoảng), thông tin kết quả đƣợc cho bởi:

Gain thu đƣợc bởi test này là cực đại:

Và 2 nhánh sẽ tạo các node lá cuối cùng vì các tập con của các trường hợp trong mỗi nhánh thuộc vào cùng một class

Tính toán tương tự sẽ được thực hiện cho con thứ ba của nút gốc Đối với tập con T3 của cơ sở dữ liệu T, việc kiểm tra x5 tối ưu được thực hiện trên các giá trị của attribute3 Các nhánh của cây, bao gồm attribute3 = True và attribute3 = False, sẽ tạo ra các tập con đồng nhất cho các trường hợp thuộc cùng một lớp Cây quyết định cuối cùng cho cơ sở dữ liệu T được trình bày trong hình 2.4.

Hình 2.4 Cây quyết định cuối cùng cho CSDL T đã nêu trong bảng 2.1

Cây quyết định có thể được biểu diễn dưới dạng mã thực hiện hoặc giả mã thông qua các cấu trúc if-then, giúp tách nhánh thành một cấu trúc cây Ví dụ về cây quyết định cuối cùng được trình bày trong giả mã như hình 2.5.

Cây quyết định ở dạng giả code cho CSDL T (bảng 2.1)

Hồi qui

Hồi quy là một phương pháp phân tích dữ liệu sử dụng thống kê để tạo ra các mô hình dự báo cho các biến liên tục Kỹ thuật này tự động xác định công thức toán học nhằm tối thiểu hóa các sai số giữa giá trị dự đoán từ mô hình hồi quy và dữ liệu thực tế.

Mô hình hồi quy đơn giản nhất bao gồm một biến phụ thuộc, được gọi là "biến đầu ra" hoặc "biến Y", và một biến độc lập đơn, thường được gọi là "biến ngoại sinh" hay "biến X".

Sự phụ thuộc của huyết áp (Y) theo tuổi tác (X) và trọng lượng (Y) theo khẩu phần ăn hàng ngày là ví dụ điển hình cho hồi quy của Y lên X Hồi quy này giúp xác định mối quan hệ giữa các biến số, từ đó cung cấp thông tin quan trọng trong nghiên cứu sức khỏe.

Hồi quy là phương pháp tạo ra các mô hình dự báo cho các thuộc tính đích có giá trị số hoặc liên tục, trong khi phân lớp tập trung vào các thuộc tính đích phân loại hoặc riêng lẻ Nếu thuộc tính đích có giá trị liên tục, kỹ thuật hồi quy sẽ được sử dụng; ngược lại, nếu thuộc tính đích là các giá trị phân loại, phân lớp sẽ là lựa chọn phù hợp.

Hồi qui tuyến tính là dạng phổ biến nhất của hồi qui, trong đó một đường thẳng được tính toán để phù hợp nhất với dữ liệu, nhằm tối thiểu hóa khoảng cách trung bình giữa các điểm dữ liệu và đường thẳng đó Đường thẳng này trở thành mô hình dự báo cho giá trị của biến phụ thuộc chưa biết, với giá trị được dự đoán dựa trên điểm nằm trên đường tương ứng với các biến độc lập của bản ghi.

Hình 2.5 Hồi qui tuyến tính

 Các biến ngẫu nhiên X1, …, Xk (các biến dự báo) và Y (biến phụ thuộc)

 Xi có miền (domain) là dom(Xi), Y có miền là dom(Y)

 P là một phân bố xác suất trên dom(X1) x … x dom(Xk) x dom(Y)

 CSDL huấn luyện D là một mẫu ngẫu nhiên từ P

 Bộ dự báo (predictor) là một hàm:

Nếu Y là số, bài toán là bài toán Hồi qui Y đƣợc gọi là biến phụ thuộc, d đƣợc gọi là hàm Hồi qui

Gọi r là một bản ghi ngẫu nhiên lấy từ P định nghĩa tỷ suất lỗi trung bình bình phương của d là:

Bài toán RT(d,P) = E(r.Y – d(r.X1, …, r.Xk))² được định nghĩa như sau: cho tập dữ liệu D, là mẫu ngẫu nhiên từ phân phối xác suất P, nhiệm vụ là tìm hàm hồi quy d sao cho RT(d, P) đạt giá trị cực tiểu.

Thuật toán SVM cho Hồi qui

Support Vector Machine (SVM) là một công cụ mạnh mẽ trong việc xây dựng mô hình phân lớp và hồi quy Với khả năng dự báo chính xác, SVM sử dụng lý thuyết học máy để tối đa hóa độ chính xác dự đoán, đồng thời tự động giảm thiểu nguy cơ vươt ngưỡng (over-fit) đối với dữ liệu.

Các mạng neural và các hàm radial basis (RBFs), hai kỹ thuật khai thác thông dụng, có thể được xem là trường hợp đặc biệt của SVMs

SVM (Support Vector Machines) là một công cụ mạnh mẽ trong các ứng dụng thực tế như phân loại dữ liệu văn bản, nhận dạng chữ viết tay và phân loại hình ảnh Kể từ khi được giới thiệu vào những năm 1990, SVM đã thúc đẩy sự phát triển mạnh mẽ của các ứng dụng và phân tích lý thuyết, trở thành một trong những công cụ chuẩn cho học máy và khai thác dữ liệu, bên cạnh mạng neural.

Không có giới hạn trên nào trên số lƣợng các thuộc tính và ứng viên đích cho SVMs

Chi tiết về chuẩn bị dữ liệu và các thiết đặt lựa chọn cho SVM – tham khảo trong [13].

Phân nhóm

Phân nhóm là một kỹ thuật quan trọng trong khai thác dữ liệu, giúp xác định các mẫu trong tập dữ liệu lớn khi không có các nhóm tự nhiên rõ ràng Các thuật toán phân nhóm trong khai thác dữ liệu có khả năng phát hiện và phân loại các trường hợp khác nhau, từ đó hỗ trợ việc phân tích và ra quyết định hiệu quả hơn.

Phân tích phân nhóm là quá trình xác định các nhóm trong dữ liệu, trong đó một nhóm được định nghĩa là tập hợp các đối tượng dữ liệu tương tự nhau Phương pháp phân nhóm hiệu quả sẽ tạo ra các nhóm chất lượng cao, đảm bảo rằng sự tương tự giữa các nhóm khác nhau là thấp, trong khi sự tương tự bên trong mỗi nhóm lại cao Nói cách khác, các thành viên trong cùng một nhóm sẽ có nhiều điểm chung hơn so với các thành viên trong nhóm khác.

Phân nhóm là bước tiền xử lý dữ liệu hiệu quả giúp xác định các nhóm không đồng nhất, phục vụ cho việc xây dựng các mô hình dự báo Khác với mô hình dự báo, đầu ra của phân nhóm không dựa trên các kết quả đã biết và không có thuộc tính đích Mô hình dự báo tập trung vào việc dự đoán giá trị cho thuộc tính đích, cho phép tính toán tỷ suất lỗi giữa giá trị dự đoán và giá trị thực Trong khi đó, mô hình phân nhóm khai thác các nhóm tự nhiên trong dữ liệu, cho phép gán nhãn (cluster IDs) cho các điểm dữ liệu.

Ví dụ, cho tập dữ liệu với 2 thuộc tính: GE và HEIGHT, luật sau đây biểu diễn phần lớn dữ liệu đƣợc gán cho cluster 10:

If AGE >= 25 and AGE = 5.0ft and HEIGHT = s là các cặp frequent pairs L2.

3 Bộ ba candidate C3 là những tập { , B, C} mà tất cả { , B}, { C} và {B, C} đều trong L2 Lần duyệt thứ 3, bộ ba candidate trong C3 có số lần xuất hiện >= s là các bộ 3 frequent, L3

4 Có thể tiếp tục đến khi các tập trở thành rỗng Li là frequent itemsets có kích thước i; Ci+1 là itemsets kích thước i+1 mà mỗi tập con kích thước i đều nằm trong Li

1.Giai đoạn tạo itemsets 3 Giai đoạn tính 4 Giai đoạn chọn

Sinh ra Candidate của Apriori

The apriori-gen function takes the parameter L k-1, which is the set of all large (k-1)-itemsets, and returns a superset of all large k-itemsets The function operates by first performing a join step, where it connects L k-1 with itself It inserts into C k by selecting items from L k-1, ensuring that the first k-2 items of both sets match while the k-1 item from the first set is less than that from the second set.

In the pruning step, we eliminate all itemsets \( c \) from \( C_k \) if any of their (k-1) subsets \( s \) are not present in \( L_{k-1} \) Specifically, for every itemset \( c \) in \( C_k \), we check each (k-1) subset \( s \) of \( c \) and remove \( c \) from \( C_k \) if \( s \) is not found in \( L_{k-1} \).

Ví dụ, Cho L3 là { {1 2 3}, {1 2 4}, {1 3 4}, {1 3 5}, {2 3 4} } Sau

3) C k =apriori-gen(L k-1 ); // Ứng viên mới

5) C t =subset(C k , t); // Những ứng viên ở trong t

3 4 5} vỡ itemset {1 4 5} là khụng trong L 3 Sau ủú chỉ cũn {1 2 3 4} trong C 4

Tính đúng đắn trong quy trình khai thác tập hợp lớn (large itemset) yêu cầu rằng mọi tập con của nó đều phải đạt được mức hỗ trợ tối thiểu Khi mở rộng mỗi itemset trong L k-1 với tất cả các items có thể, ta cần loại bỏ những items mà không có (k-1)-subsets trong L k-1 Quá trình này sẽ giúp ta thu được một superset của các itemsets trong L k.

Kết nối tập hợp itemsets với mở rộng L k-1 cho mỗi item trong cơ sở dữ liệu và sau đó loại bỏ những itemsets mà với nú (k-1) itemset được tạo bằng cách loại bỏ item thứ (k-1) không có trong L k-1 Điều kiện p.itemk-1 < q.item k-1 đảm bảo rằng không sinh ra trùng lặp Do đó, sau bước kết nối, C k bao gồm L k Tương tự, trong bước cắt tỉa, loại bỏ khỏi C k tất cả các itemsets mà (k-1)-subsets của nó không có trong L k-1 sẽ không làm mất bất kỳ itemset nào có thể có trong L k.

Hàm Subset

Các candidate itemsets C k được tổ chức trong một cấu trúc hash-tree, trong đó mỗi node có thể là một danh sách itemsets (node lá) hoặc một bảng băm (node trong) Mỗi bucket của bảng băm chỉ tới một node khác, với gốc của hash-tree được xác định ở độ sâu 1 Khi thêm một itemset, quá trình bắt đầu từ gốc và đi xuống đến node lá, quyết định nhánh đi theo dựa trên hàm băm của item thứ d Tất cả các nodes được tạo ra ban đầu là node lá, và khi số lượng itemsets trong một node lá vượt quá ngưỡng nhất định, node đó sẽ được chuyển thành node trong.

Hàm subset bắt đầu từ node gốc để tìm tất cả các candidates trong giao dịch t Tại lá, nó xác định itemset nào có trong t và thêm tham chiếu vào tập kết quả Nếu ở node trong, hàm áp dụng đệ quy đến node tương ứng trong bucket Tại node gốc, hàm băm trên mọi item trong t để đảm bảo chỉ bỏ qua itemsets bắt đầu bằng item không có trong t Các tham số này cũng được áp dụng ở các độ sâu thấp hơn Do các items trong itemset được sắp xếp, việc băm item i cho phép chỉ xem xét các items xuất hiện sau i trong t.

KHAI THÁC LUẬT KẾT HỢP SỬ DỤNG ORC LE 35

Cơ sở dữ liệu giao dịch

Ngành siêu thị đã áp dụng công nghệ thông tin vào quản lý từ lâu, xây dựng hệ thống công nghệ đồ sộ để quản lý hàng hóa hiệu quả trong giai đoạn mới Hiện nay, toàn bộ hệ thống đã có cơ sở dữ liệu phân tán tại các siêu thị trên toàn quốc, với mạng máy tính kết nối để trao đổi thông tin và dữ liệu giữa trung tâm và các siêu thị Các ứng dụng phục vụ cho bán hàng, nhập hàng và thống kê đã được phát triển, cùng với hệ thống quản lý tổng hợp báo cáo kế toán về xuất, nhập và tồn kho.

CSDL ngành Siêu thị giữ vai trò quan trọng trong lĩnh vực hàng tiêu dùng và có giá trị lớn đối với cả nước Thông tin về các mặt hàng và sức mua sắm trong CSDL này sẽ góp phần không nhỏ vào việc xây dựng CSDL quốc gia về mặt hàng tiêu dùng.

Trước đây, cơ sở dữ liệu (CSDL) siêu thị chỉ được sử dụng cho các tác nghiệp hàng ngày và báo cáo thống kê Tuy nhiên, trong những năm gần đây, đặc biệt là trong bối cảnh cạnh tranh khốc liệt của thị trường bán lẻ, CSDL ngành siêu thị đã bắt đầu đóng vai trò quan trọng hơn trong việc phân tích thông tin.

Trong bối cảnh dịch vụ bán lẻ phát triển mạnh mẽ, việc cải tiến dịch vụ và sản phẩm trở nên cần thiết hơn bao giờ hết Để đáp ứng nhu cầu của người tiêu dùng trong môi trường hội nhập quốc tế, cần xây dựng quy trình quản lý bán hàng hiệu quả nhất.

Nghiên cứu lý thuyết khai thác dữ liệu và áp dụng nó trong cơ sở dữ liệu ngành bán lẻ của siêu thị nhằm khám phá những kết quả thú vị từ kho thông tin của siêu thị Mặc dù những kết quả khai thác trong luận văn này có thể chưa mang lại ý nghĩa thiết thực ngay lập tức, nhưng hy vọng sẽ góp phần vào việc cải thiện quản lý hàng hóa trong các siêu thị.

Lựa chọn công cụ khai thác

Có rất nhiều sản phẩm hỗ trợ việc khai thác tri thức từ CSDL

CSDL ngành bán lẻ sử dụng là CSDL Oracle Do vậy việc chọn công cụ khai thác dữ liệu của hãng Oracle cũng là một lựa chọn tất yếu

Khai thác dữ liệu bằng sản phẩm của hãng Oracle, có thể lựa chọn:

1 Darwin: Là một ứng dụng khai thác dữ liệu đặc biệt để xử lý với nhiều gigabytes dữ liệu và cung cấp những câu trả lời cho các bài toán phức tạp nhƣ phân lớp dữ liệu, dự đoán và dự báo

Phần mềm Darwin chuyển đổi khối lượng dữ liệu lớn thành tri thức kinh doanh, giúp tìm ra các mẫu và liên kết có ý nghĩa trong dữ liệu Những mẫu này hỗ trợ doanh nghiệp hiểu rõ hơn và dự đoán hành vi của khách hàng.

2 Oracle Data Mining (ODM) được thiết kế cho người lập trình, những nhà phân tích hệ thống, các quản trị dự án và cho tất cả những ai quan tâm đến việc phát triển các ứng dụng CSDL dùng khai thác dữ liệu để phát hiện ra các mẫu ẩn và dùng tri thức đó để tạo các dự đoán

ODM là công cụ khai thác dữ liệu tích hợp trong CSDL Oracle, cho phép thực hiện các hoạt động như chuẩn bị dữ liệu, xây dựng mô hình và áp dụng mô hình ngay trong cơ sở dữ liệu Điều này tạo điều kiện thuận lợi cho các nhà phân tích dữ liệu và nhà phát triển ứng dụng tích hợp khai thác dữ liệu một cách liền mạch với các ứng dụng CSDL.

Darwin là một sản phẩm khai thác dữ liệu được phát triển dành riêng cho hệ điều hành Unix Tuy nhiên, trong ngành siêu thị hiện nay, hệ điều hành Windows vẫn đang được sử dụng phổ biến và chưa có kế hoạch mua bản quyền sử dụng Darwin.

Các thành phần liên quan đến CSDL Oracle sử dụng tại siêu thị đều có công cụ khai thác dữ liệu đƣợc lựa chọn trong luận văn này.

Oracle Data Mining (ODM)

Oracle Data Mining (ODM) cung cấp giao diện lập trình ứng dụng PL/SQL và Java PI để tạo ra các mô hình khai thác dữ liệu có giám sát và không giám sát Hai API này hoàn toàn tương tác với nhau, cho phép người dùng tạo mô hình bằng một PI và sau đó sửa đổi hoặc sử dụng chúng qua API khác.

Java API là một thực hiện của Oracle theo chuẩn JDM 1.9 theo đúng framework mở rộng của chuẩn JSR-4.51

PL/SQL PI cho phép sử dụng các package để phát triển mô hình khai thác dữ liệu, kiểm thử mô hình và áp dụng chúng vào dữ liệu nhằm thu thập thông tin dự đoán và mô tả hiệu quả.

Các PI của Oracle Data Mining hỗ trợ cả chức năng khai thác dự đoán và mô tả Chức năng dự đoán, hay còn gọi là học có giám sát, sử dụng dữ liệu huấn luyện để dự đoán giá trị đích, trong khi chức năng mô tả, hay học không giám sát, xác định các quan hệ bản chất bên trong dữ liệu Mỗi chức năng khai thác xác định một lớp các bài toán và có thể được thực hiện bằng một hoặc nhiều thuật toán Ngoài ra, các PI cũng cung cấp các phương tiện chuyển đổi dữ liệu cơ sở nhằm chuẩn bị dữ liệu cho quá trình khai thác.

Oracle Data Mining cung cấp:

3 Các chức năng dự đoán sau:

Chức năng Mô tả Các thuật toán

The article discusses the use of various classification models, including Naive Bayes, Adaptive Classification, and Bayes Networks, to predict discrete data It also highlights the application of Support Vector Machines and Decision Trees in classification tasks.

Phát hiện bất thường Mô hình phát hiện bất One-Class Support

Anomaly Detection thường dự đoán có hay Vector Machine (SVM) không một điểm dữ liệu là điển hình cho sự phân tán cho trước

PL/SQL và Java APIs hỗ trợ phát hiện bất thường thông qua One-Class SVM, sử dụng chức năng phân lớp và thuật toán SVM không có đích.

Mô hình Hồi qui dùng dữ liệu lịch sử để dự đoán dữ liệu số, liên tiếp mới

Support Vector Machine độ quan trọng của Mô hình độ quan trọng của Minimal Descriptor thuộc tính thuộc tính xác định tầm Length

Attribute Importance quan trọng liên quan của một thuộc tính trong việc dự đoán một đầu ra cho trước

4 Các chức năng mô tả sau:

Chức năng Mô tả Các thuật toán

Mô hình phân nhóm xác Enhanced k-means giúp xác định các nhóm tự nhiên trong tập dữ liệu, trong khi Orthogonal Clustering (O-Cluster) là thuật toán bản quyền của Oracle Bên cạnh đó, các luật kết hợp trong mô hình kết hợp xác định được áp dụng thông qua thuật toán Apriori, mang lại hiệu quả cao trong việc phân tích dữ liệu.

Association Rules analyze relationships and their occurrence within datasets Non-Negative Matrix Factorization is a key feature extraction model that creates an optimized dataset, serving as a foundation for further modeling.

DBMS_Data_Mining

Phương pháp phát triển cho khai thác dữ liệu dùng giao diện DBMS_DATA_MINING đƣợc chia thành hai pha

Pha đầu tiên bao gồm việc phân tích và thiết kế dữ liệu của ứng dụng, trong đó thực hiện hai bước sau:

5 Phân tích bài toán, lựa chọn hàm khai thác và thuật toán khai thác

6 Phân tích dữ liệu đƣợc dùng cho xây dựng các mô hình khai thác (build data), kiểm thử các mô hình dự đoán (test data), và sử dụng dữ liệu mới trên mô hình (scoring data)

Pha thứ hai bao gồm việc phát triển ứng dụng khai thác dùng các packages DBMS_DATA_MINING và

7 Chuẩn bị dữ liệu xây dựng, kiểm thử, áp dụng (build, test, scoring data) dùng package DBMS_DATA_MINING_TRANSFORM hoặc công cụ third-party hoặc dùng trực tiếp các scripts SQL hoặc PL/SQL trong mẫu phù hợp với hàm và thuật toán lựa chọn Việc quan trọng là ba tập dữ liệu đã nêu ở trên phải đƣợc chuẩn bị theo cách giống nhau để việc khai thác ra các kết quả có ý nghĩa

8 Chuẩn bị các bảng thiết lập tham số thay thế cho các thiết đặt ngầm định của thuật toán, của chức năng khai thác Bước này là tuỳ chọn

9 Xây dựng mô hình khai thác cho tập dữ liệu huấn luyện đã cho

10 Với các mô hình dự đoán (phân lớp và hồi qui), kiểm thử mô hình cho tính chính xác và đo hiệu năng Việc này là áp dụng mô hình trên dữ liệu kiểm thử sẽ đƣợc dùng với mô hình khi áp dụng Thông tin này sẽ giúp biết chắc chắn dữ liệu khai thác là phù hợp với mô hình đã cho đây là bước tuỳ chọn

11 Áp dụng mô hình phân lớp, hồi qui, phân nhóm, hoặc mô hình trích chọn đặc trƣng với dữ liệu mới để sinh ra các dự đoán và/hoặc các tổng kết mô tả và các mẫu về dữ liệu

12 Lấy các chi tiết của mô hình để hiểu đƣợc vì sao mô hình mô hình cho ra dữ liệu trong mỗi mẫu cụ thể, đây là bước tuỳ chọn

13 Lặp lại bước 3 đến bước 9, đến khi ta thu được các kết quả vừa ý.

Mục tiêu khai thác thông tin của CSDL giao dịch

Hiện nay, hầu hết các tổ chức áp dụng công nghệ thông tin trong quản lý chỉ dừng lại ở mức ứng dụng tác nghiệp thông thường, chủ yếu hỗ trợ nhập liệu và xuất báo cáo Số lượng ứng dụng hỗ trợ phân tích và ra quyết định còn hạn chế Tuy nhiên, với xu hướng phát triển hiện tại, nhu cầu về các ứng dụng khai thác tri thức từ cơ sở dữ liệu (CSDL) sẽ ngày càng tăng.

Ngành Siêu thị hiện đang tích cực áp dụng Công Nghệ Thông Tin nhằm cải thiện dịch vụ bán hàng và tăng doanh số, nhằm cạnh tranh hiệu quả với các đối thủ ngày càng gia tăng trong lĩnh vực bán lẻ.

 Công tác tuyên truyền, hỗ trợ và cung cấp các dịch vụ phục vụ cho Khách hàng

 Công tác khuyến mãi, hậu mãi, v.v

Khai thác dữ liệu hiệu quả đóng vai trò quan trọng trong việc hỗ trợ công tác tuyên truyền và chăm sóc khách hàng Thông qua phân tích dữ liệu, doanh nghiệp có thể xác định các kết quả giúp định hướng chiến lược hỗ trợ và tuyên truyền, từ đó lựa chọn mặt hàng đầu tư hợp lý Việc sắp xếp hàng hóa một cách thông minh sẽ kích thích sự quan tâm của khách hàng, đồng thời thúc đẩy cải tiến dịch vụ chăm sóc khách hàng.

Một thách thức lớn trong ngành bán lẻ là giảm thiểu phiền hà cho khách hàng trong quá trình lựa chọn hàng hóa và thanh toán Để đạt được điều này, cần có sự đánh giá và dự báo chính xác Việc thu thập thông tin từ các siêu thị thông qua các báo cáo tài chính như bảng cân đối kế toán, báo cáo kết quả hoạt động kinh doanh và báo cáo lưu chuyển tiền tệ là rất quan trọng Những báo cáo này, kết hợp với dữ liệu từ siêu thị, giúp phân tích và đưa ra quyết định quản lý hiệu quả hơn Tuy nhiên, hiện tại, ứng dụng phân tích mới chỉ dừng lại ở việc cung cấp báo cáo liệt kê các chỉ tiêu một cách riêng lẻ, cần phải phát triển thêm để hỗ trợ các nhà quản lý trong quá trình ra quyết định.

Nghiên cứu cho thấy nhiều phương pháp khai thác dữ liệu có thể cải thiện hiệu quả bán hàng và chăm sóc khách hàng trong ngành bán lẻ Trong khuôn khổ luận văn này, chức năng khai thác được lựa chọn để thử nghiệm trên cơ sở dữ liệu siêu thị.

Khai thác luật kết hợp có thể giúp tăng doanh số bán hàng và cải thiện dịch vụ chăm sóc khách hàng bằng cách phát hiện ra những tri thức hữu ích.

THỰC NGHIỆM KH I THÁC LUẬT KẾT HỢP SỬ DỤNG OR CLE

Ngày đăng: 11/07/2021, 16:52

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Trương Ngọc Châu, Phan Văn Dũng (2002), Nghiên cứu tính ứng dụng của khai thác luật kết hợp trong Cơ sở dữ liệu giao dịch, Trường Đại Học Bách Khoa, Đại Học Đà Nẵng Sách, tạp chí
Tiêu đề: Nghiên cứu tính ứng dụng của khai thác luật kết hợp trong Cơ sở dữ liệu giao dịch
Tác giả: Trương Ngọc Châu, Phan Văn Dũng
Năm: 2002
[3] Nguyễn Lương Thục (2002), Một số phương pháp khai thác luật kết hợp và cài đặt thử nghiệm, Luận văn thạc sĩ ngành Công nghệ Thông tin, Trường đại học Bách khoa Hà Nội.Tiếng Anh Sách, tạp chí
Tiêu đề: Một số phương pháp khai thác luật kết hợp và cài đặt thử nghiệm", Luận văn thạc sĩ ngành Công nghệ Thông tin, Trường đại học Bách khoa Hà Nội
Tác giả: Nguyễn Lương Thục
Năm: 2002
[8] Jyothsna R. Nayak and Diane J. Cook (2012), Approximate Association Rule Mining, Department of Computer Science and Engineering, Arlington Sách, tạp chí
Tiêu đề: Approximate Association Rule Mining
Tác giả: Jyothsna R. Nayak and Diane J. Cook
Năm: 2012
[9] M. Kantardzic (2011), Data Mining: Concepts, Models, Methods, and Algorithms, John Wiley &amp; Sons Sách, tạp chí
Tiêu đề: Data Mining: Concepts, Models, Methods, and Algorithms
Tác giả: M. Kantardzic
Năm: 2011
[10] M.-S. Chen, J. Han, P.S. Yu (2011), Data Mining: An Overview from Database Perspective, Natural Sciences and Engineering Research Council of Canada Sách, tạp chí
Tiêu đề: Data Mining: An Overview from Database Perspective
Tác giả: M.-S. Chen, J. Han, P.S. Yu
Năm: 2011
[11] Oracle (2013), Oracle Data Mining Concepts 11g Release 2 (11.2), Oracle Corporation Sách, tạp chí
Tiêu đề: Oracle Data Mining Concepts 11g Release 2 (11.2)
Tác giả: Oracle
Năm: 2013
[12] Shraddha Masih, Sanjay Tanwani (2014), Data Mining Techniques in Parallel and Distributed Environment- A Comprehensive Survey, School of Computer Science &amp; IT, DAVV, Indore, India Sách, tạp chí
Tiêu đề: Data Mining Techniques in Parallel and Distributed Environment- A Comprehensive Survey
Tác giả: Shraddha Masih, Sanjay Tanwani
Năm: 2014
[13] Rakesh Agrawal, Tomasz Imielinski, Arun Swami (2014), Mining Association Rules between Sets of Items in Large Databases, IBM Almaden Research Center Sách, tạp chí
Tiêu đề: Mining Association Rules between Sets of Items in Large Databases
Tác giả: Rakesh Agrawal, Tomasz Imielinski, Arun Swami
Năm: 2014
[14] K. Bhardwaj (2014), Database Management Systems, Guru Ghasidas University Sách, tạp chí
Tiêu đề: Database Management Systems
Tác giả: K. Bhardwaj
Năm: 2014

HÌNH ẢNH LIÊN QUAN

Hình 1.1 Quá trình khám phá tri thức [7] 3. Áp dụng khám phá tri  thức vào thực tiễn.  - Khai thác luật kết hợp sử dụng oracle
Hình 1.1 Quá trình khám phá tri thức [7] 3. Áp dụng khám phá tri thức vào thực tiễn. (Trang 17)
Bảng 1.1 Khuôn dạng đơn bảng ghi và đa bảng ghi - Khai thác luật kết hợp sử dụng oracle
Bảng 1.1 Khuôn dạng đơn bảng ghi và đa bảng ghi (Trang 19)
Bước 2. Sử dụng mô hình (Phân lớp) - Khai thác luật kết hợp sử dụng oracle
c 2. Sử dụng mô hình (Phân lớp) (Trang 25)
Hình 2.2: Sự phân lớp một mẫu mới dựa trên mô hình cây quyết định Thuật toán phát triển  cây (tree-growing) cho việc sinh ra cây quyết định dựa  trên các phân tách đơn biến là ID3 với phiên bản mở rộng là  C4.5 - Khai thác luật kết hợp sử dụng oracle
Hình 2.2 Sự phân lớp một mẫu mới dựa trên mô hình cây quyết định Thuật toán phát triển cây (tree-growing) cho việc sinh ra cây quyết định dựa trên các phân tách đơn biến là ID3 với phiên bản mở rộng là C4.5 (Trang 26)
Hình 2.3: Cây quyết định ban đầu - Khai thác luật kết hợp sử dụng oracle
Hình 2.3 Cây quyết định ban đầu (Trang 30)
Hình 2.4 Cây quyết định cuối cùng cho CSD LT đã nêu trong bảng 2.1 Tuỳ chọn, một cây quyết định cũng có  thể đƣợc biểu diễn ở dạng một   mã thực hiện (hoặc giả mã) với các cấu trúc if-then cho việc tách nhánh thành  một cấu trúc  cây - Khai thác luật kết hợp sử dụng oracle
Hình 2.4 Cây quyết định cuối cùng cho CSD LT đã nêu trong bảng 2.1 Tuỳ chọn, một cây quyết định cũng có thể đƣợc biểu diễn ở dạng một mã thực hiện (hoặc giả mã) với các cấu trúc if-then cho việc tách nhánh thành một cấu trúc cây (Trang 31)
Cây quyết địn hở dạng giả code cho CSD LT (bảng 2.1) - Khai thác luật kết hợp sử dụng oracle
y quyết địn hở dạng giả code cho CSD LT (bảng 2.1) (Trang 32)
Hình 2.5 Hồi qui tuyến tính - Khai thác luật kết hợp sử dụng oracle
Hình 2.5 Hồi qui tuyến tính (Trang 33)
Hình 2.6 Gộp nhóm theo phƣơng pháp K-means (điểm đánh dấu + là tâm) [9] - Khai thác luật kết hợp sử dụng oracle
Hình 2.6 Gộp nhóm theo phƣơng pháp K-means (điểm đánh dấu + là tâm) [9] (Trang 37)
Bảng 2.2 Mô hình CSDLgiao dịch đơn giản - Khai thác luật kết hợp sử dụng oracle
Bảng 2.2 Mô hình CSDLgiao dịch đơn giản (Trang 38)
Xem xét CSDL trong bảng 1.2. Giả sử rằng độ hỗ trợ tối thiểu s=50% nhƣ  vậy  một  itemset  là  frequent  nếu  nó  đƣợc  chứa  trong  ít  nhất  là  50%  các   giao  dịch - Khai thác luật kết hợp sử dụng oracle
em xét CSDL trong bảng 1.2. Giả sử rằng độ hỗ trợ tối thiểu s=50% nhƣ vậy một itemset là frequent nếu nó đƣợc chứa trong ít nhất là 50% các giao dịch (Trang 40)
Bảng 2.4 Lần lặp thứ 2 của thuật toán Apriori cho CSDL DB - Khai thác luật kết hợp sử dụng oracle
Bảng 2.4 Lần lặp thứ 2 của thuật toán Apriori cho CSDL DB (Trang 41)
PL/SQL PI: Có thể sử dụng các package để xây dựng mô hình khai thác, kiểm thử mô hình, và áp dụng mô hình với dữ liệu để thu đƣợc các thông  tin dự đoán và mô tả - Khai thác luật kết hợp sử dụng oracle
th ể sử dụng các package để xây dựng mô hình khai thác, kiểm thử mô hình, và áp dụng mô hình với dữ liệu để thu đƣợc các thông tin dự đoán và mô tả (Trang 48)
điển hình cho sự phân tán cho trƣớc.  - Khai thác luật kết hợp sử dụng oracle
i ển hình cho sự phân tán cho trƣớc. (Trang 49)
Mô hình Hồi qui dùng dữ liệu  lịch  sử  để  dự  đoán  dữ  liệu số, liên tiếp mới  - Khai thác luật kết hợp sử dụng oracle
h ình Hồi qui dùng dữ liệu lịch sử để dự đoán dữ liệu số, liên tiếp mới (Trang 49)
Trích chọn đặc trƣng Mô hình trích chọn đặc Non-Negative Matric Feature Extraction  trƣng tạo tập dữ liệu tối   ƣu  Factorization  - Khai thác luật kết hợp sử dụng oracle
r ích chọn đặc trƣng Mô hình trích chọn đặc Non-Negative Matric Feature Extraction trƣng tạo tập dữ liệu tối ƣu Factorization (Trang 50)
Hình 4.1 Công sức cần cho mỗi giai đoạn khai thác dữ liệu Sử dụng ODM để khai thác luật kết hợp gồm những bƣớc chính: Chuẩn  - Khai thác luật kết hợp sử dụng oracle
Hình 4.1 Công sức cần cho mỗi giai đoạn khai thác dữ liệu Sử dụng ODM để khai thác luật kết hợp gồm những bƣớc chính: Chuẩn (Trang 53)
Hình 4.2 Các bƣớc khai thác luật kết hợp trên CSDLgiao dịch - Khai thác luật kết hợp sử dụng oracle
Hình 4.2 Các bƣớc khai thác luật kết hợp trên CSDLgiao dịch (Trang 54)
Hình 4.3 CSDLgiao dịch - Khai thác luật kết hợp sử dụng oracle
Hình 4.3 CSDLgiao dịch (Trang 55)
Hình 4.4 Sơ đồ kết nối dữ liệu trƣớc khi khai thác luật - Khai thác luật kết hợp sử dụng oracle
Hình 4.4 Sơ đồ kết nối dữ liệu trƣớc khi khai thác luật (Trang 56)
Hình 4.5 Các luật khai thác từ ODM (độ dài luật = 2) - Khai thác luật kết hợp sử dụng oracle
Hình 4.5 Các luật khai thác từ ODM (độ dài luật = 2) (Trang 56)
Hình 4.8 Kết quả phân lớp bằng cây quyết định - Khai thác luật kết hợp sử dụng oracle
Hình 4.8 Kết quả phân lớp bằng cây quyết định (Trang 57)
Hình 4.7 Kết quả phân lớp bằng thuật toán máy hỗ trợ véc tơ - Khai thác luật kết hợp sử dụng oracle
Hình 4.7 Kết quả phân lớp bằng thuật toán máy hỗ trợ véc tơ (Trang 57)
Hình 4.10 Kết quả so sánh giữa các thuật toán phân lớp - Khai thác luật kết hợp sử dụng oracle
Hình 4.10 Kết quả so sánh giữa các thuật toán phân lớp (Trang 58)
- Nhìn vào hình ta thấy thuật toán máy hỗ trợ véc tơ có độ cây là 47.765, thuật toán Navie Bayes có độ tin cậy 48.873, thuật toán mô hình tuyến tính tổng quát có độ tin  cậy 46.4227 - Khai thác luật kết hợp sử dụng oracle
h ìn vào hình ta thấy thuật toán máy hỗ trợ véc tơ có độ cây là 47.765, thuật toán Navie Bayes có độ tin cậy 48.873, thuật toán mô hình tuyến tính tổng quát có độ tin cậy 46.4227 (Trang 58)
Hình 4.11 Luật kết hợp khai thác đƣợc với độ hỗ trợ = 0.5 - Khai thác luật kết hợp sử dụng oracle
Hình 4.11 Luật kết hợp khai thác đƣợc với độ hỗ trợ = 0.5 (Trang 59)
Hình 4.12 Hiển thị luật kết hợp của CSDL thực.         - Khai thác luật kết hợp sử dụng oracle
Hình 4.12 Hiển thị luật kết hợp của CSDL thực. (Trang 60)
Hình 4.13 Lƣu luật kết hợp khai thác đƣợc lƣu ra tệp. - Khai thác luật kết hợp sử dụng oracle
Hình 4.13 Lƣu luật kết hợp khai thác đƣợc lƣu ra tệp (Trang 60)

TỪ KHÓA LIÊN QUAN

w