Tổng quan về khai phá dữ liệu
Khai phá dữ liệu là gì?
Figure 1 Khai phá dữ liệu là gì?
Khai phá dữ liệu (data mining) là một giai đoạn quan trọng trong tiến trình Khám Phá Tri Thức trong Cơ sở Dữ liệu (KDD), được hiểu là quá trình chiết xuất và phát hiện tri thức từ khối lượng dữ liệu lớn.
Khai phá dữ liệu là quá trình sử dụng các nguyên tắc thống kê để phát hiện các mẫu trong dữ liệu Bằng cách áp dụng các thuật toán khai thác dữ liệu trong dịch vụ phân tích, chúng ta có thể dự đoán xu hướng, xác định các mẫu, tạo ra quy tắc và đề xuất, cũng như phân tích chuỗi sự kiện trong các tập dữ liệu phức tạp, từ đó thu được những thông tin chi tiết mới.
Khám phá tri thức trong các cơ sở dữ liệu (Knowledge discovery in databases KDD)
Trích rút tri thức (knowledge extraction)
Phân tích mẫu/dữ liệu (data/pattern analysis).
Data Mining, hay khai thác dữ liệu, được so sánh với việc "Đãi cát tìm vàng", nghĩa là tìm kiếm những thông tin quý giá từ một khối lượng lớn dữ liệu thô Thuật ngữ này chỉ quá trình xác định và trích xuất các mẫu hữu ích từ dữ liệu để phục vụ cho phân tích và ra quyết định.
Ứng dụng thực tiễn của Data Mining
Phân tích dữ liệu tài chính sử dụng Data Mining để nâng cao độ trung thành của khách hàng Bằng cách thu thập và phân tích dữ liệu hành vi, doanh nghiệp có thể dự đoán các hành vi của khách hàng, từ đó đưa ra các dịch vụ và sản phẩm phù hợp.
Ngành công nghiệp bán lẻ đang áp dụng khai phá dữ liệu để xây dựng mô hình nhận diện xu hướng mua sắm của khách hàng Việc này không chỉ giúp doanh nghiệp cải thiện chất lượng sản phẩm và dịch vụ mà còn nâng cao sự hài lòng và giữ chân khách hàng hiệu quả hơn.
Ngành công nghiệp viễn thông (Telecommunication Industry)
Khai phá dữ liệu trong ngành viễn thông đóng vai trò quan trọng trong việc xác định các mô hình sử dụng dịch vụ, phát hiện hoạt động gian lận, tối ưu hóa nguồn tài nguyên và nâng cao chất lượng dịch vụ viễn thông.
Phân tích dữ liệu sinh học (Biological Data Analysis)
Khai phá dữ liệu sinh học là một phần rất quan trọng của lĩnh vực Tin -Sinh học (Bioinformatics)
Phát hiện xâm nhập bất hợp pháp (Intrusion Detection)
Với sự phát triển của internet và các công cụ hỗ trợ xâm nhập mạng, việc kiểm soát truy cập bất hợp pháp trở thành yếu tố quan trọng để đảm bảo sự ổn định của hệ thống.
Dựa vào mối liên hệ giữa các triệu chứng để chuẩn đoán bệnh và hướng điều trị.
Phân tích các cuộc gọi điện thoại để dự đoán hành vi người dung nhằm nâng cao chất lượng,
Các bước của qua trình khai phá dữ liệu
Quá trình khai thác dữ liệu bắt đầu bằng việc xác định rõ ràng vấn đề cần giải quyết Tiếp theo, các dữ liệu liên quan sẽ được xác định để xây dựng phương pháp xử lý hiệu quả.
Bước tiếp theo trong quy trình là thu thập và xử lý các dữ liệu liên quan để chúng có thể được hiểu và khai thác hiệu quả bởi các thuật toán khai phá dữ liệu.
Tiếp theo là công việc thu thập và tiền xử lý dữ liệu.
Bước tiếp theo là lựa chọn thuật toán khai phá dữ liệu phù hợp để thực hiện quá trình khai thác, nhằm phát hiện các mẫu có ý nghĩa Những mẫu này thường được biểu diễn dưới dạng các luật phân loại, cây quyết định, luật sản xuất, hoặc biểu thức hồi quy.
Figure 2 Quá trình khai phá dữ liệu
Các phương pháp khai phá dữ liệu
Người ta thường sử dụng các phương pháp sau cho khai phá dữ liệu
Là phương pháp dự báo, cho phép phân loại một đối tượng vào một hoặc một số lớp cho trước.
Figure 3 Ví dụ về cây quyết định
Là phương pháp khám phá chức năng học dự đoán, ánh xạ một mực dữ liệu thành biến dự đoán giá trị thực
Figure 4 Ví dụ hồi quy đơn biến
Là một nhiệm vụ mô tả phổ biến trong đó người ta tìm cách xác định một tập hợp hữu hạn các cụm để mô tả dữ liệu
Figure 5 Phân cụm dữ liệu kinh doanh so sánh tuổi của khách hàng với quy mô bán hàng
Trong ví dụ này, chúng ta có thể nhận ra hai cụm, một cụm xung quanh nhóm2.000 Đô la Mỹ/ 20-30 tuổi và một cụm ở nhóm 7.000-8.000 Đô la Mỹ/ 50-65 tuổi
Figure 6 Ví dụ về giải thuật Kmean, với n = 10 và k = 2
Mô hình ràng buộc (Dependency modeling)
Figure 7.Ví dụ về biểu đồ thể hiện lượng nước của sông Nile thay đổi theo các mốc thời gian
Biểu diễn mô hình (Model Representation)
Kiểm định mô hình (Model Evaluation)
Figure 8.Ma trận nhầm lẫn ( Confusion Matrix)
Phương pháp tìm kiếm (Search Method)
Các kỹ thuật trong khai phá dữ liệu
Kỹ thuật phân lớp
Đây là kỹ thuật cho phép phân loại đối tượng vào một hoặc một số lớp cho trước.
Kỹ thuật này cho phép phân loại khách hàng và mặt hàng bằng cách mô tả nhiều thuộc tính, từ đó xác định đối tượng vào một lớp cụ thể.
Kỹ thuật khai thác dữ liệu được sử dụng để trích xuất thông tin quan trọng từ dữ liệu và siêu dữ liệu Trong quá trình phân tích và phân loại, việc áp dụng các thuật toán khác nhau là cần thiết, tùy thuộc vào mục tiêu sử dụng cụ thể.
Email Outlook áp dụng các thuật toán để phân loại email thành hợp pháp hoặc spam Tương tự, các doanh nghiệp cũng có thể sử dụng kỹ thuật này để phân loại khách hàng theo đối tượng và độ tuổi.
Kỹ thuật phân lớp được tiến hành bao gồm 2 bước: Xây dựng mô hình và sử dụng mô hình:
Xây dựng mô hình là quá trình mô tả các lớp đã được định nghĩa trước, trong đó mỗi bộ dữ liệu được gán vào một lớp cụ thể dựa trên thuộc tính nhãn lớp Tập hợp các bộ dữ liệu này được gọi là tập huấn luyện Mô hình có thể được biểu diễn dưới dạng các luật phân lớp, cây quyết định và công thức toán học.
Việc sử dụng mô hình nhằm mục đích phân lớp dữ liệu trong tương lai hoặc cho các đối tượng chưa biết đến là rất quan trọng Trước khi áp dụng mô hình, cần đánh giá tính chính xác của nó bằng cách so sánh nhãn đã biết của mẫu kiểm tra với kết quả phân lớp của mô hình Độ chính xác được tính bằng phần trăm mẫu kiểm tra mà mô hình phân loại đúng, và tập kiểm tra phải độc lập với tập huấn luyện để đảm bảo kết quả đáng tin cậy.
Các thuật toán thường dùng trong phân lớp:
Thuật toán Cây quyết định là một công cụ mạnh mẽ trong phân loại và hồi quy, cho phép dự đoán cho cả thuộc tính rời rạc và liên tục Đối với thuộc tính rời rạc, thuật toán này dựa vào mối quan hệ giữa các cột đầu vào trong tập dữ liệu để đưa ra dự đoán Nó sử dụng các giá trị, hay còn gọi là trạng thái, của những cột này để dự đoán trạng thái của cột mục tiêu Cụ thể, thuật toán xác định các cột đầu vào có mối tương quan với cột có thể dự đoán, từ đó tạo ra những kết quả chính xác hơn.
Cách thức hoạt động của thuật toán:
Thuật toán cây quyết định của Microsoft phát triển mô hình khai thác dữ liệu thông qua việc tạo ra các “nhánh cây” (node) Mỗi khi phát hiện cột đầu vào có mối tương quan với cột dự đoán, thuật toán sẽ thêm một node mới Cách thức xác định node phụ thuộc vào loại dữ liệu cần dự đoán, có thể là dữ liệu kiểu rời rạc hoặc kiểu liên tục.
Dự đoán dữ liệu rời rạc diễn ra khi thuật toán tạo ra các nút mới trong mô hình cây Nút gốc của cây thể hiện phân tích của cột có khả năng dự đoán cho toàn bộ khách hàng, và trong quá trình phát triển, thuật toán sẽ đánh giá tất cả các cột dữ liệu.
Khi thuật toán Cây Quyết định của Microsoft tạo ra một cây dự đoán cho các cột dữ liệu liên tục, mỗi nút trong cây sẽ chứa một công thức hồi quy Sự phân tách trong cây diễn ra tại các điểm không tuyến tính của công thức hồi quy đó.
Cây quyết định được sử dụng rất phổ biến bởi một số lí do sau:
Việc xây dựng cây quyết định không yêu cầu kiến thức chuyên môn hay thiết lập các tham số ban đầu, điều này làm cho nó trở thành một công cụ lý tưởng cho việc khám phá tri thức.
Cây quyết định có thể quản lý dữ liệu có số chiều lớn.
Việc biểu đạt tri thức dưới dạng cây có thể được diễn đạt dễ dàng.
Quá trình học và phân lớp (sử dụng) của cây quyết định được thực hiện nhanh chóng.
Nhìn chung, cây quyết định cho độ chính xác cao Tuy nhiên điều này còn phụ thuộc vào dữ liệu của chúng ta.
3.1.2 Thuật tốn microsoft nạve bayes
Thuật toán Microsoft Naive Bayes là một phương pháp phân loại dựa trên định lý Bayes, có thể áp dụng cho cả mô hình khám phá và dự đoán Thuật toán này sử dụng các kỹ thuật Bayes nhưng giả định rằng các thuộc tính là độc lập với nhau.
Thuật toán này đơn giản hơn về mặt tính toán so với các thuật toán khác của Microsoft, giúp nhanh chóng tạo ra các mô hình khai thác để khám phá mối quan hệ giữa các cột đầu vào và cột dự đoán Nó có thể được sử dụng để khám phá dữ liệu ban đầu, sau đó áp dụng kết quả để phát triển các mô hình khai thác bổ sung bằng các thuật toán khác có cường độ tính toán cao hơn và độ chính xác tốt hơn.
Cách thức hoạt động của thuật toán:
Thuật toán Microsoft Naive Bayes xác định xác suất cho từng trạng thái của các cột đầu vào, cho phép dự đoán các trạng thái tiềm năng của từng cột.
Kỹ thuật kết hợp
Kỹ thuật Association trong khai phá dữ liệu giúp xác định mối quan hệ giữa các biến trong cơ sở dữ liệu và “giải nén” các mẫu ẩn Quy tắc Association rất hữu ích trong việc kiểm tra và dự đoán hành vi, đặc biệt là trong ngành bán lẻ.
Các doanh nghiệp áp dụng kỹ thuật này để phân tích hành vi mua sắm và dữ liệu trong giỏ hàng của khách hàng tiềm năng Trong lĩnh vực Công nghệ Thông tin, lập trình viên sử dụng kỹ thuật này để phát triển các chương trình Machine Learning.
Trong lĩnh vực Data Mining, luật kết hợp (Association Rule - AR) nhằm mục tiêu phát hiện các mối quan hệ giữa các đối tượng trong một khối lượng dữ liệu lớn.
Một số loại luật kết hợp:
Luật kết hợp nhị phân
Luật kết hợp định hướng
Kỹ thuật phân cụm
Kỹ thuật phân cụm là kĩ thuật nhận diện các cụm tiềm ẩn trong tập các đối tượng chưa được xếp lớp.
Tiến trình phân cụm dựa trên mức độ tương tự giữa các đối tượng, nhằm tối đa hóa sự tương đồng trong cùng một cụm và tối thiểu hóa sự tương đồng giữa các cụm khác nhau.
Các cụm được đặc trưng bằng các tính chất chung của tất cả các đối tượng trong cụm.
Do vậy, khảo sát các cụm sẽ giúp khái quát, toongt kết nhanh chóng nội dung của khối dữ liệu lớn.
Những Loại Dữ Liệu Cần Phân Cụm:
Dữ Liệu Browse Website của khách hàng
Dữ Liệu Lịch sử các giao dịch của khách Hàng
Dữ Liệu về hành vi của khách hàng ở các kênh thương mại điện tử
Các thuật toán dùng trong phân cụm
Thuật Toán phân cụm tuần tự là một công cụ mạnh mẽ, kết hợp giữa việc gom cụm và phân tích trình tự Thuật toán này giúp xác định các sự kiện có thể liên kết với nhau thành chuỗi liên tục Bằng cách tìm kiếm những chuỗi chung nhất, thuật toán thực hiện quá trình gom cụm để phát hiện các chuỗi tương tự.
Một trình tự (Sequence) là một chuỗi các sự kiện (State) riêng biệt và rời rạc, thường có số lượng các state giới hạn Trong thực tế, chuỗi dữ liệu rất phổ biến và nhiều thông tin được mã hóa dưới dạng chuỗi trình tự.
Cách hoạt động của thuật toán:
Thuật toán Microsoft Sequence Clustering kết hợp các kỹ thuật phân cụm và phân tích chuỗi Markov để xác định các cụm và trình tự của chúng, với điểm nổi bật là khả năng sử dụng dữ liệu trình tự.
Dữ liệu này thường phản ánh các sự kiện hoặc chuyển đổi giữa các trạng thái trong tập dữ liệu, như giao dịch mua sản phẩm hoặc nhấp chuột trên Web của người dùng Thuật toán sẽ kiểm tra tất cả các xác suất chuyển đổi và đo lường sự khác biệt giữa các trình tự có thể để xác định trình tự tối ưu cho việc phân nhóm Sau khi tạo danh sách trình tự ứng viên, thuật toán sử dụng thông tin này làm đầu vào cho quá trình phân nhóm thông qua Tối đa hóa kỳ vọng (EM).
Các thông số trong thuật toán:
Cluster_count: số lượng nhóm trong mô hình Cluster_count=0: cho phép thuật toán tự động chọn số lượng nhóm tốt nhất cho mục đích dự đoán
Minimum support (kiểu int): Xác định số lượng trường hợp nhỏ nhất trong mỗi nhóm để tránh mỗi nhóm có quá ít trường hợp Giá trị mặc định là 10.
Maximum_states: (int) Xác định số lượng tối đa của những trạng thái cho thuộc tính không tuần tự
Cluster(): Trả về cluster ID trong từng trường hợp
ClusterDistance(): tính khoảng cách giữa các cụm
PredictProbability(): Trả về xác suất cho mỗi trạng thái trình tự được dự đoán
PredictHistogram(): Trả về biểu đồ xác suất cho mỗi trạng thái trình tự mỗi bước 3.3.2 Phân cụm
Thuật toán Microsoft Clustering là một phương pháp phân đoạn dữ liệu, giúp nhóm các trường hợp trong tập dữ liệu thành các cụm có đặc điểm tương đồng Các cụm này không chỉ hỗ trợ việc khám phá dữ liệu mà còn giúp xác định các điểm bất thường và tạo ra dự đoán chính xác hơn.
Các mô hình phân cụm giúp xác định các mối quan hệ trong tập dữ liệu mà quan sát thông thường có thể không phát hiện Chẳng hạn, mặc dù dễ dàng nhận thấy rằng những người đi làm bằng xe đạp thường sống gần nơi làm việc, thuật toán phân cụm có thể phát hiện những đặc điểm khác không rõ ràng về nhóm này Trong ví dụ, cụm A đại diện cho những người có xu hướng lái xe đi làm, trong khi cụm B biểu thị cho những người chọn xe đạp làm phương tiện di chuyển.
Thuật toán phân cụm khác với các thuật toán khai thác dữ liệu như Cây quyết định, vì không cần chỉ định cột dự đoán để xây dựng mô hình Thay vào đó, thuật toán phân cụm tạo ra mô hình dựa trên các mối quan hệ trong dữ liệu và các cụm được xác định bởi chính thuật toán.
Cách hoạt động của thuật toán:
Thuật toán Microsoft Clustering xác định mối quan hệ trong tập dữ liệu và tạo ra các cụm dựa trên những mối quan hệ này Biểu đồ phân tán là công cụ hữu ích để trực quan hóa cách thuật toán nhóm dữ liệu, thể hiện qua sơ đồ minh họa Mỗi trường hợp trong tập dữ liệu được biểu diễn dưới dạng điểm trên biểu đồ, và các nhóm điểm này phản ánh các mối quan hệ mà thuật toán đã xác định.
Sau khi xác định các cụm ban đầu, thuật toán sẽ đánh giá chất lượng của các cụm đại diện cho các nhóm điểm và cố gắng điều chỉnh lại các nhóm để tạo ra các cụm đại diện tốt hơn cho dữ liệu Quá trình này sẽ được lặp đi lặp lại cho đến khi thuật toán không thể cải thiện kết quả một cách đáng kể nữa.
Kỹ thuật hồi quy
Hồi quy là phương pháp nghiên cứu mối quan hệ giữa biến độc lập và biến mục tiêu, cho phép mô hình hóa và định lượng hóa mối quan hệ này Phân tích hồi quy giúp xác định giá trị của biến mục tiêu khi các biến độc lập thay đổi, từ đó có thể sử dụng kết quả để dự báo.
Hệ Số Tương quan > 0 => 2 biến có quan hệ thuận chiều
Hệ Số Tương Quan < 0 => 2 biến có quan hệ nghịch
Hệ số tương quan = 0 => 2 biến không có quan hệ tuyến tính với nhau
Hệ số càng gần 1 thì mối quan hệ thuận càng chắc chắn
Hệ số càng gần -1 thì mối quan hệ nghịch càng chắc chắn
Các thuật toán thường dùng trong hồi quy
Hồi quy tuyến tính là mô hình hồi quy đơn giản và phổ biến, nghiên cứu mối quan hệ tuyến tính giữa một biến độc lập và biến phụ thuộc Mô hình này áp dụng cho các biến định lượng và thể hiện mối quan hệ dưới dạng đường thẳng trên đồ thị.
Ta có phương trình tổng quát: 𝛾 = 𝛽0 + 𝛽1𝑥 + 𝜖
Trong đó: y là biến phụ thuộc hay là biến chúng ta sẽ dự báo x là biến độc lập
𝛽0 là giá trị ước lượng của y khi x đạt giá trị 0.
𝛽1 là độ dốc của đường hồi quy tuyến tính, nói một cách khác là mức độ thay đổi của y khi x thay đổi 1 đơn vị
𝜖 là sai số, thể hiện giá trị của các yếu tố khác không thể nghiên cứu hết và các yếu tố này vẫn tác động lên giá trị của y.
Hồi Quy Logic là phương pháp thông dụng nhất áp dụng cho các biến phụ thuộc không phải là dữ liệu liên tục
Hồi quy Logistic được sử dụng để dự đoán xác suất của một biến phụ thuộc có hai giá trị dựa trên các biến độc lập Phương pháp này được áp dụng rộng rãi trong nhiều lĩnh vực khác nhau.
Khả năng khách hàng có/không sử dụng dịch vụ, mua hàng…
Có phải là spam mail hay không?
Khả năng trả nợ của khách hàng?
Công thức hồi quy đơn biến
Figure 9 Công thức hồi quy đơn biến
Công thức hồi quy đa biến:
Figure 10 Công thức hồi quy đa biến
Trong đó: y là biến phụ thuộc hay là biến chúng ta sẽ dự báo x là biến độc lập
𝛽0 là giá trị ước lượng của y khi x đạt giá trị 0.
𝛽1 là độ dốc của đường hồi quy tuyến tính, nói một cách khác là mức độ thay đổi của y khi x thay đổi 1 đơn vị
𝜖 là sai số, thể hiện giá trị của các yếu tố khác không thể nghiên cứu hết và các yếu tố này vẫn tác động lên giá trị của y.
Phần 𝛽0 + 𝛽1𝑥 chính là phần dự báo
Ứng dụng thử nghiệm
Thuật toán Clustering KMeans và mô hình RFM
Thuật toán phân cụm k-means là một phương pháp phổ biến trong phân tích dữ liệu, đặc biệt trong khai thác dữ liệu và thống kê Phương pháp này giúp phân chia dữ liệu thành k cụm khác nhau, từ đó xác định nhóm mà dữ liệu thuộc về.
Thuật toán k-means là một phương pháp phân nhóm dữ liệu hiệu quả, sử dụng cách tạo và cập nhật các điểm trung tâm để phân chia các điểm dữ liệu thành các nhóm khác nhau Quá trình bắt đầu bằng việc tạo ra các điểm trung tâm ngẫu nhiên, sau đó gán mỗi điểm dữ liệu vào trung tâm gần nhất Tiếp theo, thuật toán sẽ cập nhật lại các điểm trung tâm và lặp lại quy trình này cho đến khi các trung tâm không thay đổi qua hai vòng lặp liên tiếp Mặc dù việc đạt được kết quả hoàn hảo là khó khăn và tốn thời gian, thuật toán thường được dừng lại khi đạt được một kết quả gần đúng và chấp nhận được.
1 Khởi tạo K điểm dữ liệu trong bộ dữ liệu và tạm thời coi nó là tâm của các cụm dữ liệu của chúng ta.
2 Với mỗi điểm dữ liệu trong bộ dữ liệu, tâm cụm của nó sẽ được xác định là 1 trong K tâm cụm gần nó nhất.
3 Sau khi tất cả các điểm dữ liệu đã có tâm, tính toán lại vị trí của tâm cụm để đảm bảo tâm của cụm nằm ở chính giữa cụm.
4 Bước 2 và bước 3 sẽ được lặp đi lặp lại cho tới khi vị trí của tâm cụm không thay đổi hoặc tâm của tất cả các điểm dữ liệu không thay đổi.
RFM là phương pháp phân tích giá trị khách hàng, thường áp dụng trong marketing cơ sở dữ liệu và marketing trực tiếp Phương pháp này đã thu hút sự quan tâm đặc biệt trong ngành bán lẻ và dịch vụ.
RFM định lượng giá trị của một khách hàng dựa trên 3 thông tin chính:
Thời gian mua hàng gần đây nhất, hay còn gọi là chỉ số Recency, cho biết mức độ hoạt động của khách hàng tại thời điểm đánh giá Chỉ số này càng lớn, nguy cơ khách hàng rời bỏ càng cao, điều này cảnh báo doanh nghiệp cần điều chỉnh sản phẩm hoặc cải thiện chất lượng phục vụ để đáp ứng tốt hơn nhu cầu của khách hàng.
Tần suất mua hàng của khách hàng là một yếu tố quan trọng trong việc đánh giá giá trị doanh thu mà họ mang lại cho công ty Khách hàng mua nhiều đơn hàng sẽ tạo ra doanh số cao hơn, đồng nghĩa với giá trị của họ cũng lớn hơn Tuy nhiên, chỉ dựa vào tần suất mua hàng thôi thì chưa đủ để đánh giá toàn diện tác động lên doanh thu, vì giá trị đơn hàng cũng là yếu tố quyết định cho thấy tiềm năng của khách hàng.
Monetary là số tiền mà khách hàng chi tiêu, đóng vai trò quan trọng nhất trong việc ảnh hưởng đến doanh số của doanh nghiệp Doanh nghiệp luôn quan tâm đến số tiền mà khách hàng đã chi cho sản phẩm của mình, vì yếu tố này tác động trực tiếp đến doanh thu Ngoài ra, Monetary còn bị ảnh hưởng gián tiếp bởi hai yếu tố khác là Recency và Frequency.
Ứng dụng và lập trình
Trước tiên, ta cần khai báo các thư viện cần dùng:
- Thư viện pandas dùng để xử lý dữ liệu thông qua các cấu trức dữ liệu dataframe
- Thư viện numpy: xử lý dữ liệu số
- Thư viện matplotlib, seaborn: trực quan hoá dữ liệu bằng các biểu đồ
- Thư viện StandardScale: chuẩn hoá dữ liệu
Figure 11 Khai báo thư viện
Tiếp theo, ta cần đọc dữ liệu từ bộ dữ liệu có sẵn
Figure 13 Bộ dữ liệu OnlineRetail
Sử dụng một số câu lệnh info(), describe() để xem một số thông tin về bộ dữ liệu trước khi xử lý
Figure 14 Thông tin về tập dữ liệu 1
Figure 15 Thông tin về tập dữ liệu 2
Figure 16 Thông tin về sơ lượng dữ liệu trống
Sau khi có các thông tin cơ bản về bộ dữ liệu ta tiến hành làm sạch và tiền xử lý dữ liệu.
Từ bảng mô tả dữ liệu ban đầu ta cần phải quan tâm đến một vài số liệu:
- Quantity: Giá trị trung bình ~9.55, phân phối gần vị trí trung vị thứ 3, giá trị min = -80995, max = 80995
Trong quá trình phân tích dữ liệu, chúng tôi nhận thấy có 1454 mục dữ liệu 'Description' và 135080 mục dữ liệu 'CustomerID' có giá trị null Dữ liệu 'CustomerID' là yếu tố quan trọng trong mô hình RFM, do đó không thể xử lý bằng cách thay thế giá trị trung bình hay các phương pháp khác Vì lý do này, chúng tôi quyết định sử dụng phương pháp xoá giá trị null (dropna()) để làm sạch dữ liệu.
Figure 17 Bộ dữ liệu ban đầu sau khi loại bỏ dữ liệu trống
Sau khi loại bỏ dữ liệu trống ta được một bộ dữ liệu mới vì vậy tiếp tục kiểm tra thông tin về bộ dữ liệu mới
Figure 18 Bảng mô tả dữ liệu sau khi xoá dữ liệu trống
Bảng mô tả dữ liệu mới cho thấy giá trị min âm trong UnitPrice đã được xử lý.
Sau khi có dữ liệu mới, ta có thể mô tả dữ liệu trực quan thông qua các biểu đồ để xử lý các outlier
Figure 19 Mô tả dữ liệu ban đầu sau khi xoá dữ liệu trống bằng biểu đồ
Một số kết luận có thể rút ra từ biểu đồ:
Dữ liệu tập trung chủ yếu trong khoảng -20000 dến 20000.
Có một vài điểm outlier nằm ở 80000 và -80000 trong cột Quantity và khoảng
Figure 21 Kiểm tra dữ liệu khách hàng 12346
Hai dòng dữ liệu triệt tiêu nhau có thể do lỗi từ cửa hàng thí nghiệm hoặc do nhân viên nhập sai Vì vậy, dữ liệu này không ảnh hưởng đến kết quả phân tích và có thể được loại bỏ hoặc giữ lại tùy ý.
Tương tự với các outlier khác
Figure 22 Kiểm tra dữ liệu khách hàng 16446
Figure 24 Kiểm tra dữ liệu có Quantity < 0
Sau khi tiền xử lý dữ liệu, ta tính toá những trường dữ liệu cần thiết cho mô hình RFM từ những xột dữ liệu có sẵn
Figure 25 Chuẩn bị dữ liệu cho mô hình RFM
Figure 26 Bộ dữ liệu cho mô hình RFM
Ta tiếp tục mô tả dữ liệu khi một bộ dữ liệu mới được hình thành
Figure 27 Mô tả dữ liệu RFM bằng câu lệnh
Figure 28 Mô tả dữ liệu RFM bằng biểu đồ
Sau khi mô tả, ta xử lý những outlier
Figure 30 Mô tả dữ liệu RFM sau xử lý outlier bằng biểu đồ
Xử lý dữ liệu ngày bằng cách chuẩn hoá
Figure 31 Scale dữ liệu ngày
Figure 32 Dữ liệu sau khi chuẩn hoá
Sau khi xử lý xong dữ liệu dataframe RFM ta tiến hành xây dựng mô hình bằng thuật toán k-means
Figure 33 Tìm k trong thuật toán KMean
Từ biểu đồ ta chọn k= 3 và dán nhãn cho từng cụm
Figure 34 Dán nhãn cho từng cụm
Cuối cùng mô tả dữ liệu bằng biểu đồ
Figure 35 Biểu đồ TotalRevenue theo từng cụm
Figure 36 Biểu đồ Frequency theo từng cụm
Figure 37 Biểu đô Recency theo từng cụm
1: Dựa vào 3 biểu đồ trên, ta thấy nhóm khác hàng có nhãn là 2 là khách hàng đem lại nhi ều doanh thu cho công ty nhất với tần suất mua hàng thường xuyên Và mua hàng gần đâ y nhất Chứng tỏ đây là khách hàng trung thành.
2: Nhóm khách hàng có nhãn là 0 là khách hàng mà đem lại ít doanh thu cho công ty, tần suất mua hàng thấp, và lâu rồi chưa có quay lại mua hàng cho công ty Vậy đây là nhóm khách hàng ít trung thành.
3: Nhóm khách hàng có nhãn là 1 là nhóm khách hàng mới mua hàng ở công ty, nên doan h thu và tần suất mua hàng của nhóm này chưa cao Tuy nhiên, vì là khách hàng mới nên có thể ta cần chăm sóc tốt để họ trở thành những khách hàng tiềm năng
Bài viết trình bày các khái niệm cơ bản và cơ sở lý thuyết về khai phá dữ liệu, cùng với các kỹ thuật phổ biến trong lĩnh vực này Dựa trên lý thuyết, đề tài đã triển khai các kỹ thuật cơ bản để hỗ trợ cho việc xử lý và khai thác dữ liệu Đặc biệt, bài viết áp dụng kỹ thuật phân cụm Kmeans kết hợp với mô hình RFM để phân tích doanh số bán hàng cho doanh nghiệp bán lẻ, mang lại tính ứng dụng cao.
Nhược điểm của bài viết là chỉ đề cập đến những kiến thức cơ bản về khai phá dữ liệu và các kỹ thuật thường dùng trong khoa học dữ liệu, trong khi còn nhiều kỹ thuật chuyên sâu và tối ưu hơn chưa được khám phá Hơn nữa, phần ứng dụng phân tích cần được nghiên cứu kỹ lưỡng hơn để đưa ra những kết luận chi tiết và hữu ích nhất.