Tổng quan về khai phá dữ liệu
Khai phá dữ liệu là gì?
Figure 1 Khai phá dữ liệu là gì?
Khai phá dữ liệu (data mining) là một giai đoạn quan trọng trong tiến trình Khám Phá Tri Thức trong Cơ Sở Dữ Liệu (KDD), được hiểu là quá trình trích xuất và phát hiện tri thức từ khối lượng dữ liệu lớn.
Khai phá dữ liệu áp dụng các nguyên tắc thống kê để phát hiện mẫu trong dữ liệu Bằng cách sử dụng thuật toán khai thác dữ liệu trong dịch vụ phân tích, chúng ta có thể dự đoán xu hướng, nhận diện các mẫu, tạo ra quy tắc và đề xuất, cũng như phân tích chuỗi sự kiện trong các tập dữ liệu phức tạp, từ đó thu được những thông tin chi tiết mới.
Khám phá tri thức trong các cơ sở dữ liệu (Knowledge discovery in databases KDD).
Trích rút tri thức (knowledge extraction).
Phân tích mẫu/dữ liệu (data/pattern analysis). v.v…
Khai thác dữ liệu, hay Data Mining, được ví như công việc "Đãi cát tìm vàng", trong đó người ta tìm kiếm những thông tin quý giá từ một khối lượng lớn dữ liệu thô Thuật ngữ này ám chỉ quá trình xác định và trích xuất các mẫu, xu hướng từ dữ liệu để tạo ra giá trị thực tiễn.
Ứng dụ ̣ng thực tiễn của Data Mining
Phân tích dữ liệu tài chính:
Ứng dụng của Data Mining trong việc tăng cường độ trung thành của khách hàng bao gồm việc thu thập và phân tích dữ liệu hành vi của họ Qua đó, doanh nghiệp có thể dự đoán hành vi khách hàng và cung cấp các dịch vụ, sản phẩm phù hợp, từ đó nâng cao trải nghiệm và sự hài lòng của khách hàng.
Ngành công nghiệp bán lẻ đang ứng dụng khai phá dữ liệu để xây dựng mô hình xác định xu hướng mua sắm của khách hàng Việc này giúp doanh nghiệp cải thiện chất lượng sản phẩm và dịch vụ, từ đó nâng cao sự hài lòng và giữ chân khách hàng hiệu quả hơn.
Ngành công nghiệp viễn thông (Telecommunication Industry)
Khai phá dữ liệu trong ngành viễn thông đóng vai trò quan trọng trong việc xác định các mô hình sử dụng dịch vụ, phát hiện hoạt động gian lận và tối ưu hóa nguồn tài nguyên Đồng thời, nó cũng góp phần nâng cao chất lượng dịch vụ viễn thông, mang lại trải nghiệm tốt hơn cho người dùng.
Phân tích dữ liệu sinh học (Biological Data Analysis)
Khai phá dữ liệu sinh học là một phần rất quan trọng của lĩnh vực Tin -Sinh học (Bioinformatics)
Phát hiện xâm nhập bất hợp pháp (Intrusion Detection)
Với sự bùng nổ của internet và sự dễ dàng tiếp cận các công cụ hỗ trợ cho việc xâm nhập và tấn công mạng, việc kiểm soát truy cập bất hợp pháp trở thành yếu tố thiết yếu để đảm bảo sự ổn định của hệ thống.
Dựa vào mối liên hệ giữa các triệu chứng để chuẩn đoán bệnh và hướng điều trị. Mạng viễn thông:
Phân tích các cuộc gọi điện thoại để dự đoán hành vi người dung nhằm nâng cao chất lượng,
Các bước của qua trình khai phá dữ liệu
Quá trình khai thác dữ liệu bắt đầu bằng việc xác định rõ ràng vấn đề cần giải quyết, sau đó tiếp theo là xác định các dữ liệu liên quan để xây dựng phương pháp hiệu quả.
Bước tiếp theo trong quy trình là thu thập và xử lý các dữ liệu liên quan, để chúng có thể được chuyển đổi thành định dạng mà thuật toán khai phá dữ liệu có thể hiểu và sử dụng hiệu quả.
Tiếp theo là công việc thu thập và tiền xử lý dữ liệu.
Bước tiếp theo là lựa chọn thuật toán khai phá dữ liệu phù hợp để tiến hành khai thác, nhằm phát hiện các mẫu có ý nghĩa Những mẫu này thường được biểu diễn thông qua các hình thức như luật phân loại, cây quyết định, luật sản xuất hoặc biểu thức hồi quy.
TIEU LUAN MOI download : skknchat@gmail.com
Figure 2 Quá trình khai phá dữ liệu
Các phương pháp khai phá dữ liệu
Người ta thường sử dụ ̣ng các phương pháp sau cho khai phá dữ liệu
Là phương pháp dự báo, cho phép phân loại một đối tượng vào một hoặc một số lớp cho trước.
Figure 3 Ví dụ về cây quyết định
TIEU LUAN MOI download : skknchat@gmail.com
Là phương pháp khám phá chức năng học dự đoán, ánh xạ một mực dữ liệu thành biến dự đoán giá trị thực
Figure 4 Ví dụ hồi quy đơn biến
Là một nhiệm vụ ̣ mô tả phổ biến trong đó người ta tìm cách xác định một tập hợp hữu hạn các cụ ̣m để mô tả dữ liệu
TIEU LUAN MOI download : skknchat@gmail.com
Figure 5 Phân cụm dữ liệu kinh doanh so sánh tuổi của khách hàng với quy mô bán hàng
Trong ví dụ ̣ này, chúng ta có thể nhận ra hai cụ ̣m, một cụ ̣m xung quanh nhóm 2.000 Đô la Mỹ/ 20-30 tuổi và một cụ ̣m ở nhóm 7.000-8.000 Đô la Mỹ/ 50-65 tuổi.
TIEU LUAN MOI download : skknchat@gmail.com
Figure 6 Ví dụ về giải thuật Kmean, với n = 10 và k = 2
Mô hình ràng buộc (Dependency modeling)
Figure 7.Ví dụ về biểu đồ thể hiện lượng nước của sông Nile thay đổi theo các mốc thời gian
Biểu diễn mô hình (Model Representation)
Kiểm định mô hình (Model Evaluation)
TIEU LUAN MOI download : skknchat@gmail.com
Figure 8.Ma trận nhầm lẫn ( Confusion Matrix)
Phương pháp tìm kiếm (Search Method)
Các kỹ thuật trong khai phá dữ liệu
Kỹ thuật kết hợp
Kỹ thuật Association trong khai phá dữ liệu giúp xác định mối quan hệ giữa các biến trong cơ sở dữ liệu và "giải nén" các mẫu ẩn Quy tắc Association rất hữu ích trong việc kiểm tra và dự đoán hành vi, đặc biệt được áp dụng rộng rãi trong ngành bán lẻ.
Các doanh nghiệp áp dụng kỹ thuật này để phân tích hành vi mua sắm và dữ liệu giỏ hàng của khách hàng tiềm năng Trong lĩnh vực Công nghệ Thông tin, lập trình viên sử dụng kỹ thuật này để phát triển các chương trình Machine Learning.
Trong lĩnh vực Khai thác Dữ liệu (Data Mining), luật kết hợp (Association Rule - AR) nhằm mục đích phát hiện các mối quan hệ giữa các đối tượng trong tập dữ liệu lớn.
Một số loại luật kết hợp:
TIEU LUAN MOI download : skknchat@gmail.com
Kỹ thuật phân cụ ̣m
Kỹ thuật phân cụ ̣m là kĩ thuật nhận diện các cụ ̣m tiềm ẩn trong tập các đối tượng chưa được xếp lớp.
Tiến trình phân cụm dựa trên mức độ tương tự giữa các đối tượng, nhằm tối đa hóa sự tương đồng trong cùng một cụm và tối thiểu hóa sự tương đồng giữa các cụm khác nhau.
Các cụ ̣m được đặc trưng bằng các tính chất chung của tất cả các đối tượng trong cụ ̣m.
Do vậy, khảo sát các cụ ̣m sẽ giúp khái quát, toongt kết nhanh chóng nội dung của khối dữ liệu lớn.
Những Loại Dữ Liệu Cần Phân Cụm:
Dữ Liệu Browse Website của khách hàng
Dữ Liệu Lịch sử các giao dịch của khách Hàng
Dữ Liệu về hành vi của khách hàng ở các kênh thương mại điện tử
Các thuật toán dùng trong phân cụ ̣m
Thuật toán phân cụm tuần tự là một công cụ mạnh mẽ kết hợp giữa việc gom cụm và phân tích trình tự Thuật toán này giúp xác định các dữ liệu chứa các sự kiện có thể liên kết thành chuỗi liên tục Bằng cách tìm kiếm những chuỗi chung nhất, thuật toán thực hiện quá trình gom cụm để phát hiện các chuỗi tương đồng.
Một trình tự (Sequence) là chuỗi các sự kiện (State) riêng biệt và rời rạc, thường có số lượng các state giới hạn Trong thực tế, chuỗi dữ liệu rất phổ biến và nhiều thông tin được mã hóa dưới dạng chuỗi trình tự.
Cách hoạt động của thuật toán:
Thuật toán Microsoft Sequence Clustering kết hợp kỹ thuật phân cụm với phân tích chuỗi Markov để xác định các cụm và trình tự của chúng Điểm nổi bật của thuật toán này là khả năng sử dụng dữ liệu trình tự một cách hiệu quả.
Dữ liệu này thể hiện chuỗi sự kiện hoặc chuyển đổi trạng thái trong tập dữ liệu, ví dụ như các giao dịch mua hàng hoặc nhấp chuột của một người dùng cụ thể Thuật toán sẽ kiểm tra tất cả các xác suất chuyển đổi và đo lường sự khác biệt giữa các trình tự có thể xảy ra.
Tải xuống TIEU LUAN MOI tại địa chỉ skknchat@gmail.com để xác định trình tự tối ưu cho việc phân nhóm Sau khi thuật toán tạo ra danh sách các trình tự ứng viên, thông tin từ các trình tự này sẽ được sử dụng làm đầu vào cho quá trình phân nhóm thông qua phương pháp Tối đa hóa kỳ vọng (EM).
Các thông số trong thuật toán:
Cluster_count: số lượng nhóm trong mô hình Cluster_count=0: cho phép thuật toán tự động chọn số lượng nhóm tốt nhất cho mụ ̣c đích dự đoán
Minimum support (kiểu int): Xác định số lượng trường hợp nhỏ nhất trong mỗi nhóm để tránh mỗi nhóm có quá ít trường hợp Giá trị mặc định là 10.
Maximum_states: (int) Xác định số lượng tối đa của những trạng thái cho thuộc tính không tuần tự.
Cluster(): Trả về cluster ID trong từng trường hợp
ClusterDistance(): tính khoảng cách giữa các cụ ̣m
PredictProbability(): Trả về xác suất cho mỗi trạng thái trình tự được dự đoán
PredictHistogram(): Trả về biểu đồ xác suất cho mỗi trạng thái trình tự mỗi bước 3.3.2 Phân cụ ̣m
Thuật toán Microsoft Clustering là một phương pháp phân đoạn dữ liệu, giúp nhóm các trường hợp trong tập dữ liệu thành các cụm có đặc điểm tương đồng Những cụm này không chỉ hỗ trợ trong việc khám phá dữ liệu mà còn giúp phát hiện các điểm bất thường và tạo ra các dự đoán chính xác.
Các mô hình phân cụm giúp xác định các mối quan hệ trong dữ liệu mà có thể không dễ dàng nhận thấy qua quan sát thông thường Chẳng hạn, mặc dù dễ dàng nhận ra rằng những người đi làm bằng xe đạp thường sống gần nơi làm việc, thuật toán phân cụm có thể phát hiện ra những đặc điểm khác của người đi xe đạp mà không rõ ràng Trong ví dụ, cụm A biểu thị dữ liệu về những người lái xe đi làm, trong khi cụm B đại diện cho những người đi xe đạp để đi làm.
Thuật toán phân cụm khác với các thuật toán khai thác dữ liệu như Cây quyết định, vì nó không yêu cầu chỉ định một cột dự đoán để xây dựng mô hình Thay vào đó, thuật toán phân cụm tạo ra mô hình dựa trên các mối quan hệ trong dữ liệu và các cụm mà nó xác định.
Cách hoạt động của thuật toán:
Thuật toán Microsoft Clustering xác định các mối quan hệ trong tập dữ liệu và tạo ra các cụm dựa trên những mối quan hệ này Biểu đồ phân tán là công cụ hữu ích để trực quan hóa cách thuật toán nhóm dữ liệu.
Tải xuống TIEU LUAN MOI tại địa chỉ skknchat@gmail.com Biểu đồ phân tán thể hiện toàn bộ trường hợp trong tập dữ liệu, với mỗi trường hợp được biểu diễn bằng một điểm trên biểu đồ Các nhóm điểm trên biểu đồ minh họa các mối quan hệ mà thuật toán đã xác định.
Sau khi xác định các cụm lần đầu tiên, thuật toán sẽ đánh giá mức độ phù hợp của các cụm đại diện cho các nhóm điểm Tiếp theo, thuật toán sẽ cố gắng tái xác định các nhóm để cải thiện chất lượng của các cụm đại diện cho dữ liệu Quá trình này sẽ được lặp lại cho đến khi không còn khả năng cải thiện kết quả bằng việc tái xác định các cụm.
Kỹ thuật hồi quy
Hồi quy (Regression) là phương pháp nghiên cứu mối quan hệ giữa biến độc lập và biến mục tiêu, cho phép mô hình hóa và định lượng hóa mối quan hệ này Phương pháp này giúp xác định giá trị của biến mục tiêu khi các biến độc lập thay đổi, và kết quả phân tích hồi quy có thể được sử dụng để dự báo.
Hệ Số Tương quan > 0 => 2 biến có quan hệ thuận chiều
Hệ Số Tương Quan < 0 => 2 biến có quan hệ nghịch
Hệ số tương quan = 0 => 2 biến không có quan hệ tuyến tính với nhau Hệ số càng gần 1 thì mối quan hệ thuận càng chắc chắn
Hệ số càng gần -1 thì mối quan hệ nghịch càng chắc chắn
Các thuật toán thường dùng trong hồi quy
Hồi quy tuyến tính là một mô hình hồi quy đơn giản và phổ biến, nghiên cứu mối quan hệ tuyến tính giữa một biến độc lập và một biến phụ thuộc Mô hình này áp dụng cho các biến định lượng và thể hiện mối quan hệ dưới dạng đồ thị đường thẳng.
Ta có phương trình tổng quát: = 0 + 1 +
Trong đó: y là biến phụ ̣ thuộc hay là biến chúng ta sẽ dư báo. x là biến độc lập.
0 là giá tri ước lượng của y khi x đạt giá tri 0.
1 là độ dốc của đường hồi quy tuyến tính, nói một cách khác là mức độ thay đổi của y khi x thay đổi 1 đơn vi.
Tải xuống TIEU LUAN MOI tại địa chỉ skknchat@gmail.com cho thấy rằng sai số là một chỉ số quan trọng, phản ánh giá trị của những yếu tố khác mà không thể nghiên cứu toàn diện Những yếu tố này vẫn có ảnh hưởng đáng kể đến giá trị của y.
Hồi Quy Logic là phương pháp thông dụ ̣ng nhất áp dụ ̣ng cho các biến phụ ̣ thuộc không phải là dữ liệu liên tụ ̣c
Hồi quy Logistic là một phương pháp thống kê nhằm dự đoán xác suất xảy ra của một biến phụ thuộc có hai giá trị dựa trên các biến độc lập Phương pháp này được áp dụng rộng rãi trong nhiều lĩnh vực khác nhau.
Khả năng khách hàng có/không sử dụ ̣ng dịch vụ ̣, mua hàng…
Có phải là spam mail hay không?
Khả năng trả nợ của khách hàng?
Công thức hồi quy đơn biến
Figure 9 Công thức hồi quy đơn biến
Công thức hồi quy đa biến:
Figure 10 Công thức hồi quy đa biến
Trong đó: y là biến phụ ̣ thuộc hay là biến chúng ta sẽ dư báo. x là biến độc lập.
0 là giá tri ước lượng của y khi x đạt giá tri 0.
TIEU LUAN MOI download : skknchat@gmail.com
Độ dốc của đường hồi quy tuyến tính, ký hiệu là 1, thể hiện mức độ thay đổi của biến y khi biến x thay đổi 1 đơn vị Sai số, ký hiệu là e, phản ánh giá trị của các yếu tố khác không được nghiên cứu đầy đủ, nhưng vẫn ảnh hưởng đến giá trị của y.
Phần 0 + 1 chính là phần dư báo
Ứng dụ ̣ng thử nghiệm
Thuật toán Clustering KMeans và mô hình RFM
Thuật toán phân cụm k-means là một phương pháp phổ biến trong phân tích dữ liệu, đặc biệt trong khai thác dữ liệu và thống kê Phương pháp này phân chia dữ liệu thành k cụm khác nhau, giúp xác định nhóm mà dữ liệu thuộc về.
Thuật toán k-means sử dụng phương pháp tạo và cập nhật các điểm trung tâm để phân nhóm các điểm dữ liệu thành các nhóm khác nhau Đầu tiên, thuật toán tạo ra các điểm trung tâm ngẫu nhiên và gán mỗi điểm dữ liệu vào trung tâm gần nhất Sau đó, các điểm trung tâm được cập nhật và quy trình này lặp lại cho đến khi các trung tâm không thay đổi qua hai vòng lặp liên tiếp Tuy nhiên, việc đạt được kết quả hoàn hảo rất khó khăn và tốn thời gian, do đó, thuật toán thường được dừng lại khi đạt được kết quả gần đúng và chấp nhận được.
1 Khởi tạo K điểm dữ liệu trong bộ dữ liệu và tạm thời coi nó là tâm của các cụ ̣m dữ liệu của chúng ta.
2 Với mỗi điểm dữ liệu trong bộ dữ liệu, tâm cụ ̣m của nó sẽ được xác định là 1 trong K tâm cụ ̣m gần nó nhất.
3 Sau khi tất cả các điểm dữ liệu đã có tâm, tính toán lại vị trí của tâm cụ ̣m để đảm bảo tâm của cụ ̣m nằm ở chính giữa cụ ̣m.
4 Bước 2 và bước 3 sẽ được lặp đi lặp lại cho tới khi vị trí của tâm cụ ̣m không thay đổi hoặc tâm của tất cả các điểm dữ liệu không thay đổi.
RFM là phương pháp phân tích giá trị khách hàng phổ biến trong marketing cơ sở dữ liệu và marketing trực tiếp Phương pháp này đã thu hút sự quan tâm đặc biệt trong ngành bán lẻ và dịch vụ, giúp doanh nghiệp tối ưu hóa chiến lược tiếp thị dựa trên dữ liệu khách hàng.
RFM định lượng giá trị của một khách hàng dựa trên 3 thông tin chính:
Thời gian mua hàng gần đây nhất cho biết mức độ hoạt động của khách hàng tại thời điểm đánh giá Chỉ số này càng cao, nghĩa là khách hàng càng tích cực tham gia và tương tác với sản phẩm hoặc dịch vụ.
Xu hướng rời bỏ của khách hàng đang gia tăng, điều này đặt ra một cảnh báo nghiêm túc cho các doanh nghiệp Để giữ chân khách hàng, các doanh nghiệp cần xem xét việc thay đổi sản phẩm nhằm đáp ứng tốt hơn nhu cầu và thị hiếu của họ, hoặc cải thiện chính sách để nâng cao chất lượng dịch vụ.
Tần suất mua hàng của khách hàng là yếu tố quan trọng, vì khi khách hàng thực hiện nhiều giao dịch, doanh thu của công ty sẽ tăng cao, đồng nghĩa với việc giá trị của khách hàng cũng lớn hơn Tuy nhiên, chỉ dựa vào tần suất mua hàng để đánh giá mức độ tác động lên doanh thu là chưa đủ, bởi giá trị đơn hàng cũng đóng vai trò quan trọng trong việc xác định tiềm năng của khách hàng.
Monetary là số tiền mà khách hàng chi tiêu, đóng vai trò quan trọng nhất trong việc ảnh hưởng đến doanh số Doanh nghiệp luôn chú trọng đến số tiền mà khách hàng bỏ ra để mua sản phẩm của mình Yếu tố Monetary không chỉ tác động trực tiếp đến doanh thu mà còn chịu ảnh hưởng gián tiếp từ hai yếu tố khác là Recency và Frequency.
Ứng dụ ̣ng và lập trình
Trước tiên, ta cần khai báo các thư viện cần dùng:
- Thư viện pandas dùng để xử lý dữ liệu thông qua các cấu trức dữ liệu dataframe
- Thư viện numpy: xử lý dữ liệu số
- Thư viện matplotlib, seaborn: trực quan hoá dữ liệu bằng các biểu đồ
- Thư viện StandardScale: chuẩn hoá dữ liệu
Figure 11 Khai báo thư viện
Tiếp theo, ta cần đọc dữ liệu từ bộ dữ liệu có sẵn
TIEU LUAN MOI download : skknchat@gmail.com
Figure 13 Bộ dữ liệu OnlineRetail
Sử dụ ̣ng một số câu lệnh info(), describe() để xem một số thông tin về bộ dữ liệu trước khi xử lý
Figure 14 Thông tin về tập dữ liệu 1
TIEU LUAN MOI download : skknchat@gmail.com
Figure 15 Thông tin về tập dữ liệu 2
Figure 16 Thông tin về sơ lượng dữ liệu trống
Sau khi có các thông tin cơ bản về bộ dữ liệu ta tiến hành làm sạch và tiền xử lý dữ liệu.
Từ bảng mô tả dữ liệu ban đầu ta cần phải quan tâm đến một vài số liệu:
- Quantity: Giá trị trung bình ~9.55, phân phối gần vị trí trung vị thứ 3, giá trị min = -80995, max = 80995
Trong quá trình phân tích dữ liệu, chúng tôi phát hiện có 1454 mục 'Description' và 135080 mục 'CustomerID' có giá trị null Dữ liệu 'CustomerID' là yếu tố quan trọng trong mô hình RFM, do đó không thể áp dụng các phương pháp thay thế như giá trị trung bình Vì lý do này, phương pháp làm sạch dữ liệu bằng cách xóa các giá trị null thông qua hàm dropna() đã được lựa chọn.
TIEU LUAN MOI download : skknchat@gmail.com
Figure 17 Bộ dữ liệu ban đầu sau khi loại bỏ dữ liệu trống
Sau khi loại bỏ dữ liệu trống ta được một bộ dữ liệu mới vì vậy tiếp tụ ̣c kiểm tra thông tin về bộ dữ liệu mới.
Figure 18 Bảng mô tả dữ liệu sau khi xoá dữ liệu trống
Bảng mô tả dữ liệu mới cho thấy giá trị min âm trong UnitPrice đã được xử lý.
Sau khi có dữ liệu mới, ta có thể mô tả dữ liệu trực quan thông qua các biểu đồ để xử lý các outlier
TIEU LUAN MOI download : skknchat@gmail.com
Figure 19 Mô tả dữ liệu ban đầu sau khi xoá dữ liệu trống bằng biểu đồ
Một số kết luận có thể rút ra từ biểu đồ:
Dữ liệu tập trung chủ yếu trong khoảng -20000 dến 20000.
Có một vài điểm outlier nằm ở 80000 và -80000 trong cột Quantity và khoảng
Figure 21 Kiểm tra dữ liệu khách hàng 12346
Hai dòng dữ liệu triệt tiêu lẫn nhau có thể do cửa hàng thí nghiệm hoặc do lỗi nhập liệu của nhân viên Vì vậy, dữ liệu này không ảnh hưởng đến kết quả phân tích, và chúng ta có thể quyết định loại bỏ hoặc giữ lại.
Tương tự với các outlier khác
TIEU LUAN MOI download : skknchat@gmail.com
Figure 22 Kiểm tra dữ liệu khách hàng 16446
Figure 24 Kiểm tra dữ liệu có Quantity < 0
Sau khi tiền xử lý dữ liệu, ta tính toá những trường dữ liệu cần thiết cho mô hình RFM từ những xột dữ liệu có sẵn
TIEU LUAN MOI download : skknchat@gmail.com
Figure 25 Chuẩn bị dữ liệu cho mô hình RFM
Figure 26 Bộ dữ liệu cho mô hình RFM
Ta tiếp tục mô tả dữ liệu khi một bộ dữ liệu mới được hình thành
TIEU LUAN MOI download : skknchat@gmail.com
Figure 27 Mô tả dữ liệu RFM bằng câu lệnh
TIEU LUAN MOI download : skknchat@gmail.com
Figure 28 Mô tả dữ liệu RFM bằng biểu đồ
Sau khi mô tả, ta xử lý những outlier
TIEU LUAN MOI download : skknchat@gmail.com
TIEU LUAN MOI download : skknchat@gmail.com
Figure 30 Mô tả dữ liệu RFM sau xử lý outlier bằng biểu đồ
Xử lý dữ liệu ngày bằng cách chuẩn hoá
Figure 31 Scale dữ liệu ngày
Figure 32 Dữ liệu sau khi chuẩn hoá
Sau khi xử lý xong dữ liệu dataframe RFM ta tiến hành xây dựng mô hình bằng thuật toán k-means
TIEU LUAN MOI download : skknchat@gmail.com
Figure 33 Tìm k trong thuật toán KMean
Từ biểu đồ ta chọn k= 3 và dán nhãn cho từng cụ ̣m
Figure 34 Dán nhãn cho từng cụm
Cuối cùng mô tả dữ liệu bằng biểu đồ
TIEU LUAN MOI download : skknchat@gmail.com
Figure 35 Biểu đồ TotalRevenue theo từng cụm
Figure 36 Biểu đồ Frequency theo từng cụm
Figure 37 Biểu đô Recency theo từng cụm
TIEU LUAN MOI download : skknchat@gmail.com
1: Dựa vào 3 biểu đồ trên, ta thấy nhóm khác hàng có nhãn là 2 là khách hàng đem lại nhi ều doanh thu cho công ty nhất với tần suất mua hàng thường xuyên Và mua hàng gần đâ y nhất Chứng tỏ đây là khách hàng trung thành.
2: Nhóm khách hàng có nhãn là 0 là khách hàng mà đem lại ít doanh thu cho công ty, tần suất mua hàng thấp, và lâu rồi chưa có quay lại mua hàng cho công ty Vậy đây là nhóm khách hàng ít trung thành.
3: Nhóm khách hàng có nhãn là 1 là nhóm khách hàng mới mua hàng ở công ty, nên doan h thu và tần suất mua hàng của nhóm này chưa cao Tuy nhiên, vì là khách hàng mới nên có thể ta cần chăm sóc tốt để họ trở thành những khách hàng tiềm năng
TIEU LUAN MOI download : skknchat@gmail.com
Bài viết này trình bày các khái niệm cơ bản và cơ sở lý thuyết về khai phá dữ liệu, cùng với những kỹ thuật thường được sử dụng trong lĩnh vực này Trên nền tảng lý thuyết, đề tài đã triển khai các kỹ thuật cơ bản nhằm hỗ trợ việc xử lý và khai thác dữ liệu Đặc biệt, bài viết sử dụng kỹ thuật phân cụm Kmeans kết hợp với mô hình RFM để phân tích doanh số bán hàng cho các doanh nghiệp bán lẻ, mang lại tính ứng dụng cao.
Nhược điểm của bài viết là chỉ cung cấp những kiến thức cơ bản về khai phá dữ liệu và các kỹ thuật thường dùng trong khoa học dữ liệu, trong khi còn nhiều kiến thức và kỹ thuật chuyên sâu hơn chưa được khám phá đầy đủ Hơn nữa, phần ứng dụng phân tích cần được nghiên cứu sâu hơn để đưa ra những kết luận chi tiết và hữu ích nhất.
TIEU LUAN MOI download : skknchat@gmail.com