1. Trang chủ
  2. » Luận Văn - Báo Cáo

ỨNG DỤNG kỹ THUẬT KHAI PHÁ dữ LIỆU và TRỰC QUAN HOÁ dữ LIỆU vào PHÂN TÍCH HÀNH VI KHÁCH HÀNG NHẰM NÂNG CAO HIỆU QUẢ HOẠT ĐỘNG bán HÀNG tại CÔNG TY TNHH MTV NETHOUSE

81 13 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng Dụng Kỹ Thuật Khai Phá Dữ Liệu Và Trực Quan Hoá Dữ Liệu Vào Phân Tích Hành Vi Khách Hàng Nhằm Nâng Cao Hiệu Quả Hoạt Động Bán Hàng Tại Công Ty TNHH MTV Nethouse
Tác giả Lê Nguyễn Thu Hằng
Người hướng dẫn ThS. Trương Hồng Tuấn
Trường học Đại Học Kinh Tế Đà Nẵng
Chuyên ngành Thương Mại Điện Tử
Thể loại báo cáo thực tập tốt nghiệp
Năm xuất bản 2022
Thành phố Đà Nẵng
Định dạng
Số trang 81
Dung lượng 4,6 MB

Cấu trúc

  • 1. Tính Cấp Thiết Của Đề Tài (13)
  • 2. Mục Tiêu Nghiên Cứu (14)
    • 2.1. Mục Tiêu Chung (14)
    • 2.2. Mục Tiêu Cụ Thể (14)
  • 3. Đối Tượng Và Phạm Vi Nghiên Cứu (14)
    • 3.1. Đối Tượng Nghiên Cứu (14)
    • 3.2. Phạm Vi Nghiên Cứu (15)
  • 4. Phương Pháp Nghiên Cứu (15)
  • 5. Kết Cấu Chương (15)
  • CHƯƠNG 1: CƠ SỞ LÝ LUẬN (16)
    • 1.1. Hành Vi Khách Hàng (16)
      • 1.1.1. Khái Niệm Và Mô Hình Hành Vi Khách Hàng (16)
      • 1.1.2. Các Yếu Tố Ảnh Hưởng Đến Hành Vi Khách Hàng (17)
      • 1.1.3. Quy Trình Ra Quyết Định Mua Hàng (18)
    • 1.2. Khai Phá Dữ Liệu Và Khám Phá Tri Thức (20)
      • 1.2.1. Khám phá tri thức (20)
    • 1.3. Các Kỹ Thuật Khai Phá Dữ Liệu (23)
      • 1.3.1. Phân Cụm Dữ Liệu (23)
      • 1.3.2. Luật Kết Hợp (26)
  • CHƯƠNG 2: PHÂN TÍCH THỰC TRẠNG HÀNH VI KHÁCH HÀNG (29)
    • 2.1. Giới Thiệu Chung Về Công Ty (29)
      • 2.1.1. Khái Quát (29)
      • 2.1.2. Tầm Nhìn Và Sứ Mệnh (29)
      • 2.1.3. Giá Trị Của Công Ty (30)
      • 2.1.4. Lĩnh Vực Kinh Doanh (30)
      • 2.1.5. Phân Tích SWOT (30)
    • 2.2. Mô Tả Dữ Liệu Khách Hàng Của Công Ty (31)
    • 2.3. Trực Quan Hoá Dữ Liệu Bán Hàng Trong Tablue (32)
      • 2.3.1. Thông Tin Đặc Điểm Khách Hàng (32)
      • 2.3.2. Xu Hướng Lựa Chọn Dòng Sản Phẩm Của Khách Hàng (39)
      • 2.3.3. Mối Quan Hệ Giữa Hình Thức Thanh Toán Và Các Thuộc Tính. 28 2.3.4. Doanh Số Bán Hàng (42)
    • 2.4. Phân Cụm Dữ Liệu Bằng SQL Server Analysis Services (47)
      • 2.4.1. Kết Quả Phân Tích (47)
      • 2.4.2. Nhận Xét (55)
    • 2.5. Ứng Dụng Luật Kết Hợp (56)
      • 2.5.1. Kết Quả Phân Tích (56)
      • 2.5.2. Nhận Xét (59)
  • CHƯƠNG 3: GIẢI PHÁP ĐỀ XUẤT CHO CÔNG TY NETHOUSE (61)
    • 3.1. Chiến Lược Phát Triển Sản Phẩm Dựa Trên Dữ Liệu Phân Cụm. .46 3.2. Chiến Lược Digital Marketing (61)
      • 3.2.2. Chiến Lược Chạy Quảng Cáo Trên Pinterest (66)
      • 3.2.3. Chiến Lược Chạy Quảng Cáo Trên Google Ads (71)
  • CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI (75)
    • 4.1. Kết Luận (75)
    • 4.2. Hướng Phát Triển Của Đề Tài (75)
  • TÀI LIỆU THAM KHẢO (78)

Nội dung

Tính Cấp Thiết Của Đề Tài

Trong thời đại công nghệ phát triển nhanh chóng, nhu cầu thông tin ngày càng tăng, đặc biệt trong lĩnh vực thương mại điện tử Khối lượng dữ liệu lưu trữ ngày càng lớn tạo ra một kho tri thức vô tận, giúp doanh nghiệp hiểu rõ hơn về khách hàng và thị trường Tuy nhiên, không phải doanh nghiệp nào cũng biết khai thác và tận dụng dữ liệu hiệu quả Do đó, kỹ thuật khai phá dữ liệu và khám phá tri thức đã ra đời để giải quyết vấn đề này, giúp doanh nghiệp phát triển các chiến dịch quảng cáo phù hợp và dự báo xu hướng tương lai.

Khám phá tri thức và khai phá dữ liệu đang trở thành xu hướng trong nhiều lĩnh vực, kết hợp với quản lý dữ liệu và khoa học thống kê Phân cụm dữ liệu và cây quyết định là những phương pháp quan trọng trong quá trình này Bên cạnh đó, trực quan hóa dữ liệu đóng vai trò thiết yếu, giúp người dùng có cái nhìn tổng quan về khối lượng dữ liệu phức tạp Mục tiêu của trực quan hóa dữ liệu là truyền đạt thông tin một cách rõ ràng và hiệu quả thông qua các đồ họa như bảng biểu và biểu đồ.

Công ty TNHH MTV NETHOUSE hoạt động theo mô hình dropshipping, chuyên cung cấp sản phẩm thiết kế theo yêu cầu khách hàng trên các nền tảng như Amazon và Shopify, dẫn đến sự cạnh tranh khốc liệt Để thành công, việc nắm bắt nhu cầu khách hàng là yếu tố then chốt Mặc dù công ty đã thu thập được một lượng lớn dữ liệu trong quá trình kinh doanh, nhưng vẫn chưa khai thác hiệu quả Do đó, tôi đã chọn đề tài “Ứng dụng kỹ thuật khai phá dữ liệu và trực quan hoá dữ liệu vào phân tích hành vi khách hàng nhằm nâng cao hiệu quả hoạt động bán hàng tại công ty TNHH MTV Nethouse” để làm báo cáo tốt nghiệp, sử dụng dữ liệu trích xuất từ công ty.

Mục Tiêu Nghiên Cứu

Mục Tiêu Chung

- Tìm hiểu về quá trình khai phá dữ liệu và khám phá tri thức trong cơ sở dữ liệu.

- Nghiên cứu về mô hình hành vi khách hàng, các yếu tố ảnh hưởng và quy trình ra quyết định mua hàng của họ.

- Hiểu rõ về bản chất của các kỹ thuật khai phá dữ liệu, trong bài báo cáo này sẽ nói về kỹ thuật phân cụm và luật kết hợp.

Mục Tiêu Cụ Thể

- Ứng dụng các kỹ thuật khai phá dữ liệu và trực quan hoá vào việc phân tích hành vi của khách hàng.

- Phân tích thực trạng hoạt động bán hàng của công ty bằng trực quan hoá dữ liệu.

Phân tích hành vi khách hàng giúp nhận diện các đặc điểm mua hàng tương đồng thông qua phân cụm với SQL Server Analysis Services Điều này cho phép công ty xây dựng các chiến lược bán hàng và tiếp thị hiệu quả, nhắm đến từng phân khúc khách hàng cụ thể.

Doanh nghiệp đang phải đối mặt với nhiều khó khăn trong việc phân tích hành vi khách hàng, điều này ảnh hưởng đến hiệu quả bán hàng và tiếp thị Để khắc phục tình trạng này, cần xác định rõ các vấn đề cụ thể và từ đó đề xuất những giải pháp phù hợp nhằm nâng cao hoạt động kinh doanh Việc cải thiện phân tích hành vi khách hàng sẽ giúp công ty tối ưu hóa chiến lược tiếp thị, tăng cường khả năng tiếp cận khách hàng và cải thiện doanh thu.

- Đề xuất giải pháp nhằm nâng cao hiệu quả bán hàng cho công ty từ thực trạng đã phân tích.

Phương Pháp Nghiên Cứu

Đề tài này sử dụng các phương pháp nghiên cứu như sau:

Phương pháp thống kê mô tả là quá trình thu thập và tóm tắt dữ liệu nhằm mô tả các đặc điểm của tập dữ liệu khách hàng Phương pháp này giúp phản ánh tổng quát các đối tượng nghiên cứu, cung cấp cái nhìn rõ ràng về hành vi và xu hướng của khách hàng trong công ty.

- Phương pháp thu thập dữ liệu :

Nghiên cứu thứ cấp là quá trình thu thập và phân tích dữ liệu khách hàng trong quá trình giao dịch trên website công ty Mục tiêu của nghiên cứu này là hiểu rõ hành vi khách hàng, từ đó đề xuất các giải pháp hiệu quả nhằm tối ưu hóa hoạt động bán hàng của công ty.

Trong bài phỏng vấn, giám đốc công ty và các nhân viên từ các phòng ban đã chia sẻ về thực trạng phân tích dữ liệu khách hàng Họ nhấn mạnh tầm quan trọng của việc hiểu rõ thông tin khách hàng để nâng cao hiệu quả kinh doanh Các ý kiến từ phỏng vấn cho thấy sự cần thiết phải cải thiện quy trình phân tích dữ liệu nhằm đáp ứng nhanh chóng và chính xác nhu cầu của khách hàng.

Kết Cấu Chương

Bài báo cáo được chia làm 4 chương, cụ thể như sau :

Chương 1 : Cơ sở lý luận

Chương 2 : Phân tích thực trạng hành vi của khách hàng

Chương 3 : Giải pháp đề xuất cho Công Ty Nethouse

Chương 4 : Kết luận và hướng phát triển của đề tài

CƠ SỞ LÝ LUẬN

Hành Vi Khách Hàng

1.1.1 Khái Niệm Và Mô Hình Hành Vi Khách Hàng

Nghiên cứu và phân tích hành vi người tiêu dùng là yếu tố quan trọng trong tiếp thị doanh nghiệp Theo Kotler và Armstrong, hành vi người tiêu dùng bao gồm những hành động cụ thể của cá nhân liên quan đến quyết định mua sắm, sử dụng và xử lý sản phẩm hoặc dịch vụ.

Hành vi của người tiêu dùng là tổng hợp các hành động liên quan đến quá trình mua hàng, từ việc nhận biết nhu cầu đến quyết định mua và trải nghiệm sau khi mua Các yếu tố bên ngoài và bên trong tâm lý ảnh hưởng đến quyết định mua sản phẩm hoặc dịch vụ Để phát triển các chiến lược bán hàng và tiếp thị hiệu quả, các nhà tiếp thị cần nghiên cứu hành vi người tiêu dùng, tìm hiểu về đối tượng khách hàng, sản phẩm họ mua, địa điểm mua sắm, phương thức mua và mức chi tiêu của họ.

Nghiên cứu hành vi người tiêu dùng trong mua sắm là điều thiết yếu cho các công ty, giúp họ hiểu rõ hơn về khách hàng và phát triển doanh nghiệp hiệu quả Đây cũng là yếu tố quyết định trong việc tạo ra lợi thế cạnh tranh so với các đối thủ khác.

Hình 1-1 Mô hình hành vi của khách hàng Nguồn: “Nguyên lý tiếp thị” bởi Philip Kolter & Gary Armstrong, 2012,

14 th ed, NXB LAO ĐỘNG – XÃ HỘI, Tp Hồ Chí Minh.

Các yếu tố kích thích ảnh hưởng đến quyết định mua sắm của người tiêu dùng bao gồm sở thích, lựa chọn sản phẩm, địa điểm, thời gian và mức độ mua hàng Mối quan hệ giữa thương hiệu và công ty cũng được hình thành từ những yếu tố này Các yếu tố kích thích chủ yếu đến từ marketing, bao gồm sản phẩm, giá cả, phân phối và chiến lược quảng cáo, cùng với các yếu tố bên ngoài như kinh tế, công nghệ, xã hội và văn hóa.

Nhiệm vụ quan trọng nhất của các nhà tiếp thị là hiểu rõ những gì diễn ra trong tâm trí người tiêu dùng khi họ tiếp nhận các yếu tố kích thích từ môi trường Quy trình này được chia thành hai phần chính.

Những đặc điểm của người mua đóng vai trò quan trọng trong việc hình thành cảm nhận và tiếp nhận các yếu tố kích thích từ môi trường xung quanh Sự khác biệt trong tính cách, nhu cầu và thói quen tiêu dùng sẽ ảnh hưởng đến cách mà họ phản ứng với các tác nhân này.

Quy trình quyết định của người mua bao gồm năm giai đoạn chính: đầu tiên là nhận thức nhu cầu, tiếp theo là tìm kiếm thông tin để hiểu rõ hơn về sản phẩm hoặc dịch vụ Sau đó, người tiêu dùng sẽ đánh giá các lựa chọn có sẵn, so sánh lợi ích và giá trị của từng sản phẩm Giai đoạn quyết định mua diễn ra khi người tiêu dùng chọn sản phẩm phù hợp nhất với nhu cầu của mình Cuối cùng, hành vi sau khi mua sẽ ảnh hưởng đến sự hài lòng và khả năng quay lại của khách hàng trong tương lai.

1.1.2 Các Yếu Tố Ảnh Hưởng Đến Hành Vi Khách Hàng

Theo Kotler và Armstrong, quyết định mua sắm của người tiêu dùng bị ảnh hưởng bởi các yếu tố văn hóa, xã hội, cá nhân và tâm lý Những yếu tố này nằm ngoài tầm kiểm soát của nhà tiếp thị, nhưng việc hiểu rõ chúng là cần thiết để thuyết phục khách hàng lựa chọn sản phẩm Mô hình các yếu tố này giúp các nhà tiếp thị nắm bắt hành vi khách hàng hiệu quả hơn.

Hình 1-2 Các yếu tố ảnh hưởng đến hành vi khách hàng Nguồn: “Nguyên lý tiếp thị” bởi Philip Kolter & Gary Armstrong, 2012,

14 th ed, NXB LAO ĐỘNG – XÃ HỘI, Tp Hồ Chí Minh.

Văn hóa đóng vai trò quan trọng trong việc hình thành mong muốn và giá trị hàng hóa, ảnh hưởng mạnh mẽ đến hành vi mua sắm của người tiêu dùng Những cá nhân từ các nền văn hóa khác nhau sẽ thể hiện các thói quen tiêu dùng khác biệt, dẫn đến sự hình thành các phân khúc thị trường đa dạng Các yếu tố văn hóa bao gồm văn hóa tổng thể, văn hóa đặc thù và tầng lớp xã hội.

Yếu tố xã hội có ảnh hưởng lớn đến hành vi khách hàng, bao gồm các nhóm thành viên và nhóm tham khảo Các thành viên trong gia đình và địa vị xã hội của cá nhân cũng góp phần định hình hành vi tiêu dùng Cụ thể, các nhóm nhỏ hơn, gia đình, vai trò xã hội và địa vị của mỗi người đều có tác động đáng kể đến quyết định mua sắm của khách hàng.

Yếu tố cá nhân như tuổi tác, giai đoạn trong vòng đời, nghề nghiệp, điều kiện kinh tế, phong cách sống, tính cách và sự nhận thức về bản thân ảnh hưởng đến hành vi mua sắm và quyết định mua hàng của mỗi người Trong đó, điều kiện kinh tế được xem là yếu tố quan trọng nhất, quyết định khả năng chi tiêu của khách hàng đối với sản phẩm và dịch vụ Thông thường, trong thời kỳ kinh tế tăng trưởng, khách hàng có xu hướng tiêu dùng nhiều hơn, trong khi trong thời kỳ suy thoái, họ sẽ hạn chế chi tiêu.

Yếu tố tâm lý đóng vai trò quan trọng trong hành vi mua sắm của khách hàng, bao gồm bốn thành phần chính: động lực, cảm nhận, học hỏi niềm tin và quan điểm Những yếu tố này có sự ảnh hưởng trực tiếp và gần gũi đến quyết định mua hàng, giúp hiểu rõ hơn về tâm lý người tiêu dùng.

1.1.3 Quy Trình Ra Quyết Định Mua Hàng

Theo Kotler và Armstrong quá trình ra quyết định mua hàng được diễn ra như sau:

Hình 1-3 Quy trình ra quyết định mua hàng Nguồn: “Nguyên lý tiếp thị” bởi Philip Kolter & Gary Armstrong, 2012,

14 th ed, NXB LAO ĐỘNG – XÃ HỘI, Tp Hồ Chí Minh.

Nhận diện nhu cầu là bước đầu tiên trong quá trình mua hàng, nơi khách hàng xác định nhu cầu cần được thoả mãn Nhu cầu này có thể xuất phát từ những kích thích bên trong hoặc bên ngoài Nhiệm vụ của nhà tiếp thị trong giai đoạn này là tìm hiểu các loại nhu cầu tiềm ẩn của khách hàng, nguyên nhân tạo ra chúng và các sản phẩm vật chất mà người mua mong muốn để thoả mãn nhu cầu đó.

Khách hàng tìm kiếm thông tin từ nhiều nguồn khác nhau như cá nhân, thương mại, công cộng và kinh nghiệm thực tiễn để đáp ứng nhu cầu của mình Các nguồn thông tin này bao gồm gia đình, bạn bè, quảng cáo, nhân viên bán hàng, truyền thông và ý kiến xã hội, với mức độ ảnh hưởng tùy thuộc vào loại sản phẩm và đặc điểm khách hàng Sau khi có danh sách các lựa chọn, người tiêu dùng sẽ đánh giá các thay thế để quyết định thương hiệu nào để mua, điều này phụ thuộc vào tâm lý và bối cảnh mua sắm Do đó, các nhà tiếp thị cần chú ý đến quan điểm và thái độ của khách hàng, cũng như các tiêu chuẩn niềm tin của họ khi đánh giá các thương hiệu cạnh tranh.

Quyết định mua hàng của người tiêu dùng thường dựa trên ý định mua sản phẩm có đánh giá cao nhất, nhưng bị ảnh hưởng bởi quan điểm của gia đình, bạn bè và các yếu tố bất ngờ như sản phẩm thay thế, thu nhập kỳ vọng và mức giá Để thúc đẩy quá trình mua hàng, các nhà tiếp thị nên tập trung vào các chương trình khuyến mãi, phiếu giảm giá, quà tặng và dịch vụ chăm sóc sau mua Sau khi mua, cảm giác hài lòng hay không hài lòng của người tiêu dùng phụ thuộc vào việc sản phẩm có đáp ứng mong đợi hay không Sự hài lòng sẽ dẫn đến đánh giá tốt, mua lại và giới thiệu sản phẩm, trong khi sự không hài lòng có thể gây ra việc không mua nữa và phê phán sản phẩm Do đó, các nhà tiếp thị cần tìm cách giảm thiểu mức độ không hài lòng của khách hàng.

Khai Phá Dữ Liệu Và Khám Phá Tri Thức

Trong thời đại công nghệ thông tin bùng nổ, việc thu thập, lưu trữ và xử lý dữ liệu từ hoạt động của con người và thiên nhiên trở nên phổ biến Khối lượng thông tin ngày càng lớn nhờ vào công cụ thu thập dữ liệu tự động và sự phát triển của công nghệ Tuy nhiên, nhiều doanh nghiệp vẫn gặp khó khăn trong việc khai thác nguồn dữ liệu khổng lồ này để xây dựng chiến lược tiếp thị trực tuyến và tăng cường hoạt động bán hàng Giải pháp cho vấn đề này là áp dụng các kỹ thuật khai phá dữ liệu và khám phá tri thức trong cơ sở dữ liệu để tận dụng tối đa giá trị thông tin.

Quá trình khám phá tri thức trong cơ sở dữ liệu (KDD) là bước quan trọng nhằm xác định các mẫu hợp lệ và mới lạ có giá trị trong dữ liệu Theo Frawley và cộng sự (1991), KDD bao gồm nhiều bước cơ bản để đạt được mục tiêu này.

Hình 1-4 Quá trình khám phá tri thức Nguồn: “From Data Mining to Knowledge Discovery : An Overview ” bởi

Usama M Fayyed, Gregory Piatetsky-Shapiro & Padhraic Smyth, 1996.

Lựa chọn dữ liệu là giai đoạn quan trọng trong quá trình phân tích, bao gồm việc thu thập và xác định các dữ liệu cần thiết từ các nguồn gốc như cơ sở dữ liệu, kho dữ liệu và trang web Việc này thường gặp khó khăn do sự phong phú và đa dạng của dữ liệu có sẵn.

Tiền xử lý dữ liệu là giai đoạn quan trọng trong quy trình phân tích, nơi cần loại bỏ các dữ liệu bị nhiễu và không nhất quán Trong quá trình thu thập dữ liệu, thường xảy ra các lỗi như dữ liệu không đầy đủ, dư thừa, trùng lặp, không chính xác hoặc không hợp lệ, dẫn đến khó khăn trong việc kết nối các dữ liệu Nếu không làm sạch dữ liệu, kết quả phân tích có thể bị sai lệch nghiêm trọng, ảnh hưởng đến độ tin cậy của các kết luận.

Chuyển đổi dữ liệu là quá trình biến đổi hoặc hợp nhất dữ liệu thành định dạng thích hợp, nhằm phục vụ cho việc triển khai các thuật toán khám phá dữ liệu hiệu quả hơn.

Khai phá dữ liệu là giai đoạn sử dụng các kỹ thuật như phân cụm, phân lớp và luật kết hợp để khám phá kiến thức ẩn trong cơ sở dữ liệu Giai đoạn đánh giá mẫu là bước cuối cùng trong quá trình khám phá tri thức, nơi các kết quả khai thác được tóm tắt và trình bày dưới dạng báo cáo, biểu đồ, bảng biểu hoặc các luật từ các công cụ khai phá dữ liệu.

Khai phá dữ liệu (Data Mining - DM) là một bước quan trọng trong việc khám phá tri thức từ cơ sở dữ liệu, xuất hiện vào cuối những năm 80 Quá trình này sử dụng các công cụ phân tích dữ liệu để tìm ra các mẫu và mối quan hệ giữa các dữ kiện trong cơ sở dữ liệu Kết quả của khai phá dữ liệu là xác định các mẫu và mô hình ẩn, từ đó trích xuất thông tin và tri thức giá trị.

Quá trình khai phá dữ liệu có thể được mô tả bằng các bước sau :

Hình 1-5 Quá trình khai phá dữ liệu Nguồn: “Tổng quan về phát hiện tri thức và khai phá dữ liệu” bởi ThS Trần

Hùng Cường & ThS Ngô Đức Vĩnh, số 5.2011, Tạp chí khoa học & công nghệ.

Bước 1 : Cần xác định chính xác vấn đề cần giải quyết

Bước 2 : Xác định dữ liệu liên quan dùng để xây dựng bài toán

Bước 3: Thu thập và tiền xử lý dữ liệu là một bước quan trọng, vì dữ liệu cần được lấy từ nhiều nguồn khác nhau như cơ sở dữ liệu, kho dữ liệu và web.

Việc dữ liệu bị thiếu, dư thừa, sai sót và không logic là điều khó tránh khỏi Do đó, sau khi thu thập, chúng ta cần tiến hành tiền xử lý dữ liệu, bao gồm chọn các thuộc tính phù hợp với mô hình, lọc mẫu dữ liệu, làm sạch dữ liệu, chuyển đổi dữ liệu và rời rạc hóa dữ liệu.

Bước 4: Áp dụng các thuật toán đa dạng để khai thác những kiến thức tiềm ẩn trong dữ liệu, nhằm phát hiện các mẫu có ý nghĩa qua các hình thức biểu diễn khác nhau.

Các Kỹ Thuật Khai Phá Dữ Liệu

Phân cụm dữ liệu là một kỹ thuật quan trọng trong khai phá dữ liệu và khám phá tri thức, được ứng dụng rộng rãi trong các lĩnh vực như kinh tế, y tế và khoa học xã hội Định nghĩa đơn giản về phân cụm dữ liệu là quá trình nhóm các đối tượng vào các cụm (clusters) sao cho các đối tượng trong cùng một cụm tương tự nhau, trong khi các đối tượng thuộc các cụm khác thì không tương tự Các cụm có thể được xác định tự động hoặc dựa trên kinh nghiệm.

Phân cụm là phương pháp giúp xác định bản chất của các nhóm trong tập dữ liệu, với các đối tượng trong cùng một cụm có sự tương đồng và khác cụm thì bất tương đồng Qua đó, nhà quản trị có thể đưa ra quyết định chính xác hơn Phân cụm đặc biệt hữu ích khi thông tin về các cụm chưa rõ ràng hoặc khi cần tìm hiểu các thuộc tính chưa biết Đây được coi là công cụ quan trọng trong việc phân bố dữ liệu và là bước tiền xử lý cho các thuật toán khác Có nhiều phương pháp phân cụm như phân hoạch, phân cấp, dựa trên mặt độ, lưới và mô hình, mỗi phương pháp đi kèm với các thuật toán riêng Tuy nhiên, việc lựa chọn thuật toán phù hợp để đánh giá hiệu quả phân tích phụ thuộc vào cơ sở dữ liệu và mục đích cụ thể của quá trình phân cụm.

Phân cụm dữ liệu là công cụ quan trọng trong việc xác định nhóm khách hàng tiềm năng và giá trị, từ đó giúp công ty triển khai các chiến dịch quảng cáo và tiếp thị hiệu quả Ngoài ra, nó còn hỗ trợ dự đoán hành vi khách hàng trong tương lai, tạo điều kiện cho chiến lược kinh doanh tốt hơn Trong sinh học, phân cụm được áp dụng để phân loại động thực vật theo thuộc tính; trong lĩnh vực xuất bản, nó giúp dự đoán nhu cầu của độc giả; và trong tài chính, nó hỗ trợ phát hiện gian lận và phân loại người mua bảo hiểm Hơn nữa, phân cụm dữ liệu còn là bước tiền xử lý quan trọng cho các thuật toán khai phá dữ liệu khác.

Thuật toán K-means trong khai thác dữ liệu bắt đầu bằng cách chọn ngẫu nhiên một nhóm các trung tâm, từ đó làm điểm khởi đầu cho việc phân cụm Sau đó, thuật toán thực hiện các phép tính lặp lại để tối ưu hóa vị trí của các trung tâm này, nhằm cải thiện độ chính xác của các cụm được tạo ra.

Quá trình tạo và tối ưu hóa các cụm sẽ tạm dừng khi các centroid ổn định và không có sự thay đổi về giá trị, đồng thời số lần lặp đã đạt đến mức xác định, cho thấy việc phân nhóm đã thành công.

Thuật toán K-means được mô tả qua các bước như sau:

Bước 1: Chọn một cách ngẫu nhiên K tâm cho K cụm Mỗi cụm được đại diện bằng các tâm của cụm đó

Bước 2: Ta sẽ tính khoảng cách giữa các đối tượng đến K tâm

Bước 3: Nhóm các đối tượng vào nhóm gần nhất

Bước 4: Điều chỉnh tâm mới cho các nhóm đó

Bước 5: Lặp lại bước 2 cho đến khi tất cả các điểm dữ liệu được tổ chức hoàn hảo trong một không gian cụm

Hình 1-6 Các bước của thuật toán K-means Nguồn: “K-Means Clustering Tutorial” bởi Kardi Teknomo.PhD, 2006

Thuật toán K-Means nổi bật với tính đơn giản và dễ hiểu, nhưng cũng gặp phải một số hạn chế Hiệu quả của thuật toán phụ thuộc vào việc lựa chọn số nhóm K phù hợp, và chi phí tính toán sẽ tăng cao khi số cụm K và dữ liệu phân cụm lớn Để tối ưu hóa, có thể xác định giá trị ngưỡng cho K thông qua đồ thị điểm Elbow.

Phương pháp Elbow là một kỹ thuật hữu hiệu để xác định giá trị tối ưu cho k trong phân cụm k-mean Phương pháp này thực hiện bằng cách chạy phân cụm trên một tập dữ liệu với nhiều giá trị khác nhau của k, sau đó tính toán tổng biến thiên bình phương khoảng cách trong cụm (WCSS) cho từng giá trị k Việc vẽ đồ thị điểm Elbow giúp trực quan hóa sự thay đổi của WCSS, từ đó xác định được giá trị k tối ưu cho mô hình.

Hình 1-7 Biểu đồ phương pháp Elbow

The article discusses the process of determining the ideal number of clusters for K-Means clustering using the Elbow method, comparing both mathematical and graphical approaches It emphasizes the importance of selecting the right number of clusters to enhance data analysis and improve model performance For more detailed insights, you can refer to the original source on LinkedIn.

Biểu đồ cho phép xác định số lượng cụm tối ưu thông qua phần khuỷu Tại vị trí k = 3, có một “khuỷu tay” rõ ràng, do đó số cụm tối ưu được xác định là 3.

Phương pháp Elbow là một trong những kỹ thuật phổ biến nhất để xác định giá trị tối ưu cho K trong phân cụm Mặc dù trong một số trường hợp, giá trị K có thể không rõ ràng do quy luật phân cụm khó phát hiện, phương pháp này vẫn được coi là hữu ích trong việc tìm ra số cụm tối ưu.

Khai phá luật kết hợp (Association Rule-AR) là một kỹ thuật quan trọng trong khai phá dữ liệu, nhằm phát hiện các mối quan hệ giữa các đối tượng trong tập dữ liệu lớn Kỹ thuật này đã thu hút sự chú ý đáng kể và đóng vai trò quan trọng trong việc phân tích dữ liệu.

Cho cơ sở dữ liệu giao dịch T gồm có T = {t1, t2,…, tn}, I = {i1, i2, …, im},với I gọi là itemset Một itemset sẽ có k items được gọi k-itemset

Công thức tính độ hỗ trợ và độ tin cậy của luật kết hợp X→Y rất quan trọng trong phân tích dữ liệu Độ hỗ trợ cho biết tần suất xuất hiện của luật, trong khi độ tin cậy thể hiện khả năng đúng của luật khi X xảy ra Để tìm hiểu chi tiết về thuật toán Apriori và cách khai thác luật kết hợp, bạn có thể tham khảo bài viết trên blog tại địa chỉ: http://bis.net.vn/forums/t/389.aspx.

Trong đó: N tổng số giao dịch n(X) số giao dịch chứa X

Các luật mạnh được xác định bởi độ hỗ trợ và độ tin cậy lớn hơn hoặc bằng các giá trị ngưỡng tối thiểu, bao gồm độ hỗ trợ tối thiểu (min_sup) và độ tin cậy tối thiểu (min_conf) Những giá trị này cần được xác định trước khi tiến hành sinh các luật kết hợp.

Thuật toán Apriori, được Agrawal và R Srikant đề xuất vào năm 1994, là một phương pháp khai phá tập mục phổ biến nhằm phát hiện các luật kết hợp boolean Mục tiêu chính của thuật toán này là xác định tất cả các luật kết hợp có độ hỗ trợ và độ tin cậy vượt qua các ngưỡng đã được xác định.

 Tìm ra tất cả tập mục phổ biến với min_sup nào đó

 Từ tập mục phổ biến tìm ra các luật kết hợp mạnh (thoả mãn 2 tham số min_sup và min_conf).

Các bước của thuật toán Apriori (Chức, 2011):

1 Duyệt toàn bộ dữ liệu giao dịch sao cho để có được support S của 1- itemset Để có được 1-itemset (L1) bằng cách so sánh S với min_sup.

2 Sinh ra candidate k-itemset bằng cách sử dụng L(k-1) nối (join) L(k-1). Các itemsets nào không phải là frequent itemsets thì loại bỏ thu được k- itemset.

3 Duyệt dữ liệu giao dịch để thu được support S của mỗi candidate k-

4 Thực hiện lặp lại từ bước 2 cho đến khi không tìm thấy được frequent itemsets Candidate set (C) trống.

5 Với mỗi frequent itemset I, tạo ra tất cả các tập con s không rỗng của I.

6 Với mỗi tập con s mà không rỗng của I đó, sinh ra các luật s => (I-s) nếu độ tin cậy (Confidence) của nó lớn hơn hoặc bằng min_conf.

Hình 1-9 Mô tả thuật toán Apriori

The article discusses the extraction of frequent itemsets using the Apriori algorithm, highlighting its significance in data mining It emphasizes how this algorithm identifies patterns in large datasets, making it a valuable tool for market basket analysis and other applications By leveraging the Apriori algorithm, businesses can uncover associations between items, leading to more informed decision-making and enhanced strategies For further details, visit the original blog post at the provided link.

PHÂN TÍCH THỰC TRẠNG HÀNH VI KHÁCH HÀNG

Giới Thiệu Chung Về Công Ty

Tên công ty: Công ty TNHH một thành viên NETHOUSE

Mã số thuế: 0401664583 Điện thoại: 0914.204.246 - 0937.823.868

Email: nethouse.group@gmail.com

Công Ty TNHH Một Thành Viên NETHOUSE, được thành lập vào ngày 06 tháng 02 năm 2015 với tên gọi ban đầu là Công Ty TNHH Dịch Vụ Kỹ Thuật IPTS, khởi đầu từ việc thiết kế và in áo thun đồng phục Công ty đã cung cấp sản phẩm cho nhiều đối tác trong và ngoài thành phố Kể từ năm 2016, nhận thấy tiềm năng của thương mại điện tử toàn cầu, NETHOUSE đã thay đổi chiến lược kinh doanh, tập trung vào các nền tảng thương mại điện tử lớn như Amazon, eBay, và Etsy Ngày 2/11/2021, công ty chính thức đổi tên thành Công ty TNHH MTV NETHOUSE.

NETHOUSE hướng đến mục tiêu trở thành doanh nghiệp hàng đầu trong lĩnh vực kinh doanh và mở rộng ảnh hưởng ra thị trường quốc tế Đội ngũ cộng tác viên trẻ trung, năng động của chúng tôi luôn nắm bắt xu hướng nhanh chóng, cam kết mang đến giá trị khác biệt cho khách hàng Đồng thời, chúng tôi cũng tạo ra một môi trường làm việc thoải mái, khuyến khích nhân viên làm việc hăng say.

2.1.2 Tầm Nhìn Và Sứ Mệnh

Tầm nhìn của chúng tôi vào năm 2023 là trở thành công ty lớn nhất Việt Nam trong lĩnh vực kinh doanh của mình, đồng thời nằm trong Top 3 thế giới về sản phẩm cá nhân hóa Chúng tôi cũng hướng đến việc nâng cao sức ảnh hưởng và uy tín cho cộng đồng doanh nghiệp Việt Nam trên thị trường quốc tế.

Chúng tôi mang đến hạnh phúc cho khách hàng thông qua những sản phẩm độc đáo và sáng tạo, có hàm lượng nghệ thuật cao cùng với chất lượng tốt, tất cả đều với mức chi phí hợp lý.

 Tự động hoá hoàn toàn quy trình cá nhân hoá sản phẩm cho khách hàng ứng dụng công nghệ thông tin.

 Đào tạo và phát triển con người.

2.1.3 Giá Trị Của Công Ty

Bền vững là việc xây dựng chuỗi giá trị sản phẩm sáng tạo, độc đáo và chất lượng, tập trung vào sự hài lòng của khách hàng Điều này không chỉ giúp khách hàng luôn hạnh phúc mà còn tránh những hành động chộp giật vì lợi nhuận ngắn hạn.

Trung thực, liêm chính: Thẳng thắn, không nói xấu sau lưng, tôn trọng đồng nghiệp Trung thực về tài chính, không động đến tài săn không phải của mình

Học hỏi mỗi ngày là chìa khóa để phát triển bản thân và hoàn thiện đam mê Một "Doanh nghiệp học tập" không ngại đối mặt với khó khăn, luôn chủ động trong việc tự học và nỗ lực vươn lên.

Công ty TNHH Nethouse, hoạt động tại Đà Nẵng, chuyên về thương mại điện tử P.O.D Nethouse tập trung vào nghiên cứu và phát triển trong hai lĩnh vực chính của ngành P.O.D: thiết kế tùy chỉnh và phát triển kinh doanh nền tảng thương mại điện tử.

Công ty hoạt động trên nhiều gian hàng trực tuyến tại các sàn thương mại điện tử hàng đầu như Amazon, eBay, và Etsy, cung cấp các sản phẩm xu hướng cho thị trường Châu Âu và toàn cầu Sản phẩm chủ yếu bao gồm đồ trang trí nhà cửa và quần áo, với nguồn cung ổn định từ các nhà cung cấp tại Hoa Kỳ và các quốc gia khác Công ty cam kết chăm sóc khách hàng tận tâm từ khi nhận đơn hàng cho đến khi giao nhận, đồng thời quản lý hiệu quả các vấn đề phát sinh để đảm bảo quyền lợi tốt nhất cho khách hàng.

Dưới đây là mô hình SWOT phân tích điểm mạnh, điểm yếu, cơ hội và thách

Mô Tả Dữ Liệu Khách Hàng Của Công Ty

Tập dữ liệu này chứa thông tin về khách hàng đã mua áo thun thiết kế từ công ty Nethouse, bao gồm 16 cột và 1501 dòng dữ liệu bán hàng Dữ liệu đã được xử lý để phục vụ cho nghiên cứu.

Bảng 2-1 Mô tả thuộc tính dữ liệu khách hàng

STT Tên thuộc tính Mô tả

2 Marital Status Tình trạng hôn nhân

7 Family Size Số người trong gia đình

10 Customer Type Loại khách hàng

12 Oder Number Set Số đơn hàng đã đặt

15 Payment Method Phương thức thanh toán

16 Accepts Buy Again Có chấp nhận mua lần nữa không

Thuộc tính định tính: ID, Marital Status, Gender, Occupation, State, Hobby, Customer Type, Category, Payment Method, Accepts Buy Again.

Thuộc tính định lượng: Age, Income, Family Size, Oder Number Set, Ship Fee,Total.

Trực Quan Hoá Dữ Liệu Bán Hàng Trong Tablue

2.3.1 Thông Tin Đặc Điểm Khách Hàng Để có thể đưa ra chiến lược marketing hay bán hàng hiệu quả thì đầu tiên công ty phải xác định rõ được chân dung về khách hàng của mình thông qua việc phân tích phân tích những đặc diểm về khách hàng Hai Dashboard của Hình 2-2 và Hình 2-6 sẽ giúp cho người đọc, người xem có cái nhìn tổng quan và định hình được về khách hàng.

Hình 2-11 Dashboard thông tin về các đặc điểm của khách hàng

Dashboard này bao gồm 5 biểu đồ thể hiện thông tin quan trọng về vị trí cư trú, giới tính, tình trạng hôn nhân, độ tuổi và sở thích của khách hàng Dưới đây là phân tích chi tiết về từng biểu đồ.

Biểu đồ khách hàng ở các bang cho thấy sự phân bố khách hàng của công ty, với số lượng lớn tập trung tại New York, Florida và Arizona Cụ thể, bang New York có 207 khách hàng, trong khi Virginia chỉ có 127 khách hàng, là bang có số lượng khách hàng ít nhất Do đó, công ty nên chú trọng vào việc phát triển thị trường tại New York, Florida và Arizona, đồng thời cải thiện hoạt động bán hàng tại Virginia, North Carolina và California.

Hình 2-13 Biểu đồ giới tính và tình trạng hôn nhân của khách hàng

Giới tính và tình trạng hôn nhân là hai yếu tố quan trọng ảnh hưởng đến hành vi mua hàng của khách hàng Theo biểu đồ “Giới tính khách hàng”, nữ giới chiếm tỉ lệ cao hơn với 853 khách hàng, tương đương 56,83%, trong khi nam giới chỉ có 648 khách hàng, chiếm 43,17% Về tình trạng hôn nhân, trong tổng số 1501 khách hàng, có 619 người độc thân, chiếm 41,24%, trong khi số khách hàng đã kết hôn là 882, chiếm 58,76%.

Hình 2-14 Biểu đồ độ tuổi và sở thích của khách hàng

Biểu đồ cho thấy nhóm khách hàng chính của công ty là những người trong độ tuổi từ 30 – 45, chiếm 44,64% Nhóm khách hàng trên 45 tuổi chiếm 38,57%, trong khi đó, nhóm dưới 30 tuổi chỉ chiếm 16,79% Vì vậy, công ty cần chú trọng vào nhóm khách hàng từ 30 – 45 tuổi Về sở thích, phần lớn khách hàng thích chơi thể thao (419 khách), tiếp theo là các hoạt động ngoài trời (391 khách), trong khi sở thích về xe cộ và các sở thích khác gần như ngang nhau với 348 và 343 khách.

Hình 2-15 Dashboard thông tin về các đặc điểm của khách hàng (tiếp theo)

Dashboard này bao gồm 5 biểu đồ thể hiện thông tin về nghề nghiệp, loại khách hàng, thu nhập trung bình hàng tháng, mức độ thu nhập và số lượng thành viên trong gia đình Dưới đây là những phân tích chi tiết về từng biểu đồ.

Hình 2-16 Biểu đồ về nghề nghiệp và loại khách hàng

Theo biểu đồ hình 2-7, khách hàng chủ yếu thuộc hai nhóm nghề Society và Industry với tỉ lệ lần lượt là 26,316% và 26,183% Ngoài ra, nhóm khách hàng làm nghề Education chiếm 24,450%, trong khi các nghề khác chỉ chiếm 23,051% Trong tổng số 1501 khách hàng, có 703 khách hàng vãng lai, chiếm 46,835%, và 798 khách hàng là thành viên của công ty, chiếm 53,165%.

Hình 2-17 Biểu đồ số khách hàng ở mỗi bang và mức thu nhập theo level

Biểu đồ hình 2-8 cho thấy rằng khách hàng ở các bang chủ yếu có thu nhập trung bình Bang New York dẫn đầu với 122 khách hàng có thu nhập trung bình, 43 khách hàng có thu nhập thấp và 42 khách hàng có thu nhập cao Trong khi đó, bang Florida có 65 khách hàng với thu nhập thấp, nhưng vẫn xếp thứ hai về tổng số lượng khách hàng, chỉ sau New York.

Hình 2-18 Biểu đồ thu nhập trung bình hàng tháng của khách hàng tại một số bang

Thu nhập trung bình hàng tháng của khách hàng có sự khác biệt rõ rệt giữa các bang, với New York, Virginia và Michigan có mức thu nhập cao Trong khi đó, California và North Carolina có thu nhập trung bình, thì Florida lại có mức thu nhập trung bình thấp nhất.

Hình 2-19 Biểu đồ trung bình số người trong gia đình ở các bang

Theo biểu đồ hình 2-10, trung bình số người trong gia đình ở các bang tương đối đồng đều Trong số đó, Arizona, California và Nebraska có trung bình số người cao nhất, trong khi New York và Virginia có mức trung bình thấp nhất.

2.3.2 Xu Hướng Lựa Chọn Dòng Sản Phẩm Của Khách Hàng

Hình 2-20 Dashboard về xu hướng lựa chọn dòng sản phẩm của khách hàng

Dashboard này bao gồm 4 biểu đồ thể hiện xu hướng lựa chọn sản phẩm theo bang, sở thích, độ tuổi và giới tính Dưới đây là phân tích chi tiết về từng biểu đồ.

Hình 2-21 Biểu đồ xu hướng lựa chọn dòng sản phẩm theo bang

Theo biểu đồ, khách hàng ở các bang Arizona, California, Florida, Michigan, Nebraska, New York và Virginia chủ yếu lựa chọn sản phẩm Holiday Trong đó, Arizona, Michigan và New York có sự gần gũi giữa sản phẩm Holiday và Family Sản phẩm Animal được ưa chuộng tại North Carolina và Texas, trong khi bang Washington lại ưa thích sản phẩm Food.

Hình 2-22 Biểu đồ chọn dòng sản phẩm theo sở thích

Có sự khác biệt trong việc chọn dòng sản phẩm theo sở thích như sau :

Những người đam mê xe cộ thường có xu hướng mua sắm nhiều sản phẩm thuộc dòng Animal, trong khi dòng sản phẩm Food lại được mua ít hơn Mức độ tiêu thụ của hai dòng sản phẩm còn lại gần như tương đương với dòng Animal.

Những người yêu thích thể thao thường có xu hướng mua sắm nhiều sản phẩm thuộc dòng Holiday, trong khi dòng sản phẩm Food lại ít được ưa chuộng hơn Mức độ mua sắm của hai dòng sản phẩm còn lại gần như tương đương với dòng Holiday.

 Những người có sở thích về Outdoor Activities thị họ thường mua nhiều nhất về dòng sản phẩm Holiday và ít mua nhất về dòng sản phẩm Animal.

 Những người có sở thích khác (Other Hobbies) thị họ thường mua về dòng sản phẩm Holiday và Animal, ít mua nhất về dòng sản phẩm Family.

Hình 2-23 Biểu đồ chọn dòng sản phẩm theo độ tuổi và giới tính

Biểu đồ ở hình 2-14 cho thấy sự khác biệt trong lựa chọn dòng sản phẩm theo độ tuổi, với khách hàng dưới 30 tuổi ưu tiên sản phẩm Family, khách hàng trên 45 tuổi chọn sản phẩm Holiday, và nhóm từ 30-45 tuổi thích sản phẩm Animal Về giới tính, không có sự khác biệt rõ rệt, nhưng khách hàng nữ thường mua nhiều hơn nam ở tất cả các dòng sản phẩm Do đó, công ty cần xây dựng chiến lược tiếp thị phù hợp, chẳng hạn như sử dụng email marketing cho nhóm khách hàng dưới 30 tuổi để quảng bá sản phẩm Family.

2.3.3 Mối Quan Hệ Giữa Hình Thức Thanh Toán Và Các Thuộc Tính

Hình 2-24 Dashboard mối quan hệ giữa hình thức thanh toán và các thuộc tính

Phân Cụm Dữ Liệu Bằng SQL Server Analysis Services

Trong bài viết này, chúng tôi sẽ áp dụng thuật toán K-means trong ngôn ngữ lập trình R để phân khúc khách hàng thành các nhóm riêng biệt dựa trên thói quen mua sắm Thuật toán này giúp xác định sự tương đồng trong hành vi mua hàng trong từng cụm khách hàng, đồng thời làm nổi bật sự khác biệt giữa các cụm này.

Hiệu quả của thuật toán phân cụm phụ thuộc vào việc xác định số cụm k tối ưu trong tập dữ liệu Để tìm ra số cụm này, phương pháp Elbow thường được sử dụng Phương pháp này thực hiện phân cụm cho các giá trị k khác nhau, thường từ 1 đến 10, và tính toán tổng khoảng cách bình phương (Sum_of_squared_distances) cho mỗi giá trị k Giá trị k tối ưu được chọn tại "khuỷu tay", tức là điểm mà sau đó sự biến dạng hoặc quán tính bắt đầu giảm.

Hình 2-33 Số cụm tối ưu theo phương pháp Elbow

Dựa vào đồ thị, điểm nằm ở vị trí khuỷ tay cho thấy giá trị k=3 Vì vậy, có thể kết luận rằng số cụm tối ưu cho tập dữ liệu này là 3, và sẽ thực hiện phân cụm bằng thuật toán K-means với k=3.

Sau khi thực hiện phân cụm k=3 ta thu được kết quả như sau:

Hình 2-34 Sơ đồ phân cụm với k = 3 (Cluster Diagram)

Bài viết đề cập đến ba cụm dữ liệu, trong đó mức độ đậm nhạt của từng cụm phản ánh số lượng dòng dữ liệu trong đó; cụm nào càng đậm thì thể hiện số dòng dữ liệu càng nhiều, và ngược lại.

 Cụm 1 có màu đậm nhất với 570 dòng là 570 khách hàng

Cụm 2 có màu nhạt hơn với 473 dòng là 473 khách hàng

 Cụm 3 có màu nhạt nhất với 458 dòng là 458 khách hàng

Khoảng cách giữa các cụm cho thấy rằng các cụm gần nhau có những đặc điểm tương đồng, trong khi các cụm xa nhau ít có điểm chung hơn Hình ảnh minh họa cho điều này.

 Cụm 1 và cụm 3 là cách xa nhau nhất nên những khách hàng nằm trong 2 cụm này sẽ có sự khác biệt lớn.

 Cụm 2 và cụm 3 có khoảng cách gần nhất nên những khách hàng nằm trong

2 cụm này mặc dù có những đặc điểm khác nhau nhưng vẫn có sự tương đồng nhiều.

Cụm 1 và cụm 2 có khoảng cách xa, nhưng vẫn nhỏ hơn khoảng cách giữa cụm 1 và cụm 3, điều này cho thấy rằng khách hàng trong hai cụm này sẽ có ít sự khác biệt hơn.

Hình 2-35 Đặc điểm của các cụm khách hàng (Cluster Profiles)

Toàn bộ dữ liệu có tất cả là 1501 dòng được chia ra thành 3 cụm

 Độ tuổi: nhỏ nhất là 20 tuổi, cao nhất là 65 và tuổi trung bình là 42,9

 Số người trong gia đình: nhỏ nhất là 1, cao nhất là 6 và trung bình là 3

 Số lượng đơn hàng: nhỏ nhất là 1, cao nhất là 9 và trung bình là 4,14

Với những đặc điểm tiêu biểu như sau :

Bảng 2-2 Đặc điểm tiêu biểu của từng cụm

Cụm Đặc điểm tiêu biểu

Độ tuổi trung bình của khách hàng trong nghiên cứu là 43,25 +/- 8,35, cho thấy sự phân bố tuổi tác nằm ở mức vừa phải trong ba nhóm khác nhau Đặc biệt, danh mục sản phẩm chủ yếu mà họ mua liên quan đến động vật, và nhóm khách hàng này chủ yếu là các thành viên, những người có tần suất mua sắm cao nhất.

Chủ yếu là nữ đã có gia đình, sở thích chơi thể thao (Sport), nghề nghiệp thuộc nhóm Society.

Thu nhập mở mức trung bình 4,309.37 +/- 866.08

Số đơn hàng đã đặt nằm ở mức vừa phải 4.86 +/- 2.37

Phần lớn những khách hàng này sống ở bang New York

Độ tuổi trung bình của nhóm khách hàng trong cụm này là 33.86 với độ lệch chuẩn 13.12, thấp nhất trong ba cụm Phần lớn sản phẩm được mua chủ yếu liên quan đến gia đình, và nhóm khách hàng này chủ yếu là các thành viên.

Chủ yếu là nữ còn độc thân, sở thích những hoạt động ngoài trời (Outdoor Activities), nghề nghiệp thuộc nhóm Education.

Thu nhập mở mức thấp 2,559.63 +/- 1,158.98

Số đơn hàng đã đặt khá ít 2.03 +/- 1.13

Phần lớn những khách hàng này sống ở bang Florida

Độ tuổi trung bình của nhóm khách hàng trong cụm này là 53.42 +/- 10.66, cao nhất so với hai cụm còn lại Đặc biệt, danh mục sản phẩm chủ yếu được mua là các mặt hàng liên quan đến kỳ nghỉ, với loại khách hàng Normal chiếm ưu thế trong việc mua sắm.

Chủ yếu là nam đã có gia đình, sở thích chơi thể thao (Sport), nghề nghiệp thuộc nhóm Industry.

Thu nhập mở mức cao 5,859.60 +/- 1,235.93

Số đơn hàng đã đặt là 5.48 +/- 2.95 nhiều nhất trong 3 cụm

Phần lớn những khách hàng này sống ở bang Arizona

 Đặc điểm chi tiết của mỗi cụm

Hình 2-36 Đặc điểm chi tiết của cụm 1

Phân khúc khách hàng 1 bao gồm 570 khách hàng chi tiêu nhiều cho sản phẩm về động vật, chủ yếu là nữ đã có gia đình (78,1%) với độ tuổi từ 34 đến 42,9 (36,9%) Họ có thu nhập trung bình hàng tháng từ 4,212.9$ đến 5,352.6$ và thuộc nhóm nghề xã hội Các khách hàng này là thành viên (Member) yêu thích thể thao (Sport) và thường có từ 2,2 đến 3,0 người trong gia đình Họ sống tại bang New York và thường mua từ 4,1 đến 6,0 đơn hàng, với phương thức thanh toán chủ yếu là Paypal.

Hình 2-37 Đặc điểm chi tiết của cụm 2

Phân khúc khách hàng 2 bao gồm 473 khách hàng tiêu biểu cho nhóm chi tiêu cao vào sản phẩm gia đình, với tỷ lệ nam nữ gần như bằng nhau, nữ chiếm 50,2% Đặc điểm nổi bật là 62,5% khách hàng độc thân, chủ yếu thuộc ngành giáo dục Họ là các thành viên yêu thích hoạt động ngoài trời, thường có từ 3,9 đến 6,0 người trong gia đình, sinh sống tại bang Florida Khách hàng này thường thực hiện từ 1,0 đến 2,3 đơn hàng và ưu tiên phương thức thanh toán qua Paypal.

Hình 2-38 Đặc điểm chi tiết của cụm 3

Phân khúc khách hàng 3 bao gồm 458 khách hàng chi tiêu cao cho sản phẩm Holiday, chủ yếu là nam giới đã có gia đình (56,6%), độ tuổi từ 51,8 đến 65 (42%) Họ có thu nhập hàng tháng từ 5,352.6$ đến 7,500.0$, thuộc nhóm nghề Industry Những khách hàng này thường là vãng lai (Normal) với sở thích chơi thể thao (Sport), có từ 3.8 đến 6.0 người trong gia đình, sống tại bang Arizona và thường mua từ 6.0 đến 9.0 đơn hàng, với phương thức thanh toán chủ yếu là Paypal.

Bảng 2-3 Đặc điểm chi tiết của 3 phân khúc khách hàng

Marital Status Married Single Married

State New York Florida Arizona

Hobby Sport Outdoor Activities Sport

Customer Type Member Member Normal

Payment Method Paypal Paypal Paypal

Dựa trên kết quả phân tích, phân khúc khách hàng cụm 1 và cụm 3 nổi bật với số lượng đơn hàng từ 4 đến 9, cho thấy sự mua sắm thường xuyên của họ Mặc dù số lượng khách hàng trong cụm 3 ít hơn, nhưng công ty cần chú trọng phát triển các chiến lược bán hàng và tiếp thị phù hợp để nâng cao sự hài lòng và giữ chân khách hàng trong hai phân khúc này.

Qua quá trình phân tích và thử nghiệm bằng phương pháp Elbow, chúng tôi xác định được rằng số lượng phân cụm tối ưu là 3, tương ứng với 3 phân khúc khách hàng khác nhau.

Phân khúc khách hàng 1 chi tiêu nhiều cho sản phẩm động vật, chủ yếu là phụ nữ đã có gia đình từ 34 đến 42 tuổi Họ có thu nhập trung bình hàng tháng từ 4,212.9$ đến 5,352.6$ và thuộc nhóm nghề xã hội Khách hàng này thường là thành viên yêu thích thể thao, sống tại bang New York với quy mô gia đình từ 2.2 đến 3.0 người Họ thường mua từ 4.1 đến 6.0 đơn hàng và chủ yếu sử dụng phương thức thanh toán qua Paypal.

Ứng Dụng Luật Kết Hợp

Sau khi chạy tập dữ liệu với luật kết hợp trong SQL Server Analysis Services thu được kết quả phát hiện các luật như hình bên dưới

Hình 2-39 Các luật kết hợp trong mối quan hệ giữa hành vi khách hàng và quyết định mua lại

Một số luật kết hợp được giải thích như sau :

100 % những khách hàng có thu nhập nhỏ hơn 2558.07 và có số đơn hàng nằm trong khoảng từ 6.48 – 7.3 thì sẽ mua lại.

100 % những khách hàng ở bang North Carolina và số người trong gia đình lớn hơn hoặc bằng 5.25 thì sẽ mua lại.

100 % những khách hàng ở bang Virginia và số người trong gia đình nằm trong khoảng từ 4.2 – 5.2 thì sẽ không mua lại.

100 % những khác hàng có độ tuổi nhỏ hơn 30 và số người trong gia đình nhỏ hơn 1.8 thì sẽ không mua lại.

100 % những khách hàng mua dòng sản phẩm về Family và có số đơn hàng từ 6.4 – 7.3 thì mua lại.

100 % những khách hàng có thu nhập từ 2558 – 3693 và số người trong gia đình lớn hơn hoặc bằng 5.2 sẽ mua lại.

96,9 % những khách hàng có thu nhập lớn hơn hoặc bằng 6187.2 và có số đơn hàng là từ 6.4 đến 7.3 sẽ mua lại.

96,2 % những khách hàng độc thân và có số đơn từ 6.4 – 7.3 sẽ mua lại.

86 % những khách hàng thuộc nhóm nghề Education và có số đơn 3.5 – 9.4 sẽ mua lại.

85,7 % những khách hàng sống ở bang Washington và có độ tuổi nhỏ hơn 30 sẽ không mua lại.

84,2 % những khách hàng có thu nhập nhỏ hơn 2558 và và số người trong gia đình nhỏ hơn 1.8 sẽ không mua lại.

Hình 2-40 Sơ đồ mạng phụ thuộc

Dựa vào sơ đồ mạng, việc khách hàng quay lại mua hàng phụ thuộc vào nhiều yếu tố như thu nhập hàng tháng, sở thích, danh mục sản phẩm, độ tuổi, giới tính và nghề nghiệp.

Khách hàng quyết định quay lại mua hàng phụ thuộc vào nhiều yếu tố như sở thích, thu nhập, giới tính, độ tuổi, danh mục sản phẩm, nghề nghiệp và nơi sinh sống Mặc dù không thể kiểm soát hành vi của khách hàng, công ty cần chú ý xây dựng chiến lược kinh doanh phù hợp để tạo mối quan hệ bền vững, từ đó nâng cao sự hài lòng và niềm tin từ khách hàng Để cải thiện sự hài lòng và tăng cơ hội quay lại mua hàng, công ty nên triển khai các chính sách ưu đãi, chương trình khuyến mãi và giảm giá sản phẩm, đồng thời mang đến những trải nghiệm thú vị khi sử dụng sản phẩm Những trải nghiệm này sẽ giúp khách hàng nhớ mãi và có khả năng giới thiệu sản phẩm cho bạn bè và người thân.

GIẢI PHÁP ĐỀ XUẤT CHO CÔNG TY NETHOUSE

Ngày đăng: 26/06/2022, 15:20

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
5. Kolter, P., & Armstrong, G. (2011). Principles of Marketing (14th ed.). Prentice Hall Sách, tạp chí
Tiêu đề: Principles of Marketing
Tác giả: Kolter, P., & Armstrong, G
Năm: 2011
1. Chức, N. V. (2010, 12-02-2010). Thuật toán K-Means với bài toán phân cụm dữ liệu Khác
2. Chức, N. V. (2011, 01-01-2011). Thuật toán Apriori khai phá luật kết hợp Khác
3. Fayyad, U., Piatetsky-Shapiro, G., & Smyth, a. P. (1996). From Data Mining to Knowledge Discovery In Databases Khác
4. Frawley, W. J., Piatetsky-Shapiro, G., & Matheus, C. J. (1991). Knowledge Discovery In Databases: An Overview Khác

HÌNH ẢNH LIÊN QUAN

Hình 1-4 Quá trình khám phá tri thức - ỨNG DỤNG kỹ THUẬT KHAI PHÁ dữ LIỆU và TRỰC QUAN HOÁ dữ LIỆU vào PHÂN TÍCH HÀNH VI KHÁCH HÀNG NHẰM NÂNG CAO HIỆU QUẢ HOẠT ĐỘNG bán HÀNG tại CÔNG TY TNHH MTV NETHOUSE
Hình 1 4 Quá trình khám phá tri thức (Trang 21)
trình bày dưới dạng biểu đồ, bảng biểu hay các luật từ các công cụ và phần mềm khai phá dữ liệu. - ỨNG DỤNG kỹ THUẬT KHAI PHÁ dữ LIỆU và TRỰC QUAN HOÁ dữ LIỆU vào PHÂN TÍCH HÀNH VI KHÁCH HÀNG NHẰM NÂNG CAO HIỆU QUẢ HOẠT ĐỘNG bán HÀNG tại CÔNG TY TNHH MTV NETHOUSE
tr ình bày dưới dạng biểu đồ, bảng biểu hay các luật từ các công cụ và phần mềm khai phá dữ liệu (Trang 22)
Hình 1-6 Các bước của thuật toán K-means - ỨNG DỤNG kỹ THUẬT KHAI PHÁ dữ LIỆU và TRỰC QUAN HOÁ dữ LIỆU vào PHÂN TÍCH HÀNH VI KHÁCH HÀNG NHẰM NÂNG CAO HIỆU QUẢ HOẠT ĐỘNG bán HÀNG tại CÔNG TY TNHH MTV NETHOUSE
Hình 1 6 Các bước của thuật toán K-means (Trang 25)
Hình 1-7 Biểu đồ phương pháp Elbow - ỨNG DỤNG kỹ THUẬT KHAI PHÁ dữ LIỆU và TRỰC QUAN HOÁ dữ LIỆU vào PHÂN TÍCH HÀNH VI KHÁCH HÀNG NHẰM NÂNG CAO HIỆU QUẢ HOẠT ĐỘNG bán HÀNG tại CÔNG TY TNHH MTV NETHOUSE
Hình 1 7 Biểu đồ phương pháp Elbow (Trang 26)
Hình 2-11 Dashboard thông tin về các đặc điểm của khách hàng - ỨNG DỤNG kỹ THUẬT KHAI PHÁ dữ LIỆU và TRỰC QUAN HOÁ dữ LIỆU vào PHÂN TÍCH HÀNH VI KHÁCH HÀNG NHẰM NÂNG CAO HIỆU QUẢ HOẠT ĐỘNG bán HÀNG tại CÔNG TY TNHH MTV NETHOUSE
Hình 2 11 Dashboard thông tin về các đặc điểm của khách hàng (Trang 33)
Hình 2-12 Biểu đồ khách hàng ở các bang - ỨNG DỤNG kỹ THUẬT KHAI PHÁ dữ LIỆU và TRỰC QUAN HOÁ dữ LIỆU vào PHÂN TÍCH HÀNH VI KHÁCH HÀNG NHẰM NÂNG CAO HIỆU QUẢ HOẠT ĐỘNG bán HÀNG tại CÔNG TY TNHH MTV NETHOUSE
Hình 2 12 Biểu đồ khách hàng ở các bang (Trang 34)
Hình 2-14 Biểu đồ độ tuổi và sở thích của khách hàng - ỨNG DỤNG kỹ THUẬT KHAI PHÁ dữ LIỆU và TRỰC QUAN HOÁ dữ LIỆU vào PHÂN TÍCH HÀNH VI KHÁCH HÀNG NHẰM NÂNG CAO HIỆU QUẢ HOẠT ĐỘNG bán HÀNG tại CÔNG TY TNHH MTV NETHOUSE
Hình 2 14 Biểu đồ độ tuổi và sở thích của khách hàng (Trang 35)
Hình 2-18 Biểu đồ thu nhập trung bình hàng tháng của khách hàng tại một số bang - ỨNG DỤNG kỹ THUẬT KHAI PHÁ dữ LIỆU và TRỰC QUAN HOÁ dữ LIỆU vào PHÂN TÍCH HÀNH VI KHÁCH HÀNG NHẰM NÂNG CAO HIỆU QUẢ HOẠT ĐỘNG bán HÀNG tại CÔNG TY TNHH MTV NETHOUSE
Hình 2 18 Biểu đồ thu nhập trung bình hàng tháng của khách hàng tại một số bang (Trang 38)
2.3.2. Xu Hướng Lựa Chọn Dòng Sản Phẩm Của Khách Hàng - ỨNG DỤNG kỹ THUẬT KHAI PHÁ dữ LIỆU và TRỰC QUAN HOÁ dữ LIỆU vào PHÂN TÍCH HÀNH VI KHÁCH HÀNG NHẰM NÂNG CAO HIỆU QUẢ HOẠT ĐỘNG bán HÀNG tại CÔNG TY TNHH MTV NETHOUSE
2.3.2. Xu Hướng Lựa Chọn Dòng Sản Phẩm Của Khách Hàng (Trang 39)
Hình 2-20 Dashboard về xu hướng lựa chọn dòng sản phẩm của khách hàng - ỨNG DỤNG kỹ THUẬT KHAI PHÁ dữ LIỆU và TRỰC QUAN HOÁ dữ LIỆU vào PHÂN TÍCH HÀNH VI KHÁCH HÀNG NHẰM NÂNG CAO HIỆU QUẢ HOẠT ĐỘNG bán HÀNG tại CÔNG TY TNHH MTV NETHOUSE
Hình 2 20 Dashboard về xu hướng lựa chọn dòng sản phẩm của khách hàng (Trang 39)
Hình 2-22 Biểu đồ chọn dòng sản phẩm theo sở thích - ỨNG DỤNG kỹ THUẬT KHAI PHÁ dữ LIỆU và TRỰC QUAN HOÁ dữ LIỆU vào PHÂN TÍCH HÀNH VI KHÁCH HÀNG NHẰM NÂNG CAO HIỆU QUẢ HOẠT ĐỘNG bán HÀNG tại CÔNG TY TNHH MTV NETHOUSE
Hình 2 22 Biểu đồ chọn dòng sản phẩm theo sở thích (Trang 40)
Hình 2-24 Dashboard mối quan hệ giữa hình thức thanh toán và các thuộc tính - ỨNG DỤNG kỹ THUẬT KHAI PHÁ dữ LIỆU và TRỰC QUAN HOÁ dữ LIỆU vào PHÂN TÍCH HÀNH VI KHÁCH HÀNG NHẰM NÂNG CAO HIỆU QUẢ HOẠT ĐỘNG bán HÀNG tại CÔNG TY TNHH MTV NETHOUSE
Hình 2 24 Dashboard mối quan hệ giữa hình thức thanh toán và các thuộc tính (Trang 42)
Hình 2-25 Biểu đồ thanh toán phổ biến, theo loại khách hàng và giới tính - ỨNG DỤNG kỹ THUẬT KHAI PHÁ dữ LIỆU và TRỰC QUAN HOÁ dữ LIỆU vào PHÂN TÍCH HÀNH VI KHÁCH HÀNG NHẰM NÂNG CAO HIỆU QUẢ HOẠT ĐỘNG bán HÀNG tại CÔNG TY TNHH MTV NETHOUSE
Hình 2 25 Biểu đồ thanh toán phổ biến, theo loại khách hàng và giới tính (Trang 43)
Hình 2-28 Biểu đồ số đơn hàng được bán ra ở mỗi bang - ỨNG DỤNG kỹ THUẬT KHAI PHÁ dữ LIỆU và TRỰC QUAN HOÁ dữ LIỆU vào PHÂN TÍCH HÀNH VI KHÁCH HÀNG NHẰM NÂNG CAO HIỆU QUẢ HOẠT ĐỘNG bán HÀNG tại CÔNG TY TNHH MTV NETHOUSE
Hình 2 28 Biểu đồ số đơn hàng được bán ra ở mỗi bang (Trang 44)
Hình 2-29 Biểu đồ phân cụm doanh thu trung bình theo bang - ỨNG DỤNG kỹ THUẬT KHAI PHÁ dữ LIỆU và TRỰC QUAN HOÁ dữ LIỆU vào PHÂN TÍCH HÀNH VI KHÁCH HÀNG NHẰM NÂNG CAO HIỆU QUẢ HOẠT ĐỘNG bán HÀNG tại CÔNG TY TNHH MTV NETHOUSE
Hình 2 29 Biểu đồ phân cụm doanh thu trung bình theo bang (Trang 45)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w