1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Bài tập lớn môn phân tích dữ liệu tài chính quy mô lớn Đề tài xây dựng hệ thống data platform dữ liệu sản phẩm Điện tử từ sàn thương mại Điện tử shopee, tiki, lazada

49 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Bài Tập Lớn Môn Phân Tích Dữ Liệu Tài Chính Quy Mô Lớn Đề Tài Xây Dựng Hệ Thống Data Platform Dữ Liệu Sản Phẩm Điện Tử Từ Sàn Thương Mại Điện Tử Shopee, Tiki, Lazada
Tác giả Nguyễn Đức Anh, Nguyễn Quốc Anh, Nguyễn Thành Hưng, Nguyễn Công Toàn, Ngô Minh Trường
Người hướng dẫn PGS.TS. Đỗ Quang Hưng
Trường học Học Viện Công Nghệ Bưu Chính Viễn Thông
Chuyên ngành Phân Tích Dữ Liệu Tài Chính
Thể loại Bài tập lớn
Năm xuất bản 2024
Thành phố Hà Nội
Định dạng
Số trang 49
Dung lượng 3,25 MB

Cấu trúc

  • CHƯƠNG 1: TỔNG QUAN (9)
    • 1.1. Đặt vấn đề (9)
    • 1.2. Mục tiêu nghiên cứu (11)
    • 1.3. Phạm vi nghiên cứu (13)
  • CHƯƠNG 2: CƠ SỞ LÝ THUYẾT (15)
    • 2.1. Tổng quan về thương mại điện tử (15)
    • 2.2. Kỹ thuật thu thập dữ liệu (Web Crawling) (17)
    • 2.3. Dashboard và Data Visualization (24)
  • CHƯƠNG 3: PHƯƠNG PHÁP NGHIÊN CỨU (28)
    • 3.1. Quy trình thực hiện (28)
      • 3.1.1. Phương pháp Agile (28)
      • 3.1.2 Thiết Kế và Xây Dựng (30)
      • 3.1.3. Xử Lý và Chuẩn Hóa Dữ liệu (30)
      • 3.1.4. Xây Dựng và Triển Khai (30)
    • 3.2. Công cụ và công nghệ sử dụng (30)
    • 3.3. Thiết kế hệ thống (31)
  • CHƯƠNG 4: TRIỂN KHAI VÀ KẾT QUẢ (34)
    • 4.1. Triển khai thu thập dữ liệu (34)
    • 4.2. Xây dựng Dashboard (37)
      • 4.2.1. Thiết kế giao diện (37)
      • 4.2.2. Các chức năng chính (38)
    • 4.3. Kết quả đạt được (46)
  • CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN (47)
    • 5.1. Kết luận (47)
    • 5.2. Hướng phát triển trong tương lai (47)

Nội dung

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNGKHOA TÀI CHÍNH KẾ TOÁN 1 ?? ?? ?? -BÀI TẬP LỚN MÔN PHÂN TÍCH DỮ LIỆU TÀI CHÍNH QUY MÔ LỚN ĐỀ TÀI: XÂY DỰNG HỆ THỐNG DATA PLATFORM DỮ LIỆU SẢN PHẨM

TỔNG QUAN

Đặt vấn đề

1.1.1 Thực trạng thị trường thương mại điện tử Việt Nam

Thị trường thương mại điện tử (TMĐT) Việt Nam đang phát triển nhanh chóng, trở thành một trong những thị trường tăng trưởng hàng đầu Đông Nam Á với tiềm năng lớn Dự kiến, quy mô thị trường sẽ đạt 16,4 tỷ USD vào năm 2023 và tiếp tục tăng trưởng mạnh mẽ với tốc độ tăng trưởng kép hàng năm (CAGR) khoảng 20–25% trong giai đoạn 2021–2025 Động lực chính cho sự phát triển này đến từ việc gia tăng sử dụng Internet và thiết bị di động, cùng với thói quen mua sắm trực tuyến ngày càng phổ biến, đặc biệt trong nhóm người trẻ từ 18 đến 34 tuổi và cư dân tại các thành phố lớn như Hà Nội và TP Hồ Chí Minh.

Hồ Chí Minh và Đà Nẵng đang phát triển mạnh mẽ, nhưng khu vực nông thôn cũng đang nổi lên như một thị trường tiềm năng mới cho thương mại điện tử (TMĐT) Sự gia tăng nhận thức và cải thiện cơ sở hạ tầng tại nông thôn đã mở rộng phạm vi tiếp cận của TMĐT, tạo ra nhiều cơ hội cho doanh nghiệp và người tiêu dùng.

Người tiêu dùng Việt Nam ngày càng ưa chuộng sự tiện lợi và trải nghiệm đa dạng từ thương mại điện tử (TMĐT), với các mặt hàng như thời trang, điện tử, mỹ phẩm, đồ gia dụng và thực phẩm được ưa chuộng trên các nền tảng trực tuyến Shopee, Tiki, Lazada và Sendo là những tên tuổi dẫn đầu trong thị trường nội địa, trong khi các nền tảng quốc tế như Amazon và eBay vẫn chưa chiếm ưu thế Chính phủ Việt Nam đã triển khai nhiều chính sách hỗ trợ, như Nghị định 52/2013/NĐ-CP về TMĐT, nhằm thúc đẩy doanh nghiệp chuyển đổi số và cải thiện hạ tầng công nghệ Những nỗ lực này không chỉ giúp thị trường TMĐT Việt Nam duy trì tốc độ tăng trưởng cao mà còn góp phần đưa nền kinh tế số Việt Nam tiến gần hơn với các quốc gia phát triển trong khu vực.

1.1.2 Xu hướng mua sắm điện tử của người tiêu dùng Việt Nam

Thị trường thương mại điện tử hiện nay rất đa dạng, dẫn đến sự chênh lệch giá cả giữa các nhà cung cấp cho cùng một sản phẩm Các nền tảng như Shopee, Tiki, Lazada và các cửa hàng trực tuyến quốc tế cung cấp nhiều lựa chọn, nhưng cũng đặt ra thách thức cho người tiêu dùng trong việc tìm kiếm mức giá tốt nhất Hơn nữa, các chương trình khuyến mãi như mã giảm giá, miễn phí giao hàng và flash sale làm cho việc theo dõi giá cả trở nên cần thiết Đặc biệt trong lĩnh vực sản phẩm điện tử, nơi giá trị cao và các yếu tố như bảo hành, hậu mãi có vai trò quan trọng, người tiêu dùng càng phải thận trọng hơn khi đưa ra quyết định mua sắm.

Xu hướng theo dõi và so sánh giá ngày càng cá nhân hóa nhờ vào các công cụ trí tuệ nhân tạo (AI) gợi ý sản phẩm phù hợp với sở thích và ngân sách của người tiêu dùng Bên cạnh giá cả, người tiêu dùng còn chú trọng đến phí vận chuyển, thời gian giao hàng, chính sách bảo hành và dịch vụ hậu mãi, tạo ra sự minh bạch và cạnh tranh lành mạnh trên thị trường Điều này đặt ra yêu cầu cho doanh nghiệp trong việc tối ưu hóa giá và chất lượng dịch vụ Hơn nữa, cộng đồng mạng xã hội và diễn đàn công nghệ cũng đóng vai trò quan trọng khi người tiêu dùng chia sẻ đánh giá, kinh nghiệm và thông tin giá cả để hỗ trợ nhau.

1.1.3 Phân tích thống kê thị trường TMĐT Việt Nam

Thị trường thương mại điện tử (TMĐT) tại Việt Nam đang vươn lên mạnh mẽ, trở thành một trong những lĩnh vực phát triển nhanh nhất ở Đông Nam Á Các số liệu thống kê cho thấy quy mô và tốc độ tăng trưởng của thị trường này rất ấn tượng, khẳng định vị thế của Việt Nam trong lĩnh vực TMĐT khu vực.

Năm 2023, thị trường thương mại điện tử (TMĐT) Việt Nam ước tính đạt 16,4 tỷ USD, đứng đầu khu vực Đông Nam Á, với các nền tảng lớn như Shopee, Lazada, Tiki và Sendo dẫn đầu xu hướng tiêu dùng trực tuyến Theo báo cáo từ Google, Temasek và Bain & Company, thị trường này dự kiến sẽ đạt 49 tỷ USD vào năm 2025, trở thành lĩnh vực kinh tế số chủ chốt Người tiêu dùng Việt Nam chủ yếu chi tiêu vào thời trang, điện tử, mỹ phẩm, đồ gia dụng và thực phẩm, với tỷ lệ mua sắm trực tuyến đạt hơn 60% dân số sử dụng Internet, cho thấy sự phát triển mạnh mẽ của TMĐT.

Thị trường thương mại điện tử (TMĐT) Việt Nam đang ghi nhận mức tăng trưởng kép hàng năm (CAGR) ấn tượng từ 20–25% trong giai đoạn 2021–2025, trở thành thị trường có tốc độ tăng trưởng cao nhất khu vực Đông Nam Á, vượt qua cả Thái Lan và Philippines Sự tăng trưởng này được thúc đẩy bởi nhiều yếu tố.

Tại Việt Nam, tỷ lệ người sử dụng smartphone đạt khoảng 70% và tỷ lệ người dùng Internet lên tới 72% dân số, điều này đã tạo ra cơ hội lớn cho việc tiếp cận và thực hiện mua sắm trực tuyến.

Chính phủ Việt Nam đang tích cực thúc đẩy chương trình chuyển đổi số quốc gia, nhằm tạo điều kiện thuận lợi cho sự phát triển của các doanh nghiệp và nền tảng thương mại điện tử Tuy nhiên, bên cạnh những xu hướng tích cực, các doanh nghiệp cũng phải đối mặt với nhiều thách thức và nhu cầu mới trong quá trình chuyển đổi này.

Khi mua sắm điện tử online, người tiêu dùng Việt Nam chú trọng đến giá cả, chất lượng sản phẩm, thương hiệu và chính sách bảo hành, đổi trả Xu hướng mua sắm qua livestream và mạng xã hội đang phát triển, kết hợp giữa giải trí và mua sắm, với các thương hiệu tận dụng nền tảng như Facebook, Instagram, TikTok để quảng bá sản phẩm Người tiêu dùng có thể xem sản phẩm, nhận tư vấn trực tiếp và đặt hàng ngay Đánh giá từ khách hàng trước cũng rất quan trọng, giúp họ có cái nhìn rõ ràng hơn về sản phẩm trước khi quyết định mua Những xu hướng này tạo ra nhiều cơ hội cho doanh nghiệp, đồng thời cũng đặt ra thách thức.

Thách thức trong việc theo dõi và so sánh giá:

Sự thay đổi liên tục của giá cả là một thách thức lớn cho các nhà bán lẻ, khi họ thường xuyên điều chỉnh giá sản phẩm dựa trên thời gian trong ngày, nhu cầu khách hàng và các chiến lược khuyến mãi theo mùa Điều này làm cho việc theo dõi mức giá thực tế trở nên khó khăn, đặc biệt là khi người tiêu dùng muốn tìm thời điểm mua sắm với giá tốt nhất.

Mặc dù có nhiều công cụ hỗ trợ người tiêu dùng trong việc so sánh giá giữa các sàn thương mại điện tử, nhưng việc này vẫn gặp nhiều khó khăn do mỗi nền tảng có cách niêm yết giá và chính sách riêng biệt.

Phân tích dữ liệu qua dashboard:

Các nhà phân tích thị trường cần theo dõi sự biến động giá sản phẩm trong thời gian dài để đánh giá tình hình cung cầu và các yếu tố ảnh hưởng đến giá cả, từ đó dự đoán xu hướng giá trong tương lai.

Theo dõi giá cả là yếu tố quan trọng trong việc phát triển chiến lược sản phẩm, giúp nghiên cứu tình hình giá và hỗ trợ phát triển sản phẩm mới Dữ liệu giá trị cho phép các chuyên gia đánh giá sản phẩm của công ty so với thị trường, từ đó đề xuất chiến lược giá và sản phẩm phù hợp với nhu cầu thị trường.

Mục tiêu nghiên cứu

● Xây dựng hệ thống theo dõi và phân tích giá sản phẩm điện tử

Hệ thống toàn diện theo dõi và phân tích biến động giá sản phẩm điện tử trên các sàn thương mại điện tử lớn giúp người tiêu dùng đưa ra quyết định mua sắm thông minh và hỗ trợ nhà bán hàng tối ưu hóa chiến lược giá Hệ thống tự động thu thập và phân tích dữ liệu, cung cấp báo cáo về sự thay đổi giá của từng sản phẩm theo thời gian, từ đó mang lại thông tin hữu ích cho cả người mua và người bán.

● Cung cấp công cụ hỗ trợ ra quyết định mua sắm

Mục tiêu phát triển công cụ này là giúp người tiêu dùng đưa ra quyết định mua sắm hợp lý bằng cách so sánh giá và nhận biết các khuyến mãi từ các sàn thương mại điện tử Công cụ sẽ hỗ trợ người mua tìm sản phẩm với giá tốt nhất trong cùng phân khúc và theo dõi lịch sử biến động giá để dự đoán thời điểm mua sắm tối ưu Đồng thời, nó cũng giúp nhà bán hàng ra quyết định về mức giá cạnh tranh và điều chỉnh chiến lược giá hiệu quả.

● Xây dựng crawler thu thập dữ liệu

Việc xây dựng một công cụ thu thập dữ liệu tự động (crawler) là bước đầu tiên quan trọng trong việc thu thập dữ liệu từ các sàn thương mại điện tử Crawler này sẽ tự động quét thông tin về giá sản phẩm điện tử từ các website và nền tảng thương mại điện tử, bao gồm giá sản phẩm, mô tả, ngày thay đổi giá, và các chương trình khuyến mãi Để đảm bảo tính chính xác và đầy đủ của dữ liệu, crawler cần được thiết kế với khả năng tự động hóa việc thu thập thông tin theo chu kỳ và xử lý dữ liệu không hợp lệ hoặc thiếu sót.

● Thiết kế cơ sở dữ liệu lưu trữ

Sau khi thu thập dữ liệu, việc xây dựng một cơ sở dữ liệu mạnh mẽ và tối ưu là rất quan trọng để lưu trữ, truy xuất và xử lý thông tin hiệu quả Cơ sở dữ liệu cần được thiết kế để quản lý đa dạng loại dữ liệu, bao gồm thông tin sản phẩm, lịch sử giá, chương trình khuyến mãi và thông tin nhà bán hàng Hệ thống này phải đảm bảo khả năng mở rộng, bảo mật và xử lý khối lượng dữ liệu lớn từ nhiều nguồn khác nhau Một thiết kế cơ sở dữ liệu hợp lý sẽ giúp thực hiện phân tích và báo cáo nhanh chóng và chính xác.

Một dashboard trực quan sẽ giúp người dùng dễ dàng theo dõi và phân tích giá sản phẩm, cung cấp biểu đồ, bảng và thông tin thống kê về sự biến động giá của các sản phẩm điện tử theo thời gian Nó cũng hiển thị các sự kiện giảm giá và chiến lược giá từ các nhà bán hàng Với các công cụ lọc và phân tích dữ liệu, người tiêu dùng có thể tìm ra sản phẩm với mức giá tốt nhất và nhận diện xu hướng giá trên thị trường Đối với nhà bán hàng, dashboard hỗ trợ theo dõi giá đối thủ cạnh tranh và điều chỉnh chiến lược giá để duy trì tính cạnh tranh.

● Phân tích xu hướng giá theo thời gian

Mục tiêu của việc phân tích sự biến động giá sản phẩm là nhận diện các xu hướng giá dài hạn và ngắn hạn, từ đó giúp doanh nghiệp và người tiêu dùng hiểu rõ hơn về các yếu tố ảnh hưởng đến giá cả Những yếu tố này bao gồm mùa giảm giá, sự thay đổi trong nhu cầu tiêu dùng, và các chính sách giá từ nhà bán hàng Bên cạnh đó, việc nắm bắt xu hướng giá cũng cung cấp dự báo về mức giá trong tương lai, hỗ trợ người tiêu dùng và nhà bán hàng đưa ra quyết định mua sắm và kinh doanh hợp lý.

● So sánh giá giữa các sàn

Một trong những mục tiêu quan trọng là cung cấp công cụ so sánh giá giữa các sàn thương mại điện tử, giúp người tiêu dùng nhận diện sự chênh lệch giá của cùng một sản phẩm và lựa chọn tối ưu để giảm thiểu chi phí Đối với nhà bán hàng, công cụ này hỗ trợ theo dõi mức giá của đối thủ, từ đó điều chỉnh chiến lược giá để duy trì tính cạnh tranh Việc so sánh giá cũng giúp người tiêu dùng nắm bắt các ưu đãi và chương trình khuyến mãi từ nhiều nguồn khác nhau.

Phạm vi nghiên cứu

Giới hạn về sản phẩm (Điện thoại di động, Laptop, Tablet, Phụ kiện điện tử,… )

Nghiên cứu này sẽ tập trung vào các sản phẩm điện tử phổ biến trên sàn thương mại điện tử, bao gồm điện thoại di động, laptop, tablet và phụ kiện điện tử Những sản phẩm này được lựa chọn do có biến động giá và nhu cầu tiêu dùng ổn định, đóng vai trò quan trọng trong thị trường thương mại điện tử hiện nay Điện thoại di động, laptop và tablet là những thiết bị công nghệ cao được tiêu thụ mạnh mẽ trong nhiều phân khúc người dùng Các phụ kiện điện tử như tai nghe, sạc, bàn phím và chuột cũng thu hút sự quan tâm vì giá cả thường biến động theo mùa hoặc các chương trình khuyến mãi Việc chọn lọc các sản phẩm này giúp tập trung vào nhóm sản phẩm có giá trị tiêu dùng lớn và dễ dàng nhận diện sự thay đổi giá trong thời gian ngắn, từ đó hỗ trợ phân tích xu hướng giá hiệu quả hơn.

Giới hạn về sàn TMĐT (Tiki, Shopee, Lazada)

Nghiên cứu sẽ được thực hiện trên ba sàn thương mại điện tử lớn tại Việt Nam: Tiki, Shopee và Lazada, những nền tảng phổ biến nhất với tần suất giao dịch cao Các sàn này cung cấp nguồn dữ liệu phong phú về sự thay đổi giá sản phẩm, với chiến lược giá và khuyến mãi riêng biệt cũng như đối tượng người tiêu dùng khác nhau Phân tích ba sàn này sẽ mang lại cái nhìn toàn diện về thị trường giá sản phẩm điện tử hiện nay, đồng thời giúp giới hạn phạm vi nghiên cứu mà vẫn đảm bảo tính đại diện và chất lượng dữ liệu thu thập được.

Giới hạn về thời gian thu thập dữ liệu

Dữ liệu sẽ được thu thập từ 14/11/2024 đến 12/12/2024 để phản ánh sự thay đổi giá của các sản phẩm điện tử trong thời gian diễn ra các chương trình khuyến mãi lớn như "Black Friday" và các đợt khuyến mãi hàng tháng Thời gian này cho phép phân tích biến động giá theo từng giai đoạn trong năm, đồng thời giúp kiểm soát và phân tích dữ liệu hiệu quả hơn, tránh tình trạng quá tải thông tin.

CƠ SỞ LÝ THUYẾT

Tổng quan về thương mại điện tử

2.1.1 Khái niệm và đặc điểm TMĐT

Thương mại điện tử (e-commerce) là quá trình mua bán sản phẩm và dịch vụ qua Internet và các mạng máy tính, sử dụng các công nghệ như chuyển tiền điện tử và quản lý chuỗi cung ứng Theo Tổ chức Thương mại thế giới (WTO), TMĐT bao gồm sản xuất, quảng cáo, bán hàng và phân phối sản phẩm, với việc thanh toán trực tuyến và giao nhận vật lý sản phẩm cùng thông tin số hoá qua mạng Internet.

Khi đề cập đến TMĐT (Thương mại điện tử), nhiều người thường nhầm lẫn với kinh doanh điện tử (E-Business) TMĐT được coi là một phần của kinh doanh điện tử, tập trung chủ yếu vào hoạt động mua bán trực tuyến Ngược lại, kinh doanh điện tử sử dụng Internet và công nghệ trực tuyến để tối ưu hóa quy trình hoạt động kinh doanh, không chỉ nhằm mục đích lợi nhuận mà còn để gia tăng giá trị cho khách hàng.

Thương mại điện tử phát triển từ các đặc tính của thương mại truyền thống như tự do ý chí và năng lực chủ thể, nhưng có những khác biệt cơ bản nhờ vào sự phát triển của công nghệ thông tin và truyền thông (CNTT và truyền thông - ICT) Trong thương mại truyền thống, các bên phải liên hệ trực tiếp để thực hiện giao dịch và ký kết hợp đồng, trong khi thương mại điện tử cho phép giao kết hợp đồng gián tiếp qua mạng viễn thông Dữ liệu của giao dịch thương mại điện tử được lưu trữ dưới dạng điện tử trong các thiết bị như ổ cứng và máy chủ, mặc dù vẫn tồn tại dưới dạng vật lý.

Thương mại điện tử hoạt động trong một thị trường phi biên giới, cho phép người dùng toàn cầu tham gia giao dịch mà không cần di chuyển Sự toàn cầu hóa của thương mại điện tử đã biến nó thành một lĩnh vực quan trọng, ảnh hưởng đến các thực thể kinh tế, chính trị và pháp lý trên toàn thế giới, không chỉ đơn thuần là một hình thức thương mại.

2.1.2 Mô hình hoạt động của sàn TMĐT

Sàn thương mại điện tử (TMĐT) là nền tảng trung gian kết nối người bán, người mua và các dịch vụ hỗ trợ như thanh toán và logistics Mô hình này tận dụng công nghệ để tối ưu hóa quy trình thương mại truyền thống, cho phép người bán giới thiệu sản phẩm qua gian hàng trực tuyến, trong khi người mua dễ dàng tìm kiếm, so sánh và mua sắm hàng hóa Vai trò kết nối này giúp tăng hiệu quả giao dịch và giảm chi phí cho tất cả các bên tham gia.

Nhiều sàn thương mại điện tử hiện nay cho phép người dùng đăng tin mua bán mà không cần mở gian hàng hay tài khoản phức tạp, đặc biệt là trong các giao dịch C2C như Chợ Tốt hay Craigslist Người bán chỉ cần cung cấp thông tin sản phẩm, giá cả và phương thức liên lạc, trong khi người mua có thể trực tiếp liên hệ để thực hiện giao dịch Mô hình này mang lại sự tiện lợi và đơn giản, thích hợp cho các giao dịch nhanh chóng mà không yêu cầu quy trình phức tạp Tuy nhiên, nó cũng tiềm ẩn rủi ro về chất lượng sản phẩm và bảo mật thông tin do thiếu sự giám sát từ sàn.

Mạng xã hội ngày càng trở thành yếu tố then chốt trong thương mại điện tử, nhờ vào các tính năng như cửa hàng trực tuyến và quảng cáo nhắm mục tiêu Các nền tảng như Facebook Marketplace và Instagram Shopping cho phép người dùng dễ dàng bán sản phẩm trực tiếp Mô hình này có ưu điểm là tiếp cận rộng rãi và tương tác cao từ cộng đồng người dùng Tuy nhiên, nó thiếu sự bảo vệ và đảm bảo an toàn giao dịch mạnh mẽ như các sàn thương mại điện tử chuyên nghiệp, dẫn đến nguy cơ tranh chấp.

2.1.3 So sánh đặc điểm 3 sàn

So sánh đặc điểm của các sàn thương mại điện tử phổ biến tại Việt Nam giúp nhận diện sự khác biệt trong cơ chế vận hành, chính sách bán hàng và chiến lược khuyến mãi của từng nền tảng Việc này không chỉ mang lại cái nhìn tổng quan về sự cạnh tranh giữa các sàn TMĐT mà còn hỗ trợ doanh nghiệp và người tiêu dùng lựa chọn nền tảng phù hợp nhất với nhu cầu của họ.

Yếu tố Shopee Lazada Tiki

Cơ chế định giá - Người bán tự định giá sản phẩm, tạo cạnh tranh mạnh mẽ về giá.

- Thường xuyên triển khai trợ giá trực tiếp trong các chiến dịch lớn (9.9, 11.11, 12.12).

- Rủi ro: Giá không đi đôi với chất lượng, có nguy cơ hàng giả hoặc kém chất lượng.

- Giá ổn định hơn nhờ hợp tác với các thương hiệu lớn thông qua LazMall.

- Sản phẩm thường niêm yết giá với chiết khấu trực tiếp từ nhà sản xuất.

- Cung cấp các gói khuyến mãi độc quyền như combo sản phẩm hoặc bảo hành mở rộng.

- Giá ổn định, minh bạch nhờ kiểm soát chặt chẽ từ Tiki.

- Yêu cầu nhà bán hàng đáp ứng tiêu chuẩn cao về giá, nguồn gốc, và chất lượng trước khi niêm yết.

- Ít chạy chương trình giảm giá sâu, tập trung vào giá trị dịch vụ vượt trội như bảo hành và giao nhanh.

Chương trình khuyến mãi - Tần suất cao, quy mô lớn với Flash Sale, mã giảm giá, miễn phí vận chuyển, và hoạt động giải trí.

- Đặc biệt sôi động vào các dịp cao điểm (9.9, 11.11, 12.12).

- Rủi ro: Quá chú trọng vào khuyến mãi có thể ảnh hưởng đến chất lượng sản phẩm và dịch vụ.

- Tập trung vào các sản phẩm cao cấp với ưu đãi combo sản phẩm, bảo hành mở rộng và gói dịch vụ giá trị gia tăng.

- Các chương trình khuyến mãi ít sôi động hơn nhưng duy trì hình ảnh cao cấp.

- Ít tập trung vào khuyến mãi, chú trọng giá trị gia tăng như bảo hành chính hãng và giao hàng nhanh.

- Các chương trình khuyến mãi quy mô nhỏ hơn, nhấn mạnh vào chất lượng hơn là số lượng.

Bảng 2.1: So sánh đặc điểm 3 sàn Shopee, Lazada, Tiki

Kỹ thuật thu thập dữ liệu (Web Crawling)

Web Crawling là quá trình tự động duyệt và tải xuống dữ liệu từ các trang web bằng các chương trình tự động, giúp thu thập thông tin một cách hệ thống Quá trình này cho phép trích xuất đa dạng dữ liệu như văn bản, hình ảnh và các phương tiện khác, phục vụ cho nhiều mục đích như phân tích nội dung trang web, nghiên cứu, phân tích thị trường và phát triển ứng dụng Các kỹ thuật crawling đóng vai trò quan trọng trong việc tối ưu hóa quy trình thu thập dữ liệu.

1 Crawling tuần tự (Sequential Crawling)

Kỹ thuật này thu thập dữ liệu theo từng trang một, xử lý hoàn toàn một URL trước khi chuyển sang URL kế tiếp Đây là phương pháp cơ bản và dễ dàng triển khai nhất.

● Lấy danh sách các URL cần thu thập.

● Gửi yêu cầu HTTP đến từng URL theo thứ tự.

● Phân tích dữ liệu từ phản hồi (response) và lưu trữ. Ưu điểm Nhược điểm

● Dễ triển khai và kiểm soát.

● Phù hợp cho các hệ thống nhỏ hoặc khi không cần tốc độ cao.

● Tốc độ chậm, không tối ưu khi thu thập dữ liệu trên quy mô lớn.

● Không tận dụng được tài nguyên hệ thống đa lõi hoặc mạng.

Bảng 2.2: Ưu nhược điểm của Sequential Crawling

2 Crawling đa luồng (Multithreaded Crawling)

Thu thập song song nhiều trang web bằng cách sử dụng nhiều luồng (threads) hoặc tiến trình (processes).

● Chia nhỏ danh sách URL cần thu thập thành nhiều phần.

● Mỗi luồng hoặc tiến trình xử lý một phần dữ liệu đồng thời.

● Hợp nhất dữ liệu sau khi các luồng hoàn thành. Ưu điểm Nhược điểm

● Tăng tốc độ thu thập dữ liệu đáng kể.

● Tận dụng được tài nguyên phần cứng đa lõi.

● Phức tạp hơn trong việc triển khai.

● Cần quản lý đồng bộ dữ liệu giữa các luồng.

● Tăng nguy cơ bị phát hiện và chặn bởi các trang web do gửi nhiều yêu cầu cùng lúc. Bảng 2.3: Ưu nhược điểm của Multithreaded Crawling

3 Crawling phân tán (Distributed Crawling)

Sử dụng nhiều máy chủ hoặc nút trong hệ thống để thu thập dữ liệu cùng lúc, chia sẻ công việc tải xuống.

● Chia nhỏ danh sách URL hoặc vùng dữ liệu cần thu thập.

● Phân phối danh sách này đến các máy chủ hoặc bot khác nhau.

● Kết hợp dữ liệu từ tất cả các máy chủ về một trung tâm xử lý. Ưu điểm Nhược điểm

● Hiệu quả trên quy mô rất lớn.

● Giảm tải cho một máy chủ đơn lẻ.

● Tăng khả năng thu thập nhanh mà không bị chặn.

● Yêu cầu hạ tầng mạng phức tạp.

● Cần đồng bộ dữ liệu giữa các máy chủ.

● Chi phí cao hơn do cần nhiều tài nguyên.

Bảng 2.4: Ưu nhược điểm của Distributed Crawling

4 Selective Crawling (Thu thập có chọn lọc)

Chỉ thu thập dữ liệu đáp ứng các tiêu chí cụ thể (ví dụ: từ khóa, loại nội dung, hoặc dữ liệu mới).

● Phân tích trước cấu trúc và nội dung trang web.

● Lọc các URL hoặc dữ liệu cần thu thập dựa trên tiêu chí đã định trước.

Ví dụ: Chỉ thu thập các bài viết có từ khóa "AI" hoặc "Machine Learning". Ưu điểm Nhược điểm

● Giảm tải tài nguyên hệ thống.

● Dữ liệu thu thập có độ chính xác cao hơn.

● Cần thêm bước phân tích và lọc dữ liệu trước và sau khi thu thập.

● Phức tạp hơn so với crawling toàn bộ.

Bảng 2.5: Ưu nhược điểm của Selective Crawling c) Nguyên lý cơ bản

Các nguyên lý hoạt động của việc thu thập dữ liệu sẽ khác nhau tùy thuộc vào kỹ thuật và mục đích cụ thể Trong bài viết này, nhóm sẽ tập trung phân tích nguyên lý thu thập dữ liệu thông qua thư viện “request” trong Python, nhằm truy xuất các API ẩn từ backend của sàn thương mại điện tử.

Kỹ thuật thu thập dữ liệu từ API ẩn trên các trang web thương mại điện tử (TMĐT) đang ngày càng được chú trọng API ẩn là các kết nối không được công khai mà trang web sử dụng để trao đổi thông tin giữa giao diện người dùng và máy chủ Những API này có thể được phát hiện thông qua các công cụ phân tích mạng trong trình duyệt, giúp tối ưu hóa quá trình thu thập dữ liệu.

Bước 1 Xác định API ẩn Để tìm kiếm các API backend, ta cần:

● Sử dụng công cụ DevTools trên trình duyệt.

● Chuyển sang tab Network và tải lại trang (F5).

○ Sử dụng bộ lọc XHR hoặc Fetch để chỉ hiển thị các API yêu cầu.

○ Tìm kiếm các điểm cuối chứa dữ liệu cần thu thập (ví dụ: sản phẩm, giá cả hoặc đánh giá giá).

Bước 2 Yêu cầu cấu hình phân vùng (request)

● Các tiêu đề phân tích : Kiểm tra các thông tin cần thiết:

○ User-Agent (để giả sử người dùng trình duyệt cài đặt).

○ Cookies (nếu cần duy trì phiên đăng nhập).

○ Xem endpoint sử dụng phương thức GET hay POST

○ Kiểm tra tải trọng (nếu là POST) để xác định thông tin cần gửi.

Bước 3 Sử dụng Python để gửi yêu cầu

Sử dụng Thư viện Requests để tái sử dụng API ẩn và nhận phản hồi.

Bước 4 Lưu trữ và xử lý dữ liệu

Khi dữ liệu được trả về, bạn có thể:

● Lưu vào tệp JSON hoặc CSV để phân tích.

● Lưu trực tiếp vào cơ sở dữ liệu như MySQL, MongoDB hoặc PostgreSQL. d) Xử lý vấn đề anti-crawling

1 Giả lập hành động của người dùng bằng Selenium

Selenium là một công cụ trợ giúp phổ biến cho trình duyệt cài đặt và thực hiện các thao tác như người dùng, mô phỏng hành vi như:

● Chờ tải nội dung (độ trễ) bằng time.sleep() hoặc WebDriverWait.

● Nhập dữ liệu vào các văn bản trường. Ưu điểm Nhược điểm

● Xử lý tốt các trang web sử dụng

JavaScript để tải nội dung.

● Dễ dàng vượt qua cơ sở bot biện pháp.

● Tốn tài nguyên (CPU, RAM).

● Tốc độ chậm hơn so với các phương pháp không sử dụng trình duyệt.

Bảng 2.6: Ưu nhược điểm của Selenium

Proxy giúp thay đổi địa chỉ IP liên tục, khiến trang web khó phát hiện trình thu thập thông tin.

1 Proxy miễn phí: Có thể sử dụng nhưng thường không ổn định.

2 Paid Proxy: Chất lượng cao, tốc độ nhanh.

3 Rotary Proxy: Tự động thay đổi IP theo yêu cầu.

● Sử dụng proxy HTTP/HTTPS hoặc SOCKS trong các thư viện như requests

● Selenium. Ưu điểm Nhược điểm

● Giảm nguy cơ chặn IP.

● Proxy miễn phí không đáng tin cậy.

● Chi phí cao khi sử dụng proxy trả phí hoặc proxy luân phiên.

Bảng 2.7: Ưu nhược điểm của Proxy

3 Sử dụng CDP (Giao thức DevTools của Chrome)

CDP cho phép bạn tương tác trực tiếp với trình duyệt mà không cần qua WebDriver, giúp kiểm soát trình duyệt một cách chi tiết.

● Kết nối trình duyệt qua CDP.

● Mô phỏng thao tác cuộn trang, tạo mạng yêu cầu, chụp DOM. Ưu điểm Nhược điểm

● Hiệu suất cao hơn Selenium.

● Hỗ trợ nâng cao các thao tác như thay đổi User-Agent, điều chỉnh tiêu đề.

Bảng 2.8: Ưu nhược điểm của CDP

CAPTCHA là một trong những biện pháp chống bot phổ biến nhất Bao gồm các phương pháp xử lý:

● Chờ giải pháp cho người dùng: Hiển thị CAPTCHA và hỗ trợ giải pháp cho người dùng.

● Sử dụng dịch vụ giải mã CAPTCHA: 2Captcha , Anti-Captcha , DeathByCaptcha cung cấp API giải mã CAPTCHA tự động.

● CAPTCHA tự động nhận dạng: Sử dụng OCR (Nhận dạng ký tự quang học) hoặc AI mô hình.

5 Xử lý giới hạn tốc độ (Rate Limit)

● Yêu cầu giảm tần số: Giảm tần số yêu cầu để tránh vượt quá tốc độ giới hạn.

● Dùng kỹ thuật Backoff: Nếu bị chặn, sẽ tự động chờ đợi một khoảng thời gian trước khi gửi lại.

2.2.2 Công cụ và thư viện

Có nhiều công cụ và thư viện khác nhau phục vụ việc thu thập thông tin, như:

● Selenium: Công cụ hỗ trợ tự động hóa browser

● Scrapy: Framework crawling chuyên nghiệp

● Requests: Thực hiện HTTP requests

Trong bài toán thu thập và xử lý dữ liệu, thư viện requests của Python là lựa chọn tối ưu để gọi đến các API, nhờ vào tốc độ nhanh và thiết lập đơn giản Requests được xem là công cụ mạnh mẽ, phù hợp cho việc truy cập các API từ backend của sàn thương mại điện tử cũng như dịch vụ bên thứ ba trong dự án Charted Sea.

Quá trình xử lý và làm sạch dữ liệu JSON từ API là rất quan trọng để đảm bảo dữ liệu sẵn sàng cho phân tích Đầu tiên, dữ liệu được tải về bằng thư viện requests trong Python và sau đó cần phân tích cấu trúc lồng ghép của nó Đối với JSON phức tạp, việc sử dụng json_normalize trong pandas giúp chuẩn hóa dữ liệu, chuyển đổi từ định dạng lồng ghép sang cấu trúc bảng phẳng, từ đó dễ dàng thao tác và xử lý.

Khi dữ liệu đã được tổ chức ở dạng bảng, bước tiếp theo là lọc và chọn lựa các trường dữ liệu cần thiết, đồng thời loại bỏ thông tin không liên quan Dữ liệu cần được kiểm tra tính đầy đủ và hợp lệ, trong đó các giá trị bị thiếu sẽ được xử lý bằng cách áp dụng các phương pháp như trung bình, trung vị hoặc các giá trị mặc định Nếu dữ liệu chứa các giá trị không hợp lệ, cần thực hiện các quy tắc kiểm tra để loại bỏ ngoại lệ dựa trên giới hạn thống kê, cũng như chuyển đổi định dạng nếu cần, ví dụ như chuyển đổi định dạng ngày tháng từ chuỗi sang kiểu datetime hoặc chuẩn hóa các trường định lượng về cùng một đơn vị.

Quá trình chuyển đổi dữ liệu là một yếu tố quan trọng, cho phép tính toán và chuyển đổi các trường mới từ dữ liệu hiện có Ví dụ, việc chuyển đổi thông tin ngày tháng và thời gian sang múi giờ chuẩn hoặc tạo các trường như "năm" và "tháng" giúp nâng cao khả năng phân tích Ngoài ra, việc xử lý lỗi trong các giá trị chuỗi hoặc số là cần thiết, vì dữ liệu thực tế thường gặp phải vấn đề này Các bản ghi không đạt tiêu chuẩn sẽ được loại bỏ hoặc sửa chữa để đảm bảo tính nhất quán của tập dữ liệu.

Sau khi xử lý, dữ liệu được lưu trữ ở định dạng tiêu chuẩn như CSV, Parquet hoặc trong cơ sở dữ liệu, phục vụ cho các phân tích tiếp theo Quy trình này đảm bảo dữ liệu sạch, sẵn sàng sử dụng và mang tính hệ thống Tính mô-đun trong từng bước cho phép tái sử dụng trong các ứng dụng khác, đồng thời duy trì tính minh bạch và dễ dàng kiểm tra Sự kết hợp giữa các kỹ thuật chuẩn hóa, làm sạch và chuyển đổi đảm bảo dữ liệu được xử lý tối ưu, hỗ trợ mạnh mẽ cho các ứng dụng dựa trên dữ liệu.

Dashboard và Data Visualization

Dashboard, hay bảng điều khiển, là giao diện đồ họa giúp tổng hợp và trình bày các chỉ số hiệu suất chính liên quan đến mục tiêu hoặc quy trình kinh doanh cụ thể Nó thường hiển thị dữ liệu, số liệu thống kê, biểu đồ và thông tin quan trọng một cách trực quan, dễ hiểu Trong doanh nghiệp, dashboard thường được cấu trúc thành hai phần chính.

Biểu đồ tổng hợp là công cụ hữu ích để hiển thị trạng thái của hệ thống hoặc dữ liệu, giúp người dùng dễ dàng nắm bắt thông tin tổng quan Các loại biểu đồ như biểu đồ đường, cột, hoặc tròn được sử dụng tùy thuộc vào dữ liệu cần trình bày, từ đó giúp nhận diện nhanh chóng các vấn đề cần xử lý.

Phần 2 của bài viết trình bày dữ liệu dưới dạng bảng thống kê chi tiết, bao gồm các số liệu phân tích và danh sách thông tin liên quan Bảng dữ liệu có thể được tùy chỉnh với bộ lọc và khả năng sắp xếp, giúp người dùng dễ dàng xem thông tin theo nhu cầu riêng Điều này hỗ trợ người dùng trong việc phân tích sâu hơn các yếu tố trong dữ liệu, từ đó đưa ra quyết định dựa trên thông tin chính xác.

Hình 2.1: Mẫu thiết kế Dashboard tham khảo

Sự kết hợp giữa trực quan hóa dữ liệu và bảng thống kê giúp người dùng có cái nhìn tổng quan rõ ràng về trạng thái tổng thể, đồng thời cho phép phân tích chi tiết khi cần thiết Điều này mang lại sự linh hoạt và khả năng tương tác cao, tối ưu hóa trải nghiệm người dùng trong quản lý và ra quyết định Với những ưu điểm này, Dashboard đã khẳng định vai trò quan trọng trong việc hỗ trợ quản lý và giám sát hoạt động doanh nghiệp, đặc biệt là ở các tổ chức từ nhỏ đến lớn.

Dashboard có tính cá nhân hóa cao và ứng dụng đa dạng trong nhiều mô hình khác nhau, vì vậy việc liệt kê tất cả các loại dashboard theo nhu cầu là khó khăn Tuy nhiên, hiện nay có 7 loại dashboard cơ bản được sử dụng phổ biến.

1 Business Dashboard (Bảng phân tích kinh doanh): Phục vụ phân tích và hiểu rõ hoạt động kinh doanh thông qua góc nhìn dữ liệu tổng quan bao gồm: doanh thu, lợi nhuận, số lượng khách hàng, và kế hoạch bán hàng

2 KPI Dashboard (Bảng theo dõi KPI): Sử dụng để theo dõi và đo lường các chỉ số hiệu suất quan trọng (KPI – Key Performance Indicators) của một doanh nghiệp Một số mục tiêu có thể theo dõi như: tỷ lệ chuyển đổi, giá trị đơn hàng trung bình, chi phí đầu tư,…

3 Performance Dashboard (Bảng đo lường hiệu suất): Tập trung đo lường và theo dõi hiệu suất của một tổ chức, phòng ban hoặc cá nhân Các chỉ số thường có ở bảng Dashboard này bao gồm: Mức độ hoàn thành kế hoạch, tỷ lệ hoàn thành công việc, năng suất và chất lượng,…

4 Financial Dashboard (Bảng theo dõi tài chính): Đóng vai trò quan trọng trong việc theo dõi và phân tích tình hình tài chính để đưa ra quyết định kinh doanh Dashboard tài chính sẽ bao gồm nhiều chỉ số như doanh thu, lợi nhuận, chi phí, công nợ, dòng tiền,…

5 Project Dashboard (Bảng quản lý dự án): Cung cấp thông tin về các công việc, mốc thời gian, tài nguyên và nguồn lực hiện có nhằm điều theo dõi và điều phối tiến độ dự án theo đúng kế hoạch đã đề ra

6 Marketing Dashboard (Bảng phân tích Marketing): Sử dụng các chỉ số đo lường của phòng ban marketing liên quan tới chiến dịch quảng cáo, chiến dịch email marketing, tương tác trên mạng xã hội, khách hàng tiềm năng, doanh thu và chi phí,… để thúc đẩy phát triển truyền thông tiếp thị cho doanh nghiệp.

7 Operation Dashboard (Bảng vận hành tổng quát): Cung cấp thông tin về quá trình sản xuất, quản lý chuỗi cung ứng, quản lý chất lượng đầu ra – đầu vào để đảm bảo hoạt động vận hành tổng quát của một tổ chức suôn sẻ và hiệu quả.

Mỗi mô hình kinh doanh và quy mô vận hành đều yêu cầu Dashboard được thiết kế linh hoạt và tùy biến theo nhu cầu sử dụng Việc kết hợp từ 2 đến 3 loại dashboard, như KPI dashboard và Operation Dashboard, trong cùng một không gian làm việc cho Phòng vận hành là điều hoàn toàn khả thi.

2.3.2 Các nguyên tắc thiết kế dashboard

Theo lý thuyết F-shaped pattern, người dùng thường nhìn vào giao diện theo hình chữ F, chú ý nhiều đến phần đầu trang ở bên trái trước khi di chuyển sang bên phải và xuống dưới Do đó, khi thiết kế dashboard, thông tin quan trọng nên được đặt ở vị trí dễ tiếp cận, đặc biệt là ở phần trên và bên trái, trong khi các thông tin ít quan trọng hơn có thể đặt ở bên phải hoặc dưới cùng Việc này không chỉ tối ưu hóa trải nghiệm người dùng mà còn giúp họ tránh bị quá tải thông tin Áp dụng lý thuyết này trong việc bố trí biểu đồ, chỉ số và cảnh báo trên dashboard sẽ giúp người dùng dễ dàng theo dõi các yếu tố quan trọng nhất.

Một trong những nguyên tắc thiết kế dashboard quan trọng nhất là sự đơn giản Tránh sử dụng quá nhiều thông tin và biểu đồ phức tạp giúp người dùng không bị choáng ngợp Mục tiêu của dashboard là cung cấp cái nhìn tổng quan về các thông tin quan trọng nhất mà không gây phân tâm Vì vậy, việc chọn lọc dữ liệu và thiết kế giao diện trực quan, dễ hiểu là rất cần thiết.

PHƯƠNG PHÁP NGHIÊN CỨU

Quy trình thực hiện

Quy trình nghiên cứu của nhóm theo phương pháp Agile, bắt đầu từ việc phân tích yêu cầu thông qua khảo sát, xác định features

Phương pháp Agile là một khuôn khổ linh hoạt nhằm tối ưu hóa quản lý và phát triển dự án, đặc biệt trong lĩnh vực công nghệ thông tin và phát triển phần mềm Agile tập trung vào sự hợp tác chặt chẽ giữa các bên liên quan và khả năng thích ứng nhanh chóng với những thay đổi trong suốt quá trình thực hiện dự án.

Phương pháp Agile nổi bật với khả năng lập kế hoạch linh hoạt, cho phép nhóm dự án điều chỉnh phát triển sản phẩm dựa trên phản hồi từ khách hàng và thay đổi yêu cầu thị trường Công việc được chia thành các chu kỳ phát triển ngắn gọi là "sprint", kéo dài từ một đến bốn tuần, và mỗi sprint kết thúc với một sản phẩm khả thi hoặc bản demo để đánh giá và điều chỉnh kế hoạch Agile cũng nhấn mạnh giao tiếp cởi mở qua các cuộc họp hàng ngày, giúp các thành viên cập nhật tiến độ và hiểu rõ mục tiêu Phương pháp này khuyến khích cải thiện liên tục thông qua việc rút kinh nghiệm từ quá trình làm việc, nhằm tìm kiếm cơ hội cải tiến trong tương lai.

Phương pháp Agile mang lại nhiều lợi ích nổi bật, bao gồm tăng cường sự tham gia và hài lòng của khách hàng nhờ khả năng phản hồi nhanh với các yêu cầu thay đổi Việc thực hiện dự án theo từng giai đoạn ngắn giúp giảm thiểu rủi ro, cho phép nhận diện và điều chỉnh kịp thời các vấn đề phát sinh Hơn nữa, Agile còn nâng cao hiệu quả và năng suất của nhóm thông qua sự rõ ràng trong mục tiêu, giao tiếp thường xuyên và quản lý công việc hiệu quả.

3.1.2 Thiết Kế và Xây Dựng

Tiếp theo là giai đoạn thu thập dữ liệu với việc xây dựng các crawler chuyên biệt cho từng sàn TMĐT, lập lịch crawling, xử lý lỗi.

Để tối ưu hóa việc thu thập dữ liệu từ các sàn thương mại điện tử như Shopee, Tiki và Lazada, nhóm phát triển đã xây dựng các crawler chuyên biệt Những crawler này được lập trình nhằm thu thập thông tin sản phẩm, giá cả và đánh giá từ các API ẩn của từng nền tảng Quá trình thu thập dữ liệu cũng cần xử lý các lỗi và các biện pháp chống crawling mà các sàn TMĐT áp dụng.

3.1.3 Xử Lý và Chuẩn Hóa Dữ liệu

Dữ liệu sau khi thu thập sẽ được xử lý và chuẩn hóa để đảm bảo tính nhất quán và dễ dàng trong phân tích Việc chuẩn hóa này không chỉ giúp loại bỏ sai sót và dư thừa mà còn tối ưu hóa việc lưu trữ hiệu quả trong cơ sở dữ liệu MongoDB.

3.1.4 Xây Dựng và Triển Khai

Cuối cùng là quá trình xây dựng dashboard với các tính năng phân tích chuyên sâu.

Nhóm đã xây dựng một giao diện trực quan hóa dữ liệu bằng các công nghệ như Plotly Dash và FastAPI Dashboard này cung cấp tính năng phân tích chi tiết, giúp người dùng theo dõi và phân tích xu hướng giá cả, so sánh giữa các sàn giao dịch, từ đó đưa ra quyết định mua sắm thông minh Thiết kế giao diện tập trung vào tính trực quan và dễ sử dụng, đảm bảo người dùng dễ dàng truy cập và hiểu các thông tin phức tạp.

Công cụ và công nghệ sử dụng

Trong nghiên cứu này, nhóm đã áp dụng nhiều công cụ và công nghệ tiên tiến nhằm nâng cao hiệu quả trong việc thu thập và phân tích dữ liệu.

Python: Sử dụng ngôn ngữ lập trình Python với các thư viện mạnh mẽ như

Python là công cụ mạnh mẽ cho việc xử lý dữ liệu phức tạp, cho phép thực hiện các yêu cầu cho việc thu thập dữ liệu và sử dụng BeautifulSoup để phân tích cú pháp HTML một cách hiệu quả Việc phát triển các script tự động với Python giúp tối ưu hóa quy trình phân tích và xử lý thông tin.

MongoDB là lựa chọn lý tưởng cho cơ sở dữ liệu NoSQL, giúp lưu trữ và quản lý hiệu quả các tập dữ liệu lớn với tốc độ truy xuất nhanh và linh hoạt Nó đặc biệt phù hợp cho việc lưu trữ dữ liệu không cấu trúc và bán cấu trúc, chẳng hạn như dữ liệu thu thập từ các sàn thương mại điện tử.

FastAPI là một framework mạnh mẽ dùng để xây dựng API backend, giúp truy xuất dữ liệu nhanh chóng và an toàn Trong khi đó, Plotly Dash cung cấp các công cụ hiệu quả để tạo ra các dashboard phân tích dữ liệu trực quan, cho phép hiển thị dữ liệu đa dạng thông qua các biểu đồ và báo cáo tương tác.

Thiết kế hệ thống

Hình 3.1: Tổng quan hệ thống Data Platform

Hệ thống được thiết kế để thu thập, lưu trữ, xử lý và phân tích dữ liệu từ các sàn thương mại điện tử hàng đầu tại Việt Nam như Lazada, Shopee và Tiki Quy trình hoạt động của hệ thống bao gồm nhiều bước, bắt đầu từ việc thu thập dữ liệu ban đầu, sau đó lưu trữ và xử lý dữ liệu thông qua các luồng ETL Kết quả được trình bày cho người dùng cuối qua giao diện đồ họa, kèm theo các báo cáo, và toàn bộ quy trình được tự động hóa bằng công cụ workflow orchestration.

3.3.2 Quy Trình Thu Thập Dữ Liệu

Crawler Dữ Liệu là công cụ quan trọng trong việc thu thập thông tin sản phẩm từ các sàn thương mại điện tử lớn như Shopee và Lazada, bao gồm giá cả, mô tả, đánh giá và thông tin nhà bán hàng Tuy nhiên, do tính chất đa quốc gia và lượng người dùng khổng lồ, các sàn này áp dụng cơ chế bảo mật và cân bằng tải phức tạp, gây khó khăn trong việc truy cập dữ liệu Việc sử dụng các công cụ như requests hay httpie thường dẫn đến việc bị redirect đến trang login hoặc captcha Mặc dù selenium, cdp, puppeteer hay playwright có thể thu thập dữ liệu, nhưng chúng yêu cầu nhiều tài nguyên và thời gian, đồng thời cần đăng nhập và tải cookie, dễ bị cơ chế anti-bot của các sàn thương mại điện tử chặn lại, thậm chí có thể dẫn đến việc bị ban tài khoản hoặc địa chỉ IP.

3.3.3 Lưu Trữ và Quản Lý Dữ Liệu

MongoDB Atlas là một kho lưu trữ lạnh lý tưởng cho dữ liệu thô, tận dụng khả năng lưu trữ dựa trên document của MongoDB, phù hợp với nhu cầu dữ liệu thương mại điện tử Với định dạng lưu trữ BSON tương thích với JSON của các API, MongoDB Atlas không chỉ cung cấp gói miễn phí 500MB mà còn hỗ trợ tạo Dashboard cho kinh doanh thông minh, phân tích dữ liệu và tự động hóa thông qua Trigger.

3.3.4 Xử Lý và Phân Tích Dữ Liệu

PySpark là công cụ mạnh mẽ cho việc xử lý và phân tích dữ liệu, cho phép thực hiện các tác vụ phức tạp như tính toán thống kê và chuẩn hóa dữ liệu một cách nhanh chóng Với khả năng sử dụng tính toán trên RAM thay vì trên đĩa, PySpark giúp tối ưu hóa hiệu suất xử lý và tính toán dữ liệu.

FastAPI là một framework phát triển API mạnh mẽ, cho phép truy cập dữ liệu đã được xử lý một cách hiệu quả Nó cung cấp giao diện lập trình ứng dụng dễ sử dụng, hỗ trợ cả nhà phát triển lẫn người dùng cuối trong việc xây dựng và tích hợp các dịch vụ.

SQLite là một giải pháp lưu trữ dữ liệu tạm thời hiệu quả, giúp thực hiện các truy vấn nhanh chóng và hỗ trợ phân tích cũng như truy xuất dữ liệu một cách dễ dàng.

3.3.5 Trực Quan Hóa và Giao Diện Người Dùng

Dash by Plotly là công cụ quan trọng để xây dựng giao diện trực quan hóa dữ liệu phục vụ phân tích và báo cáo Với khả năng tạo biểu đồ, bản đồ và các yếu tố tương tác linh hoạt, Dash mang đến trải nghiệm thân thiện cho người dùng Các báo cáo được thiết kế để cung cấp cái nhìn sâu sắc về xu hướng thị trường, giúp người dùng dễ dàng nhận biết các thay đổi quan trọng thông qua biểu đồ động và giá cả sản phẩm, từ mức giá trung bình đến xu hướng giảm giá và các khuyến mãi đặc biệt.

3.3.6 Tích Hợp và Thông Báo

MLflow là một công cụ quản lý vòng đời mô hình học máy, giúp theo dõi và lưu trữ các phiên bản mô hình từ giai đoạn thử nghiệm đến triển khai Hệ thống này lưu trữ thông tin về siêu tham số, dữ liệu đầu vào và kết quả, cho phép đội ngũ so sánh hiệu quả giữa các mô hình và chọn ra phương án tối ưu Với khả năng tích hợp chặt chẽ, MLflow duy trì lịch sử mô hình, hỗ trợ tái sử dụng và cải thiện trong tương lai.

Dagster là công cụ tự động hóa quy trình công việc, giúp lập lịch và gửi báo cáo qua Gmail một cách hiệu quả Nó cho phép tự động hóa quy trình phân tích dữ liệu định kỳ, đảm bảo báo cáo được tạo ra vào đầu tuần hoặc cuối tháng Với khả năng gửi báo cáo qua email, Dagster không chỉ tiết kiệm thời gian mà còn giảm thiểu sai sót trong giao tiếp Hơn nữa, Dagster hỗ trợ giám sát trạng thái quy trình, phát hiện và thông báo kịp thời khi có sự cố, từ đó đảm bảo quy trình hoạt động liên tục và hiệu quả.

Gmail được sử dụng làm kênh giao tiếp chính để gửi thông báo tự động, nhờ vào tính năng App Password Hệ thống có thể gửi các email tự động bao gồm báo cáo định kỳ về hiệu quả và xu hướng thị trường, cảnh báo khi phát hiện dữ liệu bất thường hoặc sự cố trong quá trình xử lý, và cập nhật quan trọng để thông báo cho các bên liên quan về những thay đổi trong hệ thống.

Quy trình được tự động hóa và giám sát chặt chẽ, với hệ thống xử lý lỗi và thông báo phù hợp để đảm bảo hoạt động ổn định Các công cụ được lựa chọn cho phép xử lý theo batch dữ liệu lịch sử và phân tích hiệu quả Sự phối hợp chặt chẽ giữa các công cụ trong hệ thống đảm bảo mọi nhiệm vụ từ phân tích, quản lý mô hình đến giao tiếp đều được thực hiện hiệu quả, mang lại giá trị cao nhất cho người dùng cuối và tổ chức.

TRIỂN KHAI VÀ KẾT QUẢ

Ngày đăng: 28/02/2025, 11:41

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
3. Charted Sea. (2024). Charted Sea Documentation. https://chartedsea.com/docs/ Sách, tạp chí
Tiêu đề: Charted Sea Documentation
Tác giả: Charted Sea
Năm: 2024
4. FastAPI. (2024). FastAPI Documentation. https://fastapi.tiangolo.com/ Sách, tạp chí
Tiêu đề: FastAPI Documentation
Tác giả: FastAPI
Năm: 2024
5. MLflow. (2024). MLflow Documentation. https://www.mlflow.org/docs/latest/index.html Sách, tạp chí
Tiêu đề: MLflow Documentation
Tác giả: MLflow
Năm: 2024
6. MongoDB. (2024). MongoDB Documentation. https://www.mongodb.com/docs/ Sách, tạp chí
Tiêu đề: MongoDB Documentation
Tác giả: MongoDB
Năm: 2024
7. MongoDB. (2024). MongoDB Atlas Documentation. https://www.mongodb.com/cloud/atlas Sách, tạp chí
Tiêu đề: MongoDB Atlas Documentation
Tác giả: MongoDB
Năm: 2024
8. Plotly. (2024). Plotly Python Documentation. https://plotly.com/python/ Sách, tạp chí
Tiêu đề: Plotly Python Documentation
Tác giả: Plotly
Năm: 2024
9. Plotly. (2024). Dash Gallery. https://dash.gallery/Portal/ Sách, tạp chí
Tiêu đề: Dash Gallery
Tác giả: Plotly
Năm: 2024
10. SQLite. (2024). SQLite Documentation. https://sqlite.org/docs.html Sách, tạp chí
Tiêu đề: SQLite Documentation
Tác giả: SQLite
Năm: 2024

HÌNH ẢNH LIÊN QUAN

Bảng 2.1: So sánh đặc điểm 3 sàn Shopee, Lazada, Tiki - Bài tập lớn môn phân tích dữ liệu tài chính quy mô lớn Đề tài xây dựng hệ thống data platform dữ liệu sản phẩm Điện tử từ sàn thương mại Điện tử shopee, tiki, lazada
Bảng 2.1 So sánh đặc điểm 3 sàn Shopee, Lazada, Tiki (Trang 17)
Hình 4.1: Danh sách các sản phẩm - Bài tập lớn môn phân tích dữ liệu tài chính quy mô lớn Đề tài xây dựng hệ thống data platform dữ liệu sản phẩm Điện tử từ sàn thương mại Điện tử shopee, tiki, lazada
Hình 4.1 Danh sách các sản phẩm (Trang 34)
Hình 4.3: Thông tin thu thập dữ liệu hàng ngày - Bài tập lớn môn phân tích dữ liệu tài chính quy mô lớn Đề tài xây dựng hệ thống data platform dữ liệu sản phẩm Điện tử từ sàn thương mại Điện tử shopee, tiki, lazada
Hình 4.3 Thông tin thu thập dữ liệu hàng ngày (Trang 35)
Hình 4.4: Các collection trên MongoDB - Bài tập lớn môn phân tích dữ liệu tài chính quy mô lớn Đề tài xây dựng hệ thống data platform dữ liệu sản phẩm Điện tử từ sàn thương mại Điện tử shopee, tiki, lazada
Hình 4.4 Các collection trên MongoDB (Trang 35)
Bảng 4.1: Dữ liệu chung 3 bộ dữ liệu về chi tiết sản phẩm - Bài tập lớn môn phân tích dữ liệu tài chính quy mô lớn Đề tài xây dựng hệ thống data platform dữ liệu sản phẩm Điện tử từ sàn thương mại Điện tử shopee, tiki, lazada
Bảng 4.1 Dữ liệu chung 3 bộ dữ liệu về chi tiết sản phẩm (Trang 36)
Hình 4.5: Dashboard BI trên MongoDB - Bài tập lớn môn phân tích dữ liệu tài chính quy mô lớn Đề tài xây dựng hệ thống data platform dữ liệu sản phẩm Điện tử từ sàn thương mại Điện tử shopee, tiki, lazada
Hình 4.5 Dashboard BI trên MongoDB (Trang 37)
Bảng 4.3: Dữ liệu chung 3 bộ dữ liệu về giá lịch sử của sản phẩm - Bài tập lớn môn phân tích dữ liệu tài chính quy mô lớn Đề tài xây dựng hệ thống data platform dữ liệu sản phẩm Điện tử từ sàn thương mại Điện tử shopee, tiki, lazada
Bảng 4.3 Dữ liệu chung 3 bộ dữ liệu về giá lịch sử của sản phẩm (Trang 37)
Hình 4.6: Danh sách các API FastAPI - Bài tập lớn môn phân tích dữ liệu tài chính quy mô lớn Đề tài xây dựng hệ thống data platform dữ liệu sản phẩm Điện tử từ sàn thương mại Điện tử shopee, tiki, lazada
Hình 4.6 Danh sách các API FastAPI (Trang 38)
Hình 4.8: Report tổng quan - Bài tập lớn môn phân tích dữ liệu tài chính quy mô lớn Đề tài xây dựng hệ thống data platform dữ liệu sản phẩm Điện tử từ sàn thương mại Điện tử shopee, tiki, lazada
Hình 4.8 Report tổng quan (Trang 40)
Hình 4.9: Report thống kê - Bài tập lớn môn phân tích dữ liệu tài chính quy mô lớn Đề tài xây dựng hệ thống data platform dữ liệu sản phẩm Điện tử từ sàn thương mại Điện tử shopee, tiki, lazada
Hình 4.9 Report thống kê (Trang 41)
Hình 4.10: Report phân tích đánh giá - Bài tập lớn môn phân tích dữ liệu tài chính quy mô lớn Đề tài xây dựng hệ thống data platform dữ liệu sản phẩm Điện tử từ sàn thương mại Điện tử shopee, tiki, lazada
Hình 4.10 Report phân tích đánh giá (Trang 42)
Hình 4.11: Luồng lập lịch gửi báo cáo - Bài tập lớn môn phân tích dữ liệu tài chính quy mô lớn Đề tài xây dựng hệ thống data platform dữ liệu sản phẩm Điện tử từ sàn thương mại Điện tử shopee, tiki, lazada
Hình 4.11 Luồng lập lịch gửi báo cáo (Trang 43)
Hình 4.12: Chạy pipeline - Bài tập lớn môn phân tích dữ liệu tài chính quy mô lớn Đề tài xây dựng hệ thống data platform dữ liệu sản phẩm Điện tử từ sàn thương mại Điện tử shopee, tiki, lazada
Hình 4.12 Chạy pipeline (Trang 43)
Hình 4.13: Gửi report qua gmail - Bài tập lớn môn phân tích dữ liệu tài chính quy mô lớn Đề tài xây dựng hệ thống data platform dữ liệu sản phẩm Điện tử từ sàn thương mại Điện tử shopee, tiki, lazada
Hình 4.13 Gửi report qua gmail (Trang 44)
Hình 4.15: Các thông số của model - Bài tập lớn môn phân tích dữ liệu tài chính quy mô lớn Đề tài xây dựng hệ thống data platform dữ liệu sản phẩm Điện tử từ sàn thương mại Điện tử shopee, tiki, lazada
Hình 4.15 Các thông số của model (Trang 45)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w