1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn phân loại bình luận của khách hàng trên mạng xã hội dựa trên kỹ thuật máy học

60 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân loại bình luận của khách hàng trên mạng xã hội dựa trên kỹ thuật máy học
Tác giả Đàm Phương Tùng
Người hướng dẫn TS. Nguyễn Văn Tảo
Trường học Đại học Thái Nguyên
Chuyên ngành Khoa học máy tính
Thể loại luận văn
Năm xuất bản 2020
Thành phố Thái Nguyên
Định dạng
Số trang 60
Dung lượng 1,42 MB

Cấu trúc

  • CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN PHÂN LOẠI BÌNH LUẬN KHÁCH HÀNG (8)
    • 1.1. Tổng quan về khai phá dữ liệu (8)
      • 1.1.1. Những khái niệm về khai phá dữ liệu (9)
      • 1.1.2. Quy trình khai phá dữ liệu (11)
      • 1.1.3. Các kỹ thuật và tác vụ khai phá dữ liệu (13)
      • 1.1.4. Kiến trúc của một hệ thống khai phá dữ liệu (17)
      • 1.1.5. So sánh khai phá dữ liệu với máy học (18)
    • 1.2. Ứng dụng khai phá dữ liệu trong phân loại bình luận khách hàng (19)
      • 1.2.1. Phương pháp phân lớp văn bản (19)
      • 1.2.2. Phương pháp tách từ tiếng Việt (22)
      • 1.2.3. Phân loại bình luận khách hàng (26)
  • CHƯƠNG 2: CÁC BƯỚC KHẢO SÁT VÀ PHÂN LOẠI BÌNH LUẬN CỦA (28)
    • 2.1. Tìm hiểu chung về thương hiệu sản phẩm (28)
    • 2.2. Mục đích của việc lấy bình luận khách hàng (29)
    • 2.3. Thu thập bình luận khách hàng trên Internet (31)
    • 2.4. Mô hình tổng thể bài toán phân loại bình luận khách hàng (35)
  • CHƯƠNG 3: XÂY DỰNG CHƯƠNG TRÌNH THỰC NGHIỆM (38)
    • 3.1. Đề xuất giải pháp (38)
      • 3.1.1. Yêu cầu bài toán (39)
      • 3.1.2. Tổng quan về dữ liệu (41)
    • 3.2. Xây d ự ng mô hình (41)
      • 3.2.1. Thu thập dữ liệu (42)
      • 3.2.2. Tiền xử lý dữ liệu (44)
      • 3.2.3. Trích xuất vector (47)
      • 3.2.4. Huấn luyện dữ liệu (48)
    • 3.3. Kết quả thử nghiệm (55)
      • 3.3.1. Đánh giá dựa trên độ chính xác (55)
      • 3.3.2. Triển khai dự án trên website thực tiễn (55)
  • KẾT LUẬN (58)

Nội dung

TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN PHÂN LOẠI BÌNH LUẬN KHÁCH HÀNG

Tổng quan về khai phá dữ liệu

KPDL, một thuật ngữ mới xuất hiện đầu thế kỷ 21, phản ánh sự bùng nổ dữ liệu do Internet mang lại Theo Intel, vào tháng 9 năm 2013, cứ mỗi 11 giây lại có thêm 1 Petabyte dữ liệu, tương đương với một video chất lượng HD dài 13 năm.

KPDL đang được áp dụng phổ biến trong nhiều lĩnh vực, với sự phát triển của nhiều công cụ thương mại và phi thương mại nhằm triển khai các nhiệm vụ của KPDL.

- Phân tích dữ liệu và hỗ trợ ra quyết định (data analysis & decision support)

Trong lĩnh vực y tế, việc ứng dụng công nghệ lưu trữ lớn và khai phá dữ liệu đang ngày càng trở nên quan trọng để chẩn đoán, phòng ngừa và điều trị bệnh, nhằm nâng cao sức khỏe con người Nghiên cứu này đáp ứng nhu cầu thực tiễn và thu hút sự quan tâm mạnh mẽ từ cộng đồng các nhà nghiên cứu Một số ứng dụng cụ thể của khai phá dữ liệu trong y học bao gồm cải thiện quy trình chẩn đoán và phát triển phương pháp điều trị hiệu quả hơn.

+ Dự đoán khả năng nhiễm bệnh

+ Dự đoán mức độ nghiêm trọng của virus đối với cơ thể con người

- Text mining & Web mining: KPDL văn bản và KPDL Web là một trong những ứng dụng quan trọng hiện nay Các bài toán trong KPDL văn bản bao gồm:

+ Phân cụm các từ mục

+ Đánh chỉ mục các từ tiềm năng

+ Dẫn đường văn bản Đối với các bài toán trong KPDL Web bao gồm:

+ Thu thập và xử lý dữ liệu Web

+ Phân lớp nhóm các Website có độ uy tín khi truy cập

Tin sinh học (bio-informatics) là lĩnh vực kết hợp giữa công nghệ thông tin và sinh học, trong đó KPDL sinh học đóng vai trò quan trọng Các ứng dụng của KPDL trong sinh học bao gồm phân tích dữ liệu gen, dự đoán cấu trúc protein và nghiên cứu tương tác giữa các phân tử sinh học.

+ Lập chỉ mục, tìm kiếm tương tự, bất thường trong CSDL Gen

Xây dựng mô hình khai phá các mạng di truyền và cấu trúc của gen cùng protein là một phần quan trọng trong nghiên cứu di truyền học Đồng thời, phát triển các công cụ trực quan trong phân tích dữ liệu di truyền giúp nâng cao khả năng hiểu biết và xử lý thông tin gen một cách hiệu quả hơn.

Dữ liệu tài chính từ ngân hàng và ngành tài chính thường có độ tin cậy cao, hỗ trợ cho việc khai phá dữ liệu hiệu quả Một số ứng dụng tiêu biểu trong khai phá dữ liệu tài chính bao gồm phân tích xu hướng thị trường, dự đoán giá cổ phiếu và quản lý rủi ro.

- Dự đoán khả năng vay và thanh toán của khách hàng, phân tích chính sách tín dụng đối với khách hàng

+ Phân tích hành vi khách hàng (vay, gửi tiền)

+ Phân loại và phân nhóm khách hàng mục tiêu cho tiếp thị tài chính

+ Phát hiện các hoạt động rửa tiền và tội phạm tài chính

Chương này sẽ cung cấp cái nhìn tổng quát về khai phá dữ liệu, bao gồm định nghĩa, nghiên cứu liên quan, cùng với các kỹ thuật khai thác và xử lý dữ liệu hiện nay Bên cạnh đó, sẽ có tổng quan về các kỹ thuật khai phá văn bản và ứng dụng của chúng trong việc phân tích bình luận của khách hàng.

1.1.1 Nh ữ ng khái ni ệ m v ề khai phá d ữ li ệ u

Ngày nay, khối lượng dữ liệu do con người tạo ra ngày càng tăng nhanh, dẫn đến những khó khăn trong việc phân loại, lựa chọn và khai thác thông tin Khái niệm khai phá dữ liệu (KPDL) đã ra đời để hỗ trợ cho những công việc này Theo Tom Mitchell, KPDL là việc sử dụng dữ liệu lịch sử để khám phá các quy tắc và cải thiện quyết định trong tương lai Fayyad định nghĩa KPDL là quá trình trích xuất thông tin ẩn, chưa biết nhưng có khả năng hữu ích từ cơ sở dữ liệu dưới dạng các quy luật và ràng buộc Tóm lại, KPDL là quá trình học hỏi tri thức mới từ dữ liệu đã thu thập.

Khai phá dữ liệu (Data Mining) hay khám phá tri thức (Knowledge Discovery) là quá trình tự động trích xuất thông tin dự đoán có giá trị từ khối lượng dữ liệu khổng lồ Thuật ngữ này còn chỉ việc tìm kiếm một tập hợp nhỏ giá trị từ một lượng lớn dữ liệu thô.

Hình 1.1 Quá trình trích xuất thông tin có giá trị

Khai phá dữ liệu cũng là một lĩnh vực liên ngành, nơi hội tụ của nhiều học thuyết và công nghệ

Hình 1.2 Những lĩnh vực liên quan tới khai phá dữ liệu

1.1.2 Quy trình khai phá d ữ li ệ u

Khai phá dữ liệu là bước quan trọng trong quy trình KDD (Khám Phá Kiến Thức trong Cơ Sở Dữ Liệu), bao gồm bảy bước khác nhau Quá trình KDD được tổ chức thành bảy giai đoạn cụ thể, mỗi giai đoạn đóng vai trò thiết yếu trong việc trích xuất kiến thức từ dữ liệu.

Làm sạch dữ liệu (data cleaning & preprocessing) là quá trình loại bỏ nhiễu và dữ liệu không cần thiết, nhằm xác định các vấn đề gây ảnh hưởng đến chất lượng dữ liệu Dữ liệu không sạch, chứa lỗi, nhiễu, không đầy đủ hoặc có mâu thuẫn, có thể dẫn đến những tri thức khám phá không đáng tin cậy và quyết định không chính xác Do đó, cần thực hiện các bước như gán giá trị cho thuộc tính còn thiếu, sửa chữa dữ liệu nhiễu/lỗi, xác định hoặc loại bỏ các ngoại lai (outliers) và giải quyết các mâu thuẫn dữ liệu để đảm bảo chất lượng dữ liệu.

Tích hợp dữ liệu là quá trình hợp nhất thông tin từ nhiều nguồn khác nhau thành các kho dữ liệu, như kho dữ liệu và kho dữ liệu con, sau khi đã thực hiện làm sạch và tiền xử lý Trong quá trình này, việc xác định các thực thể từ nhiều nguồn là rất quan trọng để tránh tình trạng dư thừa dữ liệu, một vấn đề thường gặp khi tích hợp nhiều nguồn dữ liệu Điều này xảy ra khi cùng một thuộc tính có thể mang tên khác nhau trong các cơ sở dữ liệu khác nhau, hoặc khi dữ liệu suy ra từ các thuộc tính trong bảng này có thể được tìm thấy trong bảng khác Để phát hiện các thuộc tính dư thừa, phân tích tương quan giữa chúng là một phương pháp hữu ích.

Trích chọn dữ liệu là quá trình lấy thông tin từ các kho dữ liệu và chuyển đổi chúng thành định dạng phù hợp cho khai thác tri thức Quá trình này bao gồm việc xử lý dữ liệu nhiễu và dữ liệu không đầy đủ, đảm bảo chất lượng và tính chính xác của thông tin trước khi tiến hành phân tích.

- Chuyển đổi dữ liệu: Các dữ liệu được chuyển đổi sang các dạng phù hợp cho quá trình xử lý

Khai phá dữ liệu là một bước quan trọng trong quá trình phân tích, sử dụng các phương pháp thông minh để trích xuất những mẫu dữ liệu có giá trị.

- Ước lượng mẫu (knowledge evaluation): Quá trình đánh giá các kết quả tìm được thông qua các độ đo nào đó

- Biểu diễn tri thức (knowledge presentation): Quá trình này sử dụng các kỹ thuật để biểu diễn và thể hiện trực quan cho người dùng

Hình 1.3 Các bước của quá trình KDD Đối với một quá trình KPDL có năm giai đoạn như sau [8]:

Trong giai đoạn đầu, nhà tư vấn nghiên cứu kiến thức về lĩnh vực áp dụng, bao gồm tri thức cấu trúc về hệ thống và các nguồn dữ liệu hiện có Nghiên cứu này diễn ra thông qua sự tương tác với người dùng, nhằm hiểu rõ các yêu cầu sơ khởi và đề xuất các bài toán tiềm năng có thể giải quyết Tập hợp các bài toán này sẽ được tinh chỉnh trong các giai đoạn tiếp theo, đồng thời xác định các nguồn và đặc tả dữ liệu liên quan.

Ứng dụng khai phá dữ liệu trong phân loại bình luận khách hàng

1 2.1 Phương pháp phân lớp văn bả n

Phân lớp văn bản là quá trình gán các văn bản vào các lớp đã xác định từ trước, có thể thực hiện thủ công nhưng tốn nhiều thời gian và công sức Do đó, việc áp dụng các phương pháp phân lớp tự động trở nên cần thiết Các phương pháp này thường sử dụng học máy trong trí tuệ nhân tạo, như cây quyết định, Bayes và K-nearest neighbor, giúp tiết kiệm thời gian và nâng cao hiệu quả phân loại văn bản.

Phân lớp văn bản đóng vai trò quan trọng trong việc tìm kiếm thông tin Qua việc đánh chỉ số các văn bản trong một tập dữ liệu đã được phân lớp, người dùng có thể dễ dàng xác định chủ đề hoặc lớp văn bản mà họ muốn tìm kiếm thông qua các câu hỏi cụ thể.

Phân lớp văn bản là một ứng dụng quan trọng trong lĩnh vực tìm hiểu văn bản, cho phép lọc ra các văn bản hoặc phần văn bản chứa dữ liệu cần tìm mà vẫn giữ nguyên tính phức tạp của ngôn ngữ tự nhiên.

Trong phân lớp văn bản, mỗi lớp có thể được gán giá trị đúng sai (True hay False) hoặc đánh giá theo mức độ phụ thuộc của văn bản vào lớp đó Khi có nhiều lớp, việc phân loại sẽ xác định xem văn bản có thuộc về một lớp cụ thể nào hay không.

- Quá trình: Quá trình phân lớp văn bản tuân theo các bước sau:

Quá trình đánh chỉ số văn bản tương tự như trong tìm kiếm văn bản, trong đó tốc độ đánh chỉ số đóng vai trò quan trọng Việc xử lý các văn bản mới trong thời gian thực là cần thiết để đảm bảo thông tin luôn được cập nhật kịp thời.

Xác định độ phân lớp văn bản là quá trình xác định loại văn bản dựa trên cấu trúc biểu diễn của nó Trong hệ thống phân lớp văn bản, quá trình này được gọi là bộ phân lớp (Categorization hoặc classifier), đóng vai trò tương tự như những câu hỏi trong hệ tìm kiếm Tuy nhiên, khác với những câu hỏi mang tính nhất thời, bộ phân loại được sử dụng một cách ổn định và lâu dài để thực hiện quá trình phân loại.

Trong hầu hết các bộ phân loại, mỗi văn bản cần được gán nhãn đúng sai vào một lớp cụ thể Sự khác biệt chính trong quá trình so sánh tại hệ thống tìm kiếm văn bản là mỗi văn bản chỉ được so sánh với một số lớp nhất định trong một lần Quyết định cuối cùng phụ thuộc vào mối quan hệ giữa các lớp văn bản.

Quá trình phản hồi đóng vai trò quan trọng trong hệ phân lớp văn bản Đầu tiên, để phân loại, cần có một lượng lớn văn bản đã được phân loại thủ công, được sử dụng làm mẫu huấn luyện cho bộ phân loại Thứ hai, việc thay đổi yêu cầu trong phân loại văn bản không dễ dàng như trong phản hồi của tìm kiếm, vì người dùng có thể thông báo cho người bảo trì hệ thống về việc xóa bỏ, thêm vào hoặc thay đổi các phân lớp văn bản theo nhu cầu của họ.

- Các phương pháp phân lớp văn bản và nhận xét:

Thuật toán KNN (K-Nearest Neighbors) hoạt động bằng cách xác định khoảng cách giữa một văn bản mới và tất cả các văn bản trong tập huấn luyện, sử dụng các công thức như Euclide hoặc Cosine Khi tìm ra k văn bản gần nhất, thuật toán sẽ tính toán trọng số cho các chủ đề dựa trên tổng khoảng cách của các văn bản trong k láng giềng có cùng chủ đề, trong khi các chủ đề không xuất hiện sẽ có trọng số bằng 0 Cuối cùng, các chủ đề được sắp xếp theo giá trị trọng số giảm dần, và các chủ đề có trọng số cao nhất sẽ được chọn làm chủ đề cho văn bản cần phân loại.

Hình 1.5 Minh họa thuật toán KNN

Trọng số của chủ đề 𝑐 𝑗 đối với văn bản x được tính như sau:

Trong đó, y = 0 thể hiện rằng văn bản d_i không thuộc về chủ đề c_j, trong khi y = 1 cho thấy văn bản d_i sẽ thuộc về chủ đề c_j Hệ số sim(x, d_i) đại diện cho độ giống nhau giữa văn bản cần phân loại x và văn bản d_i.

Thuật toán Naive Bayes dựa trên xác suất có điều kiện giữa từ và chủ đề để dự đoán xác suất chủ đề của văn bản cần phân loại Phương pháp này giả định rằng sự xuất hiện của tất cả các từ trong văn bản là độc lập, điều này hạn chế khả năng của Naive Bayes trong việc tận dụng sự phụ thuộc giữa nhiều từ vào một chủ đề cụ thể.

Thuật toán Bayes là một phương pháp phân loại có giám sát, dễ hiểu và dễ cài đặt, nhưng lại mang lại kết quả tốt, đặc biệt quan trọng trong xử lý ngôn ngữ tự nhiên Ứng dụng đầu tiên của nó là phân loại văn bản, và gần đây, nó đã được áp dụng thành công trong phần mềm lọc spam tự động Đối với mô hình Bayes đơn giản dạng nhị thức, giả sử x là một văn bản với các từ thuộc từ điển gồm D từ, ta có thể biểu diễn x dưới dạng một vector nhị phân.

Trong đó:𝑥 𝑗 = 0 nếu từ thứ j không xuất hiện trong x và 𝑥 𝑗 = 1 nếu từ thứ j xuất hiện trong x

Trong mô hình Bayes đơn giản, giả định các đặc trưng 𝑥𝑗 ∈ {0,1} và độc lập nhau đối với từng loại y Từ đó:

𝑃(𝑥, 𝑦: 𝜃) = 𝑃(𝑥|𝑦; 𝜃𝑃(𝑦; 𝜃) = ∏ 𝐷 𝑗=1 𝑃 (1.1) Các tham số của mô hình:

𝜃 𝑗∨𝑘 = 𝑃(𝑥 𝑗 = 1|𝑦 = 𝑘), ∀𝑗 = 1,2, … , 𝐷; , ∀𝑘 = 1,2, … , 𝐾 Chú ý rằng 𝜃 𝑘 = 1 − ∑ 𝐾−1 𝑘=1 𝜃 𝑘 , nên mô hình có (K-1) + DK tham số

Hàm mất mát trên tập dữ liệu huấn luyện (𝑥 1 , 𝑦 1 ), … , (𝑥 𝑁 , 𝑦 𝑁 ) là:

Từ đó có ước lược hợp lý cực đại:

∑ 𝑁 𝑖=1 𝛿(𝑦 𝑖 =𝑘) với 𝛿( ) là hàm chỉ số

1.2.2 P hương pháp tách từ ti ế ng Vi ệ t

- So khớp dài nhất (Longest Matching):

Thuật toán này dựa trên tư tưởng tham lam, phân tích các tiếng từ trái qua phải Nó tách ra các tiếng đầu tiên dài nhất có thể từ từ điển Quá trình này dừng lại khi tất cả các tiếng đã được xét Tuy nhiên, thuật toán chỉ chính xác khi không có sự nhập nhằng giữa các tiếng đầu của từ sau với từ trước, đảm bảo rằng chúng tạo thành từ có trong từ điển.

+ Ưu điểm: Tách từ nhanh đơn giản chỉ cần dựa vào từ điển Phương pháp có độ chính xác tương đối cao

+ Hạn chế: Độ chính xác phụ thuộc hoàn toàn vào tính đầy đủ và chính xác của từ điển

- Học dựa trên cải biến (Transformation-based Learning-TBL):

Cách tiếp cận dựa trên ngữ liệu đã đánh dấu là phương pháp hiệu quả để huấn luyện máy tính nhận diện ranh giới từ trong tiếng Việt Bằng cách sử dụng hàng vạn câu tiếng Việt đã được đánh dấu ranh giới từ chính xác, máy sẽ "học" và xác định các tham số cần thiết cho mô hình nhận diện từ Sau quá trình học, máy tính sẽ có khả năng nhận diện các ranh giới từ một cách chính xác hơn.

Phương pháp này nổi bật với khả năng tự rút ra quy luật ngôn ngữ, kết hợp ưu điểm của cách tiếp cận dựa trên luật và khắc phục nhược điểm của việc xây dựng luật thủ công Các quy luật được thử nghiệm tại chỗ để đánh giá độ chính xác và hiệu quả dựa trên ngữ liệu huấn luyện, đồng thời thuật toán còn giúp giảm thiểu sự nhập nhằng trong các mô hình ngôn ngữ thống kê.

CÁC BƯỚC KHẢO SÁT VÀ PHÂN LOẠI BÌNH LUẬN CỦA

Tìm hiểu chung về thương hiệu sản phẩm

Thương hiệu là quá trình tạo ra tên và hình ảnh cho sản phẩm trong tâm trí khách hàng thông qua các chiến dịch quảng cáo nhất quán Mục tiêu của việc xây dựng thương hiệu là tạo ra sự hiển thị rõ ràng và khác biệt trên thị trường, nhằm thu hút sự chú ý và duy trì mối quan hệ với khách hàng.

Thương hiệu là tổng hợp các cảm nhận của khách hàng về một công ty, sản phẩm hoặc dịch vụ, bao gồm nhận diện, giá trị, thuộc tính và cá tính Nó tạo dựng mối quan hệ chặt chẽ giữa thương hiệu và người tiêu dùng, thể hiện qua sự kết nối sâu sắc trong mối quan hệ thương hiệu-người tiêu dùng.

Thương hiệu là tên hoặc dấu hiệu giúp nhận diện sản phẩm, tạo ra lợi thế cạnh tranh bền vững cho doanh nghiệp Các thương hiệu nổi tiếng như Microsoft, IBM, BMW, Coca Cola và Shell minh chứng cho sự thành công trong nhận diện thương hiệu doanh nghiệp, trong khi Louis Vuitton, GUCCI, Dove và Tide là những ví dụ điển hình về thương hiệu sản phẩm.

Thương hiệu là yếu tố phi vật thể nhưng thiết yếu cho doanh nghiệp, đặc biệt khi sản phẩm trở nên khó phân biệt về tính chất và lợi ích Trong trường hợp này, thương hiệu trở thành yếu tố quyết định sự khác biệt giữa các sản phẩm, thể hiện sự tin tưởng và an toàn cho người tiêu dùng.

- Hình thành thương hiệu sản phẩm:

Trải nghiệm sản phẩm và dịch vụ đóng vai trò quan trọng trong cảm nhận của khách hàng sau khi sử dụng Đối với thị trường B2B, trải nghiệm này được hình thành qua quá trình hợp tác và làm việc với các công ty đối tác.

Cảm nhận của khách hàng về thương hiệu được hình thành từ quá trình tương tác và tiếp xúc với nhân viên, những người đại diện cho thương hiệu trong các cuộc giao tiếp với khách hàng.

Hoạt động marketing và truyền thông là những nỗ lực mà thương hiệu thực hiện nhằm tạo ra và củng cố cảm nhận tích cực của khách hàng về mình Những hoạt động này không chỉ giúp thương hiệu tiếp cận khách hàng mà còn xây dựng mối quan hệ lâu dài, tạo ấn tượng tốt trong lòng người tiêu dùng.

- Thương hiệu mạnh: Một thương hiệu mạnh bao gồm:

Sản phẩm chất lượng cao mang lại giá trị thương hiệu vượt trội, như chiếc áo hàng hiệu với thiết kế đẹp mắt và nguyên phụ liệu chất lượng Kỹ thuật may tinh xảo không chỉ làm hài lòng người mặc mà còn thu hút sự chú ý từ những người xung quanh.

Những giá trị vô hình đóng vai trò quan trọng trong mối quan hệ giữa thương hiệu và khách hàng, bên cạnh các giá trị hữu hình dễ nhận thấy Mặc dù giá trị cảm xúc khó tạo ra, nhưng khi đã hình thành, chúng thường bền lâu Một sản phẩm như chiếc áo cần phải được sản xuất bởi nhà thiết kế có uy tín, từ đó chỉ cần nhìn vào thương hiệu, người tiêu dùng có thể cảm nhận được sự sang trọng, tinh tế và đẳng cấp, cùng với những cá tính đặc trưng của sản phẩm.

Mục đích của việc lấy bình luận khách hàng

- Giúp cải thiện sản phẩm hoặc dịch vụ:

Lấy bình luận khách hàng là cách lắng nghe và hiểu rõ nhu cầu của họ, giúp tạo ra sản phẩm hoặc dịch vụ mà họ thực sự mong muốn Thông tin phản hồi từ khách hàng rất quan trọng trong quá trình phát triển sản phẩm, đảm bảo rằng sản phẩm cuối cùng giải quyết được vấn đề của họ Để phát triển bền vững, doanh nghiệp cần tập trung vào việc cung cấp những gì khách hàng cần, thay vì chỉ bán những gì mình đang có.

Các công ty sáng tạo toàn cầu không ngừng phát triển những sản phẩm chất lượng cao, đáp ứng nhu cầu đa dạng của khách hàng và thậm chí còn vượt qua mong đợi của họ.

Các thương hiệu như Apple, Virgin và Dell luôn được người dùng tin tưởng và sở hữu một lượng lớn khách hàng trung thành.

Trong môi trường kinh doanh cạnh tranh hiện nay, việc phát triển sản phẩm tương tác giữa các công ty là rất phổ biến Thông tin phản hồi từ khách hàng đóng vai trò quan trọng trong việc xây dựng lợi thế cạnh tranh, giúp doanh nghiệp chiếm được lòng tin, sự trung thành và ủng hộ bền vững từ khách hàng.

- Cung cấp cách thức tốt nhất để đo lường sự hài lòng của khách hàng:

Đo lường sự hài lòng của khách hàng qua việc thu thập ý kiến từ họ giúp doanh nghiệp đánh giá mức độ đáp ứng hoặc vượt qua mong đợi của sản phẩm và dịch vụ Sử dụng phiếu khảo sát, câu hỏi và các cuộc điều tra là những phương pháp hiệu quả để chủ doanh nghiệp nắm bắt được mức độ hài lòng của khách hàng.

Cuộc điều tra có thể được tiến hành với từng cá nhân qua email, điện thoại, hoặc trên trang web và ứng dụng di động Việc sử dụng câu hỏi đánh giá giúp đo lường mức độ thỏa mãn và không hài lòng của khách hàng theo thời gian, từ đó có thể thực hiện những điều chỉnh cần thiết.

Cải thiện trải nghiệm khách hàng là yếu tố then chốt giúp doanh nghiệp thu hút và giữ chân khách hàng Việc lắng nghe ý kiến từ khách hàng không chỉ giúp cải tiến sản phẩm và dịch vụ mà còn tạo ra sự khác biệt so với đối thủ Sự hài lòng của khách hàng không chỉ khiến họ quay lại mà còn sẵn sàng giới thiệu sản phẩm cho người khác Để đạt được điều này, doanh nghiệp cần hiểu rõ nhu cầu của khách hàng và cung cấp trải nghiệm cá nhân hóa Khi thực hiện tốt điều này, doanh nghiệp sẽ xây dựng được lòng trung thành từ khách hàng, giúp họ bỏ qua những ưu đãi từ đối thủ cạnh tranh.

- Giúp cải thiện tỷ lệ khách hàng gắn bó:

Việc thu thập bình luận từ khách hàng giúp doanh nghiệp đánh giá mức độ hài lòng của họ đối với sản phẩm hoặc dịch vụ, từ đó ngăn chặn việc khách hàng rời bỏ để tìm đến đối thủ cạnh tranh Khi nhận diện vấn đề sớm, chủ doanh nghiệp có thể thực hiện các biện pháp cải thiện trải nghiệm và khôi phục lòng tin của khách hàng.

Bằng cách thường xuyên yêu cầu khách hàng tham gia các cuộc khảo sát và lắng nghe ý kiến của họ, chủ doanh nghiệp có thể thu thập thông tin phản hồi quý giá Những thông tin này giúp cải thiện dịch vụ và sản phẩm, từ đó nâng cao sự hài lòng của khách hàng và khuyến khích họ tiếp tục mua sắm hoặc sử dụng dịch vụ.

Việc cung cấp dữ liệu để đưa ra quyết định kinh doanh tốt hơn là một trong những mục tiêu hàng đầu của đội ngũ phân tích dữ liệu Các quyết định hiệu quả nhất được xây dựng dựa trên thông tin rõ ràng và định lượng, thay vì chỉ dựa vào trực giác Trong bối cảnh dữ liệu lớn đang bùng nổ, việc thu thập ý kiến từ khách hàng mang lại giá trị lớn cho doanh nghiệp Phản hồi của khách hàng là nguồn dữ liệu hữu ích giúp chủ doanh nghiệp có cơ sở vững chắc để đưa ra quyết định trong tương lai Qua đó, doanh nghiệp có thể hiểu rõ hơn về cảm nhận của khách hàng đối với sản phẩm và dịch vụ, từ đó đưa ra các cải tiến và quyết định marketing hiệu quả hơn.

Thu thập bình luận khách hàng trên Internet

Sự hài lòng của khách hàng là yếu tố quan trọng hàng đầu đối với doanh nghiệp, không chỉ trong việc gia tăng doanh số bán hàng mà còn trong việc xây dựng mối quan hệ lâu dài và bền vững với khách hàng Doanh nghiệp cần tập trung vào việc cung cấp sản phẩm và dịch vụ chất lượng để đạt được lợi ích lâu dài từ khách hàng.

Theo nghiên cứu của Văn phòng Các vấn đề Người tiêu dùng Nhà Trắng, mỗi khách hàng không hài lòng sẽ chia sẻ trải nghiệm của họ với 9 đến 15 người khác, trong khi khoảng 13% sẽ kể cho hơn 20 người Hơn 40% quyết định mua hàng dựa trên ý kiến và tư vấn từ người thân, bạn bè.

Việc thu thập bình luận khách hàng thường xuyên là cách hiệu quả để doanh nghiệp đánh giá mức độ hài lòng của khách hàng Nếu khách hàng không hài lòng, doanh nghiệp có thể nhanh chóng khắc phục sự cố và giải quyết vấn đề, từ đó giữ gìn hình ảnh tích cực trong mắt khách hàng Website là nền tảng lý tưởng để thu thập ý kiến khách hàng, vì đây là nơi họ thường xuyên truy cập và tương tác.

Tặng sản phẩm kèm theo và khuyến mại giá mua là phương pháp hiệu quả để thu hút phản hồi từ khách hàng Khách hàng thường thích nhận quà miễn phí, và nếu món quà có giá trị, họ sẽ càng hứng thú tham gia khảo sát.

Tùy thuộc vào lĩnh vực kinh doanh, các doanh nghiệp nên lựa chọn những món quà phù hợp để thu hút khách hàng Ví dụ, trong ngành mỹ phẩm, có thể tặng mẫu thử sản phẩm hoặc phiếu giảm giá, trong khi đối với ngành thực phẩm, các món quà có thể là sản phẩm dùng thử hoặc ưu đãi đặc biệt.

- Khảo sát dưới dạng pop-up:

Khi khách truy cập vào website, một pop-up sẽ xuất hiện để thu hút sự chú ý của họ, trong đó có thể nhúng khảo sát của doanh nghiệp Việc tạo khảo sát trở nên đơn giản trên nền tảng WordPress nhờ vào plugin WPForms, cho phép người dùng dễ dàng kéo và thả để hoàn thành Đây là một ưu điểm lớn của WordPress, giúp người dùng tạo các khảo sát và biểu mẫu một cách trực tiếp và tùy chỉnh theo nhu cầu, từ đó tiết kiệm thời gian và chi phí cho doanh nghiệp.

Letweb khuyến nghị sử dụng khảo sát pop-up ngắn gọn từ 1 đến 3 câu để khuyến khích người dùng cung cấp thông tin Chủ doanh nghiệp có thể kết hợp câu hỏi Yes/No với câu hỏi mở để tiết kiệm thời gian cho khách hàng.

Hình 2.1 Mẫu Pop-up được nhúng vào Website

Sử dụng chatbox trực tuyến trên website là phương thức hiệu quả để thu thập ý kiến khách hàng Theo nghiên cứu của Forrester Research, 44% người truy cập cho rằng website nên có khung chat với nhân viên trực để sẵn sàng giải đáp thắc mắc trong quá trình mua sắm.

Chat box là công cụ hiệu quả để thu thập ý kiến và phản hồi từ khách hàng, giúp doanh nghiệp nhận diện các vấn đề trong quá trình bán hàng Công cụ này cho phép chủ doanh nghiệp thực hiện khảo sát mức độ hài lòng của khách hàng sau khi trải nghiệm mua sắm Để đạt được hiệu quả tối ưu, cần đảm bảo nhân viên luôn trực tuyến 24/7 và sẵn sàng hỗ trợ, giải đáp mọi thắc mắc của khách hàng.

Ngoài việc yêu cầu nhân viên trực tuyến 24/7, doanh nghiệp nên tích hợp chatbot vào chat box Chatbot là chương trình máy tính tương tác với người dùng thông qua ngôn ngữ tự nhiên, giúp tạo ra giao diện đơn giản và thuận tiện Với hệ thống chatbot đã được cài đặt sẵn, chủ doanh nghiệp có thể dễ dàng thu thập ý kiến khách hàng bằng cách thiết lập các câu hỏi có sẵn.

Hình 2.2 Ứng dụng chat box được tích hợp trên Website

Chủ doanh nghiệp không chỉ cần thu thập bình luận từ khách hàng mà còn nên phân tích các số liệu trên trang web Việc này giúp họ xác định trang nào thu hút sự chú ý của khách hàng nhiều nhất và trang nào gặp lỗi, dẫn đến việc khách hàng rời bỏ trang.

Việc phân tích hành vi người dùng trên website giúp doanh nghiệp đánh giá toàn diện các vấn đề liên quan đến chất lượng sản phẩm, dịch vụ và trải nghiệm người dùng.

Hình 2.3 Hệ thống Google Analytics

Mô hình tổng thể bài toán phân loại bình luận khách hàng

Phân loại bình luận khách hàng về sản phẩm là việc quan trọng giúp doanh nghiệp đánh giá chất lượng sản phẩm và nhận diện vấn đề trên thị trường Qua việc phân loại này, doanh nghiệp có thể cải thiện chất lượng sản phẩm, thu hút khách hàng và tăng doanh thu hiệu quả.

Có nhiều phương pháp phân loại bình luận khách hàng khi đánh giá sản phẩm, trong đó phương pháp thủ công yêu cầu người kiểm duyệt đọc và tự xếp loại từng bình luận dựa trên nội dung Mặc dù đơn giản, phương pháp này tốn nhiều thời gian và chi phí, đặc biệt khi lượng đánh giá từ khách hàng ngày càng tăng Việc chỉ dựa vào nội dung của nhiều khách hàng có thể dẫn đến sai sót trong kết luận về sản phẩm Để hỗ trợ cho việc xây dựng chương trình thử nghiệm phân tích và xử lý dữ liệu Internet, luận văn sẽ trình bày một phương pháp tiếp cận dựa trên những lý thuyết đã nêu trong chương 1.

Các bước xây dựng phương pháp:

Để thu thập dữ liệu mạng, phương pháp Web Crawler là một lựa chọn hiệu quả Crawler, hay còn gọi là robot, bot, spider, worm, ant, là các công cụ tự động phân tích dữ liệu từ nguồn nội dung, bóc tách thông tin cần thiết theo tiêu chí lập trình Web Crawler có khả năng lấy thông tin từ website, trích xuất dữ liệu mà người sử dụng cần, và tự động truy cập vào các liên kết có trong trang web đó Gần đây, thuật ngữ Crawler đã trở nên phổ biến nhất trong lĩnh vực này.

Mô hình Crawler đơn giản:

+ Chọn URL khởi đầu: URL là địa chỉ trên Website tới những bình luận mà khách hàng đánh giá

+ Sử dụng HTML protocol để lấy trang Web

+ Trích xuất ra các link Lưu lại trong queue

+ Lặp đi lặp lại bước 2, 3

Hình 2.4 Mô hình Crawler đơn giản

Sau khi thu thập dữ liệu từ mạng bằng phương pháp Web Crawler, dữ liệu sẽ được lưu trữ trong cơ sở dữ liệu Từ đó, lập trình viên có thể sử dụng các thuật toán để trích xuất dữ liệu cần phân tích ra file CSV, giúp việc phân tích và xử lý dữ liệu trở nên thuận lợi hơn Luận văn sẽ phân loại sản phẩm thành hai lớp: sản phẩm tốt và sản phẩm chưa tốt.

Sử dụng các phương pháp thống kê để phân tích dữ liệu từ file CSV là một cách hiệu quả để hiểu phản hồi của khách hàng Bằng cách áp dụng phương pháp tần số xuất hiện, người phân tích có thể đếm số lần xuất hiện của những bình luận tích cực và tiêu cực về sản phẩm Dựa vào kết quả này, sản phẩm sẽ được phân loại vào các nhóm khác nhau Cuối cùng, chuyên gia phân tích sẽ trình bày báo cáo cho doanh nghiệp, giúp họ điều chỉnh sản phẩm một cách phù hợp để nâng cao chất lượng và sự hài lòng của khách hàng.

Kỹ sư máy tính sẽ phát triển một chương trình phân loại bình luận khách hàng, sử dụng vòng lặp để kiểm tra từng bình luận Chương trình sẽ có hai biến đếm đại diện cho hai lớp phân loại: tốt và xấu Mỗi khi một bình luận được đánh giá là tốt, biến đếm tốt sẽ tăng lên, tương tự cho bình luận xấu Để máy tính phân biệt được bình luận nào là tốt hay xấu, cần áp dụng các kỹ thuật đã đề cập trong chương 1 hoặc các phương pháp học máy sẽ được giới thiệu trong chương sau.

Trong luận văn này, để phân loại bình luận khách hàng, em sử dụng phương pháp máy vector hỗ trợ như mô tả ở phần sau.

XÂY DỰNG CHƯƠNG TRÌNH THỰC NGHIỆM

Đề xuất giải pháp

Với sự phát triển của công nghệ Web, nhiều doanh nghiệp đã chuyển từ cung ứng sản phẩm truyền thống sang bán hàng trực tuyến, giúp người mua tiết kiệm chi phí và thời gian, đồng thời có nhiều lựa chọn hơn chỉ với thiết bị kết nối Internet Bán hàng online cho phép chủ kinh doanh nhận phản hồi ngay lập tức từ khách hàng, từ đó nắm bắt thị hiếu người tiêu dùng và cải thiện dịch vụ chăm sóc khách hàng Hơn nữa, khách hàng có thể nhanh chóng cập nhật thông tin khuyến mãi, tạo cơ hội cho doanh nghiệp tăng doanh thu thông qua các chương trình tri ân khách hàng hiệu quả.

Việc mua sắm trực tuyến tiềm ẩn nhiều rủi ro, đặc biệt là khi người tiêu dùng không thể kiểm tra chất lượng sản phẩm trước khi thanh toán Nhiều tổ chức lợi dụng nền tảng này để lừa đảo, cung cấp hàng hóa không đúng yêu cầu Khách hàng thường lo lắng về nguồn gốc sản phẩm, vì họ chỉ thấy hình ảnh đại diện của người bán Hơn nữa, vấn đề bảo mật trực tuyến và nguy cơ mất thông tin cá nhân cũng khiến họ cảm thấy bất an khi mua sắm Do đó, tâm lý lo ngại về rủi ro thường chiếm ưu thế hơn so với lợi ích mà họ có thể nhận được.

Trong bối cảnh hiện nay, sự phát triển mạnh mẽ của các trang thương mại điện tử đã khiến việc lựa chọn sản phẩm trở nên khó khăn hơn bao giờ hết Người tiêu dùng thường dựa vào các bình luận của khách hàng trước đó để đánh giá chất lượng sản phẩm, nhưng việc đọc từng bình luận tốn nhiều thời gian và có thể làm mất cơ hội mua hàng khi khuyến mãi không kéo dài Để giải quyết vấn đề này, phần mềm đánh giá sản phẩm đã được phát triển, sử dụng công nghệ xử lý ngôn ngữ tự nhiên và thuật toán học máy để phân tích các bình luận Các bình luận sẽ được thu thập và chuyển đổi thành các vector thông qua thuật toán mã hóa, sau đó áp dụng thuật toán SVM để phân loại Sản phẩm được coi là tốt khi các bình luận tích cực chiếm ưu thế, trong khi sản phẩm kém chất lượng sẽ bị đánh giá thấp Giải pháp này không chỉ giúp khách hàng lựa chọn sản phẩm tốt mà còn loại bỏ những doanh nghiệp thiếu uy tín.

Việc mã hóa bình luận sẽ được thực hiện bằng cách đánh trọng số cho các từ thể hiện thái độ và cảm xúc của khách hàng đối với sản phẩm đã mua Mỗi bình luận sẽ được phân loại là tích cực hoặc tiêu cực, từ đó hệ thống sẽ dựa vào tổng số lượng bình luận để đưa ra kết luận về việc sản phẩm có nên mua hay không.

Xác định xem sản phẩm thuộc nhóm mua hay không nên mua dựa trên bình luận của khách hàng

- Tổng quan về dữ liệu:

Dữ liệu huấn luyện được thu thập từ các trang thương mại điện tử lớn như Lazada và Shopee, với những đặc điểm phù hợp cho mô hình học máy Các trang này là nguồn dữ liệu lớn, thu hút hàng triệu khách hàng mỗi ngày và tạo ra vô số bình luận Tuy nhiên, việc chuẩn hóa dữ liệu là thách thức lớn, do mỗi người dùng có cách diễn đạt và từ ngữ riêng, dẫn đến sự xuất hiện của từ viết tắt, từ lóng và hashtag Hơn nữa, thông tin trong các bình luận thường bị nhiễu, như ví dụ của bình luận "Chiếc váy này màu gì", không thể phân loại thành tích cực hay tiêu cực.

Lazada hiện có hàng triệu bình luận với tần suất truy cập đa dạng, phản ánh sự phong phú của nhiều loại mặt hàng Trung bình, mỗi sản phẩm đăng tải nhận hàng trăm bình luận, trong đó không ít bình luận không có ý nghĩa Do đó, dữ liệu từ các trang bán hàng trở thành nguồn tài nguyên quý giá cho việc phát hiện chất lượng sản phẩm.

Hình 3.1 Bộ dữ liệu về các câu bình luận trong tiếng Việt

Bộ dữ liệu mẫu tiếng Việt được tăng cường bao gồm 16.087 câu bình luận đã được gán nhãn cho bộ training và 10.981 câu bình luận cho bộ testing.

Là các bình luận được gán nhãn 0, ví dụ: Sản phẩm đẹp quá

Là các bình luận được gán nhãn 1, ví dụ: Sản phẩm quá tệ,…

Có thể thay đổi nhãn là 0 và 1 ngược lại.

Xây d ự ng mô hình

Trong bài viết này, chúng tôi sẽ phát triển một mô hình học máy kết hợp giữa Tfidf và SVM nhằm phân loại bình luận sản phẩm trên các trang web thương mại điện tử Mô hình này được thực hiện qua bốn bước chính, giúp cải thiện hiệu quả trong việc phân tích ý kiến khách hàng.

- Bước 1: Thu thập dữ liệu

- Bước 2: Tiền xử lý dữ liệu

- Bước 4: Gán nhãn và huấn luyện dữ liệu

Mô hình học máy kết hợp giữa Tfidf và SVM yêu cầu quá trình thu thập dữ liệu bình luận sản phẩm thông qua crawler, sử dụng đường dẫn sản phẩm trên hệ thống thương mại điện tử Phương pháp phổ biến hiện nay là dựa vào giá trị các thẻ HTML Quá trình thu thập diễn ra qua ba bước: đầu tiên, gửi yêu cầu HTTP để lấy trang dưới dạng document; thứ hai, trích xuất các đường dẫn để lấy thông tin; và cuối cùng, thu thập dữ liệu dựa trên DOM đã tìm được Ví dụ dưới đây sẽ minh họa cách thu thập dữ liệu từ giá trị của các thẻ HTML.

Dữ liệu 1 Dữ liệu 2 Dữ liệu n

Bình luận 1 Bình luận 2 Bình luận n Gán nhãn

Để lấy dữ liệu từ thẻ

  • nằm trong thẻ
      có class = "list", bạn cần bắt đầu từ thẻ
        đó Lưu ý rằng có thể có hai thẻ khác nhau trong cấu trúc này.

        Hình 3.3 Cấu trúc HTML trên website

        Hình 3.4 Thu thập dữ liệu Website từ các thẻ HTML

        Nhận thấy dữ liệu cần nằm trong

          thứ 2 nên sử dụng đoạn mã sau để chuyển vào thành phần thứ 2:

          Khi sử dụng lệnh này, bạn có thể truy xuất các thành phần trong thẻ

            Tương tự, bằng cách vào từng thành phần, bạn sẽ lấy được các liên kết thông qua thẻ và thuộc tính href, từ đó thu thập toàn bộ dữ liệu từ tất cả các liên kết đã nhận được.

            Elements list_a = e.getElementsByTag("a"); for (Element a : list_a) {

            Kiểm tra tương tự thông qua các liên kết để truy cập vào từng trang, từ đó chúng ta sẽ phân tích các phần tử nhằm xác định xem liệu chúng ta đã thu thập được dữ liệu mong muốn hay chưa.

            Sau khi xử lý dữ liệu được thu thập từ website Lazada, bước tiếp theo là xóa các dấu câu, đây là một phần quan trọng trong tiền xử lý giúp tăng độ chính xác cho mô hình Ngay sau đó, chúng tôi sẽ thực hiện việc gán nhãn cho các bình luận trong tập huấn luyện.

            Hình 3.5 Gán nhãn cho các bình luận trong tập huấn luyện

            Quá trình tách từ và cụm từ dựa vào từ điển là kỹ thuật tiền xử lý quan trọng trong xử lý ngôn ngữ tự nhiên, giúp xác định ranh giới các từ trong văn bản Trong tiếng Việt, sự tồn tại của từ đơn và từ ghép làm cho việc tách từ tự động trở nên khó khăn, ảnh hưởng đến kết quả phân tích dữ liệu văn bản như gom nhóm và phân lớp Có hai phương pháp chính để tách từ: dựa trên từ điển và thống kê, hoặc kết hợp cả hai Trong phân lớp văn bản, tách từ chỉ là bước tiền xử lý, tiếp theo là sử dụng mô hình máy học để huấn luyện bộ phân lớp Một số mô hình như máy học véc-tơ hỗ trợ (SVM) và phân tích thành phần chính có thể phát hiện từ ghép thông qua sự đồng xuất hiện của các âm tiết mà không cần tách từ chính xác.

            Bước đầu tiên trong phân lớp văn bản là chuyển đổi văn bản từ chuỗi ký tự sang dạng phù hợp với các thuật toán học máy Dữ liệu văn bản thường không có cấu trúc và có độ dài khác nhau, trong khi nhiều thuật toán yêu cầu dữ liệu huấn luyện phải có cấu trúc đồng nhất Nghiên cứu cho thấy thứ tự từ trong văn bản không quan trọng lắm đối với nhiều bài toán phân tích dữ liệu văn bản, dẫn đến việc mô hình túi từ trở nên phổ biến Theo mô hình này, mỗi từ khác nhau trong văn bản là một đặc trưng, và tần số xuất hiện của nó là giá trị tương ứng Quá trình trích đặc trưng bao gồm tách từ và đếm tần suất xuất hiện, từ đó văn bản được biểu diễn dưới dạng véc-tơ tần số Bước tiếp theo là huấn luyện mô hình học tự động từ bảng dữ liệu này, với các thuật toán máy học phổ biến như k-NN, naive Bayes, cây quyết định và máy học véc-tơ hỗ trợ.

            Thuật toán mô hình bao gồm Boosting (Freund & Schapire, 1995), Rừng ngẫu nhiên (Breiman, 2001) và các nghiên cứu về máy học trước đây của Phạm et al (2006, 2008) và Đỗ & Phạm (2012) đã đóng góp quan trọng vào lĩnh vực này.

            Năm 2013, các nhà nghiên cứu đã đề xuất các thuật toán máy học dựa trên tập hợp mô hình, bao gồm máy học véc-tơ hỗ trợ và naive Bayes, nhằm phân lớp hiệu quả các tập dữ liệu có số chiều lớn, như biểu diễn văn bản thông qua mô hình túi từ.

            Phương pháp túi từ (Bag of Words - BoW) là một thuật toán trong xử lý ngôn ngữ tự nhiên, nhằm phân loại văn bản bằng cách phân tích và nhóm dựa trên tập hợp từ Khi sử dụng dữ liệu kiểm tra mới, BoW xác định tần suất xuất hiện của từng từ trong "bag" Tuy nhiên, BoW có một số hạn chế, do đó, phương pháp TF-IDF đã được phát triển để khắc phục Sự kết hợp giữa BoW và TF-IDF có thể được áp dụng trong nhiều lĩnh vực như tìm kiếm, phân loại tài liệu, lọc email spam và xác định ý định của người dùng.

            Hình 3.6 Thực hiện tách từ và cụm từ của dữ liệu dựa vào từđiển

            Sau khi tách từ bằng từ điển, các câu bình luận trong dữ liệu được vector hóa thông qua phương pháp TF-IDF (tần suất xuất hiện của từ - tần suất ngược của tài liệu).

            TF-IDF là phương pháp thống kê giúp xác định độ quan trọng của từ ngữ trong văn bản giữa nhiều tài liệu khác nhau Trong bài viết này, TF-IDF được áp dụng để chuyển đổi văn bản bình luận sản phẩm từ định dạng văn bản sang không gian vector.

            - TF(Term Frequency): là tần suất xuất hiện của các từ trong văn bản Công thức tính TF:

            𝑡𝑓 (𝑡) = 𝑓 (𝑡,𝑑) 𝑇 Trong đó: 𝑡 là 1 từcó trong đoạn văn.

            𝑓 (𝑡,𝑑) là số lần xuất hiện của từ t trong văn bản

            𝑇 là số từ có trong văn bản

            - IDF (Inverse Document Frequency): Là độ quan trọng của 1 từ trong văn bản Độ quan trọng này được tính qua công thức:

            Trong đó : 𝑁 là sốđoạn văn bản

            |𝑡 ∈ 𝐷: 𝑡 ∈ 𝑑| là sốvăn bản chưa từ t

            - TF- IDF được tính bởi:

            Để áp dụng TF-IDF trong nghiên cứu, ta sử dụng TfidfVectorizer từ thư viện scikit-learn Sau khi thực hiện word2vec thông qua TF-IDF, các vector sẽ được chuyển đổi để chuẩn hóa dữ liệu.

            Trong lĩnh vực phân loại, có nhiều thuật toán như logistic regression, softmax, naive bayes, random forest và SVM Tuy nhiên, trong trường hợp này, số chiều của mỗi vector sau khi trích xuất bằng Tfidf rất lớn (lên đến 100000) nhưng chỉ có 2 lớp Với tình huống này, SVM cho thấy hiệu quả vượt trội hơn so với các thuật toán khác.

            Kết quả thử nghiệm

            3.3.1 Đánh giá dựa trên độ chính xác

            Sau khi thực hiện chia dữ liệu thành 5 phần và áp dụng f1_score để đánh giá mô hình, kết quả cho thấy mô hình đạt f1_score là 90,008% trên tập dữ liệu kiểm tra, điều này cho thấy hiệu suất của mô hình là khá tốt.

            3.3.2 Tri ể n khai d ự án trên website th ự c ti ễ n

            Truy cập vào Website thương mại điện tử Lazada, vào mục sản phẩm và xem chi tiết về sản phẩm đó

            Hình 3.8 Giao diện chi tiết sản phẩm của Lazada

            Sau khi vào phần chi tiết sản phẩm, lựa chọn đường dẫn sản phầm và sao chép đường dẫn đó vào phần mềm đánh giá

            Hình 3.9 Giao diện chức năng phần mềm đánh giá sản phẩm

            Phần mềm phân tích sản phẩm trên Lazada hoạt động bằng cách sao chép đường dẫn URL sản phẩm và thu thập tất cả các bình luận từ trang đó Sau khi thu thập, các bình luận sẽ được mã hóa và phân tích bằng thuật toán SVM Kết quả phân tích sẽ được hiển thị trong ô Recommend, ví dụ như với sản phẩm dung dịch làm sạch Trusted Cleaning Power giá 48.000 VNĐ, phần mềm đưa ra đánh giá “Good! You can buy it!” Độ chính xác của phần mềm được cải thiện nhờ vào việc thu thập và huấn luyện trên một lượng lớn dữ liệu, với dữ liệu được lưu trữ trong file CSV để thuận tiện cho quá trình phân tích.

            Hình 3.10 Dữ liệu bình luận tích cực thu thập trong file data.csv

  • Ngày đăng: 04/08/2021, 20:00

    Nguồn tham khảo

    Tài liệu tham khảo Loại Chi tiết
    [8] Le An Ha, 2003. A method for word segmentation Vietnamese. Proceddings of Corpus Linguistics 2003, Lancaster, UK Sách, tạp chí
    Tiêu đề: method for word segmentation Vietnamese
    [1] Nguyễn Đức Cường, Tổng quan về khai phá dữ liệu, Kỷ yếu Hội nghị Khoa học & Công nghệ lần thứ 9, ĐH Bách Khoa Tp. HCM Khác
    [3] T. Mitchell, Machine Learning and Data Mining, Communications of the ACM, Vol. 42 (1999), No. 11, pp. 30--36 Khác
    [4] U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth and R. Uthurusamy: Advances in Knowledge Discovery and Data Mining, AAAI Press, Menlo Park, CA, (1996) Khác
    [5] J. Han and M. Kamber: Data Mining: Concepts and Techniques, Morgan Kauf- mann, San Francisco, CA, (2000) Khác
    [6] D. Hand, H. Mannila and P. Smyth: Principles of Data Mining, The MIT Press, London, England, (2001) Khác
    [7] M. Kantardzic: Data Mining: Concepts, Models, Method, and Algorithms, John Wiley & Sons, New York, NY, (2003) Khác

    TỪ KHÓA LIÊN QUAN

    TÀI LIỆU CÙNG NGƯỜI DÙNG

    TÀI LIỆU LIÊN QUAN

    w