1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(LUẬN văn THẠC sĩ) phân tích quan điểm dựa theo khía cạnh và ứng dụng xác định sở thích của du khách về sản phẩm du lịch

52 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Tích Quan Điểm Dựa Theo Khía Cạnh Và Ứng Dụng Xác Định Sở Thích Của Du Khách Về Sản Phẩm Du Lịch
Tác giả Nguyễn Ngọc Thạch
Người hướng dẫn TS. Lê Quang Hùng
Trường học Trường Đại Học Quy Nhơn
Chuyên ngành Khoa Học Máy Tính
Thể loại Luận Văn Thạc Sĩ
Năm xuất bản 2020
Thành phố Bình Định
Định dạng
Số trang 52
Dung lượng 644,75 KB

Cấu trúc

  • Lời cam đoan

  • Lời cảm ơn

  • Tóm tắt

  • Danh mục các chữ viết tắt

  • Danh mục các hình vẽ

  • Danh mục các bảng

  • Mở đầu

  • 1 Tổng quan

    • 1.1 Phân tích quan điểm

      • 1.1.1 Giới thiệu

      • 1.1.2 Một số khái niệm

      • 1.1.3 Một số bài toán trong phân tích quan điểm

        • 1.1.3.1 Tổng quan một hệ thống phân tích quan điểm

        • 1.1.3.2 Phân lớp quan điểm

        • 1.1.3.3 Phân tích và tổng hợp quan điểm dựa trên đặc trưng

        • 1.1.3.4 Phân tích quan điểm so sánh

      • 1.1.4 Ứng dụng của phân tích quan điểm

      • 1.1.5 Những khó khăn trong lĩnh vực phân tích quan điểm

      • 1.1.6 Hướng tiếp cận phân tích quan điểm

    • 1.2 Phân tích quan điểm theo khía cạnh

      • 1.2.1 Bài toán phân tích quan điểm theo khía cạnh

      • 1.2.2 Cách tiếp cận giải quyết bài toán

      • 1.2.3 Nghiên cứu liên quan

    • 1.3 Tổng kết chương 1

  • 2 Xác định sở thích của du khách về sản phẩm du lịch dựa trên phân tích quan điểm theo khía cạnh

    • 2.1 Phát biểu bài toán

    • 2.2 Xác định sở thích của du khách về sản phẩm du lịch

      • 2.2.1 Tiền xử lí dữ liệu

      • 2.2.2 Rút trích khía cạnh

      • 2.2.3 Phân lớp quan điểm dựa trên khía cạnh

      • 2.2.4 Dự đoán xếp hạng theo khía cạnh

    • 2.3 Tổng kết chương 2

  • 3 Thực nghiệm

    • 3.1 Cài đặt thực nghiệm

      • 3.1.1 Dữ liệu thực nghiệm

      • 3.1.2 Công cụ thực nghiệm

      • 3.1.3 Các bước tiến hành

      • 3.1.4 Độ đo

    • 3.2 Kết quả thực nghiệm

    • 3.3 Đánh giá

  • Kết luận

Nội dung

Phân tích quan điểm

Giới thiệu

Thông tin văn bản có thể được phân loại thành hai loại chính: sự kiện và quan điểm Sự kiện là những thông tin khách quan phản ánh thực tế, chẳng hạn như "Hôm qua, tôi đã đến một khách sạn" Ngược lại, quan điểm là những ý kiến chủ quan thể hiện đánh giá và cảm xúc của con người, ví dụ như "Khách sạn này có thiết kế rất đẹp".

Quan điểm đóng vai trò quan trọng trong việc ra quyết định, vì khi đối mặt với một vấn đề, chúng ta thường tự hỏi “Mọi người nghĩ gì về vấn đề này?” Ví dụ, khi bạn muốn đặt phòng khách sạn cho chuyến du lịch, bạn sẽ tham khảo ý kiến từ bạn bè.

Ý kiến phản hồi của khách hàng về sản phẩm và dịch vụ trực tuyến là nguồn thông tin quan trọng cho doanh nghiệp, giúp họ nhận diện điểm mạnh và điểm yếu của mình Những phản hồi này không chỉ giúp doanh nghiệp hiểu rõ tâm lý và nhu cầu của khách hàng mà còn hỗ trợ trong việc cải thiện chất lượng sản phẩm và dịch vụ Tuy nhiên, với lượng ý kiến lớn và liên tục cập nhật, cần thiết phải xây dựng một hệ thống tự động để phân tích và xử lý những quan điểm này hiệu quả hơn.

Phân tích quan điểm là công cụ quan trọng giúp các công ty hiểu được ý kiến của một bộ phận người quan tâm, từ đó xây dựng chiến lược phát triển hiệu quả Nghiên cứu của BoPang và Lillian Lee vào năm 2006 cho thấy 27% thanh niên Mỹ sử dụng Internet để tìm kiếm thông tin, 28% tham gia hoạt động cộng đồng trực tuyến, 28% chia sẻ quan điểm và 8% bình luận chính trị, cho thấy nhu cầu lớn về việc chia sẻ ý kiến trên mạng Tại Việt Nam, theo thống kê của VNNIC, đến năm 2015, 44% dân số sử dụng Internet, mở ra cơ hội phong phú cho việc phân tích quan điểm.

Sự phát triển của mạng xã hội đã dẫn đến việc gia tăng thông tin cá nhân và quan điểm cá nhân được chia sẻ trên Internet, tạo ra một kho dữ liệu phong phú cho việc phân tích và tổng hợp ý kiến Mặc dù điều này mang lại lợi thế trong việc khai thác thông tin, nhưng cũng đặt ra thách thức không nhỏ cho việc phân tích quan điểm.

Hình 1.1: Minh họa nhận xét của người dùng

Một số khái niệm

Đối tượng là thực thể được đánh giá, bao gồm người, sản phẩm, sự kiện hoặc chủ đề Mỗi đối tượng sở hữu một tập hợp các thành phần và thuộc tính, được gọi là đặc trưng Các thành phần hoặc thuộc tính này có thể chia nhỏ thành các thành phần con hoặc thuộc tính con Do đó, một đối tượng O có thể được biểu diễn thông qua một cặp (T, A).

– T là cấu trúc phân cấp thành phần cha – thành phần con;

– Alà tập các thuộc tính của đối tượng O.

Một khách sạn được cấu thành từ nhiều yếu tố như giá phòng, loại phòng, vị trí và đội ngũ nhân viên Mỗi yếu tố này có những thuộc tính riêng, chẳng hạn như giá phòng có thể được phân loại là đắt hoặc rẻ, trong khi các yếu tố khác có thể được mô tả là đẹp, xấu hoặc thân thiện.

Trong mỗi đánh giá, có một tập hợp các câu d = {s1, s2, , sn} Nếu một đặc trưng f xuất hiện trong tập hợp này, nó được gọi là đặc trưng hiện (explicit feature) Ngược lại, nếu f không xuất hiện, thì nó được xem là đặc trưng ẩn (implicit feature).

Dịch vụ khách sạn này có mức giá cao, thể hiện đặc trưng hiện tại của dịch vụ Trong khi đó, phòng khách sạn lại có kích cỡ nhỏ, cho thấy đặc trưng ẩn về không gian.

Quan điểm hiện và quan điểm ẩn là hai khái niệm quan trọng trong việc diễn đạt ý kiến Quan điểm hiện (explicit opinion) là ý kiến rõ ràng về một đặc trưng nào đó, thể hiện trực tiếp sự đánh giá tích cực hoặc tiêu cực của tác giả, ví dụ như “Khách sạn này rất đẹp” Ngược lại, quan điểm ẩn (implicit opinion) thể hiện sự đánh giá một cách không rõ ràng, thường mang tính hàm ý, như câu “Khách sạn này không được đẹp cho lắm” Việc phân biệt giữa hai loại quan điểm này giúp người đọc hiểu sâu hơn về ý kiến của tác giả.

Người đánh giá là cá nhân hoặc tổ chức cung cấp ý kiến, trong đó du khách được xem là người đánh giá sản phẩm du lịch Đoạn đánh giá về một đặc trưng của đối tượng là tập hợp các câu thể hiện quan điểm tích cực hoặc tiêu cực về đặc trưng đó Mỗi đoạn đánh giá ít nhất phải có một câu, và hầu hết các nghiên cứu hiện nay tập trung vào từng câu, coi đoạn và câu là tương đương trong ngữ nghĩa.

Một số bài toán trong phân tích quan điểm

1.1.3.1 Tổng quan một hệ thống phân tích quan điểm

Hiện nay, nhiều hệ thống phân tích quan điểm đã được phát triển để làm việc với các miền dữ liệu khác nhau, chẳng hạn như hệ thống SMCC của công ty InfoRe chuyên về dữ liệu sản phẩm điện thoại di động và hệ thống Vsocial của Tecapro tập trung vào dữ liệu ngân hàng Mô hình kiến trúc chung của các hệ thống này được thể hiện rõ trong hình ảnh minh họa Các nguồn dữ liệu chính để phân tích quan điểm bao gồm đánh giá của người dùng từ các nền tảng như Amazon, Tripadvisor, Youtube và thegioididong Các hệ thống này có những thành phần cốt lõi để xử lý và phân tích thông tin từ những nguồn dữ liệu này.

Thu thập (crawler): thành phần tự động lấy dữ liệu đánh giá của người dùng từ các hệ thống trực tuyến Web.

Tiền xử lý dữ liệu là bước quan trọng trong quy trình xử lý thông tin, bao gồm các công việc như loại bỏ từ dừng, chuẩn hóa từ và dấu cách, cũng như tách từ để nâng cao chất lượng dữ liệu.

Feature extraction, also known as data representation, involves utilizing text representation techniques, such as the bag of words model, to convert input texts into feature vectors.

Hình 1.2: Kiến trúc tổng quan hệ thống phân tích quan điểm theo hướng tiếp cận học máy

Học máy bao gồm hai giai đoạn chính: huấn luyện và dự đoán Trong giai đoạn huấn luyện, mô hình học từ tập dữ liệu huấn luyện để phát triển khả năng dự đoán Giai đoạn dự đoán sẽ sử dụng mô hình đã học để phân loại quan điểm từ các vector biểu diễn văn bản đầu vào.

Hình 1.3: Đánh giá về khách sạn Avani Quy Nhơn trên trang Tripadvisor.com.vn

Phân tích quan điểm có thể được xem như một dạng bài toán phân lớp văn bản, trong đó mục tiêu là xác định cảm xúc tích cực hoặc tiêu cực từ các nhận xét Ví dụ, khi đánh giá sản phẩm, hệ thống sẽ phân loại nhận xét là tốt hay xấu Thông thường, phân lớp này diễn ra ở mức tài liệu, nghĩa là thông tin thu thập được không đi sâu vào chi tiết những gì người dùng thích hay không thích Mặc dù bài toán phân lớp quan điểm và bài toán phân lớp văn bản có nhiều điểm tương đồng, nhưng vẫn tồn tại một số khác biệt quan trọng giữa chúng.

Sự khác biệt chính trong bài toán phân lớp văn bản là việc phân loại theo chủ đề cụ thể như chính trị, thể thao, ca nhạc, hội họa, trong khi đó, bài toán phân lớp các quan điểm được chia thành hai nhóm rõ ràng: tích cực và tiêu cực.

Khác biệt quan trọng giữa phân lớp văn bản và phân lớp quan điểm là trong phân lớp văn bản, các từ khóa liên quan đến chủ đề đóng vai trò chủ chốt, trong khi đó, trong phân lớp quan điểm, các từ khóa thể hiện cảm xúc và quan điểm lại là yếu tố quyết định.

1.1.3.3 Phân tích và tổng hợp quan điểm dựa trên đặc trưng

Bài toán phân tích cảm xúc tập trung vào việc phát hiện các khía cạnh của đối tượng mà người đánh giá yêu thích hoặc không yêu thích Đối tượng có thể là sản phẩm, dịch vụ, chủ đề, cá nhân hoặc tổ chức Chẳng hạn, trong một bài đánh giá sản phẩm, nhiệm vụ là xác định các đặc điểm mà người dùng bình luận và phân loại ý kiến thành tích cực hoặc tiêu cực Ví dụ, khi người dùng nói: “Giá phòng của khách sạn này quá đắt”, họ đang đánh giá “Giá phòng” với ý kiến tiêu cực Kết quả của bài toán sẽ cung cấp một cái nhìn tổng quan về quan điểm liên quan đến đối tượng được đề cập.

1.1.3.4 Phân tích quan điểm so sánh

Trong việc đánh giá đối tượng, bên cạnh việc đưa ra nhận xét trực tiếp, còn có phương pháp so sánh với một đối tượng khác, ví dụ như so sánh giữa hai khách sạn Trong bài viết này, chúng tôi tập trung vào việc phân lớp quan điểm, coi đây là quá trình phân lớp văn bản, trong đó mỗi văn bản thể hiện một quan điểm cụ thể Các quan điểm sẽ được phân loại thành hai lớp chính: tích cực và tiêu cực, trong khi lớp trung lập sẽ không được xem xét, vì chúng không ảnh hưởng đến kết quả tổng hợp quan điểm.

Ứng dụng của phân tích quan điểm

"Những gì người khác nghĩ" luôn đóng vai trò quan trọng trong quá trình ra quyết định của chúng ta Trước thời đại Internet, chúng ta thường hỏi ý kiến bạn bè và người thân nhưng chỉ nhận được ít thông tin và hiệu quả không cao Hiện nay, việc truy cập đánh giá khách hàng về sản phẩm và dịch vụ trở nên dễ dàng hơn Khách hàng ngày càng tìm kiếm sự tin cậy trong các lời khuyên trực tuyến, do đó, nhu cầu về một hệ thống ứng dụng hỗ trợ người tiêu dùng trong việc tìm kiếm thông tin là rất cần thiết cho cả khách hàng và doanh nghiệp.

Nghiên cứu thị trường là công cụ thiết yếu cho cả người mua và người bán Khi mua sắm, người tiêu dùng thường băn khoăn về sự phù hợp của sản phẩm, chất lượng dịch vụ khách hàng, giá cả và chất lượng sản phẩm Những đánh giá từ người dùng trước đó trở thành nguồn thông tin quý giá Đối với những người mới bắt đầu kinh doanh, việc tìm hiểu sản phẩm nào đang được ưa chuộng, hình thức kinh doanh nào hợp lý và khu vực nào mang lại lợi nhuận cao là rất quan trọng Đánh giá của khách hàng sẽ là hỗ trợ đắc lực cho họ trong quá trình ra quyết định.

Cải thiện chất lượng sản phẩm và dịch vụ là điều cần thiết; các nhà sản xuất nên lắng nghe ý kiến của người dùng để điều chỉnh các tính năng theo hướng tích cực, nhằm đáp ứng tốt hơn nhu cầu của khách hàng.

Hệ thống gợi ý có thể được cải thiện đáng kể thông qua việc áp dụng phân tích quan điểm, giúp nâng cao chất lượng các khuyến cáo sản phẩm Bằng cách này, hệ thống có khả năng đưa ra những gợi ý phù hợp nhất với sở thích của người dùng, từ đó gia tăng khả năng quan tâm và tương tác của họ Việc áp dụng phân tích quan điểm không chỉ tối ưu hóa trải nghiệm người dùng mà còn góp phần tăng lợi nhuận cho doanh nghiệp.

Hỗ trợ thông minh trong chính quyền là ứng dụng hữu ích cho các chính trị gia, giúp họ thu thập ý kiến của nhân dân về các dự luật và đánh giá phản ứng của công chúng Điều này đặc biệt quan trọng trong các cuộc bầu cử tổng thống và thủ tướng, khi mà ý kiến của người dân có ảnh hưởng lớn đến kết quả bầu cử.

Xác định sở thích của du khách đối với các sản phẩm du lịch như nhà hàng và khách sạn là rất quan trọng để phát triển các chiến lược kinh doanh hiệu quả Điều này không chỉ giúp cải thiện dịch vụ khách hàng mà còn góp phần tăng doanh thu cho các doanh nghiệp trong ngành du lịch.

Những khó khăn trong lĩnh vực phân tích quan điểm

Mỗi người có một phong cách viết riêng, thể hiện qua việc sử dụng ngôn ngữ, chữ viết tắt và cách diễn đạt ý kiến Sự đa dạng trong cách bày tỏ quan điểm cho thấy rằng không ai viết giống ai, tạo nên sự phong phú trong giao tiếp.

Quan điểm thay đổi theo thời gian là một thách thức quan trọng, vì sản phẩm có thể không còn là lựa chọn tốt nhất sau vài năm do sự xuất hiện của các sản phẩm mới với giá cả và chất lượng tốt hơn Đồng thời, một số sản phẩm ban đầu có thể không được đánh giá cao nhưng lại trở nên phổ biến hơn sau quá trình cải thiện Độ mạnh của quan điểm cũng cần được xác định, với nhiều nỗ lực nhằm phân tích các yếu tố quyết định sức mạnh của ý kiến Việc phân lớp từ ngữ theo mức độ xu hướng quan điểm, như “rất”, “một chút”, hay “hơi”, có thể giúp xác định độ mạnh của quan điểm; ví dụ, “rất hài lòng” được xem là rất tích cực, trong khi “hơi hài lòng” lại mang tính kém tích cực.

Quan điểm theo ngữ cảnh là một khía cạnh quan trọng trong phân tích ý kiến, vì việc phân loại một quan điểm thành tích cực, tiêu cực hoặc trung lập có thể gặp khó khăn Một từ có thể được xem là tích cực trong một tình huống nhất định, nhưng lại mang ý nghĩa tiêu cực trong những bối cảnh khác.

Một quan điểm về sản phẩm hoặc tính năng sản phẩm có thể dẫn đến sự hiểu lầm trong hệ thống phân tích quan điểm Ví dụ, từ

Khách sạn tọa lạc bên một bãi biển dài và thơ mộng, tạo nên một khung cảnh tuyệt đẹp và thu hút du khách Tuy nhiên, nếu từ "dài" được sử dụng theo cách khác, ý nghĩa có thể thay đổi.

“thời gian làm thủ tục (Check in)nhận phòng dài”, nó sẽ được coi là một ý kiến tiêu cực.

Phân tích quan điểm gặp khó khăn khi mọi người kết hợp đánh giá tích cực và tiêu cực trong cùng một câu Những câu đánh giá pha trộn này thể hiện sự đa dạng ý kiến và có thể gây trở ngại cho việc phân tích cú pháp.

Quan điểm châm biếm và mỉa mai thường xuất hiện trong văn bản, thể hiện sự trái ngược giữa nội dung và hình thức Một quan điểm tiêu cực có thể được trình bày dưới dạng tích cực, gây khó khăn trong việc phân tích Ví dụ, câu "Dịch vụ khách sạn tuyệt vời thế này mà anh cũng khuyên tôi ở lại" mang hàm ý châm biếm, khác biệt rõ rệt so với câu "Dịch vụ khách sạn này rất tuyệt vời".

Xử lý ngôn ngữ tự nhiên trong các ý kiến trên mạng xã hội là một thách thức lớn do người dùng thường viết theo cách tự nhiên, sử dụng ngôn ngữ riêng, viết tắt và biểu tượng cảm xúc Mỗi cá nhân có phong cách viết khác nhau, dẫn đến các câu đánh giá thường ở dạng bán cấu trúc Để trích xuất thông tin hữu ích từ những dữ liệu này, cần phải xử lý ngôn ngữ không chính thức và không tuân theo quy tắc ngữ pháp của người tiêu dùng, điều này làm cho việc phân tích ý kiến đánh giá trở nên phức tạp.

Hướng tiếp cận phân tích quan điểm

Các kỹ thuật phân tích quan điểm được phân loại thành ba loại chính: phương pháp học máy, phương pháp dựa trên từ vựng và phương pháp lai Phương pháp học máy sử dụng các thuật toán nổi tiếng và đặc trưng ngôn ngữ để phân tích Trong khi đó, phương pháp dựa trên từ vựng dựa vào từ điển cảm xúc và được chia thành hai loại: cách tiếp cận dựa trên từ điển và cách tiếp cận dựa trên tập ngữ liệu, sử dụng phương pháp ngữ nghĩa hoặc thống kê để xác định cực quan điểm Cuối cùng, phương pháp lai kết hợp cả hai cách tiếp cận học máy và từ vựng để nâng cao hiệu quả phân tích.

Các phương pháp phân loại văn bản trong học máy được chia thành hai loại chính: học có giám sát và học không giám sát Học có giám sát yêu cầu một lượng lớn tài liệu huấn luyện đã được gán nhãn, trong khi học không giám sát được áp dụng khi việc xác định nhãn cho dữ liệu huấn luyện gặp khó khăn.

Cách tiếp cận dựa trên từ vựng liên quan đến việc xác định từ điển chứa các từ quan điểm để phân tích văn bản Có hai phương pháp chính: phương pháp dựa trên từ điển, trong đó các từ quan điểm hạt nhân được sử dụng để tìm kiếm từ đồng nghĩa và trái nghĩa, và phương pháp dựa trên tập ngữ liệu, bắt đầu với danh sách từ quan điểm hạt nhân và tìm kiếm các từ quan điểm khác trong một tập ngữ liệu lớn nhằm xác định các từ theo ngữ cảnh cụ thể.

Hình 1.4: Các hướng tiếp cận phân tích quan điểm.

Phân tích quan điểm theo khía cạnh

Bài toán phân tích quan điểm theo khía cạnh

Phân tích quan điểm cho toàn bộ văn bản là một bài toán cơ bản trong lĩnh vực phân tích văn bản, tương tự như phân lớp văn bản thông thường Bài toán này yêu cầu tính điểm cho từng văn bản đánh giá sản phẩm, từ đó xác định quan điểm chung Dựa trên điểm quan điểm đã đạt được, các văn bản sẽ được gán nhãn tích cực, tiêu cực hoặc trung lập Nếu cần xếp hạng quan điểm, các văn bản sẽ nhận được các hạng từ “1 sao” (rất tiêu cực) đến “5 sao” (rất tích cực).

Phân tích quan điểm trong loại bài toán này thường chỉ dừng lại ở mức tài liệu, mà không đi sâu vào các chi tiết cụ thể như sở thích hay sự không hài lòng của người đánh giá đối với các khía cạnh của sản phẩm.

Đánh giá một quan điểm cho toàn bộ văn bản thường không đủ chi tiết cho các ứng dụng thực tế Một bài viết đánh giá tích cực về một đối tượng cụ thể không đồng nghĩa với việc người dùng có ý kiến tích cực về mọi khía cạnh của đối tượng đó Ngược lại, một bài viết đánh giá tiêu cực cũng không có nghĩa là người dùng không thích tất cả các khía cạnh của đối tượng.

Trong một bài đánh giá sản phẩm, người viết thường nêu rõ cả những điểm mạnh và điểm yếu, mặc dù đánh giá tổng thể có thể nghiêng về tích cực hoặc tiêu cực Để phân tích quan điểm một cách hiệu quả và đáp ứng nhu cầu sử dụng thực tế, việc nghiên cứu sâu về từng khía cạnh của sản phẩm là rất cần thiết.

Trong bài toán phân tích đánh giá sản phẩm, chúng ta cần xử lý một tập hợp văn bản để tính điểm quan điểm cho từng khía cạnh của sản phẩm được đề cập Dựa trên điểm số này, các khía cạnh sẽ được gán nhãn quan điểm như tích cực, tiêu cực hoặc trung lập, hoặc phân loại theo hạng sao từ 1 đến 5.

Mô hình của một thực thể và một tài liệu có thể được định nghĩa như sau: một thực thể \( e_i \) được biểu diễn bởi chính nó và một tập hợp các khía cạnh hữu hạn \( A_i = a_{i1}, a_{i2}, , a_{in} \) Các thực thể có thể được thể hiện qua nhiều tập hợp biểu thức thực thể \( EE_i = ee_{i1}, ee_{i2}, , ee_{in} \) Mỗi khía cạnh \( a_{ij} \) của \( A_i \) có thể được biểu diễn bằng một tập hợp hữu hạn các biểu thức khía cạnh \( AE_{ij} = ae_{ij1}, ae_{ij2}, , ae_{ijm} \) Ngoài ra, một tài liệu chứa quan điểm \( d_k \subseteq D \) có thể phản ánh quan điểm về một tập hợp các thực thể \( e_1, e_2, e_3, , e_r \) và một tập hợp người có quan điểm \( h_1, h_2, h_3, , h_p \) Các quan điểm về mỗi thực thể \( e_i \) được thể hiện trên chính thực thể đó cùng với một tập hợp con.

A ik của các khía cạnh của nó.

Cách tiếp cận giải quyết bài toán

Các phương pháp học máy như SVM và Naive Bayes đã được áp dụng trong nghiên cứu để phân tích văn bản Một hướng tiếp cận khác là sử dụng từ điển để biểu diễn đặc trưng của văn bản, tuy nhiên, phương pháp này có thể bỏ qua mối quan hệ ngữ nghĩa giữa các từ và các khía cạnh liên quan.

Phương pháp tiếp cận dựa trên tần suất từ là một trong những phương pháp phổ biến và hiệu quả trong việc phân tích ngữ nghĩa Theo phương pháp này, các khía cạnh được thể hiện thông qua tần suất xuất hiện của danh từ và cụm danh từ Hu và Liu đã áp dụng thuật toán khai phá dữ liệu để xác định danh từ và cụm danh từ thông qua việc gán nhãn từ loại, sau đó đếm tần suất xuất hiện và giữ lại những từ có tần suất cao Ngưỡng tần suất được xác định thông qua thực nghiệm, cho thấy phương pháp này, mặc dù đơn giản, vẫn mang lại hiệu quả cao Hiện nay, nhiều công ty thương mại cũng đang áp dụng phương pháp này với một số cải tiến.

Một phương pháp khác theo hướng này là nghiên cứu của Moghaddam và Ester

Nhóm tác giả đã áp dụng tần số nghịch đảo từ (TF-IDF) kết hợp với bộ lọc dựa trên mẫu để loại bỏ các thuật ngữ phi khía cạnh Long, Zhang và Zhu đã trích rút các khía cạnh bằng cách sử dụng phương pháp dựa trên tần suất để phát hiện từ lõi, sau đó tìm các từ liên quan thông qua khoảng cách thông tin, nhằm xác định các thuật ngữ có liên quan đến khía cạnh.

Trong phân lớp ngữ nghĩa, từ ngữ nghĩa đóng vai trò quan trọng nhưng việc xác định các từ và cụm từ phù hợp cho phương pháp học bán giám sát là thách thức Phương pháp học được đề xuất trong [34] giúp giải quyết vấn đề này Turney và các cộng sự đã phát triển một phương pháp phân lớp ngữ nghĩa thông qua việc trích xuất từ và cụm từ theo các mẫu cú pháp nhất định Bên cạnh đó, nhóm tác giả cũng đã giới thiệu độ đo xác định hướng ngữ nghĩa (SO) của cụm từ, dựa trên độ đo thông tin tương hỗ (PMI).

Một phương pháp không giám sát khác trong phân tích ngữ nghĩa là phương pháp dựa trên từ vựng, sử dụng từ điển các từ và cụm từ có xu hướng và mức độ liên quan ngữ nghĩa Phương pháp này cũng tích hợp các từ thể hiện mức độ tăng cường, giảm nhẹ và từ phủ định để tính toán điểm ngữ nghĩa cho văn bản Ban đầu, nó đã được áp dụng trong phân lớp ngữ nghĩa mức câu và khía cạnh trong nhiều công bố nghiên cứu.

Trong những năm gần đây, các mô hình học biểu diễn đã đạt nhiều thành tựu nổi bật trong lĩnh vực xử lý ngôn ngữ tự nhiên Học biểu diễn, hay còn gọi là học đặc trưng, là một nhánh của học máy, cho phép tự động học các đặc trưng từ dữ liệu huấn luyện Các mô hình học biểu diễn được phát triển ở nhiều cấp độ khác nhau, bao gồm từ, câu, đoạn văn và toàn bộ văn bản Những phương pháp được sử dụng trong học biểu diễn bao gồm phân tích thành phần độc lập, bộ tự giải mã, phân tích ma trận thành nhân tử và mạng nơ-ron.

Gần đây, nhiều nghiên cứu đã áp dụng kỹ thuật học biểu diễn để cải thiện vấn đề ngữ nghĩa của từ Pavlopoulos và các cộng sự đã mở rộng phương pháp trích xuất khía cạnh của Zhuang bằng cách sử dụng véc-tơ từ Word2Vec Poria và nhóm nghiên cứu của mình đã đề xuất mô hình mạng nơ-rôn tích chập (CNN) nhiều tầng để trích xuất từ thể hiện khía cạnh Ngoài ra, Wang và các cộng sự đã phát triển mô hình mạng bộ nhớ ngắn-dài (LSTM), trong khi Tang đề xuất mô hình mạng nơ-ron nhớ sâu (Deep Memory Network) cho bài toán phân loại quan điểm khía cạnh.

Nghiên cứu liên quan

Phân tích quan điểm đã bắt đầu được nghiên cứu từ những năm 2000, với các bài toán điển hình như phân lớp quan điểm cho văn bản và phát hiện, phân lớp văn bản rác Tuy nhiên, các nghiên cứu ban đầu gặp hạn chế do ngầm định đối tượng cho các văn bản đầu vào và không xem xét các khía cạnh của thực thể mà người dùng thể hiện quan điểm trong văn bản đánh giá Để khắc phục những điểm yếu này, gần đây đã có nhiều nghiên cứu tập trung vào phân tích quan điểm theo khía cạnh.

Các bài nhận xét và xếp hạng trên các trang online đã trở thành nguồn dữ liệu quý giá cho nhiều ứng dụng như khuyến nghị sản phẩm, khai thác đặc trưng và phân tích ngữ nghĩa Sự đa dạng của các ứng dụng này đã tạo ra nhu cầu cho các phương pháp hiệu quả hơn Một trong những lĩnh vực quan trọng trong khai phá quan điểm là trích rút khía cạnh và dự đoán xếp hạng khía cạnh.

Trong bài toán trích rút khía cạnh tiềm ẩn và phân lớp quan điểm, có một số cách tiếp cận phổ biến như mô hình chủ đề, thuật ngữ và tần suất, cũng như từ và cụm từ ngữ nghĩa Một phương pháp sử dụng mô hình chủ đề để khám phá các khía cạnh, sau đó trích xuất các tính từ liên quan và xây dựng đồ thị kết nối, sử dụng thuật toán lan truyền nhãn để học điểm phân cực ngữ nghĩa Ngoài ra, nghiên cứu của Sauper và Barzilay cũng áp dụng mô hình chủ đề với từ lõi để xác định trật tự bất đối xứng, tuy nhiên, phương pháp này vẫn chưa hiệu quả trong phân lớp ngữ nghĩa nhiều mức.

Tại Việt Nam, nghiên cứu về văn bản tiếng Việt đã được thực hiện nhưng vẫn còn hạn chế Các bài toán điển hình như phân lớp quan điểm cho ý kiến đánh giá trên các website thương mại như TinhTe.vn và Tiki.vn đã được triển khai, cùng với việc xác định khía cạnh và khai phá quan điểm.

Tổng kết chương 1

Trong chương này, chúng tôi đã tổng quan về phân tích quan điểm và các phương pháp tiếp cận để giải quyết bài toán này theo khía cạnh Phân tích quan điểm toàn văn không đủ chi tiết cho ứng dụng thực tiễn; do đó, nghiên cứu sâu về quan điểm ở mức khía cạnh là cần thiết Ở chương tiếp theo, chúng tôi sẽ trình bày bài toán xác định sở thích của du khách trong lĩnh vực du lịch và quy trình phân tích quan điểm theo khía cạnh cho bài toán này.

Xác định sở thích của du khách về sản phẩm du lịch dựa trên phân tích quan điểm theo khía cạnh

Trong chương này, chúng tôi trình bày bài toán xác định sở thích của du khách đối với sản phẩm du lịch thông qua phân tích quan điểm theo khía cạnh Chúng tôi sẽ xác định các nhiệm vụ cần giải quyết và mô tả chi tiết quy trình phân tích này.

Phát biểu bài toán

Bài toán xác định sở thích du khách về sản phẩm du lịch thông qua phân tích quan điểm được mô tả như sau: Đầu vào là tập hợp các văn bản nhận xét và đánh giá về sản phẩm du lịch, ký hiệu là D={d1, d2, , dN} Đầu ra sẽ là tổng hợp sở thích của du khách theo các khía cạnh đã phân tích.

Sản phẩm du lịch bao gồm các yếu tố như nhà hàng, khách sạn và địa điểm tham quan Trong luận văn này, chúng tôi tập trung vào việc xây dựng dữ liệu đánh giá cho một khách sạn, nhằm phục vụ cho bài toán nghiên cứu của mình.

Du khách là người dùng đánh giá về sản phẩm du lịch.

Sở thích của du khách được xác định là yêu thích nếu đánh giá tích cực về sản phẩm.

Khía cạnh là một tập các giá trị đặc tả cho một loại sản phẩm, kí hiệu là

Một sản phẩm, chẳng hạn như khách sạn, có thể sở hữu nhiều thuộc tính khác nhau như giá phòng, vị trí, dịch vụ, và chất lượng nhân viên Mỗi thuộc tính này đều có thể được người dùng nhận xét, tạo thành các khía cạnh quan trọng trong bài viết.

Nhiệm vụ giải quyết bài toán này bao gồm việc xác định và rút trích các khía cạnh sản phẩm, đồng thời xác định quan điểm người dùng theo từng khía cạnh Các quan điểm sẽ được phân loại thành hai lớp tích cực và tiêu cực, bỏ qua lớp trung lập Từ đó, chúng ta có thể dự đoán điểm xếp hạng của người dùng cho từng khía cạnh, giúp xác định sở thích của khách hàng về một sản phẩm cụ thể.

Cho tập D là các nhận xét về khách sạn như sau:

1 nhân viên rất thân thiện, villa đẹp, đồ ăn cũng phong phú, hải sản ngon.

2 nội thất sang trọng, trong phòng luôn có mùi hương xả nhẹ nhành tạo cảm giác rất dễ chịu dịch vụ rất chu đáo và chất lượng.

3 view rất đẹp, các bạn phục vụ rất chuyên nghiệp, thái độ rất tốt, mọi dịch vụ đều đáp ứng nhanh chóng nhưng giá phòng thì hơi chát.

Villa có tầm nhìn đẹp, không gian rộng rãi và đầy đủ trang thiết bị hiện đại Hồ bơi được thiết kế đẹp mắt và mang lại cảm giác thoải mái cho du khách Giá cả hợp lý, cùng với dịch vụ chuyên nghiệp và lịch sự Tuy nhiên, bữa sáng chưa được đa dạng lắm.

5 tôi vừa rồi nghỉ dưỡng ở avani, cảnh quan đẹp, không khí trong lành thích hợp để nghỉ dưỡng, nhưng nhân viên chưa thân thiện cho lắm.

6 cảnh quan đẹp, đồ ăn sáng phong phú, nhân viên nhiệt tình thân thiện, đồ ăn ngon và rẻ.

7 villa đẹp như hình, nhân viên cực kỳ thân thiện buffet sáng không đa dạng.

Gia đình tôi vừa có trải nghiệm tuyệt vời tại một villa với view đẹp và giá phòng rất hợp lý Chúng tôi rất hài lòng với chất lượng dịch vụ, đặc biệt là sự thân thiện và nhiệt tình của nhân viên Nhân viên quản gia đã thể hiện sự chu đáo và quan tâm đến khách hàng, tạo nên ấn tượng tốt cho kỳ nghỉ của chúng tôi.

9 dịch vụ tốt, nhân viên nhiệt tình thân thiện, view khá đẹp villa rộng rãi và thoáng mát chắc chắn gia đình sẽ quay lại đây vào năm sau.

10 dịch vụ ổn, nhân viên thân thiện, nhiệt tình khuôn viên đẹp, thoáng mát. Quy trình xử lý được mô tả sơ lược như sau:

Xác định tập khía cạnh:A= (Giá phòng, Vị trí, Phòng, Dịch vụ, Nhân viên)

Rút trích khía cạnh, phân hoạch được tập D thành 5 tập con như sau:

Tổng hợp và xếp hạng được quan điểm của người dùng theo khía cạnh như sau:

Khía cạnh Xếp hạng tích cực Xếp hạng tiêu cực

Xác định sở thích của du khách về sản phẩm du lịch

Tiền xử lí dữ liệu

Các câu đánh giá, nhận xét thường phi cấu trúc Trước hết cần phải thực hiện các thao tác tiền xử lý.

Chuẩn hóa các từ viết tắt và sai chính tả (Ví dụ, dc → được, trg lành → trong lành,khg gian → không gian).

Chuyển văn bản về chữ thường (Ví dụ, "NHÂN VIÊN THÂN THIỆN, NHIỆT TÌNH" → "nhân viên thân thiện, nhiệt tình").

Loại bỏ các kí tự đặc biệt biệt, các chữ số, phép tính toán số học (Ví dụ:[],

Loại bỏ từ dừng là một bước quan trọng trong phân loại văn bản Từ dừng là những từ xuất hiện phổ biến nhưng không mang ý nghĩa cụ thể, như liên từ, giới từ và trạng từ Ví dụ về từ dừng bao gồm: cứ, dù, nọ, này, kia, và để Việc loại bỏ chúng giúp cải thiện hiệu quả phân tích và xử lý văn bản.

Rút trích khía cạnh

Rút trích khía cạnh là quá trình tìm ra các câu liên quan đến từng khía cạnh trong tập hợp nhận xét Mỗi loại sản phẩm, chẳng hạn như khách sạn, có thể được xác định thông qua các khía cạnh như giá phòng, vị trí, phòng, dịch vụ và nhân viên Việc xác định khía cạnh dựa trên các thuộc tính nổi bật của sản phẩm, và từ thể hiện khía cạnh được gọi là từ lõi (core term) Thuật toán rút trích khía cạnh được trình bày trong Thuật toán 1 (Algorithm 1).

Algorithm 1 Thuật toán rút trích khía cạnh Đầu vào: D = {d 1 ,d 2 , ,d N } là tập các nhận xét về một sản phẩm; A {a 1 ,a 2 , ,a K } là tập các khía cạnh; C = {c 1 ,c 2 , ,c K } là tập các từ lõi của các khía cạnh tương ứng. Đầu ra: S k Tập các câu được gán nhãn tương ứng với mỗi a k (k = 1, K

S ←segment(d i ); //Tách các nhận xét thành các câu

Mỗi khía cạnh của sản phẩm mà người dùng nhắc đến có thể được xem như một chủ đề, được biểu thị qua một tập hợp các từ khóa Khi những từ này xuất hiện, chúng gợi ý cho người đọc liên tưởng đến chủ đề tương ứng, từ đó giúp xác định tập hợp các từ chủ đề (stop word) cho từng khía cạnh.

Phân lớp quan điểm dựa trên khía cạnh

Tập nhãn quan điểm được xác định cho một thực thể cụ thể bao gồm các loại nhãn như tích cực, trung lập và tiêu cực, tương ứng với những khía cạnh khác nhau của thực thể đó.

Dựa trên nội dung được cung cấp, dưới đây là đoạn văn đã được viết lại: -Đối với câu đầu vào đã được gán nhãn khía cạnh, nhiệm vụ là dự đoán nhãn quan điểm tương ứng Việc này yêu cầu áp dụng các phương pháp phân tích ngữ nghĩa để xác định ý kiến và thái độ liên quan đến khía cạnh đó.

Tiến trình phân lớp quan điểm hay xác định hướng quan điểm của khía cạnh được mô tả như sau:

Hình 2.2: Quy trình phân lớp quan điểm dựa trên khía cạnh

Vector hóa văn bản là phương pháp chuyển đổi văn bản thành dạng vector, trong đó không gian của vector được xác định bởi một tập hợp các từ chủ đề Mỗi văn bản sẽ được biểu diễn bằng một vector n chiều, với mỗi chiều tương ứng với một từ chủ đề cụ thể trong khía cạnh đã xác định.

Trong luận văn này, chúng tôi sử dụng thuật toán SVM để phân lớp quan điểm cho văn bản.

SVM (Support Vector Machine) là một phương pháp học có giám sát, chủ yếu được sử dụng cho phân lớp và phân tích hồi quy, được đề xuất lần đầu bởi Vladimir Vapnik vào năm 1995, cùng với Corina Cortes Thuật toán này hoạt động bằng cách tìm kiếm một siêu phẳng tối ưu trong không gian vector, nơi mỗi tài liệu được biểu diễn như một điểm Siêu phẳng này có nhiệm vụ phân chia các điểm thành các lớp riêng biệt, với chất lượng của nó được đánh giá qua khoảng cách của các điểm dữ liệu gần nhất đến siêu phẳng Khoảng cách biên lớn hơn đồng nghĩa với việc phân loại chính xác hơn, vì vậy mục tiêu của SVM là tối đa hóa khoảng cách này để đạt được kết quả phân lớp tốt nhất.

Siêu phẳng tối ưu chia dữ liệu thành hai lớp hình tròn và hình vuông Các điểm gần nhất được gọi là các vector hỗ trợ và được tô đậm SVM thực chất là một bài toán tối ưu, với mục tiêu tìm ra không gian H và siêu phẳng phù hợp.

Hình 2.3: Mô tả thuật toán SVM htrên H sao cho sai số phân loại là thấp nhất Phương trình siêu mặt phẳng chứa vector −→ d i trong không gian như sau:

Sự phân lớp của văn bản −→ d i được biểu diễn qua hai lớp, với gọiy i = ±1 Nếu y i = +1, thì văn bản −→ d i thuộc lớp +; ngược lại, nếu y i = -1, văn bản −→ d i thuộc lớp - Để xác định siêu mặt phẳng, cần giải quyết bài toán phân lớp này.

Tìm min||−→w|| với −→w và b thõa điều kiện sau:

Thuật toán SVM coi mỗi vector x_i là một đặc trưng thể hiện phản hồi của khách hàng, trong khi yi là nhãn phân loại cho dữ liệu huấn luyện Các mẫu được phân loại thành hai nhóm: mẫu tích cực và mẫu tiêu cực.

Các mẫu tích cực là các mẫu x i thuộc lớp tích cực và được gán nhãn y i = 1.

Các mẫu tiêu cực là các mẫuxithuộc lớp tiêu cực và được gán nhãnyi =−1.

Dự đoán xếp hạng theo khía cạnh

Xếp hạng khía cạnh là quá trình đánh giá và định hướng mức độ ưa thích của người dùng đối với các khía cạnh cụ thể của sản phẩm, chẳng hạn như khách sạn Bài toán này yêu cầu phân tích một tập hợp văn bản đánh giá, trong đó chứa các quan điểm về sản phẩm và các khía cạnh liên quan Mục tiêu là xác định mức độ yêu thích của từng khía cạnh mà người dùng đã nêu trong các đánh giá đó.

Công thức dự đoán xếp hạng theo khía cạnh như sau: score positive = sp

Trong bài viết này, chúng ta sẽ tìm hiểu về các chỉ số đánh giá quan điểm trong một văn bản Cụ thể, "score positive" đại diện cho điểm xếp hạng của các quan điểm tích cực, trong khi "score negative" thể hiện điểm xếp hạng của các quan điểm tiêu cực Hơn nữa, "s p" là tổng số câu được phân loại là quan điểm tích cực, và "s n" là tổng số câu được phân loại là quan điểm tiêu cực.

S k là tổng số câu thuộc khía cạnh thứ k.

Tổng kết chương 2

Trong chương này, chúng tôi đã trình bày nhiệm vụ phân tích quan điểm theo khía cạnh, bao gồm các bước xác định khía cạnh, hướng quan điểm và tổng hợp quan điểm Tiếp theo, Chương 3 sẽ giới thiệu quy trình thực nghiệm nhằm so sánh và đánh giá kết quả thực nghiệm.

Trong chương này, chúng tôi trình bày cài đặt và kết quả thực nghiệm xác định sở thích của du khách về sản phẩm du lịch.

Cài đặt thực nghiệm

Dữ liệu thực nghiệm

Chúng tôi đã xây dựng một tập dữ liệu đánh giá về khách sạn AVANI tại thành phố Quy Nhơn, bao gồm 800 nhận xét từ du khách được thu thập từ trang Tripadvisor.

Công cụ thực nghiệm

Chúng tôi sử dụng các công cụ sau để tiến hành thực nghiệm:

1 vnTokenize 2 vnTokenizer [33] là một phần mềm tách từ cho các văn bản tiếng Việt Nó phân đoạn văn bản tiếng Việt thành các đơn vị từ vựng (từ, tên, ngày tháng, con số và các biểu thức thông thường khác) với độ chính xác cao, khoảng 96 – 98%.

1 https://www.tripadvisor.com.vn

2 http://mim.hus.vnu.edu/phuonglh/ vnTokenizer được viết bằng Java Phần mềm yêu cầu cần phải cài đặt Java Runtime Environment 1.6+.

Phần mềm vnTokenizer cho phép người dùng tương tác qua dòng lệnh hoặc lập trình thông qua API Để sử dụng vnTokenizer trên hệ điều hành MS Windows, bạn cần chạy tệp vnTokenizer.bat, trong khi trên Unix, Linux, hoặc MacOS X, sử dụng /vnTokenizer.sh Tệp đầu vào phải là văn bản thuần túy mã hóa UTF-8, và kết quả sẽ được lưu dưới dạng văn bản thuần túy hoặc XML đơn giản, cũng mã hóa UTF-8 Để tách từ trong Windows, cú pháp sử dụng là: vnTokenizer.bat –I -o [options], với các tùy chọn bổ sung có thể được thêm vào.

-xo (đầu ra xml) – Ghi kết quả vào một tệp XML đơn giản thay vì định dạng văn bản mặc định.

-nu (không có gạch dưới) – Không nối các âm tiết của một từ bằng ký tự gạch dưới mà thay vào đó là một khoảng trắng.

VnTokenizer hỗ trợ nhận dạng câu trước khi thực hiện việc tách từ Khi tùy chọn này được kích hoạt, vnTokenizer sẽ đầu tiên xác định các câu trong văn bản và sau đó tiến hành tách các câu đã được nhận dạng Mặc định, vnTokenizer xử lý toàn bộ văn bản mà không chia thành các câu.

SV M light là công cụ thực thi thuật toán SVM của Vapnik, chuyên dùng cho nhận dạng mẫu, hồi quy và học xếp loại Phần mềm này cũng cung cấp các phương pháp đánh giá hiệu suất hiệu quả.

Các đặc trưng chính của chương trình như sau:

Thuật toán tối hóa nhanh;

Giải quyết vấn đề phân lớp và hồi quy;

Giải quyết các vấn đề xếp hạng (ví dụ: học các chức năng thu hồi trong công cụ tìm kiếm Striver);

Tính toán, ước lượng tỉ lệ lỗi, độ chính xác và độ bao phủ;

Xử lý hàng nghìnvector hỗ trợ;

Xử lý hàng trăm nghìn ví dụ huấn luyện.

SV M light bao gồm hai module chính: module học (svm-learn) và module phân loại (svm-classify) Module phân loại cho phép áp dụng mô hình đã học cho các ví dụ mới một cách hiệu quả.

Tệp đầu vào chứa dữ liệu huấn luyện đã được vector hóa, trong đó dòng đầu tiên có thể là một câu nhận xét và sẽ bị bỏ qua nếu bắt đầu bằng dấu "=" Các dòng tiếp theo là các vector đại diện cho dữ liệu huấn luyện, được định dạng theo quy định cụ thể.

= :: :

Chúng tôi cài đặt các thuật toán:

Rút trích khía cạnh, phân hoạch tậpD thành k tập con. vector hóa các tập con theo định dạng của thuật toán SVM.

Tính điểm xếp hạng sở thích của du khách dựa theo khía cạnh.

Các bước tiến hành

Bước đầu tiên trong quy trình xử lý dữ liệu là tiền xử lý, trong đó chúng ta sẽ tiếp nhận các câu nhận xét và thực hiện việc loại bỏ các từ dừng cùng với các ký hiệu đặc biệt Sau đó, sử dụng công cụ vnTokenize để tách từ văn bản một cách hiệu quả.

Bước 2: Xác định các khía cạnh của thực thể, đồng thời xác định tập từ lõi và tập từ chủ đề cho từng khía cạnh Tập từ lõi và tập từ chủ đề cho các khía cạnh của sản phẩm khách sạn được trình bày chi tiết trong Bảng 3.1.

Chúng tôi không chỉ tập trung vào từ lõi và từ chủ đề liên quan đến từng khía cạnh, mà còn xác định các từ phủ định và mức độ quan điểm để nâng cao độ chính xác trong việc phân tích nội dung.

Từ phủ định và chỉ mức độ:"Không", "chưa", "kém", "ít", "thiếu", "rất",

"vừa", "cực", "cực kì", "siêu".

Bảng 3.1: Tập từ lõi và từ chủ đề theo khía cạnh

Khía cạnh Từ lõi Từ chủ đề

Giá phòng Giá Đắt, rẻ, phù hợp, hợp lý, chát, mềm

Vị trí của khu nghỉ dưỡng rất đẹp, trong lành và thuận tiện, với cảnh quan xanh mát, dễ dàng tiếp cận Phòng ở rộng rãi, sạch sẽ và được thiết kế hiện đại, thoáng mát, tạo cảm giác dễ chịu Dịch vụ tại đây phong phú, với đồ ăn tươi ngon và wifi miễn phí, cùng các tiện nghi như hồ bơi và spa, mang đến trải nghiệm thoải mái Nhân viên phục vụ thân thiện, nhiệt tình và chuyên nghiệp, luôn sẵn sàng hỗ trợ khách hàng một cách chu đáo Tất cả những yếu tố này tạo nên một kỳ nghỉ đáng nhớ và ấn tượng cho du khách.

Bước 3: Rút trích các câu có chứa từ lõi thuộc khía cạnh ak và nhóm chúng lại thành các tập con Kết quả là sẽ có 5 tập con câu nhận xét tương ứng với từng khía cạnh Sau khi tách tập D, chúng ta thu được 5 tập khía cạnh rõ ràng.

Bảng 3.2: Kết quả rút trích khía cạnh

Khía cạnh Số lượng câu

Bước 4 Tiến hành vector hóa các tập con theo định dạng của thuật toán SVM

= ::

:

Nhân viên tại đây rất thân thiện và nhiệt tình, đặc biệt là quản lý, người luôn chu đáo và quan tâm đến khách hàng.

Với nhãn quan điểm được gán là 1 vì câu này thuộc quan điểm tích cực (Gán nhãn quan điểm là -1 nếu câu thuộc quan điểm tiêu cực)

Hình 3.1: Định dạng dữ liệu trong công cụSV M light

Bước 5: Chia mỗi tập con thành hai phần dữ liệu huấn luyện và kiểm tra với tỷ lệ 7:3, trong đó 70% dữ liệu được sử dụng để huấn luyện mô hình.

Để xây dựng mô hình phân lớp hiệu quả, cần sử dụng ba phần dữ liệu để tạo thành tập dữ liệu đánh giá Trong quá trình huấn luyện, bộ phân lớp quan điểm sẽ được áp dụng nhằm cải thiện khả năng phân loại của mô hình.

Bước 6 Tiến hành phân lớp quan điểm trên tập dữ liệu kiểm tra.

Bước 7: Tính điểm xếp hạng cho mỗi khía cạnh.

Độ đo

Chúng tôi sử dụng tập dữ liệu đánh giá được gán nhãn thủ công để xây dựng bộ phân lớp trên tập huấn luyện Sau đó, các chỉ số như độ chính xác (precision - P), độ bao phủ (recall - R) và độ đo F1 được tính toán nhằm đánh giá chất lượng của thuật toán phân lớp.

Trong đó các giá trị: P, R, F 1 được tính như sau:

P = true positive true positive +f alse positive (3.1)

R = true positive true positive +f alse negative (3.2)

Trong phân loại văn bản, true positive là số câu được phân loại chính xác vào lớp tích cực, trong khi false positive là số câu bị phân loại sai vào lớp tích cực Ngoài ra, false negative là số câu được phân loại sai vào lớp tiêu cực.

Trong một bộ dữ liệu đánh giá gồm 12 câu, trong đó có 10 câu được bộ phân lớp nhận dạng là thuộc phân lớp tích cực, chỉ có 2 câu thuộc phân lớp tiêu cực Nếu trong số 10 câu tích cực được nhận dạng, có 9 câu đúng và 1 câu nhận dạng sai, thì độ chính xác của bộ phân lớp sẽ được đánh giá dựa trên tỷ lệ đúng của các câu tích cực.

Kết quả thực nghiệm

Bảng 3.3 trình bày kết quả dự đoán xếp hạng cho mỗi khía cạnh được sắp xếp theo mức độ yêu thích của người dùng.

Bảng 3.3: Kết quả xếp hạng theo khía cạnh

Khía cạnh Xếp hạng theo dữ liệu đánh giá Xếp hạng theo dự đoán score positive score negative score positive score negative

Các khía cạnh được sắp xếp theo thứ tự giảm dần dựa trên điểm xếp hạng dự đoán Trong đó, khía cạnh về phòng được người dùng ưa chuộng nhất với tỷ lệ 86%, tiếp theo là khía cạnh về nhân viên với tỷ lệ 76% Khía cạnh có mức độ yêu thích thấp nhất là dịch vụ, chỉ đạt tỷ lệ 66%.

Hình 3.2 minh họa sự so sánh mức độ yêu thích của người dùng dựa trên điểm xếp hạng dự đoán Để đối chiếu giữa điểm xếp hạng dự đoán và điểm xếp hạng từ dữ liệu đánh giá, Hình 3.3 được sử dụng để trình bày thông tin này.

Hình 3.2: Biểu đồ so sánh mức độ yêu thích của người dùng theo khía cạnh

Hình 3.3:Biểu đồ so sánh điểm xếp hạng theo dự đoán và điểm xếp hạng theo dữ liệu đánh giá

Bảng 3.4: Đánh giá bộ phân lớp SVM

Khía cạnh Độ chính xác (P) Độ bao phủ (R) Độ đo F 1

Đánh giá

Kết quả xếp hạng theo khía cạnh được thể hiện trong bảng 3.3 cho thấy rằng điểm xếp hạng dự đoán và điểm xếp hạng từ dữ liệu đánh giá chỉ chênh lệch từ 2% đến 7% Cụ thể, khía cạnh giá phòng có độ chênh lệch cao nhất là 7%, trong khi khía cạnh vị trí và dịch vụ có độ chênh lệch thấp nhất là 2%.

Bảng 3.4 trình bày đánh giá bộ phân lớp quan điểm SVM theo các khía cạnh thông qua ba độ đo: Độ chính xác (P), độ bao phủ (R) và độ đo F1 Kết quả cho thấy độ chính xác của bộ phân lớp cho các khía cạnh như giá phòng, vị trí, phòng, dịch vụ, và nhân viên đều đạt từ 91% trở lên Những kết quả này gần xấp xỉ với độ bao phủ, cho thấy bộ phân lớp tương đối ổn định khi đánh giá theo cả độ chính xác và độ bao phủ.

F 1 theo từng khía cạnh cũng xấp xỉ.

Trong phần này, chúng tôi tóm tắt những kết quả quan trọng của luận văn và đề xuất hướng phát triển cho các nghiên cứu tiếp theo trong tương lai.

1 Tóm lược các kết quả của luận văn

Luận văn này tập trung vào việc phân tích quan điểm từ các khía cạnh khác nhau nhằm xác định sở thích của du khách đối với sản phẩm du lịch Nội dung và kết quả nghiên cứu được trình bày chi tiết trong các Chương 1-3, với những kết quả chính được tóm tắt như sau.

Chúng tôi sẽ giới thiệu tổng quan về bài toán phân tích quan điểm, bao gồm các khía cạnh khác nhau và những phương pháp tiếp cận hiệu quả để giải quyết vấn đề này.

Chúng tôi sẽ phân tích sở thích của du khách đối với sản phẩm du lịch, cụ thể là khách sạn, thông qua các khía cạnh khác nhau Bài viết sẽ trình bày chi tiết quy trình phân tích quan điểm này, nhằm cung cấp cái nhìn sâu sắc về nhu cầu và mong muốn của du khách.

Vào thứ ba, chúng tôi đã tiến hành thực nghiệm trên bộ dữ liệu đánh giá khách sạn theo quy trình đã nêu trong Chương 2, và kết quả thực nghiệm đạt được độ chính xác vượt quá 90%.

2 Hướng phát triển của luận văn

Chúng tôi đã tiến hành nghiên cứu phân tích quan điểm nhằm xác định sở thích của du khách đối với sản phẩm du lịch Nghiên cứu này được kỳ vọng sẽ mở ra hướng đi cho các nghiên cứu tiếp theo trong lĩnh vực phân tích quan điểm Trong tương lai, chúng tôi dự định phát triển luận văn theo nhiều hướng khác nhau.

Thứ nhất, tiếp tục xây dựng dữ liệu cho bài toán phân tích quan điểm trên miền du lịch.

Thứ hai, mở rộng bài toán phân tích quan điểm theo khía cạnh cho các sản phẩm khác trên miền du lịch.

Vào giai đoạn phân lớp quan điểm, chúng ta thực hiện cài đặt thực nghiệm trên nhiều thuật toán như k-NN và Naive Bayes Qua đó, tiến hành so sánh và đánh giá để lựa chọn thuật toán phù hợp nhất cho bài toán này.

Thứ tư, xây dựng ứng dụng phân tích quan điểm trên miền du lịch.

[1] Bengio, Y., Courville, A., and Vincent, P (2013) Representation learning:

A review and new perspectives IEEE transactions on pattern analysis and machine intelligence, 35(8):1798–1828.

[2] Bennett, J., Lanning, S., et al (2007) The netflix prize In Proceedings of KDD cup and workshop, volume 2007, page 35 New York.

[3] Brody, S and Elhadad, N (2010) An unsupervised aspect-sentiment model for online reviews InHuman language technologies: The 2010 annual conference of the North American chapter of the association for computational linguistics, pages 804–812.

[4] Carenini, G., Cheung, J C K., and Pauls, A (2013) Multi-document sum- marization of evaluative text Computational Intelligence, 29(4):545–576.

[5] Cilibrasi, R L and Vitanyi, P M (2007) The google similarity distance. IEEE Transactions on knowledge and data engineering, 19(3):370–383.

[6] Cortes, C and Vapnik, V (1995) Support vector machine Machine learning, 20(3):273–297.

[7] Ding, X., Liu, B., and Yu, P S (2008) A holistic lexicon-based approach to opinion mining In Proceedings of the 2008 international conference on web search and data mining, pages 231–240.

[8] Ganu, G., Elhadad, N., and Marian, A (2009) Beyond the stars: improving rating predictions using review text content In WebDB, volume 9, pages 1–6. Citeseer.

[9] Hinton, G E and Salakhutdinov, R R (2006) Reducing the dimensionality of data with neural networks science, 313(5786):504–507.

[10] Hu, M and Liu, B (2004) Mining and summarizing customer reviews In Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining, pages 168–177.

[11] Hyv¨arinen, A and Oja, E (2000) Independent component analysis: algo- rithms and applications Neural networks, 13(4-5):411–430.

[12] Jindal, N and Liu, B (2007) Review spam detection In Proceedings of the 16th international conference on World Wide Web, pages 1189–1190.

[13] Jindal, N and Liu, B (2008) Opinion spam and analysis In Proceedings of the 2008 international conference on web search and data mining, pages 219– 230.

[14] Joachims, T (1999) Svmlight: Support vector machine SVM-Light Support Vector Machine http://svmlight joachims org/, University of Dortmund, 19(4).

[15] Kim, S.-M and Hovy, E (2004) Determining the sentiment of opinions In COLING 2004: Proceedings of the 20th International Conference on Computa- tional Linguistics, pages 1367–1373.

[16] Kramer, J and Gordon, C (2014) Improvement of a naive bayes sentiment classifier using mrs-based features InProceedings of the Third Joint Conference on Lexical and Computational Semantics (* SEM 2014), pages 22–29.

[17] Lim, E.-P., Nguyen, V.-A., Jindal, N., Liu, B., and Lauw, H W (2010). Detecting product review spammers using rating behaviors InProceedings of the 19th ACM international conference on Information and knowledge management, pages 939–948.

[18] Liu, B (2012) Sentiment analysis and opinion mining Synthesis lectures on human language technologies, 5(1):1–167.

[19] Long, C., Zhang, J., and Zhu, X (2010) A review selection approach for accurate feature rating estimation InColing 2010: Posters, pages 766–774.

[20] Mai, L and Le, B (2018) Aspect-based sentiment analysis of vietnamese texts with deep learning In Asian Conference on Intelligent Information and Database Systems, pages 149–158 Springer.

[21] Moghaddam, S and Ester, M (2010) Opinion digger: an unsupervised opin- ion miner from unstructured product reviews InProceedings of the 19th ACM international conference on Information and knowledge management, pages 1825–1828.

[22] Narayanan, V., Arora, I., and Bhatia, A (2013) Fast and accurate sentiment classification using an enhanced naive bayes model In International Confer- ence on Intelligent Data Engineering and Automated Learning, pages 194–201. Springer.

[23] Pang, B and Lee, L (2008) Opinion mining and sentiment analysis founda- tions and trends in information retrieval vol 2.

[24] Pang, B., Lee, L., and Vaithyanathan, S (2002) Thumbs up? sentiment classification using machine learning techniques arXiv preprint cs/0205070.

Pavlopoulos and Androutsopoulos (2014) present a novel approach to aspect term extraction for sentiment analysis, introducing new datasets and evaluation measures Their improved unsupervised method is detailed in the proceedings of the 5th Workshop on Language Analysis for Social Media (LASM), highlighting advancements in the field.

[26] Pham, D.-H and Le, A.-C (2018) Exploiting multiple word embeddings and one-hot character vectors for aspect-based sentiment analysis International Journal of Approximate Reasoning, 103:1–10.

[27] Popescu, A.-M and Etzioni, O (2007) Extracting product features and opinions from reviews In Natural language processing and text mining, pages 9–28 Springer.

[28] Poria, S., Cambria, E., and Gelbukh, A (2016) Aspect extraction for opinion mining with a deep convolutional neural network Knowledge-Based Systems, 108:42–49.

[29] Ravi, K and Ravi, V (2015) A survey on opinion mining and sentiment analysis: tasks, approaches and applications Knowledge-Based Systems, 89:14– 46.

[30] Sauper, C and Barzilay, R (2013) Automatic aggregation by joint modeling of aspects and values Journal of Artificial Intelligence Research, 46:89–127.

[31] Taboada, M., Brooke, J., Tofiloski, M., Voll, K., and Stede, M (2011).Lexicon-based methods for sentiment analysis Computational linguistics,37(2):267–307.

[32] Tang, D., Qin, B., and Liu, T (2016) Aspect level sentiment classification with deep memory network arXiv preprint arXiv:1605.08900.

[33] Thắng, Đ Q., Phương, L H., Huyền, N T M., Tú, N C., Rossignol, M., and Lương, V X Word segmentation of vietnamese texts: a comparison of approaches.

[34] Turney, P D (2002) Thumbs up or thumbs down? semantic orientation applied to unsupervised classification of reviews arXiv preprint cs/0212032.

[35] Van Thin, D., Nguye, V D., Van Nguyen, K., and Nguyen, N L.-T (2018). Deep learning for aspect detection on vietnamese reviews In2018 5th NAFOS- TED Conference on Information and Computer Science (NICS), pages 104–109. IEEE.

[36] Vo, Q.-H., Nguyen, H.-T., Le, B., and Nguyen, M.-L (2017) Multi-channel lstm-cnn model for vietnamese sentiment analysis In 2017 9th international conference on knowledge and systems engineering (KSE), pages 24–29 IEEE.

[37] Wang, H., Lu, Y., and Zhai, C (2011) Latent aspect rating analysis without aspect keyword supervision InProceedings of the 17th ACM SIGKDD interna- tional conference on Knowledge discovery and data mining, pages 618–626.

[38] Wang, Y., Huang, M., Zhu, X., and Zhao, L (2016) Attention-based lstm for aspect-level sentiment classification In Proceedings of the 2016 conference on empirical methods in natural language processing, pages 606–615.

[39] Weimer, M., Karatzoglou, A., Le, Q V., and Smola, A J (2008) Cofi rank- maximum margin matrix factorization for collaborative ranking In Advances in neural information processing systems, pages 1593–1600.

In their 2013 paper, Wogenstein et al evaluate an algorithm for aspect-based opinion mining that utilizes a lexicon-based approach This research was presented at the Second International Workshop on Issues of Sentiment Discovery and Opinion Mining, highlighting the significance of effective sentiment analysis methods in understanding opinions The study spans pages 1 to 8, providing insights into the performance and applicability of the proposed algorithm.

[41] Xinh, L T (2017) Khai phá quan điểm dựa trên kỹ thuật học có giám sát.

[42] Zhu, J., Wang, H., Tsou, B K., and Zhu, M (2009) Multi-aspect opinion polling from textual reviews In Proceedings of the 18th ACM conference onInformation and knowledge management, pages 1799–1802.

Ngày đăng: 03/04/2022, 12:29

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Bengio, Y., Courville, A., and Vincent, P. (2013). Representation learning:A review and new perspectives. IEEE transactions on pattern analysis and machine intelligence, 35(8):1798–1828 Sách, tạp chí
Tiêu đề: Representation learning: A review and new perspectives
Tác giả: Bengio, Y., Courville, A., Vincent, P
Nhà XB: IEEE transactions on pattern analysis and machine intelligence
Năm: 2013
[2] Bennett, J., Lanning, S., et al. (2007). The netflix prize. In Proceedings of KDD cup and workshop, volume 2007, page 35. New York Sách, tạp chí
Tiêu đề: The netflix prize
Tác giả: Bennett, J., Lanning, S., et al
Nhà XB: Proceedings of KDD cup and workshop
Năm: 2007
[5] Cilibrasi, R. L. and Vitanyi, P. M. (2007). The google similarity distance.IEEE Transactions on knowledge and data engineering, 19(3):370–383 Sách, tạp chí
Tiêu đề: The google similarity distance
Tác giả: Cilibrasi, R. L., Vitanyi, P. M
Nhà XB: IEEE Transactions on Knowledge and Data Engineering
Năm: 2007
[6] Cortes, C. and Vapnik, V. (1995). Support vector machine. Machine learning, 20(3):273–297 Sách, tạp chí
Tiêu đề: Support vector machine
Tác giả: Cortes, C., Vapnik, V
Nhà XB: Machine learning
Năm: 1995
[8] Ganu, G., Elhadad, N., and Marian, A. (2009). Beyond the stars: improving rating predictions using review text content. In WebDB, volume 9, pages 1–6.Citeseer Sách, tạp chí
Tiêu đề: Beyond the stars: improving rating predictions using review text content
Tác giả: Ganu, G., Elhadad, N., Marian, A
Nhà XB: WebDB
Năm: 2009
[11] Hyv¨ arinen, A. and Oja, E. (2000). Independent component analysis: algo- rithms and applications. Neural networks, 13(4-5):411–430 Sách, tạp chí
Tiêu đề: Independent component analysis: algorithms and applications
Tác giả: A. Hyvärinen, E. Oja
Nhà XB: Neural networks
Năm: 2000
[12] Jindal, N. and Liu, B. (2007). Review spam detection. In Proceedings of the 16th international conference on World Wide Web, pages 1189–1190 Sách, tạp chí
Tiêu đề: Review spam detection
Tác giả: Jindal, N., Liu, B
Nhà XB: Proceedings of the 16th international conference on World Wide Web
Năm: 2007
[13] Jindal, N. and Liu, B. (2008). Opinion spam and analysis. In Proceedings of the 2008 international conference on web search and data mining, pages 219–230 Sách, tạp chí
Tiêu đề: Opinion spam and analysis
Tác giả: Jindal, N., Liu, B
Nhà XB: Proceedings of the 2008 international conference on web search and data mining
Năm: 2008
[14] Joachims, T. (1999). Svmlight: Support vector machine. SVM-Light Support Vector Machine http://svmlight. joachims. org/, University of Dortmund, 19(4) Sách, tạp chí
Tiêu đề: Svmlight: Support vector machine
Tác giả: Joachims, T
Nhà XB: University of Dortmund
Năm: 1999
[15] Kim, S.-M. and Hovy, E. (2004). Determining the sentiment of opinions. In COLING 2004: Proceedings of the 20th International Conference on Computa- tional Linguistics, pages 1367–1373 Sách, tạp chí
Tiêu đề: Determining the sentiment of opinions
Tác giả: Kim, S.-M., Hovy, E
Nhà XB: COLING 2004: Proceedings of the 20th International Conference on Computational Linguistics
Năm: 2004
[16] Kramer, J. and Gordon, C. (2014). Improvement of a naive bayes sentiment classifier using mrs-based features. In Proceedings of the Third Joint Conference on Lexical and Computational Semantics (* SEM 2014), pages 22–29 Sách, tạp chí
Tiêu đề: Improvement of a naive bayes sentiment classifier using mrs-based features
Tác giả: Kramer, J., Gordon, C
Nhà XB: Proceedings of the Third Joint Conference on Lexical and Computational Semantics (* SEM 2014)
Năm: 2014
[17] Lim, E.-P., Nguyen, V.-A., Jindal, N., Liu, B., and Lauw, H. W. (2010).Detecting product review spammers using rating behaviors. In Proceedings of the 19th ACM international conference on Information and knowledge management, pages 939–948 Sách, tạp chí
Tiêu đề: Detecting product review spammers using rating behaviors
Tác giả: Lim, E.-P., Nguyen, V.-A., Jindal, N., Liu, B., Lauw, H. W
Nhà XB: Proceedings of the 19th ACM international conference on Information and knowledge management
Năm: 2010
[18] Liu, B. (2012). Sentiment analysis and opinion mining. Synthesis lectures on human language technologies, 5(1):1–167 Sách, tạp chí
Tiêu đề: Sentiment analysis and opinion mining
Tác giả: B. Liu
Nhà XB: Synthesis lectures on human language technologies
Năm: 2012
[19] Long, C., Zhang, J., and Zhu, X. (2010). A review selection approach for accurate feature rating estimation. In Coling 2010: Posters, pages 766–774 Sách, tạp chí
Tiêu đề: A review selection approach for accurate feature rating estimation
Tác giả: Long, C., Zhang, J., Zhu, X
Nhà XB: Coling 2010: Posters
Năm: 2010
[20] Mai, L. and Le, B. (2018). Aspect-based sentiment analysis of vietnamese texts with deep learning. In Asian Conference on Intelligent Information and Database Systems, pages 149–158. Springer Sách, tạp chí
Tiêu đề: Aspect-based sentiment analysis of vietnamese texts with deep learning
Tác giả: Mai, L., Le, B
Nhà XB: Springer
Năm: 2018
[21] Moghaddam, S. and Ester, M. (2010). Opinion digger: an unsupervised opin- ion miner from unstructured product reviews. In Proceedings of the 19th ACM Sách, tạp chí
Tiêu đề: Opinion digger: an unsupervised opinion miner from unstructured product reviews
Tác giả: Moghaddam, S., Ester, M
Nhà XB: Proceedings of the 19th ACM
Năm: 2010
[22] Narayanan, V., Arora, I., and Bhatia, A. (2013). Fast and accurate sentiment classification using an enhanced naive bayes model. In International Confer- ence on Intelligent Data Engineering and Automated Learning, pages 194–201.Springer Sách, tạp chí
Tiêu đề: Fast and accurate sentiment classification using an enhanced naive bayes model
Tác giả: Narayanan, V., Arora, I., Bhatia, A
Nhà XB: Springer
Năm: 2013
[23] Pang, B. and Lee, L. (2008). Opinion mining and sentiment analysis founda- tions and trends in information retrieval vol. 2 Sách, tạp chí
Tiêu đề: Opinion mining and sentiment analysis
Tác giả: Pang, B., Lee, L
Nhà XB: foundations and trends in information retrieval
Năm: 2008
[24] Pang, B., Lee, L., and Vaithyanathan, S. (2002). Thumbs up? sentiment classification using machine learning techniques. arXiv preprint cs/0205070 Sách, tạp chí
Tiêu đề: Thumbs up? sentiment classification using machine learning techniques
Tác giả: Pang, B., Lee, L., Vaithyanathan, S
Nhà XB: arXiv
Năm: 2002
[25] Pavlopoulos, J. and Androutsopoulos, I. (2014). Aspect term extraction for sentiment analysis: New datasets, new evaluation measures and an improved unsupervised method. In Proceedings of the 5th Workshop on Language Analysis for Social Media (LASM), pages 44–52 Sách, tạp chí
Tiêu đề: Aspect term extraction for sentiment analysis: New datasets, new evaluation measures and an improved unsupervised method
Tác giả: Pavlopoulos, J., Androutsopoulos, I
Nhà XB: Proceedings of the 5th Workshop on Language Analysis for Social Media (LASM)
Năm: 2014

HÌNH ẢNH LIÊN QUAN

Hình 1.1: Minh họa nhận xét của người dùng - (LUẬN văn THẠC sĩ) phân tích quan điểm dựa theo khía cạnh và ứng dụng xác định sở thích của du khách về sản phẩm du lịch
Hình 1.1 Minh họa nhận xét của người dùng (Trang 15)
Hình 1.3: Đánh giá về khách sạn Avani Quy Nhơn trên trang Tripadvisor.com.vn - (LUẬN văn THẠC sĩ) phân tích quan điểm dựa theo khía cạnh và ứng dụng xác định sở thích của du khách về sản phẩm du lịch
Hình 1.3 Đánh giá về khách sạn Avani Quy Nhơn trên trang Tripadvisor.com.vn (Trang 18)
Hình 1.2: Kiến trúc tổng quan hệ thống phântích quan điểm theo hướng tiếp cận học máy - (LUẬN văn THẠC sĩ) phân tích quan điểm dựa theo khía cạnh và ứng dụng xác định sở thích của du khách về sản phẩm du lịch
Hình 1.2 Kiến trúc tổng quan hệ thống phântích quan điểm theo hướng tiếp cận học máy (Trang 18)
Hình 1.4: Các hướng tiếp cận phântích quan điểm. - (LUẬN văn THẠC sĩ) phân tích quan điểm dựa theo khía cạnh và ứng dụng xác định sở thích của du khách về sản phẩm du lịch
Hình 1.4 Các hướng tiếp cận phântích quan điểm (Trang 23)
7. villa đẹp như hình, nhân viên cực kỳ thân thiện. buffet sáng không đa dạng. 8. vừa rồi gia đình tơi ở villa view đẹp, giá phòng rất chi là mềm - (LUẬN văn THẠC sĩ) phân tích quan điểm dựa theo khía cạnh và ứng dụng xác định sở thích của du khách về sản phẩm du lịch
7. villa đẹp như hình, nhân viên cực kỳ thân thiện. buffet sáng không đa dạng. 8. vừa rồi gia đình tơi ở villa view đẹp, giá phòng rất chi là mềm (Trang 31)
Hình 2.1: Quy trình phântích quan điểm theo khía cạnh. - (LUẬN văn THẠC sĩ) phân tích quan điểm dựa theo khía cạnh và ứng dụng xác định sở thích của du khách về sản phẩm du lịch
Hình 2.1 Quy trình phântích quan điểm theo khía cạnh (Trang 32)
Hình 2.2: Quy trình phân lớp quan điểm dựa trên khía cạnh - (LUẬN văn THẠC sĩ) phân tích quan điểm dựa theo khía cạnh và ứng dụng xác định sở thích của du khách về sản phẩm du lịch
Hình 2.2 Quy trình phân lớp quan điểm dựa trên khía cạnh (Trang 34)
Hình 2.3: Mơ tả thuật toán SVM - (LUẬN văn THẠC sĩ) phân tích quan điểm dựa theo khía cạnh và ứng dụng xác định sở thích của du khách về sản phẩm du lịch
Hình 2.3 Mơ tả thuật toán SVM (Trang 35)
Bảng 3.2: Kết quả rút trích khía cạnh Khía cạnhSố lượng câu - (LUẬN văn THẠC sĩ) phân tích quan điểm dựa theo khía cạnh và ứng dụng xác định sở thích của du khách về sản phẩm du lịch
Bảng 3.2 Kết quả rút trích khía cạnh Khía cạnhSố lượng câu (Trang 40)
Bảng 3.1: Tập từ lõi và từ chủ đề theo khía cạnh - (LUẬN văn THẠC sĩ) phân tích quan điểm dựa theo khía cạnh và ứng dụng xác định sở thích của du khách về sản phẩm du lịch
Bảng 3.1 Tập từ lõi và từ chủ đề theo khía cạnh (Trang 40)
Hình 3.1: Định dạng dữ liệu trong công cụ SVMlight - (LUẬN văn THẠC sĩ) phân tích quan điểm dựa theo khía cạnh và ứng dụng xác định sở thích của du khách về sản phẩm du lịch
Hình 3.1 Định dạng dữ liệu trong công cụ SVMlight (Trang 41)
Bảng 3.3: Kết quả xếp hạng theo khía cạnh - (LUẬN văn THẠC sĩ) phân tích quan điểm dựa theo khía cạnh và ứng dụng xác định sở thích của du khách về sản phẩm du lịch
Bảng 3.3 Kết quả xếp hạng theo khía cạnh (Trang 43)
Bảng 3.3 trình bày kết quả dự đốn xếp hạng cho mỗi khía cạnh được sắp xếp theo mức độ yêu thích của người dùng. - (LUẬN văn THẠC sĩ) phân tích quan điểm dựa theo khía cạnh và ứng dụng xác định sở thích của du khách về sản phẩm du lịch
Bảng 3.3 trình bày kết quả dự đốn xếp hạng cho mỗi khía cạnh được sắp xếp theo mức độ yêu thích của người dùng (Trang 43)
Hình 3.3: Biểu đồ so sánh điểm xếp hạng theo dự đoán và điểm xếp hạng theo dữ liệu đánh giá - (LUẬN văn THẠC sĩ) phân tích quan điểm dựa theo khía cạnh và ứng dụng xác định sở thích của du khách về sản phẩm du lịch
Hình 3.3 Biểu đồ so sánh điểm xếp hạng theo dự đoán và điểm xếp hạng theo dữ liệu đánh giá (Trang 44)
Bảng 3.4: Đánh giá bộ phân lớp SVM - (LUẬN văn THẠC sĩ) phân tích quan điểm dựa theo khía cạnh và ứng dụng xác định sở thích của du khách về sản phẩm du lịch
Bảng 3.4 Đánh giá bộ phân lớp SVM (Trang 44)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w