1. Trang chủ
  2. » Thể loại khác

Luận văn tự động xác định các ưu điểm nhược điểm trong các nhận xét online

35 10 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Luận Văn Tự Động Xác Định Các Ưu Điểm Nhược Điểm Trong Các Nhận Xét Online
Trường học Trường Đại Học
Chuyên ngành Công Nghệ Thông Tin
Thể loại luận văn
Định dạng
Số trang 35
Dung lượng 2,1 MB

Cấu trúc

  • CHƯƠNG 1: BÀI TOÁN PHÂN TÍCH QUAN ĐIỂM (4)
  • CHƯƠNG 2: BÀI TOÁN TỰ ĐỘNG XÁC ĐỊNH CÁC ƯU, NHƯỢC ĐIỂM CỦA CÁC NHẬN XÉT ONLINE (10)
    • 2.5. Dữ Liệu (18)
    • 2.6. Kết quả và thực nghiệm (20)
    • 2.7. Nghiên cứu của Kim và Hovy để tự động phát hiện các câu và các từ chứa quan điểm (20)
      • 2.7.1 Thu thập các nguồn dữ liệu (21)
        • 2.7.1.1 Thu thập 1: sử dụng WordNet (21)
        • 2.7.1.2 Thu thập 2: Dữ liệu WSJ (23)
        • 2.7.1.3 Thu thập 3: với Columbia Wordlist (24)
        • 2.7.1.4 Thu thập 4: Trộn dữ liệu cuối cùng (24)
  • CHƯƠNG 3: THỰC NGHIỆM (25)
    • 3.1 Công cụ và ngôn ngữ lập trình (25)
      • 3.1.1 Ngôn ngữ JAVA (25)
      • 3.1.2 Bộ công cụ NetBeans IDE 7 (26)
      • 3.2.3 Phương pháp (30)
      • 3.3.1 Một số giao diện chương trình (31)
      • 3.3.2 Giao diện chính (31)
  • KẾT LUẬN (34)
  • TÀI LIỆU THAM KHẢO (35)

Nội dung

BÀI TOÁN PHÂN TÍCH QUAN ĐIỂM

1 1 Nhu cầu về thông tin quan điểm và nhận xét

"Những gì người khác nghĩ" đã luôn luôn là một phần quan trọ

Giới thiệu một thợ cơ khí tự động hoặc yêu cầu tài liệu tham khảo liên quan đến việc xin việc từ các đồng nghiệp, hoặc tư vấn tiêu dùng sẽ giúp bạn có thêm thông tin và sự hỗ trợ cần thiết trong quá trình tìm kiếm việc làm.

, ộng lớn Và ngƣợc lại,

Theo hai cuộc khảo sát với hơn 2000 người Mỹ trưởng thành, 81% người dùng Internet (tương đương 60% dân số Mỹ) đã tìm kiếm thông tin về sản phẩm trực tuyến ít nhất một lần, trong đó 20% (15% tổng số người Mỹ) thực hiện điều này trong một ngày Đối với những người đọc đánh giá trực tuyến về nhà hàng, khách sạn và các dịch vụ khác, từ 73% đến 87% cho biết những đánh giá này có ảnh hưởng đáng kể đến quyết định mua hàng của họ Người tiêu dùng sẵn sàng trả thêm từ 20% đến 99% cho một sản phẩm có đánh giá 5 sao so với sản phẩm 4 sao Hơn nữa, 32% đã cung cấp đánh giá về sản phẩm hoặc dịch vụ thông qua hệ thống xếp hạng trực tuyến, trong đó 18% là những người dùng trực tuyến tích cực đã đăng bình luận hoặc đánh giá về sản phẩm hay dịch vụ.

5 ịch vụ không phải là động cơ duy nhấ ặc thể hiệ ực tuyến

Ví dụ, trong một cuộc khảo sát hơn 2500 người Mỹ trưởng thành, Rainie và Horrigan nghiên cứ

31% người Mỹ - trên 60 triệu người - 2006 ngườ , là những người thu thập thông tin về cuộc bầu cử năm 2006 trực tuyến và trao đổ

28% người tham gia cho biết họ tham gia hoạt động trực tuyến để chia sẻ quan điểm từ bên trong cộng đồng của mình, trong khi 34% cho rằng lý do chính là để tiếp nhận quan điểm từ bên ngoài cộng đồng.

• 27% đã xem đánh giá trực tuyến cho sự tán thành hoặc xếp hạng của các tổ chức bên ngoài

Theo khảo sát, 28% người dùng cho biết họ thường sử dụng các trang web để chia sẻ quan điểm của mình, trong khi 29% cho rằng phần lớn các trang web họ truy cập lại thách thức những quan điểm đó Điều này cho thấy nhiều người không chỉ đơn thuần tìm kiếm thông tin mà còn mong muốn đối diện với những ý kiến trái chiều.

ực tuyến bình luận chính trị riêng của họ

ằng trong khi đa số người sử dụng internet của Mỹ ệm tích cự ực tuyến, 58% cho rằng thông tin trực tuyế , , khó hiể

ự quan tâm mà ngườ nhận xét trực tuyến về sản phẩm và dịch vụ, ảnh hưở

Với sự bùng nổ của nền tảng Web 2 , diễn đàn thảo luận, peer-to-peer mạng, và các loại khác nhau củ

• Thống kê của Facebook: có hơn 500 triệu người dùng ở trạng thái hoạt động (active) mỗi người có trung bình 130 bạn (friends), trao đổi qua lại trên 900 triệu đối tƣợng

• Twitter (5/2011): có hơn 200 triệu người dùng Một ngày có hơn 300 nghìn tài khoản mới, trung bình hơn 190 triệu tin nhắn, xử lý trung bình khoảng 1,6 tỷ câu hỏi

Tại Việt Nam, các mạng xã hội như zing.vn và go.vn thu hút đông đảo người dùng chia sẻ kinh nghiệm và nhận xét cá nhân, cả tích cực lẫn tiêu cực Các công ty lớn ngày càng nhận ra rằng tiếng nói của người tiêu dùng có ảnh hưởng lớn trong việc hình thành nhận xét của người tiêu dùng khác, từ đó tác động đến quyết định mua sắm và phát triển thương hiệu Do đó, các công ty cần đáp ứng kịp thời với những phản hồi từ người tiêu dùng qua các phương tiện truyền thông xã hội.

Tuy nhiên, các nhà phân tích ngành công nghiệp lưu ý rằng việc tận dụng các phương tiện truyền thông mới cho mụ ảnh sản phẩm đòi hỏ ệ mới

Các nhà tiếp thị cần giám sát các phương tiện truyền thông để nắm bắt thông tin liên quan đến thương hiệu của họ, bao gồm hoạt động quan hệ công chúng, vi phạm gian lận và tình báo cạnh tranh Tuy nhiên, việc phân mảnh các phương tiện truyền thông đã làm cho việc theo dõi hành vi của người tiêu dùng trở nên khó khăn hơn Theo ước tính của Technorati, có khoảng 75.000 blog mới được ra mắt mỗi ngày.

7 đƣợc tạo ra mỗi ngày, cùng với 1, 2 triệu bài viết mỗi ngày, ều nhận xét người tiêu dùng thảo luận về sản phẩm và dịch vụ

Vì vậy, ân, , ệ thống có khả năng tự độ ủa người tiêu dùng

1 2 Lịch sử của phân tích quan điểm và khai thác quan điểm

(sentiment analysis) hay khai (opinion mining) gần đây đã thu hút đƣợc sự quan tâm rộ

ấ ộng nhận thức về các vấn đề nghiên cứu và cơ hộ

• Sự gia tăng của các phương pháp học máy, xử lý ngôn ngữ tự nhiên và khôi phục thông tin

• Sự sẵn có củ ữ liệ ật toán học máy, ủa Internet, cụ thể ự phát triể

• Thực hiện những thách thức trí tuệ, thương mại và các ứng dụ

Dave và các cộng sự đã xử lý một tập hợp các kết quả tìm kiếm cho một sản phẩm nhất định, từ đó tạo ra danh sách các thuộc tính sản phẩm như chất lượng và tổng hợp Họ cũng nhấn mạnh rằng các cụm từ song song có thể được áp dụng ở những khía cạnh nhất định (Das và Chen Tong, 2001).

" biểu thị cùng một lĩnh vực nghiên cứu

1 3 Nhiệm vụ của phân tích quan điểm

: ỹ thuật để bả (tích cực, tiêu cực hay trunglập)

: bao gồm 3 nhiệm vụ chính là:

1 4 Bài toán phân lớp quan điểm

(positive) hay tiêu cực (negative), (neutral)

Theo nghiên cứu của Bo Pang và Lillian Lee (2002), việc phân loại câu và tài liệu chỉ quan điểm không dựa trên sự nhận biết của từng từ hoặc cụm từ chỉ quan điểm Họ đã áp dụng phương pháp học máy có giám sát để phân loại các nhận xét liên quan đến phim ảnh.

Các nhà nghiên cứu sử dụng thuật toán Naive Bayes (NB), Maximum Entropy (ME) và Support Vector Machine (SVM) để phân loại các quan điểm mà không cần phân lớp các từ hay cụm từ chỉ quan điểm Phương pháp này đạt được độ chính xác từ 78,7% đến 82,9%.

Phân lớp tài liệu theo quan điểm thực sự là một thách thức trong xử lý ngôn ngữ do tính phức tạp của ngôn ngữ con người, đặc biệt là sự đa nghĩa và nhập nhằng Sự nhập nhằng này ảnh hưởng đến độ chính xác của bộ phân lớp Một thách thức lớn là phân biệt quan điểm với phân loại chủ đề truyền thống, khi mà các chủ đề được nhận dạng qua từ khóa đơn lẻ, trong khi quan điểm yêu cầu sự tinh tế hơn Ví dụ, câu hỏi “Làm thế nào để ai đó có thể ngồi xem hết bộ phim này?” không chỉ có nghĩa duy nhất mà thể hiện rõ ý nghĩa tiêu cực, cho thấy rằng việc hiểu quan điểm cần có sự sâu sắc hơn.

Nhiệm vụ của bài toán phân lớp quan điểm

Bài toán phân lớp quan điểm, hay còn gọi là phân lớp tài liệu, nhằm mục đích phân loại tài liệu theo định hướng quan điểm Nhiều phương pháp đã được nghiên cứu để giải quyết vấn đề này, và có thể chia thành hai nhiệm vụ chính để thực hiện.

 Trích các đặc trƣng nhằm khai thác các thông tin chỉ quan điểm phục vụ mục đích phân loại tài liệu theo định hướng ngữ nghĩa

 Xây dựng mô hình để phân lớp các tài liệu

BÀI TOÁN TỰ ĐỘNG XÁC ĐỊNH CÁC ƯU, NHƯỢC ĐIỂM CỦA CÁC NHẬN XÉT ONLINE

Dữ Liệu

Họ thu thập dữ liệu từ hai nguồn khác nhau:

Dữ liệu từ epinions.com chủ yếu được sử dụng để huấn luyện hệ thống, trong khi dữ liệu từ complaints.com được dùng để kiểm tra các mô hình đã huấn luyện trên dữ liệu mới.

Complaints.com là một cơ sở dữ liệu lớn chứa các nhận xét của người tiêu dùng về nhiều sản phẩm, dịch vụ và công ty trong hơn 6 năm Đánh giá trên complaints.com khác với các trang web khác vì chúng không liên kết trực tiếp với các trung tâm mua sắm trực tuyến như amazon.com hay epinions.com Mục đích chính của những đánh giá này là chia sẻ kinh nghiệm tiêu cực của người tiêu dùng và cảnh báo doanh nghiệp về phản hồi từ khách hàng Mặc dù một số nhận xét tích cực cũng xuất hiện, nhưng không có dữ liệu được gán nhãn để xây dựng hệ thống xác định nguyên nhân của complaints.com Để khắc phục, giả thuyết rằng lý do trong các nhận xét tương tự như khuyết điểm trong các đánh giá khác đã được đưa ra Hệ thống đã được phát triển bằng cách sử dụng dữ liệu từ epinions.com để áp dụng kỹ thuật gán nhãn tự động, từ đó xác định lý do trong các đánh giá trên complaints.com.

2 5.1 Tập dữ liệu 1: Tự động gắn nhãn dữ liệu

Họ đã thu thập hai loại nhận xét khác nhau từ epinions.com, bao gồm đánh giá sản phẩm và đánh giá nhà hàng Đối với đánh giá sản phẩm, tổng cộng có 3.241 nhận xét (115.029 câu) về máy nghe nhạc MP3 từ các nhà sản xuất như Apple, iRiver, Creative Lab và Samsung.

They collected 7,524 reviews (194,393 sentences) on various types of restaurants, including family restaurants, Mexican eateries, fast food chains, steakhouses, and Asian restaurants The average sentence counts in the reviews were 35, 49, and 25.89, respectively.

Mục đích của việc lựa chọn các sản phẩm điện tử và nhà hàng trong nghiên cứu là để thử nghiệm phương pháp tiếp cận trong hai tình huống khác nhau Người tiêu dùng thường thích hoặc không thích một sản phẩm dựa trên các đặc trưng cụ thể và hữu hình như dễ sử dụng, độ bền, pin, chất lượng hình ảnh và độ chớp của máy ảnh kỹ thuật số Do đó, chúng ta có thể mong đợi rằng lý do trong đánh giá thiết bị điện tử sẽ chia sẻ những từ mô tả các đặc trưng sản phẩm, chẳng hạn như “short” hoặc “long” cho “battery life”, giúp việc xác định lý do trở nên dễ dàng hơn.

On the other hand, restaurant reviews highlight a wide range of aspects and abstract characteristics, such as various reasons for their experiences For instance, one might feel as though they are in a bustling train station or a crowded amusement park that lacks sufficient staff to meet the high demand.

“preferential treatment given to large groups”, và“they don't offer salads of any kind” là khó để dự đoán

Họ đã tự động gán nhãn từng câu trong các đánh giá từ mỗi miền, mô tả các đặc trƣng như ưu điểm và nhƣợc điểm Dữ liệu được chia thành hai phần: dữ liệu huấn luyện và dữ liệu thử nghiệm.

Họ tiến hành huấn luyện mô hình bằng cách sử dụng tập huấn luyện và kiểm tra hiệu suất của nó trên tập thử nghiệm để xác định khả năng gán nhãn chính xác các câu.

2.5 2 Tập dữ liệu 2: Dữ liệu Complaints.com

Dựa trên cơ sở dữ liệu từ complaints.com, nhóm nghiên cứu đã phân tích các chủ đề và nhận xét từ 59 khiếu nại liên quan đến máy nghe nhạc MP3 và 322 đánh giá về nhà hàng Họ đã tiến hành thử nghiệm hệ thống của mình trên tập dữ liệu này và so sánh kết quả với các nhận định được xác định bởi con người.

Kết quả và thực nghiệm

Bài viết mô tả hai mục đích chính của thực nghiệm Đầu tiên, nó phân tích cách mà mô hình phát hiện có thể nhận diện các ưu và nhược điểm thông qua việc kết hợp các đặc trưng khác nhau từ dữ liệu thu thập được từ epinions.com Thứ hai, nó xem xét cách thức mà mô hình huấn luyện tốt nhất có thể áp dụng cho dữ liệu mới từ một nguồn khác, cụ thể là complaint.com.

Trong nghiên cứu này, cả hai tập dữ liệu được áp dụng cho cả hai phần của thực nghiệm, bao gồm nhận xét về máy nghe nhạc MP3 và nhà hàng Các nhà nghiên cứu đã phân chia dữ liệu để phân tích hiệu quả hơn.

80 % dữ liệu cho huấn luyện, 10 % cho phát triển và 10% cho đánh giá kết quả.

Nghiên cứu của Kim và Hovy để tự động phát hiện các câu và các từ chứa quan điểm

Xác định mức độ chủ quan của câu là một khía cạnh quan trọng trong phân tích ngữ nghĩa Wilson và Wiebe (2003) đã phát triển lược đồ gán nhãn cho các câu chủ quan và tạo ra ngữ liệu MQPA với các bài báo được gán nhãn thủ công Nhiều phương pháp khác cũng đã được áp dụng để học các từ và cụm từ có dấu hiệu chủ quan Turney (2002) và Wiebe (2000) tập trung vào việc học các cụm tính từ và trạng từ, trong khi Wiebe và các cộng sự (2001) chú trọng vào các danh từ Riloff và các cộng sự (2003) đã thực hiện việc trích xuất danh từ, góp phần quan trọng vào nghiên cứu về chủ nghĩa chủ quan.

(2003) đã trích các mẫu cho các thể hiện chủ quan sử dụng quá trình học tăng cường

2.7.1 Thu thập các nguồn dữ liệu

Họ phát triển một bộ từ vựng bao gồm cả từ không chứa quan điểm và từ chứa quan điểm, sau đó kết hợp chúng để tạo ra danh sách từ ngữ tin cậy hơn Kết quả là họ đã xây dựng được một danh sách từ vựng bổ sung cho từ điển của Đại học Columbia.

2.7.1.1 Thu thập 1: sử dụng WordNet

Để thu thập dữ liệu về quan điểm, nhóm nghiên cứu đã bắt đầu bằng cách thủ công lập danh sách 34 tính từ và 34 động từ Mặc dù phân lớp đầu tiên đạt độ chính xác cao khi chỉ tìm kiếm các câu chứa quan điểm, nhưng độ hồi tưởng thấp do danh sách từ quá hạn chế Để khắc phục điều này, họ mở rộng danh sách từ bằng cách sử dụng WordNet, với giả thuyết rằng các từ đồng nghĩa và trái nghĩa của từ chứa quan điểm cũng có thể mang tính chất quan điểm Ví dụ, những từ như "nice, virtuous, pleasing, well-behaved, gracious, honorable, righteous" được xem là từ đồng nghĩa cho quan điểm tích cực.

Các từ "good" và "bad, evil, disreputable, unrighteous" là những từ trái nghĩa, nhưng không phải tất cả từ đồng nghĩa và trái nghĩa đều có thể sử dụng trong mọi ngữ cảnh Một số từ như "solid, hot, full, ample" có thể mang tính chất quan điểm hoặc không Điều này cho thấy cần thiết phải xác định mức độ giá trị của từ Để đo lường mức độ "gần nhất chứa quan điểm", một danh sách từ chứa quan điểm đã được tạo ra bằng tay và các từ liên quan được xác định thông qua WordNet Nhằm tránh thu thập từ không phổ biến, nghiên cứu bắt đầu với danh sách từ cơ bản cho sinh viên chuẩn bị thi TOEFL, từ đó ngẫu nhiên chọn 462 tính từ và 502 động từ để gán nhãn Các nhà nghiên cứu đã gán nhãn các từ này là chứa quan điểm hoặc không chứa quan điểm Để đo độ nhấn mạnh quan điểm, họ tính khoảng cách WordNet của từ đích với hai tập từ được chọn bằng tay và các từ mở rộng hiện tại, từ đó xác định một từ mới vào phân loại gần hơn.

Công thức cho tiếp cận này nhƣ sau:

Trong đó: c là một bình luận (chứa quan điểm hoặc không chứa quan điểm) w là từ đích

Syn n là các từ đồng nghĩa hoặc trái nghĩa của từ đã cho bởi WordNet Để tính toán công thức (1), họ xây dựng mô hình phân loại, công thức (2):

Trong đó f k là đặc trƣng của c, nó cũng là thành viên của tập các từ mục tiêu w

Count(f k , synset(w)) là tổng tất cả sự xuất hiện của fk trong tập các từ đồng nghĩa của w

Mô hình này nhằm mục đích phân loại tài liệu bằng cách sử dụng tập từ đồng nghĩa từ WordNet Qua quá trình mở rộng, họ đã thu được 2682 tính từ mang quan điểm, 2548 tính từ không mang quan điểm, và 1329 động từ chứa quan điểm.

Bài viết đề cập đến 1760 động từ không chứa quan điểm và nhấn mạnh giá trị của chúng Thông qua việc sử dụng các từ đặc trưng, nhóm nghiên cứu đã xây dựng mô hình phân lớp Naive Bayesian, đạt được kết quả phân lớp với 32,373 từ.

2.7.1.2 Thu thập 2: Dữ liệu WSJ

Các thí nghiệm với tập dữ liệu hiện tại không mang lại kết quả khả quan cho văn bản tùy ý, chủ yếu do các kết nối từ đồng nghĩa trong WordNet không đủ phong phú Tuy nhiên, nếu chúng ta nắm được tần suất tương đối của từ trong các văn bản có quan điểm so với những văn bản không có quan điểm, chúng ta có thể áp dụng thông tin thống kê thay vì chỉ dựa vào thông tin từ vựng Để khắc phục những hạn chế này, nhóm nghiên cứu đã thu thập một lượng lớn dữ liệu.

Theo Yu và Hatzivassi-loglou (2003), các từ xuất hiện thường xuyên trong bài xã luận và thư cho biên tập viên có khả năng chứa quan điểm, mặc dù bài xã luận cũng bao gồm các câu sự kiện thực tế Họ đã sử dụng bộ sưu tập TREC để thu thập, trích rút và phân loại tài liệu từ Wall Street Journal thành hai loại: Editorial và Non-Editorial, dựa trên sự xuất hiện của các từ khóa như "Letters to Editor", "Letter to Editor" hoặc "Editor" trong tiêu đề Kết quả là có tổng cộng 7.053 tài liệu biên tập và 166.025 tài liệu không biên tập.

Họ phân loại các từ có quan điểm và không có quan điểm bằng cách phân tích tần suất xuất hiện của chúng trong hai bộ sưu tập tài liệu, sử dụng xác suất thông qua công cụ SRILM, một bộ công cụ ngôn ngữ mô hình của SRI Đối với mỗi từ W xuất hiện trong một trong các bộ tài liệu, họ thực hiện các phép tính cần thiết để xác định tính chất của từ đó.

Họ áp dụng phương pháp Kneser-Ney (Kneser và Ney, 1995) để làm mịn các từ chưa biết hoặc hiếm gặp Để tính toán xác suất cho các từ này, họ sử dụng tỷ lệ điểm của W theo công thức sau.

Điểm số (W) cho thấy xu hướng của từng từ trong văn bản biên tập và không biên tập, với tổng cộng 86.674.738 từ được phân tích Những từ có điểm gần 1 thường không đáng tin cậy, do đó, một bộ lọc đã được áp dụng Họ chia mỗi tập hợp Editorial và non-Editorial thành 3 tập con và tính toán điểm (W) cho từng từ trong cặp con {Editorial, non-Editorial} Chỉ những từ có điểm lớn hơn 1 hoặc nhỏ hơn 1 trong tất cả 3 cặp tập con mới được giữ lại, tức là những từ thể hiện xu hướng lặp lại theo Editorial hoặc non-Editorial Quy trình này đã giúp loại bỏ nhiều từ không cần thiết, giảm xuống còn 15.568 từ.

2.7.1.3 Thu thập 3: với Columbia Wordlist

Việc phân đoạn các bài báo của WSJ thành Editorial và non-Editorial thể hiện sự khác biệt rõ ràng Để so sánh hiệu quả thực hiện ý tưởng này với nghiên cứu của Yu và Hatzivassiloglou từ Đại học Columbia, họ đã truy vấn danh sách từ ngữ Danh sách này bao gồm 167.020 tính từ, 72.352 động từ, 168.614 danh từ và 9.884 trạng từ, với con số này có xu hướng tăng do việc đếm các biến thể từ vựng và dấu câu Sau khi trộn lẫn, họ đã tạo ra một bộ sưu tập 4, từ đó chọn ra 2.000 từ có quan điểm và 2.000 từ không có quan điểm cho danh sách từ cuối cùng.

2.7.1.4 Thu thập 4: Trộn dữ liệu cuối cùng

Đến nay, các từ đã được phân loại thành hai nhóm: chứa quan điểm và không chứa quan điểm, thông qua hai phương pháp khác nhau Phương pháp đầu tiên tính toán mức độ gần gũi với các tập từ được chọn thủ công từ từ điển WordNet, từ đó xác định lớp và độ chắc chắn của chúng Tuy nhiên, khi một từ có mức độ gần tương đương cho cả hai lớp, việc xác định chủ đề trở nên khó khăn.

25 quan của nó, và khi WordNet không chứa một từ hoặc các từ đồng nghĩa của nó, chẳng hạn nhƣ từ "antihomosexsual", họ không phân loại nó

Phương pháp phân loại từ dựa trên các văn bản WSJ ít đáng tin cậy hơn so với các phương pháp từ vựng, nhưng vẫn thành công với ví dụ "antihomosexual" Do đó, các nhà nghiên cứu kết hợp kết quả từ hai phương pháp (collections 1 và 2) để bù đắp cho những đặc tính khác nhau của chúng Họ cũng tích hợp 4000 từ từ danh sách từ Columbia để tạo ra danh sách từ cuối cùng.

Khi ba danh sách bao chứa mức độ từ 0 đến 1, chúng được tính trung bình và bình thường hóa trong khoảng từ -1 đến +1, với giá trị lớn gần 1 thể hiện quan điểm tích cực Những từ có giá trị hấp dẫn cao trong cả ba bộ sưu tập sẽ có mức độ tích cực toàn bộ cao nhất Trong trường hợp có sự xung đột trong bỏ phiếu giữa ba danh sách cho một từ, mức độ của từ đó sẽ tự động bị suy yếu.

THỰC NGHIỆM

Công cụ và ngôn ngữ lập trình

Java là một ngôn ngữ lập trình mạnh mẽ và phổ biến trên toàn cầu, không chỉ là ngôn ngữ mà còn là một nền tảng và công nghệ phát triển độc đáo Khi lập trình với Java, người dùng có thể tận dụng một thư viện phong phú và mã nguồn mở, cho phép tái sử dụng mã hiệu quả Hơn nữa, các ứng dụng viết bằng Java được thực thi trong một môi trường an toàn, với khả năng triển khai trên nhiều hệ điều hành khác nhau.

Java là ngôn ngữ lập trình hướng đối tượng (OOP) được thiết kế để biên dịch mã nguồn thành bytecode, cho phép chạy nhanh hơn các ngôn ngữ thông dịch như Python, Perl và PHP Phát triển từ C++ và kế thừa cú pháp của C, Java cung cấp cú pháp hướng đối tượng đơn giản hơn và ít tính năng xử lý cấp thấp hơn.

3.1.2 Bộ công cụ NetBeans IDE 7

NetBeans IDE is an Integrated Development Environment (IDE) similar to Microsoft's Visual Studio, and it is considered an essential suite of applications for software developers.

NetBeans IDE là một công cụ phát triển tích hợp hỗ trợ nhiều hệ điều hành như Windows, Mac, Linux và Solaris Nó bao gồm mã nguồn mở và nền tảng ứng dụng giúp các nhà phát triển nhanh chóng tạo ra ứng dụng cho web, doanh nghiệp, desktop và thiết bị di động bằng các ngôn ngữ lập trình như Java, C/C++, JavaScript, Ruby, Groovy và PHP.

Bài toán tự động xác định ƣu điểm và nhƣợc điểm của các nhận xét online đƣợc thực hiện gồm có hai pha làm việc nhƣ sau:

1 Khai thác dữ liệu từ các trang Web chứa các bình luận có dạng:

Pros: Great photos easy to use, very small

Cons: Battery usage: included memory is stingy

I had never used a digital camera prior to purchasing have always used a SLR…

Thực hiện quá trình gán nhãn một cách tự động cho các câu là ƣu điểm, nhƣợc điểm dựa vào các tóm tắt ƣu, nhƣợc điểm ở mỗi bình luận

Dữ liệu được gán nhãn sẽ được sử dụng làm dữ liệu huấn luyện để áp dụng các phương pháp phân lớp cho các bình luận không có dạng ưu và nhược điểm.

Hầu hết các phương pháp phân lớp quan điểm hiện nay đều dựa trên dữ liệu đã được gán nhãn và thường được thực hiện thủ công Điều này dẫn đến chi phí cao và tốn kém trong việc xây dựng các ngữ liệu huấn luyện cần thiết.

Việc phát triển các phương pháp gán nhãn tự động để tạo ra bộ ngữ liệu có ý nghĩa không chỉ mang lại lợi ích cho nghiên cứu lý thuyết mà còn có giá trị kinh tế đáng kể Dữ liệu được khai thác tự động sẽ hỗ trợ việc thu thập các thông tin đa dạng và phong phú, từ đó thúc đẩy sự phát triển của các ứng dụng thực tiễn.

2 Sử dụng các phương pháp phân lớp để xác định các ưu và nhược điểm trên các nhận xét online dựa trên dữ liệu huấn luyện đã thu thập đƣợc

Trong đồ án này, chúng tôi thực hiện gán nhãn tự động cho các câu trong bình luận, phân loại chúng thành ưu điểm và nhược điểm của sản phẩm hoặc dịch vụ Dữ liệu thu được sẽ được sử dụng để huấn luyện mô hình phân lớp, nhằm xác định thông tin về xu hướng người dùng đối với sản phẩm hoặc dịch vụ.

Input: Các bình luận đƣợc thu thập từ các trang Web

Output : Các câu trong bình luận được gán nhãn tương ứng với các ưu điểm,nhƣợc điểm đƣợc tóm tắt ở đầu mỗi bình luận

Chúng tôi thu thập 50 bình luận về thế hệ điện thoại thông minh từ trang http: //www epinions.comđể làm dữ liệu đầu vào cho bài toán

Một bình luận có dạng:

Pros : good lookc slim, usable, fast Internet services, good picture quality

My papa brought me Samsung Galaxy S II Smart phone on my birthday

It is really useful and fantastic phone to use

I can browse the Internet through this and can take pictures, videos.I like to watch videos in my phone

I can easily find my nearest restaurants and other places through it it has high picture quality and videos

I like to play games on it

The games are interesting and easily down loadable

I have taken my baby pictures with this product

The lightweight and slim design of smartphones makes them convenient for daily use, allowing my husband to easily check his work emails on the go without causing discomfort during extended usage.

Since it is based on Android 4.0 we already know that it has a solid base

Samsung flexed its software chops with the S III in a way that sets the phone apart from its competitors

Samsung did some really interesting things with the camera

The curved bump on the phone’s bottom can make it hard to hold, and the battery life needs improvement

A faster processor enhances the smoothness of a phone's user interface, allowing for quicker web browsing, app usage, and media streaming Additionally, the front-facing camera is ideal for video chats, while the 8-megapixel rear camera captures high-quality photos, aided by an LED flash.

The device’s total storage capacity is an impressive 48GB, with 16GB installed and up to an additional 32GB through an external microSD card

The larger screen allowed me to adjust from a hard qwerty keyboard to the soft one on screen with ease

The display provides great viewing and the ability to join emails and other social accounts is the best

Once I figure out how to make the Voice Actions work I'm sure it will be a total plus for me

Chúng tôi đã thực hiện việc gán nhãn các câu trong 50 bình luận, tương ứng với các ưu điểm và nhược điểm đã được liệt kê bằng tay, nhằm phục vụ cho quá trình đánh giá dữ liệu.

Một bình luận đƣợc gán nhãn có dạng sau:

Pros:P1=good look,P2= slim,P3= usable, P4t Internet services,P5= good picture quality

My papa brought me Samsung Galaxy S II Smart phone on my birthday

P3:It is really useful and fantastic phone to use.I can browse the Internet through this and can take pictures, videos

I like to watch videos in my phone

P1:I can easily find my nearest restaurants and other places through it.it has high picture quality and videos

I like to play games on it The games are interesting and easily down loadable P5:I have taken my baby pictures with this product The photos are great

The smart phone is usable for my husband for checking mails for job purpose

P2=Thin and light smartphones are easy to carry around and easier on the hand with extended use

Since it is based on Android 4.0 we already know that it has a solid base

Samsung flexed its software chops with the S III in a way that sets the phone apart from its competitors

Samsung did some really interesting things with the camera

C1:The curved bump on the phone’s bottom can make it hard to hold, and the battery life needs improvement

P4:The faster the processor, the smoother a phone’s user interface, and the quicker you can browse the web, run apps and stream media

30 front-facing camera is great for video chatting, and the 8-megapixel primary camera on the back snaps high-quality photos – an LED flash helps

The device’s total storage capacity is an impressive 48GB, with 16GB installed and up to an additional 32GB through an external microSD card

The larger screen allowed me to adjust from a hard qwerty keyboard to the soft one on screen with ease

P9=The display provides great viewing and the ability to join emails and other social accounts is the best

Once I figure out how to make the Voice Actions work I'm sure it will be a total plus for me

Dựa trên phân tích dữ liệu thực tế và các nghiên cứu trước, người dùng thường sử dụng tính từ, trạng từ và một số dạng mở rộng của động từ để thể hiện nhận xét về các đặc trưng của sản phẩm và dịch vụ Các đặc trưng này, hay chính sản phẩm và dịch vụ, được biểu hiện thông qua các danh từ.

Ví dụ: trong một đánh giá ƣu điểm: “good picture quality”

Thì “pictrure quality” là cụm danh từ thể hiện đặc trƣng của sản phẩm, còn

“good” là tính từ thể hiện nhận xét về đặc trƣng đó

Chúng tôi áp dụng một phương pháp đơn giản để gán nhãn ưu, nhược điểm cho các câu bằng cách tìm kiếm các danh từ và sự xuất hiện của chúng cùng với các tính từ, trạng từ và động từ liên quan, được tóm tắt ở đầu bình luận trong các câu nhận xét.

Chương trình thử nghiệm gán nhãn đã được thực hiện trên 50 bình luận thu thập từ trang web http://www.epinions.com Chúng tôi tiến hành so sánh kết quả của chương trình với bộ dữ liệu đã được gán nhãn bằng tay để đánh giá tính chính xác và hiệu quả.

3.3.1 Một số giao diện chương trình:

Ngày đăng: 05/08/2021, 22:07

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w