1. Trang chủ
  2. » Thể loại khác

Luận văn tìm hiểu về phương pháp trích và sắp xếp các đặc trưng sản phẩm trong tài liệu chứa quan điểm

39 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Luận Văn Tìm Hiểu Về Phương Pháp Trích Và Sắp Xếp Các Đặc Trưng Sản Phẩm Trong Tài Liệu Chứa Quan Điểm
Thể loại luận văn
Định dạng
Số trang 39
Dung lượng 2,05 MB

Cấu trúc

  • CHƯƠNG 1: BÀI TOÁN PHÂN TÍCH QUAN ĐIỂM (4)
    • 1.1 Nhu cầu về thông tin quan điểm và nhận xét (4)
    • 1.2 Lịch sử của phân tích quan điểm và khai thác quan điểm (7)
    • 1.3 Nhiệm vụ của phân tích quan điểm (7)
  • CHƯƠNG 2: PHƯƠNG PHÁP TRÍCH VÀ SẮP XẾP ĐẶC TRƯNG SẢN PHẨM (9)
    • 2.1 Giới thiệu khai thác đặc trưng (9)
    • 2.2 Một số phương pháp khai thác đặc trưng (10)
    • 2.3 Phương pháp trích và sắp xếp các đặc trưng quan điểm về sản phẩm (12)
      • 2.3.1 Double propagation (16)
      • 2.3.2 Mối quan hệ bộ phận - toàn bộ (Part-whole relation) (20)
        • 2.3.2.1 Mẫu cụm từ (Phrases pattern) (21)
        • 2.3.2.2 Mẫu câu (Sentence pattern) (21)
      • 2.3.3 Mẫu “No” (22)
      • 2.3.4 Đồ thị hai nhánh và thuật toán HITS (23)
      • 2.3.5 Sắp xếp đặc trưng (25)
    • 2.4 Kết quả và thảo luận (26)
      • 2.4.1 Tập dữ liệu (26)
      • 2.4.2 Đánh giá số liệu (26)
      • 2.4.3 Kết quả thử nghiệm (27)
  • CHƯƠNG 3: THỰC NGHIỆM (30)
    • 3.1 Công cụ gán nhãn từ loại Stanford Parser (30)
      • 3.1.1 Giới thiệu (30)
      • 3.1.2 Cách sử dụng (31)
    • 3.2 Chương trình thực nghiệm (31)
      • 3.2.1 Bài toán (31)
        • 3.2.1.1 Bộ dữ liệu (32)
        • 3.2.1.2 Phương pháp (32)
      • 3.2.2 Kết quả (0)
  • KẾT LUẬN (37)
  • TÀI LIỆU THAM KHẢO (39)

Nội dung

BÀI TOÁN PHÂN TÍCH QUAN ĐIỂM

Nhu cầu về thông tin quan điểm và nhận xét

"Những gì người khác nghĩ" đóng vai trò quan trọng trong việc giới thiệu một thợ cơ khí tự động, cũng như trong việc xin tài liệu tham khảo từ đồng nghiệp hoặc sự tư vấn từ những người có kinh nghiệm Điều này thể hiện sự cần thiết của việc xây dựng mối quan hệ và uy tín trong ngành nghề.

Theo hai cuộc khảo sát với hơn 2000 người Mỹ trưởng thành, 81% người dùng Internet đã từng tìm kiếm thông tin trực tuyến về sản phẩm, trong đó 20% thực hiện điều này trong một ngày Đối với các đánh giá trực tuyến về nhà hàng và dịch vụ khác, từ 73% đến 87% người tiêu dùng cho biết đánh giá có ảnh hưởng đáng kể đến quyết định mua hàng của họ Người tiêu dùng sẵn sàng chi trả từ 20% đến 99% cho một sản phẩm có đánh giá 5 sao so với sản phẩm chỉ có 4 sao Có 32% người dùng đã cung cấp đánh giá cho sản phẩm hoặc dịch vụ thông qua hệ thống xếp hạng trực tuyến, trong đó 18% là những người thường xuyên tham gia bình luận hoặc đánh giá trực tuyến.

Ví dụ, trong một cuộc khảo sát hơn 2500 người Mỹ trưởng thành, Rainie và Horrigan Đặng Thị Ngọc Thanh CT1201 - 5 - nghiên cứ 31% người Mỹ - trên 60 triệu người - 2006 ngườ

, là những người thu thập thông tin về cuộc bầu cử năm 2006 trực tuyến và trao đổ Trong số này:

Theo một khảo sát, 28% người tham gia cho biết họ sử dụng hoạt động trực tuyến để hiểu quan điểm từ bên trong cộng đồng của mình, trong khi 34% cho rằng lý do chính là để tiếp cận quan điểm từ bên ngoài cộng đồng.

• 27% đã xem đánh giá trực tuyến cho sự tán thành hoặc xếp hạng của các tổ chức bên ngoài

28% người dùng cho biết họ sử dụng các trang web để chia sẻ quan điểm, trong khi 29% cho rằng những trang web này thách thức quan điểm của họ, cho thấy rằng nhiều người không chỉ tìm kiếm sự xác nhận về quan điểm chính trị cá nhân Mặc dù đa số người dùng internet ở Mỹ tham gia tích cực vào các hoạt động trực tuyến, 58% lại cho rằng thông tin trên mạng rất khó hiểu.

ự quan tâm mà ngườ ng các ý kiến trực tuyến về sản phẩm và dịch vụ ảnh hưở

Với sự bùng nổ của nền tả , diễn đàn thảo luận, peer-to-peer mạng, và các loại khác nhau củ Đặng Thị Ngọc Thanh CT1201 - 6 -

• Thống kê của Facebook: có hơn 500 triệu người dùng ở trạng thái hoạt động (active) mỗi người có trung bình 130 bạn (friends), trao đổi qua lại trên

• Twitter (5/2011): có hơn 200 triệu người dùng Một ngày có hơn 300 nghìn tài khoản mới, trung bình hơn 190 triệu tin nhắn, xử lý trung bình khoảng 1,6 tỷ câu hỏi

Tại Việt Nam, các mạng xã hội như zing.vn và go.vn thu hút đông đảo người dùng, nơi họ chia sẻ ý kiến và kinh nghiệm, cả tích cực lẫn tiêu cực Các công ty lớn ngày càng nhận thức được rằng tiếng nói của người tiêu dùng có ảnh hưởng lớn trong việc hình thành quyết định mua sắm và xây dựng thương hiệu Do đó, việc tương tác với người tiêu dùng qua các nền tảng truyền thông xã hội trở thành một chiến lược quan trọng trong hoạt động marketing của họ.

Tuy nhiên, các nhà phân tích ngành công nghiệp lưu ý rằng việc tận dụng các phương tiện truyền thông mới cho mụ ình ảnh sản phẩm đòi hỏ ệ mới

Các nhà tiếp thị cần giám sát các phương tiện truyền thông để theo dõi thông tin liên quan đến thương hiệu, bao gồm hoạt động quan hệ công chúng, vi phạm gian lận và tình báo cạnh tranh Tuy nhiên, việc theo dõi này trở nên khó khăn do sự phân mảnh của các phương tiện truyền thông Theo Technorati, có khoảng 75.000 blog mới được tạo ra mỗi ngày, cùng với 1,2 triệu bài viết hàng ngày từ người tiêu dùng thảo luận về sản phẩm và dịch vụ.

Vì vậ ệ thống có khả năng tự độ ủa người tiêu dùng.

Lịch sử của phân tích quan điểm và khai thác quan điểm

(opinion mining) gần đây đã thu hút được sự quan tâm rộ ấ ộng nhận thức về các vấn đề nghiên cứu và cơ hộ

• Sự gia tăng của các phương pháp học máy, xử lý ngôn ngữ tự nhiên và khôi phục thông tin

• Sự sẵn có củ ữ liệ ật toán họ ủa Internet, cụ thể ự phát triể

• Thực hiện những thách thức trí tuệ, thương mại và các ứng dụ

Xử lý một tập hợp các kết quả tìm kiếm cho một sản phẩm nhất định giúp tạo ra danh sách các thuộc tính sản phẩm như chất lượng và nhiều yếu tố khác Việc tổng hợp thông tin này cho phép người tiêu dùng dễ dàng so sánh và lựa chọn sản phẩm phù hợp.

" biểu thị cùng một lĩnh vực nghiên cứu.

Nhiệm vụ của phân tích quan điểm

(Sentiment Extraction) Đặng Thị Ngọc Thanh CT1201 - 8 -

: ỹ thuật để văn bả (tích cực, tiêu cực hay trung lập)

: bao gồm 3 nhiệm vụ chính là:

3 Đặng Thị Ngọc Thanh CT1201 - 9 -

PHƯƠNG PHÁP TRÍCH VÀ SẮP XẾP ĐẶC TRƯNG SẢN PHẨM

Giới thiệu khai thác đặc trưng

Khai thác các quan điểm của con người thông qua đặc trưng của thực thể là một nhiệm vụ quan trọng Việc tìm ra cách thức để khai thác những đặc trưng từ kho ngữ liệu đã thu hút sự quan tâm của nhiều nghiên cứu, như các công trình của Hu và Liu (2004), Popescu và Etzioni (2005), Kobayashi và cộng sự (2007), Scaffidi và cộng sự (2007), Stoyanov và Cardie (2008), Wong và cộng sự (2008), cũng như Qiu và cộng sự (2009).

Phương pháp Double propagation (truyền kép) là một kỹ thuật không giám sát tiên tiến, được phát triển bởi Qiu và cộng sự vào năm 2009, nhằm giải quyết vấn đề trích xuất đặc trưng từ ngữ liệu có kích thước trung bình Mặc dù có hiệu quả, phương pháp này thường dẫn đến việc tạo ra nhiều dữ liệu thừa và có độ chính xác thấp, đồng thời có thể bỏ lỡ các đặc trưng quan trọng Để khắc phục những hạn chế này, Zhang và các cộng sự đã đề xuất một phương pháp khai thác đặc trưng mới.

Họ đã cải tiến phương pháp của Qiu và các cộng sự (2009) bằng cách sử dụng mẫu bộ phận - toàn bộ và mẫu “No” để nâng cao độ hồi tưởng Quan hệ bộ phận - toàn bộ, hay meronymy, là một khái niệm ngữ nghĩa quan trọng trong NLP, cho thấy rằng một hoặc nhiều đối tượng có thể là phần của một đối tượng khác.

Quan hệ giữa các đặc trưng và lớp sản phẩm rất quan trọng trong việc khai thác thông tin Mẫu “No” thường được sử dụng để thể hiện ý kiến ngắn gọn về các đặc trưng, với cấu trúc cơ bản là từ “No” theo sau bởi một danh từ hoặc cụm danh từ Việc áp dụng các mẫu này giúp phát hiện các đặc trưng bị thiếu sót trong quá trình lan truyền thông tin Để cải thiện độ chính xác, các đặc trưng được sắp xếp dựa trên mức độ liên quan và tần suất xuất hiện Cụ thể, những ứng cử viên đặc trưng nào chính xác và thường xuyên xuất hiện trong kho ngữ liệu sẽ được ưu tiên sắp xếp cao hơn, trong khi những đặc trưng ít được đề cập sẽ bị xếp hạng thấp hơn Tần suất xuất hiện của một đặc trưng trong kho ngữ liệu dễ dàng được xác định, nhưng việc đánh giá sự phù hợp của chúng lại là một thách thức Các vấn đề này được mô hình hóa dưới dạng đồ thị hai nhánh và sử dụng thuật toán HITS từ các trang web nổi tiếng để xử lý.

Năm 1999, các nhà nghiên cứu đã khám phá tầm quan trọng và cách sắp xếp các đặc trưng trong quá trình tìm kiếm Kết quả thử nghiệm của họ cho thấy hiệu suất vượt trội, khẳng định rằng sắp xếp không chỉ quan trọng trong việc khai thác đặc trưng mà còn giúp người dùng dễ dàng nhận diện các đặc trưng quan trọng từ hàng trăm ứng cử viên hiệu quả.

Một số phương pháp khai thác đặc trưng

Hu và Liu (2004) đã sử dụng kỹ thuật gán nhãn từ loại và xử lý ngôn ngữ tự nhiên để xác định các tính từ và từ chỉ quan điểm Họ nhận thấy rằng những người bình luận thường sử dụng ngôn từ tương tự khi đánh giá các đặc trưng của sản phẩm.

- Định nghĩa một câu mà chứa một hay nhiều dấu hiệu sản phẩm và từ chỉ quan điểm được xem là một câu chỉ quan điểm

- ỗi câu trong dữ liệu chỉ quan điểm, rút ra tất cả những tính từ được coi là những từ chỉ quan điểm

- Kết quả thực nghiệm việc rút ra những câu đánh giá quan điểm có độ chính xác (precision) khoảng 64.2% và recall là 69.3%

- Sử dụng WordNet (Fellbaum, 1998) để xác định các tính từ được rút ra mang chiều hướng tích cực (positive) hay tiêu cực (negative) Đặng Thị Ngọc Thanh CT1201 - 11 -

Trong WordNet, các tính từ được tổ chức thành các cụm từ lưỡng cực, với phần đầu của nửa cụm thứ hai là từ trái nghĩa của cụm đầu tiên Mỗi nửa cụm đại diện cho tập từ đồng nghĩa chính, tiếp theo là các từ đồng nghĩa kèm theo thể hiện ngữ nghĩa tương tự Phương pháp này khác với cách tiếp cận từ điển, khi sử dụng định hướng của từ đồng nghĩa và trái nghĩa để dự đoán định hướng của các tính từ Bắt đầu với danh sách 30 tính từ thông dụng được chọn thủ công, họ sử dụng WordNet để xác định định hướng của tất cả các tính từ trong danh sách Quá trình này diễn ra bằng cách tìm kiếm qua cụm lưỡng cực để xác định sự hiện diện của từ đồng nghĩa hoặc trái nghĩa Khi định hướng của tính từ được dự đoán, nó sẽ được thêm vào danh sách khởi đầu, giúp xác định định hướng của các tính từ khác Danh sách này sẽ tiếp tục mở rộng cho đến khi không còn tăng lên, cho thấy tất cả định hướng của các tính từ đã được nhận diện và quá trình kết thúc.

Popescu và Etzioni (2005) nghiên cứu một vấn đề tương tự, phát triển một giải thuật yêu cầu lớp sản phẩm đã biết Giải thuật này xác định đặc trưng của danh từ hoặc cụm danh từ bằng cách tính toán thông tin theo từng điểm tổng quan lẫn nhau (PMI) giữa mệnh đề và lớp Họ áp dụng mẫu quan hệ bộ phận - toàn bộ để khai thác đặc trưng, dựa trên các đặc trưng tìm kiếm từ web, mặc dù việc truy vấn trên web tốn nhiều thời gian Phương pháp của họ sử dụng các mẫu quan hệ bộ phận - toàn bộ đã được xác định trước để trích xuất đặc trưng trong một miền ngữ liệu, đảm bảo tính độc lập và độ chính xác cao.

Sau nghiên cứu ban đầu của Hu và Liu (2004), nhiều nhà nghiên cứu đã tiếp tục khám phá việc áp dụng các quan điểm trong khai thác đặc trưng sản phẩm Zhuang (2006) đề xuất một phương pháp dựa trên phần phụ thuộc, tập trung vào phân tích tổng quan Qiu (2009) giới thiệu phương pháp double propagation, khai thác mối quan hệ cú pháp của các phát biểu quan điểm và làm nổi bật thông qua từ ngữ quan điểm và đặc trưng lặp lại Các quy tắc khai thác được thiết kế nhằm xác định mối quan hệ giữa các quan điểm và đặc trưng, với ngữ pháp phụ thuộc mô tả những mối quan hệ này Wang (2008) giới thiệu phương pháp nạp chương trình nguồn, trong khi Kobayashi (2007) sử dụng một mẫu phương pháp khai thác Các mẫu này thể hiện mối quan hệ giữa đặc trưng và cặp quan điểm, được khai thác từ kho ngữ liệu lớn thông qua mẫu khai thác mẫu, với thống kê từ kho ngữ liệu nhằm xác định độ tin cậy của việc khai thác.

Khai thác thông tin tổng quát có hai cách tiếp cận chính: dựa trên nguyên tắc và thống kê Các hệ thống khai thác thông tin đầu tiên chủ yếu sử dụng các quy tắc (Riloff, 1993) Trong số các phương pháp thống kê, những mẫu phổ biến bao gồm Mô hình Markov ẩn (HMM_Rabiner, 1989), Mô hình Entropy tối đa (MEM_Chieu, 2002) và Trường ngẫu nhiên có điều kiện (CRF_Lafferty, 2001).

Phương pháp trích và sắp xếp các đặc trưng quan điểm về sản phẩm

Phương pháp này giả định rằng các đặc trưng là danh từ hoặc cụm danh từ, trong khi các từ quan điểm là các tính từ, cho thấy sự liên kết giữa chúng Những từ quan điểm có thể được xác định thông qua các đặc trưng đã biết, và ngược lại, điều này cho phép khai thác các quan điểm và đặc trưng mới Quá trình bootstrapping sẽ dừng lại khi không còn từ nào có thể được tìm thấy Ưu điểm lớn nhất của phương pháp này là không cần nguồn tài nguyên bổ sung, chỉ cần một từ quan điểm khởi tạo ban đầu, do đó nó độc lập với miền dữ liệu và không yêu cầu gán nhãn dữ liệu Tuy nhiên, với ngữ liệu lớn, phương pháp có thể trích xuất nhiều danh từ không phải là đặc trưng, dẫn đến giảm độ chính xác do trích xuất những tính từ không phải là quan điểm Điều này có thể gây ra sự nhiễu trong dữ liệu và làm giảm hiệu quả của quá trình Ngoài ra, trong một số miền dữ liệu, có thể thiếu các từ quan điểm bổ sung cho các đặc trưng quan trọng.

Khi đánh giá sản phẩm đệm, một nhận xét như “Có một cái vũng trên đệm của tôi” thể hiện rõ quan điểm tiêu cực về chất lượng sản phẩm.

“valley” (vũng) là điều không mong muốn trên “mattress”(đệm) Rõ ràng,

Phương pháp Double propagation không phù hợp để mô tả đặc trưng "valley" trong ngữ liệu nhỏ Để khắc phục vấn đề này, Zhang và các cộng sự đã đề xuất một phương pháp mới bao gồm hai bước: khai thác đặc trưng và sắp xếp đặc trưng Trong bước khai thác, họ áp dụng ý tưởng double propagation để xác định các ứng cử viên, kết hợp với hai cải tiến dựa trên quan hệ bộ phận - toàn bộ và mẫu “No” nhằm tìm kiếm các đặc trưng mà double propagation không thể phát hiện, từ đó cải thiện độ hồi tưởng Ở bước sắp xếp, các ứng cử viên được phân loại theo tầm quan trọng của chúng.

Mối quan hệ bộ phận - toàn bộ thể hiện rằng một đối tượng là một phần của một đối tượng khác Ví dụ, câu “There is a valley on my mattress” minh họa rõ ràng sự kết nối giữa “valley” và “mattress”.

"Valley" liên quan đến "mattress" thông qua giới từ "on" Mặc dù "valley" không phải là một phần của "mattress", nhưng nó ảnh hưởng đến cấu trúc và cảm giác của chiếc đệm.

Mối quan hệ bộ phận - toàn bộ giả (pseudo part-whole relation) thường không khác biệt nhiều so với mối quan hệ thực tế, đặc biệt trong việc khai thác đặc trưng Cấu trúc “noun1 on noun2” cho thấy noun1 là một phần của noun2, ví dụ, “valley” có thể là đặc trưng của “mattress” Nhiều mẫu câu thể hiện mối quan hệ này đã được nghiên cứu Bên cạnh đó, mẫu “No” cũng đóng vai trò quan trọng trong việc chỉ ra các đặc trưng trong tài liệu chứa quan điểm Để xử lý dữ liệu nhiễu, các tác giả sử dụng ba chỉ số đặc trưng, mặc dù chúng không phải là các quy tắc chắc chắn Việc loại bỏ dữ liệu nhiễu là một thách thức, do đó, các tác giả đề xuất phương pháp sắp xếp đặc trưng dựa trên tầm quan trọng của chúng Những đặc trưng chính xác và quan trọng sẽ được xếp hạng cao, trong khi các đặc trưng không quan trọng sẽ có thứ hạng thấp Bảng sắp xếp này hữu ích trong việc rút ra những đặc trưng nổi bật từ kho dữ liệu lớn, giúp người sử dụng tập trung vào các vấn đề quan trọng Hai yếu tố chính ảnh hưởng đến tầm quan trọng của đặc trưng là sự thích hợp và tần suất của chúng.

Thích hợp đặc trưng là một khái niệm quan trọng, mô tả cách mà một ứng cử viên có thể trở thành đặc trưng chính xác Các tác giả đã chỉ ra rằng có ba đầu mối mạnh mẽ để xác định sự thích hợp đặc trưng trong một kho ngữ liệu.

Đầu mối đầu tiên là một đặc trưng chính xác, thường được bổ nghĩa bởi nhiều từ quan điểm như tính từ hoặc trạng từ Ví dụ, trong dữ liệu về đệm, từ "delivery" được bổ nghĩa bởi các từ như "quick", "cumbersome" và "timely" Điều này cho thấy nhận xét này nhấn mạnh vào từ "delivery", từ đó chúng ta có thể suy luận rằng "delivery" là một đặc trưng phù hợp.

Đầu mối thứ hai là đặc trưng có thể rút ra từ nhiều mẫu bộ phận - toàn bộ Chẳng hạn, trong dữ liệu ô tô, khi gặp hai cụm từ “the engine of the car” và “the car has a big engine”, chúng ta có thể kết luận rằng “engine” là một phần của “car”.

Đầu mối thứ ba liên quan đến việc kết hợp các yếu tố bổ nghĩa quan điểm và mẫu bộ phận - toàn bộ hoặc mẫu “No” Khi một đặc trưng của ứng cử viên không chỉ được xác định bởi các từ quan điểm mà còn được trích dẫn từ mẫu bộ phận - toàn bộ, chúng ta có thể khẳng định rằng đặc trưng đó có độ tin cậy cao Chẳng hạn, trong câu “there is a bad hole in the mattress”, từ “hole” được xác định rõ ràng là đặc trưng của “mattress” nhờ vào sự bổ nghĩa của từ “bad” và sự phù hợp với mẫu bộ phận - toàn bộ.

Các tác giả nhận thấy mối quan hệ tương hỗ giữa các từ quan điểm, các mẫu bộ phận-toàn bộ và mẫu "No" Nếu một tính từ bổ nghĩa cho nhiều đặc trưng đúng, khả năng cao đó là từ những quan điểm tốt Tương tự, nếu một ứng cử viên đặc trưng được rút ra từ nhiều từ quan điểm hoặc mẫu bộ phận-toàn bộ, nó cũng có khả năng cao là một đặc trưng đúng Điều này cho thấy thuật toán HITS có thể áp dụng hiệu quả trong việc sắp xếp các trang web.

Tần suất đặc trưng là yếu tố quan trọng trong việc sắp xếp các đặc trưng, như đã được nghiên cứu bởi Hu và Liu (2004) cùng Blair-Goldensohn và các cộng sự (2008) Các tác giả chỉ ra rằng một đặc trưng f1 được coi là quan trọng hơn f2 nếu f1 xuất hiện thường xuyên hơn trong tài liệu quan điểm Do đó, việc sắp xếp các đặc trưng xuất hiện thường xuyên cao hơn là điều mong muốn, vì thiếu một đặc trưng thường xuyên trong khai thác quan điểm có thể gây ảnh hưởng tiêu cực, trong khi thiếu tỉ lệ đặc trưng không phải là vấn đề lớn.

Các tác giả đã giới thiệu một phương pháp khai thác đặc trưng mới bằng cách kết hợp các nhân tố quan trọng Phương pháp này đã cho kết quả khả quan trong các thực nghiệm với nhiều tập dữ liệu thực tế đa dạng.

Double propagation dựa trên quan sát mối quan hệ tự nhiên giữa các từ quan điểm và các đặc trưng, vì các từ quan điểm thường dùng để bổ nghĩa cho các đặc trưng Quan sát cũng chỉ ra rằng có sự liên kết giữa các từ quan điểm và đặc trưng của chúng trong các thể hiện chứa quan điểm (Qiu và các cộng sự, 2009) Các mối quan hệ này có thể được xác định thông qua bộ phân tích cú pháp phụ thuộc dựa vào ngữ pháp phụ thuộc, và việc xác định chúng là chìa khóa để khai thác đặc trưng.

Ngữ pháp phụ thuộc mô tả các mối quan hệ giữa các từ trong câu Phân tích cú pháp phụ thuộc liên kết các từ với nhau thông qua các quan hệ rõ ràng Ví dụ, trong câu "Chiếc máy ảnh có một ống kính tốt", từ "tốt" đóng vai trò là tính từ miêu tả.

Kết quả và thảo luận

Bài viết sử dụng bốn tập dữ liệu khác nhau để đánh giá các kỹ thuật đề xuất, được thu thập từ một công ty thương mại chuyên cung cấp dịch vụ khai thác quan điểm Bảng 1 trình bày các lĩnh vực và số lượng câu trong mỗi bộ dữ liệu Dữ liệu trong "Cars" và "Mattress" bao gồm các nhận xét sản phẩm từ nhiều trang web đánh giá trực tuyến, trong khi "Phone" và "LCD" là các bài thảo luận từ các diễn đàn trực tuyến Mỗi nhận xét và bài viết được chia nhỏ thành câu, và các câu này được gán nhãn loại bằng Brill's tagger (Brill, 1995), với các câu đã được gán nhãn là đầu vào cho hệ thống của các tác giả.

Các tập dữ liệu Cars Mattress Phone LCD

Bảng 2 Thử nghiệm tập dữ liệu

Bên cạnh việc đánh giá độ chính xác và hồi tưởng, nghiên cứu cũng áp dụng chỉ số độ chính xác số liệu (precision@N metric) để đánh giá hiệu quả thử nghiệm (Liu, 2006) Chỉ số này cung cấp tỷ lệ các đặc trưng chính xác nằm trong số N ứng cử viên hàng đầu trong danh sách sắp xếp Họ đã so sánh các phương pháp của mình với kết quả từ phương pháp double propagation, trong đó các ứng cử viên được trích xuất dựa trên tần suất xuất hiện.

2.4.3 Kết quả thử nghiệm Đầu tiên họ so sánh kết quả của họ với double propagation trên sự hồi tưởng và độ chính xác cho những kích thước kho ngữ liệu khác nhau Kết quả được trình bày trong Bảng 3, 4, và 5 cho bốn tập hợp dữ liệu Họ đưa ra độ chính xác và hồi tưởng 1000, 2000, và 3000 câu từ các tập dữ liệu Họ đã không thử nhiều hơn bởi vì tự kiểm tra bằng tay sự hồi tưởng và chính xác trở nên khó khăn hơn Có ít hơn 3000 câu cho các tập dữ liệu "Cars" và "LCD" Vì vậy, các cột cho "Cars" và "LCD" rỗng trong Bảng 5

Trong bảng, "DP" biểu thị cho phương pháp double propagation, trong khi "Ours" đại diện cho phương pháp được đề xuất Các ký hiệu "Pr" và "Re" lần lượt thể hiện độ chính xác và độ hồi tưởng.

Pr Re Pr Re Pr Re Pr Re

Bảng 3 Kết quả của 1000 câu

Pr Re Pr Re Pr Re Pr Re

Bảng 4 Kết quả của 2000 câu Đặng Thị Ngọc Thanh CT1201 - 28 -

Bảng 5 Kết quả của 3000 câu

Các bảng cho thấy rằng trong tất cả các miền, phương pháp của họ vượt trội hơn double propagation về khả năng hồi tưởng với mức giảm nhỏ trong độ chính xác Đặc biệt, trong các tập dữ liệu "Phone" và "Mattress", độ chính xác còn tốt hơn nữa Họ cũng nhận thấy rằng khi kích thước dữ liệu tăng lên, khoảng cách hồi tưởng giữa hai phương pháp giảm dần và độ chính xác của cả hai đều giảm Trong trường hợp này, việc sắp xếp đặc trưng đóng vai trò quan trọng trong việc phát hiện các đặc trưng thiết yếu.

So sánh sắp xếp giữa hai phương pháp được thể hiện trong Bảng 6, 7, và

Bài viết báo cáo độ chính xác của kết quả cho các tập dữ liệu 50, 100 và 200, với lưu ý rằng các thực nghiệm đã được thực hiện trên toàn bộ tập dữ liệu Đặc biệt, không có nhiều kết quả cho dữ liệu "LCD" ngoài tốp 200 do giới hạn của các đặc trưng được thảo luận Các cột "LCD" trong Bảng 7 là rỗng Các ứng cử viên đặc trưng được sắp xếp dựa trên tần suất xuất hiện cho phương pháp double propagation (DP), với giả thuyết rằng những đặc trưng thường xuyên xuất hiện là quan trọng hơn Tuy nhiên, việc sắp xếp này giả định rằng các ứng cử viên được trích là chính xác Kết quả cho thấy phương pháp đề xuất (Ours) nhanh hơn đáng kể so với double propagation, vì một số ứng cử viên có tần suất cao do DP trích ra không phải là đặc trưng đúng Phương pháp của họ xem xét sự liên quan của các đặc trưng như một yếu tố quan trọng, dẫn đến việc sắp xếp tốt hơn.

Bảng 6 Độ chính xác ở top 50

Bảng 7 Độ chính xác ở top 100

Bảng 8 Độ chính xác ở top 200 Đặng Thị Ngọc Thanh CT1201 - 30 -

THỰC NGHIỆM

Công cụ gán nhãn từ loại Stanford Parser

Phân tích cú pháp ngôn ngữ tự nhiên là một chương trình dựa vào cấu trúc ngữ pháp của câu, bao gồm việc xác định các nhóm từ và mối quan hệ giữa chúng Quy trình này sử dụng kiến thức từ phân tích câu thủ công để tạo ra các phân tích cú pháp cho những câu mới Mặc dù vẫn còn một số sai sót, nhưng các hệ thống này thường hoạt động hiệu quả Sự phát triển của phân tích cú pháp được coi là một trong những bước đột phá lớn nhất trong lĩnh vực xử lý ngôn ngữ tự nhiên vào những năm 1990.

Stanford phát triển một kiểu phụ thuộc nhằm cung cấp mô tả đơn giản về các mối quan hệ ngữ pháp trong câu, giúp người không có chuyên môn ngôn ngữ học dễ dàng hiểu và sử dụng để trích xuất thông tin từ văn bản.

Gói sản phẩm này cung cấp một cài đặt Java cho việc phân tích cú pháp ngôn ngữ tự nhiên, bao gồm cả PCFG tối ưu hóa cao và bộ phân tích cú pháp từ vựng phụ thuộc Các phiên bản gốc được phát triển bởi Dan Klein với sự hỗ trợ từ Christopher Manning Nhiều cải tiến đã được thực hiện bởi một nhóm các nhà nghiên cứu nổi bật, bao gồm Roger Levy, TeG Grenager và Marie-Catherine de Marneffe, nhằm mở rộng khả năng của hệ thống như hỗ trợ ngôn ngữ cụ thể, đầu vào/đầu ra linh hoạt, và các tính năng như phân tích cú pháp k tốt nhất và đánh máy phụ thuộc.

Phiên bản hiện tại của phân tích cú pháp yêu cầu Java 6 (JDK1.6) hoặc các phiên bản mới hơn Bạn có thể tải về phiên bản cũ hơn như 1.4 (chạy trên JDK 1.4) hoặc 2.0 (chạy trên JDK 1.5), nhưng những phiên bản này hiện ít được hỗ trợ Phân tích cú pháp cần dung lượng bộ nhớ hợp lý, tối thiểu là 100MB để xử lý các câu lên đến 40 từ, và thường yêu cầu khoảng 500MB bộ nhớ cho các phân tích cú pháp tương tự điển hình của câu trong Newswire.

3.1.2 Cách sử dụng ết kế được sử dụng từ dòng lệnh hoặc lậ ủa nó

Có thể sử dụng phương pháp sau:

1 Trên hệ thống Windows, bạn có thể chạy một giao diện phân tích cú pháp bằng cách nhấp đúp vào biểu tượng lexparser-gui.bat, hoặc đưa ra các lệnh lexparser-gui trong thư mục này từ một dấu nhắc lệnh

 Nhấp Load File, Browse, và điều hướng đến và chọn testsent.txt

 Nhấp Load Parser, Browse và chọn thư mục tương tự một mẫu jar

Từ các mẫu jar chọn englishPCFG.ser.gz

 Nhấp Parser để bắt đầu phân tích câu

2 Trên hệ thống Ubuntu, đưa ra các lệnh lexparser trong thư mục này từ một dấu nhắc lệnh: sh lexparser.sh file_dữ_liệu_nguồn > file_đích

Chương trình thực nghiệm

Input: Cho một tập hợp các câu văn bản đánh giá có quan điểm về sản phẩm hoặc đối tượng

Output: Tập từ quan điểm và các đặc trưng được trích chọn và sắp xếp Đặng Thị Ngọc Thanh CT1201 - 32 -

500 nhận xét để trích các đặc trưng và quan điểm về các đặc trưng sản phẩm

Khai thác đặc trưng cho các thực thể là một nhiệm vụ quan trọng trong nhiệm vụ khai thác quan điểm

Gán nhãn từ loại bằng công cụ stanford parser

Xác định câu có chứa một hay nhiều dấu hiệu sản phẩm hay từ quan điểm được xem là câu chỉ quan điểm

Trong quá trình phân tích dữ liệu, mỗi câu chỉ thể hiện quan điểm, từ đó chúng tôi rút ra các danh từ và cụm danh từ đặc trưng cùng với những tính từ mang tính chất quan điểm Những quan điểm và đặc trưng này được sử dụng để xác định các quan điểm và đặc trưng mới Quá trình này lặp đi lặp lại cho đến khi không còn từ quan điểm hay đặc trưng nào có thể tìm thấy.

Dựa vào mối quan hệ ngữ nghĩa giữa quan điểm và đặc trưng, chúng ta có thể xác định các đặc trưng và quan điểm trong dữ liệu Để thực hiện điều này, cần áp dụng bộ phân tích cú pháp phụ thuộc dựa trên ngữ pháp phụ thuộc Việc sử dụng các luật do Qiu và các cộng sự đưa ra vào năm 2009 sẽ giúp tối ưu hóa quá trình phân tích.

- R1 i để trích các từ quan điểm (s) sử dụng các từ quan điểm words (S i )

- R2 i để trích các từ quan điểm (s) sử dụng các đặc trưng (F) Đặng Thị Ngọc Thanh CT1201 - 33 -

- R3 i để trích các đặc trưng (f) sử dụng các từ quan điểm (S)

- R4 i để trích các đặc trưng (f) sử dụng các đặc trưng đã được trích (F i )

Sắp xếp đặc trưng sản phẩm áp dụng giải thuật HITS

Các đặc trưng trong bài viết này đóng vai trò quan trọng với điểm quyền hạn và điểm trung tâm khác nhau so với thuật toán HITS truyền thống Điểm quyền hạn của các đặc trưng thể hiện sức mạnh và ảnh hưởng của chúng, trong khi điểm trung tâm phản ánh vị trí trung tâm của các đặc trưng trong mạng lưới.

Để xây dựng một đồ thị hai nhánh được định hướng, chúng ta cần áp dụng các thuật toán HITS Ý tưởng cốt lõi là nếu một ứng cử viên đặc trưng có điểm quyền hạn cao, nó sẽ là một đặc trưng có liên quan Ngược lại, nếu một đặc trưng chỉ có một số điểm trung tâm cao, nó cần phải được xác định bởi một chỉ số đặc trưng tốt.

Các luật, các mẫu dựa trên mối quan hệ giữa hai từ được sử dụng để trích từ quan điểm hay đặc trưng:

- conjunctions (word1_JJ, word2_JJ)

The phone is compact and adorable, with a somewhat "plastic-like" feel that raises concerns about its durability; however, it appears to be quite sturdy.

{MR} (từ1_JJ/NN, từ2_JJ/NN) bao gồm các mối quan hệ phụ thuộc, mô tả các mối quan hệ như mod, subj, obj, và nhiều hơn nữa.

 Vd: I am a business user who heavily depend on mobile service amod(service_NN, mobile_JJ) Đặng Thị Ngọc Thanh CT1201 - 34 -

After enduring years of costly plans and poor customer service with that carrier, the option for portability felt like a dream come true.

- conjunctions (word1_NN, word2_NN)

Vd: My favorite features , although there are many , are the speaker phone , the radio and the infrared conj_and(phone_NN, radio_NN); conj_and(phone_NN, infrared_NN)

Cấu trúc NP + Prep + CP bao gồm danh từ hoặc cụm danh từ (NP) kết hợp với cụm khái niệm lớp (CP) thông qua giới từ (Prep) như "of", "in", "on", "about", Ví dụ, trong câu có thể thấy sự kết nối giữa các thành phần này, giúp làm rõ nghĩa cho câu.

This phone has received numerous positive reviews highlighting its impressive features My experience with it has been seamless, as it functioned perfectly right from the start.

- CP + with + NP: CP là cụm khái niệm lớp, và NP là cụm danh từ / danh từ Chúng được nối với nhau bằng từ "with"

Vd: The speaker phone is very functional and i use it in the car , very audible even with freeway noise prep_with(audible_JJ, noise_NN)

Cấu trúc NP CP hay CP NP bao gồm danh từ hoặc cụm danh từ (NP) kết hợp với cụm khái niệm lớp (CP) để tạo thành một từ ghép Ví dụ điển hình là "mattress pad", trong đó "pad" đóng vai trò là một đặc trưng của "mattress".

Cụm khái niệm CP (Cụm động từ) bao gồm một động từ thể hiện mối quan hệ giữa toàn bộ và các bộ phận trong cụm danh từ NP Động từ như "has", "have", "include", và "contain" thường được sử dụng để diễn đạt các mối quan hệ này trong câu Việc xác định rõ ràng các thành phần trong câu giúp làm nổi bật cấu trúc ngữ nghĩa và mối liên hệ giữa chúng.

Chương trình thử nghiệm có khả năng trích xuất các đặc trưng sản phẩm cùng với những nhận xét tương ứng, dựa trên các quy tắc và mẫu từ mối quan hệ giữa bộ phận và toàn bộ.

Giao diện chính của chương trình

Mở file dữ liệu: Đặng Thị Ngọc Thanh CT1201 - 36 -

Trích đặc trưng: Đặng Thị Ngọc Thanh CT1201 - 37 -

Ngày đăng: 05/08/2021, 22:04

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN