1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(LUẬN văn THẠC sĩ) nghiên cứu và ứng dụng khai phá dữ liệu để xây dựng hệ tư vấn cho diễn đàn trực tuyến

69 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Và Ứng Dụng Khai Phá Dữ Liệu Để Xây Dựng Hệ Tư Vấn Cho Diễn Đàn Trực Tuyến
Tác giả Vũ Thị Phượng
Người hướng dẫn PGS.TS. Nguyễn Hà Nam
Trường học Đại học Quốc gia Hà Nội
Chuyên ngành Công nghệ thông tin
Thể loại luận văn thạc sĩ
Năm xuất bản 2013
Thành phố Hà Nội
Định dạng
Số trang 69
Dung lượng 2,1 MB

Cấu trúc

  • OLE_LINK85

  • OLE_LINK86

  • OLE_LINK7

  • OLE_LINK8

Nội dung

Giới thiệu bài toán

Đặt vấn đề

Diễn đàn điện tử là nơi lý tưởng cho việc trao đổi và thảo luận về những vấn đề chung, đáp ứng nhu cầu của người dùng Điểm mạnh của diễn đàn là không chỉ cung cấp thông tin chính thống mà còn cho phép người dùng chia sẻ ý kiến và cảm xúc, tạo ra các chủ đề yêu thích Sự gia tăng người tham gia và sự đa dạng trong nội dung thảo luận cho thấy sức hấp dẫn của diễn đàn ngày càng lớn Tuy nhiên, không phải tất cả bài viết hay chủ đề đều phù hợp với mọi người, vì vậy việc xây dựng một hệ thống tư vấn để gợi ý nội dung phù hợp với từng người dùng là rất cần thiết.

Diễn đàn Tuệ Tĩnh là nền tảng kết nối các thế hệ cựu học sinh và học sinh hiện tại của trường THPT Tuệ Tĩnh, nơi sự trung thành và tín nhiệm của người dùng được đặt lên hàng đầu Để tham gia, người dùng cần đăng nhập, và nếu chưa có tài khoản, họ phải đăng ký trước Diễn đàn cung cấp nhiều lĩnh vực và chủ đề trao đổi khác nhau, với mục tiêu phục vụ tốt nhất nhu cầu của người dùng Khi đăng nhập, hệ thống sẽ gợi ý các bài viết phù hợp nhằm tiết kiệm thời gian duyệt web cho người dùng.

Hệ tư vấn là một hệ thống tự động giúp phân tích và cung cấp thông tin, hàng hóa hoặc dịch vụ mà người dùng quan tâm, dựa trên hồ sơ và đánh giá của họ Có hai loại hệ tư vấn chính: dựa trên nội dung và lọc cộng tác Hệ tư vấn dựa trên nội dung sử dụng thông tin liên quan đến sở thích trong quá khứ của người dùng để gợi ý các đối tượng mới tương tự, trong khi lọc cộng tác khai thác thói quen và sở thích của những người dùng tương đồng để đề xuất các đối tượng mới, bao gồm cả những thứ hoàn toàn khác biệt Lọc cộng tác có thể xử lý nhiều loại dữ liệu và đã được áp dụng thành công trong nhiều hệ tư vấn, đặc biệt trong các diễn đàn có nhiều tương tác như đọc, comment và post, nơi mà xu hướng nhóm người cùng sở thích rất mạnh mẽ.

Mục tiêu đề tài

- Nghiên cứu tổng quan về hệ tư vấn

- Nghiên cứu các kỹ thuật tư vấn thông tin dựa trên lọc cộng tác và các vấn đề nghiên cứu liên quan

- Tìm hiểu thực trạng bài toán diễn đàn và tiền xử lý dữ liệu làm đầu vào cho kỹ thuật lọc cộng tác

Xây dựng một hệ thống lọc cộng tác dựa trên kỹ thuật hàng xóm gần nhất (user-nearest neighbor) nhằm cung cấp các gợi ý phù hợp cho người dùng tham gia diễn đàn Hệ thống này sử dụng phương pháp lấy tốp N để tư vấn và cải thiện trải nghiệm người dùng, giúp họ dễ dàng tìm thấy nội dung và thông tin mà họ quan tâm.

Phương pháp nghiên cứu

Để hoàn thành luận văn, tôi đã nghiên cứu nhu cầu và thực trạng của người dùng web, đặc biệt là người tham gia diễn đàn Tôi cũng tìm hiểu tổng quan về các hệ thống tư vấn hiện có và đặc trưng dữ liệu của diễn đàn để xác định hướng khai thác hiệu quả Bên cạnh đó, tôi nghiên cứu các kỹ thuật trong hệ tư vấn và lựa chọn phương pháp tư vấn dựa trên sự hợp tác, phù hợp với môi trường diễn đàn.

Sau khi xác định hướng tiếp cận, tôi tiến hành nghiên cứu các thuật toán và chọn kỹ thuật phù hợp nhất với đặc điểm của diễn đàn Tôi khai thác các tương tác người dùng trong cơ sở dữ liệu để xây dựng thử nghiệm bộ lọc tin cho diễn đàn Cuối cùng, một số thử nghiệm sẽ được thực hiện nhằm gợi ý nội dung cho từng người dùng khi họ tham gia diễn đàn và đánh giá chất lượng của bộ lọc.

Bố cục luận văn

Chương 1 Giới thiệu bài toán

Nêu bài toán nghiên cứu của luận văn, mục tiêu và phương pháp nghiên cứu

Chương 2 Tổng quan về hệ tư vấn

Hệ tư vấn đóng vai trò quan trọng trong việc cung cấp thông tin và hỗ trợ quyết định Bài viết này trình bày tổng quan về các loại hệ tư vấn, phân tích ưu nhược điểm của từng loại Tác giả cũng đánh giá một số hệ thống tư vấn nổi bật trên thế giới và tại Việt Nam, từ đó phân tích sự khác biệt giữa mô hình tư vấn tin trong diễn đàn và các hệ thống tư vấn khác.

Chương 3 Kỹ thuật lọc cộng tác trong hệ tư vấn và nghiên cứu liên quan

Nghiên cứu hệ tư vấn dựa vào cộng tác và các vấn đề liên quan như độ đo tương tự, kỹ thuật lọc cộng tác dựa vào láng giềng gần nhất và kỹ thuật chọn tốp N gợi ý là cần thiết để xây dựng bộ lọc tin diễn đàn trong chương 4 Bên cạnh đó, cần tìm hiểu các giải pháp khắc phục hạn chế của lọc cộng tác hiện tại và đề xuất hướng cải thiện cho người dùng mới.

Chương 4 Xây dựng mô hình và thực nghiệm

Bài viết trình bày tổng quan về mô đun lọc cộng tác của diễn đàn, cùng với các thành phần cấu thành của mô đun này Tác giả cũng nêu rõ các đặc điểm của dữ liệu diễn đàn Tuệ Tĩnh và quy trình xây dựng, cài đặt bộ lọc tin cho diễn đàn Phần còn lại của chương tập trung vào việc phân tích kết quả thực nghiệm và đánh giá thuật toán, từ đó phân tích tính đúng đắn và hiệu năng của hệ thống đã xây dựng, nhằm định hướng nghiên cứu trong tương lai.

Tổng quan về hệ tư vấn

Lý thuyết hệ tư vấn

Hệ tư vấn (Recommender System - RS) là chương trình hoặc tập hợp kỹ thuật nhằm dự đoán những đối tượng mà người dùng có thể quan tâm Hệ thống này có khả năng tự động phân tích, phân loại và cung cấp thông tin, hàng hóa hoặc dịch vụ phù hợp với sở thích của người dùng Nhiều hệ tư vấn đã được thương mại hóa và triển khai thành công, nổi bật là các hệ thống của Amazon.com, Netflix.com và Procter & Gamble Bài toán tư vấn có thể được khái quát như một quá trình xác định những lựa chọn tối ưu cho người dùng dựa trên dữ liệu và hành vi của họ.

Trong hệ thống tư vấn, người dùng (U) và các đối tượng tư vấn (S) là hai thực thể chính, với S có thể bao gồm hàng trăm ngàn đến hàng triệu sản phẩm hoặc bài viết Người dùng có thể có hàng triệu thành viên, mỗi người sẽ có quan điểm riêng về các đối tượng mà họ đã tương tác, đồng thời nhận được gợi ý từ hệ thống về những đối tượng chưa từng tương tác Đầu vào của hệ thống tư vấn phụ thuộc vào thuật toán cụ thể của từng loại tư vấn, thường bao gồm nhiều yếu tố khác nhau để tối ưu hóa trải nghiệm người dùng.

1- Ratings (còn gọi là điểm – votes): mô tả quan điểm đánh giá của người dùng trên các đối tượng Điểm thường được biểu diễn bởi các số nguyên (như trong Amazon, nó thuộc [1 5] với ý hiểu, 1 là điểm đánh giá cho đối tượng đó là thấp,

Điểm số 5 được coi là đánh giá cao cho đối tượng, trong khi mức điểm 0 (không thích) và 1 (thích) cũng thường được sử dụng Những điểm số này thường là đầu vào cho thuật toán tư vấn, đặc biệt là phương pháp lọc cộng tác, sẽ được trình bày chi tiết trong chương 3.

2- Dữ liệu nhân khẩu học (demographic data): hay còn gọi là hồ sơ (profile) người dùng như các thông tin hiện là: tuổi, nghề nghiệp, giới tính, quê quán hay các thông tin ẩn như lịch sử các từ khóa tìm kiếm, tần số lặp lại các từ khóa

3- Nội dung dữ liệu (Content data) dựa trên việc phân tích văn bản của tài liệu liên quan đến các đối tượng được đánh giá bởi người sử dụng Đầu ra của hệ tư vấn: Các hệ thống tư vấn này sẽ tính toán và dự đoán đối tượng mà khả năng người dùng sẽ thích Từ đó đưa ra những gợi ý những đối tượng phù hợp với người dùng nhất mà trước đó họ chưa quan tâm Để làm được điều này các hệ tư vấn đi xây dựng hồ sơ (Profile) của người dùng Hồ sơ của người dùng bao gồm thông tin rõ ràng và thông tin ẩn Những thông tin rõ ràng là những thông tin được người dùng cung cấp cụ thể thông qua việc trả lời các câu hỏi, hay những thể hiện cụ thể như: người dùng mua sản phẩm, người dùng đưa đánh giá cho một sản phẩm, một bản tin nào đó hay sở thích của người dùng là gì?

Trong hệ tư vấn, độ phù hợp của một đối tượng được xác định thông qua điểm số, chẳng hạn như người dùng A đánh giá bộ phim "Star Wars" với điểm 7/10 Tuy nhiên, độ phù hợp này có thể thay đổi và phụ thuộc vào từng ứng dụng cụ thể.

Có nhiều phương pháp để dự đoán và ước lượng hạng hoặc điểm cho các đối tượng, bao gồm học máy, lý thuyết xấp xỉ và các thuật toán dựa trên kinh nghiệm Các hệ thống tư vấn thường được phân loại thành ba loại dựa trên cách thức ước lượng hạng của đối tượng được tư vấn.

 Dựa trên nội dung (content-based): người dùng được gợi ý những đối tượng tương tự như các đối tượng từng được họ đánh giá cao

 Cộng tác (collaborative): người dùng được gợi ý những đối tượng mà những người cùng sở thích với họ đánh giá cao

 Lai ghép (hybrid): kết hợp cả hai phương pháp dựa trên.

Phân loại hệ tư vấn

2.2.1 Hệ tư vấn dựa trên nội dung

Phương pháp tư vấn dựa trên nội dung (Content Based – CB) đánh giá độ phù hợp giữa người dùng và các đối tượng cần tư vấn thông qua các đặc điểm của những đối tượng mà người dùng đã từng đánh giá cao Cụ thể, khi gợi ý một cuốn sách cho người dùng, hệ thống sẽ phân tích các tiêu chí như tác giả và thể loại của những cuốn sách mà người dùng yêu thích trước đó, từ đó tìm ra những cuốn sách mới có sự tương đồng với sở thích của họ để giới thiệu.

Phương pháp lọc dựa trên nội dung phân tích và so sánh nội dung của các đối tượng để đánh giá khả năng người dùng sẽ thích chúng Hệ thống cũng đối chiếu nội dung với sở thích mà người dùng đã cung cấp, ví dụ, nếu người dùng quan tâm đến thông tin chứng khoán, họ sẽ nhận được các bản tin liên quan đến chủ đề này.

Hướng tiếp cận dựa trên nội dung xuất phát từ nghiên cứu về thu thập và lọc thông tin, tập trung vào việc tư vấn các đối tượng chứa dữ liệu văn bản như tin tức và website Mỗi đối tượng được xử lý thông qua một tập hợp đặc trưng, giúp xác định mức độ tương đồng giữa các đối tượng và tiêu chuẩn gợi ý Đối với dữ liệu văn bản, tập đặc trưng thường là các từ khóa phản ánh ý nghĩa của văn bản Do đó, Content(s) được định nghĩa là tập thông tin về đối tượng s.

Content(s)=w s =(w 1s ,w 2s , ,w ks ), với w 1s ,w 2s , ,w ks là trọng số của các từ khóa từ 1 tới k Các trọng số này thường được xác định bằng độ đo TF-IDF (Term Frequency –

Inverse Document Frequency) [1] Ví dụ Fab [4], một hệ tư vấn website đã biểu diễn nội dung các trang web bằng 100 từ quan trọng nhất Tương tự, hệ thống Syskill

Webert [8] sử dụng 128 từ có trọng số cao nhất để biểu diễn văn bản Hồ sơ người dùng, ký hiệu là profile(u), bao gồm thông tin về sở thích của người dùng u, được xây dựng từ việc phân tích nội dung các đối tượng mà u đã đánh giá trước đó Profile(u) có thể được xem như một vector trọng số: Profile(u) = w u = (w 1u , w 2u , , w ku ), trong đó w iu thể hiện độ quan trọng của từ khóa i đối với người dùng u Độ phù hợp r(u,s) trong hệ thống tư vấn dựa trên nội dung được xác định qua công thức: r(u,s) = score(profile(u), contents(s)).

Cả profile (u) và nội dung (s) đều có thể được biểu diễn dưới dạng vector trọng số thông qua phương pháp TF-IDF, với các trọng số tương ứng là w c và w s Do đó, độ tương đồng giữa chúng có thể được đo bằng chỉ số Cosine, một khía cạnh sẽ được thảo luận chi tiết trong phần 3.1.

Nếu người dùng u thường xuyên đọc các bài báo về tin học, các từ khóa liên quan đến công nghệ như IT, thông tin, phần mềm và dữ liệu sẽ có trọng số cao trong hồ sơ của họ Điều này dẫn đến việc các bài báo s trong cùng lĩnh vực sẽ có độ phù hợp r(u,s) cao hơn đối với người dùng u.

Những cải tiến trong phương pháp tiếp cận của IR đến từ việc áp dụng hồ sơ người dùng, bao gồm thông tin về sở thích và nhu cầu của họ Hồ sơ này được hình thành từ dữ liệu mà người dùng cung cấp trực tiếp qua khảo sát hoặc gián tiếp qua việc phân tích thông tin từ các giao dịch.

Hình 2.1 Tư vấn dựa trên nội dung [30]

Hệ tư vấn dựa trên nội dung không chỉ sử dụng các phương pháp IR mà còn áp dụng nhiều kỹ thuật học máy như phân lớp Bayes, cây quyết định và mạng nơron nhân tạo Khác với các phương pháp IR, những phương pháp này dựa vào các mô hình học được từ dữ liệu nền thay vì tính toán độ lợi thông tin thông qua các hàm tri thức như Cosine Chẳng hạn, với tập hợp các trang web đã được người dùng đánh giá là “tốt” hoặc “xấu”, phân lớp Bayes có thể được sử dụng để phân loại các trang web chưa được đánh giá.

 Hạn chế của hệ tư vấn dựa trên nội dung [4]

Khi người dùng mới tạo tài khoản và chưa có nhiều tương tác với hệ thống gợi ý, việc xác định sở thích của họ trở nên khó khăn Điều này dẫn đến việc hệ thống không thể cung cấp những gợi ý chính xác, gây ra trải nghiệm không tối ưu cho người dùng.

Phân tích nội dung bị hạn chế có hiệu quả phụ thuộc vào việc mô tả đầy đủ các đặc trưng của đối tượng Tuy nhiên, do tập đặc trưng của dữ liệu có số lượng phần tử hữu hạn, có thể xảy ra tình huống các cặp đối tượng có biểu diễn giống nhau nhưng nội dung lại khác biệt.

Nội dung đối tượng cần phải có khả năng được trích xuất tự động hoặc dễ dàng trích xuất bằng tay Tuy nhiên, trong lĩnh vực tư vấn dữ liệu đa phương tiện như hình ảnh, video và âm thanh, việc đáp ứng yêu cầu này gặp nhiều khó khăn Trích xuất tự động các đặc trưng nội dung của những đối tượng dữ liệu này là một thách thức lớn, trong khi việc trích xuất thủ công lại không khả thi do chi phí cao.

Vấn đề "phù hợp quá mức" (overfitting) trong hệ thống gợi ý xảy ra khi các sản phẩm được đề xuất chỉ dựa trên những đối tượng người dùng đã truy cập trước đó, dẫn đến sự thu hẹp về tính đa dạng của các gợi ý Chỉ những sản phẩm có độ tương đồng cao với lịch sử đánh giá của người dùng mới được gợi ý, khiến cho những đề xuất trở nên nhàm chán và không hấp dẫn Ví dụ, các bài tin tương tự với nội dung cũ có thể được gợi ý lại, dù rằng chúng không mang lại giá trị mới cho người dùng Để cải thiện tình trạng này, có thể áp dụng các biến ngẫu nhiên vào quá trình gợi ý hoặc loại bỏ những kết quả có điểm số quá cao, như phương pháp mà D Billsus đã sử dụng cho hệ thống The News Learner.

2.2.2 Hệ thống lọc cộng tác

Hệ thống tư vấn cộng tác (Collaborative Filtering - CF) khác với phương pháp tư vấn dựa trên nội dung, vì nó dự đoán độ phù hợp r(u, s) của người dùng u với đối tượng s dựa trên độ phù hợp r(u_j, s) giữa người dùng u_j và s, trong đó u_j là người có sở thích tương đồng với u Chẳng hạn, để gợi ý sách cho người dùng u, hệ thống sẽ tìm kiếm những người dùng khác có sở thích giống u và sử dụng những cuốn sách mà họ đánh giá cao để tư vấn cho u.

Hình 2.2 Tư vấn dựa trên cộng tác [30]

Lọc cộng tác khai thác các khía cạnh liên quan đến thói quen và sở thích của người dùng, nhằm đưa ra dự đoán chính xác và phân bố các đối tượng phù hợp cho từng cá nhân.

Hệ tư vấn dựa vào nội dung thường gặp khó khăn trong việc tạo ra sự bất ngờ cho người dùng, vì chúng chủ yếu so sánh và đề xuất các đối tượng mà người dùng đã biết hoặc từng sử dụng Ngược lại, phương pháp lọc cộng tác không yêu cầu mô tả nội dung chi tiết mà dựa vào đánh giá của người dùng, giúp tạo ra những gợi ý phong phú và bất ngờ hơn cho người dùng.

Nghiên cứu một số hệ thống gợi ý tin tức

Amazon là công ty thương mại điện tử lớn nhất thế giới, được thành lập bởi Jeffrey Bezos vào năm 1994 và chính thức hoạt động trực tuyến từ đó.

Kể từ năm 1995, Amazon đã mở rộng hoạt động từ việc bán sách sang nhiều lĩnh vực khác nhau, bao gồm dịch vụ thanh toán, quảng cáo, và cung cấp đa dạng sản phẩm như phim ảnh, âm nhạc và trò chơi.

Amazon.com là trang web nổi tiếng nhất về hệ thống gợi ý sản phẩm Khi người dùng chọn một sản phẩm, như sách về "search engine", hệ thống sẽ gợi ý các cuốn sách tương tự Thuật toán gợi ý của Amazon sử dụng phương pháp lọc cộng tác item-to-item, khác với lọc cộng tác truyền thống, cho phép tính toán trực tuyến độc lập với số lượng khách hàng và mặt hàng Điều này giúp Amazon tạo ra các gợi ý trong thời gian thực, xử lý dữ liệu lớn và cung cấp tư vấn chất lượng cao.

Amazon nổi bật với hệ thống gợi ý cá nhân hóa, giúp người dùng nhận được các sản phẩm phù hợp khi quay lại trang web Sau khi mua sắm, khách hàng sẽ thấy thông điệp “chào bạn, chúng tôi có những thứ này cho bạn” kèm theo các gợi ý Để cải thiện độ chính xác của gợi ý, Amazon khuyến khích người dùng đánh giá sản phẩm đã mua bằng cách cho điểm từ 1 đến 5 sao Hệ thống này yêu cầu người dùng cung cấp đánh giá trực tiếp, điều này có thể gây phiền phức cho một số khách hàng.

Hình 2.4 Hệ thống tích hợp gợi ý sách của Amazon.com

Hình 2.5 Giao diện gợi ý sản phẩm đã được đánh giá của Amazon

Một vấn đề nghiêm trọng trên Amazon là việc cố tình hạ điểm hoặc đưa ra những đánh giá không chính xác nhằm làm giảm chất lượng sản phẩm Những hành động này không chỉ tạo ra thông tin sai lệch mà còn ảnh hưởng tiêu cực đến hệ thống, dẫn đến kết quả tư vấn không chính xác Hệ quả là chất lượng tư vấn giảm sút và độ tin cậy của người dùng vào hệ thống bị ảnh hưởng.

Hiện tại, Việt Nam chưa có một hệ tư vấn chính thống nào hoạt động hiệu quả Theo thông tin tôi tìm hiểu, baomoi.com là trang duy nhất áp dụng hệ tư vấn dựa trên việc thiết lập từ khóa.

Baomoi.com cho phép người dùng đăng ký tài khoản và thiết lập các tiêu chí lọc tin cá nhân hóa, bao gồm chọn chuyên mục, từ khóa và nguồn tin Các bài báo được tổng hợp từ nhiều nguồn khác nhau sẽ được gán với các từ khóa chính dựa trên nội dung Người dùng có thể tự tạo chuyên mục theo nhu cầu bằng cách khai báo từ khóa, từ đó nhận được gợi ý tin tức liên quan Để tìm kiếm thông tin chính xác, người dùng cần hoàn thiện bộ lọc với các cụm từ khóa rõ ràng và khái quát.

Để nhận được tư vấn tin tức phù hợp trên baomoi.com, người dùng cần tự nghĩ ra các từ khóa liên quan đến sở thích của mình và thiết lập chuyên mục riêng khi đăng nhập Tuy nhiên, điều này có thể gây khó khăn cho những người có vốn từ hạn chế, khiến họ gặp khó khăn trong việc xác định các từ khóa đại diện cho nhu cầu và mục đích đọc tin của mình.

Một hạn chế của giao diện là khi người dùng chọn đọc một tin từ danh sách, hệ thống sẽ tự động chuyển đến đường dẫn gốc, khiến người dùng phải thực hiện thêm thao tác trên trình duyệt để quay lại danh sách trước đó.

Hình 2.6 Giao diện tạo chuyên mục trên trang web baomoi.com

Hệ gợi ý của baomoi.com vẫn còn nhiều hạn chế, bao gồm việc các tư vấn chưa thực sự rõ ràng và đáng tin cậy Giao diện trang web gây khó khăn cho người dùng trong việc phân biệt giữa tin tư vấn và tin chung Để truy cập tin tư vấn, người dùng phải chọn lại chuyên mục đã xây dựng từ lâu, trong khi các tin tư vấn không được cập nhật kịp thời Hơn nữa, trang web cũng không sắp xếp tin theo độ mới, khiến người dùng khó tìm được thông tin mới nhất.

Hình 2.7 Giao diện gợi ý tin không được sắp xếp của baomoi.com

Sự tư vấn hiện tại thiếu cơ sở vững chắc, chỉ dựa vào sự tương đồng giữa từ khóa trong hệ thống và từ khóa người dùng cung cấp Chức năng gợi ý tin tức từ các từ khóa đã khai báo thường không chính xác, do từ khóa có thể xuất hiện trong nhiều ngữ cảnh và chuyên mục khác nhau, dẫn đến việc hiểu sai ý nghĩa Do đó, việc tư vấn dựa trên từ khóa không thể đáp ứng tối ưu nhu cầu và mong muốn thực sự của người dùng.

2.3.3 Hệ thống gợi ý tin Việt xenoNews

Lý thuyết hệ tư vấn đã được nghiên cứu lâu dài tại Việt Nam, nhưng chưa có nhiều hệ tư vấn chất lượng có thể ứng dụng thực tiễn XenoNews là một sản phẩm nổi bật, được đánh giá cao trong luận văn tốt nghiệp thạc sĩ của tác giả Nguyễn Thạc Huy tại trường Đại học Công Nghệ.

Hệ thống gợi ý tin tức được xây dựng bởi tác giả cung cấp dịch vụ từ các báo điện tử Việt Nam, cho phép người dùng trải nghiệm như một tờ báo điện tử thông thường khi không đăng nhập Khi người dùng đăng nhập, hệ thống sẽ hiển thị tin tức dựa trên các tính toán cá nhân hóa, phù hợp với sở thích của từng người Người dùng có thể phản hồi về các gợi ý nhận được và có khả năng khai báo thêm từ khóa tùy chọn liên quan đến nội dung mà họ quan tâm, giúp hệ thống cải thiện độ chính xác của các gợi ý tin tức.

XenoNews là một hệ thống thông minh có khả năng thích nghi, giúp "học" sở thích của người dùng qua việc theo dõi các tin tức họ đọc hàng ngày Nhờ vào đó, hệ thống có thể gợi ý những bài viết phù hợp trong những ngày tiếp theo Các chức năng chính của XenoNews bao gồm việc cá nhân hóa nội dung tin tức dựa trên thói quen đọc của người dùng.

- Gợi ý tin tức phù hợp cho mỗi người dùng

- Thường xuyên cập nhật tin tức từ các báo điện tử phổ biến: Vietnamnet, Dân trí, Tinh tế, …

- Tránh đưa ra các tin trùng lặp hay có nội dung tương tự, từ nhiều nguồn báo khác nhau

- Tạo hồ sơ người dùng tự động, dựa trên tương tác của người dùng với hệ thống

Độc giả có thể khai báo từ khoá và nhóm từ khoá theo dõi để đảm bảo không bỏ lỡ bất kỳ bài viết nào về chủ đề họ quan tâm Việc này không tự động hóa mà do người dùng tự xây dựng và quản lý hồ sơ của mình Chẳng hạn, khi người dùng đăng ký nhóm từ khoá “xung đột biển Đông”, họ thể hiện mong muốn nhận mọi bài báo liên quan đến cả hai từ khoá “xung đột” và “biển Đông” Hệ thống gợi ý nội dung dựa trên thông tin từ chính bài viết và lịch sử tương tác trước đó của người dùng.

Kỹ thuật lọc cộng tác trong hệ tư vấn và nghiên cứu liên quan

Các độ đo tương tự và vận dụng trong lọc cộng tác

3.1.1 Phép đo khoảng cách Minkowski

Khoảng cách giữa hai đối tượng u và v được xác định thông qua một ma trận, với các phương pháp đo khoảng cách phổ biến như khoảng cách Euclidean, Manhattan, và Chebychev, được định nghĩa bởi khoảng cách Minkowski Ví dụ, trong một trường hợp cụ thể với dữ liệu của bốn người Amy, Bill, Jim và Ms.X đánh giá hai cuốn sách "Snow Crash" và "Girl with the Dragon Tattoo", mục tiêu là gợi ý một cuốn sách phù hợp cho Ms.X mà cô chưa đọc Để thực hiện điều này, trước tiên cần xác định người có độ tương đồng cao nhất với Ms.X bằng cách tính toán khoảng cách giữa các đối tượng.

Bảng 3.1 Ví dụ đánh giá của người dùng

Snow Crash Girl with the Dragon Tattoo

1- Độ đo khoảng cách Minkowski được định nghĩa :

Xét hai người dùng x,y trong không gian n chiều, độ đo khoảng cách Minkowski được định nghĩa:

Khi r =1 thì khoảng cách Minkowski trở thành khoảng cách Manhattan

( x y n k 1 x k y k d     Đây là độ đo khoảng cách dễ nhất, nếu xét trong không gian 2D, người dùng x(x 1 ,x 2 ) và y(y 1 ,y 2 ) Khoảng cách Manhattan giữa x, y là: |x 1 -x 2 |+|y 1 -y 2 |

Với bảng dữ liệu 3.1 ta có khoảng cách Manhattan giữa Amy và Ms X là:

Tương tự tính toán khoảng cách giữa Ms.X với 2 người dùng còn lại ta có kết quả khoảng cách bảng 3.2:

Bảng 3.2 Giá trị khoảng cách dùng độ đo Manhattan

Dựa trên bảng khoảng cách, Amy là người gần gũi nhất với Ms.X vì khoảng cách giữa họ là ngắn nhất Sử dụng kỹ thuật lọc cộng tác, chúng ta có thể xem xét lịch sử đánh giá của Amy Nếu Amy cho cuốn sách The Windup Girl điểm 5 sao (điểm cao nhất), chúng ta sẽ giới thiệu cuốn sách này cho Ms.X.

Khoảng cách Manhattan nổi bật với khả năng tính toán nhanh chóng, đặc biệt hữu ích trong mạng xã hội Facebook với hàng tỉ người dùng Phương pháp này giúp xác định những người tương tự với bạn một cách hiệu quả và nhanh gọn.

Trong công thức tính khoảng cách Minkowski, khi r=2 thì khoảng cách Minkowski trở thành khoảng cách Euclidean

Xét hai người dùng x(x 1 ,x 2 ) và y(y 1 ,y 2 ) Khoảng cách Euclidean là:

Xét lại ví dụ 1: Tương tự công thức Manhattan ta có bảng khoảng cách giữa những người dùng khác tới Ms.X theo công thức Euclidean như bảng 3.3:

Bảng 3.3 Giá trị khoảng cách dùng độ đo Euclidean

Khoảng cách Euclidean từ Ms X

Vậy theo độ đo Euclidean ta cũng nhận được kết quả Amy gần Ms.X nhất

Trong tập hợp nhiều người dùng, hai người được coi là tương đồng khi khoảng cách giữa họ, được đo bằng hai loại khoảng cách Manhattan và Euclidean, là nhỏ nhất.

3.1.2 Khoảng cách Hamming Để làm rõ công thức, xét hai đối tượng kiểu nhị phân u 01 và v 10 Để tính được khoảng cách Hamming ta xét từng cặp bit tương ứng từ 2 xâu u , v Nếu chúng khác nhau thì bít kết quả ghi 1, ngược lại ghi 0 Tổng các bit kết quả này chính là khoảng cách Hamming Vậy với 2 vector u , v : xét cặp bit thứ 1 của 2 xâu là: 1 và 1, thì bit kết quả là 0 Tiếp tục, ta so sánh lần lượt các cặp bit tiếp theo là 1 và 0 thì bit kết quả ghi thêm vào đằng sau chuỗi là 1, cứ làm như vậy đến hết xâu Ta thấy bit kết quả là: 0111, khoảng cách Hamming là tổng các bit kết quả này = 0+1+1+1=3

Từ đó ta có công thức tổng quát, xét 2 đối tượng u=’abcd…’ và v=’xyz…’

Nếu u [i]≠ v [i] thì Hammingdistance được cộng thêm 1 đơn vị, i=[0 k]; trong đó k là chiều dài đối tượng u , v

Như vậy, khoảng cách Hamming càng nhỏ thì sự tương tự giữa hai đối tượng càng lớn và ngược lại

3.1.3 Độ tương quan Pearson Để đưa ra được công thức tổng quát của Pearson ứng dụng trong lọc cộng tác ta xét 2 vector tổng quát u(a,b,c) và v(x,y,z) Khi đó độ tương quan giữa u , v là:

2 x y z z z y y x z y x x c b c a c b b a c b a a z y z x c b c a z y y x c b b a z y x x c b a a v u pearson Đặt S xy  { s  S | r x , s  , r y , s  } tập các đối tượng được đánh giá bởi cả hai người dùng x, y Công thức dựa trên độ tương quan của Pearson [13]:

Trong đó r x ,r y : lần lượt là điểm đánh giá trung bình của người dùng x, y trên tập các đối tượng s (cả hai người cùng đánh giá)

Bảng 3.4 Ví dụ ma trận đánh giá để tính độ tương quan Pearson

- Xét người dùng có tên Alice và sản phẩm 5 chưa được Alice đánh giá :

Để tìm những hàng xóm của Alice có sở thích tương tự, chúng ta cần xác định những sản phẩm mà họ đã chọn trong quá khứ Những hàng xóm này không chỉ có sở thích giống Alice mà còn giúp cô đánh giá sản phẩm với điểm số 5 Bằng cách sử dụng mức đánh giá trung bình của các hàng xóm, chúng ta có thể dự đoán được điểm số mà Alice sẽ dành cho sản phẩm.

+ Sau đó chọn tất các sản phẩm mà Alice chưa nhận ra là phù hợp với mình làm những tư vấn tốt nhất

Ta có: sim(alice,user 4 )

Tương tự ta có kết quả: sim(alice,user1)=0.85; sim(alice,user 2 )=0.00; sim(alice,user 3 )=0.70;

Hình 3.1 Đồ thị ví dụ so sánh đánh giá của người dùng lân cận

Dựa trên tính toán và quan sát đồ thị, user 1 và user 4 có độ tương quan Pearson cao nhất với Alice, lần lượt là 0.85 và 0.79 Do đó, điểm mà Alice có thể đánh giá cho đối tượng 5 được dự đoán là 2, tính từ công thức (3+1)/2.

Nhận xét: Giá trị độ tương quan Pearson phù hợp nằm trong khoảng -1 đến 1

3.1.4 Độ tương đồng dựa trên Cosine Đặt S xy  { s  S | r x , s , r y , s } tập các đối tượng được đánh giá bởi cả hai người dùng x,y Độ tương đồng Cosine giữa hai người dùng x và y được tính bởi công thức:

Trong đó: r x,s r y,s : lần lượt là điểm mà người dùng x,y dành cho đối tượng s Xét ma trận rate như bảng 3.5:

Bảng 3.5 Ma trận ví dụ minh họa độ tương đồng Cosine s 1 s 2 s 3 s 4 s 5 s 6 s 7

Ta có độ tương đồng Cosine giữa người dùng A và B là: Độ tương đồng Cosine giữa A và C là:

Vậy A có độ tương đồng với B hơn C

3.1.5 Độ tương đồng jaccard Độ tương đồng Jaccard giữa hai đối tượng x và y được tính theo công thức:

Ví dụ: Xét 2 vector có số chiều khác nhau như sau: x={0,1,2,5,6}; y={0,2,3,5,7,9}

Vậy độ tương tự Jaccard được xác định là:

Trong đó: |x | là số phần tử trong x, |y| là số phần tử trong y

Độ tương tự giữa người dùng và tài nguyên là khái niệm quan trọng trong hệ thống gợi ý Các phương pháp truyền thống như độ tương quan Pearson và độ tương đồng Cosine chỉ xem xét các thuộc tính chung giữa hai vector, dẫn đến việc hai vector có thể hoàn toàn tương đồng mặc dù chỉ chia sẻ một đánh giá Điều này tạo ra hạn chế, như trong ví dụ về một người dùng yêu thích phim viễn tưởng và một người khác chỉ thích phim hành động mà chưa đánh giá phim nào chung Khi cả hai cùng thích "Men in Black", họ trở nên tương đồng chỉ dựa trên một điểm đánh giá chung, cho thấy sự thiếu chính xác trong việc đo lường độ tương tự.

Độ tương tự Jaccard đo lường sự chồng lấp thuộc tính của hai vector, tuy nhiên không xem xét sự khác biệt trong đánh giá của chúng Khi áp dụng cho dữ liệu nhị phân, nếu hai người dùng có ý kiến trái ngược về các bộ phim mà họ đã xem, họ vẫn được coi là tương tự theo độ tương đồng Jaccard Ngược lại, độ đo khoảng cách Euclidean phản ánh sự tương đồng thông qua khoảng cách; khoảng cách càng nhỏ giữa hai người dùng cho thấy họ càng giống nhau Vì vậy, cả hai phương pháp đều hữu ích trong việc tìm kiếm người dùng tương đồng trong lọc cộng tác.

Mỗi kiểu dữ liệu đặc trưng sẽ sử dụng các loại độ đo phù hợp Cụ thể, dữ liệu nhị phân thường áp dụng độ tương tự Jaccard, trong khi dữ liệu số có thể sử dụng khoảng cách Euclidean, độ tương đồng Cosine hoặc độ tương tự Pearson Đối với dữ liệu dạng xâu, khoảng cách Hamming là lựa chọn thích hợp.

Các kỹ thuật trong lọc cộng tác

Lọc cộng tác là phương pháp tư vấn hiệu quả hơn so với lọc dựa trên nội dung, với nhiều ưu điểm nổi bật đã được phân tích trong chương 2 Phương pháp này đã được áp dụng rộng rãi trong nhiều ứng dụng, bao gồm các hệ thống như Youtube (video), Grundy, GroupLens (tin tức), Ringo (âm nhạc), Amazon.com (sách) và Phoaks (web).

Trong hệ thống lọc cộng tác (CF), dữ liệu đầu vào bao gồm các đánh giá của người dùng về các đối tượng Dựa trên những đánh giá này, người dùng có thể được so sánh, từ đó hình thành khái niệm "người dùng tương đồng" Đồng thời, các đối tượng cũng được so sánh với nhau để tạo ra khái niệm "đối tượng tương đồng" Điểm đánh giá của một người dùng đối với một đối tượng có thể được dự đoán dựa trên các đánh giá từ những người dùng tương cận hoặc các tài nguyên liên quan.

Ma trận R Thuật toán CF Kết xuất

Hình 3.2 Sơ đồ thể hiện quy trình của CF

Trong đó, ma trận R (đầu vào của CF) là ma trận rate (đánh giá) của m người dùng u với n tài nguyên i Kết xuất chính là đầu ra của CF [27]:

+ r aj là giá trị cần dự đoán thể hiện đánh giá có tiềm năng nhất của người dùng a lên tài nguyên j

+ T i1 , T i2 ,…T in gợi ý danh sách N tài nguyên (T i,n ) mà bộ lọc gợi ý cho người dùng u a

Thuật toán Collaborative Filtering (CF) là phần trung tâm trong hệ thống tư vấn, giúp xác định các đối tượng mà người dùng có thể thích và số lượng người thích chúng CF thường được sử dụng để tạo ra những gợi ý tốt nhất cho người dùng, từ việc đề xuất các đối tượng phù hợp cho đến việc cung cấp danh sách các đối tượng hàng đầu Hệ thống gợi ý này thường hoạt động với tốp N đối tượng, trong đó N thường dao động từ 1 đến 20.

Nghiên cứu của J.S Breese, D Heckerman và C Kadie phân loại các thuật toán gợi ý hợp tác thành hai nhóm chính: nhóm dựa trên kinh nghiệm (memory-based hoặc heuristic-based) và nhóm dựa vào mô hình (model-based).

3.2.1 Lọc cộng tác dựa trên kinh nghiệm

Phương pháp lọc cộng tác dựa trên kinh nghiệm (memory-based) sử dụng toàn bộ dữ liệu hiện có để dự đoán đánh giá của người dùng về các đối tượng mới Với ưu điểm là có khả năng cập nhật dữ liệu mới vào bảng dữ liệu, phương pháp này đã đạt được nhiều thành công trong các ứng dụng thực tế Nhờ đó, các kỹ thuật này thường đưa ra dự đoán chính xác hơn trong các hệ thống trực tuyến, nơi dữ liệu luôn được cập nhật liên tục.

Tư vấn raj (dự đoán đánh giá của người dùng u a lên sản phẩm i j )

{T i1 ,T i2 ,… ,TiN}Danh sách N sản phẩm tốt nhất tư vấn cho người dùng ui

Các thuật toán tư vấn dựa vào bộ nhớ sử dụng các đánh giá trong quá khứ của người dùng tương đồng để dự đoán đánh giá của người dùng đối với một đối tượng Dự đoán này thường là giá trị trung bình của tích trọng số và điểm đánh giá từ những người dùng khác, với trọng số phản ánh độ tương đồng giữa các cặp người dùng Các phương pháp đo tương đồng thường được sử dụng bao gồm hệ số tương quan Pearson và độ đo Cosine.

2 vector đánh giá Ma trận tương đồng w(u i ,u j ) giữa tập người dùng thường được tính toán trước Gợi ý đối tượng s tới người dùng u i cho bởi công thức

Trong đó: I(u j ,s) là điểm (rate) đánh giá của người dùn u j với đối tượng s w(u i ,u j ): độ tương đồng (tương tự) giữa u i và u j

Phương thức gợi ý dựa vào bộ nhớ đang phát triển nhanh chóng nhờ tính đơn giản và quá trình huấn luyện dễ hiểu Tuy nhiên, một trong những thách thức lớn nhất của phương thức này là khả năng mở rộng hạn chế Thông thường, có hai cách tiếp cận chính trong hệ thống gợi ý dựa trên bộ nhớ: hệ thống dựa trên người dùng và hệ thống dựa trên đối tượng.

3.2.1.1 Lọc cộng tác dựa vào người dùng

Theo phương pháp lọc cộng tác dựa vào người dùng, hệ thống dự đoán sở thích của người dùng dựa trên sự tương tác giữa các người dùng khác Bằng cách so sánh đánh giá của hai người dùng trên cùng một đối tượng, hệ thống xác định sự tương đồng và từ đó dự đoán đánh giá của người dùng u cho đối tượng s Kết quả có thể là đánh giá trung bình hoặc tổng hợp từ những người dùng tương tự, hoặc gợi ý đối tượng dựa trên những đánh giá này Phương pháp này thường hiệu quả hơn khi số lượng đối tượng lớn hơn nhiều so với số lượng người dùng trong ma trận user-item.

Mỗi hồ sơ người dùng được biểu diễn dưới dạng vector không có thứ tự, và điểm đánh giá của những người dùng tương tự đóng vai trò quan trọng trong việc dự đoán các điểm đánh giá cũng như tư vấn đối tượng cho người dùng Do đó, việc lựa chọn nhóm người dùng tương tự là yếu tố quyết định đến độ chính xác của dự đoán và gợi ý Vấn đề này sẽ được phân tích chi tiết trong phần "Vấn đề lựa chọn hàng xóm" của mục này.

Theo hướng tiếp cận này thường bàn đến các khía cạnh [16]:

- Q1: Làm thế nào để đo độ tương tự giữa hai người dùng?

- Q2: Làm thế nào để lựa chọn nhóm người dùng tương tự với mình?

- Q3: Làm thế nào để sử dụng nhóm người dùng tương tự vào quá trình gợi ý ?

Hình 3.3 Mô tả CF dựa vào người dùng [16]

Việc trả lời ba câu hỏi trên sẽ được phân tích kĩ trong phương pháp user-nearest neighbor based của lọc cộng tác

 Phương pháp dựa vào láng giềng gần nhất (user-nearest neighbor) trong CF

Thuật toán lọc cộng tác dựa trên láng giềng gần nhất là một trong những phương pháp phổ biến nhất trong hệ thống lọc cộng tác (CF) nhờ vào tính dễ thực hiện và độ chính xác cao Luận văn này sẽ áp dụng kỹ thuật này trong thực nghiệm, do đó tác giả sẽ trình bày chi tiết về phương pháp này.

Phương pháp này ước lượng đánh giá của người dùng a cho đối tượng i bằng cách dựa vào những người hàng xóm T a, tức là những người tương tự đã đánh giá đối tượng i Ma trận đánh giá được sử dụng để xác định hàng xóm T a Để dự đoán đánh giá p a,i của người dùng a cho đối tượng i, ta có thể tính tổng trọng số các đánh giá từ những hàng xóm gần nhất u thuộc T a đã đánh giá đối tượng i.

Độ tương tự giữa người dùng a và u, được biểu thị bởi sim(a,u), đóng vai trò quan trọng trong việc dự đoán điểm đánh giá cho đối tượng i Điểm r ui là đánh giá mà người dùng u (hàng xóm của a) đã dành cho đối tượng i, trong khi S u là tập hợp các đối tượng mà u đã đánh giá Để phản ánh sự khác biệt trong cách sử dụng thang đánh giá giữa các người dùng, việc dự đoán dựa trên độ lệch từ đánh giá trung bình là cần thiết Giá trị P ai được tính bằng tổng của đánh giá trung bình của người dùng a cộng với tổng trọng số của các độ lệch từ đánh giá trung bình của các hàng xóm.

0) xóm đã đánh giá tài nguyên i

Su i T u ui u a ai a a u a sim r r u a sim r p r u là đánh giá trung bình của người dùng u

Người dùng có thể đánh giá tài nguyên từ 1 đến 5, với 4 cho tài nguyên yêu thích và 1 cho tài nguyên không thích Tuy nhiên, một người khác có thể cho tài nguyên yêu thích điểm 5 và tài nguyên không thích điểm 2 Việc sử dụng độ lệch từ đánh giá trung bình giúp hiểu rõ hơn về sự ưa thích cá nhân của từng người dùng đối với các tài nguyên mà họ đánh giá.

Phương pháp dựa trên láng giềng đang ngày càng phổ biến nhờ vào tính trực quan và đơn giản của chúng Những phương pháp này không yêu cầu điều chỉnh nhiều tham số hay giai đoạn huấn luyện phức tạp, đồng thời cung cấp cách tính toán dự đoán một cách dễ hiểu Đặc biệt, phương pháp láng giềng gần nhất đã được áp dụng thành công trên dữ liệu của Netflix, cho thấy sự cải thiện đáng kể về chất lượng dự đoán mà không làm tăng thời gian xử lý.

Phương pháp lọc cộng tác dựa vào láng giềng gần nhất xác định chất lượng hệ tư vấn thông qua số lượng hàng xóm, cách lựa chọn hàng xóm và mức độ tương tự giữa người dùng Điều này được thực hiện dựa trên các giá trị đánh giá (rating) của những người dùng đánh giá cùng một tập đối tượng, từ đó tạo thành hàng xóm gần nhất.

1- Độ tương tự giữa các người dùng

Kỹ thuật chọn tốp N gợi ý trong lọc cộng tác

Một giai đoạn quan trọng trong lọc cộng tác là xây dựng một nhóm hàng xóm tin cậy, tức là những người có sở thích tương tự nhau Từ đó, chúng ta có thể phân tích sở thích đọc của họ để đưa ra gợi ý cho người dùng cần tư vấn, chẳng hạn như người dùng u1 Vấn đề đặt ra là xác định các đối tượng đặc trưng trong cộng đồng để lựa chọn cho việc tư vấn Điều này dẫn đến câu hỏi về cách thức lấy ra tốp N gợi ý trong quy trình lọc cộng tác.

Phương pháp 1: Dựa vào thang điểm đánh giá mới của người dùng tới các đối tượng mà cộng đồng đang quan tâm

Chúng tôi sẽ tính toán lại điểm của người dùng u1 dựa trên các đối tượng mà cộng đồng đánh giá cao, khác với điểm ban đầu mà hệ thống đã ghi nhận Các đối tượng này có thể bao gồm hoặc không bao gồm những đối tượng mà u1 đã từng tương tác Sau khi hoàn tất việc tính toán, chúng tôi sẽ lựa chọn các đối tượng mà u1 đã đánh giá cao.

Trong tập hợp U (những người tương tự với u 1 ) sau khi tính độ tương đồng giữa người dùng u 1 với lần lượt các người dùng khác u 1 trong U

Xét hai người dùng u1 và u2, ta ký hiệu tập hợp tất cả các bản tin mà một trong hai người dùng đã từng truy cập là N = {n1, n2, …, np} với p phần tử Điểm đánh giá của người dùng u1 và u2 trong tập hợp N được biểu diễn bằng vector tương ứng.

Độ tương đồng giữa hai người dùng u1 và u2 được xác định thông qua công thức Cosine, dựa trên các giá trị đánh giá của u1 trong tập dữ liệu D(u1) và các giá trị đánh giá của u2 trong tập dữ liệu D(u2) Các phần tử trong D(u1) và D(u2) đại diện cho những đánh giá mà mỗi người dùng dành cho các bản tin khác nhau.

U là tập hợp những người dùng có sự tương đồng trong nhóm Dựa trên đó, chúng ta có thể tính toán điểm số đánh giá mức độ quan tâm của người dùng u đối với bản tin s (khác với n i).

Trong công thức (3.25), N_U đại diện cho số lượng người dùng trong tập U, trong khi I(u_j, s) là các giá trị rating mà người dùng u_j đã tương tác với bản tin s Những giá trị này có thể bao gồm cả giá trị âm.

0 nếu người dùng u j chưa tương tác với bản tin s ), similarity( u,u j ) tính theo công thức 3.24 Việc thêm (N U – 1) ở mẫu số nhằm đảm bảo r(u,s) nằm trong khoảng (0,1)

Danh sách bản tin gợi ý cho người dùng u bao gồm các bản tin mà những người dùng khác trong nhóm đã quan tâm nhưng u chưa đọc Các bản tin này được đánh giá khả năng quan tâm của người dùng u dựa trên công thức 3.25 và sắp xếp theo điểm số từ cao đến thấp Do đó, chúng ta có thể chọn ra các bản tin m i có thứ hạng cao nhất trong tập N để tư vấn cho người dùng u.

Phương pháp 2 – Dựa trên số lượng đánh giá (POP - Popularly Rated) là một kỹ thuật dựa vào số lượng người dùng trong cộng đồng đã đánh giá cùng một tài nguyên, nhằm lọc ra những đối tượng phổ biến nhất Phương pháp này đơn giản và dễ thực hiện, phù hợp cho cả người dùng mới và người dùng thường xuyên Trong ma trận user-item ban đầu, những đối tượng nhận được nhiều đánh giá từ cộng đồng sẽ được coi là phổ biến và được gợi ý cho người dùng Để tối ưu hóa, có thể giới hạn số lượng đối tượng bằng cách chọn N đối tượng phổ biến nhất dựa trên số lượng tương tác Tiêu chí này phản ánh mức độ tham gia đánh giá của người dùng, với số lượng đánh giá cao hơn cho đối tượng j so với đối tượng i sẽ dẫn đến việc j được gợi ý nhiều hơn.

Phương pháp gợi ý POP phát huy hiệu quả khi người dùng ẩn danh hoặc có ít tương tác Đây là phương pháp đơn giản, dễ cài đặt, không tốn nhiều thời gian để tính toán số lượng người dùng tham gia đánh giá POP hiệu quả trong các hệ thống chú trọng tính phổ biến theo thị hiếu số đông Tuy nhiên, cần lưu ý rằng trong lọc cộng tác, việc sử dụng các đối tượng phổ biến có thể không đảm bảo chất lượng cao, vì một số sản phẩm được đánh giá nhiều nhưng điểm số lại thấp có thể được đưa lên tốp Ngược lại, một số sản phẩm ít người quan tâm nhưng có điểm đánh giá cao lại không được chú ý Điều này cho thấy không phải ai cũng quan tâm đến một bản tin với mức độ như nhau, thể hiện qua các giá trị đánh giá khác nhau trong ma trận user-item.

Phương pháp 3: Dựa vào tổng điểm có thứ hạng cao (High Rating- HR )

Phương pháp này sử dụng điểm trung bình hoặc tổng điểm của người dùng trong cộng đồng để đánh giá các đối tượng trong tập M Những đối tượng nào có điểm trung bình hoặc tổng rating cao sẽ được đề xuất cho người dùng.

Phương pháp này tập trung vào tiêu chí chất lượng đối tượng, giúp mang lại chất lượng tư vấn cao và đáp ứng nhu cầu của người dùng về việc được tư vấn những đối tượng chất lượng Tiêu chí này cũng phản ánh mức độ quan tâm của cộng đồng đối với đối tượng, khi các đối tượng đã được đánh giá cao thường thu hút sự quan tâm của nhiều người Nhờ đó, phương pháp này không chỉ đảm bảo chất lượng tư vấn cao mà còn có tính phổ biến rộng rãi.

Một số nghiên cứu về khắc phục hạn chế lọc cộng tác

Hệ thống CF (Collaborative Filtering) gặp phải một số hạn chế, đặc biệt là vấn đề cold start khi người dùng mới chưa cung cấp đánh giá nào, dẫn đến việc hệ thống không thể đưa ra tư vấn phù hợp Để khắc phục điều này, Herlocker đề xuất việc khai thác dữ liệu nhân khẩu học như tuổi, vị trí và nghề nghiệp để cải thiện các tư vấn ban đầu cho người dùng mới Đối với tài nguyên mới và người dùng mới, phương pháp tư vấn lai (Hybrid filtering) kết hợp giữa Content-Based (CB) và Collaborative Filtering (CF) đã được áp dụng để đạt được kết quả tốt hơn Bài viết này sẽ trình bày chi tiết các phương pháp mà các hệ thống tư vấn khác đã áp dụng để giải quyết các vấn đề này.

1- Kỹ thuật giảm sự thưa thớt dữ liệu trong hệ tư vấn Đây là một hạn chế phổ biến trong hầu hết các hệ tư vấn, đặc biệt khi số lượng đối tượng tăng lên nhiều mà người dùng chưa đủ thời gian hoặc chưa kịp đánh giá Ví dụ như dữ liệu của Netflix [28] có đến 99% là thiếu các giá trị đánh giá của người dùng Theo Emmanouil Vozalis, Konstantinos G.Margaritis có thể đưa ra ba đề xuất

[13] để khắc phục hạn chế dữ liệu thưa

Một trong những kỹ thuật đơn giản để giảm sự thưa thớt của ma trận user-item là chèn một đánh giá mặc định d cho các đối tượng thích hợp chưa có điểm đánh giá nào Tuy nhiên, kỹ thuật này không xác định rõ vị trí của các đánh giá mặc định sẽ được chèn vào Thông thường, giá trị đánh giá mặc định d được chọn là độc lập hoặc một số sở thích tiêu cực cho các đối tượng không quan sát được Chi phí áp dụng phương pháp này khá thấp, giúp giảm thiểu sự phức tạp trong quá trình đánh giá.

Tiền xử lý sử dụng giá trị trung bình là một phương pháp mở rộng của kỹ thuật bỏ phiếu mặc định, trong đó ý tưởng chính là duyệt qua ma trận user-item và thay thế các giá trị lỗi (rỗng) bằng các phương pháp không hợp tác đơn giản để cung cấp một rating.

Trong chương trình trung bình người sử dụng, mỗi người dùng được tính toán trung bình đánh giá các đối tượng, được thể hiện qua ma trận user-item Trung bình này giúp thay thế các giá trị lỗi trong đánh giá Phương pháp này dựa trên việc dự đoán đánh giá của người dùng cho một đối tượng mới bằng cách xem xét các đánh giá trước đó của những người dùng tương tự Nếu người dùng chưa đánh giá đối tượng, giá trị trung bình của các đánh giá tương tự sẽ được sử dụng để đưa ra dự đoán.

( r ij : điểm đánh giá của hàng i , cột j)

Bảng 3.6 Ma trận mô tả trung bình các giá trị trong ma trận user-item i 1 i 2 i j item i User u

Trong sơ đồ trung bình đối tượng, chúng ta sử dụng mức trung bình r j của từng đối tượng i j để điền vào các vị trí thiếu trong ma trận, cụ thể là giá trị r i,j Bằng cách tính trung bình cột cho mỗi cột trong ma trận user-matrix, chúng ta có thể điền vào các cột tương tự mà chưa có giá trị r j Nếu người dùng u i chưa đánh giá đối tượng i j, chúng ta sẽ sử dụng giá trị trung bình, và nếu đã đánh giá, chúng ta sẽ sử dụng giá trị r Việc áp dụng sơ đồ trung bình đối tượng và trung bình người dùng cho các giá trị thiếu trong ma trận sẽ tạo ra một ma trận hoàn chỉnh, từ đó loại bỏ hoàn toàn vấn đề dữ liệu thưa.

 Sử dụng kỹ thuật giảm số chiều

Chiến lược giảm số chiều hiệu quả bao gồm việc hình thành các cụm đối tượng hoặc người dùng, sử dụng các cụm này trong dự đoán Để cải thiện phương pháp, có thể áp dụng kỹ thuật phân tích thành phần PCA và chỉ mục ngữ nghĩa LSI Các kỹ thuật trích chọn đặc trưng như SVD cũng giúp giảm số chiều ma trận Những phương pháp này giải quyết vấn đề thưa thớt bằng cách tạo ra các ma trận tương tác user-item gần gũi với người dùng Tuy nhiên, thông tin hữu ích có thể bị mất trong quá trình giảm chiều, làm giảm độ tin cậy của dự đoán Giải pháp cho vấn đề này là kết hợp phương pháp lọc cộng tác với các phương pháp dựa trên nội dung, cùng với tương tác giữa người dùng và đối tượng, giúp tăng độ chính xác của dự đoán Tuy nhiên, nhược điểm là các kỹ thuật này chỉ khả thi khi thông tin nội dung có sẵn trong hệ thống.

Phương pháp sử dụng đồ thị song phương xem dữ liệu như một đồ thị, trong đó mỗi nút đại diện cho người dùng và sản phẩm tư vấn, và mỗi cạnh (u,i) thể hiện mối liên hệ giữa người dùng u và sản phẩm i thông qua đánh giá của u cho i Cạnh (u,i) còn mang trọng số tương ứng với đánh giá đó Các phương pháp này chuyển hóa độ tương tự giữa người dùng hoặc sản phẩm dựa trên lý thuyết đồ thị, ví dụ như tính toán độ tương tự giữa hai người dùng thông qua độ trung bình của các nút trong các đường ngẫu nhiên Ngoài ra, các phép đo khác như khoảng cách ngắn nhất và khoảng cách ảnh hưởng giữa các nút cũng được xem xét Tuy nhiên, một hạn chế của phương pháp này là không phản ánh tốt độ đo tương tự trong dự đoán đánh giá.

Tác giả Duy Phương [32] đề xuất áp dụng phương pháp học đa nhiệm vào lọc cộng tác, nhằm tận dụng các đặc trưng chung từ nhiều người dùng khác nhau trong quá trình huấn luyện Những đặc trưng này không chỉ giúp chia sẻ thông tin giữa các người dùng mà còn nâng cao độ chính xác của dự đoán, đồng thời giảm thiểu tác động của vấn đề dữ liệu thưa.

Chúng ta có thể áp dụng kỹ thuật user average scheme để giải quyết vấn đề thiếu dữ liệu trong ma trận user-item Cụ thể, chúng ta tính toán mức trung bình của từng người dùng u_i để điền vào giá trị thiếu r_i,j Điều này được thực hiện bằng cách lấy trung bình của các điểm đánh giá trong cùng một hàng, từ đó điền vào các chỗ khuyết mà người dùng u_i chưa đánh giá đối tượng mới i_j.

 Tạo lập cộng đồng tương tự dựa trên mô hình cộng đồng đa tiêu chí

Quá trình tạo lập cộng đồng dựa trên hai phương pháp tìm cộng đồng tương tự là hàng xóm gần nhất và khoảng cách tâm, nhưng gặp khó khăn khi người dùng mới không có thông tin đánh giá Để khắc phục điều này, hệ thống cần cung cấp tài nguyên để người dùng đánh giá, tuy nhiên, điều này đòi hỏi người dùng phải nỗ lực trước khi được xếp vào cộng đồng Mô hình không gian cộng đồng đa tiêu chí có thể giải quyết những hạn chế này bằng cách sử dụng nhiều thuộc tính trong hồ sơ người dùng như tuổi, nghề, nơi cư trú, trình độ, chủ đề quan tâm và sở thích để thành lập cộng đồng Nhờ vậy, một người dùng có thể thuộc về nhiều cộng đồng khác nhau, tạo nên một không gian cộng đồng phong phú được biểu diễn bằng bảng cộng đồng (alpha – community table) T mxn.

Bảng 3.7 Bảng minh họa mô hình cộng đồng đa tiêu chí

Trong bài viết này, chúng ta xem xét tập người dùng U và tập tiêu chí A, trong đó mỗi giá trị T[u i, α j] thể hiện mối liên hệ giữa người dùng u i và cộng đồng tiêu chí α j Điều này giúp phân nhóm và phân hoạch người dùng một cách hiệu quả dựa trên các tiêu chí đã định.

Hệ thống phân nhóm người dùng dựa trên các tiêu chí đơn giản như tuổi, nghề nghiệp và nơi cư trú thông qua so sánh trực tiếp Đối với các tiêu chí phức tạp như nền tảng kiến thức và thông tin đánh giá, hệ thống áp dụng các phương pháp như hàng xóm gần nhất và khoảng cách tâm để phân hoạch người dùng Đối với người dùng mới, khi chưa có thông tin để đánh giá, hệ thống sử dụng phương pháp quy nạp dựa trên luật để suy diễn cộng đồng theo các tiêu chí đánh giá của người dùng, dựa trên những cộng đồng đã được phân loại theo tiêu chí khác.

 Định vị người dùng mới vào cộng đồng

Khi người dùng mới đăng ký vào hệ thống, việc định vị họ vào cộng đồng phù hợp là rất quan trọng để cung cấp thông tin tư vấn chính xác Đối với các cộng đồng dựa trên giá trị nhân khẩu học như tuổi, nghề nghiệp và nơi cư trú, quá trình này tương đối đơn giản Tuy nhiên, trong các phương pháp cộng tác cổ điển, việc xác định cộng đồng dựa trên tiêu chí đánh giá của người dùng là một thách thức, bởi vì đánh giá của người dùng mới vẫn chưa được xác định Để khắc phục vấn đề này, nhiều phương pháp tiếp cận khác nhau đã được phát triển.

(1) Khai thác thông tin thăm dò

Hệ thống yêu cầu người dùng mới đánh giá một số lượng tối thiểu các tài nguyên, có thể thông qua danh sách tài nguyên được chọn ngẫu nhiên hoặc theo tiêu chí nhất định Tuy nhiên, phương pháp này có thể gây khó khăn cho người dùng khi họ không thể đưa ra đánh giá cụ thể do thiếu thông tin về các tài nguyên Để khắc phục điều này, người dùng mới có thể tự chọn các tài nguyên trong phạm vi hiểu biết của mình để thực hiện đánh giá.

(2) Cung cấp hồ sơ mẫu

Xây dựng mô hình và thực nghiệm

Ngày đăng: 27/06/2022, 17:22

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Adomavicius, G., & Tuzhilin, A.(2005), Toward the next generation of recommender systems: A survey of the state-of-the-art and possible extensions.Knowledge and Data Engineering, IEEE Transactions on, 17(6), 734-749 Sách, tạp chí
Tiêu đề: Knowledge and Data Engineering, IEEE Transactions on, 17
Tác giả: Adomavicius, G., & Tuzhilin, A
Năm: 2005
[2] William W. Cohen, Center for Automated Learning and Discovery Carnegie Mellon Uninversity, “Collaborative Filtering: Atutorial” Sách, tạp chí
Tiêu đề: Collaborative Filtering: Atutorial
[3] J.S. Breese, d.Heckerman, and C. Kadie, “Emprical analysis of predictive algorithms for collaborative filtering,”Communications of the ACM, vol.40, no.3, pp.66-72,197 Sách, tạp chí
Tiêu đề: Emprical analysis of predictive algorithms for collaborative filtering
[4] M. Balabanovic and Y. Shoham, (1997), “Fab: Content-based, Collaborative Recommendation,” Communications of the ACM, vol. 40, no. 3, pp. 66–72 Sách, tạp chí
Tiêu đề: Fab: Content-based, Collaborative Recommendation,” "Communications of the ACM
Tác giả: M. Balabanovic and Y. Shoham
Năm: 1997
[5] M. Pazzani and D. Billsus, (1997), “Learning and Revising User Profiles : The Identification of Interesting Web Sites,” Machine Learning 27, pp. 313–331 Sách, tạp chí
Tiêu đề: Learning and Revising User Profiles : The Identification of Interesting Web Sites,” "Machine Learning 27
Tác giả: M. Pazzani and D. Billsus
Năm: 1997
[6] P. Resnick, N. Iacovou, and M. Suchak, (1994), “GroupLens: an open architecture for collaborative filtering of netnews,” Proceedings of the Computer Supported Cooperative Work Conf Sách, tạp chí
Tiêu đề: GroupLens: an open architecture for collaborative filtering of netnews,”
Tác giả: P. Resnick, N. Iacovou, and M. Suchak
Năm: 1994
[10] Linden, G., Smith, B., & York, J. (2003), Amazon. com recommendations: item-to-item tượng collaborative filtering. Internet Computing, IEEE, 7(1), 76-80 Sách, tạp chí
Tiêu đề: Internet Computing, IEEE, 7
Tác giả: Linden, G., Smith, B., & York, J
Năm: 2003
[11] Cremonesi, P., Koren, Y., & Turrin, R. (2010, September), Performance of recommender algorithms on top- n recommendation tasks. In Proceedings of the fourth ACM conference on Recommender systems (pp. 39-46). ACM Sách, tạp chí
Tiêu đề: Proceedings of the fourth ACM conference on Recommender systems
Tác giả: Cremonesi, P., Koren, Y., & Turrin, R
Năm: 2010
[12] D. Billsus and M. Pazzani, (2000), “User modeling for adaptive news access,” User modeling and user-adapted interaction, pp. 147–180 Sách, tạp chí
Tiêu đề: User modeling for adaptive news access,” "User modeling and user-adapted interaction
Tác giả: D. Billsus and M. Pazzani
Năm: 2000
[14] M. Claypool, A. Gokhale, and T. Miranda, “Combining content-based and collaborative filters in an online newspaper,” Proceedings of ACM CHI’95, 1999 Sách, tạp chí
Tiêu đề: Combining content-based and collaborative filters in an online newspaper,” "Proceedings of ACM CHI’95
[15] M. Pazzani, (1999), “A framework for collaborative, content-based and demographic filtering,” Artificial Intelligence Review, pp. 1–16 Sách, tạp chí
Tiêu đề: A framework for collaborative, content-based and demographic filtering,” "Artificial Intelligence Review
Tác giả: M. Pazzani
Năm: 1999
[16] Han, J., Kamber, M., & Pei, J. (2006), Data mining: concepts and techniques. Morgan kaufmann, chapter 11 Sách, tạp chí
Tiêu đề: Data mining: concepts and techniques
Tác giả: Han, J., Kamber, M., & Pei, J
Năm: 2006
[17] Breese, J. S., Heckerman, D., & Kadie, C. (1998, July), Empirical analysis of predictive algorithms for collaborative filtering. In Proceedings of the Fourteenth conference on Uncertainty in artificial intelligence (pp Sách, tạp chí
Tiêu đề: Proceedings of the Fourteenth conference on Uncertainty in artificial intelligence
Tác giả: Breese, J. S., Heckerman, D., & Kadie, C
Năm: 1998
[18] Benjamin Marlin,(2003), “collaborative filtering: A Machine Learning Perspective” Sách, tạp chí
Tiêu đề: collaborative filtering: A Machine Learning Perspective
Tác giả: Benjamin Marlin
Năm: 2003
[19] Gjoka, M., & Soldo, F. (2008), Exploring collaborative filters: Neighborhood- based approach. working paper, Department of MSIS, University of Texas, Austin Sách, tạp chí
Tiêu đề: Exploring collaborative filters: Neighborhood-based approach
Tác giả: Gjoka, M., & Soldo, F
Năm: 2008
[20] Wang, J., De Vries, A. P., & Reinders, M. J. (2006, August), Unifying user-based and item-based collaborative filtering approaches by similarity fusion. In Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval (pp. 501-508). ACM Sách, tạp chí
Tiêu đề: Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval
Tác giả: Wang, J., De Vries, A. P., & Reinders, M. J
Năm: 2006
[21] McLaughlin, M. R., & Herlocker, J. L. (2004, July), A collaborative filtering algorithm and evaluation metric that accurately model the user experience. In Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval (pp. 329-336). ACM Sách, tạp chí
Tiêu đề: Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval
Tác giả: McLaughlin, M. R., & Herlocker, J. L
Năm: 2004
[22] Herlocker, J. L., Konstan, J. A., Riedl, J., (2002), “An Empirical Analysis of Design Choices in Neighborhood-based Collaborative Filtering Algorithms”. Information Retrieval, 5287-310 Sách, tạp chí
Tiêu đề: An Empirical Analysis of Design Choices in Neighborhood-based Collaborative Filtering Algorithms”. "Information Retrieval
Tác giả: Herlocker, J. L., Konstan, J. A., Riedl, J
Năm: 2002
[23] Herlocker, J. L., Konstan, J. A., Terveen, L. G., & Riedl, J. T. (2004), Evaluating collaborative filtering recommender systems. ACM Transactions on Information Systems (TOIS), 22(1), 5-53 Sách, tạp chí
Tiêu đề: ACM Transactions on Information Systems (TOIS), 22
Tác giả: Herlocker, J. L., Konstan, J. A., Terveen, L. G., & Riedl, J. T
Năm: 2004
[24] Cremonesi, P., Koren, Y., & Turrin, R. (2010, September), Performance of recommender algorithms on top-n recommendation tasks. In Proceedings of the fourth ACM conference on Recommender systems (pp. 39-46). ACM Sách, tạp chí
Tiêu đề: Proceedings of the fourth ACM conference on Recommender systems
Tác giả: Cremonesi, P., Koren, Y., & Turrin, R
Năm: 2010

HÌNH ẢNH LIÊN QUAN

Hình 2.1. Tư vấn dựa trên nội dung [30] - (LUẬN văn THẠC sĩ) nghiên cứu và ứng dụng khai phá dữ liệu để xây dựng hệ tư vấn cho diễn đàn trực tuyến
Hình 2.1. Tư vấn dựa trên nội dung [30] (Trang 16)
Hình 2.2. Tư vấn dựa trên cộng tác [30] - (LUẬN văn THẠC sĩ) nghiên cứu và ứng dụng khai phá dữ liệu để xây dựng hệ tư vấn cho diễn đàn trực tuyến
Hình 2.2. Tư vấn dựa trên cộng tác [30] (Trang 18)
Hình 2.3. Hệ thống tư vấn lai Fab [4] - (LUẬN văn THẠC sĩ) nghiên cứu và ứng dụng khai phá dữ liệu để xây dựng hệ tư vấn cho diễn đàn trực tuyến
Hình 2.3. Hệ thống tư vấn lai Fab [4] (Trang 20)
3- Thêm thuộc tính nội dung vào mô hình cộng tác [1]: Hệ thống lai này dựa chủ yếu trên các kỹ thuật cộng tác nhưng vẫn duy trì hồ sơ về người dùng (theo dạng của  mô hình dựa trên nội dung) - (LUẬN văn THẠC sĩ) nghiên cứu và ứng dụng khai phá dữ liệu để xây dựng hệ tư vấn cho diễn đàn trực tuyến
3 Thêm thuộc tính nội dung vào mô hình cộng tác [1]: Hệ thống lai này dựa chủ yếu trên các kỹ thuật cộng tác nhưng vẫn duy trì hồ sơ về người dùng (theo dạng của mô hình dựa trên nội dung) (Trang 20)
Bảng 2.1. Tổng hợp ba phương pháp tư vấn và các kỹ thuật hỗ trợ [1] - (LUẬN văn THẠC sĩ) nghiên cứu và ứng dụng khai phá dữ liệu để xây dựng hệ tư vấn cho diễn đàn trực tuyến
Bảng 2.1. Tổng hợp ba phương pháp tư vấn và các kỹ thuật hỗ trợ [1] (Trang 21)
Hình 2.4. Hệ thống tích hợp gợi ý sách của Amazon.com - (LUẬN văn THẠC sĩ) nghiên cứu và ứng dụng khai phá dữ liệu để xây dựng hệ tư vấn cho diễn đàn trực tuyến
Hình 2.4. Hệ thống tích hợp gợi ý sách của Amazon.com (Trang 22)
Hình 2.6. Giao diện tạo chuyên mục trên trang web baomoi.com - (LUẬN văn THẠC sĩ) nghiên cứu và ứng dụng khai phá dữ liệu để xây dựng hệ tư vấn cho diễn đàn trực tuyến
Hình 2.6. Giao diện tạo chuyên mục trên trang web baomoi.com (Trang 23)
Hình 2.7. Giao diện gợi ý tin không được sắp xếp của baomoi.com - (LUẬN văn THẠC sĩ) nghiên cứu và ứng dụng khai phá dữ liệu để xây dựng hệ tư vấn cho diễn đàn trực tuyến
Hình 2.7. Giao diện gợi ý tin không được sắp xếp của baomoi.com (Trang 24)
như bảng 3.1. Ta muốn gợi ý một cuốn sách cho Ms.X mà anh này chưa đọc nhưng được tính toán là phù hợp với MS.X - (LUẬN văn THẠC sĩ) nghiên cứu và ứng dụng khai phá dữ liệu để xây dựng hệ tư vấn cho diễn đàn trực tuyến
nh ư bảng 3.1. Ta muốn gợi ý một cuốn sách cho Ms.X mà anh này chưa đọc nhưng được tính toán là phù hợp với MS.X (Trang 28)
Bảng 3.2. Giá trị khoảng cách dùng độ đo Manhattan - (LUẬN văn THẠC sĩ) nghiên cứu và ứng dụng khai phá dữ liệu để xây dựng hệ tư vấn cho diễn đàn trực tuyến
Bảng 3.2. Giá trị khoảng cách dùng độ đo Manhattan (Trang 29)
Bảng 3.4. Ví dụ ma trận đánh giá để tính độ tương quan Pearson - (LUẬN văn THẠC sĩ) nghiên cứu và ứng dụng khai phá dữ liệu để xây dựng hệ tư vấn cho diễn đàn trực tuyến
Bảng 3.4. Ví dụ ma trận đánh giá để tính độ tương quan Pearson (Trang 31)
Hình 3.1. Đồ thị ví dụ so sánh đánh giá của người dùng lân cận - (LUẬN văn THẠC sĩ) nghiên cứu và ứng dụng khai phá dữ liệu để xây dựng hệ tư vấn cho diễn đàn trực tuyến
Hình 3.1. Đồ thị ví dụ so sánh đánh giá của người dùng lân cận (Trang 31)
Xét ma trận rate như bảng 3.5: - (LUẬN văn THẠC sĩ) nghiên cứu và ứng dụng khai phá dữ liệu để xây dựng hệ tư vấn cho diễn đàn trực tuyến
t ma trận rate như bảng 3.5: (Trang 32)
giá này, các đối tượng cũng được so sánh với nhau hình thành nên khái niệm đối tượng tương đồng - (LUẬN văn THẠC sĩ) nghiên cứu và ứng dụng khai phá dữ liệu để xây dựng hệ tư vấn cho diễn đàn trực tuyến
gi á này, các đối tượng cũng được so sánh với nhau hình thành nên khái niệm đối tượng tương đồng (Trang 34)
Hình 3.3. Mô tả CF dựa vào người dùng [16] - (LUẬN văn THẠC sĩ) nghiên cứu và ứng dụng khai phá dữ liệu để xây dựng hệ tư vấn cho diễn đàn trực tuyến
Hình 3.3. Mô tả CF dựa vào người dùng [16] (Trang 36)
Hình 3.4. Minh họa phương pháp user-based - (LUẬN văn THẠC sĩ) nghiên cứu và ứng dụng khai phá dữ liệu để xây dựng hệ tư vấn cho diễn đàn trực tuyến
Hình 3.4. Minh họa phương pháp user-based (Trang 37)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN