1. Trang chủ
  2. » Luận Văn - Báo Cáo

Mô hình hóa chuỗi hành vi người dùng trong bài toán hệ gợi ý

57 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Mô Hình Hóa Chuỗi Hành Vi Người Dùng Trong Bài Toán Hệ Gợi Ý
Tác giả Nguyễn Văn Túc
Người hướng dẫn PGS. TS. Thân Quang Khoát
Trường học Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành Khoa Học Máy Tính
Thể loại Luận Văn Thạc Sĩ
Năm xuất bản 2021
Thành phố Hà Nội
Định dạng
Số trang 57
Dung lượng 1 MB

Cấu trúc

  • Tóm tắt luận văn

  • Mục lục

  • 1 Giới thiệu đề tài

  • 2 Cơ sở lý thuyết

  • 3 Các nghiên cứu liên quan

  • 4 Các mô hình thử nghiệm

  • 5 Thử nghiệm và đánh giá

  • 6 Kết luận

  • 7 Tài liệu tham khảo

Nội dung

Tổng quan về hệ gợi ý

Hệ gợi ý (Recommender System) là một phần quan trọng trong hệ thống thông tin, có khả năng dự đoán đánh giá của người dùng đối với sản phẩm dựa trên các tiêu chí đã được thiết lập Hệ thống này cung cấp những chiến lược gợi ý tối ưu, giúp tiết kiệm thời gian cho người dùng và tăng cường sự tương tác giữa người dùng và hệ thống Hai đối tượng chính trong hệ gợi ý bao gồm người dùng (user) và sản phẩm (item).

Các nhóm phương pháp chính trong hệ gợi ý

Gợi ý dựa trên nội dung (Content-based)

Hình 1: Hình minh họa hướng tiếp cận dựa trên lọc nội dung và lọc cộng tác.

Hệ gợi ý dựa trên lọc nội dung là một hệ thống tập trung vào nội dung của người dùng hoặc sản phẩm, yêu cầu xây dựng hồ sơ cho từng đối tượng dưới dạng vector đặc trưng Vector này có thể được trích xuất từ các thông tin cơ bản như tên và mô tả sản phẩm Hệ thống gợi ý sản phẩm cho người dùng dựa trên sự tương đồng với các sản phẩm mà họ đã tương tác tích cực trước đó, như mua, thích hoặc đánh giá cao Mặc dù phương pháp này có khả năng gợi ý cho người dùng hoặc sản phẩm mới, nhưng việc xây dựng hồ sơ cho tất cả các đối tượng trong hệ thống là một thách thức lớn, đặc biệt trong môi trường có nhiều người dùng và sản phẩm mới xuất hiện liên tục.

Một hệ thống gợi ý hiệu quả sẽ phân tích sở thích của người dùng, chẳng hạn như việc họ thường xuyên đọc các bài báo về chính trị và Biển Đông, để cung cấp các bài viết liên quan Hình 1 (bên trái) minh họa phương pháp xây dựng hệ thống dựa trên lọc nội dung.

Các bước xây dựng hệ gợi ý dựa trên nội dung:

• Biểu diễn mỗi sản phẩm dưới dạng một vector đặc trưng.

• Tính toán độ tương đồng giữa các vector đặc trưng của mỗi sản phẩm có trong hệ thống.

• Gợi ý sản phẩm cho người dùng u bằng cách đưa ra các sản phẩm có độ tương đồng cao với những sản phẩm mà được thích bởi u.

Gợi ý dùng lọc cộng tác (Collaborative Filtering)

Phương pháp xây dựng hệ gợi ý dựa trên lọc nội dung gặp khó khăn trong việc tạo vector biểu diễn cho từng đối tượng và không chú trọng đến mối quan hệ, tương tác giữa các đối tượng trong hệ thống Để khắc phục điều này, phương pháp lọc cộng tác ra đời, tập trung vào các mối quan hệ tương tác đã có trong hệ thống Hệ thống gợi ý dựa trên lọc cộng tác không quan tâm đến thuộc tính của người dùng và sản phẩm, mà chỉ chú ý đến lịch sử tương tác của người dùng với các sản phẩm như xem, click, mua, và đánh giá Sản phẩm được gợi ý cho người dùng dựa trên hành vi tương tự của những người dùng khác, từ đó tận dụng hành vi tương tác của người dùng thay vì chỉ chú trọng vào nội dung sản phẩm Hình 1 minh họa phương pháp xây dựng hệ gợi ý dựa trên lọc cộng tác.

Xây dựng hệ gợi ý dựa trên phương pháp lọc cộng tác: Phương pháp này có hai hướng tiếp cận nhỏ hơn là User – based và Item – based.

1) User – based: Ý tưởng chính của cách tiếp cận này là mức độ phù hợp của userU với sản phẩm I được quyết định dựa trên mức độ phù hợp của những người có độ tương đồng cao với U đối với sản phẩm I, chú ý những người dùng có độ tương đồng cao vớiU lúc này đều là những người đã đánh giá I Các bước xây dựng của một hệ thống dựa trên user- based bao gồm:

• Biểu diễn mỗi người dùng bằng một vector dựa trên các sản phẩm đã tương tác.

Đối với mỗi người dùng U, việc xác định nhóm người dùng có độ tương đồng cao nhất được thực hiện thông qua các vector biểu diễn Một trong những phương pháp đo độ tương đồng phổ biến là sử dụng Cosine 2.

• Độ phù hợp của người dùngU với sản phẩm I được tính dựa trên nhóm K người dùng có độ tương đồng cao nhất đối với U và cùng đã đánh giá I.

2) Item – based: Tương tự như với cách tiếp cận User- based, để dự đoán mức độ phù hợp của người dùng U với sản phẩm I hệ thống sẽ dựa trên đánh giá của người dùng U với những sản phẩm có độ tương đồng cao đối với sản phẩm I.

Phân rã ma trận (MF - Matrix Factorization)

Phân rã ma trận trong bài toán gợi ý liên quan đến việc chia một ma trận R kích thước U × I thành tích của hai ma trận có kích thước thấp hơn: β (K × I) và θ (K × U), với điều kiện R ≈ β^T × θ.

Hình 2: Minh họa phân rã ma trận

2 https://en.wikipedia.org/wiki/Cosine-similarity

Trong bài toán hệ gợi ý:

• Ma trận θ biểu diễn thuộc tính của người dùng, kích thước K × U

• Ma trận β biểu diễn thuộc tính của sản phẩm, kích thước K × I

• Ma trận tương tác R kích thước U × I

Mỗi người dùng và sản phẩm được mô tả bởi K thuộc tính ẩn, phản ánh mối quan hệ giữa các tương tác Trong hệ thống gợi ý phim, các thuộc tính ẩn có thể là thể loại như hình sự, chính trị, hài hước, hoặc các sự kết hợp không cần đặt tên, được biểu diễn qua vector thuộc tính ẩn Mỗi sản phẩm có mức độ thuộc tính ẩn tương ứng với các hệ số trong vector K chiều, với hệ số cao hơn thể hiện tính chất ẩn mạnh mẽ hơn Tương tự, mỗi người dùng cũng có xu hướng yêu thích những thuộc tính ẩn nhất định, được mô tả qua các hệ số trong vector của họ.

Giá trị tích vô hướng giữa hai vector thuộc tính người dùng và sản phẩm càng cao khi các thành phần tương ứng của chúng đều lớn Điều này có nghĩa là nếu sản phẩm có những đặc điểm ẩn mà người dùng yêu thích, chúng ta sẽ gợi ý sản phẩm đó cho người dùng.

Mức độ phù hợp giữa người dùng u và sản phẩm i được xác định thông qua công thức r ui = β i T θ u, trong đó β i là vector thuộc tính của sản phẩm i và θ u là vector thuộc tính của người dùng u trong không gian K chiều.

Phân rã ma trận trong hệ gợi ý được thực hiện bằng cách xây dựng các vector thuộc tính cho từng người dùng và sản phẩm, từ đó đánh giá mức độ phù hợp giữa các cặp người dùng và sản phẩm chưa được ghi nhận trong ma trận tương tác Ma trận tương tác này thường rất thưa, do không phải tất cả người dùng đều tương tác với toàn bộ sản phẩm trong hệ thống.

Lớp các mô hình mạng nơ-ron lọc cộng tác

Nhược điểm của các mô hình phân tách ma trận

Hình 3: Ví dụ cho thấy hạn chế của MF

Trong mô hình phân tích ma trận (MF), mỗi giá trị trong ma trận tương tác giữa người dùng u và item i được thể hiện qua tích vô hướng của hai vector p u và q i Mô hình này giả định rằng các chiều trong không gian thuộc tính ẩn là độc lập và có thể được tổ hợp tuyến tính với cùng trọng số.

Mô hình phân tích ma trận (MF) có thể bị hạn chế trong việc biểu diễn chính xác do việc sử dụng tích vô hướng Cụ thể, MF ánh xạ người dùng và sản phẩm vào cùng một không gian thuộc tính ẩn, dẫn đến việc mức độ tương đồng giữa hai người dùng được tính bằng tích vô hướng, tương đương với việc tính cosine góc giữa hai vector thuộc tính ẩn Để khắc phục điều này, ta có thể áp dụng độ đo Jaccard nhằm đo lường tính tương đồng giữa các người dùng, một yếu tố quan trọng mà mô hình MF cần phục hồi.

• Độ tương đồng Jaccard: Gọi R n là tập các sản phẩm và người dùng u đã tương tác Khi đó, độ tương đồng Jaccard sẽ được tính bằng: s uv = |R u | ∩ |R v |

Trong ma trận tương tác được trình bày ở Hình 3a, ba hàng đầu tiên cho thấy mối quan hệ giữa các người dùng với các giá trị s 23 (0.66), s 12 (0.5) và s 13 (0.4), cho thấy s 23 lớn hơn s 12 và s 12 lớn hơn s 13 Điều này cho phép chúng ta hình dung mối quan hệ hình học trong không gian thuộc tính ẩn p 1, p 2 và p 3 như thể hiện ở Hình 4b Tiếp theo, chúng ta sẽ phân tích người dùng thứ tư u 4.

Trong bài viết này, chúng ta thấy rằng s 41 (0.6) > s 43 (0.4) > s 42 (0.2), cho thấy u 4 tương đồng nhất với u 1, tiếp theo là u 3 và cuối cùng là u 2 Tuy nhiên, nếu mô hình MF đặt vector thuộc tính ẩn của u 4 gần p 1 nhất, sẽ có hai khả năng xảy ra như hình 3b (p 4 và p 0 4) Khi đó, p 4 sẽ gần p 2 hơn p 3, dẫn đến mâu thuẫn với thực tế.

Mô hình MF có thể gặp phải những hạn chế khi áp dụng một hàm cố định và đơn giản là tích vô hướng để xấp xỉ ma trận tương tác giữa người dùng.

Một thách thức trong việc xử lý các item phức tạp là không gian thuộc tính ẩn có số chiều thấp, dẫn đến nguy cơ mất tính tổng quát của mô hình Một giải pháp là tăng số chiều k của không gian thuộc tính ẩn, nhưng điều này có thể gây ra hiện tượng overfitting, đặc biệt khi làm việc với các ma trận dữ liệu thưa.

Mô hình NeuMF

Mô hình NeuMF, được đề xuất bởi He và các cộng sự, nhằm khắc phục nhược điểm của các mô hình phân rã ma trận NeuMF bao gồm hai kiến trúc mạng con chính: GMF và MLP GMF sử dụng phương pháp phân rã ma trận tổng quát với hàm tuyến tính để mô hình hóa tương tác giữa các thuộc tính ẩn, trong khi MLP áp dụng kiến trúc perceptron nhiều tầng với các hàm kích hoạt phi tuyến để xử lý dữ liệu tương tác Chi tiết về kiến trúc và cách thức mô hình hóa của GMF và MLP được trình bày trong các phần 3.2 và 3.3 của nghiên cứu.

Chúng ta có thể sử dụng chung các biểu diễn ẩn cho cả hai mô hình GMF và MLP, sau đó kết hợp các đầu ra của chúng Mô hình có thể được diễn đạt qua công thức: ˆ y ui = σ(h T a(p u q i +W).

Việc sử dụng chung các tầng biểu diễn của GMF và MLP có thể làm giảm hiệu suất của mô hình kết hợp, do yêu cầu các vector biểu diễn phải có số chiều giống nhau, trong khi mỗi mô hình có tham số tối ưu riêng cho tập dữ liệu Để cải thiện tính linh hoạt của mô hình kết hợp, ta nên sử dụng các tầng biểu diễn riêng biệt cho từng mô hình và kết hợp chúng bằng cách ghép hai vector đầu ra từ tầng ẩn cuối cùng Mô hình kết hợp được thể hiện qua công thức: φ GMF = p Gu q Gi và φ MLP = a X (W T X (a X −1 ( a 2 (W 2 T.

Mô hình NeuMF kết hợp hai phương pháp GMF và MLP, trong đó p G u và p M u là các vector thuộc tính ẩn của người dùng u, còn q G i và q M i là vector thuộc tính ẩn của sản phẩm i Các vector đầu ra cuối cùng của GMF và MLP lần lượt là φ GM F và φ M LP Mô hình MLP sử dụng hàm kích hoạt ReLU, trong khi hàm a out áp dụng hàm sigmoid để xử lý dữ liệu nhị phân NeuMF mang lại nhiều ưu điểm nổi bật trong việc cải thiện độ chính xác của các dự đoán.

• Kết hợp hai mô hình GMF và MLP, mang tính tổng quát hóa cao

Mô hình GMF với tính chất tuyến tính và mô hình MLP với tính chất phi tuyến giúp cải thiện khả năng mô hình hóa dữ liệu phức tạp giữa người dùng và sản phẩm.

3 Các nghiên cứu liên quan

Trong phần này, chúng tôi sẽ định nghĩa hai nhóm hành vi: hành vi tiềm ẩn và hành vi rõ ràng Tiếp theo, chúng tôi sẽ giới thiệu hai phương pháp nổi bật gần đây, kết hợp cả hai nhóm hành vi này nhằm nâng cao chất lượng của hệ thống gợi ý.

Hành vi tiềm ẩn và hành vi rõ ràng trong bài toán gợi ý

Trong các hệ thống thực tế, lịch sử hành vi của người dùng được thu thập để tìm hiểu sở thích và mối quan tâm của họ thông qua các hệ gợi ý Các phương pháp nghiên cứu trước đây thường dựa vào dữ liệu rõ ràng (explicit data), trong đó người dùng cung cấp phản hồi cụ thể về mức độ thích thú đối với sản phẩm, như việc đánh giá phim từ 1-5 sao Tuy nhiên, việc thu thập dữ liệu này không dễ dàng do yêu cầu người dùng thực hiện thao tác thêm Điều này có thể dẫn đến dữ liệu thưa thớt, làm giảm khả năng của mô hình trong việc nắm bắt sở thích người dùng và có thể gây ra hiện tượng overfitting Do đó, các nhà nghiên cứu đã chuyển sang khai thác dữ liệu tiềm ẩn (implicit data), mặc dù không thể hiện rõ ràng mức độ quan tâm, nhưng vẫn cung cấp thông tin về hành vi của người dùng, như thời gian xem video hoặc số lần quan sát sản phẩm Dữ liệu tiềm ẩn dễ dàng thu thập hơn và trong các hệ thống gợi ý, phản hồi rõ ràng được gọi là phản hồi rõ ràng, trong khi phản hồi tiềm ẩn được gọi là phản hồi tiềm ẩn.

Bài toán hệ gợi ý với dữ liệu hành vi tiềm ẩn và rõ ràng

Mô hình Implicit To Explicit (ITE)

Hình 5: Kiến trúc mô hình Implicit To Explicit

Mô hình Implicit to Explicit (ITE) được nhóm tác giả đề xuất vào năm 2019, là một phương pháp lọc cộng tác dựa trên kiến trúc mạng nơ-ron ITE kết hợp dữ liệu nhóm hành vi và có khả năng mô hình hóa mối quan hệ thứ tự giữa hành vi tiềm ẩn và hành vi rõ ràng, chẳng hạn như việc người dùng cần xem sản phẩm trước khi mua Nhóm tác giả đã đề xuất nhiều kiến trúc khác nhau, bao gồm việc thay đổi tầng input để tích hợp thông tin bổ sung từ người dùng và sản phẩm Tuy nhiên, trong phạm vi luận văn này, chúng tôi chỉ tập trung vào dữ liệu hành vi của người dùng khi tương tác với sản phẩm và không đề cập đến các kiến trúc khác.

Mô hình ITE được xây dựng dựa trên những ưu điểm của NeuMF, sử dụng nó để mô hình hóa dữ liệu tương tác tiềm ẩn Tính thứ tự của dữ liệu hành vi được thể hiện qua việc tầng cuối cùng của mô hình tương tác tiềm ẩn được đưa vào một mạng MLP khác, nhằm dự đoán tương tác của hành vi rõ ràng Mạng MLP này biểu diễn mối quan hệ giữa hành vi tiềm ẩn và hành vi rõ ràng, với đầu vào là các vector one-hot mã hóa định danh người dùng và sản phẩm.

Sử dụng các ký hiệu tương tự như trong mô hình NeuMF (mục 2.3.2), mô hình ITE có thể biểu diễn dưới dạng công thức như sau: φ GM F =p G u q G i (7) φ M LP = a X (W T X (a X −1 ( a 2 (W 2 T

Trong mô hình dự đoán tương tác tiềm ẩn, vector đầu ra cuối cùng φ I đại diện cho thông tin đầu ra từ tầng dự đoán, trong khi φ IT E là vector đầu ra từ các tầng của mạng MLP được nâng cấp từ tầng Implicit Điểm số dự đoán x ˆ ui và y ˆ ui phản ánh khả năng xảy ra của các tương tác hành vi tiềm ẩn và rõ ràng, với ma trận tương tác được biểu diễn dưới dạng nhị phân Hàm sigmoid được sử dụng cho hàm out và c out để đảm bảo rằng đầu ra dự đoán nằm trong khoảng [0, 1], cho phép hiểu rõ hơn về xác suất xảy ra của các tương tác này Các công thức dự đoán có thể được tóm gọn lại bằng các biểu thức φ I = f I (u, i), x ˆ ui = a out (h T I φ I), và y ˆ ui = f IT E (φ I).

Điểm số y ˆ ui thường được sử dụng để xếp hạng các sản phẩm liên quan đến người dùng Sau khi mô hình hoàn tất quá trình huấn luyện, điểm số dự đoán cuối cùng được tính theo công thức: ˆ r ui = ˆ x ui y ˆ ui.

Dễ thấy, r ˆ ui cao khi cả x ˆ ui và y ˆ ui đều cao.

Hàm mục tiêu: Hàm mục tiêu của mô hình ITE được định nghĩa như sau:

Công thức L = ηL I (ˆ x, x) + L E (ˆ y, y) + λR(u, i) thể hiện mối quan hệ giữa các phần hàm lỗi trong dữ liệu hành vi tiềm ẩn (L I) và hành vi rõ ràng (L E), trong đó η là siêu tham số điều chỉnh tầm quan trọng của hai phần hàm lỗi này Đồng thời, R(u, i) là biểu thức regularization nhằm ngăn ngừa hiện tượng overfitting trong mô hình Nhóm tác giả đã định nghĩa rõ ràng các thành phần L I và L E để cải thiện hiệu quả của mô hình.

(u,i)∈X + ∪X − x ui log x ˆ ui + (1 − x ui )log(1 − x ˆ ui ) (18)

Trong công thức (19), (u,i)∈Y + ∪Y − y ui log y ˆ ui + (1 − y ui )log(1 − y ˆ ui ) thể hiện mối quan hệ giữa các cặp người dùng và nội dung Tập hợp X + và Y + bao gồm các cặp (u, i) có tương tác tiềm ẩn và rõ ràng, trong khi X − chứa các cặp ngẫu nhiên từ những cặp chưa có tương tác tiềm ẩn Y − là các cặp ngẫu nhiên từ những cặp (u, i) chưa có tương tác rõ ràng, giúp phân tích hành vi người dùng một cách hiệu quả hơn.

Hàm regular R(u, i) được sử dụng là tổng các chuẩn 2 của các vector biểu diễn Trong mô hình ITE thì R(u, i) được tính bởi:

||q i || 2 2 (20) Ưu điểm mô hình ITE

Mô hình này thể hiện rõ ràng tính thứ tự giữa hành vi tiềm ẩn và hành vi rõ ràng, cả trong kiến trúc mạng lẫn công thức dự đoán.

• Kế thừa các ưu điểm của mô hình NeuMF.

Mô hình Sequential Implicit To Explicit (SITE)

Mô hình SITE kết hợp hai chuỗi hành vi của người dùng trong học biểu diễn, được đề xuất bởi chúng tôi vào năm 2020 SITE giả định rằng người dùng có hai loại nhóm hành vi khác nhau.

Trong lịch sử mua sắm, hành vi của người dùng thể hiện sự đa dạng khi họ có thể lựa chọn nhiều loại mặt hàng khác nhau Sự lựa chọn sản phẩm trước đó có thể tác động mạnh mẽ đến quyết định mua sắm tiếp theo của họ.

Ví dụ: khi người dùng A mua một máy nghe nhạc thì sản phẩm tiếp theo có thể là một chiếc tai nghe

Nhóm hành vi thứ hai thể hiện rõ hơn trong quá trình người dùng mua sắm sản phẩm Theo mô hình ITE, trước khi quyết định mua, người dùng thường có các tương tác như xem và đọc thông tin về sản phẩm.

Mô hình SITE có kiến trúc tổng quát được mô tả trong Hình 6, cho phép học hỏi sự thay đổi sở thích của người dùng theo thời gian thông qua các SITE Module Kiến trúc chi tiết của từng SITE Module được trình bày trong Hình 7, kèm theo một số ký hiệu được sử dụng trong bài báo này.

• M, N: số lượng các người dùng và sản phẩm.

• X, Y: lần lượt là dữ liệu tương tác tiềm ẩn và tường minh.

• u, i: vector biểu diễn của người dùng và sản phẩm.

• S = { s 1 , s 2 , s 3 , s S } với s = {i 1 , i 2 , , i |s| } là tập các sản phẩm mà người dùng đó tương tác trong phiên s.

Hình 6: Kiến trúc mô hình Sequential Implicit To Explicit

Trong một phiên giao dịch s, giả sử p G u, p M u, q i kG, và q kM i là các vector biểu diễn ẩn của người dùng u và sản phẩm i, trong đó sản phẩm thứ k là sản phẩm mà người dùng này tương tác Vector ẩn của tầng GMF được tính bằng công thức: φ kGM F = p G u q kG i, với phép nhân được thực hiện tương ứng từng phần tử.

Hình 7: Kiến trúc mô hình Sequential Implicit To Explicit

Trong mô hình MLP, các p G u và q kG i được kết nối và đưa vào mạng L lớp Tại tầng l + 1, biểu thức được xác định bởi φ M LP (l+1) = f (W (l) φ M LP (l) + b (l)), với f là hàm kích hoạt, thường là ReLU Ở tầng Implicit Layer thứ k, vector biểu ẩn tại bước k được tính qua φ kI = f(W.concat(φ kGM F , φ kM LP (L) ) + ˜ W φ (k−1)I), trong đó W, W ˜ là ma trận trọng số và φ kI là biểu diễn của cặp người dùng tại sản phẩm thứ k Khi k = 1, φ (k−1)I là vector không Giá trị đầu ra của thành phần Implicit Module là x ˆ k ui, thể hiện khả năng mà người dùng u sẽ thực hiện hành vi tiềm ẩn lên sản phẩm thứ k, được tính qua ˆ x k ui = σ(h T I φ kI ).

Mô-đun Explicit nhận đầu vào từ tầng Implicit Layer và truyền qua nhiều lớp mạng nơ-ron lan truyền thẳng (MLP) Tại tầng ẩn thứ l, vector biểu diễn ẩn được tính toán bằng công thức φ kE (l) = f(U (l−1) φ kE (l−1) + b (l−1) ) Tầng ẩn cuối cùng φ kE (Y ) được sử dụng để ước lượng khả năng người dùng u thực hiện hành vi tường minh với sản phẩm i thông qua công thức ˆ y k ui = σ(h T E φ kE (Y ) ) Các giá trị ˆ x k ui và y ˆ ui k được áp dụng để dự đoán khả năng tương tác của người dùng u với sản phẩm thứ k trong phiên của họ Cuối cùng, khả năng tương tác của người dùng u với sản phẩm i được tính bằng ˆ r ui = ˆ x k ui y ˆ ui k.

Rõ ràng, r ˆ ui đạt giá trị cao khi x ˆ ui và y ˆ ui đạt giá trị cao.

Sử dụng mạng đồ thị tích chập (GCNs) trong học biểu diễn từ đồ thị

Xây dựng đồ thị tri thức

Luận văn này tập trung vào việc đánh giá hiệu quả của mô hình Collaborative Filtering (CF) thông qua việc sử dụng các vector biểu diễn cho người dùng và sản phẩm, được tạo ra từ mô hình Graph Convolutional Networks (GCNs) Trước khi phân tích cách GCNs có thể học được các biểu diễn cho các đỉnh trong đồ thị, chúng tôi sẽ trình bày phương pháp mô hình hóa dữ liệu cho bài toán hệ gợi ý dưới dạng đồ thị tri thức Dựa vào dữ liệu tương tác của người dùng với sản phẩm trong quá khứ, chúng ta có thể xây dựng hai loại đồ thị: đồ thị đồng nhất và không đồng nhất.

Đồ thị đồng nhất là loại đồ thị trong đó các đỉnh thuộc cùng một nhóm và có các tính chất, hành vi tương tự nhau Chúng tôi đã xây dựng đồ thị giữa các người dùng để thể hiện mối quan hệ giữa họ, cùng với đồ thị sản phẩm để thể hiện mối quan hệ giữa các sản phẩm Hình 8 minh họa quá trình xây dựng đồ thị cho người dùng và sản phẩm.

Giả sử có một ma trận tương tác X = (x ui ) M×N, trong đó đồ thị người dùng được biểu diễn bằng ma trận U ADJ = (u u 1 u 2 ) M ×M, với trọng số cạnh giữa hai người dùng thể hiện số sản phẩm mà họ cùng tương tác Đồng thời, đồ thị sản phẩm được mô tả qua ma trận IADJ = (i i 1 i 2 ) N ×N, với trọng số cạnh giữa hai sản phẩm thể hiện số người dùng tương tác với chúng Giá trị x ij 6= 0 trong cả hai ma trận UADJ và IADJ cho thấy sự liên kết giữa các đỉnh, trong đó giá trị x ij lớn thể hiện mối quan hệ chặt chẽ giữa i và j trong ma trận tương tác.

Trong đồ thị người dùng, User1 và User2 có cùng tương tác với Item2 và Item3, tạo ra một cạnh nối giữa U1 và U2 với trọng số 2 Tương tự, vì cả hai người dùng đều tương tác với Item2 và Item3, một cạnh với trọng số 2 cũng được hình thành giữa Item1 và Item2 trong đồ thị sản phẩm Để giảm độ phức tạp của đồ thị, chỉ giữ lại các cạnh có trọng số cao nhất và loại bỏ những cạnh có trọng số thấp Việc này giúp quá trình lấy mẫu hàng xóm không bị loãng thông tin, tức là không đưa vào các hàng xóm có "ít liên quan" Cụ thể, những người dùng có số sản phẩm tương tác ít sẽ không được coi là hàng xóm của nhau, và các sản phẩm có số người dùng tương tác ít cũng sẽ không được xem là hàng xóm.

Đồ thị không đồng nhất thể hiện mối quan hệ giữa người dùng và sản phẩm một cách trực tiếp, khác với đồ thị đồng nhất chỉ tập trung vào mối quan hệ giữa người dùng với nhau hoặc giữa sản phẩm với nhau.

Chúng ta có thể nâng cao mối quan hệ giữa người dùng và sản phẩm bằng cách tạo thêm các liên kết giữa các đỉnh người dùng và sản phẩm Hình 9 minh họa cách xây dựng đồ thị không đồng nhất dựa trên dữ liệu tương tác.

Khác với việc xây dựng đồ thị đồng nhất, từ ma trận tương tác X = (x ui ) (M×N), chúng ta tạo ra đồ thị ADJ = (x x 1 x 2 ) (M +N)×(M +N) Trong đó, x 1 và x 2 đại diện cho người dùng hoặc sản phẩm Trọng số giữa các đỉnh x 1 và x 2 được xác định dựa trên các tương tác trong ma trận.

Nếu x1 và x2 là hai người dùng, trọng số giữa hai đỉnh được xác định bởi số sản phẩm mà họ cùng tương tác Nếu x1 và x2 không tương tác với bất kỳ sản phẩm nào, thì sẽ không có cạnh nối giữa hai đỉnh này.

Nếu x1 và x2 là hai sản phẩm, thì số lượng người dùng tương tác với cả hai sản phẩm này nằm giữa hai đỉnh Ngoài ra, sẽ không có cạnh nối giữa hai đỉnh nếu không có người dùng nào tương tác với cả hai sản phẩm.

Khi người dùng x1 tương tác với sản phẩm x2, mối liên kết giữa hai đối tượng này sẽ được đánh giá với trọng số bằng 1.

Trong đồ thị, có hai loại cạnh: cạnh nối giữa các đỉnh cùng loại và cạnh nối giữa các đỉnh khác loại Để giảm khối lượng tính toán cho đồ thị lớn, các cạnh nối giữa hai đỉnh cùng loại sẽ bị loại bỏ dựa trên trọng số, ưu tiên loại bỏ các cạnh có trọng số nhỏ Đồng thời, các cạnh nối giữa hai đỉnh khác loại sẽ được loại bỏ một cách ngẫu nhiên.

Mô hình GCNs

Tổng quát hóa mạng nơ-ron cho dữ liệu đồ thị với cấu trúc bất kỳ là một thách thức lớn Nhiều nghiên cứu đã giới thiệu kiến trúc cụ thể cho các vấn đề nhất định, trong khi một số khác áp dụng lý thuyết phổ đồ thị để định nghĩa các bộ lọc cho mạng nơ-ron đa tầng, tương tự như CNN Gần đây, các tác giả đã chú trọng vào việc giảm độ phức tạp tính toán và nâng cao độ chính xác cho các mô hình dựa trên lý thuyết phổ đồ thị.

Mô hình GCNs là một phiên bản điều chỉnh của mạng CNN, được thiết kế để mã hóa đồ thị Trong mô hình này, các tham số của bộ lọc được chia sẻ cho tất cả các vị trí trên đồ thị Mục tiêu chính là học các tham số trên một đồ thị G = (V, E), trong đó V là tập hợp các đỉnh và E là tập hợp các cạnh của đồ thị Mô hình này nhận đầu vào từ các cấu trúc đồ thị.

Một ma trận đầu vào được sử dụng để biểu diễn các nút X có kích thước n × f, trong đó n đại diện cho số lượng nút và f là số lượng thuộc tính của mỗi nút, tương ứng với số chiều của vector biểu diễn nút.

Biểu diễn cấu trúc đồ thị thường được thể hiện dưới dạng ma trận kề A có kích thước n × n, trong đó A ij = 1 nếu có cạnh nối giữa đỉnh thứ i và đỉnh thứ j Kết quả cuối cùng là biểu diễn Z của tập các đỉnh với kích thước n × f Để tính toán mức đồ thị, các phép toán gộp trên các đỉnh sẽ được thực hiện.

Cụ thể, GCNs sẽ bao gồm nhiều tầng với mỗi tầng của mạng có thể được xem là một biến đổi phi tuyến:

Trong đó, tại tầng đầu tiên H (0) và các vector biểu diễn đầu ra Z được tính bởi:

Các mô hình GCNs khác nhau chủ yếu ở cách chọn và tham số hóa hàm f Tham số của hàm f được chia sẻ đồng nhất trong tất cả các tầng của mạng.

Dựa vào những đặc điểm đã nêu và các nghiên cứu gần đây [5, 11], chúng ta có thể nhận diện một số ưu điểm và nhược điểm của GCNs.

• GCNs có thể làm việc với dữ liệu đồ thị có cấu trúc bất kỳ.

• GCNs sinh ra một biểu diễn có nghĩa cho các đỉnh cũng như cho cả đồ thị

GCNs rất hiệu quả trong việc xử lý dữ liệu có cấu trúc phức tạp, chẳng hạn như dữ liệu có các phụ thuộc xa, điều mà các mạng nơ-ron như RNNs và CNNs thường gặp khó khăn.

• GCNs yêu cầu một phổ đồ thị nên việc thực hiện có thể tốn kém trong việc xây dựng cũng như tính toán.

• Việc mô hình hóa đồ thị thành các ma trận, vd: ma trận kề, chưa thể mô tả được hết thông tin cấu trúc của đồ thị.

• Việc huấn luyện mô hình có chi phí cao đối với các đồ thị lớn và rộng.

Quá trình GCNs cập nhật để đưa ra vector cho một đỉnh có thể được minh họa bằng thuật toán 1:

• Khởi tạo vector biểu diễn ban đầu của một đỉnh: {e (0) v , ∀v ∈ V}

• Các ma trận trọng số: W = {W (k) }, ∀k ∈ {1, 2, 3, }

• Hàm lấy mẫu các phần tử hàng xóm: N : v → N (v)

Output: Vector biểu diễn e (k) v cho đỉnh v tại độ sâu K.

Bước 4: Calculate embedding: e (K−1) v 0 = GCN(v 0 , K − 1) for v 0 ∈ N

Thuật toán 1 tổng hợp thông tin từ đỉnh v với K là số lượng vòng lặp (tầng GCN), và h(k)v là biểu diễn của đỉnh v ở độ sâu k Khi k = 0, h(0)v là vector one-hot của v Ở các độ sâu k > 0, đỉnh v nhận thông tin từ chính nó và các hàng xóm trực tiếp Biểu diễn h(k−1)v tại tầng k−1 được tính theo phép tính đệ quy, sau đó thông tin từ v và các hàng xóm được tổng hợp qua phép toán trung bình MEAN và đưa qua một tầng MLP với hàm kích hoạt phi tuyến σ Quá trình này lặp lại giúp đỉnh v nhận thông tin từ các hàng xóm xa hơn, nhưng khi số vòng lặp tăng, số lượng đỉnh gửi thông tin đến đỉnh ban đầu tăng theo hàm mũ, làm chậm quá trình học của mô hình Để giải quyết vấn đề này, chúng tôi sử dụng hàm Sample để cho phép các đỉnh ngẫu nhiên chọn một số lượng cố định hàng xóm, giảm khối lượng tính toán.

4 Các mô hình thử nghiệm

Trong phần này chúng tôi trình bày bốn mô hình với vector biểu diễn cho các user và item đạt được từ các loại đồ thị khác nhau.

NCF-HoG

Hình 10: Kiến trúc mô hình NCF-HoG

Các vector đầu ra từ mạng GCNs được xử lý qua một mạng học sâu nhằm áp dụng phương pháp lọc cộng tác, kế thừa các ưu điểm từ mô hình NeuMF Cụ thể, ta có các công thức: \( p G_u = GCN GM F(u, K) := GCN(u, K, W_1) \), \( q_i G = GCN GM F(i, K) := GCN(i, K, W_2) \), \( p M_u = GCN M LP(u, K) := GCN(u, K, W_3) \), và \( q_i M = GCN M LP(i, K) := GCN(i, K, W_4) \).

Trong bài viết này, W1, W2, W3, W4 là bốn tập trọng số của mạng GCNs được đào tạo trên hai đồ thị: đồ thị người dùng và đồ thị sản phẩm NCF-HoG khai thác những lợi thế của mô hình NeuMF để thể hiện đặc trưng của người dùng và sản phẩm Để mô tả, ta gọi φ GMF và φ MLP là vector của tầng GMF và tầng MLP, với tầng ẩn của GMF được biểu diễn như sau: φ GMF = pG u qG i.

Ký hiệu cho phép nhân từng phần tử, trong đó vector từ tầng MLP đại diện cho người dùng và vector từ tầng MLP đại diện cho item được kết nối với nhau Sau đó, chúng được đưa vào một mạng MLP với X tầng ẩn Mỗi tầng thực hiện tính toán theo công thức: φ M LP (l+1) = f (W (l) φ M LP (l) + b (l) ).

Với l là số thứ tự tầng, f là hàm kích hoạt (thường sử dụng hàm ReLU) Tầng GMF và tầng MLP sau đó được nối với nhau: φ I =

Với φ I là vector đầu ra của tầng Implicit Layer Từ φ I , có thể sử dụng hàm likelihood để mô phỏng hành vi ẩn của user u và item i: ˆ x (ui) = σ(h T l φ I ) (38)

NCF-HeG

Mô hình NCF-HoG sử dụng vector từ GCNs để thể hiện mối quan hệ giữa người dùng và sản phẩm, nhưng chưa khai thác trực tiếp mối quan hệ này Ngược lại, mô hình NCF-HeG không chỉ tương tự mà còn mở rộng bằng cách tích hợp cả người dùng và sản phẩm trong đồ thị, sử dụng NeuMF để đưa ra dự đoán Kiến trúc của NCF-HeG được minh họa trong Hình 13, trong đó các vector đầu vào u và i được xử lý qua mạng GCNs để tính toán các biểu diễn đặc trưng p G u, q i G, p M u và q i M bằng các công thức GCN khác nhau.

Hình 11: Kiến trúc mô hình NCF-HeG

Trong bài viết này, W1 và W2 đại diện cho hai tập trọng số được áp dụng trong Thuật toán 1 cho đồ thị user-item NCF-HeG có cấu trúc tương tự như NCF-HoG, với kiến trúc chi tiết của NCF-HeG được minh họa trong Hình 11.

Học mô hình: Hàm mục tiêu của hai mô hình NCF-HoG và NCF-HeG có thể được định nghĩa như sau:

Hàm mục tiêu của mô hình bao gồm hai phần: Implicit Module (L I) và Explicit Module (L E) R(u, i) là thành phần điều chỉnh nhằm tránh hiện tượng overfitting, trong khi λ là siêu tham số thể hiện trọng số của R Mỗi hành vi quan sát chỉ có thể nhận giá trị 0 hoặc 1 Đối với các dữ liệu đánh giá từ 0 đến 5, chúng được chuyển đổi về giá trị 0 hoặc 1 thông qua một ngưỡng nhất định Các thành phần trong hàm lỗi được định nghĩa cụ thể như sau:

(u,i)∈X + ∪X − x ui log x ˆ ui + (1 − x ui )log(1 − x ˆ ui ) (44)

Với X + , Y + là tập các tương tác đã quan sát được trong ma trận tương tác X,

Y tương ứng X − là tập được lấy mẫu từ các hành vi chưa được quan sát trong

X và Y là các tập dữ liệu được lấy mẫu từ những hành vi chưa được quan sát trong Y Cả hai mô hình áp dụng hàm (43) để tiến hành huấn luyện và sử dụng phương pháp tối ưu Adam để tối ưu hóa quá trình huấn luyện.

ITE-HoG

Hình 12: Mô hình ITE-HoG

Các vector đầu ra của mạng GCNs được xử lý qua một mạng học sâu nhằm áp dụng phương pháp lọc cộng tác, kế thừa ưu điểm từ mô hình ITE trong việc mô hình hóa tính thứ tự hành vi Cụ thể, các biểu thức p G u, q i G, p M u và q i M được định nghĩa bằng các mạng GCN với trọng số khác nhau (W 1, W 2, W 3, W 4) được học trên hai đồ thị người dùng và sản phẩm Mô hình này không chỉ khai thác những lợi thế của ITE trong việc mô hình hóa mối quan hệ giữa dữ liệu ẩn và dữ liệu tường minh mà còn trực tiếp sử dụng thông tin về mối quan hệ giữa người dùng và sản phẩm để biểu diễn đặc trưng cho cả hai.

Gọi φ GM F , φ M LP là vector của tầng GMF và tầng MLP như trong hình 12. Tầng ẩn của GMF thu được bằng cách: φ GM F = p G u q G i (50)

Ký hiệu cho phép nhân từng phần tử, trong đó vector người dùng được tạo ra từ MLP và vector sản phẩm cũng được thu được từ tầng MLP, sau đó được kết nối với nhau Cuối cùng, chúng được đưa vào một mạng MLP với X tầng ẩn.

Cụ thể, mỗi tầng thực hiện tính toán như sau: φ M LP (l+1) = f (W (l) φ M LP (l) + b (l) ) (51)

Với l là số thứ tự tầng, f là hàm kích hoạt (thường sử dụng ReLU) Tầng GMF và tầng MLP sau đó được nối với nhau: φ I =

Với φ I là vector đầu ra của tầng Implicit Layer Từ φ I , có thể sử dụng hàm likelihood để mô phỏng hành vi ẩn của user u và item i: ˆ x (ui) = σ(h T l φ I ) (53)

Chuỗi hành vi của người dùng được mô hình hóa thông qua việc đưa φ I vào Explicit Layer, thực chất là một mạng MLP Sau một số tầng ẩn của mạng MLP, ta đạt được tầng Y như minh họa trong hình 12 Tầng 1 của mạng MLP trong Explicit Layer được tính toán bằng công thức φ E 1 = f(V (0) φ I + b (0)) Tiếp theo, các tầng ẩn của Explicit Layer được tính toán theo cách tương tự với công thức φ E (l+1) = f (V (l) φ I (l) + b (l)).

Ma trận trọng số V của các tầng ẩn trong mạng được sử dụng để dự đoán giá trị phù hợp của u với i Tầng cuối cùng của Explicit Layer áp dụng hàm likelihood, cho ra kết quả ˆ y ui = σ(h T E φ E (Y ) ).

Đầu ra của mô hình được thể hiện qua x ˆ ui và y ˆ ui, phản ánh kết quả dự đoán của hành vi tiềm ẩn và hành vi tường minh Giá trị dự đoán cuối cùng được tính bằng công thức: ˆ r ui = ˆ x ui y ˆ ui.

Dễ dàng nhận thấy khi x ˆ ui , y ˆ ui càng cao thì r ˆ ui càng cao.

ITE-HeG

Mô hình ITE-HeG thể hiện mối quan hệ giữa người dùng và sản phẩm, nhưng chưa khai thác trực tiếp mối quan hệ giữa người dùng với sản phẩm Giống như NCF-HeG, đồ thị trong ITE-HeG bao gồm cả người dùng và sản phẩm để học vector biểu diễn Kiến trúc của ITE-HeG được minh họa trong Hình 13 Từ hai vector đầu vào u và i, đặc trưng của chúng được tính toán thông qua mạng GCNs với các công thức p G u = GCN GM F (u, K), q i G = GCN GM F (i, K), p M u = GCN M LP (u, K) và q i M = GCN M LP (i, K).

Trong đó, W 1 , W 2 là 2 bộ tham số khi sử dung Thuật toán 1 trên đồ thị người dùng - sản phẩm.

Học mô hình: Hàm mục tiêu của hai mô hình ITE-HoG và ITE-HeG có thể được định nghĩa như sau:

Hàm mục tiêu trong mô hình bao gồm hai phần: Implicit Module (L I) và Explicit Module (L E) Siêu tham số η được sử dụng để cân bằng ảnh hưởng giữa hành vi tiềm ẩn và hành vi tường minh trong hàm lỗi Để tránh hiện tượng overfitting, R(u, i) là phần hiệu chỉnh, với λ là siêu tham số thể hiện trọng số của R Các thành phần trong hàm lỗi được định nghĩa cụ thể như sau:

(u,i)∈X + ∪X − x ui log x ˆ ui + (1 − x ui )log(1 − x ˆ ui ) (63)

(u,i)∈Y + ∪Y − y ui log y ˆ ui + (1 − y ui )log(1 − y ˆ ui ) (64)

Với X + , Y + là tập các tương tác đã quan sát được trong ma trận tương tác X,

Y tương ứng X − là tập được lấy mẫu từ các hành vi chưa được quan sát trong

X và Y là tập hợp mẫu từ các hành vi chưa được quan sát trong Y Cả hai mô hình đều áp dụng hàm (62) để huấn luyện và sử dụng phương pháp tối ưu Adam để tối ưu hóa hàm huấn luyện.

5 Thử nghiệm và đánh giá

Chương này trình bày các thử nghiệm, đánh giá hiệu quả của 4 mô hình sử dụngGCNs kết hợp với các hàm phi tuyến khác nhau.

Tập dữ liệu

Các mô hình được thử nghiệm trên bốn tập dữ liệu: LastFm, LastFm-20K, Retail Rocket và Recobell.

LastFm là một nền tảng âm nhạc, nơi thu thập thông tin về lịch sử tương tác của người dùng với các bài hát Dữ liệu được ghi nhận từ ngày 01/09/2006 đến 01/10/2006, với các nhãn thời gian tương ứng cho từng lần tương tác của người dùng.

LastFm-2K là bộ dữ liệu được thu thập từ trang web âm nhạc Last.fm, chứa thông tin về sở thích âm nhạc của 2.000 người dùng Bộ dữ liệu này cung cấp cái nhìn sâu sắc về thói quen nghe nhạc và xu hướng âm nhạc của cộng đồng người dùng Last.fm.

Bộ dữ liệu Retail Rocket được thu thập từ một trang web thương mại điện tử thực tế, bao gồm thông tin lịch sử hành vi người dùng, thuộc tính của sản phẩm và nhãn danh mục trong khoảng thời gian 4.5 tháng Dữ liệu ghi lại các hành vi như click (xem sản phẩm), thêm vào giỏ hàng (add to cart) và giao dịch (transaction) Hành vi click được xem là hành vi tiềm ẩn, trong khi các hành vi thêm vào giỏ hàng và giao dịch được phân loại là hành vi rõ ràng Để đảm bảo tính chính xác cho mục đích thử nghiệm, các tương tác của người dùng có ít hơn 5 lần click đã được loại bỏ khỏi bộ dữ liệu.

Recobell là bộ dữ liệu thu thập từ một trang web thương mại điện tử (nguồn: http://www.recobell.co.kr/rb/main.php?menu=pakdd2017), bao gồm thông tin về hành vi và nhãn của sản phẩm trong khoảng thời gian từ 01/08/2016 đến 01/10/2016 Dữ liệu hành vi được chia thành hai loại: hành vi xem (view) được coi là hành vi tiềm ẩn và hành vi mua (order) được xem là hành vi rõ ràng Tương tự như Retailrocket, chỉ dữ liệu tương tác của những người dùng có ít nhất 5 lần xem mới được giữ lại.

Thông tin thống kế chi tiết của 4 bộ dữ liệu được thể hiện trong Bảng 1.

Bảng 1: Một số thống kê trên 4 bộ dữ liệu Dataset LastFm LastFm-20K Retail rocket Recobell

Nhóm các mô hình thử nghiệm

Chúng tôi chia ra ba nhóm mô hình sẽ được đưa vào đánh giá trong thử nghiệm này:

Nhóm 1: Nhóm mô sử dụng GCNs để học biểu diễn ẩn kết hợp với hàm tuyến tính để dự đoán.

GCMC là một mô hình sử dụng mạng nơ-ron đồ thị (GCNs) để học các biểu diễn ẩn cho người dùng và sản phẩm trên đồ thị không đồng nhất Dự đoán kết quả được thực hiện thông qua một hàm tuyến tính, với đầu vào là hai vector ẩn.

NGCF (Neural Graph Collaborative Filtering) tương tự như GCMC (Graph Collaborative Matrix Completion), sử dụng mạng nơ-ron đồ thị (GCNs) để học biểu diễn ẩn cho người dùng và sản phẩm Điểm khác biệt là nhóm tác giả của NGCF áp dụng nhiều tầng GCNs nhằm mục tiêu tạo ra các biểu diễn ở mức cao hơn.

Nhóm 2 bao gồm các mô hình sử dụng phương pháp one-hot kết hợp với hàm phi tuyến để đưa ra dự đoán Hai mô hình nổi bật trong nhóm này là NeuMF và ITE, đã được trình bày chi tiết ở phần trước.

Nhóm 3 sử dụng GCNs để học vector biểu diễn ẩn kết hợp với hàm phi tuyến tính nhằm đưa ra dự đoán Nhóm này bao gồm bốn mô hình: NCF-HoG, NCF-HeG, ITE-HoG và ITE-HeG, với kiến trúc chi tiết của các mô hình này đã được trình bày trong chương 4.

Phương pháp đánh giá và độ đo sử dụng

Trong thử nghiệm này, chúng tôi áp dụng phương pháp leave-one-out để đánh giá hiệu quả của các mô hình Cụ thể, quy trình được thực hiện cho từng người dùng.

Để tạo ra tập dữ liệu kiểm thử, hãy lấy sản phẩm từ thời điểm cuối cùng mà người dùng có hành vi tương tác rõ ràng Tập dữ liệu còn lại sẽ được sử dụng cho quá trình huấn luyện.

Trong quá trình đánh giá và xếp hạng sản phẩm, chúng tôi áp dụng mô hình dự đoán để xếp hạng tất cả các sản phẩm chưa được người dùng tương tác Để tối ưu hóa thời gian tính toán, chúng tôi đã chọn ngẫu nhiên 999 sản phẩm chưa từng được người dùng trải nghiệm để thực hiện xếp hạng, thay vì sử dụng toàn bộ danh sách sản phẩm.

In our analysis, we employ two key metrics: Hit Ratio (HR) and Normalized Discounted Cumulative Gain (NDCG) to evaluate the ranking performance of the test products within the ordered list.

Độ đo HR (Hit Rate) được sử dụng để xác định xem một mục thử nghiệm có nằm trong top K của danh sách xếp hạng hay không, được gọi là HR@K.

1,nếu test item nằm trong top K.

Độ đo NDCG (Normalized Discounted Cumulative Gain) không chỉ xem xét sự xuất hiện của item kiểm tra trong top K như độ đo HR@K, mà còn chú trọng đến vị trí xếp hạng của item đó trong danh sách Cụ thể, NDCG đánh giá rằng độ đô càng cao thì xếp hạng càng cao, thể hiện mức độ liên quan của các kết quả tìm kiếm Công thức tính NDCG sẽ giúp xác định hiệu quả của hệ thống gợi ý.

 log(2) log(i + 1) ,nếu như test item ở vị trí i trong top K.

HR@K và NDCG@K cho toàn bộ hệ thống có thể được tổng quát hóa sử dụng trung bình HR@K và NDCG@K cho toàn bộ người dùng.

Thiết lập tham số và kết quả thực nghiệm

Thiết lập tham số chung cho các mô hình trên:

• Số đặc trưng ẩn của user và item (số chiều của vec-tơ đặc trưng cho user và item): K ∈ {8, 16, 32, 64}

• Tốc độ học (learning rate): lr ∈ {0.001, 0.0001}

• Kích thước một batch: batch-size ∈ {512, 1024, 2048}

Một số tham số riêng dàng cho mô hình NCF-HoG, NCF-HeG, ITE-HoG, ITE- HeG.

• Số hàng xóm của mỗi nút trong đồ thị: 10

• Số hàng xóm trong thử nghiệm để lấy mẫu huấn luyện: Ne ∈ {1, 3, 5, 7, 10}

Một số kịch bản thử nghiệm

Hiệu quả của việc sử dụng GCNs để học biểu diễn cho user/item

Các hình 14, 15, 16, 17 cho thấy hiệu năng của các mô hình với hai độ đo HR@10 và NDCG@10 trên bốn bộ dữ liệu khác nhau khi thay đổi số lượng biến ẩn K trong khoảng {8, 16, 32, 64} Các mô hình dựa trên GCNs luôn đạt hiệu quả cao hơn so với mô hình NCF và ITE, chứng minh lợi ích của việc sử dụng GCNs để tạo ra biểu diễn thông tin phong phú hơn so với vector one-hot Đặc biệt, hình 14 cho thấy hiệu quả của các mô hình GCNs (NCF-HoG, NCF-HeG, ITE-HoG, ITE-HeG) tăng dần theo số chiều của vector ẩn, trong khi NCF và ITE có sự biến động nhưng chỉ đạt hiệu quả tối đa khi số chiều vector ẩn tăng.

Trong nhóm các mô hình dựa trên GCNs, NCF-HoG thể hiện hiệu quả cao nhất với NDCG@10 đạt 0.13 tại K = 64, vượt trội hơn so với NCF và ITE với giá trị lần lượt là 0.071 và 0.077 Trên bộ dữ liệu LastFm-2K, NCF-HoG cũng đạt NDCG@10 cao nhất là 0.105 (K=32), so với NCF là 0.103 (K=16) và 0.095 (K=16) Kết quả tương tự cũng được ghi nhận trên các bộ dữ liệu lớn như Retail Rocket và Recobell Điều này cho thấy việc học vector biểu diễn ẩn của người dùng và sản phẩm từ GCNs trước khi đưa vào các lớp phi tuyến tính mang lại hiệu quả tốt hơn so với việc sử dụng vector one-hot.

Trong nhóm các mô hình dựa trên GCNs, các mô hình học biểu diễn từ mạng không đồng nhất như NCF-HeG và ITE-HeG cho thấy hiệu suất cao hơn so với các mô hình học từ đồ thị đồng nhất (NCF-HoG, ITE-HoG) Cụ thể, độ đo NDCG@10 của NCF-HeG đạt 0.4698 và ITE-HeG đạt 0.4736, trong khi NCF-HoG và ITE-HoG chỉ đạt lần lượt 0.4544 và 0.4621 Kết quả này cũng được xác nhận trên các bộ dữ liệu khác, như thể hiện trong các hình 14, 15, và 17.

Hình 14: Hiệu quả của các mô hình trên bộ dữ liệu LastFm khi số biến ẩn K thay đổi Giá trị cao hơn là tốt hơn.

Hình 15: Hiệu quả của các mô hình trên bộ dữ liệu LastFm-2K khi số biến ẩn K thay đổi Giá trị cao hơn là tốt hơn

5.5.2 Hiệu quả khi mô hình hóa các liên kết bậc cao kết hợp với hàm dự đoán phi tuyến

Hình 18, 19, 20, 21 trình bày độ đo HR@10 và NDCG@10 của bốn mô hình trên các bộ dữ liệu với kích thước vector ẩn khác nhau K ∈ {8, 16, 32, 64} Các mô hình này được chia thành hai nhóm: nhóm khai thác kết nối bậc cao (NGCF) và nhóm khai thác kết nối bậc nhất (GCMC, NCF-HeG, ITE-HeG) Kết quả cho thấy NGCF thường vượt trội hơn GCMC nhờ khả năng nắm bắt mối quan hệ bậc cao giữa người dùng và sản phẩm, từ đó tạo ra vector biểu diễn tốt hơn Bên cạnh đó, việc áp dụng các hàm phi tuyến trong kiến trúc mạng học sâu (NCF-HeG, ITE-HeG) đã cải thiện đáng kể hiệu quả dự đoán so với việc sử dụng hàm tuyến tính đơn giản (GCMC, NGCF).

Hình 16: Hiệu quả của các mô hình trên bộ dữ liệu Retail Rocket khi số biến ẩn K thay đổi Giá trị cao hơn là tốt hơn

Hình 17: Hiệu quả của các mô hình trên bộ dữ liệu Recobell khi số biến ẩn

Việc áp dụng các kiến trúc mạng nơ-ron trong mô hình hóa hành vi người dùng từ dữ liệu tương tác cho thấy giá trị cao hơn là tốt hơn So sánh giữa hai mô hình NCF-HeG và ITE-HeG, ITE-HeG đã chứng minh hiệu quả vượt trội hơn NCF-HeG Điều này cho thấy việc chọn lựa kiến trúc mạng học sâu phù hợp trong quá trình dự đoán có thể nâng cao đáng kể hiệu suất của mô hình.

Hiệu quả của các mô hình khi số lượng chiều của vector ẩn thay đổi

Chúng tôi đánh giá hiệu quả của các mô hình trên các bộ dữ liệu khi thay đổi số chiều của vector ẩn cho người dùng và sản phẩm Trên các bộ dữ liệu nhỏ, hầu hết các mô hình có xu hướng bị overfitting khi số chiều vector ẩn tăng từ 32 lên 64 Ngược lại, trên các bộ dữ liệu lớn như Retail Rocket và Recobell, bốn mô hình NCF-HoG, NCF-HeG, ITE-HoG, và ITE-HeG cho thấy hiệu quả tăng dần khi số chiều vector ẩn tăng đến 64, trong khi các mô hình NCF và ITE lại có hiệu suất dao động và thường bị overfitting khi số chiều vector ẩn lớn.

Hình 18: Hiệu quả của các mô hình trên bộ dữ liệu LastFm khi số biến ẩn K thay đổi Giá trị cao hơn là tốt hơn

Hình 19: Hiệu quả của các mô hình trên bộ dữ liệu LastFm-2K khi số biến ẩn K thay đổi Giá trị cao hơn là tốt hơn

Hiệu quả của mô hình khi số lượng epochs thay đổi

Phần này phân tích hiệu quả của các mô hình khi thay đổi số lượng epochs trong quá trình huấn luyện, với một epoch đại diện cho một lần xử lý toàn bộ dữ liệu Các hình 22, 23, 24, 25 minh họa hiệu suất của các mô hình trên bốn bộ dữ liệu khi số lượng epochs tăng dần, với các chỉ số HR@10 và NDCG@10 Kết quả cho thấy các mô hình dựa trên GCNs học biểu diễn cho người dùng và sản phẩm có hiệu quả vượt trội hơn so với các mô hình sử dụng one-hot Đặc biệt, các mô hình NCF-HoG, NCF-HeG, ITE-HoG và ITE-HeG đạt hiệu suất cao chỉ sau 20 epochs, cho thấy khả năng rút ngắn thời gian huấn luyện, nhất là khi làm việc với dữ liệu lớn, đồng thời chứng minh khả năng mở rộng của mô hình nhóm chúng tôi khi xử lý các bộ dữ liệu lớn.

Hiệu quả của mô hình đối với số lượng các hàng xóm khi lấy mẫu

Hình 20: Hiệu quả của các mô hình trên bộ dữ liệu Retail rocket khi số biến ẩn K thay đổi Giá trị cao hơn là tốt hơn

Hình 21: Hiệu quả của các mô hình trên bộ dữ liệu Recobell khi số biến ẩn

Số lượng hàng xóm được lấy mẫu ảnh hưởng đến hiệu suất của mô hình, với HR@10 và NDCG@10 tăng khi số hàng xóm tăng từ 1 đến 5, nhưng có xu hướng giảm khi số mẫu tăng từ 5 đến 10 Việc tăng số mẫu giúp tổng hợp nhiều thông tin hơn, cải thiện biểu diễn cho các đỉnh Tuy nhiên, nếu vector biểu diễn của một nút được tổng hợp từ quá nhiều hàng xóm, thông tin của nó có thể bị làm lu mờ Do đó, việc lựa chọn số lượng hàng xóm để tổng hợp thông tin là rất quan trọng; một số lượng phù hợp không chỉ giảm khối lượng tính toán mà còn bảo toàn thông tin của đỉnh được tổng hợp.

Hiệu quả của mô hình đối với độ thưa của dữ liệu

Hình 27 minh họa hiệu quả của các mô hình khi độ thưa của dữ liệu tăng từ 70% đến 95% Rõ ràng, các mô hình sử dụng GCNs kết hợp hàm phi tuyến trong dự đoán hành vi người dùng luôn đạt hiệu suất cao hơn so với các mô hình khác như NCF và NGCF Điều này chứng tỏ rằng nhóm mô hình GCNs có ưu thế vượt trội trong bối cảnh dữ liệu thưa thớt.

Hình 22: Hiệu quả của các mô hình trên bộ dữ liệu Lastfm khi số lượng epoch tăng dần Từ trái qua phải K ∈ {8; 16; 32; 64} Giá trị cao hơn là tốt hơn.

Hình 23: Hiệu quả của các mô hình trên bộ dữ liệu LastFm-2K khi số lượng epoch tăng dần Từ trái qua phải K ∈ {8; 16; 32; 64} Giá trị cao hơn là tốt hơn.

Hình 24 minh họa hiệu quả của các mô hình trên bộ dữ liệu Retail Rocket khi số lượng epoch tăng dần Các giá trị K được thử nghiệm là 8, 16, 32 và 64, với giá trị cao hơn thể hiện hiệu suất tốt hơn.

Hình 25: Hiệu quả của các mô hình trên bộ dữ liệu Recobell khi số lượng epoch tăng dần Từ trái qua phải K ∈ {8; 16; 32; 64} Giá trị cao hơn là tốt hơn.

Mô hình ITE-HoG và ITE-HeG cho thấy hiệu quả đáng kể trong bộ dữ liệu Retail Rocket khi số lượng hàng xóm lấy mẫu tăng lên Với số chiều của vector ẩn là K = 8, giá trị cao hơn thể hiện kết quả tốt hơn.

Hình 27: Hiệu quả của mô hình dựa trên GCNs đo trên bộ dữ liệu LastFm-

Trong trường hợp độ thưa của dữ liệu tăng dần, số chiều của vector ẩn được đặt là K = 8, với giá trị cao hơn được coi là tốt hơn Mô hình GCNs kết hợp với lớp hàm phi tuyến có khả năng giúp mô hình Collaborative Filtering (CF) đối phó hiệu quả với các tình huống dữ liệu thưa.

Phân tích lý thuyết và thực nghiệm

Chúng tôi phân tích ưu điểm của việc sử dụng GCNs để cải thiện biểu diễn cho người dùng và sản phẩm trước khi đưa vào mô hình lọc cộng tác Các mô hình gợi ý dựa trên đồ thị thể hiện mối quan hệ giữa người dùng và sản phẩm qua các cạnh, với trọng số phản ánh cường độ mối quan hệ Chúng tôi sử dụng hai loại đồ thị: đồng nhất và không đồng nhất Trong đồ thị đồng nhất, vector biểu diễn của một đỉnh được tổng hợp từ các hàng xóm cùng tính chất, dẫn đến sự tương đồng giữa các người dùng có sở thích giống nhau Ngược lại, trong đồ thị không đồng nhất, mối quan hệ giữa người dùng và sản phẩm được thể hiện trực tiếp và gián tiếp đưa vào vector thông qua GCNs, tạo ra vector biểu diễn giàu thông tin hơn Kết quả thử nghiệm cho thấy các mô hình NCF-HeG và ITE-HeG đạt hiệu quả cao hơn NCF-HoG và ITE-HoG trên các chỉ số HIT@10 và NDCG@10, đồng thời cả bốn mô hình này đều vượt trội hơn các mô hình chỉ sử dụng one-hot vector, chứng minh hiệu quả của GCNs trong việc học biểu diễn.

Sự kết hợp tuyến tính của vector biểu diễn người dùng và sản phẩm không phản ánh đầy đủ mối quan hệ phức tạp giữa chúng NeuMF kết hợp ý tưởng từ mạng nơ-ron đa lớp (MLP) và phân rã ma trận để dự đoán tương tác người dùng - sản phẩm Trong khi đó, ITE mô hình hóa tính thứ tự trong hành vi người dùng thông qua các tầng MLP Các thử nghiệm cho thấy rằng việc kết hợp vector biểu diễn với các hàm phi tuyến như NeuMF và ITE mang lại hiệu quả vượt trội so với các phép biến đổi tuyến tính trong việc dự đoán.

Chúng tôi đã đề xuất xây dựng các đồ thị thể hiện mối quan hệ giữa người dùng, sản phẩm và tương tác giữa chúng Từ các đồ thị này, nhóm tiến hành thử nghiệm trên bốn mô hình NCF-HoG, NCF-HeG, ITE-HoG và ITE-HeG Các mô hình này áp dụng mạng GCNs để khai thác các đặc tính của đồ thị, nhằm làm phong phú thông tin cho vector biểu diễn trước khi đưa vào các hàm phi tuyến tính (NCF, ITE) để thực hiện dự đoán.

Chúng tôi đã thử nghiệm các mô hình trên 4 tập dữ liệu khác nhau và nhận thấy rằng nhóm mô hình sử dụng GCNs để học vector biểu diễn cho các đỉnh kết hợp với hàm phi tuyến mang lại cải thiện vượt trội so với các mô hình cơ sở Ngoài ra, chúng cũng có tốc độ hội tụ cao hơn so với mô hình NCF và ITE Để giải quyết vấn đề cold start trong hệ gợi ý, nhiều nghiên cứu đã bổ sung thông tin bên ngoài của người dùng và sản phẩm để tạo ra biểu diễn giàu thông tin hơn, thay vì chỉ sử dụng vector one-hot, đây có thể là hướng phát triển tiếp theo cho bài toán này.

[1] Rianne van den Berg, Thomas N Kipf, and Max Welling Graph convo- lutional matrix completion KDD Deep Learning Day - ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2018.

[2] Joan Bruna, Wojciech Zaremba, Arthur Szlam, and Yann Lecun Spec- tral networks and locally connected networks on graphs In International Conference on Learning Representations (ICLR2014), CBLS, April 2014, 2014.

The 2nd workshop on information heterogeneity and fusion in recommender systems, known as HETREC 2011, was organized by Iván Cantador, Peter Brusilovsky, and Tsvi Kuflik This event took place during the 5th ACM Conference on Recommender Systems, RecSys, highlighting the importance of addressing diverse information sources and their integration in recommendation technologies.

2011, New York, NY, USA, 2011 ACM.

[4] Micha¨el Defferrard, Xavier Bresson, and Pierre Vandergheynst Convolu- tional neural networks on graphs with fast localized spectral filtering ICLR, 2016.

Michaël Defferrard, Xavier Bresson, and Pierre Vandergheynst explore the application of convolutional neural networks on graphs, focusing on the development of fast localized spectral filtering techniques Their research is presented in the context of the Advances in Neural Information Processing Systems 29, a prominent annual conference dedicated to advancements in neural information processing.

[6] Prem Gopalan, Laurent Charlin, David M Blei, et al Content-based rec- ommendations with poisson factorization InNIPS, volume 14, pages 3176–

[7] Xiangnan He, Lizi Liao, Hanwang Zhang, Liqiang Nie, Xia Hu, and Tat-Seng Chua Neural collaborative filtering InProceedings of the 26th international conference on world wide web, pages 173–182, 2017.

In their 2016 paper presented at the 39th International ACM SIGIR conference, Xiangnan He, Hanwang Zhang, Min-Yen Kan, and Tat-Seng Chua introduced a rapid matrix factorization approach tailored for online recommendation systems that utilize implicit feedback Their research addresses the challenges of efficiently processing user interactions to enhance recommendation accuracy.

[9] Mikael Henaff, Joan Bruna, and Yann LeCun Deep convolutional networks on graph-structured data arXiv preprint arXiv:1506.05163, 2015.

Diederik P Kingma and Jimmy Ba introduced the Adam optimization method, a significant advancement in stochastic optimization techniques, during the 3rd International Conference on Learning Representations (ICLR) held in San Diego, CA, from May 7-9, 2015 This innovative approach has since become a foundational tool in various machine learning applications.

[11] Thomas N Kipf and Max Welling Semi-supervised classification with graph convolutional networks In 5th International Conference on Learning Rep- resentations, ICLR 2017, Toulon, France, April 24-26, 2017, Conference Track Proceedings, 2017.

[12] Young-Jun Ko, Lucas Maystre, and Matthias Grossglauser Collaborative recurrent neural networks for dynamic recommender systems In Asian Conference on Machine Learning, pages 366–381 PMLR, 2016.

[13] Yehuda Koren, Robert Bell, and Chris Volinsky Matrix factorization tech- niques for recommender systems Computer, 42(8):30–37, 2009.

In their 2015 paper presented at the 24th ACM International Conference on Information and Knowledge Management, Sheng Li, Jaya Kawale, and Yun Fu introduce a novel approach to deep collaborative filtering using marginalized denoising auto-encoders This method enhances recommendation systems by effectively addressing noise in data, thereby improving the accuracy of user-item interactions Their research contributes significantly to the field of information retrieval and knowledge management, offering insights into advanced machine learning techniques for better data interpretation.

[15] Yujia Li, Daniel Tarlow, Marc Brockschmidt, and Richard S Zemel Gated graph sequence neural networks In Yoshua Bengio and Yann LeCun, editors, 4th International Conference on Learning Representations, ICLR

2016, San Juan, Puerto Rico, May 2-4, 2016, Conference Track Proceed- ings, 2016.

Tuc Nguyen, Linh Ngo Van, and Khoat Than conducted a study on modeling the sequential behaviors of online users within recommender systems Their research was published in the proceedings of the International Society for Optics and Photonics, as part of the volume titled "Artificial Intelligence and Machine Learning for Multi-Domain Operations Applications II" in 2020.

[17] Hanhuai Shan and Arindam Banerjee Generalized probabilistic matrix factorizations for collaborative filtering In 2010 IEEE International Con- ference on Data Mining, pages 1025–1030 IEEE, 2010.

Ngày đăng: 07/12/2021, 19:25

HÌNH ẢNH LIÊN QUAN

Hình 1: Hình minh họa hướng tiếp cận dựa trên lọc nội dung và lọc cộng tác. - Mô hình hóa chuỗi hành vi người dùng trong bài toán hệ gợi ý
Hình 1 Hình minh họa hướng tiếp cận dựa trên lọc nội dung và lọc cộng tác (Trang 16)
Hình 2: Minh họa phân rã ma trận - Mô hình hóa chuỗi hành vi người dùng trong bài toán hệ gợi ý
Hình 2 Minh họa phân rã ma trận (Trang 18)
Hình 3: Ví dụ cho thấy hạn chế của MF - Mô hình hóa chuỗi hành vi người dùng trong bài toán hệ gợi ý
Hình 3 Ví dụ cho thấy hạn chế của MF (Trang 20)
Hình 4: NeuMF - Mô hình hóa chuỗi hành vi người dùng trong bài toán hệ gợi ý
Hình 4 NeuMF (Trang 21)
Hình 5: Kiến trúc mô hình Implicit To Explicit - Mô hình hóa chuỗi hành vi người dùng trong bài toán hệ gợi ý
Hình 5 Kiến trúc mô hình Implicit To Explicit (Trang 24)
Hình 6: Kiến trúc mô hình Sequential Implicit To Explicit - Mô hình hóa chuỗi hành vi người dùng trong bài toán hệ gợi ý
Hình 6 Kiến trúc mô hình Sequential Implicit To Explicit (Trang 27)
Hình 7: Kiến trúc mô hình Sequential Implicit To Explicit - Mô hình hóa chuỗi hành vi người dùng trong bài toán hệ gợi ý
Hình 7 Kiến trúc mô hình Sequential Implicit To Explicit (Trang 28)
Hình 8: Xây dựng đồ thị đồng nhất user graph, item graph - Mô hình hóa chuỗi hành vi người dùng trong bài toán hệ gợi ý
Hình 8 Xây dựng đồ thị đồng nhất user graph, item graph (Trang 30)
Hình 9: Xây dựng đồ thị không đồng nhất user - item graph - Mô hình hóa chuỗi hành vi người dùng trong bài toán hệ gợi ý
Hình 9 Xây dựng đồ thị không đồng nhất user - item graph (Trang 31)
Hình 10: Kiến trúc mô hình NCF-HoG - Mô hình hóa chuỗi hành vi người dùng trong bài toán hệ gợi ý
Hình 10 Kiến trúc mô hình NCF-HoG (Trang 35)
Hình 11: Kiến trúc mô hình NCF-HeG - Mô hình hóa chuỗi hành vi người dùng trong bài toán hệ gợi ý
Hình 11 Kiến trúc mô hình NCF-HeG (Trang 37)
Hình 12: Mô hình ITE-HoG - Mô hình hóa chuỗi hành vi người dùng trong bài toán hệ gợi ý
Hình 12 Mô hình ITE-HoG (Trang 38)
Hình 13: Kiến trúc mô hình ITE-HeG Trong mô hình ITE-HoG thể hiện trực tiếp mối quan hệ giữa 2 người dùng với nhau và giữa 2 sản phẩm với nhau - Mô hình hóa chuỗi hành vi người dùng trong bài toán hệ gợi ý
Hình 13 Kiến trúc mô hình ITE-HeG Trong mô hình ITE-HoG thể hiện trực tiếp mối quan hệ giữa 2 người dùng với nhau và giữa 2 sản phẩm với nhau (Trang 40)
Bảng 1: Một số thống kê trên 4 bộ dữ liệu Dataset LastFm LastFm-20K Retail rocket Recobell - Mô hình hóa chuỗi hành vi người dùng trong bài toán hệ gợi ý
Bảng 1 Một số thống kê trên 4 bộ dữ liệu Dataset LastFm LastFm-20K Retail rocket Recobell (Trang 43)
Hình 14: Hiệu quả của các mô hình trên bộ dữ liệu LastFm khi số biến ẩn K - Mô hình hóa chuỗi hành vi người dùng trong bài toán hệ gợi ý
Hình 14 Hiệu quả của các mô hình trên bộ dữ liệu LastFm khi số biến ẩn K (Trang 46)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w