Một số khái niệm
Khái niệm về chủ đề liên quan đến việc nhận diện các từ thường xuất hiện trong một cuộc thảo luận khi đề cập đến chủ đề đó Ví dụ, khi nói về thể thao, các từ như người chơi, trọng tài, bóng đá và cầu thủ sẽ được nhắc đến nhiều Mô hình chủ đề có khả năng phát hiện sự đồng xuất hiện của các từ này, ngay cả khi chúng nằm trong các cấu trúc ngôn ngữ phức tạp như cú pháp và vị trí trong văn bản Mỗi văn bản được coi như một túi từ (bag of words), và mục tiêu của phân tích mô hình chủ đề là phân tích các túi từ khác nhau để xác định mẫu từ đồng xuất hiện, từ đó tạo ra ánh xạ phân phối của các từ trong các chủ đề và các chủ đề trong các túi.
Mô hình LDA
Cho trước một tập dữ liệu văn bản, trong luận văn đưa ra một số khái niệm và ký hiệu:
• Từ là đơn vị cơ bản, được định nghĩa là một phần tử của một tập từ vựng, tập từ vựng gồm V từ cấu thành nên văn bản.
• Một văn bản là tập hợp các từ Ví dụ văn bảndgồmN từw d = (w d1 , , w dN ) trong đó w di là từ thứ i trong văn bản d.
• Tập văn bản gồm M văn bản D = (w 1 , w 2 , w 3 , , w M )
Hình 2: Mô hình đồ thị biểu diễn của mô hình LDA
Latent Dirichlet Allocation (LDA) là một mô hình sinh xác suất, trong đó văn bản d được tạo ra từ các chủ đề ẩn với xác suất được biểu diễn qua vector θ d = (θ d1 , θ d2 , , θ dK) (tỉ lệ chủ đề) Mỗi chủ đề k (k = 1, 2, 3, , K) được đặc trưng bởi một phân phối từ vựng riêng biệt.
Quá trình sinh của mỗi văn bản trong tập dữ liệu:
2 Sinh tỉ lệ các chủ đề trong mỗi văn bản d: θ d |α ∼ Dir(α)
Mô hình LDA được xây dựng dựa trên hai bước chính: đầu tiên, sinh chủ đề cho từ w di thông qua phân phối θ d, và sau đó sinh từ w di dựa trên chủ đề z di với tham số β Trong mô hình này, α và η đóng vai trò là các tri thức tiên nghiệm, tức là siêu tham số của phân phối Dirichlet Hình 2 minh họa cách mà các từ quan sát được trong từng văn bản, cùng với các biến ngẫu nhiên θ, z, và β, cần được ước lượng để hoàn thiện mô hình.
Như Hình 2 đã cho thấy rõ ràng mô hình LDA có 3 mức biểu diễn:
1 Mức toàn cục (Mức độ trên tập dữ liệu): gồm các siêu tham số (hyperpa- rameters) α , η và biến β
2 Mức văn bản : gồm biến θ d
3 Mức từ : gồm biến z dn và w dn
Mức văn bản và mức từ được xem là mức cục bộ trong mô hình LDA Các biến ẩn β, θ và z đại diện cho ngữ nghĩa ẩn cần được khai thác từ tập dữ liệu Một thách thức quan trọng trong việc áp dụng LDA là tính toán phân phôi hậu nghiệm của các biến ẩn trong văn bản, được biểu diễn qua công thức p(θ, z, β |w, α, η) = p(θ, z, β, w|α, η) p(w|α, η).
Để tính toán phân phối hậu nghiệm, việc tính toán chính xác là không khả thi Do đó, chúng ta cần sử dụng các phương pháp xấp xỉ để ước lượng phân phối này.
Quá trình suy diễn hiện nay bao gồm các thuật toán chính xác và xấp xỉ Đối với suy diễn xấp xỉ, có nhiều phương pháp như suy diễn Bayesian biến thể (VB) kết hợp với các xấp xỉ trường trung bình, cùng với các kỹ thuật mô phỏng ngẫu nhiên, sampling và MCMC Trong bài viết này, chúng tôi sẽ tập trung vào việc sử dụng phương pháp VB để thực hiện suy diễn.
Chúng tôi đo sự gần nhau của 2 phân phối bằng khoảng cách Kullback-Leibler (KL):
Dễ thấy để khoảng cách KL nhỏ thì có 2 trường hợp là:
N M Hình 3: Suy diễn biến phân cho LDA.
Khi áp dụng VB, mục tiêu của chúng tôi là giảm thiểu khoảng cách KL giữa phân phối xấp xỉ q và phân phối hậu nghiệm p Mặc dù không thể tối thiểu hóa trực tiếp, chúng tôi có thể đạt được điều này thông qua việc tối ưu hóa một hàm khác, được gọi là evidence lower bound (ELBO) Để tính toán ELBO, chúng tôi sử dụng bất đẳng thức Jensen cho log xác suất của thành phần quan sát được: log(p(x|α, η)) = log.
≥E q [log p(x, θ, z, β|α, η)] −E [log q(θ, z, β)] Ở đây q(θ, z, β ) là xấp xỉ của phân phối hậu nghiệm Ta có thể viết lại công thức KL:
Mục tiêu của chúng ta là tối đa hóa ELBO để giảm thiểu khoảng cách KL giữa phân phối q và p, giúp chúng xấp xỉ nhau Trong bối cảnh này, ta có thể áp dụng các phương pháp tối ưu hóa để đạt được kết quả mong muốn.
Sử dụng mean-field: q(θ, z, β |γ, φ, λ) = [Π D d=1 q(θ d |γ d )][Π D d=1 Π N n=1 d q(z dn |φ dw dn )][Π K k=1 q(β k |λ k )]
Trong đó các tham số (γ dk ), (φ dvk ), (λ k ) với k ∈ 1, 2, 3, , K; v ∈ 1, 2, 3, , V ; d ∈
1, 2, 3, , D Khi đó ELBO có dạng:
Eq [log q(z dn |φ dw dn )] −
Trong đó ta có một số phân phối như: q(θ d |γ d ) ∼ Dir(θ d |γ d ) q(z dn |φ dw dn ) ∼ M ult(z dn |φ dw dn ) q(β k |λ k ) ∼ Dir(β k |λ k )
Sau khi sử dụng gradient ascent để tối ưu ELBO ta được: γ dk = α k +
X n=1 φ dnk for k = 1, , K φ dnk ∝ exp(E q [log θ dk ] +
I[w dn = v] log β kv ) λ kv = η kv +
Mô hình hóa cho các phương pháp học dòng
Mô hình tổng quát B (Θ, z, x) bao gồm các biến dữ liệu quan sát x 1:N, biến ẩn toàn cục Θ và các biến ẩn cục bộ z 1:N, trong đó mỗi z i tương ứng với x i Mô hình này được áp dụng trong môi trường dữ liệu liên tục.
Mô hình đồ thị tổng quát được xây dựng theo từng minibatch D1, D2, , Dt, với phương pháp Bayesian nhằm ước lượng các tham số của mô hình bằng cách tối đa hóa hàm phân phối hậu nghiệm p(z, Θ | D1, D2, , Dt, η), trong đó η là tri thức tiên nghiệm khởi tạo Tuy nhiên, việc tính toán trực tiếp phân phối này là không khả thi, do đó cần áp dụng các phương pháp xấp xỉ, và luận văn sẽ sử dụng suy diễn biến phân đã được trình bày ở phần trước.
Phương pháp học Streaming Variational Bayes
Streaming Variational Bayes (SVB) [Broderick et al., 2013], là một phương pháp đơn giản, hiệu quả và dễ dàng tính toán phân tán Ý tưởng chính của SVB như sau:
Giả định rằng dữ liệu được sinh ra một cách độc lập và đồng nhất từ một phân phối với tham số Θ và tri thức tiên nghiệm η, tức là p(x | Θ, η) Đồng thời, phân phối tiên nghiệm p(Θ | η) cũng được giả định là đã biết trước.
• Trong quá trình học thì phân phối hậu nghiệm học được từ minibatch trước được khởi tạo làm phân phối tiên nghiệm cho minibatch sau.
Do việc tính toán trực tiếp phân phối hậu nghiệm gặp khó khăn, phương pháp suy diễn biến phân được áp dụng để xấp xỉ phân phối hậu nghiệm một cách hiệu quả.
Sau thời điểm t − 1, chúng ta đã thu thập được t − 1 minibatches dữ liệu quá khứ và tính toán được phân phối hậu nghiệm p(Θ | D 1 , D 2 , , D t−1 , η) Khi nhận dữ liệu từ minibatch thứ t, chúng ta có thể cập nhật phân phối hậu nghiệm như sau: p(Θ | D 1 , D 2 , , D t , η) ∝ p(D t | Θ, η)p(Θ | D 1 , D 2 , , D t−1 , η).
Phân phối hậu nghiệm trên các minibatches đầu tiên tỷ lệ với tích của likelihood trên dữ liệu của minibatch thứ t và phân phối tiên nghiệm của nó Phân phối tiên nghiệm này cũng chính là phân phối hậu nghiệm trên t - 1 minibatches đầu tiên Do không thể tính toán chính xác các phân phối hậu nghiệm, cần áp dụng xấp xỉ, cụ thể là suy diễn biến phân.
Trong nghiên cứu thống kê, một giả sử quan trọng là các phân phối xấp xỉ được giới hạn trong họ mũ (exponential family), bao gồm nhiều phân phối phổ biến như Bernoulli, Poisson, Normal, Gamma, Multinomial và Dirichlet Hàm mật độ của các phân phối này có dạng tổng quát f X (x | θ) = h(x) exp((θ.T (x) − A(θ))) ∝ exp(θ.T (x)), trong đó θ là tham số tự nhiên, T (x) là thống kê đủ, h(x) là hàm cho trước và A(θ) là đại lượng chuẩn hóa Các mô hình dựa trên giả sử này sở hữu tính chất "conjugate exponential".
Trong mô hình SVB, giả sử tồn tại một dãy tham số biến phân {λ 1 , λ 2 , , λ t , } với các xấp xỉ như sau: p(Θ | η) ≈ q(Θ | λ 0 ) ∝ exp(λ 0 T (Θ)) và p(Θ | D t , η) ≈ q(Θ | ˆ λ t ) ∝ exp(ˆ λ t T (Θ)) Giá trị tiên nghiệm η được chuyển thành tham số tự nhiên λ 0, còn được gọi là giá trị tiên nghiệm khởi tạo Kết hợp với công thức (5), ta có q(Θ | λ t ) ≈ q(Θ | λ ˆ t ) q(Θ | λ 0 ) q(Θ | λ t−1 ).
Do các phân phối biến phân trên thuộc cùng loại trong họ mũ, ta có thể viết: exp(λ t T (Θ)) ∝ exp((ˆ λ t − λ 0 ).T (Θ) exp(λ t−1 T (Θ)) Điều này dẫn đến công thức λ t = λ t−1 + (ˆ λ t − λ 0 ), hay λ t = λ t−1 + ˜ λ t, với λ ˜ t được coi là thông tin học được từ dữ liệu ở minibatch thứ t.
Phương pháp học SVB cho LDA được trình bày trong Thuật toán 1.
Thuật toán 1 Phương pháp học SVB cho LDA Đầu vào : Dòng dữ liệu với các minibatch {D 1 , D 2 , , D t , }, các tham số tiên nghiệm η, α Đầu ra : Tham số biến phân toàn cục λ
Khởi tạo ngẫu nhiên λ = λ 0 for t = 1,2, ,T, do
Nhận dữ liệu ở minibatch thứ t là D t
*Bước suy diễn biến cục bộ cho từng văn bản* for mỗi văn bản d trong D t do
Khởi tạo γ d một giá trị bất kỳ repeat φ dnk ∝ exp{E q [log θ dk ] + E q [log β kw dn ]} γ dk = α +PN d n=1 φ dnk until K 1 PK k=1 | Sự thay đổi trong γ d |< 10 −5 end for
*Bước cập nhật tham số toàn cục*
PN d n=1 φ dnk I [w dn = w j ] end for
Khi áp dụng phương pháp SVB cho mô hình xác suất như LDA, biến ẩn toàn cục Θ := β được học, với mỗi hàng thuộc vào một simplex (không gian xác suất) Tại mỗi thời điểm t, β t có tham số biến phân λ t, được cập nhật theo công thức λ t = ˜ λ t + ˜ λ t−1 + + ˜ λ 1 + ˜ λ 0 Ở đây, λ ˜ i là thông tin học được từ minibatch thứ i, và với mô hình LDA, ta có k λ ˜ i k 1 = k λ ˆ i − λ 0 k 1 = X d∈D t, như đã nêu trong [Broderick et al., 2013].
Phương pháp SVB đối mặt với hai vấn đề chính: khả năng cân bằng thông tin giữa tri thức cũ và mới, cùng với khả năng tiếp nhận thông tin khi xử lý khối lượng dữ liệu lớn Khi t đủ lớn, giá trị P d∈D t N d ≥ t haykλ t k 1 sẽ tiến đến vô cùng, cho thấy những thách thức trong việc duy trì hiệu quả học tập.
Vấn đề cân bằng thông tin giữa tri thức mới và cũ là một thách thức lớn trong các phương pháp học dòng, đặc biệt là trong công thức 10, nơi mà λ t = λ t−1 + ˜ λ t và kλ t−1 k 1 tiến đến vô cùng khi t tiến đến vô cùng Phương pháp SVB không thể duy trì sự cân bằng này, dẫn đến sự xuất hiện của "stability-plasticity dilemma" Mô hình cần có thông tin cũ để đảm bảo tính ổn định (stability) đồng thời vẫn phải linh hoạt (plasticity) để thích ứng nhanh chóng với sự thay đổi trong dữ liệu.
Vấn đề không thể tiếp nhận thêm thông tin xảy ra khi phương pháp SVB sử dụng phân phối hậu nghiệm của bước trước làm phân phối tiên nghiệm cho bước sau Cụ thể, tham số λ t được áp dụng trong phân phối Dirichlet tiên nghiệm của β t+1, dẫn đến công thức: p(β t+1 | D 1 , D 2 , , D t , η) ≈ q(β k t+1 | λ t ) = Dir(β k t+1 | λ t ).
Tuy nhiên phương sai của phân phối Dirichlet sẽ tiến về không khi t lớn dẫn đến vấn đề vanishing variance:
Trong đó: α 0 =PV j=1 λ t kj , và α j = λ t kj α 0 Mặt khác kỳ vọng của phân phối này là:
Khi học từ một tập dữ liệu lớn, phương pháp SVB gặp khó khăn trong việc tiếp nhận tri thức mới, dẫn đến việc không thể thích nghi với môi trường dòng dữ liệu Để khắc phục hạn chế này, phương pháp Hierarchical Power Priors sẽ được xem xét tiếp theo.
Phương pháp học Hierarchical Power Priors
Phương pháp SVB gặp hạn chế do thiếu cơ chế hiệu quả để cân bằng thông tin cũ và mới, đồng thời không thể tiếp nhận thêm dữ liệu khi lượng thông tin trở nên quá lớn Trong khi đó, phương pháp Hierarchical Power Priors (HPP) có khả năng giải quyết những vấn đề này một cách hiệu quả.
Các tác giả của HPP [Masegosa et al., 2017] đã đề xuất sử dụng mô hình chuyển dịch p(Θ t | Θ t−1) để mô hình hóa sự phát triển của tham số Θ theo thời gian Tại mỗi thời điểm t, chúng ta ký hiệu dữ liệu quá khứ là {D 1, D 2, , D t} = D 1:t và biểu diễn phân bố hậu nghiệm trên dữ liệu này dưới dạng p(Θ t | D 1:t−1, η).
Z p(Θ t | Θ t−1 )p(Θ t−1 | D 1:t−1 , η)dΘ t−1 (12) Chú ý rằng trong SVB, thì phân phối trên có dạng tường minh: p(Θ t | D 1:t−1 , η) ≈ q(Θ t | λ t−1 ) ∝ exp(λ t−1 T (Θ t )) (13)
Trong môi trường dữ liệu liên tục và không ổn định, việc chỉ dựa vào một mô hình dịch chuyển duy nhất là không đủ Điều này dẫn đến việc biểu diễn tường minh của SVB không phù hợp cho dòng dữ liệu Bài toán đặt ra là tìm p(Θ t | D 1:t−1 , η) trong số nhiều mô hình dịch chuyển p(Θ t | Θ t−1 ) khác nhau Để giải quyết vấn đề này, cần giới hạn không gian tìm kiếm, và các tác giả đã đưa ra một định nghĩa cụ thể: p δ (Θ t | D 1:t−1 ).
Trong công thức Z δ(Θ t − Θ t−1 )p(Θ t−1 | D 1:t−1 , η)dΘ t−1, δ là hàm Dirac delta với đặc điểm δ(x − a) = 0 ∀x 6= a, cho thấy rằng phân bố này mô tả trường hợp tham số Θ không thay đổi theo thời gian Tiếp theo, không gian các khả năng của p(Θ t | D 1:t−1 ) được giới hạn bằng một ràng buộc trên khoảng cách Kullback-Leibler.
Chúng ta có một định nghĩa ngầm định về lớp các mô hình dịch chuyển p(Θ t | Θ t−1 ) với điều kiện rằng khoảng cách KL giữa p(Θ t | D 1:t−1 ) và p δ (Θ t | D 1:t−1 ) không vượt quá κ Tuy nhiên, điều này chỉ là một điều kiện ràng buộc, và cần thêm một điều kiện khác để xác định dạng cụ thể của p(Θ t | D 1:t−1 ).
Dưới nguyên lý cực đại entropy, p(Θ t | D 1:t−1 ) được xấp xỉ bởi phân phối p(Θ ˆ t | D 1:t−1 ) có entropy lớn nhất, vì entropy cao thể hiện độ hỗn loạn và không chắc của tham số Θ, điều này phù hợp với môi trường động của dữ liệu dòng Entropy của biến ngẫu nhiên liên tục có dạng tổng quát như sau:
−∞ p(x) log p(x) p u (x) dx trong đó, p u (x) là một phân phối xác suất không đổi của x.
Như vậy chúng ta mô hình hóa bài toán thành xấp xỉ p(Θ t | D 1:t−1 ) bởi một phân phối p(Θ ˆ t | D 1:t−1 ) thỏa mãn điều kiện ràng buộc (15) sao cho entropy:
Trong bài toán tối ưu có ràng buộc, ta tìm nghiệm tối ưu cho phân phối tiên nghiệm khởi tạo của Θ t bằng cách sử dụng phương pháp nhân tử Lagrange Kết quả cho thấy phân phối ˆ p(Θ t |D 1:t−1 , η, ρ t ) tỷ lệ với p δ (Θ t |D 1:t−1 , η) và p u (Θ t | η), với ρ t là tham số phụ thuộc vào giá trị κ Sử dụng giả định phân phối họ mũ, ta có thể xấp xỉ p δ và p u, từ đó dẫn đến phân phối ˆ p(Θ t |D 1:t−1 , η, ρ t ) cũng thuộc họ mũ với tham số tự nhiên là ρ t λ t−1 + (1 − ρ t )η Điều thú vị là phương pháp SVB sử dụng tham số λ t−1 cho phân phối tiên nghiệm của Θ t, trong khi HPP sử dụng ρ t λ t−1 + (1 − ρ t )η, với ρ t được gọi là forgetting factor, thể hiện tốc độ quên tri thức cũ SVB trở thành trường hợp đặc biệt của HPP khi ρ t = 1 cho mọi t, và khi ρ t là hằng số cố định trong khoảng (0, 1), HPP được gọi là SVB-PP (Power Prior), tương ứng với phương pháp học SVB-PP cho LDA.
Thuật toán 2 Phương pháp học SVB-PP cho LDA Đầu vào: Dòng dữ liệu với các minibatch {D 1 , D 2 , , D t , }, các tham sốη, α, ρ Đầu ra : Tham số biến phân toàn cục λ
Khởi tạo ngẫu nhiên λ = λ 0 for t = 1,2, ,T, do
Nhận dữ liệu ở minibatch thứ t là D t
*Bước suy diễn biến cục bộ cho từng văn bản* for mỗi văn bản d trong D t do
Khởi tạo γ d một giá trị bất kỳ repeat φ dnk ∝ exp{Eq [log θ dk ] +Eq [log β kw dn ]} γ dk = α +PN d n=1 φ dnk until K 1 PK k=1 | Sự thay đổi trong γ d |< 10 −5 end for
*Bước cập nhật tham số toàn cục*
PN d n=1 φ dnk I [w dn = w j ] end for
Theo công thức cập nhật trên, chúng ta có: λ t = ρλ t−1 + (1 − ρ)η + S t (20)
Từ đây chúng tôi thấy đại lượng ρ này rất có ý nghĩa trong việc giúp SVB-PP khắc phục những hạn chế của SVB như sau:
• Quên đi tri thức cũ với tốc độ hàm mũ, giúp phương pháp có cơ chế cân bằng thông tin cũ và mới hiệu quả hơn SVB.
Có thể ngăn chặn vấn đề biến thiên biến mất, vì theo công thức đã nêu, khi t đủ lớn, λ t chưa chắc chắn sẽ tiến đến vô cùng Tuy nhiên, nếu ρ được cố định và phụ thuộc vào dữ liệu, vẫn có khả năng gặp phải vấn đề này với xác suất cao.
Phương pháp học Population Variational Bayes
Mô hình tổng quát B(Θ, z, x) bao gồm các biến dữ liệu quan sát x 1:N, biến ẩn toàn cục Θ, và các biến ẩn cục bộ z 1:N, với mỗi z i tương ứng với x i Phương pháp thống kê Bayesian truyền thống ước lượng phân bố hậu nghiệm p(Θ, z|x) trên tập dữ liệu cố định bằng cách sử dụng Variational Bayes (VB), trong đó phân phối biến phân q(z, Θ) được tối ưu hóa để giảm thiểu khoảng cách KL giữa q(z, Θ) và p(z, Θ|x) Tuy nhiên, phương pháp này không phù hợp với dữ liệu dòng có kích thước không lường trước được.
Population Variational Bayes (PVB) [McInerney et al., 2015] giới thiệu một phân phối hậu nghiệm mới gọi là population posterior, có thể ước lượng trong môi trường dữ liệu liên tục Để hiểu rõ hơn, chúng ta xem xét phân phối population: giả sử có một tập hợp D văn bản được đánh số từ 1 đến D, thực hiện D lần lấy mẫu có hoàn lại từ tập này, kết quả thu được là các văn bản theo thứ tự {n1, n2, , nD} (có thể trùng nhau) Từ đó, chúng ta có được một phân phối FD trên tập D văn bản này.
I [n = n d ] trong đóI [n = n d ] là hàm indicator, bằng 1 nếu n = n d và bằng 0 nếu ngược lại.
Phân phối population F D được xác định trên tập D văn bản đã cho Để tạo ra một quan sát từ phân phối này, chúng ta thực hiện quá trình lấy mẫu D lần có hoàn lại từ tập D Qua đó, chúng ta thu được phân phối population F D và giá trị n mà tại đó F D (n) đạt giá trị lớn nhất chính là quan sát được sinh ra.
Quay trở lại định nghĩa về phân bố hậu nghiệm population, giả sử chúng ta quan sát một tập hợp X gồm α điểm dữ liệu độc lập và đồng nhất theo phân phối population F, tức là X ∼ F α, trong đó α là siêu tham số cần được tinh chỉnh Phân phối hậu nghiệm p(z, Θ|X) trở thành một hàm ngẫu nhiên của dữ liệu, và giá trị kỳ vọng của phân phối này được gọi là phân bố hậu nghiệm population.
Chú ý rằng phân phối này không phải là một hàm của dữ liệu quan sát được, mà là một hàm của phân phối population F với kích thước dữ liệu α.
Bài toán hiện tại là xấp xỉ phân phối hậu nghiệm population từ dòng dữ liệu liên tục của phân phối F α Tương tự như phương pháp VB (gọi là VB cố điển), PVB là một phương pháp học sử dụng suy diễn biến phân để giải quyết vấn đề này cho các mô hình Bayesian Mục tiêu là tìm một phần phối biến phân q ∗ thuộc họ mũ nhằm tối thiểu hóa khoảng cách KL so với phân phối hậu nghiệm population, cụ thể là q ∗ (z, Θ) = argmin q.
Giống như phân phối hậu nghiệm population, hàm mục tiêu trên cũng là một hàm của phân phối population của α điểm dữ liệu, F α.
Trong khi VB cổ điển xấp xỉ phân phối hậu nghiệm bằng cách tối ưu hoá hàm ELBO như đề cập ở phần lý thuyết suy diễn biến phân:
Trong bài viết này, η đại diện cho tri thức tiên nghiệm của Θ, trong khi λ và φ là các tham số biến phân tương ứng của Θ và z Việc cực đại hóa hàm ELBO tương đương với việc cực tiểu hóa khoảng cách KL giữa q(z, Θ) và p(z, Θ|x) Hơn nữa, PVB tối ưu hóa một hàm mục tiêu tương tự, được gọi là F-ELBO, mà F-ELBO là kỳ vọng của ELBO dưới phân phối population của dữ liệu.
Mục tiêu của chúng ta là xác định giá trị của tham số biến phân toàn cục λ nhằm tối ưu hóa hàm F-ELB0 Bằng cách biểu diễn tham số biến phân cục bộ φ theo λ, tức là φ(λ), chúng ta có thể chuyển đổi F-ELBO thành một hàm của biến λ.
Tuy nhiên nếu chúng ta cóφ i (λ) là giá trị của φ i khi cực đại hoá hàm F-ELBO với λ cho trước, thi có thể viết gọn công thức trên như sau:
Để tối đa hóa hàm F-ELBO trên toàn bộ dữ liệu {X i} α i=1, các tác giả áp dụng phương pháp tối ưu hóa ngẫu nhiên với gradient tự nhiên, cụ thể là phương pháp tăng dần gradient tự nhiên ngẫu nhiên (stochastic natural gradient ascent) Hàm này được biểu diễn qua công thức Eq(z i |φ i (λ)) [log p(z i , X i | Θ) − log q(z i | φ i )].
Thuật toán gradient ngẫu nhiên (stochastic gradient) cập nhật mô hình không dựa trên toàn bộ dữ liệu mà chỉ trên từng minibatch Mỗi minibatch B được sinh ra từ phân phối population F α với kích thước batchsize nhất định.
|B| α, chúng ta xấp xỉ nhiễu cho natural gradient trên dữ liệu của minibatch này bằng cách nhân thông kê đủ T (z i , X i ) với đại lượng |B| α , tức là:
Với mô hình LDA, đẳng thức trên có thể viết dưới dạng tường minh:
X n=1 φ k dn I [w dn = w j ] = ˆ λ kj − λ kj (28) trong đó λ ˆ kj = η + |B| α P d∈B
Trong quá trình cập nhật thông tin học được tại mỗi minibatch, thuật toán sử dụng phương pháp Stochastic natural gradient ascent với công thức cập nhật cho minibatch thứ t như sau: λ t kj = λ t−1 kj + ρ t ∇ ˆ λ t−1 kj L F α (λ) = λ t−1 kj + ρ t (ˆ λ t kj − λ t−1 kj ) = (1 − ρ t )λ t−1 kj + ρ t λ ˆ t kj.
Theo lý thuyết tối ưu hoá ngẫu nhiên, khi chọn kích thước bước ρ t = (τ 0 + t) κ, ta có P∞ t=1 ρ t → ∞ và P∞ t=1 ρ 2 t < ∞ Điều này đảm bảo rằng thuật toán cập nhật sẽ hội tụ đến điểm tối ưu.
Từ đây chúng ta có phương pháp học PVB cho mô hình LDA được trình bày ở Thuật toán 3:
Thuật toán 3 Phương pháp học PVB cho LDA sử dụng dòng dữ liệu với các minibatch {D 1 , D 2 , , D t , } có kích thước batchsize B Các tham số đầu vào bao gồm η, α, τ 0 và κ, trong khi đầu ra của thuật toán là tham số biến phân toàn cục λ.
Khởi tạo ngẫu nhiên λ = λ 0 for t = 1,2, ,T, do
Nhận dữ liệu ở minibatch thứ t là D t
*Bước suy diễn biến cục bộ cho từng văn bản* for mỗi văn bản d trong D t do
Khởi tạo γ d một giá trị bất kỳ repeat φ dnk ∝ exp{Eq [log θ dk ] +Eq [log β kw dn ]} γ dk = α +PN d n=1 φ dnk until K 1 PK k=1 | Sự thay đổi trong γ d |< 10 −5 end for
*Bước cập nhật tham số toàn cục*
∀(k, j), λ t kj = (1 − ρ t )λ t−1 kj + ρ t λ ˆ t kj end for
Mạng đồ thị nhân chập
Trong phần này tôi sẽ trình bày về mạng đồ thị nhân chập, hiện tại mạng đồ thị nhân chập được chia thành hai lớp chính là:
Phương pháp dựa trên phổ sử dụng đồ thị nhân chập để xử lý tín hiệu đồ thị, nhằm loại bỏ tiếng ồn hiệu quả Tuy nhiên, việc phân tách ma trận trong phương pháp này đòi hỏi chi phí tính toán khá lớn.
Đồ thị nhân chập theo cách tiếp cận không gian được định nghĩa thông qua việc lan truyền thông tin, dựa vào các mối quan hệ giữa các từ của các đỉnh lân cận.
Tương tự như nghiên cứu của Kipf và Welling (2017), chúng ta xem xét đồ thị G được biểu diễn bằng ma trận kề A có kích thước n × n, với n là số đỉnh của đồ thị Ma trận Laplacian chuẩn hóa của đồ thị được định nghĩa là L = I n − D −1 2 AD −1 2, trong đó D là ma trận đường chéo biểu diễn bậc của các đỉnh Ma trận L là đối xứng và bán xác định dương, cho phép phân tách phổ dưới dạng L = U ΛU T, với U là ma trận vector riêng và Λ là ma trận đường chéo chứa các trị riêng Trong xử lý tín hiệu đồ thị, tín hiệu x được biểu diễn như một vector, trong đó x i là giá trị tại đỉnh thứ i Biến đổi Fourier đồ thị của tín hiệu x được định nghĩa là x ˆ = F (x) = U T x, với biến đổi ngược là x = F −1 (ˆ x) = U x ˆ Biến đổi Fourier này chiếu tín hiệu lên không gian trực chuẩn với các vector riêng của ma trận L, do đó x = P i x ˆ i u i Đồ thị nhân chập của tín hiệu x với bộ lọc g được định nghĩa là x ∗ g = F −1 (F (x) F (g)).
Với là phép nhân element-wise Đặt g θ = diag(U T g)thì đồ thị nhân chập có thể viết dưới dạng: x ∗ g θ = U g θ U T x
Với g θ là một hàm của các giá tri riêng của ma trân L Sự khác biệt giữa các phương pháp là chọn hàm g θ như thế nào.
Theo [Irion and Saito, 2015], hàm g θ (Λ) được xấp xỉ bằng chuỗi Chebyshev bậc K, cụ thể là g θ = PK i=0 θ i T i ( ˜ Λ), với Λ = 2 ˜ λ Λ max − I n, trong đó λ max là giá trị riêng lớn nhất của L Vector θ ∈ R K đại diện cho các hệ số Chebyshev, và chuỗi Chebyshev được định nghĩa đệ quy với công thức: T k (x) = 2xT k−1 − T k−2 (x), T 0 (x) = 1, T 1 (x) = x Từ đó, đồ thị nhân chập có thể được viết lại dưới dạng: x ∗ g θ = U.
Trong dạng tuyến tính của đồ thị nhân chập, ta giả sử K=1 và λ max = 2 thì đồ thị nhân chập có thể viết lại dưới dạng: x ∗ g θ = θ 0 x + θ 1 (L − I n )
= θ 0 x − θ 1 D −1 2 AD −1 2 x Để tránh tăng số lượng tham số cũng như vấn đề over-fitting thì GCN giả xử rằng θ = θ 0 = −θ 1 do đó ta có: x ∗ g θ = θ(I n + D −1 2 AD −1 2 )x
Sử dụng kỹ thuật chuẩn hóa I n + D −1 2 AD −1 2 thành D ˜ −1 2 A ˜ D ˜ −1 2 với A ˜ = A + I n và
D ˜ ii =Pn j A ˜ ij Tổng quát hóa với dữ liệu X ∈R n×C với C là số chiều của vector biểu diễn cho từng đỉnh và F bộ lọc thì ta có:
Với Θ ∈ R C×F là ma trận tham số của các bộ lọc Z ∈ R N ×F là ma trận biểu diễn của các đỉnh (mỗi đỉnh được biểu diễn bằng một vector F chiều).
Xét một mô hình linh hoạt f(X, A) để lan truyền thông tin hiệu quả trên đồ thị thì GCN hai tầng được tính như sau:
Z = f(X, A) = sof tmax( ˆ AReLU( ˆ AXW (0) )W (1) )Trong đó A ˆ = ˜ D −1 2 A ˜ D ˜ −1 2 được tiền xử lý trước.
Hình 5: Mô hình minh họa GCN.
3 Graph Convolutional Topic Model (GCTM)
Trong chương này, chúng tôi giới thiệu mô hình đề xuất và cơ chế cân bằng giữa tri thức cũ và mới, đồng thời phát triển phương pháp học cho mô hình trong môi trường dòng dữ liệu Cuối cùng, chúng tôi sẽ thảo luận về những lợi thế của mô hình và cách mà mô hình này giải quyết các thách thức hiện tại.
Hình 6: Mô hình đồ thị biểu diễn cho GCTM
Mô hình đề xuất
Trong bài viết này, chúng tôi sẽ trình bày cách tích hợp mạng đồ thị nhân chập (GCN) [Kipf và Welling, 2017] vào mô hình LDA nhằm khai thác đồ thị tri thức.
Đồ thị tri thức G = (V, E) bao gồm tập các đỉnh V tương ứng với từ vựng và tập các cạnh E đại diện cho mối quan hệ giữa các từ như đồng nghĩa và trái nghĩa Mạng đồ thị nhân chập được sử dụng để học biểu diễn các đỉnh trong đồ thị, tương ứng với việc biểu diễn các từ Ma trận kề A (A ∈ R V × V) được sử dụng để biểu diễn đồ thị G.
Ma trận X (X ∈ R V × M) biểu diễn các từ, trong đó mỗi hàng X_i (i ∈ {1, , V}) là một vector M-chiều tương ứng với từ thứ i Trong mạng nơ-ron tích chập đồ thị (GCN), mỗi tầng sử dụng các mối quan hệ giữa các đỉnh (từ) để học biểu diễn cho tất cả các đỉnh Biểu diễn của các đỉnh (từ) ở tầng thứ l được ký hiệu là h_l và được tính toán theo công thức h_l = f.
Với A ˜ = A + I V (trong đó I V là ma trận đường chéo), D ˜ ii = P j A ˜ ij, và W ˜ l = {W l , b l } là ma trận trọng số của tầng thứ l Ma trận h 0 biểu diễn X và hàm hoạt động f thường sử dụng hàm ReLU Ở tầng cuối cùng, số chiều biểu diễn cho từng từ được gán bằng K, tương ứng với số lượng chủ đề K trong LDA, với h L là một ma trận.
Mỗi vector K-chiều của ma trận h L đại diện cho từ v, và ma trận h L sẽ được chuyển vị để phù hợp với kích thước của ma trận chủ đề β (K × V) Quá trình này được tóm gọn thành công thức h = GCN (h 0 , G; ˜ W), trong đó h 0 là biểu diễn khởi tạo của các đỉnh (từ), W ˜ là ma trận trọng số của GCN, và h là kết quả đầu ra, với h là chuyển vị của h L.
Cần thiết lập cơ chế liên kết giữa β và h thông qua hàm F (β, h; ρ), trong đó β và h là đầu vào, còn ρ là tham số Để đơn giản hóa, hàm tuyến tính được áp dụng nhằm kết hợp β và h cho từng chủ đề k Phân phối chủ đề β ˜ k được tạo ra bằng hàm softmax, cụ thể cho từng chủ đề k (k ∈ {1, , K}) như sau: β ˜ k = softmax(ρ k β k + (1 − ρ k )h k ).
Trong quá trình huấn luyện mô hình, các tham số cần học bao gồm β, W ˜ và ρ k, với ρ k là một số đề cân bằng β k và h k Để duy trì ảnh hưởng của mô hình đã học từ minibatch trước đó đến minibatch hiện tại, chúng ta áp dụng phương pháp đệ quy Bayesian Giả sử rằng hai mô hình liên tiếp được kết nối thông qua hàm dịch chuyển, với p(β t |β t−1 , σ β ) = N (β t ; β t−1 , σ 2 β I) và p( ˜ W t | W ˜ t−1 , σ w ) = N ( ˜ W t ; ˜ W t−1 , σ w 2 I).
Với σ β và σ w là các tham số liên quan đến sự thay đổi của β t và W ˜ t xung quanh β t−1 và W ˜ t−1
Quá trình sinh của từng văn bản (Hình 6) trong một minibatch t được mô tả như sau:
4 Tính phân phối chủ đề: β ˜ t = sof tmax(ρ t β t + (1 − ρ t )h t )) (30)
Trong mỗi văn bản d, tỷ lệ chủ đề được sinh ra theo phân phối Dirichlet với tham số α Đối với từ thứ n trong văn bản d, chủ đề cho từ này được xác định bằng cách sinh từ phân phối Multinomial dựa trên tỷ lệ chủ đề θ d Sau đó, từ w n được sinh ra từ phân phối Multinomial tương ứng với chủ đề z n.
Quá trình học của GCTM
Ở minibatch t, các văn bản mới đến và được tích lũy thành tập các văn bản D. Phân phối hậu nghiệm p(β t , W ˜ t |D t , β t−1 , W ˜ t−1 , G, X, ρ t , α, σ β , σ w ) được biểu diễn như sau: log p(β t , W ˜ t |D t , β t−1 , W ˜ t−1 , G, X, ρ t , α, σ β , σ w )
GCTM được học bằng cách tối đa hóaL(Công thức 31) Thayβ ˜ t = sof tmax(ρ t β t−1 +
Do không thể tính trực tiếp p(D t | β ˜ t , α), chúng tôi áp dụng suy diễn biến phân theo phương pháp của Blei et al (2003) để suy diễn các biến cục bộ z và θ Tiếp theo, chúng tôi sử dụng bất đẳng thức Jensen để thu được ELBO.
2σ w 2 || W ˜ t − W ˜ t−1 || 2 F + E q(θ,z) [log p(D t , θ, z| β ˜ t , α)] − E q(θ,z) [log q(θ, z)] = ELBO Với q(θ, z) là phân phối biến phân được phân tách thành: q(θ, z) =
Trong nghiên cứu này, γ và φ được xác định là các tham số biến phân, trong khi α, σ β và σ w được giữ cố định Mục tiêu là tối đa hóa ELBO thông qua các biến cục bộ (γ và φ) cũng như các biến toàn cục (ρ t, β t và W ˜ t) Theo phương pháp của Blei et al (2003), các biến cục bộ được cập nhật bằng công thức γ dk ← α k +.
X n=1 φ dnk for k = 1, , K (33) φ dnk ∝ exp(E q [log θ dk ] +
Với I [ã] là hàm indicator và E q [log θ dk ] = ψ(γ dk ) − ψ(PK k=1 (γ dk )) (ψ là hàm digamma).
Với biến toàn cục, biểu diễn ELBO theo các tham số ρ t , β t , và W ˜ t :
Với β ˜ t = sof tmax(ρ t β t−1 + (1 − ρ t )GCN(X, G; ˜ W t )) Sử dụng thuật toán Adam [Kingma and Ba, 2014] để tối đa hóa ELBO(ρ t , β t , W ˜ t ).
Toàn bộ quá trình học GCTM được biểu diễn trong Thuật toán 4.
Thuật toán 4 Thuật toán học của GCTM Đầu vào : Đồ thị G, siêu tham số α, dòng dữ liệu {D 1 , D 2 , } Đầu ra: W , β, ρ ˜
Khởi tạo ngẫu nhiên W ˜ 0 , β 0 for t = 1, 2, 3, với dữ liệu D t do
Tính β ˜ như công thức (30) for với mỗi văn bản d trong D t do
Suy diễn γ d và φ d như công thức(33) và (34) cho đến khi hội tụ end for
Cập nhật W ˜ t , β t , ρ t sử dụng thuật toán [Kingma and Ba, 2014] để tối đa hàm (35) end for
Nhận xét
Trong bài viết này, chúng tôi sẽ trình bày về lợi thế của GCTM và so sánh với các phương pháp khác cũng như các mô hình giải quyết thách thức hiện tại GCTM nổi bật trong việc khai thác tri thức đồ thị từ dòng dữ liệu một cách hiệu quả Đặc biệt, GCN là một mô hình mạnh mẽ trong việc mã hóa mối quan hệ giữa các cạnh trong đồ thị, cho phép học hỏi các đồ thị phù hợp với ma trận chủ đề trong LDA Nhờ đó, mô hình đề xuất có khả năng làm giàu thông tin cho quá trình học chủ đề một cách hiệu quả hơn Ngược lại, nhiều phương pháp học hiện tại thường loại bỏ tri thức bên ngoài, trong khi KPS [Anh et al., 2017] chỉ sử dụng tri thức dưới dạng vector với những hạn chế nhất định.
Phương pháp đề xuất tự động cân bằng tri thức cũ và đồ thị tri thức trong mỗi minibatch bằng cách xây dựng một hàm tuyến tính, giúp tổng hợp hai loại tri thức mà không cần điều chỉnh thủ công như phương pháp KPS Điều này đặc biệt hữu ích trong môi trường dòng dữ liệu, nơi việc tìm kiếm tham số tối ưu trở nên khó khăn.
Phương pháp đề xuất có khả năng ứng phó hiệu quả với hiện tượng concept drift khi dữ liệu liên tục được cập nhật, nhờ vào việc tích hợp tri thức mới và cơ chế tự động cân bằng giữa tri thức cũ và đồ thị tri thức Việc sử dụng tri thức toàn diện và liên quan đến các concept mới là một giải pháp hữu hiệu cho vấn đề này Mặc dù không thể đảm bảo tri thức luôn có thể giải quyết thông tin về các concept, nhưng tri thức đồ thị như Wordnet hoặc các mô hình đã được huấn luyện từ dữ liệu lớn có thể hỗ trợ Khi một chủ đề mới xuất hiện, thường có một tập từ mới để mô tả, và các từ này cùng mối quan hệ của chúng đã tồn tại trong đồ thị tri thức Do đó, việc khai thác đồ thị tri thức cho phép mô hình học hỏi các chủ đề mới từ văn bản mới Ngược lại, nhiều phương pháp chỉ dựa vào tri thức cũ từ các minibatch trước, dẫn đến việc cản trở khả năng thích nghi nhanh chóng với dữ liệu mới HPP [Masegosa et al., 2017] cũng có cơ chế tổng hợp tri thức cũ và tri thức khởi tạo, giúp đối phó với concept drift khi tri thức đủ chất lượng và có cơ chế quên tri thức cũ Phương pháp đề xuất của chúng tôi áp dụng cơ chế tương tự nhưng tập trung vào việc khai thác đồ thị tri thức.
Phương pháp đề xuất có khả năng giải quyết vấn đề dữ liệu thưa và nhiễu bằng cách tận dụng tri thức từ đồ thị tri thức, vốn chứa nhiều thông tin và quan hệ hữu ích giữa các từ Việc này không chỉ bổ sung ngữ cảnh cho dữ liệu ngắn mà còn làm tăng độ chính xác cho dữ liệu nhiễu, từ đó cải thiện hiệu quả hoạt động của mô hình.
Phương pháp đề xuất có khả năng học cả GCN và LDA đồng thời trong môi trường dòng dữ liệu, cho phép huấn luyện trên mô hình lai giữa mô hình xác suất và mạng nơ-ron.
Bảng 1: Số liệu thống kê của các tập dữ liệu.
Dataset Vocab Training Evaluation words/doc
4 Đánh giá kết quả thực nghiệm
Trong chương này, chúng tôi sẽ đánh giá hiệu năng của mô hình đề xuất thông qua hai chỉ số Log Predictive Probability (LPP) và Normalized Pointwise Mutual Information (NPMI) Chúng tôi sẽ áp dụng đánh giá này trên hai kịch bản: dữ liệu mô phỏng không có nhãn thời gian và dữ liệu thực tế có nhãn thời gian Bên cạnh đó, chúng tôi cũng sẽ phân tích chi tiết tác động của các tham số đến hiệu suất của mô hình.
Dữ liệu
Chúng tôi đánh giá thực nghiệm trên 2 loại dữ liệu là dữ liệu ngắn và dữ liệu dài.
1 NYT-title 2 : Dữ liệu được thu thập từ trang The New York Times.
2 Yahoo-title 3 : Dữ liệu được thu thập từ bộ Yahoo Question Answers.
4 Irishtimes 4 : Dữ liệu được thu thập từ trang The Irish Times.
5 Agnews-title: Dữ liệu được thu thập từ các nguồn News.
2 http://archive.ics.uci.edu/ml/datasets/Bag+of+Words
4 https://www.kaggle.com/therohk/ireland-historical-news/
6 Twitter 5 : Dữ liệu được thu thập trên trang mạng Twitter.
1 Agnews 6 : Dữ liệu được thu thập từ các nguồn News.
TagMyNews (TMN) 7 thu thập dữ liệu từ các nguồn tin tức, sử dụng hai loại tri thức để đánh giá mô hình Tri thức đầu tiên đến từ con người, cụ thể là WordNet, trong đó mỗi từ trong bộ từ vựng được xem như một đỉnh trong đồ thị, với các cạnh được tạo ra dựa trên các mối quan hệ đồng nghĩa hoặc trái nghĩa, và trọng số cạnh được tính bằng độ tương đồng Wu-Palmer Tri thức thứ hai là từ mô hình Word2vec, nơi mỗi đỉnh cũng tương ứng với một từ trong bộ từ vựng; từ đó, 200 đỉnh có độ tương đồng cao nhất được chọn làm đỉnh kề, với trọng số cạnh là giá trị độ đo tương đồng cosine giữa hai đỉnh.
Phương pháp cơ sở: Trong luận văn sẽ so sánh đánh giá mô hình đề xuất với
3 mô hình SOTA hiện nay:
• Population variational Bayes (PVB) [McInerney et al., 2015].
• Streaming variational Bayes (SVB) [Broderick et al., 2013].
• Power prior (SVB-PP) [Masegosa et al., 2017].
• GCTM-WN: Sử dụng đồ thị tri thức từ WordNet.
• GCTM-W2V: Sử dụng đồ thị tri thức từ Word2vec.
6 https://course.fast.ai/datasets
7 http://acube.di.unipi.it/tmn-dataset/
9 http://nlp.stanford.edu/projects/glove/
Tham số mô hình cơ sở LDA được thiết lập với α = 0.01, η = 0.01 và K = 50 cho các tập dữ liệu Agnews, Agnews-title, TMN, TMN-title, trong khi K = 100 được áp dụng cho Yahoo-title, NYT-title và Irishtimes.
In this study, we utilize the GCTM model with parameters σ β = σ w = σ set to values of {0.1, 1, 10} The evaluation metrics employed include Log Predictive Probability (LPP) as outlined by Hoffman et al (2013) and Normalized Pointwise Mutual Information (NPMI) as discussed by Lau et al (2014).
Log predictive probability (LPP) là một chỉ số quan trọng để đánh giá khả năng dự đoán của mô hình Với tham số mô hình β được tối ưu từ dữ liệu huấn luyện, mỗi văn bản trong tập kiểm tra được chia thành hai phần ngẫu nhiên w obs và w ho theo tỷ lệ 80:20 LPP kiểm tra khả năng dự đoán các từ w ho dựa trên các từ w obs trong từng văn bản Xác suất dự đoán được tính toán bằng công thức p(w ho | w obs, β) = Y w∈w ho p(w | w obs, β).
Với θ obs được suy diễn từ w obs và tham số mô hình được học trên dữ liệu huấn luyện β LPP của văn bản d được tính như sau:
Với |w ho |là số từ trongw ho LPP của tập dữ liệu kiểm tra được tính bằng trung bình cộng của tất cả LPP của từng văn bản.
Normalized Pointwise Mutual Information (NPMI) là một chỉ số đánh giá tính ngữ nghĩa và sự gắn kết trong từng chủ đề của mô hình Sau khi hoàn tất quá trình huấn luyện trên tập dữ liệu, chúng ta sẽ chọn ra top 20 từ có xác suất xuất hiện cao nhất trong mỗi chủ đề k (w k = {w k 1 , w k 2 , , w k 20}) NPMI cho chủ đề k được tính toán dựa trên các từ này.
−1 + 2 log D − log D(w k i ) − log D(w j k ) log D − log(D(w k i , w j k ) + 10 −2 )
Với D là tổng số văn bản trong tập dữ liệu huấn luyện, D(w k i) đại diện cho số văn bản chứa từ w k i, trong khi D(w i k, w k j) là số văn bản chứa cả hai từ w k i và w k j Giá trị NPMI của mô hình được tính bằng cách lấy trung bình cộng NPMI của từng chủ đề K.
Đánh giá thực nghiệm trên dữ liệu không có nhãn thời gian
SVB SVB-PP PVB GCTM-WN GCTM-W2V
Hình 7: Hiệu năng của các phương pháp với độ đo LPP.
Bảng 2: Kết quả của các phương pháp với độ đo NMPI.
Dataset GCTM-WN GCTM-W2V SVB SVB-PP PVB
Do hầu hết các tập dữ liệu thiếu nhãn thời gian, kịch bản đánh giá sẽ được mô phỏng dựa trên nghiên cứu của Broderick et al (2013) và McInerney et al (2015) Đánh giá được thực hiện trên 6 bộ dữ liệu: TMN, TMN-title, Agnews, Agnews-title, Yahoo-title, và NYT-title Mỗi bộ dữ liệu sẽ được chọn ngẫu nhiên một tập kiểm tra, với điều kiện mỗi văn bản có độ dài từ 5 từ trở lên Các văn bản còn lại sẽ được hoán vị và chia thành các minibatch với kích thước cố định trong quá trình huấn luyện, cụ thể là batchsize 500 cho TMN và TMN-title, 1000 cho Agnews và Agnews-title, và 5000 cho Yahoo-title và NYT-title Thông tin chi tiết về các bộ dữ liệu được trình bày trong Bảng 1 Đối với độ đo LPP, phương pháp đề xuất được thể hiện trong Hình 7.
Phương pháp WN và GCTM-W2V cho kết quả vượt trội hơn so với các phương pháp cơ sở nhờ vào việc sử dụng đồ thị tri thức, điều này cho thấy đồ thị tri thức cung cấp thông tin quý giá giúp cải thiện hiệu suất Mặc dù ở một số minibatch ban đầu, phương pháp đề xuất có kết quả thấp hơn do số lượng tham số lớn cần nhiều dữ liệu hơn, nhưng nó vẫn hoạt động hiệu quả trong trường hợp dữ liệu ngắn, điều mà các phương pháp cơ sở không làm được Sự cải thiện của GCTM trên dữ liệu ngắn (Agnews-title và TMN-title) rõ rệt hơn so với dữ liệu bình thường (Agnews và TMN) Kết quả NPMI cho thấy phương pháp đề xuất vượt trội hơn hẳn so với các phương pháp cơ sở khi sử dụng đồ thị tri thức từ Wordnet và Word2vec, nhờ vào việc các đồ thị này cung cấp thông tin ngữ nghĩa và ngữ cảnh giúp mô hình LDA học được các chủ đề có ý nghĩa hơn Đặc biệt, dữ liệu thông thường thường chứa nhiều cặp từ đồng xuất hiện hơn, dẫn đến hiệu suất tốt hơn trên các bộ dữ liệu này Cuối cùng, sự khác biệt giữa các đồ thị tri thức cũng ảnh hưởng đến hiệu suất, với Word2vec cải thiện khả năng phán đoán tốt hơn, trong khi Wordnet lại mang lại hiệu quả tốt hơn về mặt ngữ nghĩa.
Đánh giá thực nghiệm trên dữ liệu có nhãn thời gian
SVB SVB-PP PVB GCTM-WN GCTM-W2V
Hình 8: Hiệu năng của các phương pháp trên tập dữ liệu Irishtimes Hình (a) kết quả với dữ liệu thực tế, Hình (b) kết quả với dữ liệu mô phỏng
Luận văn chỉ thực nghiệm với bộ dữ liệu Irishtimes do chỉ có thông tin về thời gian Các văn bản trong cùng một tháng được nhóm lại thành một minibatch Trong quá trình huấn luyện, mô hình học dữ liệu theo các tháng liên tiếp và sử dụng tháng tiếp theo để đo khả năng dự đoán Ngoài ra, luận văn cũng thực hiện đánh giá trên dữ liệu mô phỏng với kích thước minibatch cố định là 5000.
Bảng 3: Hiệu năng của các phương pháp với độ đo NPMI trên tập dữ liệu
Dataset GCTM-WN GCTM-W2V SVB SVB-PP PVB
Dữ liệu mô phỏng 0.002 0.002 -0.068 -0.072 -0.065 tập dữ liệu kiểm tra là 10000 văn bản.
Kết quả về khả năng dự đoán của mô hình được trình bày trong Hình 8, với Hình 8(a) thể hiện kịch bản thực tế và Hình 8(b) cho kịch bản mô phỏng Cả hai kịch bản đều cho thấy phương pháp đề xuất vượt trội hơn so với các phương pháp cơ sở Tuy nhiên, trong kịch bản thực tế, kết quả của phương pháp đề xuất có sự giao động lớn hơn do dữ liệu kiểm tra thay đổi liên tục theo tháng, trong khi kịch bản mô phỏng chỉ sử dụng một số văn bản để đánh giá trong quá trình học Đặc biệt, theo độ đo ngữ nghĩa được nêu trong Bảng 3, phương pháp đề xuất cũng cho thấy sự cải thiện đáng kể so với các phương pháp cơ sở.
Đánh giá thực nghiệm trên dữ liệu nhiễu
SVB SVB-PP PVB GCTM-WN GCTM-W2V
Trong phần này, chúng tôi sẽ đánh giá hiệu năng của các phương pháp trên hai bộ dữ liệu nhiễu, bao gồm Yahoo-title và Twitter datasets Bộ dữ liệu Twitter được thu thập từ mạng xã hội, nhằm phân tích ảnh hưởng của nhiễu đến kết quả.
Bảng 4: Hiệu năng của các phương pháp trên dữ liệu nhiễu với độ đo NPMI
Dataset GCTM-WN GCTM-W2V SVB SVB-PP PVB
Twitter có sự biến động nhẹ với các chỉ số -0.009, -0.010, -0.062, -0.060 và -0.047 Dữ liệu từ Yahoo được thu thập từ diễn đàn hỏi đáp, cho thấy tính không trang trọng và chứa nhiều nhiễu Điều này khiến cho dữ liệu này trở thành công cụ hữu ích để đánh giá các phương pháp xử lý dữ liệu nhiễu.
Hình 9 và Bảng 4 đã chỉ ra rằng hiệu năng của các phương pháp trong việc dự đoán mô hình và ngữ nghĩa của các chủ đề học được bị ảnh hưởng tiêu cực bởi dữ liệu nhiễu, dẫn đến thiếu hụt thông tin và gây nhầm lẫn Kết quả cho thấy LPP của các phương pháp cơ sở giảm khi có thêm dữ liệu, trong khi NPMI cũng không đạt hiệu quả tốt Tuy nhiên, việc tích hợp tri thức đồ thị vào phương pháp đề xuất đã cho kết quả vượt trội hơn so với các phương pháp cơ sở trên cả hai chỉ số đánh giá Điều này chứng tỏ rằng việc sử dụng tri thức đồ thị là một giải pháp hiệu quả để giải quyết vấn đề dữ liệu ngắn và thưa.
Đánh giá thực nghiêm với concept drift và catastrophic forgetting 43
Concept drift là một khái niệm quan trọng trong việc đánh giá các phương pháp xử lý khi gặp phải sự thay đổi trong dữ liệu Trong luận văn này, chúng tôi thực hiện các mô phỏng concept drift trên dữ liệu Irishtimes, bao gồm các văn bản thuộc 6 lớp khác nhau như "Tin tức", "Ý kiến", và "Thể thao" Những mô phỏng này giúp phân tích hiệu quả của các phương pháp ứng phó với sự thay đổi trong cấu trúc và đặc điểm của dữ liệu theo thời gian.
Concept drift được mô phỏng bằng cách chia dữ liệu thành các minibatch, trong đó các văn bản trong mỗi minibatch phải thuộc cùng một lớp và các minibatch này sẽ được sắp xếp liên tiếp trong quá trình huấn luyện Để giải quyết vấn đề dữ liệu không cân bằng giữa các lớp, kích thước mỗi minibatch được cố định là 2000 Dữ liệu từ minibatch sau sẽ được sử dụng làm dữ liệu kiểm tra cho bước hiện tại, và concept drift sẽ xuất hiện khi dữ liệu mới thuộc về một lớp khác Do đó, mô hình cần có khả năng thích nghi nhanh chóng với dữ liệu của lớp mới.
SVB SVB-PP GCTM-WN PVB
Hình 10 thể hiện hiệu năng của các phương pháp trong việc đối phó với hiện tượng concept drift (Kịch bản 1) khi một tình huống mới xuất hiện Luận văn đã xây dựng hai kịch bản với thứ tự các lớp khác nhau nhằm phân tích hiệu quả của từng phương pháp.
Số lượng văn bản trong lớp "News" nhiều hơn nhiều so với các lớp khác Thứ tự các lớp lần lượt là: trong kịch bản 1 ( "News", "Opinion", "Sport", "Lifestyle",
"Business", "Culture") và kịch bản 2 ("Sport", "Opinion", "News", "Lifestyle",
Hình 10 và 11 cho thấy hiệu năng của các phương pháp trong hai kịch bản khác nhau, với mỗi hình gồm 5 hình nhỏ, trong đó 4 hình nhỏ thể hiện thông tin khi xảy ra concept drift và 1 hình chính tổng hợp kết quả toàn bộ dữ liệu Kết quả từ hình chính của cả hai Hình 10 và 11 chỉ ra rằng phương pháp đề xuất vượt trội hơn so với các phương pháp cơ sở Nhờ cơ chế cân bằng, phương pháp đề xuất và SVB-PP đã giảm thiểu ảnh hưởng của tri thức cũ từ dữ liệu trước, đồng thời hài hòa với tri thức từ dữ liệu lớp mới Kết quả cho thấy tri thức đồ thị đã cải thiện hiệu suất của phương pháp đề xuất so với SVB-PP Hơn nữa, các hình nhỏ cho thấy phương pháp đề xuất có sự giảm nhẹ trong khi các phương pháp cơ sở giảm mạnh, và sau một vài minibatch, phương pháp đề xuất đạt được kết quả ổn định Điều này chứng tỏ rằng phương pháp đề xuất có khả năng thích nghi nhanh chóng với lớp mới và ứng phó hiệu quả với concept drift.
SVB SVB-PP GCTM-WN PVB
Hình 11: Hiệu năng của các phương pháp khi đương đầu với concept drift (Kịch bản 2)
News Opinion Sport Lifestyle Business Culture
SVB SVB -PP PVB GCTM-WN GCTM-W2V
Hình 12: Hiệu năng của các phương pháp đối với hiện tượng catastrophic for- getting (Kịch bản 1) drift.
Hiện tượng quên thảm khốc (catastrophic forgetting) là vấn đề xảy ra khi các phương pháp học máy mất đi tri thức đã học được khi tiếp nhận dữ liệu mới Điều này thường được đánh giá thông qua các bài toán liên tục (continual learning), nơi mà khả năng duy trì và áp dụng kiến thức cũ trong khi học thêm thông tin mới trở thành một thách thức lớn.
Sport Opinion News Lifestyle Business Culture
SVB SVB -PP PVB GCTM-WN GCTM-W2V
Hình 13 trình bày hiệu năng của các phương pháp đối với hiện tượng quên thảm khốc (catastrophic forgetting) trong kịch bản 2, theo nghiên cứu của Nguyen et al (2018), Kirkpatrick et al (2017) và Ritter et al (2018) Để đánh giá vấn đề quên tri thức, hai kịch bản thử nghiệm tương tự như kịch bản concept drift đã được sử dụng, với mỗi lớp được trích xuất 2000 văn bản làm dữ liệu đánh giá Sau khi hoàn tất quá trình huấn luyện trên toàn bộ dữ liệu của mỗi lớp, giá trị trung bình LPP trên tất cả dữ liệu đánh giá của các lớp đã học được tính toán Giá trị trung bình LPP cao hơn cho thấy phương pháp có khả năng chống lại vấn đề quên tri thức hiệu quả hơn.
Hình 12 và Hình 13 thể hiện giá trị trung bình LPP của các phương pháp sau khi hoàn thành huấn luyện từng lớp Kết quả cho thấy phương pháp đề xuất vẫn vượt trội hơn so với các phương pháp khác trong hầu hết các lần đánh giá Tuy nhiên, phương pháp đề xuất lại có hiệu suất kém hơn so với các phương pháp cơ sở ở một số lớp nhất định.
Phương pháp đề xuất trong nghiên cứu cho thấy khả năng thích nghi nhanh với concept drift và giảm thiểu hiện tượng catastrophic forgetting so với các phương pháp cơ sở, đặc biệt là trong các lĩnh vực như thể thao, tin tức và lối sống Điều này cho thấy rằng phương pháp này vượt trội hơn trong việc giải quyết mâu thuẫn giữa tính linh hoạt và ổn định, mặc dù nó vẫn đối phó tốt hơn với concept drift hơn là với catastrophic forgetting.
Đánh giá thực nghiệm chi tiết
Làm giàu đồ thị Wordnet bằng cách biểu dùng biểu diễn
GCTM-WN GCTM-W2V GCTM-WN-W2V
Hình 14: Hiệu năng của GCTM-WN-W2V, GCTM-WN và GCTM-W2V.
Luận văn đã phát triển mô hình GCTM-WN-W2V bằng cách kết hợp đồ thị tri thức WordNet và biểu diễn từ Word2Vec, cho thấy hiệu quả vượt trội so với GCTM-WN và GCTM-W2V trong ba bộ dữ liệu: Yahoo-title, Agnews và TMN-title Hình 14 minh họa rằng GCTM-WN-W2V không chỉ tốt hơn mà còn đạt kết quả tương đương trên các tập dữ liệu khác Điều này chứng tỏ rằng việc khai thác biểu diễn của đỉnh trong đồ thị tri thức đã cải thiện đáng kể hiệu quả của GCTM.
Đánh giá chi tiết của GCTM-WN với các tham số
Trong phần này, chúng tôi sẽ đánh giá chi tiết các tham số của phương pháp GCTM liên quan đến σ và số lượng chủ đề K, sử dụng kịch bản cố định với kích thước lô là 1000 trên hai tập dữ liệu Agnews và Agnews-title bằng cách áp dụng độ đo LPP Đặc biệt, đánh giá chi tiết GCTM-WN với tham số σ cho thấy rằng khi K được cố định ở mức 100 và σ thay đổi, kết quả đánh giá cũng sẽ thay đổi theo các giá trị khác nhau của σ, điều này cho thấy ảnh hưởng của tham số này đến hiệu suất của mô hình.
Hình 15: Hiệu năng của GCTM-WN với các giá trị tham số σ
Hiệu năng của GCTM-WN với các giá trị tham số K của σ trên dữ liệu ngắn và bình thường cho thấy sự khác biệt rõ rệt GCTM-WN có xu hướng dao động nhiều hơn khi xử lý dữ liệu ngắn, trong khi σ = 0.1 (σ² = 0.01) lại dẫn đến hiệu năng thấp trên cả hai tập dữ liệu Agnews và Agnews-title Giá trị σ ảnh hưởng đến cách thức điều chỉnh biến toàn cục (β và W ˜) đối với minibatch tiếp theo, với giá trị σ nhỏ làm cho sự ràng buộc giữa các biến trở nên chặt chẽ hơn, gây khó khăn cho GCTM-WN trong việc học hỏi từ minibatch hiện tại Đánh giá chi tiết về GCTM-WN với tham số K cho thấy rằng khi σ = 1, kết quả LPP của GCTM-WN ổn định trên tập dữ liệu Agnews, trong khi trên tập dữ liệu Agnews-title, chỉ có K = 50 làm giảm một chút hiệu quả Thông tin từ các từ đồng xuất hiện giúp mô hình LDA giảm thiểu sự nhầm lẫn giữa các chủ đề, cho thấy GCTM-WN ít bị ảnh hưởng hơn trên dữ liệu thông thường so với dữ liệu ngắn.
Trong nghiên cứu này, chúng tôi giới thiệu một phương pháp mới kết hợp mạng đồ thị nhân chập vào mô hình chủ đề để khai thác đồ thị tri thức Phương pháp này cho phép học đồng thời mạng đồ thị nhân chập và mô hình chủ đề trong môi trường dòng dữ liệu, cho thấy tính linh hoạt trong ứng dụng cho các mô hình xác suất Các thử nghiệm đánh giá cho thấy phương pháp này hoạt động hiệu quả với dữ liệu ngắn và có khả năng thích ứng với sự thay đổi khái niệm (concept drift) Hơn nữa, phương pháp đề xuất vượt trội hơn so với các phương pháp cơ sở hiện tại về khả năng dự đoán và tính mạch lạc của các chủ đề.
[Alkhodair et al., 2018] Alkhodair, S A., Fung, B C., Rahman, O., and Hung,
P C (2018) Improving interpretations of topic modeling in microblogs Jour- nal of the Association for Information Science and Technology, 69(4):528–540.
[Anh et al., 2017] Anh, N D., Linh, N V., Anh, N K., and Than, K (2017). Keeping priors in streaming bayesian learning InAdvances in Knowledge Dis- covery and Data Mining: 21st Pacific-Asia Conference, PAKDD 2017, pages 247–258.
[Blei et al., 2003] Blei, D M., Ng, A Y., and Jordan, M I (2003) Latent dirichlet allocation Journal of Machine Learning Research, 3(Jan):993–1022.
[Broderick et al., 2013] Broderick, T., Boyd, N., Wibisono, A., Wilson, A C., and Jordan, M I (2013) Streaming variational bayes InAdvances in Neural Information Processing Systems, pages 1727–1735.
[Chen et al., 2013] Chen, Z., Mukherjee, A., Liu, B., Hsu, M., Castellanos, M., and Ghosh, R (2013) Leveraging multi-domain prior knowledge in topic models In Twenty-Third International Joint Conference on Artificial Intelli- gence.
[Duc et al., 2021] Duc, A N., Linh, N V., Anh, N K., Nguyen, C H., and Than, K (2021) Boosting prior knowledge in streaming variational bayes. Neurocomputing, 424:143 – 159.
In their 2005 paper presented at the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05), Fei-Fei and Perona introduced a Bayesian hierarchical model designed for the learning of natural scene categories This innovative approach, detailed in volume 2, pages 524-531, contributes significantly to the field of computer vision by enhancing the understanding of scene categorization through probabilistic modeling techniques.
[Ha et al., 2019] Ha, C., Tran, V.-D., Van, L N., and Than, K (2019) Elimi- nating overfitting of probabilistic topic models on short and noisy text: The role of dropout International Journal of Approximate Reasoning, 112:85–104.
[Hoffman et al., 2013] Hoffman, M D., Blei, D M., Wang, C., and Paisley, J W.
(2013) Stochastic variational inference Journal of Machine Learning Re- search, 14(1):1303–1347.
Irion and Saito (2015) explore the field of applied and computational harmonic analysis specifically in the context of graphs and networks Their work is presented in the proceedings of the Wavelets and Sparsity XVI conference, published by the International Society for Optics and Photonics.
[Kingma and Ba, 2014] Kingma, D P and Ba, J (2014) Adam: A method for stochastic optimization In The International Conference on Learning Representations (ICLR).
[Kipf and Welling, 2017] Kipf, T N and Welling, M (2017) Semi-supervised classification with graph convolutional networks In The International Con- ference on Learning Representations (ICLR).
[Kirkpatrick et al., 2017] Kirkpatrick, J., Pascanu, R., Rabinowitz, N., Veness, J., Desjardins, G., Rusu, A A., Milan, K., Quan, J., Ramalho, T., Grabska- Barwinska, A., et al (2017) Overcoming catastrophic forgetting in neural networks Proceedings of the National Academy of Sciences, 114(13):3521– 3526.
In their 2014 paper, Lau et al explore the automatic evaluation of topic coherence and the quality of topic models Their research, presented at the 14th Conference of the European Chapter of the Association for Computational Linguistics, addresses the challenges in assessing how well topics generated by models align with human understanding The authors emphasize the importance of coherence in topic modeling, providing insights that can enhance the effectiveness of natural language processing applications.
[Le et al., 2018] Le, H M., Cong, S T., The, Q P., Van Linh, N., and Than,
K (2018) Collaborative topic model for poisson distributed ratings Inter- national Journal of Approximate Reasoning, 95:62–76.
[Le et al., 2016] Le, V., Phung, C., Vu, C., Linh, N V., and Than, K (2016). Streaming sentiment-aspect analysis In RIVF, pages 181–186.
Li et al (2016) presented a novel approach to topic modeling specifically designed for short texts, utilizing auxiliary word embeddings to enhance the accuracy and relevance of the results Their research was showcased at the 39th International ACM SIGIR Conference on Research and Development in Information Retrieval, where they demonstrated the effectiveness of their method in improving the understanding of concise textual data The findings highlight the potential of integrating word embeddings to better capture the semantic relationships in short-form content.
In their 2019 study, Li et al explored the integration of knowledge graph embedding into topic modeling using a hierarchical Dirichlet process This research was presented at the North American Chapter of the Association for Computational Linguistics conference, highlighting innovative approaches to enhance topic modeling techniques Their findings, detailed in pages 940-950 of the conference proceedings, contribute significantly to advancements in computational linguistics and human language technologies.
Lin et al (2012) introduced Feature LDA, a supervised topic model designed for the automatic detection of web API documentation from online sources Their research was presented at the International Semantic Web Conference, where they discussed the effectiveness of this model in enhancing the accessibility of web API documentation.
[Mai et al., 2016] Mai, K., Mai, S., Nguyen, A., Van Linh, N., and Than, K.
(2016) Enabling hierarchical dirichlet processes to work better for short texts at large scale In Pacific-Asia Conference on Knowledge Discovery and Data Mining, pages 431–442 Springer.
Masegosa et al (2017) present Bayesian models for data streams utilizing hierarchical power priors, contributing to advancements in machine learning methodologies Their work is included in the proceedings of the 34th International Conference on Machine Learning, edited by Precup and Teh, and spans pages 2334 to 2343 in the PMLR volume 70.
[McInerney et al., 2015] McInerney, J., Ranganath, R., and Blei, D M (2015). The population posterior and bayesian modeling on streams In Advances in Neural Information Processing Systems 28, pages 1153–1161.
[Mermillod et al., 2013] Mermillod, M., Bugaiska, A., and Bonin, P (2013) The stability-plasticity dilemma: Investigating the continuum from catastrophic forgetting to age-limited learning effects Frontiers in psychology, 4:504.
[Nguyen et al., 2018] Nguyen, C V., Li, Y., Bui, T D., and Turner, R E (2018). Variational continual learning In The International Conference on Learning Representations (ICLR).
[Nguyen et al., 2019] Nguyen, V.-S., Nguyen, D.-T., Van, L N., and Than, K.
(2019) Infinite dropout for training bayesian models from data streams In
2019 IEEE International Conference on Big Data (Big Data), pages 125–134. IEEE.
[Ritter et al., 2018] Ritter, H., Botev, A., and Barber, D (2018) Online struc- tured laplace approximations for overcoming catastrophic forgetting In Ad- vances in Neural Information Processing Systems, pages 3738–3748.
[Rogers et al., 2005] Rogers, S., Girolami, M., Campbell, C., and Breitling, R.
(2005) The latent process decomposition of cdna microarray data sets.IEEE/ACM Transactions on Computational Biology and Bioinformatics,2(2):143–156.