Một số mô hình phân tích thành phần chính ba chiều

Ma trên

ành nghắa 1.1.1 Ma trên cù mìn l mởt bÊng gỗm mn số thỹc ữủc sưp xáp th nh m dỏng v n cởt Ma trên A cùmìn thữớng ữủc kẵ hiằu nhữ sau:

 , ho°c A = (a ij ) mìn trong õ a ij l phƯn tỷ cừa ma trên nơm trản dỏng i, cởt j vợi i= 1, m, j = 1, n.

Với m = n, ta có thể gọi ma trận trên cột m và ma trận trên vùng cột n Các phần tỷ a11, a22, , amm nằm trong ma trận được gọi là lượng chính của ma trận Định nghĩa 1.1.2 cho thấy ma trận trên cột và cột n có mỗi phần tỷ nằm trong khoảng từ 1 đến 0, trong khi các phần tỷ khác không bằng 0 Ta có thể hiểu ma trận trên cột và cột n dưới dạng như sau:

Trong trữớng hủp khổng cƯn chú ỵ án cĐp cừa ma trên, ta kẵ hiằu ma trên ỡn và bði

I. ành nghắa 1.1.3 Ma trên ữớng ch²o l ma trên vuổng cõ cĂc phƯn tỷ nơm ngo i ữớng ch²o chẵnh bơng 0 Ma trên ữớng ch²o D cõ dÔng nhữ sau

Ta thữớng kẵ hiằu ma trên ữớng ch²o bðidiag(a 11 , a 22 , , a nn ) vợi a 11 , a 22 , , a nn l cĂc phƯn tỷ nơm trản ữớng ch²o chẵnh.

Ma trên chéo mở rộng được gọi là ma trên chéo dọc, trong khi ma trên chéo cắt được gọi là ma trên chéo cắt Nếu ma trên vuông A có kích thước n và ma trên vuông B có kích thước n thỏa mãn AB = BA = I_n, thì khi B được gọi là ma trên nghịch đảo của A, ta có A^{-1} Đối với ma trên A = (a_{ij}) mìn, ma trên chuyển vị của A, ký hiệu A^T, được xác định bởi bội A^T = (a_{ji}) nìm.

Ma trên vuổng A ữủc gồi l ối xựng náu A T =A, trong khi v ữủc gồi l ma trên phÊn ối xựng náu A T =−A Cho A là một ma trận vuông cĐpn, giá trị thực của ma trên A được xác định bởi công thức det(A) = a 11 A 11 + a 12 A 12 + + a 1n A 1n Trong đó, ik là chỉ số cho phần tử của ma trận, và det(M ik) là định thức của ma trận con M ik có kích thước cĐpn−1, được tính bằng cách loại bỏ dòng thứ i và cột thứ k từ ma trận A Phần tử A ik còn được gọi là phần bù của chỉ số ik.

Tứ ành nghắa 1.1.7, ta cõ

Định nghĩa 1.1.8: Cho ma trận A có kích thước m × n với 1 ≤ s ≤ min(m, n) Khi đó, các phần tử của ma trận con cấp s của A được gọi là ma trận con cấp s Định nghĩa 1.1.9: Ma trận con cấp cao nhất khác 0 của A được gọi là ma trận con cấp s của A.

Mởt ma trên A cõ thº cõ nhiãu ành thực con cỡ sð cũng cĐp.

HÔng cừa ma trên A l cĐp cừa ành thực con cỡ sð Kẵ hiằu hÔng cừa ma trên A l rank(A).

Tứ ành nghắa 1.1.9, ta cõ nhêt x²t sau.

Nhên x²t 1.1.1 Cho A l ma trên cĐp mìn, B l ma trên cĐp nìp.

(i) Náu rank(B) =n thẳ rank(A.B) =rank(A).

Náu rank(A) = n và rank(A.B) = rank(B) cho thấy mối liên hệ giữa các ma trận Điều này có nghĩa rằng nếu ma trận A có hạng n, thì hạng của tích A.B sẽ bằng hạng của ma trận B Hơn nữa, việc xác định hạng của ma trận A liên quan đến các phần tử trong không gian vector, điều này giúp hiểu rõ hơn về cấu trúc của ma trận và ứng dụng trong giải quyết các bài toán liên quan đến đại số tuyến tính.

V²ctỡ riảng GiĂ trà riảng GiĂ trà kẳ dà

ành nghắa 1.2.1 Cho A l ma trên vuổng cĐp n Khi õ a thực bêcn cừa bián λ ữủc xĂc ành nhữ sau

, ữủc gồi l a thực °c trững cừa ma trênA CĂc nghiằm cừa a thựcP A (λ)ữủc gồi l cĂc giĂ trà riảng cừa ma trên A.

V²ctỡ u ∈ R n ữủc gồi l v²ctỡ riảng ựng vợi giĂ trà riảng λ cừa ma trên A náu thọa Au=λu.

Tứ ành nghắa 1.2.1, ta cõ nhên x²t sau.

Nhên x²t 1.2.1 (i) Náu λ l mởt giĂ trà riảng cừa A thẳ det(A−λI) = 0 Khi õ hằ phữỡng trẳnh thuƯn nhĐt

(ii) Mội giĂ trà riảng cõ thº cõ nhiãu v²ctỡ riảng.

(iii) Mội v²ctỡ riảng ch¿ ựng vợi mởt giĂ trà riảng duy nhĐt.

Náuλ = 0l mởt giĂ trà riảng cừa ma trên Athẳ Akhổng khÊ nghàch Ngữủc lÔi, náu mồi giĂ trà riảng cừa A ãu khĂc 0 thẳ ma trên A khÊ nghàch Ành lỵ 1.2.1 (ành lẵ phờ cừa ma trên ối xựng) Cho A l ma trên ối xựng cĐp n Khi â.

(i) Mồi giĂ trà riảng cừa ma trên A ãu l số thỹc.

(ii) Tỗn tÔi ma trên ữớng ch²o D cĐp n v ma trên trỹc giao U cĐp n sao cho

A=U DU T , trong õ cĂc phƯn tỷ nơm trản ữớng ch²o chẵnh cừa D l cĂc giĂ trà riảng cừa

A, v cĂc v²ctỡ cởt cừaU l cĂc v²ctỡ riảng cừaA tữỡng ựng vợi cĂc giĂ trà riảng õ Tực l , náu

Giả sử λ là giá trị riêng và u là vectơ riêng của ma trận A Khi đó, tồn tại một vectơ u sao cho Au = λu Bằng cách chuẩn hóa vectơ u để u^T u = 1, ta có thể xác định λ bằng công thức λ = u^T A u, trong đó λ là số thực.

(ii) Ta s³ chựng minh (ii)bơng phữỡng phĂp quy nÔp toĂn hồc.

Với n = 1, kết quả phản ứng cho thấy sự khác biệt Giá trị phản ứng trong trường hợp ma trên cột độp nhỏ hơn hoặc bằng n-1 Chúng ta sẽ chứng minh kết quả phản ứng trong trường hợp ma trên A l và trên ối xựng cột độp.

X²t P(t) = det(tI − A) là một hàm thực có bậc n Theo định lý cơ bản của đại số, hàm thực P(t) sẽ có n nghiệm là λ1, λ2, , λn, và chúng chính là các giá trị riêng của ma trận A.

Với một không gian vector V và một vector u, bằng cách sử dụng phép trục giao Gram-Schmidt, ta có thể tạo ra một cơ sở orthonormal cho V Cụ thể, ta có thể tìm được một ma trận trên V1 có kích thước (n−1) sao cho [u, V1] là một ma trận trên trục giao Hơn nữa, ma trận V1 T AV1 sẽ là ma trận đối xứng cấp (n−1) Theo quy trình thiết lập quy nạp, ta có thể viết V1 T AV1 = Q1D1QT1, trong đó Q1 là ma trận trực giao và D1 là ma trận đường chéo.

D 1 =diag(λ 2 , λ 3 , , λ n ) l ma trên ữớng ch²o vợi cĂcλ 2 , λ 3 , , λ n l (n−1) giĂ trà riảng cừa A v Q 1 l ma trên trỹc giao cĐp(n−1)gỗm(n−1)v²ctỡ riảng cõa V 1 T AV 1 t÷ìng ùng.

Ta ành nghắa ma trên U 1 cĐp nì(n−1) bði U 1 = V 1 Q 1 Khi õ U =u 1 U 1 l ma trên trỹc giao Ta cõ

Trong bài viết này, chúng ta sẽ tìm hiểu về ma trận A và các đặc tính của nó Ma trận A có thể được biểu diễn dưới dạng UDU^T, trong đó U là ma trận trực giao và D là ma trận chéo với các giá trị riêng λ1, λ2, , λn Đặc biệt, khi A là ma trận đối xứng, thì ma trận ATA sẽ có các giá trị riêng là các số thực không âm.

Chứng minh rằng A T A là ma trận đối xứng Theo định nghĩa về ma trận đối xứng, ta có thể thấy rằng A T A là một số thực Với mọi giá trị riêng của A T A, chúng đều là số thực.

A T A, tỗn tÔi mởt v²ctỡ riảng tữỡng ựng v (chồn v sao cho v l v²ctỡ ỡn và) sao cho

0≤ kAvk 2 = (Av) T (Av) =v T A T Av =v T λv =λkvk 2 =λ.

Trong phần 1.2.2, chúng ta sẽ tìm hiểu về nghĩa và giá trị kỳ hạn của ma trận A Cụ thể, cho ma trận A có kích thước m × n, với λ₁, λ₂, , λₙ là các giá trị riêng của ma trận AᵀA Các giá trị σᵢ = √λᵢ, với i = 1, n, được gọi là các giá trị kỳ hạn của ma trận A.

Tẵch cõ hữợng cừa cĂc v²ctỡ Tẵch Kronecker v tẵch Katri-Rao cừa cĂc

v tẵch Katri-Rao cừa cĂc ma trên. ành nghắa 1.3.1 Cho hai v²ctỡ a =h a 1 a 2 a m iT v b = h b 1 b 2 b n iT

. Tẵch cõ hữợng cừa hai v²ctỡ a v b l ma trên cùmìn, kẵ hiằu l a◦b, v ữủc ành nghắa nhữ sau: a◦b T ành nghắa 1.3.2 Cho A = [a ij ] mìn , B = [b ij ] pìq Tẵch Kronecker cừa hai ma trên

A v B l ma trên cù (mpìnq), kẵ hiằu l A⊗B, v ữủc ành nghắa nhữ sau:

Theo định nghĩa trản, phép toán A⊗B tạo ra ma trận mới có kích thước mn×khối, trong đó khối là số hàng của ma trận A và số cột của ma trận B Đối với hai ma trận A = [a₁, a₂, , aₖ] và B = [b₁, b₂, , bₖ], tích Khatri-Rao của hai ma trận này sẽ tạo ra một ma trận có kích thước tương ứng, được xác định bởi các phần tử của A và B.

AB, v ữủc ành nghắa nhữ sau:

MậT Sẩ Mặ HNH PHN TCH HAI CHIU V ÙNG DệNG

Trong bài viết này, chúng tôi trình bày về Phân tách giá trị riêng (SVD) và Phân tách thành phần chính (PCA) cùng với một số ứng dụng của hai phương pháp này Các kết quả trong bài viết được trích dẫn từ các tài liệu nghiên cứu [2,3,8,11,13].

Mð ¦u

Cho X l ma trên thỹc cù mìn Mổ hẳnh phƠn tẵch hai chiãu cừa ma trên X ữủc mổ tÊ nhữ sau:

X i=1 a i ◦b i +E, (2.1) trong õ E ∈ R mìn l ma trên dữ, A ∈R mìr v B ∈R nìr l cĂc ma trên cõ cĂc cởt t÷ìng ùng l a 1 , , a r v b 1 , , b r

Lữu ỵ rơng, vẳ tĐt cÊ cĂc cởt cừa ma trênai◦bi ãu t¿ lằ vợi nhau vợi mồii Trong đó, rank(a i ◦b i ) = 1 nếu a i và b i đồng thời khĂc v²ctỡ khổng Do đó, trong (2.1), ma trên X ữủc phƠn tẵch th nh tờng cừa cĂc ma trên cõ hÔng1 v ma trên dữ E Nếu E = Omìn thẳ c°p (A, B) ữủc gồi l nghiằm úng tốt nhĐt cừa (2.1).

X T Náu E 6=Omìn thẳ AB T ữủc gồi l xĐp x¿ hÔng r cừa X.

Náu (A, B) l mởt nghiằm cừa (2.1) m kEk 2 = P i,j e 2 ij nhọ nhĐt thẳ (A, B) ữủc gồi l nghiằm tối ữu cừa (2.1) v AB T tữỡng ựng ữủc gồi l xĐp x¿ hÔng r tốt nhĐt cõa X.

PhƠn tẵch (2.1) ữủc mổ tÊ bơng hẳnh Ênh nhữ sau

Phân tách hai chiều tối ưu của một hàm thường được thực hiện thông qua phương pháp phân tách, trong đó người ta thường sử dụng phương pháp phân tách dựa trên hàm giá trị.

PhƠn tẵch giĂ trà kẳ dà (SVD)

PhƠn tẵch giĂ trà kẳ dà

ành nghắa 2.2.1 ChoX l ma trên cù mìn vợi m ≥n, rank(X) =r,r ≤n Ma trên X ữủc gồi l cõ phƠn tẵch giĂ trà kẳ dà náuX ữủc phƠn tẵch th nh dÔng

X =U SV T , (2.2) trong õ U l ma trên cù m ìn vợi U T U = I n , V l ma trên trỹc giao cĐp n, v

S =diag(σ 1 , , σ n ) vợi σ 1 ≥ .≥σ n ≥0 l cĂc giĂ trà kẳ dà cừa X.

Các vectơ cột của ma trận U chứa các vectơ kề trái của X, trong khi các vectơ cột của ma trận V chứa các vectơ kề phải của X Số lượng của một ma trận trên X luôn tồn tại.

Chứng minh rằng ma trận XTX là ma trận nửa dương theo định lý 1.2.2 Các giá trị riêng λ1, λ2, , λn của ma trận XTX đều là các giá trị thực không âm, và theo định lý 1.2.2, tồn tại ma trận V = h v1 v2 vn ∈ Rn×n sao cho.

Khổng mĐt tẵnh tờng quĂt, giÊ sỷ tỗn tÔi r≤n sao cho λ 1 ≥λ 2 ≥ .≥λ r >0 v λ r+1 = .=λ n = 0 Khi â

0 , i≥r+ 1. °t σ i = √ λ i , i = 1, n Khi õ X cõ cĂc giĂ trà kẳ dà l σ 1 ≥ σ 2 ≥ ≥ σ r v σ j = 0 vợi r+ 1 ≤j ≤n.

Với mỗi i ∈ {1, 2, , r}, ta có u_i = σ^(-1) i Xv_i, suy ra u_1, u_2, , u_r ∈ R^m là các vector có chuẩn bằng 1 và vươn tới một trục giao Ta bổ sung vào tập {u_1, u_2, , u_r} các vector u_{r+1}, , u_n ∈ R^m sao cho các vector u_1, , u_n tạo thành một cơ sở chuẩn của R^n Đặt U = (u_1, u_2, , u_n) với các u_i là các vector cơ sở, khi đó U^T U = I_n.

Ta chựng minhX =U SV T , hayXV =U S Thêt vêy, vợi mộii > r, vẳX T Xv i = 0 nản kXv i k 2 =v T i X T v i = 0 Do õ Xv i = 0 v

Xv1 Xv2 Xvr 0 0 i h σ1u1 σ2u2 σrur 0 0 i h u1 u2 un i

Trong trữớng hủp rank(X) =r < n, thẳ SVD cừaX cõ dÔng ch°t cửt nhữ sau:

X = U r S r V r T, trong đó U r và V r là ma trận lược đồ được tạo bởi các cột ưu tiểu của U, V, và S r là ma trận lược đồ trên con đường rì rào được tạo bởi hạng ưu tiểu và cột ưu tiểu của S Khai triển (2.3) được gọi là phân tách SVD, một phương pháp quan trọng trong phân tích dữ liệu.

Thuêt toĂn tẳm SVD cừa mởt ma trên

Cho X l ma trên cù mìn, vợi m ≥n º tẳm SVD cừa ma trên X, chúng ta thỹc hiằn cĂc bữợc sau.

• Bữợc 1 Tẵnh ma trên X T X v giÊi phữỡng trẳnh det X T X−λI

= 0 º tẳm cĂc giĂ trà riảngλ 1 ≥λ 2 ≥ .≥λ n ≥0cừa ma trên X T X Tứ õ suy ra cĂc giĂ trà kẳ dà cừa X l σ i =√ λ i , i= 1, n v S =diag(σ 1 , σ 2 , , σ n )

• Bữợc 2 Tữỡng ựng vợi mội giĂ trà riảng λ i , tẳm v²ctỡ riảng v i ∈ R n sao cho

X T X−λI v i = 0 Tứ õ tẳm ữủc ma trên trỹc giao V cĐp n chựa cĂc v²ctỡ kẳ dà phÊi cừaX.

• Bữợc 3 XĂc ành cĂc v²ctỡ kẳ dà trĂi cừa X theo cổng thực u i = 1 σ i Xv i , i= 1, r.

Bờ sung n−r v²ctỡ ur+1, , un và tập hợp {u1, u2, , ur} cần được xác định sao cho {u1, u2, , un} tạo thành một cơ sở chuẩn của R n Từ đó, các vector trong không gian giao U sẽ chứa các vector kẳ dọc theo phía trái của X.

X =U SV T l phƠn tẵch SVD cừa ma trênX.

Vẵ dử

Vẵ dử 2.2.1 Tẳm SVD cừa ma trên X 

Bữợc 1: Tẳm cĂc giĂ trà kẳ dà cừa ma trên X

GiÊi phữỡng trẳnh det(X T X−λI) = 0, ta tẳm ữủc cĂc giĂ trà riảng λ cừa X T X l λ 1 = 2, λ 2 = 1 Do õ cĂc giĂ trà kẳ dà cừa X l σ 1 =√

GiÊi phữỡng trẳnh(X T X−λI)v = 0ta tẳm ữủc cĂc v²ctỡ riảng tữỡng ựng l v 1 

Vêy phƠn tẵch SVD cừa ma trên X l

Mởt số tẵnh chĐt cừa ma trên liản quan án SVD cừa nõ

nâ ành lỵ 2.2.2 HÔng cừa mởt ma trên bơng số cĂc giĂ trà kẳ dà khĂc khổng cừa nõ.

Giả sử X ∈ R mìn với m ≥ n, ta có phân tách SVD của X là X = USV^T, trong đó r là số các giá trị riêng khác không của X Đặt U r = {u_1, u_2, , u_r} và V r = {v_1, v_2, , v_r} Theo tính chất của ma trận, ta có rank(U r) = rank(U r U r^T) = rank(I r) = r và rank(V r) = rank(V r V r^T) = rank(I r) = r.

Do õ, theo Nhên x²t 1.1.1, ta cõ rank(X) =rank(U SV T ) =rank(U r SV r T ) =rank(SV r T ) =rank(S) =r. ành lỵ 2.2.3 Cho X l ma trên cùmìn GiÊ sỷ X cõ phƠn tẵch SVD dữợi dÔng khai triºn l

X =σ 1 u 1 v 1 T + .+σ r u r v r T Vợi k l số nguyản dữỡng thọa k ≤ r, °t X k = σ 1 u 1 v 1 T + +σ k u k v T k Khi õ rank(X k ) =k.

Chựng minh ữa X k vã dÔng

M°t khĂc, do rank(diag(σ1, σ2, , σk)) =rank(v1, v2, , vk) nản rank σ 1 v 1 T , σ 2 v 2 T , , σ k v k T

PhƠn tẵch th nh phƯn chẵnh (PCA)

ị tữðng

Giá trị dãy liệu ban Ưu l x∈R m và dãy liệu Â ữủc giá trị là z ∈R với r < m Cách chọn giá trị nhất quán dãy liệu từ m và r < m là rất cần thiết để đảm bảo tính chính xác Có hai câu hỏi được đặt ra: Câu hỏi thứ nhất, làm thế nào để xác định tầm quan trọng của mỗi dãy liệu? Câu hỏi thứ hai, nếu tầm quan trọng của các dãy liệu là như nhau, ta cần bỏ đi dãy nào? Để trả lời câu hỏi thứ nhất, ta quan sát Hình 2.2a Giá trị các điểm dãy liệu có thể là phần thực hai (phương đứng) giống hệt nhau hoặc sai khác nhau rõ rệt (phương sai nhỏ) Như vậy, phần này hoàn toàn có thể được lược bỏ, và ta ngầm hiểu rằng nó sẽ được xếp vào bậc ký vong của phần thực ở trạng toàn bộ các điểm dãy liệu Ngược lại, việc làm này nếu được áp dụng lặp lại phần thực hai (phương ngang) sẽ khiến lược thông tin bị mất đi rất nhiều do sai số xếp hạng lớn Vì vậy, lược thông tin theo mỗi phần thực có thể được coi là tường phương sai của dãy liệu trạng phần thực.

Cấu trúc hai chiều trong hình 2.2b cho thấy phương sai của dữ liệu rất lớn, việc mở rộng trong hai chiều giúp phân tích dữ liệu một cách hiệu quả hơn Quan sát ban đầu cho thấy chúng ta cần tập trung vào một góc phù hợp, trong đó một chiều dữ liệu có thể chứa thông tin quan trọng, trong khi chiều còn lại có xu hướng phân bố xung quanh một hướng nhất định.

Hẳnh 2.2: Vẵ dử vã phữỡng sai cừa dỳ liằu trong khổng gian hai chiãu (a) Chiãu thự hai cõ phữỡng sai (t¿ lằ vợi ở rởng cừa ữớng hẳnh chuổng) nhọ hỡn chiãu thự nhĐt. (b) CÊ hai chiãu cõ phữỡng sai Ăng kº Phữỡng sai cừa mội chiãu l phữỡng sai cừa th nh phƯn tữỡng ựng ữủc lĐy trản to n bở dỳ liằu Phữỡng sai t¿ lằ thuên vợi ở phƠn tĂn cừa dỳ liằu. ị tữðng chẵnh cừa PCA: Tẳm mởt hằ trỹc chuân mợi sao cho trong hằ n y, cĂc th nh phƯn quan trồng nhĐt nơm trongr th nh phƯn Ưu tiản.

PCA là một phương pháp phân tích dữ liệu nhằm giảm số chiều của dữ liệu bằng cách xoay trục tọa độ Nó giúp tối ưu hóa việc lưu trữ thông tin bằng cách tập trung vào các thành phần chính Phương pháp này cho phép rút gọn thông tin một cách hiệu quả mà vẫn giữ được các yếu tố quan trọng của dữ liệu.

PhƠn tẵch th nh phƯn chẵnh

Với một ma trận thực X ∈ R m×n, chúng ta cần chuẩn hóa dữ liệu sao cho mỗi cột có giá trị trung bình là 0 và phương sai là 1 Phân tích thành phần chính (PCA) của X giúp tìm ra các vector riêng sao cho dữ liệu có thể được biểu diễn trên các mặt phẳng A ∈ R m và B ∈ R n, từ đó tối ưu hóa việc nén và phân tích dữ liệu.

X T +E là một phương pháp quan trọng trong việc phân tích dữ liệu, đặc biệt là trong các mô hình thống kê Trong đó, A đại diện cho các thành phần chính và các cửa sổ liên quan, trong khi B liên quan đến các biến số cho phép tối ưu hóa các dữ liệu đầu vào Cặp (A, B) được gọi là PCA, giúp tóm tắt thông tin và giảm thiểu độ phức tạp của dữ liệu mà vẫn giữ được các đặc trưng quan trọng.

Ngo i ra, PCA ữủc trẳnh b y theo mởt cĂch khĂc dữợi dÔng v²ctỡ nhữ sau:

X i=1 a i b T i +E. iãu n y cho thĐy PCA l xĐp x¿ X vợi tờng cừar ma trên cõ hÔng 1.

Mửc tiảu cừa PCA l l m giÊm tối thiºukEk 2 X−AB T

2 Vẳ rank(AB T )≤r nản AB T l SVD ch°t cửt cừa X, nghắa l náu UrSr(Vr) T l SVD ch°t cửt cừa X thẳ A=m 1 2 U r v B T =m − 1 2 S r (V r ) T Số lữủng th nh phƯn tối thiºu phũ hủp l số giĂ trà kẳ dà khĂc 0 cừa X, hay l hÔng cừa X Vẳ vêy, khổng cƯn thiát phÊi lĐy số th nh phƯn r lợn hỡn số lữủng bián n Trản thỹc tá, r thữớng ữủc lĐy nhọ hỡn nhiãu so vợi n.

Để thực hiện việc giảm chiều của các biến trong SVD, ta cần xác định các thành phần chính ưu tiên nhằm giải thích phương sai nhiều nhất Điều này có thể được thực hiện bằng cách sử dụng các thành phần chính tiếp theo để giải thích phương sai còn lại mà không liên quan đến các thành phần trước đó Khi đó, phương sai được giải thích sẽ là tr(BB T) = tr(m − 1/2 S r 2), trong đó S r 2 là ma trận phương sai của các biến trong X.

Tẳm cĂc th nh phƯn chẵnh cừa b i toĂn PCA thổng qua SVD 19

X²t mởt vectỡ x bĐt kẳ Th nh phƯn chẵnh l tờ hủp tuyán tẵnh s m

P i=1 w i x i là cách chùa c ng nhiều phương sai của dữ liệu ưu việt Như vậy, thành phần chính ưu tiên được ảnh hưởng bởi các biến quan sát, trong đó có các phương sai lớn nhất.

Chúng ta cƯn ữa ra r ng buởc cho chuân cừa vectỡ w = (w 1 , w 2 , , w m ) º ỡn giÊn, chúng ta r ng buởcw cõ chuân bơng 1, tực l kwk v u u t m

Các bước khắc phục và giá trị chuẩn của chúng ta có thể được thực hiện và phản ánh Chú ý rằng phương sai của một tờ hợp tuyên tĩnh bất kỳ có thể được tính thông qua ma trận phương sai của dữ liệu Xét một tờ hợp tuyên tĩnh với T x m.

P i=1 w i x i GiÊ sỷ giĂ trà trung bẳnh bơng 0, tực l E{x}= 0 Khi õ

= w T Cw, trong âC =E xx T l ma trên hiằp phữỡng sai Vẳ vêy, b i toĂn cỡ bÊn PCA ữủc x¡c ành nh÷ sau: max w:kwk=1w T Cw.

Vẳ C l ma trên ối xựng nản theo ành lẵ phờ cừa ma trên ối xựng, tỗn tÔi ma trên trỹc giaoU ∈R mìn v ma trên ữớng ch²o D=diag(λ 1 , , λ n )∈R nìn sao cho.

C = U DU^T, trong đó λ₁, , λₙ là các giá trị riêng của C, và các vectơ cở sở của U là các vectơ riêng của C ứng với giá trị riêng λ Thực hiện việc biến đổi v = U^T w Khi đó ta nhận được w^T Cw = w^T U DU^T w = v^T Dv.

Với điều kiện ràng buộc giao nản kvk = kwk, ta có thể thiết lập phương pháp tối ưu hóa cho các biến m i, với i = 1, , n Khi ràng buộc kvk = 1 được áp dụng, các biến m i cần thỏa mãn điều kiện m i ≥ 0 và tổng Pn i=1m i = 1 Bằng cách này, bài toán có thể được chuyển đổi thành dạng tối đa hóa.

Ró r ng, bài toán cho thấy giá trị lợn nhật tắm ủc khi môi trường ảnh hưởng đến lợn nhật bông 1 và các môi cỏn lôi bông 0 Kẵ hiểu ý nghĩa số của giá trị riếng lợn nhật Trả lời biến đổi, dẫu vậy tướng ủng vợi ưu tứ vectơ riếng thực, thực là cởt thực của.

U Nhữ vêy, th nh phƯn chẵnh Ưu tiản ữủc tẳm mởt cĂch dạ d ng thổng qua phƠn tẵch giĂ trà riảng.

Để tối ưu hóa việc sử dụng vectơ riảng trong không gian giao nhau, chúng ta cần chú ý đến việc điều chỉnh các tham số sao cho đạt được giá trị tối ưu cho hàm mục tiêu Việc tối ưu hóa này không chỉ giúp cải thiện hiệu suất mà còn đảm bảo rằng các kết quả đạt được là chính xác nhất Hơn nữa, việc sử dụng các vectơ riảng phù hợp sẽ dẫn đến những cải tiến đáng kể trong quá trình tính toán và phân tích Điều này đặc biệt quan trọng trong các ứng dụng yêu cầu độ chính xác cao và hiệu quả tối đa.

Để đạt được sự phân chia chính xác, cần xác định các vectơ riêng \( v_i \) trong không gian \( U \) sao cho các giá trị riêng \( \lambda_i \) giảm dần Điều này giúp chúng ta hiểu rõ hơn về ý nghĩa của các thành phần trong không gian Khi thực hiện phân chia chính xác, ta có thể sử dụng công thức \( s_i = u^T_i x \) để tính toán.

Lữu ỵ rơng tĐt cÊ cĂcλ i ãu khổng Ơm ối vợi ma trên hiằp phữỡng sai.

Tẵnh duy nhĐt nghiằm cừa PCA

ành lỵ 2.3.1 Náu (A, B) l mởt nghiằm cừa mổ hẳnh PCA thẳ (AQ, BQ) cụng l mởt nghiằm cừa mổ hẳnh PCA, vợi Ql ma trên trỹc giao cĐp r.

Lúc n y, Q ữủc gồi l ph²p quay trỹc giao.

Chựng minh GiÊ sỷ (A, B) l mởt nghiằm cừa mổ hẳnh PCA.

Vợi Q l mởt ma trên trỹc giao cĐp r, tực l QQ T =Q T Q=I r , ta cõ

Suy ra (AQ)l ma trên trỹc giao cù mìr.

Vêy (AQ, BQ) l mởt nghiằm cừa mổ hẳnh PCA

Tứ ành lẵ2.3.1, ta cõ nhên x²t sau:

Nhên x²t 2.3.1 (i) Nghiằm (A, B) cừa PCA khổng duy nhĐt.

(ii) Ph²p quay trỹc giaoQ s³ cho ta ma trên tÊi cõ cĐu trúc ỡn giÊn hỡn, do õ cĂc nhƠn tố s³ ữủc diạn giÊi dạ d ng hỡn.

Thuêt toĂn tẳm PCA cừa mởt ma trên

GiÊ sỷX l ma trên cù mìn, vợi m≥n º tẳm PCA cừa ma trênX, chúng ta thỹc hiằn cĂc bữợc sau:

• Bữợc 1: Tẳm SVD ch°t cửt cừa ma trênX, ta ữủcX =U r S r (V r ) T vợir ≤n.

• Bữợc 2: Tẵnh ma trênA v B theo cổng thực sau:

• Bữợc 3: Náu nghiằm (A, B) chữa tốt thẳ chồn ph²p quay Q, vợi Q l ma trên trỹc giao cĐp r, ta tẳm ữủc nghiằm cừa mổ hẳnh PCA l (AQ, BQ).

ìu v nhữủc iºm cừa PCA

PCA cõ nhiãu °c tẵnh tốt

• Giúp giÊm số chiãu cừa dỳ liằu.

PCA xây dựng một không gian mới rộng hơn, giúp cải thiện các trục tọa độ ở cửa không gian cụ Những lối đi có khía cạnh nông biểu diễn dữ liệu tốt hơn, mang lại ý nghĩa rõ ràng hơn cho biến thể của dữ liệu trong không gian mới.

Các trục tọa độ trong không gian mới là hợp tuyến tính của không gian cụ thể, do đó mà một ngữ nghĩa, PCA xây dựng feature mới dựa trên các feature quan sát được Điều này giúp nâng cao những feature này biểu diễn tốt dữ liệu ban đầu.

Trong không gian mới, các liên kết tiềm ẩn của dữ liệu có thể được khám phá, mở ra những cơ hội phát hiện mới Những liên kết này không chỉ giúp hiểu rõ hơn về các khía cạnh cụ thể mà còn làm nổi bật những thông tin quan trọng trong lĩnh vực nghiên cứu.

Bản cÔnh õ, PCA cụng cõ mởt v i hÔn chá sau

• Ch¿ l m viằc vợi dỳ liằu số (numeric).

• NhÔy cÊm vợi cĂc iºm nơm bản ngo i/cỹc trà (outlier/extreme).

• Khổng phũ hủp vợi mổi trữớng phi tuyán, do PCA ho n to n dỹa trản cĂc bián ời tuyán tẵnh.

Mởt số ựng dửng cừa SVD v PCA

Ùng dửng trong xỷ lẵ Ênh

Phân tách SVD là một kỹ thuật quan trọng trong xử lý tín hiệu và thực tiễn Một trong những ứng dụng nổi bật của nó là sử dụng SVD trong hình ảnh số, giúp hiểu rõ hơn về cấu trúc và thông tin của hình ảnh Trong một bức ảnh kỹ thuật số, mỗi điểm ảnh được biểu diễn bằng ba giá trị màu: đỏ (red), xanh (blue), và lục (green), với các giá trị từ 0 đến 255 Do đó, với một hình ảnh có kích thước 960x1440 pixels, chúng ta cần lưu trữ 4,147,200 số Tuy nhiên, trong thực tế, khi truyền tải hoặc lưu trữ thông tin hình ảnh, ta có thể bỏ qua một số phần không cần thiết Sử dụng phân tách SVD, chúng ta có thể giảm thiểu lượng thông tin không cần thiết mà vẫn giữ được chất lượng hình ảnh.

Vẵ dử mởt hẳnh Ênh 960ì1440 pixels ữủc phƠn tẵch th nh ba ma trên X, Y, Z cõ cũng ở lợn 960ì1440 GiÊ sỷ X cõ phƠn tẵch SVD l

Theo ành lẵ 2.4.1, vợi mội giĂ tràk ≤rthẳ X k =σ 1 u 1 v T 1 + .+σ k u k v k T l xĐp x¿ hÔng k tèt nh§t cõa X.

Với 20 ma trên X, cần lưu trữ 20 giá trị kèm theo 20 vector u và 20 vector v, tương ứng với 48,020 số Tương tự, với hai ma trên Y và Z, số lượng các số cần lưu trữ cho mỗi ma là 48,020 Tổng cộng, số lượng các số cần lưu trữ là 144,060 Rõ ràng, phân tách SVD giúp giảm thiểu một lượng thông tin cần lưu trữ một cách hiệu quả.

Bơng cĂch sỷ dửng phƯn mãm Matlab, chúng ta cõ thº hiằu ch¿nh ở n²t cừa hẳnh Ênh theo tham sốk tũy chồn X²t vẵ dử sau:

Hẳnh 2.4: nh hiằu ch¿nh vợik = 10

Hẳnh 2.7: nh hiằu ch¿nh vợi k = 100

Ùng dửng trong Eigenface

Eigenface là một trong những phương pháp phổ biến nhất trong lĩnh vực nhận diện khuôn mặt Nó sử dụng các vector đặc trưng trong không gian chiều thấp hơn để thực hiện phân loại Mỗi ảnh khuôn mặt có kích thước khoảng 200x200 pixel, tạo ra khoảng 40.000 chiều, trong khi vector đặc trưng thường chỉ có số chiều nhỏ hơn nhiều.

Eigenface thỹc ra chẵnh l PCA CĂc eigenfaces chẵnh l cĂc v²ctỡ riảng ựng vợi cĂc trà riảng lợn nhĐt cừa ma trên hiằp phữỡng sai.

Trong bài viết này, chúng ta sẽ khám phá cơ sở dữ liệu Yale Face, một bộ dữ liệu quan trọng trong nghiên cứu nhận diện khuôn mặt Bộ dữ liệu này bao gồm 15 người khác nhau, mỗi người có 11 biểu cảm khuôn mặt được ghi lại trong các điều kiện ánh sáng khác nhau, bao gồm: ánh sáng trung tâm, đeo kính, vui vẻ, ánh sáng bên trái, không đeo kính, bình thường, ánh sáng bên phải, buồn, mệt mỏi, bất ngờ và nháy mắt Mỗi hình ảnh có kích thước 116x98 pixel, cung cấp một nguồn tài nguyên phong phú cho việc phát triển và thử nghiệm các thuật toán nhận diện khuôn mặt.

Hẳnh 2.8 dữợi Ơy l vẵ dử vã cĂc bực Ênh cừa ngữới cõ id l 10.

Hẳnh 2.8: Vẵ dử vã Ênh cừa mởt ngữới trong Yale Face Database

Ta có thể thấy rằng số chiều dài liệu là 116 cm và chiều rộng là 98 cm, tạo thành một số khối lớn Tuy nhiên, với chiều cao 15 cm, chúng ta có thể nhận ra rằng chiều cao này chỉ có thể tạo ra các khối hình với chiều cao nhỏ hơn 165 cm Trong trường hợp này, chúng ta sẽ chọn k = 100.

Hình 2.9 biểu diễn 18 vector riêng ưu tiên tầm ảnh hưởng PCA Các vector tầm ảnh hưởng được thể hiện rõ ràng, ta cần phục hồi hình dạng chúng để có thể minh họa các bước ảnh.

Hẳnh 2.9: CĂc eigenfaces tẳm ữủc bơng PCA

Cấu trúc của ảnh minh họa có thể chứa nhiều thông tin về một người Thực tế, một khuôn mặt gốc được xác định thông qua các tường có trồng số của các khuôn mặt này Các ảnh minh họa này đóng vai trò như các đặc trưng của không gian mới, được gọi là khuôn mặt riêng, hay eigenfaces Để hiểu rõ hơn về khái niệm eigenfaces, chúng ta cần phân tích các đặc trưng gốc và các đặc trưng được xác định thông qua PCA, kết quả được trình bày trong Hình 2.10.

Hẳnh 2.10: H ng trản: cĂc Ênh gốc H ng dữợi: cĂc Ênh ữủc suy ra tứ eigenfaces nh ð h ng dữợi cõ nhiãu nhiạu những văn mang nhỳng °c iºm riảng m mưt ngữới cõ thº phƠn biằt ữủc

Nhữ vêy, v²ctỡ vợi số chiãu k = 100trong khổng gian mợi mang khĂ Ưy ừ thổng tin cừa v²ctỡ cõ số chiãuD = 11368trong khổng gian ban Ưu.

MậT Sẩ Mặ HNH PHN TCH THNH PHN CHNH BA

Trong chữỡng n y, chúng tổi trẳnh b y vã Mổ hẳnh Cadecomp/Parafac (CP) v Mổ hẳnh Tucker3 CĂc kát quÊ trong chữỡng n y ữủc trẵch dăn tứ cĂc t i liằu [5,7,9,10].

MÊng ba chiãu

Ba loÔi v²ctỡ cừa mÊng ba chiãu

ành nghắa 3.1.3 Cho X l mÊng cùmìnìp Chúng ta ành nghắa ba loÔi v²ctỡ cõa X nh÷ sau:

(i) CĂc v²ctỡ thu ữủc tứ X bơng cĂch cố ành cĂc ch¿ số thự hai v thự ba ữủc gồi l cĂc v²ctỡ cởt, hay cĂc v²ctỡ mode-1, cừa X.

(ii) CĂc v²ctỡ thu ữủc tứ X bơng cĂch cố ành cĂc ch¿ số thự nhĐt v thự ba ữủc gồi l cĂc v²ctỡ dỏng, hay cĂc v²ctỡ mode-2, cừa X.

(iii) CĂc v²ctỡ thu ữủc tứ X bơng cĂch cố ành cĂc ch¿ số thự nhĐt v thự hai ữủc gồi l cĂc v²ctỡ lợp, hay cĂc v²ctỡ mode-3, cừaX.

Hẳnh 3.2: CĂc v²ctỡ cởt, dỏng, v lợp

Ba loÔi lĂt cưt cừa mÊng ba chiãu

ành nghắa 3.1.4 ChoX l mÊng cùmìnìp Chúng ta ành nghắa ba loÔi lĂt cưt cõa X nh÷ sau.

(i) CĂc lĂt cưt theo chiãu 12, kẵ hiằuX k (12) ,k = 1, , p, l cĂc ma trên thu ữủc tứ

X bơng cĂch thay ời hai ch¿ số Ưu tiản v giỳ ch¿ số cuối cũng cố ành LĂt cưt theo chiãu 12cỏn ữủc gồi l lĂt cưt chẵnh diằn v cõ dÔng sau.

(ii) CĂc lĂt cưt theo chiãu 23, kẵ hiằu X i (23) , i= 1, , m, l cĂc ma trên thu ữủc tứ

X bơng cĂch thay ời hai ch¿ số cuối v giỳ ch¿ số Ưu tiản cố ành LĂt cưt theo chiãu 23cỏn ữủc gồi l lĂt cưt ngang v cõ dÔng sau

(iii) CĂc lĂt cưt theo chiãu13, kẵ hiằuX j (13) ,j = 1, , n, l cĂc ma trên thu ữủc tứ

X bơng cĂch thay ời ch¿ số Ưu v ch¿ số thự ba, v giỳa ch¿ số thự hai cố ành.

LĂt cưt theo chiãu 13 cỏn ữủc gồi l lĂt cưt ựng v cõ dÔng sau

 x 1j1 x 2j1 x nj1 x 1j2 x 2j2 x nj2 x 1jp x 2jp x mjp

Hẳnh 3.3: CĂc lĂt cưt ngang, ựng, v chẵnh diằn

HÔng cừa mÊng ba chiãu

Náu X được xác định bởi công thức X = a ◦ b ◦ c, trong đó a, b, c là các vector cột Nếu a = [a1, , am] T, b = [b1, , bm] T, và c = [c1, , cm] T, thì ma trận X có hạng rank(X) = 1 Điều này có nghĩa là mọi phần tử xijk của X được tính toán bằng công thức xijk = ai bj ck Hạng của mảng ba chiều X là số nhỏ nhất trong các mảng có hạng 1 sao cho chúng tương đương với X.

Tứ ảnh nghĩa 3.1.6 cho thấy có sự tương tác giữa ảnh nghĩa hồng cửa mạng hai chiều và hồng cửa mạng ba chiều Tuy nhiên, việc xác định hồng cửa mạng ba chiều phức tạp hơn so với mạng hai chiều.

Năm 1989, Kruskal đã đưa ra một số tính chất đặc biệt của hồng cừa mảng ba chiều Ngoài ra, Kruskal cũng đã chứng minh một số khác biệt giữa hồng cừa mảng hai chiều và hồng cừa mảng ba chiều.

Hồng cửa mềnh hai chiều đang được nghiên cứu để xác định các thuật toán đơn giản, trong khi việc áp dụng các thuật toán cho trường hợp ba chiều cũng đang gặp nhiều khó khăn Các nghiên cứu hiện tại tập trung vào việc phát triển các phương pháp hiệu quả để xử lý và xác định hồng cửa mềnh ba chiều.

Hằng cừa mền hai chiều có kích thước khổng lồ (m, n), trong khi hằng cừa mền ba chiều thường không xác định, rất khó xác định và hằng cừa này có thể lớn hơn hằng cừa mền hai chiều (m, n, p) Định nghĩa 3.1.7 cho X là mền cú mịn Hằng mode-i, kẽ hiểu là rank i (X), được định nghĩa là hằng cừa tập hợp các vectơ mode-i, với i = 1, 2, 3.

Vợi ma trên X,rank 1 (X)l hÔng cởt, rank 2 (X) l hÔng h ng.

Vợi mÊng ba chiãu X cõ cù mìnìp, ta cõ rank 1 (X) = rank x T jk =h x 1jk x mjk iT

; rank2(X) =rank x T ik h xi1k xink iT

; rank 3 (X) = rank x T ij =h x ij1 x ijp iT

Bảng ba (rank 1 (X), rank 2 (X), rank 3 (X)) được gọi là hàm số của X Đối với mảng hai chiều X, ta có rank 1 (X) = rank 2 (X) = rank(X) Tuy nhiên, điều này không áp dụng cho mảng ba chiều.

Vẵ dử 3.1.1 Cho X l mÊng 2ì2ì2vợi hai lĂt cưt chẵnh diằn

. Khi â, ta câ rank 1 (X) = rank

Nõi chungrank i (X) khổng giống nhau vợi i= 1,2,3.

Vẵ dử 3.1.2 Cho X l mởt mÊng cù 2ì2ì2 vợi hai lĂt cưt chẵnh diằn

. Khi â, ta câ rank 1 (X) = rank

Suy ra rank 1 (X) =rank 2 (X) =rank 3 (X).

Tuy nhiản rank(X) = 3 Thêt vêy,

Trữớng hủp 1: GiÊ sỷX biºu diạn ữủc dữợi dÔng

Hằ phữỡng trẳnh vổ nghiằm.

Tứ(6)v b 2 2 = 0suy ra a 1 1 , b 1 2 , c 1 2 6= 0 M°t khĂc, tứ(7) v a 2 2 = 0suy ra a 1 2 , b 1 1 , c 1 2 6= 0.

Do õa 1 2 b 1 2 c 1 2 +a 2 2 b 2 2 c 2 2 6= 0 Vêy(8)vổ nghiằm, k²o theo hằ phữỡng trẳnh trản vổ nghiằm. Vẳ vêy, º hằ phữỡng trẳnh cõ nghiằm thẳ c 1 1 6= 0.

Tữỡng tỹ, ta cõ c 2 1 , b 1 1 , b 2 1 , a 1 1 , a 2 1 6= 0 Náu b 1 1 6= 0 thẳ tứ (2),(4),(6) v (8) suy ra

Hằ vổ nghiằm Do õ hằ phữỡng trẳnh trản vổ nghiằm Vêy º hằ phữỡng trẳnh cõ nghiằm thẳ b 1 1 = 0 Tữỡng tỹ,b 2 2 = 0 Tứ õ suy ra (6) vổ nghiằm.

Vêy, khổng tỗn tÔi ai a i 1 a i 2

 a 1 1 b 1 1 c 1 1 +a 2 1 b 2 1 c 2 1 +a 3 1 b 3 1 c 3 1 =−1 a 1 1 b 1 2 c 1 1 +a 2 1 b 2 2 c 2 1 +a 3 1 b 3 2 c 3 1 = 0 a 1 2 b 1 1 c 1 1 +a 2 2 b 2 1 c 2 1 +a 3 2 b 3 1 c 3 1 = 0 a 1 2 b 1 2 c 1 1 +a 2 2 b 2 2 c 2 1 +a 3 2 b 3 2 c 3 1 = 1 a 1 1 b 1 1 c 1 2 +a 2 1 b 2 1 c 2 2 +a 3 1 b 3 1 c 3 2 = 0 a 1 1 b 1 2 c 1 2 +a 2 1 b 2 2 c 2 2 +a 3 1 b 3 2 c 3 2 = 1 a 1 2 b 1 1 c 1 2 +a 2 2 b 2 1 c 2 2 +a 3 2 b 3 1 c 3 2 = 1 a 1 2 b 1 2 c 1 2 +a 2 2 b 2 2 c 2 2 +a 3 2 b 3 2 c 3 2 = 0 GiÊi hằ phữỡng trẳnh, ta chồn ữủc a 1 

Mổ hẳnh Candecomp/Parafac (CP)

Mổ hẳnh

Năm 1970, Carroll v Chang và Harshman đã giới thiệu mô hình PCA ba chiều, liên quan đến hai phương pháp phân tách tensor: Candecomp (phân tách chính tắc) và Parafac (phân tách nhân tỷ song song) Phân tách CP của một mảng ba chiều là phân tách mảng này thành các mảng hạng nhất Mô hình CP là một phương pháp phân tách CP và mảng dữ liệu Đối với mảng X, mô hình CP có thể được viết như sau:

Y(t) + E, (3.1) trong đó E là mảng dữ liệu, a_t ∈ R^m, b_t ∈ R^n, c_t ∈ R^p là các vectơ cột ở dạng bậc 1, g_t là trọng số của thành phần thuộc tính Y(t) = g_t (a_t ◦ b_t ◦ c_t) là các mảng hằng 1, đồng thời là các thành phần Cố định q, phân tách CP (3.1) có thể được biểu diễn bằng cách giảm thiểu kEk_2 = P_ijk e^2_ijk Khi xử lý CP (3.1) có thể thực hiện mổ tách bằng hình thức như sau:

Hẳnh 3.4: PhƠn tẵch ba chiãu

Chúng ta kẵ hiằu A = [a 1 a q ] ∈R mìq , B = [b 1 b q ] ∈R nìq v C = [c 1 c q ]∈

R pìq , gồi l cĂc ma trên th nh phƯn Khi õ chúng ta cõ thº ữa ra kẵ hiằu cho mổ hẳnh CP nhữ sau.

 g 1 c k1 a 11 b 11 + .+g q c kq a 1q b 1q g 1 c k1 a 11 b n1 + .+g q c kq a 1q b nq g1ck1a21b11+ .+gqckqa2qb1q g1ck1a21bn1+ .+gqckqa2qbnq

g1ck1am1b11+ .+gqckqamqb1q g1ck1am1bn1+ .+gqckqamqbnq

Để đảm bảo tính chính xác trong việc phân tích, chúng ta cần xác định rõ các biến số thuộc nhóm A, B hoặc C Ngoài ra, có thể áp dụng phương pháp viết mô hình CP bằng cách sử dụng tách Khatri - Rao trong ba dòng dữ liệu.

= (CB)A T +E(np×m), (3.5) trong õ g t ữủc bũ v oC;

= (AC)B T +E (mp×n) , (3.6) trong õ g t ữủc bũ v oA;

= (B A)C T +E(mn×p), (3.7) trong õ g t ữủc bũ v oB.

Ró r ng cõ mởt sỹ tữỡng ỗng giỳa mổ hẳnh (2.1) và mổ hẳnh (3.1), cũng như giữa Hẳnh (2.1) và Hẳnh (3.4) Ba (A, B, C) thỏa mãn mổ hẳnh CP được gọi là nghiằm cừa mổ hẳnh CP hoặc xĐp x¿ hÔng q cừa X Các ma trên A, B, C được gọi là các ma trên thành phần.

Náuq = rank(X)thẳ(A, B, C) là một chỉ số quan trọng trong việc đánh giá hiệu quả của CP Khi Náuq < rank(X) và kEk 2 nhọ nhĐt thẳ (A, B, C), điều này cho thấy CP đang hoạt động tối ưu hoặc đạt được hiệu suất tốt nhất của X Do đó, hÔng cừa X được xác định là số q nhọ nhĐt, đảm bảo rằng X có thể phân tách CP một cách hiệu quả nhất.

Thuêt toĂn tẳm nghiằm CP cừa mởt mÊng

Trong phần này, chúng ta sẽ giới thiệu các trồng số trong mô hình (3.1) đã được đưa vào trong ma trên C Thuật toán đơn giản nhất phù hợp với mô hình CP được gọi là thuật toán bậc phương tối thiểu luơn phiản (ALS), có giải thuật như sau:

• Bữợc 1 Khði tÔo vợi cĂc ma trênA, B, C bĐt kẳ, ta cõ: ε o =l(A, B, C) p

• Bữợc 2 VợiB v C cố ành, tẳm A tốt nhĐt theo cổng thực sau:

• Bữợc 3 VợiA v C cố ành, tẳmB tốt nhĐt theo cổng thực sau:

• Bữợc 4 VợiA v B cố ành, tẳm C tốt nhĐt theo cổng thực sau: ck

• Bữợc 5 L°p lÔi cĂc bữợc 1, 2, 3, 4 cho án khi εo < ε vợi ε > 0 cho trữợc n o â.

Vẵ dử

Cho X l mÊng cù3ì3ì2vợi hai lĂt cưt chẵnh diằn

Vợi q = 3, bơng cĂch sỷ dửng phƯn mãm Matlab vợi ε = 10 −7 , ta nhên ữủc nghiằm

, v cĂc trồng số tữỡng ựng l g 1 = 2258.674, g 2 = 2324.58,g 3 = 4579.80.

Mổ hẳnh Tucker3

Mổ hẳnh

Nôm 1966, Tucker ữa ra mổ hẳnh Tucker3, ữủc ành nghắa nhữ sau

Dạng hình nhân thể hiện rõ ràng mối quan hệ giữa các mảng trong không gian R^n, đặc biệt là trong mổ hình Tucker3 Với các biến q, r, s và g, khi t, u, v không đồng nhất, ta có thể áp dụng mổ hình (3.8) để phân tích các cấu trúc phức tạp Các mảng A, B, và C trong không gian R^m, R^n, và R^p tương ứng, cho phép ta hiểu rõ hơn về sự tương tác giữa các yếu tố trong mô hình Mổ hình Tucker3 có thể được sử dụng để khai thác thông tin từ các dữ liệu thực tế một cách hiệu quả.

 a 1t b 1u a 1t b 2u a 1t b nu a 2t b 1u a 2t b 2u a 2t b nu a mt b 1u a mt b 2u a mt b nu

B T +E k (12) , trong õ G v ∈R qìr l lĂt cưt chẵnh diằn thự v cừa G Tứ õ, chúng ta cõ thº viát mổ hẳnh Tucker3 dữợi dÔng ma trên nhữ sau:

Ps v=1c 1v BG T v sum s v=1 c pv BG T v

G 1 ã ã ã G s i Khi õ, ta cõ thº mổ tÊ mội phƯn tỷ cừaX nhữ sau:

X v=1 a it b ju c kv g tuv Náu r=s=pv G l mÊng cĐpqìqìq siảu ch²o vợi q lĂt cưt chẵnh diằn sau

 , thẳ kẵ hiằu cừa mổ hẳnh CP(3.1)ữủc phĂt biºu lÔi dữợi dÔngX = (A, B, C).G+E.

Mổ hẳnh Tucker3 cõ thº ữủc thỹc hiằn bði thuêt toĂn ALS Vợiq ≤m, r≤n, s≤p, mổ hẳnh Tucker3 s³ cho chúng ta mởt xĐp x¿ hÔng(q, r, s)a tuyán tẵnh tốt nhĐt cừa

Thuêt toĂn

°t X = Xmìnp = X npìm T , trong õ Xnpìm ữủc xĂc ành nhữ trong (3.9) Nhớ Kroonenberg and De Leeuw (1980), mổ hẳnh Tucker3 trð nản phũ hủp bơng cĂch giÊm thiºu h m sau:

, (3.10) vợi giÊ thiátA,B v C l cĂc ma trên trỹc giao Thuêt toĂn ALS cho mổ hẳnh Tucker3 (3.9) ữủc thỹc hiằn nhữ sau:

• Bữợc 1 Khði tÔo vợi B, C bĐt kẳ.

• Bữợc 2 Tẵnh ma trên A l ma trên gỗm q v²ctỡ kẳ dà Ưu tiản cừa ma trên

• Bữợc 3 Tẵnh ma trên B l ma trên gỗm r v²ctỡ kẳ dà Ưu tiản cừa ma trên

• Bữợc 4 Tẵnh ma trên C l ma trên gỗm s v²ctỡ kẳ dà Ưu tiản cừa ma trên

• Bữợc 7 L°p lÔi cĂc bữợc 1, 2, 3, 4, 5, 6 cho án khi ε o < ε vợi ε cho trữợc n o â.

Mối quan hằ giỳa CP v Tucker3

Mởt trong những tỉnh nông nghiệp đẹp nhất của CP là tỉnh duy nhất của nó Tỉnh duy nhất của nghiệp thường được quản lý chặt chẽ cho một mảng đất đai chính phủ hợp lý Chúng ta cần xem xét các trồng sống trong các ma trận trên thành phần Có thể thấy rõ các ma trận trên thành phần (A, B, C) trong việc quản lý có thể thay đổi kích thước và hoàn thiện các cấu trúc của A, B, C Thực tế, nếu (A, B, C) là nghiệp của các ma trận thì A, B, C.

Trong bài viết này, chúng ta sẽ khám phá các ma trận (AP, BP, CP) và mối quan hệ giữa chúng thông qua các tham số T a, T b, T c Các ma trận này đóng vai trò quan trọng trong việc xác định hướng chuyển động, với điều kiện T a, T b, T c = I q Việc lựa chọn các ma trận này cần được thực hiện cẩn thận để đảm bảo tính duy nhất và chất lượng của chúng.

(A, B, C) l nghiằm CP thẳ ối vợi ma trên P 

P j=1 a j ◦b j ◦c j náu v ch¿ náuα j β j γ j = 1, j= 1,2,3. Vẳ vêy A, B, C

Trong bài viết này, chúng ta sẽ khám phá các ma trận A, B, C và G trong Tucker3, một cấu trúc quan trọng trong phân tích tensor Đặc biệt, chúng ta sẽ xem xét các ma trận này trong không gian R, cùng với các yếu tố khác như V và W, để hiểu rõ hơn về sự biến đổi của chúng trong hệ thống.

. iãu n y cõ nghắa l chúng ta cõ thº quay cĂc ma trên th nh phƯn v mÊng core tứ

Một phương pháp quay xiên có thể được cấu trúc đơn giản trong mạng score, như đã được chỉ ra trong Kiers (1998b) Bên cạnh đó, một phương pháp quay trực giao cũng có thể được cấu trúc đơn giản trong mạng score, theo Kiers (1998a).

Các yêu cầu kiên định cho tình duy nhất nhằm cải thiện mô hình CP hiện nay hữu ích trong việc giải quyết một cách toàn diện Đồng thời, các yêu cầu kiên định của mô hình Tucker cũng được đề xuất cho một số trường hợp hợp đặc biệt.

Luên vôn Â Ôt ữủc mởt số kát quÊ sau:

Tóm tắt về hai mô hình phân tích hai chiều, bao gồm Phân tích giá trị riêng (SVD) và Phân tích thành phần chính (PCA), cùng với một số ứng dụng của hai mô hình này.

2 Nghiản cựu, trẳnh b y lÔi hai mổ hẳnh phƠn tẵch ba chiãu, õ l Mổ hẳnh CP v

Mổ hẳnh Tucker3, v mối quan hằ giỳa hai mổ hẳnh n y.

M°c dũ Â rĐt cố gưng những luên vôn s³ khổng trĂnh khọi nhỳng thiáu sõt, kẵnh mong nhên ữủc nhỳng ỵ kián õng gõp cừa Quỵ ThƯy, Cổ v cĂc bÔn º luên vôn ữủc ho n thiằn hỡn.

[1] Nguyạn Duy Thuên, Phi MÔnh Ban, Nổng Quốc Chinh, Ôi số tuyán tẵnh, Nh xuĐt bÊn Ôi hồc Sữ phÔm, (2003).

[2] Vụ Hỳu Tiằp, Machine Learning cỡ bÊn, Nh xuĐt bÊn Khoa hồc v Kÿ thuêt, (2018).

[3] Aapo Hyv¨arinen, Principal component analysis, Based on material from the book Natural Image Statistics to be published by Springer-Verlag in 2009, 2009.

[4] Carl D Meyer, Matrix analysis and applied lineara, SIAM, Philadelphia 2000.

[5] Caroll J D and Chang J J, Analysis of individual differences in multidimensional scaling via an n-way generalization of Eckart-Young decomposition, Psychome- trika, 35 (30), p.283-319, 1970.

[6] David C Lay, Linear algebra and its applications, Addison-Wesley, Reading, MA, 1994.

[7] Harshman R A., Foundations of Parafac procedure: Models and conditions for an

"explanatory" multimodal factor analysis, UCLA Working papers in Phonetics,

[8] I J Good, Some applications of the singular value decomposition of matrix Tech- nometrics, 11, p.823 - 831, 1969.

[9] Kruskal J B., Rank, decomposition and uniqueness for three-way and N-way ar- rays, In R Coppi & S Bolassco (Eds.), Multiway data analysis, Elsevier Science Publisher B.V (North Holland), 1989.

[10] Lam Thi Thanh Tam, Some new methods for three-mode factor analysis and multi- set factor analysis, PhD Thesis, University of Groningen, The Netherlands 2015.

[11] Stewart G W., On the early history of the singular value decomposition, SIAM Review, 35, p.551 - 566, 1993.

[12] Thomas S Sgores, Applied linear algebra and matrix analysis, Springer, 2000. Tham khÊo trản Internet:

[13] Website: https://tuanvanle.wordpress.com/2013/12/25/phuong- phap-phan-tich-thanh-phan-chinh-principal-component-analysis- pca/?fbclid=IwAR1NNGSbA5WSa0hydV7FmNv90zYigO_OzBcZ02z8iXyORl99 tzYhvcLzO5s.

Tiêu đề	Một Số Mô Hình Phân Tích Thành Phần Chính Ba Chiều
Tác giả	Nguyễn Thái Mỹ
Người hướng dẫn	TS. Lê Thà Thanh Tâm
Trường học	Trường Đại Học Quy Nhơn
Chuyên ngành	Luận Văn Thạc Sĩ Toán Học
Thể loại	luận văn
Năm xuất bản	2020
Thành phố	Hồ Chí Minh

Định dạng
Số trang	58
Dung lượng	2,9 MB