TỔ NG QUAN V Ề NH Ậ N D Ạ NG C Ả M XÚC
Nh ậ n d ạ ng c ả m xúc thông qua tín hi ệ u gi ọ ng nói
Giọng nói là công cụ quan trọng để nhận biết cảm xúc của con người Khi tức giận và căng thẳng, giọng nói thường to hơn, nhanh hơn và có ngữ điệu không ổn định Ngược lại, trong trạng thái bình thường, giọng nói có âm lượng ổn định, tốc độ nói trung bình và biên độ không thay đổi đột ngột.
Nhiều nghiên cứu đã áp dụng các phương pháp nhận dạng cảm xúc với độ chính xác khác nhau, như mô hình HMM đạt 86%, mô hình SVM và NN với 84,2% và 80,8% tương ứng Sử dụng GMM cho kết quả 78,14%, trong khi kỹ thuật phân lớp SVM nhận dạng 4 trạng thái cảm xúc đạt 68,2%.
Nh ậ n d ạ ng c ả m xúc thông qua bi ể u c ả m khuôn m ặ t
Nhận diện cảm xúc qua biểu cảm khuôn mặt là một lĩnh vực quan trọng trong xử lý ảnh, nơi mà khuôn mặt đóng vai trò trung tâm trong việc nhận biết cảm xúc Những đặc điểm như lông mày, hình dạng miệng, mũi, nếp nhăn và độ mở của mắt giúp xác định trạng thái cảm xúc của một người Chẳng hạn, khi vui vẻ, miệng sẽ mở rộng, hướng lên, má nâng cao và có nếp nhăn quanh mắt Hình 1.2 minh họa các biểu cảm khuôn mặt của cùng một người trong những trạng thái cảm xúc khác nhau.
Hình 1.2 Một số trạng thái cảm xúc qua biểu hiện khuôn mặt [6]
Một số nghiên cứu trong lĩnh vực này có thể kểđến là, nghiên cứu nhận dạng
Nghiên cứu của B A Dixit và A N Gaikwad cho thấy 6 loại cảm xúc đạt độ chính xác 81,66%, trong khi S Ashok Kumar kết hợp dữ liệu ảnh và giọng nói với độ chính xác 60% Một nghiên cứu khác sử dụng mô hình 3D khuôn mặt kết hợp với mô hình phân lớp KNN đạt 82% khi nhận diện 7 loại cảm xúc Ngoài ra, mô hình SVM và HMM lần lượt đạt độ chính xác 95% và 82,46% trong việc nhận dạng cảm xúc.
Phương pháp nhận dạng cảm xúc qua hình ảnh biểu cảm trên khuôn mặt có ưu điểm là dễ dàng thu thập dữ liệu và có lượng tập dữ liệu lớn, vượt trội so với phương pháp sử dụng tín hiệu sinh học Tuy nhiên, việc biểu hiện cảm xúc trên khuôn mặt có thể bị làm giả hoặc thể hiện một cách miễn cưỡng, không tự nhiên, dẫn đến kết quả nhận dạng không đáng tin cậy.
Nh ậ n d ạ ng c ả m xúc thông qua tín hi ệ u sinh h ọ c
Để thu thập tín hiệu sinh học, các cảm biến được gắn lên cơ thể người Hình 1.3 minh họa các vị trí phổ biến để lắp đặt một số loại cảm biến sinh học.
Hình 1.3 Vị trí gắn các cảm biến sinh học [12]
Các tín hiệu nhận dạng cảm xúc bao gồm xung thể tích máu (BVP), điện não đồ (EEG), điện tâm đồ (ECG), điện dẫn da (GSR – SC), nhịp tim (HR), huyết áp (BP) và nhịp thở (RSP) Cảm xúc có thể được kích thích qua nhiều phương thức khác nhau như video và âm nhạc Nghiên cứu về nhận dạng cảm xúc bằng tín hiệu sinh học đã đạt được những kết quả đáng chú ý, với điện não đồ cho tỉ lệ chính xác 75,18% và mô hình LSTM đạt tỉ lệ 74,38%.
Nhận diện cảm xúc là một lĩnh vực quan trọng trong tâm lý học, với khả năng xác định bốn cảm xúc chính: vui vẻ, giận dữ, buồn chán và hạnh phúc, đạt tỷ lệ chính xác lên đến 76% Ngoài ra, việc nhận diện hai trạng thái cảm xúc tiêu cực và tích cực cũng cho thấy tỷ lệ chính xác 73,10%.
Phương pháp SVM sử dụng tín hiệu tự nhiên từ cơ thể con người để đánh giá trạng thái cảm xúc, mang lại độ tin cậy cao Tuy nhiên, nhược điểm của nó là yêu cầu thiết lập hệ đo phức tạp trước khi thu thập dữ liệu, làm cho quá trình lấy mẫu khó khăn hơn so với các phương pháp như giọng nói hay biểu cảm khuôn mặt Hơn nữa, việc gán nhãn các trạng thái cảm xúc dựa trên tín hiệu không trực quan và phụ thuộc vào việc kích thích phù hợp cũng như khả năng nhận diện chính xác cảm xúc của người tham gia, điều này có thể ảnh hưởng đến độ chính xác của phương pháp.
• Bộ dữ liệu sinh học của MIT
Bộ dữ liệu sinh học của MIT được thiết kếđể phân loại tối đa lên đến 8 loại cảm xúc khác nhau bao gồm:
+ Trung tính: cảm giác thông thường, trung lập
+ Tức giận: giận dữ, mong muốn được giải tỏa bằng các hình thức bạo lực + Ghét bỏ: trạng thái bịđộng của cảm xúc tức giận
+ Đau buồn: sự mất mát, buồn chán, thất vọng
+ Đồng cảm: vui vẻ, cảm thấy yên bình
+ Lãng mạn: cảm thấy thu hút, thích thú
+ Vui vẻ: cảm giác hạnh phúc
Để nghiên cứu trạng thái ngưỡng mộ và kính trọng, các nhà khoa học tại MIT đã gắn bốn loại cảm biến lên một đối tượng thử nghiệm, bao gồm cảm biến điện cơ đồ, điện dẫn da, xung thể tích máu và cảm biến hô hấp Đối tượng được kích thích cảm xúc thông qua các video tương ứng, trong khi không biết mục đích thí nghiệm nhằm đảm bảo tính khách quan Mặc dù quá trình đo kéo dài nhiều ngày, một số ngày dữ liệu bị lỗi do yếu tố môi trường hoặc thiết bị không ổn định Sau khi loại bỏ các ngày không hợp lệ, dữ liệu còn lại gồm 20 ngày đo, mỗi ngày ghi nhận giá trị cho tám loại cảm xúc khác nhau Các hình từ Hình 1.4 đến Hình 1.9 minh họa giá trị thu được từ bốn cảm biến tương ứng với các cảm xúc, với mỗi đoạn dữ liệu chứa 2000 điểm đo trong 100 giây thực tế.
Một ngày được ghi nhận với 8 cảm xúc, mỗi cảm xúc tương ứng với 4 đoạn dữ liệu từ 4 cảm biến khác nhau, tổng cộng thu thập 32 đoạn dữ liệu cho một ngày và 640 đoạn dữ liệu cho 20 ngày Nghiên cứu [17] trên bộ dữ liệu MIT cho thấy tỉ lệ nhận dạng chính xác đạt 72,5% khi phân loại 4 trạng thái cảm xúc: tức giận, đau buồn, vui vẻ và tôn kính.
Bộ dữ liệu được công bố tại: https://www.media.mit.edu/groups/affective- computing/data/
Hình 1.4 Các tín hiệu tương ứng với trạng thái cảm xúc trung tính
Hình 1.5 Các tín hiệu tương ứng với trạng thái cảm xúc tức giận
Hình 1.6 Các tín hiệu tương ứng với trạng thái cảm xúc ghét bỏ
Hình 1.7 Các tín hiệu tương ứng với trạng thái cảm xúc đau buồn
Hình 1.8 Các tín hiệu tương ứng với trạng thái cảm xúc đồng cảm
Hình 1.9 Các tín hiệu tương ứng với trạng thái cảm xúc lãng mạn
Hình 1.10 Các tín hiệu tương ứng với trạng thái cảm xúc vui vẻ
Hình 1.11 Các tín hiệu tương ứng với trạng thái cảm xúc tôn trọng
Như bước tiếp cận ban đầu, xét 2 trạng thái cảm xúc trung tính và tức giận để quan sát thể hiện của các tín hiệu sinh học:
Tín hiệu điện cơ đồ thể hiện trạng thái cảm xúc trung tính với biên độ dao động thấp hơn, cụ thể là biên độ cực đại chỉ đạt 25, so với các trạng thái cảm xúc khác.
9 tức giận (biên độ cực đại > 60), đồng thời số lần đạt giá trị đỉnh của cảm xúc tức giận nhiều hơn so với cảm xúc trung tính
Độ điện dẫn da cho thấy rằng trong trạng thái cảm xúc tức giận, giá trị này có xu hướng giảm dần, trong khi ở trạng thái cảm xúc trung tính, giá trị này chỉ chênh lệch rất nhỏ.
Xung thể tích máu cho thấy rằng biên độ dao động của trạng thái cảm xúc trung tính thấp hơn, chỉ từ 3 đến 4 và có xu hướng giảm, trong khi đó trạng thái cảm xúc tức giận có biên độ dao động cao hơn, từ 4,5 đến 7.
Cảm biến hô hấp cho thấy biên độ dao động của trạng thái cảm xúc trung tính nằm trong khoảng từ 43 đến 47, với nhiều lần giá trị đạt đỉnh Trong khi đó, trạng thái cảm xúc tức giận có biên độ dao động từ 42 đến 50.
Các trạng thái cảm xúc có sự khác biệt về biên độ dao động, số đỉnh và xu hướng tăng giảm, điều này cho thấy khả năng phân loại cảm xúc thông qua bộ dữ liệu sinh học của MIT, dựa trên các đặc trưng tín hiệu trong miền thời gian.
HỌ C MÁY VÀ Ứ NG D Ụ NG TRONG NH Ậ N D Ạ NG C Ả M XÚC
L ự a ch ọn đặc trưng
Phương pháp lựa chọn đặc trưng giúp giảm số lượng đầu vào trước khi áp dụng vào mô hình dự đoán của học máy Việc có quá nhiều đầu vào không chỉ tiêu tốn bộ nhớ mà còn làm tăng thời gian huấn luyện, ảnh hưởng đến hiệu suất của mô hình.
Việc loại bỏ 12 đặc trưng không cần thiết có thể làm giảm độ nhiễu trong khả năng dự đoán của mô hình Chọn lọc đặc trưng không chỉ giúp tiết kiệm thời gian tính toán mà còn có thể cải thiện chất lượng dự đoán tổng thể của mô hình.
Hình 2.2 Lựa chọn đặc trưng
Việc lựa chọn các phương pháp đánh giá ảnh hưởng của các đặc trưng đến giá trị dự đoán là rất quan trọng, nhằm xác định những đặc trưng có tác động lớn nhất Tuy nhiên, việc chọn phương pháp phù hợp cần phải được nghiên cứu kỹ lưỡng dựa trên từng yêu cầu cụ thể của bài toán Có ba phương pháp chính để lựa chọn đặc trưng.
The process involves identifying the optimal subset of features from the original set, with Recursive Feature Elimination (RFE) being a typical algorithm used for this purpose.
Để tối ưu hóa giá trị cần đạt được, cần tính toán sự tương đồng và ảnh hưởng của từng đặc trưng Sau đó, lựa chọn những đặc trưng có sự tương đồng và ảnh hưởng lớn nhất Các thuật toán đặc trưng trong phương pháp này bao gồm Chi-Squared và Pearson Correlation.
• Sử dụng các thuật toán mà ởđó có sẵn phần lựa chọn đặc trưng, như Lasso hay Random Forrest
RFE (Recursive Feature Elimination) là một thuật toán chọn lọc đặc trưng kiểu đóng gói, sử dụng một giải thuật để đánh giá mức độ quan trọng của từng đặc trưng trong dữ liệu Thuật toán này bắt đầu với tất cả các đặc trưng, sau đó loại bỏ dần các đặc trưng ít ảnh hưởng đến kết quả, lặp lại quá trình này cho đến khi đạt được kết quả tốt nhất hoặc số lượng đặc trưng mong muốn Hình 2.3 minh họa sơ đồ hoạt động của thuật toán RFE.
Hình 2.3 Sơ đồ hoạt động thuật toán RFE
2.1.2 Pearson Correlation và Chi-Squared Đây là hai phương pháp điển hình của lớp các phương pháp trích chọn đặc trưng thứ hai, dựa trên tính toán sựảnh hưởng của từng đặc trưng đến kết quả cần đạt, bằng công thức Pearson Correlation (2.1), hoặc Chi-Squared (2.2)
( 2.1 ) trong đó 𝑥𝑥̅,𝑦𝑦� là giá trịtrung bình tướng ứng của 𝑥𝑥 và 𝑦𝑦
( 2.2 ) với 𝑂𝑂 𝑖𝑖 là giá trị nhận được và 𝐸𝐸𝑖𝑖 là giá trị mong muốn của mẫu thứ i
Sau khi tính toán, thuật toán sẽ lựa chọn những đặc trưng có mức độ quan trọng nhất đến kết quả cần đạt được
Phân l ớ p và ra quy ết đị nh nh ậ n d ạ ng
Support Vector Machine (SVM) là một thuật toán học máy có giám sát, chủ yếu được áp dụng trong các bài toán phân loại Thuật toán này hoạt động bằng cách tìm kiếm một siêu phẳng để phân tách các điểm dữ liệu thuộc các lớp khác nhau Trong các bài toán phân loại hai lớp, tập huấn luyện bao gồm m điểm dữ liệu.
𝑝𝑝 =�𝑥𝑥 𝑖𝑖, 𝑦𝑦𝑖𝑖��𝑥𝑥 𝑖𝑖 ∈ 𝑅𝑅 𝑝𝑝 ,𝑦𝑦𝑖𝑖 ∈ (−1,1) 𝑖𝑖=1 𝑚𝑚 ( 2.3 ) Trong đó x là vector có số chiều là p, y là nhãn dán của dữ liệu, giá trị là -1 hoặc
1 Siêu phẳng được viết dưới dạng: w.x + b = 0 Khi đó khoảng cách từ một điểm bất kì tới siêu phẳng đó là:
Với ‖𝑤𝑤‖ 2 = �∑ 𝑤𝑤 𝑑𝑑 𝑖𝑖=1 𝑖𝑖 2 , d là số chiều của không gian
Thuật toán SVM nhằm tìm kiếm các tham số W và b để tối đa hóa khoảng cách từ các điểm gần nhất đến siêu phẳng Như thể hiện trong Hình 2.4, đường thẳng phân chia dữ liệu của hai lớp đảm bảo khoảng cách tối đa từ hai điểm gần nhất của mỗi lớp đến đường thẳng này Hàm mục tiêu của SVM là tối ưu hóa khoảng cách này.
Nhận xét thấy w.xi + b > 1 khi i thuộc lớp 1 và w.xi + b < 1 khi i thuộc lớp -1, và y luôn cùng dấu với w.xi + b, nên yi.(w.x + b) > 1 với mọi 1 ≤ i < m Bài toàn tối ưu trở thành:
Hình 2.4 Đường thẳng phân cách điểm dữ liệu của 2 lớp [20]
Trong các bài toán phân loại, dữ liệu thường không thể phân tách tuyến tính Thuật toán SVM sử dụng các hàm nhân để chuyển đổi dữ liệu sang không gian mới, giúp việc phân tách dữ liệu trở nên dễ dàng hơn Hình 2.5 minh họa cách SVM hoạt động trong quá trình chuyển đổi dữ liệu.
Hình 2.5 Chiếu dữ liệu lên không gian nhiều chiều hơn
Hàm nhân giúp chuyển đổi dữ liệu được định nghĩa:
Trong bài toán phân loại nhận dạng cảm xúc, hàm kernel RBF được sử dụng để chiếu vector dữ liệu x lên không gian mới, cho thấy hiệu quả vượt trội so với các hàm kernel khác như polynomial và chi-square Cụ thể, công thức tính độ tương đồng giữa hai vector x_i và x_j được biểu diễn bằng 𝐾(𝑥𝑖,𝑥𝑗) = 𝜃(𝑥𝑖) ∗ 𝜃(𝑥𝑗).
Thuật toán Phân tích Phân biệt Tuyến tính (Linear Discriminant Analysis) là một phương pháp giảm chiều dữ liệu hiệu quả cho các bài toán phân loại Số chiều của dữ liệu sau khi giảm sẽ tối đa là C-1, trong đó C đại diện cho số lượng nhóm phân loại.
Hình 2.6 Phép chiếu lên đường thẳng [21]
Trong Hình 2.6, dữ liệu được chiếu lên hai đường thẳng a (bên trái) và b (bên phải) Chiếu lên đường thẳng a, việc phân loại hai lớp gặp khó khăn do sự chồng lấn của các điểm Ngược lại, khi chiếu xuống đường thẳng b, các điểm dữ liệu được phân tách rõ ràng, giúp bài toán phân loại trở nên dễ dàng hơn Do đó, đường thẳng b là lựa chọn lý tưởng trong bài toán phân loại sử dụng thuật toán LDA.
Thuật toán LDA nhằm tìm kiếm phép chiếu tối ưu, giúp tối đa hóa tỉ lệ giữa độ lệch chuẩn của từng lớp và độ lệch chuẩn giữa các điểm dữ liệu trong lớp đó Phép chiếu dữ liệu X lên không gian Y mới được xác định theo cách này.
𝑌𝑌 = {𝑦𝑦 𝑖𝑖𝑖𝑖 = 𝑤𝑤 𝑇𝑇 𝑥𝑥 𝑖𝑖𝑖𝑖 |𝑖𝑖 = (1, ,𝑐𝑐);𝑘𝑘 = (1, ,𝑛𝑛 𝑖𝑖 )} ( 2.8 ) Giá trị trung bình của lớp là 𝜇𝜇 𝑖𝑖 = 𝑁𝑁 1
𝑘𝑘∑ 𝑛𝑛∈𝐶𝐶 𝑘𝑘 𝑥𝑥 𝑛𝑛 v ớ i N là s ố lượng điể m c ủ a l ớp đó Độ lệch chuẩn giữa các điểm trong 1 lớp được định nghĩa:
Ta có công thức ma trận hiệp phương sai giữa các lớp:
Và ma trận hiệp phương sai giữa các dữ liệu trong một lớp:
Với 𝑆𝑆 𝑊𝑊 𝑥𝑥 và 𝑆𝑆 𝐵𝐵 𝑥𝑥 được tính theo công thức:
Hàm mục tiêu của thuật toán LDA có công thức:
Cây quyết định (Decision Tree - DT) là một mô hình học có giám sát, thường được sử dụng cho các bài toán phân loại Mô hình này dự đoán kết quả bằng cách đưa ra các lựa chọn tại mỗi điểm trong cây Quá trình bắt đầu từ gốc cây, sau đó dựa vào giá trị của các đặc trưng để di chuyển qua các nhánh, cuối cùng dẫn đến các lá, nơi đưa ra giá trị dự đoán Hình 2.7 minh họa cấu trúc của mô hình Cây quyết định.
Hình 2.7 Mô hình Decision Tree [23]
Thuật toán ID3 là một phương pháp xây dựng cây quyết định dựa trên công thức Entropy Nó sử dụng phân phối xác suất của biến rời rạc x, cho phép biến này nhận các giá trị khác nhau như x1, x2, và nhiều giá trị khác.
…, xn Khi đó xác suất x nhận các giá trị đó là pi = p(x = xi) với 0 ≤ pi ≤ 1 và
∑ 𝑝𝑝 𝑛𝑛 𝑖𝑖=1 𝑖𝑖 = 1 Entrophy của phân phối này được định nghĩa:
Trong bài toán phân loại với C lớp khác nhau, tại một node không phải là lá, tập dữ liệu S gồm N phần tử, với mỗi lớp có Nc phần tử Entropy tại node này được tính dựa trên sự phân bố của các lớp trong tập dữ liệu.
Với thuộc tính x, các điểm dữ liệu chia thành K node con S1, S2,…, SK với số lượng điểm dữ liệu là m1, m2,…, mk Ta có:
𝑖𝑖=1 ( 2.19 ) là tổng trọng số entropy mỗi node con Định nghĩa thông tin mang lại của thuộc tính x:
Bài toán tại mỗi node trở thành:
𝑥𝑥 𝐺𝐺(𝑥𝑥,𝑆𝑆) = 𝑡𝑡𝑟𝑟𝑎𝑎min 𝑥𝑥 𝐻𝐻(𝑥𝑥,𝑆𝑆) ( 2.21 ) Ngoài thuật toán ID3 thì thuật toán CART (Classification And Regression Tree) cũng được dùng trong mô hình Decision Tree sử dụng công thức Gini:
Mô hình Decision Tree có ưu điểm dễ sử dụng, tuy nhiên rất dễ bị tình trạng overfitting dữ liệu
Random Forest (RF) là một thuật toán phân loại mạnh mẽ, sử dụng nhiều cây quyết định để xử lý dữ liệu huấn luyện Thuật toán này hoạt động bằng cách tổng hợp các dự đoán từ các cây để đưa ra dự đoán cuối cùng dựa trên số lượng dự đoán nhiều nhất Việc tăng số lượng cây trong mô hình giúp cải thiện độ chính xác và giảm thiểu nguy cơ overfitting, một vấn đề thường gặp khi chỉ sử dụng cây quyết định đơn lẻ Hình 2.8 minh họa rõ ràng cách hoạt động của mô hình Random Forest.
Các bước thực hiện khi xây dựng một mô hình Random Forest bao gồm:
• Chọn K dữ liệu từ tập huấn luyện
• Xây dựng mô hình Decision Tree với K dữ liệu đó
• Lặp lại 2 bước trên cho đến khi đạt được số lượng Decision Tree mong muốn
Khi dự đoán dữ liệu mới, hãy sử dụng các cây quyết định đã được xây dựng trước đó Kết quả dự đoán cuối cùng sẽ là dự đoán có số lần xuất hiện nhiều nhất trong các kết quả dự đoán.
Hình 2.8 Mô hình Random Forest [24]
Mô hình Random Forest cho kết quả cao hơn so với Decision Tree và giúp tránh tình trạng overfitting Tuy nhiên, quá trình xây dựng mô hình Random Forest mất nhiều thời gian hơn vì cần tạo ra nhiều Decision Tree, và nó không phù hợp khi dữ liệu có quá nhiều đặc trưng.
Áp d ụ ng v ớ i b ộ d ữ li ệ u MIT
2.3.1 Các bước thực hiện Để áp dụng các thuật toán phân lớp để nhận dạng lên bộ dữ liệu MIT, cần tiến hành trải qua các bước:
Bộ dữ liệu nhận dạng cảm xúc của MIT được thu thập trong 20 ngày, với mỗi ngày ghi lại 8 loại cảm xúc khác nhau Mỗi cảm xúc được đo bằng 4 đoạn giá trị trong vòng 100 giây, tương đương với 2000 điểm dữ liệu, thu thập từ 4 cảm biến.
Dữ liệu hàng ngày từ các cảm biến sẽ được phân chia thành các đoạn 10 giây, mỗi đoạn chứa 200 điểm dữ liệu Mỗi mẫu sẽ bao gồm 4 đoạn dữ liệu này.
10 giây tách rời của 4 loại cảm biến, tổng cộng 1 ngày sẽ có 80 mẫu, và tổng cộng là 1600 mẫu cho 20 ngày đo.
Trong trường hợp tổ chức dữ liệu đầu vào với 10 giây có chồng chập, lượng mẫu sẽ lớn hơn tùy thuộc vào tỷ lệ chồng chập được sử dụng Việc xây dựng dữ liệu có chồng chập sẽ được thực hiện và trình bày trong chương sau Chương này sẽ tập trung vào việc thử nghiệm các thuật toán phân lớp khác nhau trên bộ dữ liệu 10 giây không chồng chập Kết quả thu được sẽ là cơ sở cho việc chọn thuật toán học máy “tốt nhất” nhằm nâng cao độ chính xác nhận dạng qua xử lý dữ liệu huấn luyện.
• Tính toán các giá trị đặc trưng
Sau khi chia tách dữ liệu, mỗi đoạn giá trịthu được cần được tính ra các đặc trưng cho mỗi đoạn Các giá trị đặc trưng bao gồm:
+ Giá trị lớn nhất: Xmax
+ Giá trị nhỏ nhất: Xmin
+ Giá trị chênh lệch trung bình tuyệt đối 2 tín hiệu liên tiếp của dữ liệu:
+ Giá trị chênh lệch trung bình tuyệt đối 2 tín hiệu liên tiếp của dữ liệu chuẩn hóa:
𝜎𝜎 𝑋𝑋 ( 2.30 ) + Giá trị chênh lệch trung bình tuyệt đối 2 tín hiệu cách nhau của dữ liệu:
+ Giá trị chênh lệch trung bình tuyệt đối 2 tín hiệu cách nhau của dữ liệu chuẩn hóa:
• Lựa chọn đặc trưng cho mô hình
Sau khi tính toán các đặc trưng cho từng mẫu dữ liệu, bước tiếp theo là lựa chọn số lượng và các đặc trưng tối ưu cho từng mô hình nhận dạng Hình 2.9 cho thấy mối quan hệ giữa số lượng đặc trưng được chọn và tỷ lệ nhận dạng đúng của ba mô hình: Random Forest, SVM và Decision Tree.
Hình 2.9 Ảnh hưởng của lựa chọn đặc trưng lên các mô hình phân lớp
Theo Hình 2.9, các mô hình nhận dạng đạt hiệu quả tối ưu khi số lượng đặc trưng được chọn khoảng 20 Việc chọn quá ít hoặc quá nhiều đặc trưng sẽ làm giảm độ chính xác của cả ba mô hình Các đặc trưng có ảnh hưởng lớn đến mô hình đã được liệt kê.
+ Điện tâm đồ: giá trị trung bình, trung vị, giá trị nhỏ nhất, độ lệch chuẩn, phương sai, chênh lệch trung bình tuyệt đối 2 tín hiệu liên tiếp
+ Xung thể tích máu: giá trị trung vị, giá trị lớn nhất, nhỏ nhất, phương sai và độ lệch chuẩn
+ Điện dẫn da: giá trị trung bình, trung vị, giá trị lớn nhất, nhỏ nhất
+ Cảm biến hô hấp: giá trị trung bình, trung vị, lớn nhất, nhỏ nhất và chênh lệch trung bình tuyệt đối 2 tín hiệu liên tiếp
Để cải thiện kết quả nhận dạng, các mô hình phân lớp cần được hiệu chỉnh tham số đầu vào Dữ liệu thường được chia thành ba tập: tập huấn luyện, tập kiểm thử và tập đánh giá, nhằm đảm bảo tính độc lập cho tập đánh giá và ngăn chặn rò rỉ thông tin trong quá trình huấn luyện và kiểm thử Mô hình sẽ được huấn luyện trên tập huấn luyện, kiểm tra trên tập kiểm thử và điều chỉnh tham số để đạt kết quả tốt nhất Sau khi xác định được tham số phù hợp, mô hình sẽ được huấn luyện lại và đánh giá trên tập đánh giá Nếu dữ liệu không đủ lớn để chia thành ba tập, phương pháp cross-validation sẽ được áp dụng.
Hình 2.10 Phương pháp hiệu chỉnh tham số mô hình bằng cross-validation
Tập dữ liệu huấn luyện sẽ được chia thành n nhóm, thường là 5 hoặc 10 Trong mỗi lần lặp, một nhóm sẽ được sử dụng để kiểm thử, trong khi n-1 nhóm còn lại được dùng để huấn luyện mô hình Kết quả cuối cùng sẽ là trung bình của các kết quả thu được từ n lần lặp riêng biệt Hình 2.11 minh họa cách phương pháp cross-validation phân chia dữ liệu khi n = 5.
Hình 2.11 Cách chia dữ liệu với n = 5
2.3.2 Thử nghiệm lựa chọn mô hình phân lớp phù hợp
Với phương pháp chia tách dữ liệu 10 giây riêng biệt, tổng cộng thu được
Trong nghiên cứu này, 1600 mẫu được sử dụng, trong đó 160 mẫu (10%) được tách ra làm tập dữ liệu kiểm tra, còn lại 1440 mẫu được dùng để huấn luyện mô hình Sau khi áp dụng kỹ thuật lựa chọn đặc trưng và hiệu chỉnh tham số, các kỹ thuật phân lớp như LDA, SVM, DT và RF được sử dụng để nhận dạng cảm xúc Bảng 2.1 trình bày kết quả nhận dạng 8 trạng thái cảm xúc trên bộ dữ liệu MIT, với dữ liệu có độ dài 10 giây và không chồng chập.
Bảng 2.1 Kết quả nhận dạng cảm xúc của từng mô hình
Mô hình SVM RF DT LDA
Theo Bảng 2.1, mô hình SVM và Random Forest đạt tỷ lệ nhận dạng cao hơn, lần lượt là 71,88% và 75,00%, so với hai mô hình còn lại Do đó, hai mô hình này sẽ được lựa chọn để nghiên cứu phương pháp nâng cao chất lượng nhận dạng thông qua xử lý dữ liệu đầu vào, sẽ được trình bày trong Chương 3.
Hình 2.12 và Hình 2.13 trình bày kết quả nhận dạng các trạng thái cảm xúc bằng hai kỹ thuật SVM và Random Forest Tỉ lệ nhận dạng đúng của từng trạng thái cảm xúc được thể hiện trên đường chéo chính, trong khi các phần tử ngoài đường chéo chính phản ánh tỉ lệ nhận dạng nhầm giữa các loại cảm xúc.
Hình 2.12 Kết quả nhận dạng bằng mô hình SVM với dữ liệu không chồng chập
Hình 2.13 Kết quả nhận dạng bằng mô hình RF với dữ liệu không chồng chập
Tỉ lệ nhận dạng đúng (trung bình cho cả 8 loại cảm xúc khác nhau) của mô hình SVM (sử dụng kernel RBF) và Random Forest lần lượt là 71,88% và 75,00%
Mô hình Random Forest cho kết quả tốt hơn so với mô hình SVM với tỷ lệ cải thiện khoảng 4% Trong khi mô hình SVM đạt tỷ lệ nhận dạng cao nhất là 90% cho hai trạng thái cảm xúc giận dữ và tôn trọng, thì trạng thái cảm xúc vui vẻ chỉ đạt 45% Tương tự, mô hình Random Forest cũng nhận dạng tốt nhất với hai trạng thái cảm xúc trung tính và tôn trọng (90%), nhưng có tỷ lệ nhận dạng thấp nhất cho trạng thái vui vẻ là 55%.
F1-Score của hai mô hình lần lượt đạt 71,44% và 74,72%, cho thấy cả hai vẫn chưa đạt tỉ lệ nhận dạng cao Để cải thiện chất lượng nhận dạng cho một kỹ thuật phân lớp, cần có dữ liệu đào tạo hợp lý hơn Chương 3 sẽ tập trung vào việc thử nghiệm giải pháp chồng chập dữ liệu đầu vào nhằm tăng số lượng mẫu huấn luyện và cải thiện tính đồng nhất về đặc điểm dữ liệu cho mỗi loại cảm xúc Qua đó, thông tin hữu ích cho các tập mẫu huấn luyện và thử nghiệm sẽ được làm giàu hơn.
TỔ CH Ứ C D Ữ LI ỆU ĐẦ U VÀO NÂNG CAO CH ẤT LƯỢ NG
T ỉ l ệ ch ồ ng ch ậ p 10%
Khi áp dụng giải pháp chồng chập dữ liệu với tỷ lệ 10%, tổng số mẫu huấn luyện thu được là 1600 mẫu Dữ liệu này được sử dụng để huấn luyện và kiểm tra hai mô hình phân lớp SVM và Random Forest Kết quả nhận dạng của hai kỹ thuật SVM và Random Forest trên tập dữ liệu được thể hiện trong Hình 3.3 và Hình 3.4.
Hình 3.3 Kết quả nhận dạng bằng mô hình SVM tỉ lệ chồng chập 10%
Hình 3.4 Kết quả nhận dạng bằng mô hình RF tỉ lệ chồng chập 10%
Mô hình SVM và Random Forest đạt tỷ lệ nhận dạng đúng lần lượt là 73,75% và 75,62% cho 8 trạng thái cảm xúc khác nhau Trong đó, SVM nhận dạng tốt nhất ở 3 trạng thái trung tính, giận dữ và tôn trọng với tỷ lệ 85%, trong khi đau buồn và vui vẻ có tỷ lệ thấp nhất là 55% Đối với Random Forest, trạng thái tôn trọng đạt tỷ lệ nhận dạng cao nhất là 95%, còn vui vẻ có tỷ lệ thấp nhất là 60% F1-Score của SVM và Random Forest lần lượt là 73,39% và 75,44%.
Với tỷ lệ chồng chập 10%, cả hai kỹ thuật SVM và RF cho kết quả nhận dạng cao hơn khi sử dụng dữ liệu không chồng chập Tuy nhiên, trung bình cho 8 trạng thái cảm xúc, độ chính xác của kết quả nhận dạng vẫn chưa đạt yêu cầu, khi chưa vượt qua 80%.
T ỉ l ệ ch ồ ng ch ậ p 20%
Khi áp dụng giải pháp chồng chập dữ liệu với tỷ lệ 20%, tổng số mẫu huấn luyện đạt được là 1760 mẫu Dữ liệu chồng chập này được sử dụng để huấn luyện và thử nghiệm hai mô hình phân lớp là SVM và Random Forest Kết quả nhận dạng từ hai mô hình này được thể hiện qua Hình 3.5 và Hình 3.6, cho thấy hiệu quả của việc sử dụng tập dữ liệu chồng chập 20%.
Hình 3.5 Kết quả nhận dạng bằng mô hình SVM tỉ lệ chồng chập 20%
Hình 3.6 Kết quả nhận dạng bằng mô hình RF tỉ lệ chồng chập 20%
Mô hình SVM và Random Forest đạt tỷ lệ nhận dạng đúng trung bình 76,25% cho 8 trạng thái cảm xúc khác nhau Trong đó, SVM nhận dạng tốt nhất ở hai trạng thái cảm xúc trung tính và ghét bỏ (90%), trong khi trạng thái lãng mạn có tỷ lệ thấp nhất (55%) Tương tự, Random Forest cũng cho kết quả tốt nhất với hai trạng thái tức giận và tôn trọng (90%), nhưng thấp nhất ở trạng thái lãng mạn (60%) F1-Score của SVM và Random Forest lần lượt là 76,16% và 76,07%.
T ỉ l ệ ch ồ ng ch ậ p 30%
Khi áp dụng giải pháp chồng chập dữ liệu với tỷ lệ 30%, tổng số mẫu huấn luyện đạt được là 1920 mẫu Dữ liệu này được sử dụng để huấn luyện và thử nghiệm hai mô hình SVM và Random Forest Hình 3.7 và Hình 3.8 thể hiện kết quả nhận dạng đạt được từ tập dữ liệu với tỷ lệ chồng chập 30%.
Hình 3.7 Kết quả nhận dạng bằng mô hình SVM tỉ lệ chồng chập 30%
Hình 3.8 Kết quả nhận dạng bằng mô hình RF tỉ lệ chồng chập 30%
Mô hình SVM và Random Forest đạt tỉ lệ nhận dạng đúng trung bình cho 8 trạng thái cảm xúc lần lượt là 78,12% và 77,5% Trong khi SVM nhận dạng tốt nhất với trạng thái cảm xúc trung tính (95%) và thấp nhất với ghét bỏ (65%), thì Random Forest cũng có kết quả tốt nhất với trạng thái tôn trọng (95%) và thấp nhất với ghét bỏ (60%) F1-Score của SVM và Random Forest lần lượt là 78,02% và 77,32%.
T ỉ l ệ ch ồ ng ch ậ p 40%
Khi áp dụng giải pháp chồng chập dữ liệu với tỷ lệ 40%, tổng số mẫu huấn luyện thu được là 2240 mẫu Tập dữ liệu này được sử dụng để huấn luyện và thử nghiệm hai mô hình là SVM và Random Forest Kết quả nhận dạng từ bộ dữ liệu với tỷ lệ chồng chập 40% được thể hiện trong Hình 3.9 và Hình 3.10.
Hình 3.9 Kết quả nhận dạng bằng mô hình SVM tỉ lệ chồng chập 40%
Hình 3.10 Kết quả nhận dạng bằng mô hình RF tỉ lệ chồng chập 40%
Mô hình SVM và Random Forest đạt tỉ lệ nhận dạng đúng trung bình 78,75% cho 8 loại cảm xúc khác nhau Trong đó, SVM nhận dạng tốt nhất với cảm xúc trung tính và tức giận (90%), trong khi cảm xúc lãng mạn và vui vẻ có tỉ lệ thấp nhất (65%) Đối với mô hình Random Forest, cảm xúc tôn trọng được nhận dạng tốt nhất (100%), còn cảm xúc lãng mạn có tỉ lệ thấp nhất (45%) F1-Score của hai mô hình lần lượt là 78,74% và 78,11%.
T ỉ l ệ ch ồ ng ch ậ p 50%
Khi áp dụng giải pháp chồng chập dữ liệu với tỉ lệ 50%, tổng số mẫu huấn luyện đạt được là 2720 mẫu Tập dữ liệu này được sử dụng để huấn luyện và thử nghiệm hai mô hình SVM và Random Forest Hình 3.11 và Hình 3.12 minh họa kết quả nhận dạng từ bộ dữ liệu với tỉ lệ chồng chập 50%.
Hình 3.11 Kết quả nhận dạng bằng mô hình SVM tỉ lệ chồng chập 50%
Hình 3.12 Kết quả nhận dạng bằng mô hình RF tỉ lệ chồng chập 50%
Mô hình SVM và Random Forest đạt tỷ lệ nhận dạng đúng lần lượt là 78,75% và 79,38% cho 8 loại cảm xúc khác nhau Trong mô hình SVM, trạng thái cảm xúc trung tính có tỷ lệ nhận dạng cao nhất là 95%, trong khi hai trạng thái đau buồn và đồng cảm có tỷ lệ thấp nhất là 65% Tương tự, mô hình Random Forest cũng nhận dạng tốt nhất với trạng thái trung tính và tôn trọng (95%) nhưng có tỷ lệ thấp nhất với trạng thái lãng mạn (65%).
2 mô hình lần lượt là 78,51% và 79,25%
T ỉ l ệ ch ồ ng ch ậ p 60%
Khi áp dụng giải pháp chồng chập dữ liệu với tỷ lệ 60%, tổng số mẫu huấn luyện thu được là 3.040 mẫu Tập dữ liệu này được sử dụng để huấn luyện và thử nghiệm hai mô hình SVM và Random Forest Kết quả nhận dạng từ việc sử dụng bộ dữ liệu với tỷ lệ chồng chập 60% được thể hiện trong Hình 3.13 và Hình 3.14.
Hình 3.13 Kết quả nhận dạng bằng mô hình SVM tỉ lệ chồng chập 60%
Hình 3.14 Kết quả nhận dạng bằng mô hình RF tỉ lệ chồng chập 60%
Mô hình SVM và Random Forest đạt tỉ lệ nhận dạng đúng trung bình lần lượt là 78,75% và 79,38% cho 8 loại cảm xúc khác nhau Trong đó, SVM có kết quả nhận dạng tốt nhất với trạng thái cảm xúc trung tính (100%) và thấp nhất với cảm xúc đau buồn (60%) Tương tự, mô hình Random Forest nhận dạng tốt nhất với trạng thái tôn trọng (95%) và thấp nhất với cảm xúc lãng mạn (65%) F1-Score của SVM và Random Forest lần lượt là 78,40% và 79,38%.
T ỉ l ệ ch ồ ng ch ậ p 70%
Khi áp dụng giải pháp chồng chập dữ liệu với tỉ lệ 70%, tổng số mẫu huấn luyện thu được là 4320 mẫu Tập dữ liệu này được sử dụng để huấn luyện và thử nghiệm hai mô hình SVM và Random Forest Kết quả nhận dạng từ bộ dữ liệu với tỉ lệ chồng chập 70% được thể hiện qua Hình 3.15 và Hình 3.16.
Hình 3.15 Kết quả nhận dạng bằng mô hình SVM tỉ lệ chồng chập 70%
Hình 3.16 Kết quả nhận dạng bằng mô hình RF tỉ lệ chồng chập 70%
Mô hình SVM và Random Forest đạt tỉ lệ nhận dạng đúng lần lượt là 80% và 81,88% cho 8 loại cảm xúc khác nhau Trong đó, SVM nhận dạng tốt nhất ở ba trạng thái cảm xúc trung tính, tức giận và tôn trọng với tỉ lệ 90%, trong khi trạng thái cảm xúc lãng mạn có tỉ lệ thấp nhất là 70% Đối với mô hình Random Forest, trạng thái cảm xúc tôn trọng đạt tỉ lệ nhận dạng hoàn hảo 100%, trong khi trạng thái đau buồn chỉ đạt 70% F1-Score của hai mô hình lần lượt là 79,96% và 81,91%.
T ỉ l ệ ch ồ ng ch ậ p 80%
Khi áp dụng giải pháp chồng chập dữ liệu với tỉ lệ 80%, tổng số mẫu huấn luyện thu được là 6560 mẫu Tập dữ liệu này được sử dụng để huấn luyện và thử nghiệm hai mô hình SVM và Random Forest Hình 3.17 và Hình 3.18 thể hiện kết quả nhận dạng đạt được khi sử dụng bộ dữ liệu với tỉ lệ chồng chập 80%.
Hình 3.17 Kết quả nhận dạng bằng mô hình SVM tỉ lệ chồng chập 80%
Hình 3.18 Kết quả nhận dạng bằng mô hình RF tỉ lệ chồng chập 80%
Mô hình SVM và Random Forest đạt tỉ lệ nhận dạng đúng trung bình lần lượt là 81,88% và 83,75% cho 8 loại cảm xúc khác nhau Trong mô hình SVM, trạng thái cảm xúc đồng cảm có tỉ lệ nhận dạng cao nhất (95%), trong khi hai trạng thái lãng mạn và vui vẻ có tỉ lệ thấp nhất (70%) Đối với mô hình Random Forest, trạng thái cảm xúc tôn trọng đạt tỉ lệ nhận dạng hoàn hảo (100%), trong khi hai trạng thái đau buồn và vui vẻ có tỉ lệ thấp nhất (70%) F1-Score của hai mô hình lần lượt là 81,80% và 83,70%.
T ỉ l ệ ch ồ ng ch ậ p 90%
Khi áp dụng giải pháp chồng chập dữ liệu với tỷ lệ 90%, tổng số mẫu huấn luyện thu được là 12,960 mẫu Tập dữ liệu này được sử dụng để huấn luyện và thử nghiệm hai mô hình SVM và Random Forest Kết quả nhận dạng từ việc sử dụng bộ dữ liệu với tỷ lệ chồng chập 90% được biểu diễn trong Hình 3.19 và Hình 3.20.
Hình 3.19 Kết quả nhận dạng bằng mô hình SVM tỉ lệ chồng chập 90%
Hình 3.20 Kết quả nhận dạng bằng mô hình RF tỉ lệ chồng chập 90%
Tỉ lệ nhận dạng đúng (trung bình cho cả 8 loại cảm xúc khác nhau) của mô hình SVM và Random Forest lần lượt là 83,75% và 86,25% Đối với mô hình
SVM, hai trạng thái cảm xúc tức giận và tôn trọng cho kết quả nhận dạng tốt nhất
Mô hình Random Forest cho thấy khả năng nhận diện tốt nhất với trạng thái cảm xúc tôn trọng, trong khi đó, tỷ lệ cảm xúc lãng mạn và vui vẻ đạt 95%, nhưng lại có tỷ lệ thấp nhất là 75%.
(100%) và thấp nhất với trạng thái cảm xúc vui vẻ (70%) F1-Score của 2 mô hình lần lượt là 83,80% và 86,28%.
Phân tích xác đị nh t ỉ l ệ ch ồ ng ch ậ p t ối ưu
Kết quả nhận dạng đúng trung bình cho tám trạng thái cảm xúc được thu thập từ các thử nghiệm với tỉ lệ chồng chập khác nhau, như đã trình bày trong các mục từ 3.1 đến 3.8.
3.9, được tổng hợp qua Bảng 3.2 và dạng biểu đồ Hình 3.21
Bảng 3.2 Kết quả nhận dạng của 2 mô hình SVM và RF
Hình 3.21 Tổng hợp kết quả nhận dạng cảm xúc khi thay đổi tỉ lệ chồng chập
Biểu đồ cho thấy rằng khi tỉ lệ chồng chập tăng, chất lượng nhận dạng của cả hai mô hình cũng cải thiện Cụ thể, tỉ lệ nhận dạng tăng từ 71,88% khi không có chồng chập.
Tỷ lệ chồng chập dữ liệu từ 10% đến 90% ảnh hưởng rõ rệt đến hiệu suất của các mô hình SVM và Random Forest Cụ thể, mô hình SVM đạt tỷ lệ chính xác 83,75%, trong khi mô hình Random Forest có sự cải thiện đáng kể, tăng từ 75,00% lên 86,25% khi tỷ lệ chồng chập tăng từ 10% lên 90% Đặc biệt, khi tỷ lệ chồng chập đạt 50% trở lên, chất lượng nhận dạng của cả hai mô hình đều cao, cho thấy khả năng phân loại tốt hơn trong các điều kiện dữ liệu phức tạp.
78%), trong đó mô hình Random Forest luôn cho kết quảcao hơn mô hình SVM
Để đạt được kết quả nhận dạng tốt (trên 80%) cho cả hai mô hình phân lớp SVM và RF, dữ liệu đầu vào cần có tỷ lệ chồng chập từ 70% trở lên Khi tỷ lệ chồng chập đạt 70% hoặc cao hơn, cả hai mô hình đều cho kết quả lớn hơn 80%.
Theo các đặc trưng sinh lý học, cảm xúc không xuất hiện đột ngột mà thường tiến triển dần dần, ngoại trừ những trường hợp "giật mình" do kích thích bất ngờ Vì vậy, việc duy trì tỉ lệ chồng chập cảm xúc đủ lớn là rất quan trọng.
Sử dụng tỉ lệ chồng chập lớn hơn 70% giúp các đặc trưng tín hiệu được thể hiện rõ ràng và đồng nhất trong tập dữ liệu huấn luyện, từ đó cải thiện kết quả nhận dạng Tuy nhiên, cần xem xét việc áp dụng tỉ lệ chồng chập lên tới 90% để phù hợp với từng bài toán cụ thể.
K ế t qu ả nh ậ n d ạ ng v ớ i t ừ ng tr ạ ng thái c ả m xúc
• Trạng thái cảm xúc trung tính
Bảng 3.3 Tỉ lệ nhận dạng của trạng thái cảm xúc trung tính
Hình 3.22 Kết quả nhận dạng cảm xúc trung tính với từng tỉ lệ chồng chập
Với trạng thái cảm xúc trung tính, tỉ lệ nhận dạng trung bình của mô hình
SVM là 90,5%, cao hơn so với tỉ lệ nhận dạng trung bình của mô hình Random
Forest với 89,5% Đây là trạng thái cảm xúc có tỉ lệ nhận dạng rất tốt (luôn > 80%)
• Trạng thái xảm xúc tức giận
Bảng 3.4 Tỉ lệ nhận dạng của trạng thái cảm xúc tức giận
Hình 3.23 Kết quả nhận dạng cảm xúc tức giận với từng tỉ lệ chồng chập
Trong trạng thái cảm xúc tức giận, mô hình SVM đạt tỉ lệ nhận dạng trung bình là 85,0%, thấp hơn so với mô hình Random Forest với tỉ lệ 88,0% Tuy nhiên, cả hai mô hình đều thể hiện khả năng nhận dạng tốt cho trạng thái này, với tỉ lệ nhận dạng dao động từ 80% đến 95%.
• Trạng thái cảm xúc ghét bỏ
Bảng 3.5 Tỉ lệ nhận dạng của trạng thái cảm xúc ghét bỏ
Hình 3.24 Kết quả nhận dạng cảm xúc ghét bỏ với từng tỉ lệ chồng chập
Trong nghiên cứu về nhận dạng trạng thái cảm xúc ghét bỏ, mô hình SVM đạt tỉ lệ nhận dạng trung bình 79,5%, vượt trội hơn so với mô hình Random Forest với tỉ lệ 78,0% Tuy nhiên, tỉ lệ nhận dạng của trạng thái cảm xúc này có sự dao động lớn, nằm trong khoảng từ 60% đến 90%.
• Trạng thái cảm xúc đau buồn
Bảng 3.6 Tỉ lệ nhận dạng của trạng thái cảm xúc đau buồn
Hình 3.25 Kết quả nhận dạng cảm xúc đau buồn với từng tỉ lệ chồng chập
Với trạng thái cảm xúc đau buồn, tỉ lệ nhận dạng trung bình của mô hình
Mô hình SVM đạt tỷ lệ nhận dạng 68,5%, thấp hơn so với mô hình Random Forest với tỷ lệ 70,0% Trạng thái cảm xúc có tỷ lệ nhận dạng thấp nhất là 55,0% khi tỷ lệ chồng chập là 10% Đối với mô hình Random Forest, tỷ lệ nhận dạng đúng gần như không bị ảnh hưởng bởi tỷ lệ chồng chập, duy trì ổn định quanh mức 70%.
• Trạng thái cảm xúc đồng cảm
Bảng 3.7 Tỉ lệ nhận dạng của trạng thái cảm xúc đồng cảm
Hình 3.26 Kết quả nhận dạng cảm xúc đồng cảm với từng tỉ lệ chồng chập
Với trạng thái cảm xúc đồng cảm, tỉ lệ nhận dạng trung bình của mô hình
SVM là 77,5%, cao hơn so với tỉ lệ nhận dạng trung bình của mô hình Random
Forest với 76,5% Trạng thái cảm xúc này cho tỉ lệ nhận dạng trung bình, dao động chủ yếu trong ngưỡng từ65% đến 85%
• Trạng thái cảm xúc lãng mạn
Bảng 3.8 Tỉ lệ nhận dạng của trạng thái cảm xúc lãng mạn
Hình 3.27 Kết quả nhận dạng cảm xúc lãng mạn với từng tỉ lệ chồng chập
Với trạng thái cảm xúc lãng mạn, tỉ lệ nhận dạng trung bình của mô hình
SVM là 71,0%, tốt hơn đáng kể so với tỉ lệ nhận dạng trung bình của mô hình
Mô hình Random Forest đạt tỷ lệ nhận dạng cảm xúc trung bình là 67,5%, trong khi đó, mô hình SVM có tỷ lệ nhận dạng dao động từ 65% đến 80% Tuy nhiên, hiệu suất của mô hình SVM lại thấp hơn đáng kể so với các mô hình khác.
• Trạng thái cảm xúc vui vẻ
Bảng 3.9 Tỉ lệ nhận dạng của trạng thái cảm xúc vui vẻ
Hình 3.28 Kết quả nhận dạng cảm xúc vui vẻ với từng tỉ lệ chồng chập
Trong nghiên cứu về nhận dạng trạng thái cảm xúc vui vẻ, mô hình SVM đạt tỉ lệ nhận dạng trung bình là 66,5%, thấp hơn so với mô hình Random Forest (RF) với tỉ lệ 69,0% Cả hai mô hình đều cho thấy tỉ lệ nhận dạng thấp, dao động từ 45% đến 75% tùy thuộc vào tỉ lệ chồng chập dữ liệu Đặc biệt, với mô hình RF, khi tỉ lệ chồng chập dữ liệu nằm trong khoảng 50%-70%, kết quả nhận dạng đạt hiệu quả tốt nhất và ổn định.
• Trạng thái cảm xúc tôn trọng
Bảng 3.10 Tỉ lệ nhận dạng của trạng thái cảm xúc tôn trọng
Hình 3.29 Kết quả nhận dạng cảm xúc tôn trọng với từng tỉ lệ chồng chập
Trong nghiên cứu về trạng thái cảm xúc tôn trọng, mô hình SVM đạt tỷ lệ nhận dạng trung bình là 87,0%, trong khi mô hình Random Forest cho kết quả ấn tượng hơn với tỷ lệ 96,0% Cả hai mô hình đều thể hiện khả năng nhận dạng tốt, nhưng Random Forest cho thấy ưu thế rõ rệt với tỷ lệ cao hơn 9% so với SVM.
Mặt khác, trạng thái cảm xúc này có tỉ lệ nhận dạng đúng gần như không phụ thuộc vào tỉ lệ chồng chập dữ liệu
Khi phân tích tỷ lệ nhận dạng đúng các trạng thái cảm xúc, việc thay đổi tỷ lệ chồng chập dữ liệu cho thấy hiệu quả tổng thể trong việc làm giàu thông tin và thống nhất các đặc trưng quan trọng cho nhận dạng Tuy nhiên, ở một số trạng thái cảm xúc, sự thay đổi này dường như không ảnh hưởng nhiều đến kết quả nhận dạng Điều này mở ra cơ hội nghiên cứu sâu hơn về các đặc trưng của tín hiệu sinh học liên quan đến các trạng thái cảm xúc khác nhau.
Nh ậ n d ạ ng v ớ i mô hình ba tr ạ ng thái c ủ a c ả m xúc
Từ 8 trạng thái cảm xúc riêng biệt trong bộ dữ liệu MIT, chúng tôi gộp lại và đề xuất mô hình cảm xúc ba trạng thái, gồm: tích cực, trung lập và tiêu cực Trong đó, ba cảm xúc đồng cảm, lãng mạn và vui vẻđược nhóm vào trạng thái cảm xúc tích cực; hai cảm xúc trung tính và tôn trọng được xếp vào trạng thái trung lập; ba cảm xúc còn lại là tức giận, ghét bỏvà đau buồn thuộc về trạng thái tiêu cực
Kết quả nhận dạng của hai mô hình SVM và Random Forest đối với ba trạng thái cảm xúc trong mô hình đề xuất được trình bày trong Hình 3.30 và Hình 3.31 Chúng tôi đã sử dụng dữ liệu huấn luyện có độ dài 10 giây với tỷ lệ chồng chập là 90%.
Hình 3.30 Kết quả nhận dạng 3 trạng thái của cảm xúc với SVM
Hình 3.31 Kết quả nhận dạng 3 trạng thái của cảm xúc với RF
Khi áp dụng mô hình ba trạng thái cảm xúc, tỉ lệ nhận dạng đúng đạt 91,25% với SVM và 92,50% với Random Forest, trong khi F1-Score lần lượt là 91,39% và 92,62% Việc nhận dạng dễ dàng hơn do mô hình chỉ có ít trạng thái cảm xúc hơn so với việc phân loại 8 loại khác nhau Kết quả này khẳng định tính hợp lý trong đề xuất của chúng tôi về việc nhóm các trạng thái cảm xúc thành ba loại chính: tích cực, tiêu cực và trung lập.
KẾT LUẬN CHUNG VÀ HƯỚNG PHÁT TRIỂN
Luận văn trình bày giải pháp cải thiện chất lượng nhận dạng cảm xúc từ tín hiệu sinh học thông qua việc tổ chức lại dữ liệu đầu vào Nghiên cứu đã đáp ứng các yêu cầu ban đầu, bao gồm việc chọn lựa kỹ thuật phân loại cảm xúc phù hợp, tái cấu trúc dữ liệu huấn luyện để nâng cao độ chính xác trong nhận dạng, cùng với việc thử nghiệm và đánh giá kết quả đạt được.
Các kết quả thử nghiệm cho thấy rằng khi tỉ lệ chồng chập đạt 70% trở lên, tỷ lệ nhận dạng đúng trung bình luôn vượt quá 80% cho tất cả 8 trạng thái cảm xúc khác nhau Đặc biệt, với tỉ lệ chồng chập 90%, tỷ lệ nhận dạng đúng có thể đạt tới 86.25%.
Học viên đã phân chia 8 trạng thái cảm xúc trong bộ dữ liệu MIT thành 3 lớp cảm xúc chính: tích cực, tiêu cực và trung tính Khi áp dụng nguyên tắc chồng chập dữ liệu với tỉ lệ 90%, kết quả nhận dạng 3 trạng thái cảm xúc này đạt được tỉ lệ chính xác lên đến 92,5%.
Luận văn chứng minh tính khả thi của phương pháp đề xuất trong việc nhận diện cảm xúc nhanh chóng Kết quả nghiên cứu này mở ra cơ hội phát triển các ứng dụng nhận diện cảm xúc theo thời gian thực.
• Hướng phát triển đề tài:
Do hạn chế về thời gian, nghiên cứu trong luận văn chỉ áp dụng trên bộ dữ liệu cảm xúc của MIT và sử dụng bốn thuật toán phân lớp khác nhau trong học máy Hướng nghiên cứu này có thể được mở rộng theo một số đề xuất sau đây.
+ Áp dụng các thuật toán lựa chọn đặc trưng và phân lớp khác trên bộ dữ liệu này của MIT
Mỗi mô hình cho kết quả ưu thế hơn các mô hình khác đối với một số loại cảm xúc cụ thể Do đó, nghiên cứu đã kết hợp các mô hình một cách hợp lý để cải thiện chất lượng nhận dạng cho tất cả các loại cảm xúc Đồng thời, phương pháp được đề xuất cũng được áp dụng lên các tập dữ liệu mẫu khác để đánh giá tính toàn diện của giải pháp đã đưa ra.
+ Thiết kế bộ thu dữ liệu đa kênh, thử nghiệm khả năng nhận dạng cảm xúc online trên các đoạn dữ liệu ngắn
[1] P.J.Lang, "The emotion probe: Studies of motivation and attention Am Psychol 1995,
[2] "B Schuller, G Rigoll and M Lang, "Hidden Markov model-based speech emotion recognition," 2003 International Conference on Multimedia and Expo ICME '03 Proceedings (Cat No.03TH8698), Baltimore, MD, USA, 2003, pp I-401, doi: 10.1109/ICME.2003.1220939"
In their 2006 paper presented at the 18th International Conference on Pattern Recognition in Hong Kong, Tsang-Long Pao, Yu-Te Chen, Jun-Heng Yeh, and Pei-Jia Li explored the recognition of emotional speech in Mandarin using Support Vector Machines (SVM) and Neural Networks (NN) The study, which spans pages 1096 to 1100, highlights innovative approaches to enhance emotional speech recognition technology, contributing to advancements in the field of pattern recognition For further details, the paper can be accessed via the DOI: 10.1109/ICPR.2006.780.
[4] "T L Nwe, N T Hieu and D K Limbu, "Bhattacharyya distance based emotional dissimilarity measure for emotion classification," 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, Vancouver, BC, Canada, 2013, pp 7512-
[5] "E Mower, M J Matarić and S Narayanan, "A Framework for Automatic Human Emotion Classification Using Emotion Profiles," in IEEE Transactions on Audio, Speech, and Language Processing, vol 19, no 5, pp 1057-1070, July 2011, doi: 10.1109/TASL.2010.207"
[6] "Kwong, J., Garcia, F.C., Abu, P., & Reyes, R.S (2018) Emotion Recognition via Facial Expression: Utilization of Numerous Feature Descriptors in Different Machine Learning Algorithms TENCON 2018 - 2018 IEEE Region 10 Conference, 2045- 2049."
[7] "B A Dixit and A N Gaikwad, "Statistical moments based facial expression analysis,"
2015 IEEE International Advance Computing Conference (IACC), Banglore, India,
[8] "Kumar, S.Ashok & K K, Thyagharajan (2013) Facial Expression Recognition with Auto-Illumination Correction 843-846 10.1109/ICGCE.2013.6823551."
[9] "M Żarkowski, "Identification-driven emotion recognition system for a social robot,"
2013 18th International Conference on Methods & Models in Automation & Robotics (MMAR), Miedzyzdroje, Poland, 2013, pp 138-143, doi: 10.1109/MMAR.2013.6669895."
S Liu and W Wang conducted a study on the application of learner's face detection and location within a teaching network system that incorporates emotion recognition Their research was presented at the 2010 Second International Conference on Networks Security, Wireless Communications and Trusted Computing in Wuh.
[11] "Cohen, Ira & Garg, Ashutosh (2000) Emotion Recognition from Facial Expressions using Multilevel HMM.".