Các phương pháp nhận dạng khuônmặt trong điều kiện SSPP sử dụng đặc trưng cục bộ là các pixel cạnh thường sử dụng khoảng cách Hausdorff trung bình để đo sự giống nhau giữa hai tậphợp các
Trang 1ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐẶNG NGUYÊN CHÂU
PHƯƠNG PHÁP NHẬN DẠNG KHUÔN MẶT TRONG ĐIỀU KIỆN ĐƠN MẪU
DỰA TRÊN ĐỘ ĐO LT-MHD
LUẬN ÁN TIẾN SĨ
TP HỒ CHÍ MINH - NĂM 2022
Trang 2ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐẶNG NGUYÊN CHÂU
PHƯƠNG PHÁP NHẬN DẠNG KHUÔN MẶT TRONG ĐIỀU KIỆN ĐƠN MẪU
DỰA TRÊN ĐỘ ĐO LT-MHD
Chuyên ngành: Kỹ thuật Viễn Thông
Mã số chuyên ngành: 62520208
Phản biện độc lập: PGS TS Phan Văn Ca
Phản biện độc lập: PGS TS Trần Công Hùng
Phản biện: PGS TS Phạm Hồng Liên
Phản biện: TS Lê Xuân Vinh
Phản biện: TS Trần Trung Duy
NGƯỜI HƯỚNG DẪN: PGS TS ĐỖ HỒNG TUẤN
Trang 3LỜI CAM ĐOAN
Tác giả xin cam đoan đây là công trình nghiên cứu của bản thân tác giả Cáckết quả nghiên cứu và các kết luận trong luận án này là trung thực, và khôngsao chép từ bất kỳ một nguồn nào và dưới bất kỳ hình thức nào Việc thamkhảo các nguồn tài liệu đã được thực hiện trích dẫn và ghi nguồn tài liệu thamkhảo đúng quy định
Tác giả luận án
ĐẶNG NGUYÊN CHÂU
Trang 4Face recognition with only one image or single sample for each person (SSPP)
in database is an important problem in face recognition field because therecognition rates of all face recognition methods seriously drop in the case
of SSPP problem In recent decades, various face recognition methods havebeen proposed for solving the SSPP problem In comparing with other facerecognition methods, the local feature based face recognition methods aresimple and easy to deploy in real face recognition applications Edge pixel is
a local feature widely used in face recognition methods because edge pixel isthe reflecting of the face structure Edge pixel is also a variant feature withnon-ideal conditions of face image, especially with different lighting conditions
of face image
The Modified Hausdorff Distance (MHD) is an efficient and widely used tance in face recognition field A lot of SSPP face recognition methods, thatuse edge pixel as local feature of face image, use the MHD for measuringthe dissimilarity between two sets of feature of face images In this study, anovel Hausdorff distance-based distance is proposed, the Least Trimmed Mod-ified Hausdorff Distance (LT-MHD) Based on the proposed distance, two facerecognition in SSPP condition methods are proposed, the Least Trimmed LineHausdorff Distance (LT-LHD) method and the Least Trimmed New ModifiedHausdorff Distance (LT-NMHD) method The experimental results of recog-nition rates of the LT-NMHD method and the LT-LHD method prove the ef-ficiency of using the LT-MHD for measuring the distance between two sets offace image feature By using the LT-MHD, the recognition rate of face recog-nition methods increase 2-10% in comparing with the case using the MHDfor measuring the distance between two sets of face image feature Moreover,the recognition rates of the LT-LHD method and the LT-NMHD method arecompared with various face recognition methods, which are proposed in recentyears, in SSPP situation In the same condition of experiment, both proposedface recognition methods give very high recognition rate in comparing withother face recognition methods Especially, the recognition rate of the LT-LHDmethod is 2-11% higher than the recognition rates of state-of-art SSPP facerecognition methods over the past five years
dis-The computational complexity is a disadvantage of the LT-MHD This makes
Trang 5the computational complexities of the face recognition methods that use MHD, i.e the LT-LHD method and the LT-NMHD method, become veryhigh In CAD/CAM/CAE field, a lot of methods were proposed with thepurposed reducing the computational complexity of Hausdorff computing, inrecent decade The EARLYBREAK method and the Local Start Search (LSS)method are two state-of-art methods for reducing the complexity of Haus-dorff distance computing In this study, the EARLYBREAK method is usedfor reducing the computational complexity the LT-LHD method and the LSSmethod is used for reducing the computational complexity of the LT-NMHDmethod The experimental results show that computational complexities of theLT-LHD method and the LT-NMHD method decrease 67% and 17%, respec-tively These results demonstrate the efficiency of using the EARLYBREAKmethod and the LSS method for reducing the face recognition methods usingthe LT-MHD.
LT-Moreover, in this research, a model, that is a combination of a convolutionalneural network (CNN) model with the LT-MHD distance, for face image fea-ture extraction is proposed The LT-MHD distance is used as the loss function
of the CNN model instead of the cross-entropy loss function The experimentalresult shows that by using the LT-MHD distance as the loss function makes
an improvement of recognition rate of the model up to 43%
Trang 6TÓM TẮT LUẬN ÁN
Nhận dạng khuôn mặt trong điều kiện chỉ có một ảnh cho mỗi người trong cơ
sở dữ liệu, single sample per person (SSPP), là một bài toán cực kì quan trọngtrong lĩnh vực nhận dạng khuôn mặt vì tỷ lệ nhận dạng của các phương phápđều bị ảnh hưởng nghiêm trọng trong điều kiện SSPP Trong những năm qua,
đã có rất nhiều các phương pháp nhận dạng khuôn mặt được đề xuất nhằmgiải quyết bài toán SSPP Trong đó, so sánh với các phương pháp nhận dạngkhuôn mặt khác, nhóm phương pháp nhận dạng khuôn mặt dựa trên các đặctrưng cục bộ được đánh giá là đơn giản hơn và dễ dàng triển khai trong cácứng dụng thực tế Các pixel cạnh là một đặc trưng cục bộ được sử dụng rộngrãi trong lĩnh vực nhận dạng khuôn mặt vì đặc trưng này phản ánh rất tốtcấu trúc của khuôn mặt Bên cạnh đó, các đặc trưng này bền vững với cácđiều kiện không lý tưởng của ảnh đầu vào, nhất là các điều kiện chiếu sángkhác nhau của ảnh đầu vào
Khoảng cách Hausdorff trung bình, là một phép đo hiệu quả được sử dụng rộngrãi trong lĩnh vực nhận dạng khuôn mặt Các phương pháp nhận dạng khuônmặt trong điều kiện SSPP sử dụng đặc trưng cục bộ là các pixel cạnh thường
sử dụng khoảng cách Hausdorff trung bình để đo sự giống nhau giữa hai tậphợp các đặc trưng của ảnh khuôn mặt Trong nghiên cứu này, chúng tôi sẽ đềxuất một phép đo mới dựa trên khoảng cách Hausdorff, khoảng cách Hausdorfftrung bình các giá trị lớn nhất, Least Trimmed Modified Hausdorff Distance(LT-MHD) Dựa trên khoảng cách mới được đề xuất, chúng tôi đề xuất haiphương pháp nhận dạng khuôn mặt trong điều kiện SSPP, phương pháp LeastTrimmed Line Hausdorff Distance (LT-LHD) và phương pháp Least TrimmedNew Modified Hausdorff Distance (LT-NMHD) Các kết quả mô phỏng về
tỷ nhận dạng khuôn mặt của hai phương pháp LT-NMHD và LT-LHD đãchứng minh sự hiệu quả của việc dùng khoảng cách LT-MHD thay vì khoảngcách Hausdorff trung bình Việc sử dụng khoảng cách LT-MHD giúp làm tăng
tỷ lệ nhận dạng khuôn mặt khoảng 2-10% so với việc sử dụng khoảng cáchHausdorff trung bình tùy vào điều kiện khác nhau của ảnh đầu vào Bên cạnh
đó, tỷ lệ nhận dạng của hai phương pháp LT-NMHD và LT-LHD cũng được
so sánh với một số phương pháp nhận dạng khuôn mặt trong điều kiện SSPPkhác được đề xuất trong những năm gần đây Các kết quả nhận dạng trongcùng một điều kiện mô phỏng cũng cho thấy rằng hai phương pháp LT-LHD
Trang 7và LT-NMHD cho kết quả nhận dạng khá tốt Đặc biệt, phương pháp LT-LHDcho tỷ lệ nhận dạng khuôn mặt cao hơn khoảng 2-11% so với các phương phápnhận dạng khuôn mặt trong được đề xuất trong 5 năm gần đây.
Độ phức tạp tính toán rất cao là một nhược điểm của các khoảng cách dorff trung bình và LT-MHD Điều này làm cho các phương pháp nhận dạngkhuôn mặt như LT-LHD và LT-NMHD có độ phức tạp tính toán cũng rấtcao Các nhà nghiên cứu trong các lĩnh vực CAD/CAM/CAE đã đưa ra rấtnhiều các phương pháp khác nhau nhằm làm giảm độ phức tạp của phép tínhkhoảng cách Hausdorff và nổi tiếng nhất là hai phương pháp EARLYBREAK
Haus-và Local Start Search (LSS) Trong nghiên cứu này, chúng tôi sẽ áp dụngphương pháp EARLYBREAK để làm giảm độ phức tạp tính toán cho phươngpháp LT-LHD Đồng thời, chúng tôi cũng áp dụng phương pháp LSS để làmgiảm độ phức tạp tính toán cho phương pháp LT-NMHD Các kết quả môphỏng cũng cho thấy độ phức tạp tính toán của các phương pháp LT-LHD vàphương pháp LT-NMHD giảm lần lượt là 67% và 17% Điều này cho thấy sựhiệu quả khi áp dụng các phương pháp như EARLYBREAK hay LSS để làmgiảm độ phức tạp tính toán cho các phương pháp nhận dạng khuôn mặt dựatrên khoảng cách Hausdorff trung bình
Trong nghiên cứu này, một mô hình trích đặc trưng ảnh khuôn mặt bằng cáchkết hợp giữa một mạng CNN cùng khoảng cách LT-MHD cũng được đề xuất.Khoảng cách LT-MHD được sử dụng như hàm mất mát ngõ ra của mạng CNNthay vì hàm cross-entropy Các kết quả mô phỏng cho thấy việc thay đổi nàygiúp làm tăng tỷ lệ nhận dạng của mô hình lên đến 43%
Trang 8LỜI CÁM ƠN
"Không ai có thể thành công một mình" là câu nói mà tôi luôn tâm đắc vàghi nhớ Hoàn thành Luận án Tiến sĩ có thể được xem như một thành côngcủa riêng cá nhân tôi Bên cạnh sự nỗ lực không ngừng nghỉ của bản thân thìthành công này cũng sẽ không thể đến với tôi nếu thiếu đi sự giúp đỡ, độngviên và chia sẻ của những người thầy, người bạn, đồng nghiệp và người thântrong gia đình của tôi
Đầu tiên, tôi xin gửi lời cảm ơn sâu sắc đến người thầy của tôi, PGS TS ĐỗHồng Tuấn Thầy Tuấn là người thầy đã dẫn dắt tôi trên con đường học thuật
từ khi tôi còn là một sinh viên năm cuối tại trường Đại học Bách Khoa chođến khi tôi hoàn thành luận án này Trong suốt quá trình làm luận án, tôi đãnhận được rất nhiều những nhận xét, góp ý từ thầy để từ đó tôi có thể làmtốt hơn các nghiên cứu của mình
Tiếp theo tôi xin gửi lời cảm ơn đến thầy GS TS Lê Tiến Thường, thầy PGS
TS Đặng Thành Tín, TS Trương Quang Vinh và PGS TS Hà Hoàng Kha,những người đã có rất nhiều các ý kiến đóng góp cho luận án của tôi thôngqua các chuyên đề Tiến sĩ mà tôi thực hiện Tôi cũng xin gửi lời cảm ơn chânthành đến một người bạn, người anh của tôi, TS Chế Viết Nhật Anh, người
đã động viên và giúp đỡ tôi rất nhiều trong suốt quá trình làm nghiên cứu đểtôi cảm thấy tự tin hơn về bản thân
Bên cạnh đó, tôi cũng xin gửi lời cảm ơn đến Ban chủ nhiệm khoa Điện - Điện
tử, các quý thầy cô tại Bộ môn Viễn Thông, những người đã chia sẻ, giúp đỡtôi rất nhiều trong công tác để tôi có thể hoàn thành tốt nhiệm vụ của mộtgiảng viên cũng như nhiệm vụ của một nghiên cứu sinh
Và cuối cùng, nhưng quan trọng nhất, tôi muốn được gửi lời cảm ơn sâu sắcđến ba mẹ tôi, vợ và hai con nhỏ của tôi cũng những người thân trong gia đình
vì đã ở bên cạnh tôi hỗ trợ và động viên tôi về mặt tinh thần cũng như sựchia sẻ về công việc gia đình để tôi có thêm thời gian hoàn thành các nghiêncứu của mình
Tôi xin chân thành cảm ơn
Tp Hồ Chí Minh, tháng 12 năm 2020
ĐẶNG NGUYÊN CHÂU
Trang 9MỤC LỤC
1.1 Giới thiệu về nhận dạng khuôn mặt và bài toán SSPP trong nhận dạng
khuôn mặt 1
1.2 Lý do chọn đề tài 3
1.3 Mục tiêu đề tài 4
1.4 Các đóng góp chính của nghiên cứu 6
1.5 Bố cục luận án 7
2 CƠ SỞ LÝ THUYẾT 9 2.1 Các phương pháp nhận dạng khuôn mặt trong điều kiện SSPP 9
2.1.1 Các phương pháp nhận dạng khuôn mặt sử dụng các đặc trưng toàn cục 9
2.1.2 Các phương pháp nhận dạng khuôn mặt sử dụng các đặc trưng cục bộ 12
2.1.3 Các phương pháp nhận dạng khuôn mặt dựa trên việc tạo thêm ảnh ảo 17
2.1.4 Các phương pháp nhận dạng khuôn mặt dựa trên việc sử dụng thêm tập dữ liệu chung 21
2.1.5 Kết luận 24
2.2 Các phương pháp giảm độ phức tạp phép tính khoảng cách Hausdorff 25
2.2.1 Khoảng cách Hausdorff 25
2.2.2 Các phương pháp dựa trên cấu trúc R-Tree 26
2.2.3 Phương pháp EARLYBREAK 35
2.2.4 Phương pháp Local Start Search - LSS 38
2.2.5 Kết luận 42
Trang 103 KHOẢNG CÁCH LT-MHD VÀ PHƯƠNG PHÁP LT-NMHD CHO
3.1 Khoảng cách mới được đề xuất - Least trimmed Modified Hausdorff
dis-tance (LT-MHD) 44
3.2 Phương pháp NMHD cho nhận dạng khuôn mặt 46
3.2.1 Phương pháp trích đặc trưng ảnh khuôn mặt 46
3.2.2 Phương pháp NMHD 46
3.3 Phương pháp LT-NMHD cho nhận dạng khuôn mặt 47
3.4 Giảm độ phức tạp cho phương pháp LT-NMHD 49
3.4.1 Áp dụng phương pháp Local Start Search để giảm độ phức tạp cho phép tính khoảng cách trực tiếp LT-NMHD 49
3.4.2 Tính toán độ phức tạp của phương pháp LT-NMHD 51
3.5 Ảnh hưởng của tỷ số f đến phương pháp LT-NMHD 55
3.6 Kết luận 56
4 PHƯƠNG PHÁP LT-LHD CHO NHẬN DẠNG KHUÔN MẶT 58 4.1 Phương pháp LHD cho nhận khuôn mặt 58
4.2 Các cải tiến cho phương pháp LHD 62
4.2.1 Phương pháp đề xuất MLHD 63
4.2.2 Phương pháp đề xuất RLHD 64
4.3 Phương pháp LT-LHD cho nhận dạng khuôn mặt 67
4.4 Giảm độ phức tạp tính toán cho phương pháp LT-LHD 70
4.4.1 Áp dụng phương pháp EARLYBREAK để giảm độ phức tạp cho phép tính khoảng cách trực tiếp LT-LHD 70
4.4.2 Tính toán độ phức tạp của phương pháp LT-LHD 72
4.5 Ảnh hưởng của tỷ số f đến phương pháp LT-LHD 73
4.6 Kết luận 74
5 KẾT QUẢ MÔ PHỎNG 76 5.1 Mô tả cơ sở dữ liệu 76
5.2 Khảo sát ảnh hưởng của hệ số k lên chất lượng của phương pháp RLHD và phương pháp LT-LHD 78
5.3 Khảo sát ảnh hưởng của tỷ số f lên chất lượng của phương pháp LT-LHD và LT-NMHD 80
5.4 Chứng minh giảm độ phức tạp tính toán của phương pháp LT-NMHD và phương pháp LT-LHD 85
5.5 Nhận dạng khuôn mặt trong điều kiện bình thường 87
5.6 Nhận dạng khuôn mặt trong các điều kiện khác nhau của ảnh đầu vào 90
5.6.1 Nhận dạng khuôn mặt trong các điều kiện ánh sáng khác nhau 90
Trang 115.6.2 Nhận dạng khuôn mặt với các góc chụp khác nhau 965.6.3 Nhận dạng khuôn mặt với các cảm xúc khác nhau của khuôn mặt 1015.7 So sánh tỷ lệ nhận dạng chính xác của phương pháp LT-NMHD và LT-LHDvới các phương pháp khác trong điều kiện bài toán SSPP 1065.8 Kết luận 108
6.1 Các phương pháp nhận dạng khuôn mặt trong điều kiện SSPP dựa trênhọc sâu 1116.2 Kết hợp khoảng cách LT-MHD cùng mô hình học sâu để trích đặc trưngảnh khuôn mặt 1146.3 Kết luận 116
7.1 Các kết quả đạt được trong nghiên cứu 1177.2 Hướng phát triển 118
Trang 12DANH MỤC HÌNH VẼ
1.1 Cấu trúc hệ thống nhận dạng khuôn mặt 2
2.1 Ảnh khuôn mặt cùng các ảnh phục hồi từ các thành phần cơ bản sau phân tích SVD [29] 10
2.2 Phương pháp AWOGBP để trích đặc trưng ảnh khuôn mặt [33] 10
2.3 So sánh ảnh gốc và ảnh phục hồi từ từ điển trong phương pháp [34] 11
2.4 Một ví dụ về việc tách tập mẫu thành các tập ảnh nhỏ [43] 13
2.5 Một ví dụ về việc chia ảnh khuôn mặt thành nhiều ảnh nhỏ hình bình hành [44] 13
2.6 Một ví dụ về việc trích đặc trưng bằng phương pháp LBP [48] 14
2.7 Một ví dụ về chia ảnh khuôn mặt thành 15 phần bằng nhau [45] 14
2.8 Các cấu trúc khác nhau của Grid tree [46] 14
2.9 Trích đặc trưng cục bộ bằng phương pháp GLCM [48] 15
2.10 Phương pháp ERLDA mô tả việc kết hợp nhiều bộ phân loại yếu thành một bộ phân loại mạnh [49] 15
2.11 Biểu diễn ảnh khuôn mặt trong không gian với nhãn của các ảnh là các chiều [52] 16
2.12 Bộ lọc Gabor để tạo thêm ảnh ảo kết hợp cùng phương pháp 2DPCA để trích đặc trưng ảnh khuôn mặt [60] 18
2.13 Phương pháp tạo ảnh ảo giảm sự chênh lệch độ sáng ở hai nửa ảnh khuôn mặt [65] 19
2.14 Phương pháp tạo ảnh ảo bằng cách lấy trung bình cộng về độ sáng của hai nửa ảnh khuôn mặt [68] 20
2.15 Phương pháp trích đặc trưng khuôn mặt dựa trên tập dữ liệu chung [69] 21 2.16 Các ví dụ về đặc trưng độ sáng khác nhau trong từ điểm độ sáng [70] 22
2.17 Phương pháp xây dựng bộ từ điển về các đặc trưng không lý tưởng của ảnh khuôn mặt [73] 23
2.18 Điểm x và tập hợp điểm Y để tính RecurAN N (x, RY) 28
2.19 Cấu trúc R-Tree RY của tập hợp điểm Y 28
2.20 Giới hạn dưới của khoảng cách Hausdorff trực tiếp từ A đến B 29
Trang 132.21 Giới hạn trên của khoảng cách Hausdorff trực tiếp từ A đến B 30
2.22 Khoảng cách Hausdorff trực tiếp giữa hai tập hợp M và T 37
2.23 Các điểm lân cận trái và lân cận phải của một điểm đang xét 39
2.24 Morton code cho tập hợp có 64 điểm 41
3.1 Khoảng cách Hausdorff giữa hai tập hợp M và T 45
3.2 Bản đồ cạnh của khuôn mặt 47
3.3 Lưu đồ giải thuật tính nhanh khoảng cách Hausdorff trực tiếp trong phương pháp LT-NMHD 50
3.4 Hàm phân bố xác xuất của biến ngẫu nhiên R 52
3.5 Hàm phân bố xác suất của khoảng cách giữa 2 đường cạnh và mối quan hệ giữa xác suất p và giá trị cmax 54
4.1 Khoảng cách giữa hai đường thẳng song song 59
4.2 Cách xoay hai đường thẳng thành song song với nhau (a): Hai đường thẳng cần tính khoảng cách; (b): Xoay đường thẳng ngắn hơn; (c): Xoay đường thẳng dài hơn; (d) Xoay cả hai đường thẳng một nửa góc giao nhau Đường nét liền thể hiện vị trí sau khi xoay; đường nét đứt thể hiện vị trí ban đầu 60 4.3 Các trường hợp khoảng cách song song dk = 0 60
4.4 Ảnh hưởng của thông số Kcg đến việc nhận dạng 64
4.5 Cấu trúc dữ liệu mới của bản đồ cạnh 65
4.6 Lưu đồ giải thuật tính nhanh khoảng cách Hausdorff trực tiếp trong phương pháp LT-LHD 71
5.1 Các hình ảnh của một người trong BERN University face database 77
5.2 Các hình ảnh của một người trong AR face database 78
5.3 Các hình ảnh của một người trong ORL face database 79
5.4 Ảnh hưởng của k đến tỷ lệ nhận dạng đúng của phương pháp RLHD 80
5.5 Ảnh hưởng của k đến tỷ lệ nhận dạng đúng của phương pháp LT-LHD 81
5.6 Ảnh hưởng của f đến tỷ lệ nhận dạng đúng của phương pháp LT-NMHD 82 5.7 Ảnh hưởng của f đến tỷ lệ nhận dạng đúng của phương pháp LT-LHD 84
5.8 Số vòng lặp trong trung bình khi tính khoảng cách Hausdorff giữa các cặp ảnh trong tập dữ liệu AR và BERN của phương pháp LT-NMHD tại các giá trị khác nhau của tỷ số f 86
5.9 Số vòng lặp trong trung bình khi tính khoảng cách Hausdorff giữa các cặp ảnh trong tập dữ liệu AR và BERN của phương pháp LT-LHD tại các giá trị khác nhau của tỷ số f 87
5.10 Ảnh hưởng của f đến tỷ lệ nhận dạng đúng của phương pháp LT-NMHD trong các điều kiện chiếu sáng khác nhau 92
Trang 145.11 Ảnh hưởng của k đến tỷ lệ nhận dạng đúng của phương pháp RLHD trong
các điều kiện chiếu sáng khác nhau 93
5.12 Ảnh hưởng của k đến tỷ lệ nhận dạng đúng của phương pháp LT-LHD trong các điều kiện chiếu sáng khác nhau 94
5.13 Ảnh hưởng của f đến tỷ lệ nhận dạng đúng của phương pháp LT-LHD trong các điều kiện chiếu sáng khác nhau 95
5.14 Ảnh hưởng của f đến tỷ lệ nhận dạng đúng của phương pháp LT-NMHD trong các điều kiện góc nhìn khác nhau của khuôn mặt 98
5.15 Một số ví dụ về các cặp ảnh có góc chụp với biểu cảm khác nhau 99
5.16 Ảnh hưởng của k đến tỷ lệ nhận dạng đúng của phương pháp LT-LHD trong các điều kiện góc nhìn khác nhau của khuôn mặt 100
5.17 Ảnh hưởng của k đến tỷ lệ nhận dạng đúng của phương pháp RLHD trong các điều kiện góc nhìn khác nhau của khuôn mặt 101
5.18 Ảnh hưởng của f đến tỷ lệ nhận dạng đúng của phương pháp LT-LHD trong các điều kiện góc nhìn khác nhau của khuôn mặt 102
5.19 Ảnh hưởng của f đến tỷ lệ nhận dạng đúng của phương pháp LT-NMHD trong các điều kiện cảm xúc khác nhau của khuôn mặt 103
5.20 Ví dụ về các biểu cảm khác nhau của khuôn mặt 104
5.21 Ảnh hưởng của k đến tỷ lệ nhận dạng đúng của phương pháp RLHD trong các điều kiện cảm xúc khác nhau của khuôn mặt 105
5.22 Ảnh hưởng của k đến tỷ lệ nhận dạng đúng của phương pháp LT-LHD trong các điều kiện cảm xúc khác nhau của khuôn mặt 106
5.23 Ảnh hưởng của f đến tỷ lệ nhận dạng đúng của phương pháp LT-LHD trong các điều kiện cảm xúc khác nhau của khuôn mặt 107
6.1 Mối quan hệ giữa các nghiên cứu về học sâu 112
6.2 Cấu trúc mạng InceptionV3 115
6.3 Hàm mất mát khi thực hiện việc huấn luyện lại mạng InceptionV3 116
Trang 15DANH MỤC BẢNG BIỂU
1.1 So sánh giữa việc nhận dạng khuôn mặt trong điều kiện có một ảnh chomột người với có nhiều ảnh cho một người trong cơ sở dữ liệu 2
2.1 Minh họa về dùng Morton code để sắp xếp các điểm trong tập hợp 42
5.1 Số vòng lặp trong trung bình và thời gian tính khoảng cách giữa hai ảnhcủa các phương pháp NMHD và LT-NMHD 865.2 Số vòng lặp trong trung bình và thời gian tính khoảng cách giữa hai ảnhcủa các phương pháp LHD và LT-LHD 875.3 Tỷ lệ nhận dạng khuôn mặt của các phương pháp NMHD và LT-NMHDtrong điều kiện bình thường 885.4 Tỷ lệ nhận dạng khuôn mặt của các phương pháp LHD, MLHD, RLHD vàLT-LHD trong điều kiện bình thường 895.5 Tỷ lệ nhận dạng đúng của các phương pháp NMHD và LT-NMHD trongcác điều kiện ánh sáng khác nhau 915.6 Tỷ lệ nhận dạng đúng của các phương pháp LHD, MLHD, RLHD, LT-LHDtrong các điều kiện ánh sáng khác nhau 935.7 Tỷ lệ nhận dạng đúng của các phương pháp NMHD và LT-NMHD với cácgóc chụp khác nhau của khuôn mặt 975.8 Tỷ lệ nhận dạng đúng của các phương pháp LHD, MLHD, RLHD và LT-LHD với các góc chụp khác nhau của khuôn mặt 985.9 Tỷ lệ nhận dạng đúng của các phương pháp NMHD và LT-NMHD với cáccảm xúc khác nhau của khuôn mặt 1025.10 Tỷ lệ nhận dạng đúng của các phương pháp LHD, MLHD, RLHD và LT-LHD với các cảm xúc khác nhau của khuôn mặt 1035.11 So sánh tỷ lệ nhận dạng của các phương pháp đề xuất với các phương phápkhác trong điều kiện bài toán SSPP với tập dữ liệu ORL 109
6.1 So sánh tỷ lệ nhận dạng của mạng InceptionV3 khi sử dụng các hàm mấtmát khác nhau 116
Trang 16DANH MỤC TỪ VIẾT TẮT
2D-PCA Two-Dimensional Principal Component Analysis
BF-HD Best-First Hausdorff distance
CCRC Collaborative-Competitive Representation based Classifier
CNNs Convolutional Neural Networks
CRC Collaborative Representation Classifier
DF-HD Depth-Fist Hausdorff distance
DPC Decision Pyramid Classifier
DT-CWT Dual-tree Complex Wavelet Transform
ERLDA Ensemble of Randomized Linear Discriminant Analysis
FLDA Fisher Linear Discriminant Analysis
GAN Generative Adversarial Networks
GLCM Gray Level Co-Occurrence Matrix
I-HD Incremental Hausdorff distance
Trang 17LEM Line Edge Map
LRC Linear Regression Classification
LT-LHD Least Trimmed Line Hausdorff Distance
LT-MHD Least Trimmed Modified Hausdorff Distance
LT-NMHD Least Trimmed New Modified Hausdorff Distance
MLHD Modified Line Hausdorff Distance
NMHD New Modified Hausdorff Distance
NRC Nonnegative Representation Classification
ORL Olivetti Research Laboratory
pLHD primary Line Hausdorff Distance
pLT-LHD primary Least trimmed - Line Hausdorff Distance
pLT-NMHD primary Least trimmed - New Modified Hausdorff Distance
RLHD Robust Line Hausdorff Distance
SCCRC Sparse and Collaborative-Competitive Representation based
Clas-sification
SRC Sparse Representation Classifier
SVD Singular Value Decomposition
Trang 18vị trí của khuôn mặt người trong một bức ảnh thu nhận vào từ hệ thống Bước trích đặctrưng sẽ được dùng để biểu diễn khuôn mặt người có được thành các vector đặc trưng.Bước cuối cùng của hệ thống là nhận dạng khuôn mặt sẽ dùng các vector đặc trưng đượctrích để so sánh với các ảnh khác trong cơ sở dữ liệu.
Trong khoảng 30 năm qua, đã có rất nhiều các nghiên cứu về nhận dạng khuôn mặtđược đề xuất với các kết quả đáng khích lệ Tuy nhiên lĩnh vực nhận dạng khuôn mặtvẫn còn rất nhiều bài toán cần giải quyết [6, 7] khi tỷ lệ nhận dạng của các phương phápvẫn còn bị ảnh hưởng bởi những điều kiện khác nhau của ảnh đầu vào Bài toán lớn nhất
Trang 19Hình 1.1: Cấu trúc hệ thống nhận dạng khuôn mặt
Bảng 1.1: So sánh giữa việc nhận dạng khuôn mặt trong điều kiện có một ảnh cho một
người với có nhiều ảnh cho một người trong cơ sở dữ liệu
Một ảnh trong một lớp Nhiều ảnh trong một lớpCác ứng dụng Các hệ thống an ninh, nhận dạng
thẻ ngân hàng, bằng lái xe, hộchiếu
Các hệ thống giải trí, tương tácngười - máy
Ưu điểm Việc thu thập, lưu trữ ảnh tốn ít
chi phí
Tỷ lệ nhận dạng chính xác cao,bền vững trong nhiều điều kiện.Nhược điểm Tỷ lệ nhận dạng chính xác thấp,
ít bền vững trong các điều kiệnkhác nhau của thực tế
Việc thu thập, lưu trữ ảnh đòi hỏichi phí cao Một số trường hợppháp luật không cho phép
mà các phương pháp nhận dạng khuôn mặt cần giải quyết đó là việc tỷ lệ nhận dạng củacác phương pháp bị suy giảm nghiêm trọng trong điều kiện chỉ có một ảnh cho mỗi cánhân trong cơ sở dữ liệu [8, 9] hay điều kiện đơn mẫu Việc nhận dạng khuôn mặt trongđiều kiện đơn mẫu, hay được gọi là bài toán nhận dạng khuôn mặt trong điều kiện SingleSample Per Person (SSPP) [9, 10], là một yêu cầu được rất nhiều các ứng dụng trongthực tế đòi hỏi: hệ thống về xác thực hộ chiếu, các hệ thống về an ninh, xác thực thẻngân hàng Việc thu thập nhiều ảnh của một người để lưu trong cơ sở dữ liệu là rấtkhó khăn hay thậm chí không được pháp luật cho phép Bảng 1.1 trình bày các so sánh
về ưu nhược điểm của các hệ thống nhận dạng khuôn mặt trong điều kiện đơn mẫu và đamẫu Bài toán SSPP này có thể được mô tả như sau: Cho một hệ thống có cơ sở dữ liệuchỉ chứa một ảnh của mỗi người cần nhận dạng, mục tiêu của hệ thống là cần xác địnhdanh tính một người dựa vào ảnh chụp người đó trong những thời gian khác nhau, trongcác điều kiện khác nhau về ánh sáng, góc chụp
Các phương pháp nhận dạng khuôn mặt trong điều kiện có nhiều ảnh cho mỗi cá nhântrong cơ sở dữ liệu sẽ không thể áp dụng để giải quyết bài toán SSPP vì tỷ lệ nhận dạngcủa các phương pháp này bị suy giảm rất nhiều trong điều kiện đơn mẫu [11, 12] Trongnhững năm qua, cũng đã có khá nhiều các nghiên cứu được đề xuất nhằm giải quyết bàitoán SSPP Các phương pháp này có thể được chia thành 4 nhóm chính như sau [9, 10]:
Các phương pháp nhận dạng khuôn mặt dựa trên các đặc trưng toàn cục của bứcảnh (Global feature based methods): Các vector đặc trưng của ảnh khuôn mặt được
Trang 20trích ra từ toàn bộ của bức ảnh và việc nhận dạng sẽ dựa trên vector đặc trưng này.
Các phương pháp nhận dạng khuôn mặt dựa trên các đặc trưng cục bộ của bức ảnh(Local feature based methods): Các vector đặc trưng của ảnh khuôn mặt được trích
ra từ các phần nhỏ của bức ảnh hoặc trích ra tại các pixel trong ảnh dựa trên mốiquan hệ với các pixel xung quanh Sau đó, các phương pháp khác nhau được dùng
để phân loại ảnh đầu vào dựa trên vector đặc trưng này
Với các phương pháp tạo ra các mẫu ảo để huấn luyện (Virtual sample generationbased methods): các tập mẫu sẽ được tăng số lượng bằng cách tạo ra thêm nhiềumẫu ảo dựa trên tập mẫu gốc Điều này giúp làm tăng số lượng mẫu trong một lớp.Các phương pháp nhận dạng khuôn mặt trong điều kiện đa mẫu sẽ được áp dụng
để giải quyết bài toán SSPP
Với các phương pháp sử dụng thêm một tập chung để huấn luyện (Generic datasetsbased methods): các phương pháp sẽ học cách trích đặc trưng từ các tập mẫu chung
có số lượng lớn các lớp cũng như số lượng lớn các mẫu trong cùng một lớp Sau đócách trích đặc trưng này sẽ được áp dụng để trích đặc trưng các ảnh trong tập mẫu
và tập kiểm tra
Các nghiên cứu [5, 9, 10] đều chỉ ra rằng mỗi nhóm phương pháp đều có ưu và nhượcđiểm riêng và không có nhóm phương pháp nào được xem là thực sự là nổi trội hơn so vớicác phương pháp còn lại Hầu hết, việc so sánh các phương pháp hoặc các nhóm phươngpháp lại với nhau thường tập trung vào việc so sánh tỷ lệ nhận dạng của các phươngpháp Tuy nhiên trong thực tế, việc so sánh các phương pháp với nhau thì cần đặt trongmột hoàn cảnh rộng hơn nhiều việc so sánh tỷ lệ nhận dạng chính xác [13] Bên cạnh
tỷ lệ chính xác, tính dễ dàng cho người sử dụng, tính linh động trong việc mở rộng hệthống, sự phức tạp của hệ thống, khả năng lưu trữ và khả năng tính toán của phần cứng Trong thực tế, tùy theo từng ứng dụng cụ thể thì sẽ có các yêu cầu cụ thể được đặt
ra, và từ đó mới có thể kết luận việc phương pháp nào là thích hợp cho hệ thống đó
Theo nhiều nghiên cứu của nhiều tác giả [5, 9, 10], các phương pháp nhận dạng khuônmặt dựa trên đặc trưng cục bộ có các ưu điểm nổi bật là việc dễ dàng triển khai trongcác ứng dụng thực tế, bền vững với các điều kiện không lý tưởng của ảnh đầu vào cũngnhư không đặt các điều kiện ràng buộc biết trước cho ảnh đầu vào Tuy nhiên, nhượcđiểm của nhóm phương pháp này là việc phải chọn được đặc trưng cục bộ phù hợp vì tỷ
lệ nhận dạng của các phương pháp phụ thuộc rất nhiều vào đặc trưng cục bộ được chọn.Trong chuyên ngành xử lý ảnh, cạnh của một bức ảnh là tập hợp các pixel có sự thay
Trang 21đổi mức xám đột ngột Với các ảnh vật thể nói chung hay khuôn mặt nói riêng, các pixelcạnh thể hiện các cấu trúc hình học của vật thể hay khuôn mặt Các phương pháp nhậndạng khuôn mặt cũng thường sử dụng các pixel cạnh như là đặc trưng cục bộ của ảnhkhuôn mặt vì đặc trưng cục bộ này có ưu điểm là bền vững với các điều kiện chiếu sángkhác nhau của bức ảnh [14].
Một nhóm các phương pháp nhận dạng khuôn mặt sử dụng các pixel cạnh của ảnhkhuôn mặt [15–22] hoặc các điểm trội trong số các pixel cạnh của ảnh khuôn mặt [23, 24]như là các đặc trưng cục bộ của ảnh khuôn mặt Các phương pháp này có điểm chung
là sử dụng khoảng cách Hausdorff trung bình, Modified Hausdorff Distance (MHD), để
đo sự giống nhau giữa hai tập hợp các đặc trưng Ưu điểm của các phương pháp này làđơn giản và dễ triển khai trong thực tế Tuy nhiên nhược điểm của các phương pháp này
là có độ phức tạp tính toán rất cao do sử dụng khoảng cách Hausdorff trung bình vốn
có độ phức tạp tính toán rất cao Ngoài ra, tỷ lệ nhận dạng của nhóm phương pháp nàycũng không thật sự cao Các nhược điểm này đã hạn chế việc áp dụng các phương phápnày vào các ứng dụng thực tế Như vậy một nghiên cứu nhằm nâng cao tỷ lệ nhận dạngđồng thời làm giảm độ phức tạp tính toán cho các phương pháp này là một nghiên cứucần thiết
So với nhóm phương pháp sử dụng đặc trưng là các pixel cạnh, nhóm phương pháp
sử dụng đặc trưng là các điểm trội [23, 24] có ưu điểm vượt trội hơn là tiết kiệm đượcchi phí lưu trữ rất lớn, thấp hơn khoảng 85% [23] so với nhóm phương pháp sử dụng đặctrưng là các pixel cạnh Nhóm phương pháp sử dụng đặc trưng là các điểm trội trên cạnhcũng được đánh giá là phù hợp với việc triển khai trong các ứng dụng thực tế [25] Việcnghiên cứu giúp cải thiện tỷ lệ nhận dạng và giảm độ phức tạp tính toán cho các phươngpháp [23, 24] góp phần giúp các phương pháp này đến gần hơn trong việc áp dụng vàocác ứng dụng nhận dạng khuôn mặt trong thực tế Đồng thời các kết quả này cũng cóthể được mở rộng để áp dụng cho các phương pháp nhận dạng khuôn mặt khác [15–22]
Trong nghiên cứu này, một khoảng cách/độ đo mới dựa trên khoảng cách Hausdorff,khoảng cách Hausdorff trung bình các giá trị lớn nhất và đặt tên là Least TrimmedModified Hausdorff Distance (LT-MHD) sẽ được đề xuất Khoảng cách mới này sẽ được
sử dụng để đo sự giống/khác nhau giữa hai tập hợp các đặc trưng của ảnh khuôn mặt.Dựa trên khoảng cách mới được đề xuất, nghiên cứu sẽ đề xuất hai phương phápnhận dạng khuôn mặt dựa trên đặc trưng cục bộ để giải quyết bài toán SSPP, phươngpháp Least Trimmed-Line Hausdorff Distance (LT-LHD) và phương pháp Least Trimmed-New Modified Hausdorff Distance (LT-NMHD), lần lượt là hai phương pháp cải tiến củahai phương pháp Line Hausdorff Distance (LHD) [24] và phương pháp New Modified
Trang 22Hausdorff Distance (NMHD) [23] Hai phương pháp LT-LHD và phương pháp LT-NMHDcũng sử dụng các tập đặc trưng của ảnh khuôn mặt như phương pháp LHD và phươngpháp NMHD Việc này sẽ giúp chứng minh khoảng cách LT-MHD có thể áp dụng cho cácphương pháp nhận dạng sử dụng các loại đặc trưng khác nhau Thông qua các mô phỏng
về tỷ lệ nhận dạng khuôn mặt của hai phương pháp LT-LHD và LT-NMHD và so sánhvới hai phương pháp LHD và NMHD, nghiên cứu sẽ chứng minh độ đo mới LT-MHD sẽmang đến sự cải thiện về tỷ lệ nhận dạng cho các phương pháp nhận dạng khuôn mặt
so với việc sử dụng khoảng cách Hausdorff trung bình Bên cạnh đó, tỷ lệ nhận dạngcủa khuôn mặt của hai phương pháp LT-LHD và LT-NMHD sẽ được so sánh với một sốphương pháp nhận dạng khuôn mặt trong điều kiện đơn mẫu trong những năm gần đây
để chứng minh sự hiệu quả của hai phương pháp LT-LHD và LT-NMHD Các phươngpháp này sẽ được tiến hành theo cùng một cách thức mô phỏng để so sánh công bằng tỷ
Trong những năm gần đây, sử dụng các phương pháp học sâu (Deep Learning) để giảiquyết các bài toán nhận dạng khuôn mặt đang nhận được sự quan tâm lớn từ các nhànghiên cứu [28] Việc sử dụng các phương pháp học sâu để giải quyết các bài toán nhậndạng nói chung và nhận dạng khuôn mặt nói riêng là một xu hướng đang rất phát triển.Tuy không phải là mục tiêu ban đầu của nghiên cứu nhưng chúng tôi vẫn mong muốn
áp dụng các kết quả có được vào hướng nghiên cứu đang rât phát triển này Trong phầncuối của nghiên cứu này, một mô hình trích đặc trưng ảnh khuôn mặt dựa trên học sâu
sẽ được đề xuất, trong đó một mạng CNN sẽ được kết hợp cùng khoảng cách LT-MHD.Khoảng cách LT-MHD sẽ được sử dụng như hàm mất mát ngõ ra của mạng CNN này.Thông qua mô phỏng, nghiên cứu này sẽ chứng minh sự hiệu quả của việc sử dụng khoảngcách LT-MHD làm hàm mất mát thay vì sử dụng hàm cross-entropy
Trang 231.4 Các đóng góp chính của nghiên cứu
Nghiên cứu này đã đạt được một số kết quả chính như sau:
Trong nghiên cứu này, một độ đo mới dựa trên khoảng cách Hausdorff đã được
đề xuất và được đặt tên là khoảng cách Hausdorff trung bình các giá trị lớn nhất,Least Trimmed Modified Hausdorff Distance (LT-MHD) Dựa trên khoảng cáchLT-MHD, nghiên cứu đã đề xuất hai phương pháp nhận dạng khuôn mặt trong điềukiện đơn mẫu là LT-NMHD và LT-LHD
Các kết quả mô phỏng về tỷ lệ nhận dạng của hai phương pháp NMHD và LHD đã cho thấy việc sử dụng khoảng cách LT-MHD để đo khoảng cách giữa haitập đặc trưng thay vì dùng khoảng cách Hausdorff trung bình đã giúp cải thiện tỷ
LT-lệ nhận dạng khoảng 2-10% tùy từng điều kiện khác nhau của ảnh đầu vào Ngoài
ra, việc dùng khoảng cách LT-MHD để đo khoảng cách giữa các loại đặc trưng khácnhau của ảnh khuôn mặt trong hai phương pháp LT-NMHD và LT-LHD cũng chothấy khoảng cách LT-MHD có thể được sử dụng phù hợp cho nhiều loại đặc trưngkhác nhau của ảnh khuôn mặt Các kết quả này có thể được mở rộng để đưa ramột giải pháp cải tiến về tỷ lệ nhận dạng cho các phương pháp nhận dạng khuônmặt tương tự sử dụng đặc trưng cục bộ là các pixel cạnh khác như [15–22], đó làviệc thay thế khoảng cách Hausdorff trung bình bằng khoảng cách LT-MHD được
đề xuất trong nghiên cứu này
Tỷ lệ nhận dạng của hai phương pháp LT-NMHD và LT-LHD cũng được so sánhvới một số phương pháp nhận dạng khuôn mặt trong điều kiện SSPP trong nhữngnăm gần đây với cùng một điều kiện mô phỏng Các kết quả cho thấy hai phươngpháp LT-NMHD và LT-LHD cho kết quả nhận dạng khá tốt khi so sánh với cácphương pháp khác Đặc biệt, phương pháp LT-LHD cho kết quả nhận dạng cao hơnkhoảng 2-11% so với một số các phương pháp nhận dạng khác được đề xuất trongkhoảng 5 năm gần đây
Cùng với cải thiện về tỷ lệ nhận dạng, nghiên cứu này cũng đề xuất một cách thức
để giúp làm giảm độ phức tạp tính toán cho hai phương pháp nhận dạng khuônmặt được đề xuất Hai phương pháp EARLYBREAK và phương pháp Local StartSearch (LSS) là hai phương pháp mới nhất trong lĩnh vực CAD/CAM/CAE nhằmlàm giảm độ phức tạp của phép tính khoảng cách Hausdorff Trong nghiên cứu này,phương pháp LSS được áp dụng để giảm độ phức tạp tính toán cho phương phápLT-NMHD và phương pháp EARLYBREAK được áp dụng để giảm độ phức tạptính toán cho phương pháp LT-LHD Các kết quả mô phỏng cho thấy rằng phươngpháp LT-NMHD có độ phức tạp tính toán giảm khoảng 17% và thời gian tính toán
Trang 24giảm 16% so với phương pháp NMHD Đặc biệt hơn, phương pháp LT-LHD có độphức tạp tính toán thấp hơn đến 67% và thời gian tính toán giảm 63% - 65% so vớiphương pháp LHD Điều này cho thấy sự hiệu quả khi áp dụng các phương phápnhư EARLYBREAK hay LSS để làm giảm độ phức tạp tính toán cho các phươngpháp nhận dạng khuôn mặt sử dụng khoảng cách Hausdorff Các kết quả này cũng
có thể được mở rộng để áp dụng để làm giảm độ phức tạp tính toán cho các phươngpháp nhận dạng khuôn mặt khác dựa trên khoảng cách Hausdorff trung bình nhưcác phương pháp [15–22]
Ngoài ra, nghiên cứu này cũng đề xuất một mô hình trích đặc trưng ảnh khuôn mặtdựa trên học sâu bằng cách kết hợp khoảng cách LT-MHD cùng một mạng CNN.Trong đó khoảng cách LT-MHD được sử dụng như hàm mất mát của mạng CNNnày Các kết quả mô phỏng cho thấy rằng việc sử dụng khoảng cách LT-MHD làmhàm mất mát cho mạng CNN thay vì hàm mất mát cross-entropy đã giúp làm tăng
tỷ lệ nhận dạng của mô hình đến 43%
Các kết quả trong nghiên cứu này đã được công bố trong 2 bài báo đăng trên tạpchí quốc tế uy tín (thuộc danh mục Scopus), 3 bài báo đăng trên các tạp chí trongnước uy tín (thuộc danh mục các tạp chí tính điểm của hội đồng chức danh giáo sưnhà nước) và 1 bài báo trong hội nghị quốc tế (có ISBN)
Luận án bao gồm 7 chương và được trình bày như sau:
Chương 1 trình bày các giới thiệu về luận án, mục tiêu cũng như các đóng góp chínhcủa luận án này
Chương 2 sẽ trình bày khái quát về một số phương pháp nhận dạng khuôn mặttrong điều kiện SSPP truyền thống và phân tích ưu nhược điểm của các phươngpháp này Bên cạnh đó, chương 2 cũng trình bày các khảo sát và phân tích sâu vềcác phương pháp trong lĩnh vực CAD/CAM/CAE nhằm làm giảm độ phức tạp củaphép tính khoảng cách Hausdorff
Chương 3 sẽ trình bày về độ đo mới được đề xuất, LT-MHD Đồng thời trong chươngnày, phương pháp nhận dạng khuôn mặt mà được đề xuất, LT-NMHD, cũng đượctrình bày Phương pháp này là sự kết hợp của khoảng cách LT-MHD với phươngpháp NMHD Bên cạnh đó, chương 3 cũng trình bày cách thức áp dụng phươngpháp LSS để làm giảm độ phức tạp tính toán của phương pháp LT-NMHD
Trang 25 Chương 4 sẽ trình bày về phương pháp nhận dạng khuôn mặt LT-LHD được đềxuất Phương pháp LT-LHD là sự kết hợp giữa phương pháp LHD và khoảng cáchLT-MHD Thêm vào đó, chương 4 cũng sẽ trình bày cách để áp dụng phương phápEARLYBREAK để làm giảm độ phức tạp tính toán của phương pháp LT-LHD.
Chương 5 sẽ trình bày về các kết quả mô phỏng về khả năng nhận dạng khuôn mặtcủa hai phương pháp được đề xuất trong nghiên cứu này, LT-LHD và LT-NMHD.Các kết quả này cũng sẽ được so sánh với hai phương pháp LHD và NMHD để chothấy sự hiệu quả khi thay đổi từ việc sử dụng khoảng cách Hausdorff trung bìnhsang khoảng cách LT-MHD Bên cạnh đó, tỷ lệ nhận dạng của hai phương phápLT-LHD và LT-NMHD cũng sẽ được so sánh với một số phương pháp nhận dạngkhuôn mặt được đề cập trong chương 2 trong cùng một cách thức mô phỏng
Chương 6 sẽ trình bày về mô hình trích đặc trưng ảnh khuôn mặt dựa trên học sâubằng cách kết hợp giữa một mạng CNN và khoảng cách LT-MHD, trong đó khoảngcách LT-MHD được sử dụng như một hàm mất mát của mạng CNN này
Chương 7 sẽ trình bày về các kết luận mà nghiên cứu này đạt được
Trang 26Phương pháp [29] sử dụng các thành phần cơ bản khi phân tích ảnh khuôn mặt bằngphương pháp Singular Value Decomposition (SVD) để tạo thêm các ảnh ảo từ ảnh gốc(như hình 2.1) Phương pháp Fisher Linear Discriminant Analysis (FLDA) được sử dụng
để trích đặc trưng toàn cục của ảnh khuôn mặt và bộ phân loại Nearest neighbor (NN)được dùng để nhận dạng ảnh Phương pháp [30] và [31] trích đặc trưng toàn cục của ảnhkhuôn mặt bằng phương pháp 2D-DFT và cũng phân loại các đặc trưng bằng bộ phânloại NN Phương pháp [30] tạo thêm một ảnh ảo bằng cách sử dụng biến đổi wavelettrong khi phương pháp [31] tạo thêm ảnh mới bằng cách sử dụng bản đồ hình chiếu Các
Trang 27Hình 2.1: Ảnh khuôn mặt cùng các ảnh phục hồi từ các thành phần cơ bản sau phân
tích SVD [29]
Hình 2.2: Phương pháp AWOGBP để trích đặc trưng ảnh khuôn mặt [33]
phương pháp này cho kết quả nhận dạng tốt với ảnh chính diện nhưng tỷ lệ nhận dạng
bị suy giảm khá nhiều trong các điều kiện khác Phương pháp [32] sử dụng phương phápphân tích thừa số hai chiều, two-dimensional factor analysis (2DFA), để trích đặc trưngcủa ảnh khuôn mặt nên cho tỷ lệ nhận dạng khá tốt với các điều kiện không lý tưởng vềánh sáng của ảnh đầu vào Tuy nhiên với các điều kiện khác của ảnh đầu vào, phươngpháp [32] cũng không cho tỷ lệ nhận dạng cao
Phương pháp [33] đề xuất phương pháp trích đặc trưng trong miền tần số, phươngpháp Adaptively weighted orthogonal gradient binary pattern (AWOGBP) Hình 2.2 mô
tả cách trích đặc trưng ảnh, trong đó các thành phần tần số cao sẽ được nhân thêm cáctrọng số nhằm làm tăng thêm các chi tiết của bức ảnh Phương pháp AWOGBP kết hợpcùng phương pháp PCA để trích đặc trưng toàn cục của bức ảnh Bộ phân loại NN được
sử dụng để phân lớp các vector đặc trưng Phương pháp này chỉ thích hợp trong việcnhận dạng khuôn mặt trong điều kiện ánh sáng thay đổi
Trong những năm gần đây, biểu diễn thưa Sparse Representation Classifier (SRC)được sử dụng rất nhiều trong lĩnh vực nhận dạng khuôn mặt Phương pháp [34] đề xuấtmột phương pháp trích đặc trưng ảnh khuôn mặt bằng cách kết hợp phương pháp SRCcùng bộ từ điển được xây dựng từ tập mẫu Ưu điểm của phương pháp này, như hình2.3, là các ảnh không có trong tập mẫu sẽ có sai số rất lớn trong khi các ảnh có trong
Trang 28Hình 2.3: So sánh ảnh gốc và ảnh phục hồi từ từ điển trong phương pháp [34]
tập mẫu sẽ có sai số rất thấp Bộ phân loại NN được sử dụng để phân lớp các vector đặctrưng Phương pháp này có tỷ lệ nhận dạng khá tốt nhưng bộ từ điển cần phải được xâydựng lại từ đầu có thêm hoặc bớt số lớp của tập mẫu Phương pháp [35] cũng sử dụngSCR để trích đặc trưng ảnh khuôn mặt nhưng không sử dụng từ điển mà xây dựng mớihàm mục tiêu cho phương pháp SCR để làm rõ hơn sự khác biệt giữa các lớp Hàm mụctiêu mới giúp làm tăng tỷ lệ nhận dạng nhưng đồng thời cũng làm tăng độ phức tạp tínhtoán cho việc nhận dạng Cũng dựa trên biểu diễn thưa SRC nhưng phương pháp [36] sẽtrích đặc trưng ảnh đầu vào dựa vào T ảnh gần nó nhất thay vì toàn bộ ảnh trong tậpmẫu Việc tối ưu sai số của biểu diễn SRC sẽ dựa vào việc tối ưu khoảng cách l1 của hàmmục tiêu
Phương pháp biểu diễn kết hợp, Collaborative Representation Classifier (CRC) làphương pháp tương tự như phương pháp SRC, trong đó ảnh đầu vào được biểu diễnthành tổ hợp tuyến tính của tất cả các ảnh trong tập mẫu thay vì chỉ một lớp Phươngpháp [37] trích đặc trưng ảnh khuôn mặt dựa vào phương pháp CRC Bộ phân loại NN sẽphân loại vector đặc trưng dựa trên việc kết hợp giữa khoảng cách Procrustes và khoảngcách Euclidean để đo khoảng cách giữa các vector đặc trưng Tuy nhiên, việc dùng khoảngcách kết hợp sẽ dẫn đến việc tăng thời gian nhận dạng Phương pháp [38] sử dụng mộtdạng mở rộng của phương pháp CRC cho quá trình trích đặc trưng ảnh khuôn mặt, phươngpháp Collaborative-Competitive Representation based Classifier (CCRC) Việc sử dụngphương pháp CCRC để trích đặc trưng giúp cải thiện tỷ lệ nhận dạng so với phương phápCRC nhưng đồng thời cũng làm tăng thời gian tính toán đáng kể Kết hợp phương phápSRC và CCRC, một phương pháp trích đặc trưng mới được đề xuất tại [39], phương phápSparse and collaborative-competitive representation-based classification (SCCRC) Việc
sử dụng các vector đặc trưng ảnh khuôn được trích bằng phương pháp SCCRC sẽ giúplàm tăng tỷ lệ nhận dạng nhưng độ phức tạp của phương pháp [39] cũng vượt trội so vớicác phương pháp sử dụng SRC hoặc CCRC để trích đặc trưng ảnh
Phương pháp [40] đề xuất một phương pháp trích đặc trưng tương tự phương phápSRC và CRC, phương pháp Noisy Label based Discriminative Least squares Regression(NLDLSR) Khác với phương pháp SRC hay CRC, phương pháp NLDLSR sẽ đưa thôngtin thống kê kết hợp cùng thông tin về nhãn của các lớp vào trong hàm mục tiêu Việcđưa thêm nhãn các lớp vào hàm mục tiêu xuất phát từ việc khảo sát các vector đặc trưng
Trang 29trong cùng một lớp ở các điều kiện khác nhau sẽ có sai số lớn hơn sự sai khác giữa cácvector đặc trưng trong các lớp khác nhau ở cùng điều kiện Phương pháp [40] cho kết quảnhận dạng rất ổn định với nhiều điều kiện khác nhau của ảnh đầu vào.
Linear regression classification (LRC) là một phương pháp trích đặc trưng tương tựnhư CRC hay SRC và thường được dùng phổ biến trong điều kiện đa mẫu Phươngpháp [41] đã đề xuất một cải tiến của phương pháp LRC để trích đặc trưng ảnh khuônmặt trong bài toán SSPP, trong đó các ảnh khuôn mặt được trích đặc trưng dựa vào tổhợp của các ảnh trong những lớp gần nó nhất Phương pháp [41] cho kết quả nhận dạngtốt hơn trường hợp sử dụng cách trích đặc trưng LRC trong điều kiện nhận dạng khuônmặt SSPP nhưng đồng thời cũng làm gia tăng đáng kể thời gian tính toán Nonnegativerepresentation classification (NRC) cũng là một phương pháp trích đặc trưng tương tựnhư SRC với các vector đặc trưng có giá trị không âm Phương pháp [42] sử dụng NRC
để trích đặc trưng ảnh khuôn mặt và bộ phân loại NN để phân lớp các vector đặc trưng.Các phương pháp nhận dạng khuôn mặt dựa trên đặc trưng được trích từ toàn bộ bứcảnh nhìn chung có ưu điểm là giữ lại được toàn bộ các chi tiết đặc trưng cũng như toàn
bộ thông tin về cấu trúc của khuôn mặt Đây là các yếu tố quan trọng để phân biệt giữacác khuôn mặt Ngoài ra các phương pháp này cũng đơn giản để có thể triển khai thực tếtrong các hệ thống Đồng thời các phương pháp này cũng tốn ít thời gian huấn luyện vàtốn ít dung lượng lưu trữ của hệ thống Tuy nhiên các phương pháp này tồn tại một sốnhược điểm Đầu tiên, vì số lượng ảnh huấn luyện của một lớp là ít nên sẽ phải biểu diễnđặc trưng của một lớp bằng một vector rất nhiều chiều để bù đắp lại Điều này dẫn đếncác thuật toán phân lớp sẽ có độ phức tạp tính toán cao và thời gian nhận dạng lớn [5].Một nhược điểm khác rất quan trọng của nhóm phương pháp này là việc tỷ lệ nhận dạngcủa các phương pháp trích đặc trưng toàn cục rất nhạy với sự thay đổi của bức ảnh Tỷ
lệ nhận dạng chính xác của các phương pháp trong nhóm này cũng chưa thật sự cao
2.1.2 Các phương pháp nhận dạng khuôn mặt sử dụng các đặc
trưng cục bộ
Các phương pháp nhận dạng khuôn mặt dựa trên đặc trưng cục bộ sẽ sử dụng các đặctrưng cục bộ để biểu diễn ảnh khuôn mặt Đặc trưng cục bộ có thể là các đặc trưng đượctrích ra từ một phần bức ảnh bằng các phương pháp khác nhau hoặc là các đặc trưngđược trích ra tại các điểm đặc trưng của bức ảnh Một số phương pháp nhận dạng khuônmặt trong điều kiện SSPP dựa trên đặc trưng cục bộ có thể được kể đến như sau.Đối với nhóm các phương pháp trích đặc trưng cục bộ trên một phần bức ảnh, các ảnhkhuôn mặt sẽ được chia nhỏ thành các thành phần chồng lấp hoặc không chồng lấp nhau.Các phương pháp khác nhau sẽ được áp dụng để trích đặc trưng trên các ảnh nhỏ này.Phương pháp [43] đề xuất chia các ảnh khuôn mặt thành 4 phần nhỏ như hình 2.4 Các
Trang 30Local Binary Pattern (LBP) cũng là một phương pháp trích đặc trưng thường được sửdụng trong các phương pháp nhận dạng khuôn mặt Phương pháp LBP sẽ biểu diễn mộtpixel thành một con số biểu diễn mối quan hệ mức xám pixel đó với các pixel xung quanh
và các số này được kết hợp để tạo thành vector đặc trưng của ảnh Phương pháp [45]
sẽ chia nhỏ ảnh thành 15 ảnh nhỏ như hình 2.7 và sử dụng phương pháp LBP để tríchđặc trưng từ các ảnh nhỏ này Phương sai của khoảng cách Chi-square giữa 15 cặp ảnhnhỏ được sử dụng như khoảng cách giữa một cặp ảnh và bộ phân loại NN được dùng đểphân lớp Phương pháp này đơn giản và có tỷ lệ nhận dạng khá tốt Phương pháp [46] đềxuất một cách chia nhỏ ảnh gọi là cấu trúc Grid tree như hình 2.8 Vector đặc trưng củacác ảnh nhỏ được trích ra bằng cách sử dụng phương pháp LBP và kết hợp với nhau để
Trang 31Hình 2.6: Một ví dụ về việc trích đặc trưng bằng phương pháp LBP [48]
Hình 2.7: Một ví dụ về chia ảnh khuôn mặt thành 15 phần bằng nhau [45]
tạo thành vector đặc trưng của ảnh khuôn mặt Bộ phân loại Chi-square được sử dụng
để phân lớp Tuy nhiên cấu trúc Grid tree trong phương pháp này là thay đổi theo từngảnh nên sẽ mang tính chủ quan Độ phức tạp rất lớn cũng là hạn chế của phương phápnày Phương pháp [47] cũng đề xuất chia ảnh và sử dụng phương pháp LBP để trích đặctrưng các ảnh nhỏ tương tự như phương pháp [46] Bộ phân loại quyết định hình tháp,Decision Pyramid Classifier (DPC) , dựa trên xác suất của các ảnh nhỏ sẽ phân lớp cácảnh khuôn mặt Phương pháp [47] cho tỷ lệ nhận dạng tốt trong các điều kiện khác nhaucủa ảnh đầu vào nhưng độ phức tạp của bộ DPC là một nhược điểm của phương phápnày Phương pháp [48] đề xuất một cải tiến của phương pháp LBP để trích đặc trưng cục
bộ, phương pháp Gray Level Co-Occurrence Matrix (GLCM) Ngoài việc biển diễn mốiquan hệ về mức xám giữa các vector, phương pháp GLCM sẽ biểu diễn mối quan hệ củacác pixel với các pixel lân cận ở 4 hướng xung quanh tại các góc 0o, 45o, 90o và 135o tạicác khoảng cách khác nhau như hình 2.9 Việc sử dụng GLCM để trích đặc trưng làmtăng tỷ lệ nhận dạng khuôn mặt của phương pháp [48] Tuy nhiên khi số lượng lớp trongtập mẫu tăng lên thì thời gian nhận dạng của phương pháp [48] sẽ tăng đáng kể
Phương pháp [49] đề xuất một phương pháp nhận dạng khuôn mặt trong điều kiệnSSPP dựa trên việc sử dụng một cải tiến của phương pháp FLDA, phương pháp Ensemble
Hình 2.8: Các cấu trúc khác nhau của Grid tree [46]
Trang 32để tạo thành nhiều vector đặc trưng ngắn hơn như hình 2.10 Phương pháp FLDA được
sử dụng để trích đặc trưng ảnh khuôn mặt trong không gian tạo thành bởi các vectorngắn này Bộ phân loại yếu dựa trên xác suất được dùng để phân lớp ảnh đầu vào Tuynhiên việc sử dụng đến 200 bộ phân loại yếu khác nhau để giúp làm tăng chất lượng hệthống kéo theo thời gian nhận dạng là rất lớn Phương pháp [50] cũng sử dụng phươngpháp FLDA để trích đặc trưng ảnh khuôn mặt Tuy nhiên, phương pháp [50] sử dụng 40
bộ lọc Gabor với các góc và hướng khác nhau để tạo ra thêm các vector đặc trưng và kếthợp với vector đặc trưng gốc ban đầu để tạo thành không gian ảnh mới Ảnh đầu vào
sẽ được trích đặc trưng trong không gian mới bằng phương pháp FLDA và bộ phân loại
NN được sử dụng để phân lớp Phương pháp [51] đề xuất một phương pháp nhận dạngảnh khuôn mặt dựa vào việc chia ảnh thành 4 phần bằng nhau và sử dụng phương phápMaximum Scatter Difference (MSD) để trích đặc trưng ảnh Phương pháp MSD cũng làmột phương pháp trích đặc trưng tương tự như phương pháp FLDA nhưng hàm chi phí
là một hàm cộng thay vì hàm nhân như phương pháp FLDA Bộ phân loại NN kết hợpcùng bộ phân loại mờ được sử dụng để phân lớp các vector đặc trưng
Trang 33Hình 2.11: Biểu diễn ảnh khuôn mặt trong không gian với nhãn của các ảnh là các chiều
[52]
Phương pháp [52] đề xuất một phương pháp nhận dạng khuôn mặt dựa trên bộ phânloại hồi quy tuyến tính Các ảnh sẽ được biểu diễn trong không gian nhãn với nhãn củacác lớp sẽ được biểu diễn thành các trục tọa độ như hình 2.11 Ảnh kiểm tra sẽ được chiathành các ảnh nhỏ không chồng lắp và được đặt trên một trục cách đều các trục tọa độ
Bộ phân loại sẽ sử dụng cách voting để nhận dạng ảnh Phương pháp này bỏ qua cácthông tin toàn cục của bức ảnh để tập trung vào các đặc trưng cục bộ của ảnh nên chokết quả nhận dạng tốt trong các điều kiện không lý tưởng của ảnh khuôn mặt
Liu [53] đã đề xuất một phương pháp học bán giám sát cho nhận dạng khuôn mặt,trong đó một cải tiến của phương pháp trích đặc trưng SRC được giới thiệu, phương phápStructured optimal graph based sparse feature extraction (SOGSFE) Bên cạnh đó, mộtthuật toán tối ưu mới cũng được giới thiệu trong phương pháp này nhằm giải quyết bàitoán tối ưu hàm mục tiêu của phương pháp SOGSFE Các kết quả mô phỏng cho thấyrằng phương pháp trích đặc trưng này cho kết quả tốt hơn các phương pháp trích đặctrưng cục bộ khác Tuy nhiên, một ma trận tính toán sự tương tự của các vector đặctrưng của các ảnh trong cơ sở dữ liệu phải được tính toán cập nhật với số vòng lặp rấtlớn dẫn đến thời gian nhận dạng lớn Phương pháp [54] cũng sử dụng phương pháp SRC
để trích đặc trưng ảnh khuôn mặt, trong đó ảnh khuôn mặt sẽ được chia thành hai phần
và sử dụng phương pháp SRC để trích đặc trưng của từng phần Các vector đặc trưngcủa từng phần sẽ được phân lớp một cách độc lập nhau Việc phân loại ảnh đầu vào sẽgiữa vào sai lệch tối thiểu giữa hai phần với nhau
Nhìn chung, nhóm phương pháp trên có ưu điểm là có thể biểu diễn một cách hạn chế
sự thay đổi trong cùng một lớp đối với bài toán nhận dạng khuôn mặt trong điều kiệnSSPP nên có thể áp dụng các phương pháp nhận dạng khuôn mặt trong điều kiện đa mẫu
để giải quyết bài toán SSPP Tuy nhiên nhược điểm chung của nhóm phương pháp này
là việc không đưa ra được một phương pháp tối ưu để chọn kích thước các ảnh nhỏ hayhình dạng các ảnh nhỏ, mặc dù sự lựa chọn này ảnh hưởng trực tiếp đến tính chính xác
Trang 34trong việc nhận dạng Các sự lựa chọn này thường mang tính chủ quan của các tác giả.Ngoài ra, còn có một số các phương pháp sử dụng các đặc trưng cục bộ được trích
từ các điểm đặc trưng như là đặc trưng của ảnh khuôn mặt Các phương pháp này có
ưu điểm là việc trích đặc trưng cục bộ từ một số điểm đặc trưng có thể khắc phục đượcviệc ảnh hưởng chủ quan lên việc chọn cách trích đặc trưng như đề cập ở trên, cũng nhưkhông đòi hỏi phải biết trước thông tin về ảnh khuôn mặt Tuy nhiên nhược điểm của cácphương pháp nhận dạng khuôn mặt dựa trên đặc trưng được trích từ các điểm đặc trưng
là việc phải chọn được các điểm trích đặc trưng thích hợp Các pixel cạnh là các điểm đặctrưng thường được sử dụng rộng rãi trong các phương pháp nhận dạng nói chung và nhậndạng khuôn mặt nói riêng vì các pixel cạnh thể hiện rất tốt cấu trúc, hình dạng của vậtthể hay khuôn mặt Ngoài ra, các pixel cạnh cũng là một đặc trưng rất bền vững với cácđiều kiện không lý tưởng của ảnh khuôn mặt, nhất là trong trường hợp ảnh khuôn mặt
bị chiếu sáng khác nhau [14] Các phương pháp này có tỷ lệ nhận dạng chính xác tươngđối cao, đơn giản và dễ thực hiện trong các ứng dụng thực tế
2.1.3 Các phương pháp nhận dạng khuôn mặt dựa trên việc tạo
thêm ảnh ảo
Các phương pháp nhận dạng khuôn mặt dựa trên việc tạo thêm ảnh ảo sẽ bằng các cáchthức khác nhau tạo thêm ảnh ảo, giúp làm tăng thêm số lượng ảnh cho mỗi lớp Điềunày giúp có thể áp dụng các phương pháp nhận dạng khuôn mặt trong điều kiện đa mẫu
để giải quyết bài toán nhận dạng khuôn mặt trong điều kiện SSPP Một số phương phápnhận dạng khuôn mặt trong điều kiện SSPP dựa trên việc tạo ra các mẫu ảo trong nhữngnăm gần đây có thể được kể đến như sau
Phương pháp [55] đề xuất tạo thêm ảnh ảo bằng cách lấy mẫu theo chiều dọc và ngangcủa ảnh khuôn mặt sau đó sẽ phóng to ảnh ảo để đạt được kích thước ban đầu Ảnh gốccùng 8 ảnh ảo sẽ cùng nhau tạo thành 9 ảnh cho mỗi lớp trong cơ sở dữ liệu Các vectorđặc trưng của ảnh khuôn mặt sẽ được trích bằng phương pháp FLDA và được phân lớpbằng bộ phân loại NN Phương pháp này rất đơn giản nhưng kết quả nhận dạng khôngthực sự ấn tượng Phương pháp [56] đề xuất phương pháp tạo ảnh ảo dựa trên phân rã
QR, trong đó ảnh gốc sẽ được phân rã sau đó các thành phần cơ bản đầu tiên được kếthợp lại để tạo thành ảnh ảo Ảnh gốc cùng 2 ảnh ảo sẽ tạo thành bộ 3 ảnh cho mỗi lớptrong cơ sở dữ liệu Phương pháp FLDA được dùng để trích đặc trưng của ảnh và bộ phânloại NN được dùng để phân lớp các vector đặc trưng Phương pháp [57] cũng được thựchiện giống phương pháp [56] nhưng có thêm việc khảo sát để chọn ra số thành phần cơbản tối ưu của phân rã QR để tạo ra ảnh ảo Các kết quả cho thấy phương pháp [57] chokết quả nhận dạng cao hơn phương pháp [56] Tuy nhiên, nhược điểm của cả hai phươngpháp [57] và [56] là việc tạo ra ảnh ảo có độ phức tạp tương đối cao
Trang 35Hình 2.12: Bộ lọc Gabor để tạo thêm ảnh ảo kết hợp cùng phương pháp 2DPCA để
ảo Tuy nhiên việc tạo ra ảnh ảo là tương đối phức tạp Phương pháp [59] đưa ra cáchtạo ảnh ảo bằng cách xoay ảnh gốc với các góc khác nhau Các ảnh sau đó sẽ được tríchđặc trưng bằng phương pháp Wavelet và phân lớp bằng bộ NN Tuy nhiên, các kết quảtrong nghiên cứu [59] không được so sánh với các nghiên cứu khác
Phương pháp [60] đề xuất một phương pháp tạo ảnh ảo bằng cách áp dụng bộ lọcGabor với các góc khác nhau Ảnh gốc và các ảnh ảo của các lớp sẽ tạo thành các tập
dữ liệu khác nhau và phương pháp 2D-PCA được sử dụng để trích đặc trưng ảnh khuônmặt dựa trên các tập dữ liệu này như hình 2.12 Bộ phân loại NN được dùng để phân lớpvector đặc trưng trên các tập dữ liệu này và một chỉ số đánh giá dựa trên sự kết hợp các
bộ phân loại NN lại với nhau được dùng để nhận dạng ảnh đầu vào Phương pháp nàycho kết quả nhận dạng tương đối tốt nhưng việc sử dụng vector đặc trưng có số chiều lớnkéo theo thời gian tính toán tăng Phương pháp [61] đề xuất việc tạo ra ảnh ảo bằng cáchdịch và xoay ảnh gốc Ảnh gốc và ảnh ảo sau đó sẽ được chia nhỏ thành các thành phầnkhông chồng lấp và được trích đặc trưng bằng phương pháp 2D-PCA Bộ phân loại NNđược dùng để phân lớp các vector đặc trưng Phương pháp này cho kết quả nhận dạngtốt trong điều kiện góc chụp khác nhau của khuôn mặt nhưng việc tạo ảnh ảo là tươngđối phức tạp
Phương pháp [62] đề xuất việc tạo ra ảnh ảo bằng cách chuẩn hóa các mức xám của
Trang 36Hình 2.13: Phương pháp tạo ảnh ảo giảm sự chênh lệch độ sáng ở hai nửa ảnh khuôn
mặt [65]
ảnh về mức xám trung bình Điều này làm giảm bớt sự khác nhau giữa ảnh mẫu và ảnhkiểm tra Ảnh gốc và ảnh ảo sẽ tạo thành hai tập riêng biệt và ảnh kiểm tra sẽ được tríchđặc trưng bằng phương pháp CRC trên hai tập này Sai lệch giữa hai vector đặc trưng
sẽ được phân lớp bởi bộ NN Phương pháp này cho kết quả nhận dạng rất tốt trong cácđiều kiện ánh sáng khác nhau của ảnh đầu vào vì việc chuẩn hóa mức xám sẽ làm giảm
sự ảnh hưởng của các điều kiện ánh sáng Cũng sử dụng phương pháp CRC để trích đặctrưng trên tập ảnh gốc và tập ảnh ảo như phương pháp [62], nhưng phương pháp [63] đềxuất một cách tạo ảnh ảo khác bằng cách lấy đối xứng trái và đối xứng phải của ảnh gốc.Phương pháp [64] cũng tạo ra thêm ảnh ảo bằng cách lấy đối xứng trái và đối xứng phảicủa ảnh gốc Phương pháp CRC được sử dụng để trích đặc trưng ảnh trên các tập ảnhgốc và ảnh ảo Các vector đặc trưng này sau đó được tổ hợp lại với nhau nhưng với trọng
số cao hơn cho vector trích trên tập ảnh gốc Bộ phân loại NN được sử dụng để phân lớpvector tổ hợp này Phương pháp [65] đề xuất một cách tạo ảnh ảo mới dựa trên việc giảmthiểu sự khác nhau về mức xám giữa hai nửa ảnh khuôn mặt Trong phương pháp này,hai nửa ảnh khuôn mặt sẽ được điều chỉnh mức xám qua nhiều vòng lặp với mục tiêu tốithiểu sai số về mức xám giữa hai nửa ảnh khuôn mặt như hình 2.13 Phương pháp SRCđược dùng để trích vector đặc trưng của ảnh và các vector được phân loại bằng bộ NN
Ưu điểm của phương pháp này là tỷ lệ nhận dạng khá tốt trong nhiều điều kiện ánh sángkhác nhau của ảnh đầu vào Tuy nhiên việc tạo ra ảnh ảo là tương đối phức tạp cũng nhưthuật toán tạo ảnh ảo cũng chưa chắc luôn hội tụ
Phương pháp [66] đề xuất việc tạo ra ảnh ảo bằng cách lấy các đối xứng của ảnh gốc
và áp dụng phương pháp trích đặc trưng trong điều kiện đa mẫu MSD để trích đặc trưngcác ảnh Ảnh kiểm tra cũng được tạo ra thêm các ảnh ảo bằng cách tương tự và cũng
Trang 37Hình 2.14: Phương pháp tạo ảnh ảo bằng cách lấy trung bình cộng về độ sáng của hai
nửa ảnh khuôn mặt [68]
được trích đặc trưng bằng phương pháp MSD Phép đo đưa trên khoảng cách giữa tất cảcác vector đặc trưng của ảnh gốc và ảnh ảo được dùng như là một vector đặc trưng củaảnh đầu vào và được phân lớp bằng bộ NN Phương pháp [67] đề xuất một cách tạo raảnh ảo gần đúng với thực tế hơn là việc lấy trung bình các đối xứng của ảnh gốc Bộ phânloại hồi quy tuyến tính (Linear Regression Classification – LRC) được dùng để trích đặctrưng ảnh và bộ phân loại NN được dùng để phân lớp ảnh đầu vào Tuy các ảnh ảo trongphương pháp [67] có chất lượng tốt nhưng tỷ lệ nhận dạng của phương pháp này khôngthật sự tốt Phương pháp [68] đề xuất một phương pháp tạo ảnh mới với mục tiêu giảmthiểu sai số về độ sáng giữa hai nửa khuôn mặt như hình 2.14 Phương pháp SRC được
sử dụng để trích đặc trưng các ảnh và bộ phân loại NN được dùng để phân lớp vectorđặc trưng Phương pháp nhận dạng này bền vững với các điều kiện ánh sáng khác nhaucủa ảnh đầu vào
Việc tạo ra thêm các ảnh ảo sẽ mang lại lợi ích là tăng số lượng mẫu cho cùng một lớp
và dẫn đến việc có thể áp dụng các phương pháp nhận dạng khuôn mặt trong điều kiện
có nhiều mẫu cho một lớp để giải quyết bài toán SSPP Tuy nhiên các phương pháp nhậndạng khuôn mặt dựa trên việc tạo ra thêm các ảnh ảo cũng có rất nhiều nhược điểm Đầutiên, việc có thêm các ảnh ảo sẽ làm gia tăng đáng kể dung lượng lưu trữ của hệ thống,làm mất đi ưu điểm của việc nhận dạng khuôn mặt trong điều kiện SSPP Bên cạnh đó,các ảnh ảo được tạo ra nhìn chung có sự tương quan rất cao với ảnh gốc Điều này đồngnghĩa với việc không có thêm các thông tin giúp phân biệt giữa các lớp
Trang 38Hình 2.15: Phương pháp trích đặc trưng khuôn mặt dựa trên tập dữ liệu chung [69]
2.1.4 Các phương pháp nhận dạng khuôn mặt dựa trên việc sử
dụng thêm tập dữ liệu chung
Nhóm phương pháp nhận dạng khuôn mặt dựa trên tập dữ liệu chung sẽ sử dụng mộttập dữ liệu chung để học cách trích đặc trưng ảnh sau đó áp dụng ngược lại cho tập mẫu.Một số phương pháp nhận dạng khuôn mặt dựa trên việc sử dụng thêm một tập dữ liệuchung có thể được kể đến như sau
Phương pháp [69] sử dụng một nửa tập dữ liệu chuẩn để làm tập chung và nửa cònlại để làm tập mẫu và tập kiểm tra như hình 2.15 Phương pháp [69] học cách trích đặctrưng bằng phương pháp FLDA trên tập chung sau đó áp dụng để trích đặc trưng ảnhkhuôn mặt Bộ phân loại k-nearest neighbor (KNN) được dùng để phân lớp các vectorđặc trưng Phương pháp có kết quả nhận dạng khá tốt nhưng việc sử dụng vector đặctrưng có số chiều lớn làm tăng thời gian tính toán
Phương pháp [70] đề xuất một phương pháp học các đặc trưng mô tả sự thay đổi vềánh sáng của ảnh dựa vào việc sử dụng tập dữ liệu chung Phương pháp SRC được sửdụng để trích đặc trưng về sự thay đổi ánh sáng của khuôn mặt và kết hợp với nhau đểtạo thành một từ điển mô tả sự ảnh hưởng của ánh sáng như hình 2.16 Sau đó bộ từđiển này kết hợp cùng phương pháp SRC để trích đặc trưng của ảnh khuôn mặt và bộphân loại NN được dùng để phân lớp vector đặc trưng Tuy nhiên, tỷ lệ nhận dạng củaphương pháp [70] lại không được so sánh với các phương pháp khác Phương pháp [71]
đề xuất dùng tập chung có các điều kiện khác nhau của ảnh đầu vào giống như tập mẫu
Trang 39Hình 2.16: Các ví dụ về đặc trưng độ sáng khác nhau trong từ điểm độ sáng [70]
và tập kiểm tra Điều này giúp phương pháp [71] học hiệu quả những đặc trưng mô tảcác điều kiện khác nhau của ảnh đầu vào Phương pháp phân rã hạng thấp (low rankdecomposition) kết hợp cùng phương pháp SRC để trích đặc trưng của ảnh và bộ phânloại NN được dùng để phân lớp Phương pháp [71] cho kết quả nhận dạng khá tốt nhưngviệc sử dụng tập chung và tập mẫu, tập kiểm tra hòan toàn giống nhau về sự thay đổitrong cùng một lớp làm mất đi tính tổng quát của việc nhận dạng Phương pháp [72]cũng sử dụng một tập chung có cùng sự thay đổi trong một lớp giống tập mẫu và tậpkiểm tra để xây dựng một bộ từ điển về các đặc trưng Một dạng mở rộng của phươngpháp SRC, phương pháp Kernel Extended Dictionary – KED được sử dụng để trích đặctrưng các ảnh trong tập chung và xây dựng bộ từ điển đặc trưng của sự thay đổi cácđiều kiện khác nhau của ảnh đầu vào Phương pháp trích đặc trưng SRC kết hợp cùng
bộ phân loại NN được dùng để nhận dạng ảnh đầu vào Phương pháp cho kết quả nhậndạng rất tốt trong điều kiện khuôn mặt bị che khuất một phần nhưng thời gian xây dựng
bộ từ điển rất lớn là nhược điểm của phương pháp này
Phương pháp [73] đề xuất xây dựng bộ từ điển về các điều kiện khác nhau của ảnhđầu vào dựa trên việc sử dụng bộ lọc Gabor kết hợp cùng phương pháp SRC để tríchđặc trưng của các ảnh trong tập dữ liệu chung Bằng cách chia tập dữ liệu chung thànhhai nhóm: các ảnh bình thường và các ảnh bị ảnh hưởng bởi các điều kiện khác nhau,phương pháp SRC kết hợp cùng bộ lọc Gabor được dùng để trích các đặc trưng mô tả
về các điều kiện khác nhau của ảnh đầu vào và kết hợp lại để tạo thành bộ từ điển vềcác điều kiện khác nhau của ảnh đầu vào như hình 2.17 Phương pháp SRC kết hợp cùng
bộ từ điển được dùng để trích đặc trưng ảnh đầu vào và bộ phân loại NN được dùng đểphân lớp vector đặc trưng Ưu điểm của phương pháp này là các đặc trưng được trích ra
từ cả miền không gian và tần số nên có tính ổn định Tuy nhiên, bộ dữ liệu chung và tậpkiểm tra có tính chất giống nhau làm mất đi tính tổng quát của phương pháp Phươngpháp [74] cũng có cách thức xây dựng bộ từ điển tương tự như phương pháp [73] Tuynhiên phương pháp [74] không sử dụng các bộ lọc để trích các đặc trưng trong miền tần
số và phương pháp SRC được sử dụng có các trọng số khác nhau để trích đặc trưng ảnh.Phương pháp [75] nhận định rằng nếu sử dụng một tập dữ liệu chung phù hợp với tậpmẫu, tập kiểm tra và đủ lớn thì việc nhận dạng sẽ cho kết quả rất tốt trên tập kiểm tra
Từ nhận định này, phương pháp [75] sử dụng một tập dữ liệu chung rất lớn và có cácđiều kiện khác nhau của ảnh đầu vào hoàn toàn giống với tập mẫu và tập kiểm tra Bộphân loại hồi quy tuyến tính thích nghi (Adaptive Linear Regression Classifier – ALRC)
Trang 40Hình 2.17: Phương pháp xây dựng bộ từ điển về các đặc trưng không lý tưởng của ảnh
khuôn mặt [73]
kệt hợp bộ phân loại KNN được huấn luyện dựa trên tập chung sau đó được áp dụng đểphân lớp các ảnh trong tập kiểm tra Phương pháp này cho kết quả nhận dạng khá tốtvới tập dữ liệu AR Phương pháp [76] sử dụng chung một cách thức chọn tập chung vàtập mẫu, tập kiểm tra như phương pháp [75] Trong phương pháp [76], các vector đặctrưng của ảnh khuôn mặt trong điều kiện bình thường được biển diễn thành các trục tọa
độ trong không gian đặc trưng Nhờ vào tập dữ liệu chung, phương pháp [76] học cáchánh xạ các đặc trưng mô tả các điều kiện khác nhau của ảnh đầu vào về gốc tọa độ Nhờvậy các điều kiện khác nhau của ảnh đầu vào sẽ không ảnh hưởng đến tính chính xáccủa việc nhận dạng Tuy nhiên nhược điểm của phương pháp này là các sự thay đổi khácnhau của ảnh trong tập kiểm tra phải hoàn toàn giống với tập chung
Các phương pháp nhận dạng khuôn mặt dựa trên một tập dữ liệu chung có ưu điểm
là việc các đặc trưng về sự thay đổi trong cùng một lớp có thể được học từ tập dữ liệuchung, sau đó áp dụng ngược lại cho tập mẫu Tuy nhiên, nhược điểm lớn nhất của nhómphương pháp này là tỷ lệ nhận dạng phụ thuộc chủ yếu vào việc chọn được tập dữ liệuchung phù hợp Để tăng tỷ lệ nhận dạng, tập dữ liệu chung phải có cùng những sự thayđổi trong cùng một lớp giống như tập kiểm tra và điều này làm mất đi tính tổng quát củacác phương pháp này Trong thực tế, việc tìm được một tập dữ liệu chung phản ánh đượctốt tất cả sự thay đổi của ảnh đầu vào trong các ứng dụng thực tế là một việc không khảthi Vì vậy tỷ lệ nhận dạng của các phương pháp này trong các ứng dụng thực tế vẫn làmột điều chưa kiểm chứng