4.2 Phát hiện và căn chỉnh khuôn mặt sử dụng MTCNN
4.2.2.1 Cơ chế hoạt động
Cơ chế hoạt động của hệ thống đã đƣợc khái quát nhƣ trên hình 4.6. Khi chúng ta đƣa vào một ảnh mặt ngƣời, ban đầu chúng ta thay đổi kích thƣớc của nó
thành các tỷ lệ khác nhau để xây dựng một kim tự tháp hình ảnh (bản chất của kim tự tháp hình ảnh là bản sao của các ảnh đầu vào với các kích thƣớc khác nhau). Kim tự tháp hình ảnh này là đầu vào của khung xếp tầng gồm 3 tác vụ chính của
MTCNN.
MTCNN hoạt động theo 3 bƣớc, mỗi bƣớc có một mạng neural riêng lần lƣợt là P-Net, R-Net và O-Net.
Bƣớc 1 Chúng ta khai thác một mạng tích chập đầy đủ đƣợc gọi là Proposal Network(P-Net), để có đƣợc các cửa sổ ứng cử viên và các bounding box regression vectors của chúng. Sau đó, các ứng cử viên đƣợc hiệu chuẩn dựa trên các estimated bounding box regression vectors. Sau đó, chúng ta sử dụng non-
maximum suppression (NMS) để hợp nhất các ứng cử viên chồng chéo.
Bƣớc 2 Tất cả các ứng cử viên đƣợc đƣa đến một CNN khác, đƣợc gọi là Refine Network (R-Net), để từ chối thêm một số lƣợng lớn các ứng cử viên sai. Sau đó, hệ thống thực hiện hiệu chuẩn với bounding box regression và tiến hành NMS.
Bƣớc 3 Giai đoạn này tƣơng tự nhƣ giai đoạn thứ hai, nhƣng trong giai đoạn này, chúng ta hƣớng đến việc xác định các khu vực khuôn mặt với sự giám sát nhiều hơn. Đặc biệt, mạng sẽ xuất ra năm vị trí trên khn mặt.
Bảng 4.1 So sánh tốc độ và độ chính xác CNNs khác [2]
Hiện nay, có nhiều mạng CNN đã đƣợc thiết kế để nhận dạng khuôn mặt. Tuy nhiên, hiệu suất của nó có thể bị hạn chế bởi các điều kiện sau
Group CNN 300xForward Propagation Vali dation Accuracy Group 1 12-Net 0,038s 94,4% P-Net 0,031s 94,6% Group 2 24-Net 0,738s 95,1% R-Net 0,458s 95,4% Group 3 48-Net 0,577s 93,2% O-Net 1,347s 95,4%
Một số filter trong convolution layer có thể thiếu sự đa dạng làm hạn chế khả năng phân biệt của chúng.
So với các nhiệ m v ụ phát hi ệ n và phân loạ i khác, phát hi ện khuôn mặ t là một nhi ệ m v ụ phân loại nh ị phân đầ y thách thức. Do đó, nó có thể cầ n s ố lƣợng b ộ lọc ít hơn trên mỗ i l ớp. Vì v ậ y, chúng ta gi ả m số lƣợng b ộ lọc và thay đổi b ộ lọc 5x5 thành b ộ lọc 3x3 để giảm tính tốn trong khi tăng độ sâu để có hiệu suấ t tốt hơn. Với nhữ ng cả i ti ế n này, so v ới nh ững ki ến trúc trƣớc đây, kiến trúc đƣợc lự a ch ọn có hiệ u su ấ t t ốt hơn và thời gian ch ạy ít hơn (kết qu ả trong giai đoạ n hu ấ n luyện đƣợc mô tả trong b ả ng 3.1 v ới các hu ấn luyệ n và d ữ liệu xác định tƣơng tự trong mỗi nhóm).