Kiến trúc mô hình dé xuất của Walid Hariri 6Hình 2.1.a Anh khuôn mặt tiêu chuẩn theo ISO/IEC 19794-5 11Hình 2.1.b Một số phép biến đổi trên ảnh bởi imgaug 12Hình 2.1.c Ảnh màu có khuôn m
Trang 1ĐẠI HỌC QUÓC GIA TP.HÒ CHÍ MINHTRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
PHẠM ĐỨC DUY
UNG DỤNG NHAN DẠNG KHUÔN MAT
CÓ KHẨU TRANG CHO NHÂN VIÊN KHO HÀNG
LUẬN VĂN THẠC SĨ
NGÀNH KHOA HỌC MÁY TÍNH
Mã ngành: 8.48.01.01
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS LÊ MINH HUNG
TP.HO CHÍ MINH - NĂM 2022
Trang 2LỜI CẢM ƠN
Đầu tiên, em xin gửi lời cảm ơn đến quý thầy cô trường Đại học Công nghệ thông tin
đã truyền đạt những kiến thức chuyên môn cho em trong suốt quá trình học tập tại
trường, đó là những nền tảng kiến thức vững chắc cho em tiếp cận và tiến xa hơntrong lĩnh vực chuyên môn của mình Em kính chúc quý thầy cô dồi dao sức khỏe,
đạt được nhiều thành tựu và luôn là niềm cảm hứng học thuật cho thế hệ học viên tiếp
theo.
Em xin bày tỏ lòng biết ơn chân thành đến Tiến sĩ Lê Minh Hưng, người thầy đã dẫndắt cho em đến với dé tài Thầy đã tận tâm, nhiệt tinh hướng dẫn và tạo mọi điều kiệnthuận lợi để em hoàn thành tốt đề tài luận văn
Con xin gửi lời cảm ơn sâu sắc, sự kính trọng đến cha mẹ đã nuôi đạy, luôn ủng hộ,
động viên con vượt qua mọi khó khăn Lời cảm ơn đến người anh cả đã luôn là niềm
tự hào và nguồn cảm hứng, động lực để phấn đấu không ngừng trong học tập
Xin cảm ơn tất cả bạn bè đã chia sẻ, động giúp đỡ và hỗ trợ kiểm thử, đưa ranhững lời nhận xét khách quan, hữu ích dé đề tài được hoàn thiện hơn
Luận văn đã hoàn thành và đạt được kết quả nhất định tuy nhiên vẫn không tránh khỏithiếu sót Kính mong sự cảm thông và đóng góp ý kiến từ quý thầy cô
Tp Hồ Chí Minh, ngày 30 tháng 06 năm 2022
Học viên th
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan luận văn thạc sĩ về đề tài: “Ứng dụng nhận dạng khuôn mặt có khâu
trang cho nhân viên kho hàng” là công trình nghiên cứu cá nhân của tôi trong thời
gian qua Mọi nội dung trong luận văn chưa được công bố dưới bat kỳ hình thức nào
Tôi xin chịu hoàn toàn trách nhiệm nếu có sự không trung thực trong luận văn.
Tp Hồ Chí Minh, ngày 30 tháng 06 năm 2022
Học viên thực hiện
Phạm Đức Duy
Trang 4LỜI CẢM ƠN
LỜI CAM ĐOAN.
MỤC LỤC
DANH MỤC CAC KY HIỆU VA CHỮ VIET TAT
DANH MỤC CAC BANG
DANH MỤC CÁC HINH VE, DO THI.
MO DAU.
CHƯƠNG 1 GIỚI THIEU TONG QUAN VE ĐÈ TÀI.
1.1 TONG QUAN GIẢI PHÁP NHAN DẠNG KHUÔN MAT
1.1.1 Vấn đề về hệ thống nhận dạng khuôn mặt hiện tại của Regal Warehouse 1.1.2 Một số nghiên cứu nỗi bật về nhận dang khuôn mặt có khẩu trang
1.2 PHẠM VI VÀ MỤC TIÊU CỦA ĐÈ TÀI
1.3 PHƯƠNG PHÁP NGHIÊN CỨU
1.4 NỘI DUNG THỰC HIỆN
CHƯƠNG 2 CƠ SỞ LÝ THUYÉT.
2.1 DU LIEU ANH TRONG NHAN DẠNG KHUÔN MAT.
2.2 PHUONG PHAP PHAT HIEN KHUON MAT TRONG ANH
2.3 PHUONG PHAP DẠNG KHUÔN MA’
2.4 ĐÁNH GIA HE THONG NHẬN DẠNG KHUÔN MAT
CHƯƠNG 3 THỰC NGHIỆM VÀ ĐÁNH GI/
3.1 XÂY DỰNG DỮ LIỆU CHO HỆ THÓNG NHẬN DẠNG
3.2 MÔ HÌNH NHAN DẠNG KHUÔN MAT
3.2.1 Chức năng đăng ký khuôn mit (Training)
3.2.2 Chức năng nhận dạng khuôn mặt (Prediction)
3.3 PHẠM VI, MỤC TIÊU ỨNG DỤNG NHẬN DẠNG CÓ KHẢU TRANG
Trang 54.3 DONG GOP TU DE TAL
4.4 HUONG PHAT TRIEN DE TÀI
TÀI LIEU THAM KHAO
Trang 6: Application Programming Interface
: Internet of things (Internet Van Vat)
: Convolutional Neural Networks
: Cơ sở di liệu : Layer Swapping
: Region of Interest (Vùng quan tâm)
Trang 7DANH MỤC CÁC BẢNG
Số hiệu bang Tén bang TrangBảng 3.5.2.a Kết quả nhận dang có khẩu trang với nhân viên RW 44Bang 3.5.2.b Cac chỉ số đánh giá hiệu quả mô hình 44
vi
Trang 8DANH MỤC CÁC HÌNH VẼ, ĐÒ THỊ
Số hiệu Tén hình vẽ TrangHình I.1.2.a Kiến trúc mô hình DeepMasknet 4Hình 1.1.2.5 Khuôn mặt được loại bỏ vùng chứa khẩu trang 6Hình 1.1.2 Kiến trúc mô hình dé xuất của Walid Hariri 6Hình 2.1.a Anh khuôn mặt tiêu chuẩn theo ISO/IEC 19794-5 11Hình 2.1.b Một số phép biến đổi trên ảnh bởi imgaug 12Hình 2.1.c Ảnh màu có khuôn mặt trước va sau khi gán khẩu trang 14Hình 2.1.d Ảnh hình họa thực nghiệm với FreezeSG và LS 15Hinh2.1.e Ảnh hình họa thực nghiệm với hai cặp FreezeSG với LS 15
va StructureLoss với LS
Hình 2.2.a Mô hình phát hiện khuôn mặt bang Retinaface 16Hình 2.2.b Hình anh đã được đánh dấu các điểm mốc bởi Retinaface 16Hình 2.2.c Retinaface thuộc nhóm single-stage đề xuất để xác định đa 17
vị trí khuôn mặt
Hình 2.3.a Huấn luyện một DCNN dé nhận dạng khuôn mặt được 21
giám sát boi ArcFace loss
Hình 2.3.b Encode anh thành vector đặc trưng 21
Hình 2.3.c Kết quả xác thực từ DeepFace khi sử dụng VGG-Face và 2
tính khoảng cách bằng hàm cosine
Hình 2.4 Hình ảnh mô tả Confusion Matrix 23
Hình 3.I.a Hình ảnh một số nhân viên RW 25Hình 3.1.b Hình ảnh được tao tự động với sự thay đôi tiêu biểu về độ 26
sáng, làm mờ, thêm nhiễu, thêm khẩu trang
Hình 3.I.c Tập dữ liệu RSF với 342 nhân viên 27
vii
Trang 9Tập dữ liệu RSF với 342 nhân viên lưu trữ trên ô đĩa
Mô hình huấn luyện khuôn mặt
Quy trình đăng ký khuôn mặt
Mô hình xác định danh tính khuôn mặt
Quy trình nhận dạng khuôn mặt
Hệ thống nhận dạng khuôn mặt có khẩu trang
Nhận dạng khuôn mặt trên nên tảng DesktopNhận dạng khuôn mặt trên nền tảng WebKhuôn mặt không nằm trong vùng nhận dạngGiao diện web API đầy đủ tính nang cần thiết
Màn hình đăng nhập trang quản trị Building, Group Màn hình quản lý với menu tùy chọn
Màn hình quản lý thông tin Building
Màn hình quản lý thông tin Group
Màn hình quan lý dữ liệu thao tác trên Mysql workbench
Thu mục lưu trữ trên 6 đĩa ứng với từng Building/Group
Dữ liệu hình ảnh lưu trữ trên ô đĩa ứng với từng nhân viên
Milvus lưu trữ 2592 vector đặc trưng của 342 người
viii
27
28 30
30
32
34 37
38
38
39
40 40
4I
4I 42 42 42 43
Trang 10MỞ ĐÀU
Trong thời kỳ đại dich Coronavirus disease 2019 (COVID-19), deo khẩu trang
là điều kiện bắt buộc đề phòng tránh lây nhiễm Đến nay, năm 2022, diễn biến bệnh
dịch tuy có suy giảm, ít lây lan nhưng các doanh nghiệp, tổ chức vẫn luôn khuyếncáo đeo khâu trang khi hoạt động nơi đông người Điều này đặt ra thách thức không
nhỏ đối với việc nhận dạng khuôn mặt, phục vụ cho các công tác định danh, chấm
công, Các hệ thống nhận dạng khuôn mặt trước kỳ đại dịch chưa quan tâm nhiều
đến yếu tô khuôn mặt của một người đang đeo khẩu trang, yêu cầu người dùng phảixác thực khuôn mặt không bị che khuất bởi bắt kì vật thé nào, bao gồm khẩu trang
Theo nghiên cứu của National Institute of Standards and Technology, trước kỳ đại
dịch, các thuật toán nhận dạng khuôn mặt đã không thê xác định được 20-50% hình
ảnh của những người đeo khẩu trang [1] Với năm 2019, việc gỡ bỏ khâu trang bằngtay xác thực khuôn mặt là nguy cơ dẫn đến tăng cao khả năng xâm nhập từ Virus Décải thiện hệ thống nhận dạng khuôn mặt thông thường và nâng cao độ chính xác, việcứng dụng các mô hình và thuật toán tiên tiến là sự cần thiết, điều này sẽ đem lại kết
quả rõ rệt trong việc phòng chống lây nhiễm virus diện rộng
Công ty Regal Logistics là một công ty cung ca các dịch vụ logistic theo hợp
đồng, vận hành và quản lý các nhà kho Regal Warehouse là một trong những kho
hàng đang sử dụng hệ thống khuôn mặt truyền thống, ứng dụng nhận dạng khuôn mặtmắt từ 10 giây đến 20 giây cho việc xác thực một nhân viên, chỉ phí thuê dich vụnhận dạng khuôn mặt tốn kém và khó có thé tích hợp với các hệ thống khác trong hệsinh thái phần mềm của công ty Sử dụng hệ thống nhận dang trong công tác chamcông, nhân viên được yêu cầu phải hạ khẩu trang để xác thực Quy mô nhân sự có
100 nhân viên khối văn phòng và 1000 nhân viên phục vụ kho, làm việc trong cácnhà kho mang số hiệu “6400”, “6500”, “6501”, “6510”, “6546”, “7450” Trung bìnhmột ngày, mỗi nhân viên sử dụng hệ thống nhận dạng từ 4 đến 6 lần, tổng số tác vụ
xử lý khuôn mặt từ 4000 tác vụ đến 6000 tác vụ Các thời điểm tăng mạnh nhu cầu
sử dụng cùng lúc như: Nhập ca, tan ca, nghỉ trưa, gây nghẽn hệ thống Cho thấy hệthống nhận dạng hiện tại đang gây bat cập cho doanh nghiệp, thêm vào khả năng lây
nhiém virus cao.
Trang 11Xuất phát từ vấn đề thực tế, mong muốn đề xuất giải pháp nhận dạng khuôn
mặt mới, xây dựng một ứng dụng cải thiện hiệu suất, cắt giảm chỉ phí hoạt động
doanh nghiệp và tăng tính an toàn trong thời kỳ đại dịch Dé tt Ứng dụng nhận
dạng khuôn mặt có khẩu trang cho nhân viên kho hàng” đã đưa ra giải pháp giải quyếtnhu cầu doanh nghiệp bằng việc ứng dụng các kỹ thuật, thành quả nghiên cứu sẵn có
từ các Học giả dé giải quyết bài toán cụ thể mang tính ứng dụng cao Kết quả đề tài
có khả năng tích hợp vào các hệ thống truy cập quản lý kho hàng, chấm công, ứng
dụng di động nghiệp vụ kho hàng.
Đóng góp từ kết quả nghiên cứu, triển khai của đề tài:
~ Trình bày phương pháp tăng cường dữ liệu khuôn mặt dạng hình ảnh bị hạn
chế về số lượng, chất lượng độ phân giải, thông qua xử lý ảnh và sử dụng mô hình có
khả năng cải thiện độ phân giải Ảnh được tạo ra giải quyết được vấn đề hình ảnh đầu
vào đặc thù trong môi trường kho hàng và cải thiện được độ chính xác khi nhận dạng
nhân viên trong kho.
- Bằng việc tìm hiéu, tham khảo và tông hợp, luận văn đã cung cấp thông tin,
giới thiệu một số phương pháp đã triển khai thành công trong việc phát hiện và định
danh một người đang đeo khẩu trang Là nguồn chia sẻ học thuật, cơ sở để ứng dụng
và đề xuất các mô hình cải tiền cho ứng dụng
- Thông qua kết quả để tài, một mô hình xử lý đề xuất đề giải quyết bài toán
có tích hợp các kỹ thuật trong lĩnh vực IoTs, kỹ nghệ phần mềm, xử lý ảnh và thị giácmáy tính mang tính ứng dụng, dễ dàng triển khai và mở rộng Minh chứng tính khảthi khi áp dụng, triển khai mô hình này
Nội dung của luận văn được trình bày trong 4 chương, bao gồm:
Chương | giới thiệu tổng quan về đề tài bao gồm các khảo sát, tìm hiểu một
số mô hình, bài toán, ứng dụng đã triển khai trong việc nhận dạng khuôn mặt ngay cả
khi đang đeo khẩu trang Theo đó, trình bảy mục tiêu cụ thể, phương pháp tiếp cận
giải quyết vấn đề và nội dung thực hiện của luận văn
Chương 2 trình bày cơ sở lý thuyết của đề tài liên quan đến vấn đề cải thiện sốlượng, chất lượng hình ảnh, phương pháp xác định vị trí khuôn mặt trong khung hình,
phương pháp xác thực khuôn mặt và phương pháp đánh giá hiệu quả mô hình.
Trang 12Chương 3 trình bày quá trình thực nghiệm các phương pháp giải quyết vấn đề
về dữ liệu khuôn mặt đặc trưng trong kho hàng với phạm vi đề tài Trình bày mô hình
xây dựng cho hệ thống nhận dạng khuôn mặt có khẩu trang cho nhân viên kho hàng
Sau đó, cài đặt thử nghiệm ứng dụng nhận dạng khuôn mặt có khẩu trang cho nhânviên kho hàng Ung dụng có chức năng phân quyền quản lý sử dụng cho từng kho.hàng (warehouse - building), với mỗi kho hàng sẽ nhóm các nhân viên theo các nhóm(group) riêng biệt Theo đó, hệ thông sẽ cho phép đăng ký và nhận dạng khuôn mặtcủa nhân viên trong kho hàng theo từng nhóm đã quy định Hệ thống đáp ứng việcnhận dạng khuôn mặt ngay cả khi đang đeo khẩu trang với tốc độ nhận đạng nhanhchóng Hệ sinh thái ứng dụng bao gồm: API cho việc tích hợp với các hệ thông phan
mềm khác trong kho hàng; ứng dụng thử nghiệm ngay tại server; ứng dụng thử
nghiệm trên nền web; ứng dụng thử nghiệm trên NVIDIA Jetson Nano Dev Kit Tiénhành phân tích các yêu cầu và chức năng của ứng dụng, thiết kế các thành phan xử lytương ứng và thực nghiệm bộ dữ liệu khuôn mặt với API đã xây dựng, đánh giá kết
quả từ giải pháp.
Chương 4 tông kết những kết quả đạt được, tóm tắt lại các vấn đề đã đặt ra và
cách giải quyết trong luận văn Những đóng góp định hướng ứng dụng, đề xuất vàhướng phát triển cho đề tài trong tương lai
xi
Trang 13Chương 1: Giới thiệu tổng quan về đề tài
CHƯƠNG 1
GIỚI THIỆU TONG QUAN VE DE TÀI
Chương | giới thiệu tong quan về dé tài bao gồm các khảo sát, tìm hiểu một
số mô hình, bài toán, ứng dụng đã triển khai trong việc nhận dạng khuôn mặt ngay cảkhi đang đeo khẩu trang Theo đó, trình bày mục tiêu cụ thể, phương pháp tiếp cậngiải quyết vấn đề và nội dung thực hiện của luận văn
1.1 TONG QUAN GIẢI PHÁP NHAN DẠNG KHUÔN MAT
Sự bùng nổ rõ rệt các giải pháp giảm tiếp xúc hoặc hạn chế tiếp xúc gần hiệnnay giữa người với người và người với đồ vật, phần lớn thông qua tác động mạnh mẽcủa đại dịch COVID-19 Công nghệ sinh trắc học nhận dạng khuôn mặt là một trongcác giải pháp cho thấy được mức độ hiệu quả cao Công nghệ này đã được ứng dụngtrong nhiều lĩnh vực như: Y tế, tài chính ngân hàng, giáo dục, truyền thông, nhà hàngkhách sạn, Thể hiện qua các ứng dung hỗ trợ pháp y, hỗ trợ khiếm thị, giám sát anninh, nhận dạng khách hàng, điểm danh học sinh, quảng cáo thông minh, thanh toán
một cham, Cho thấy lợi ích thiết thực từ công nghệ nhận dạng khuôn mặt đối với
xã hội và đời sống Hiện nay, các nghiên cứu nhằm nâng cao hệ thống nhận dạngkhuôn mặt đã đạt bước tiến mới với việc xác thực khuôn mặt ba chiều chống giả mạo,khuôn mặt đang đeo khâu trang, xác thực với nửa khuôn mat, Nắm bat xu thé,nhiều đơn vị đã, đang nghiên cứu và triển khai, thương mại thành công các giải phápliên quan đến nhận dạng khuôn mặt, đáp ứng kịp thời và hiệu quả cho các cơ quan,
tổ chức mong muốn ứng dụng vào lĩnh vực của mình
Nhìn chung cơ chế hoạt động của công nghệ nhận dạng khuôn mặt cho phépnhận dạng một người cụ thể từ nguồn ảnh hoặc video Mô hình hoạt động sẽ trải quacác bước xử lý bóc tách khuôn mặt ra khỏi khung cảnh nền, xác định vị trí, khoảngcách các điểm trọng yếu tạo nên cấu trúc khuôn mặt (Facial landmark) của một người
như: Lông mày phải, lông mày trái, mắt phải, mắt trái, mũi, miệng, hàm, cằm Sau đó
tiến hành encoding ảnh hoặc frame hình (đối với video) thành vector embedding, cuối
cùng thực hiện phép so sánh giữa 2 vector với nhau đê xác định được khuôn mặt đó
là ai Đề tài đã dựa theo cơ chế hoạt động này để tìm kiếm mô hình phù hợp, xây
dựng giải pháp riêng biệt, có kết quả tương đối để hỗ trợ doanh nghiệp trong hoạt
Trang 14Chương 1: Giới thiệu tổng quan về đề tài
động kinh doanh Chỉ tiết về cách thức và phương pháp xử lý cụ thé sẽ được trình bày
trong Chương 2 — Cơ sở lý thuyết
Sự đầu tư, phát triển thị giác máy tính nói chung, công nghệ nhận dạng khuôn
mặt nói riêng đã góp phần xây dựng nền kinh tế thông minh, áp dụng khoa học kỹthuật vào đời sống, thúc day sự phát triển khoa học - công nghệ và đổi mới sáng tao
trong quá trình day mạnh công nghiệp hóa, hiện đại hóa cho Việt Nam nói riêng Một
số kết quả nghiên cứu, giải pháp hoàn chỉnh về nhận dạng khuôn mặt đã thương mạihoặc được chia sẻ rộng rãi đến cộng đồng khoa học đạt được phản hồi tích cực
1.1.1 Vấn đề về hệ thống nhận dạng khuôn mặt hiện tại của Regal Warehouse
Microsoft Azure Face service là dịch vụ điện toán đám mây cung cấp các thuật
toán trí tuệ nhân tạo để phát hiện, nhận dạng và phân tích khuôn mặt của con ngườithông qua hình ảnh Dịch vụ hỗ trợ một số kịch bản sử dụng tiêu biểu như xác thựcdanh tính, kiểm soát truy cập vào ra và làm mờ khuôn mặt dé bảo mật danh tính Faceservice sử dụng các mô hình máy học (machine learning) để thực hiện các xử lý cho
khuôn mặt người trong hình ảnh [2] Microsoft đưa ra các lựa chọn model nhận dạng
phù hợp với nhu cầu của đơn vị tích hợp Hiện tại Azure Face service có 4 mô hìnhnhận dạng Trong đó 3 mô hình gồm recognition_01 (2017), recognition_02 (2019),
recognition_03 (2020) là các phiên bản đang được hỗ trợ tương thích với những ứng dung đã phân chia các khuôn mặt theo danh sách hoặc theo nhóm nhận dạng Mỗinhóm khuôn mặt sẽ được liên kết với một trong các mô hình một, hai hoặc ba và
không thể thay thế sự lựa chọn mô hình khi tạo thành công, ngoài ra ba mô hình nàykhông cho phép nhận dạng khuôn mặt khi đang đeo khẩu trang, độ chính xác khi nhận
dạng chưa tối ưu là những nhược diém của các mô hình này Đây là dịch vụ trên
Azure mà RW đang sử dụng cho ứng dụng chấm công Ngoài những nhược điểm kểtrên, ba phiên bản mô hình này và mô hình thứ 4 hỗ trợ thao tác với hình ảnh làm đầuvào dưới dang tệp tin ảnh hoặc đường dẫn liên kết (url) với định đạng cho phép làJPEG, PNG, GIF (frame hình đầu tiên), BMP, kích thước giới hạn chỉ 6MB, với video.hoặc video trực tuyến phần mềm bên thứ ba phải xử lý khung hình để chuyển về dingđịnh dạng yêu cầu, một số khuôn mặt không nhận dạng được khi ngược sáng, ánhsáng mạnh và chất lượng hình ảnh đưới mức trung bình Chỉ phí giấy phép sử dụngFace service cho 3 mô hình cũng là vấn đề với RW khi một ngày trung bình hệ thống
2
Trang 15Chương 1: Giới thiệu tổng quan về đề tài
chấm công thực hiện 5000 tác vụ (bao gồm các lần chấm công trong buổi sáng, giải
lao sáng, buổi trưa, giải lao chiều, tan ca cho mỗi người) Với mỗi 1000 tác vụ sẽ tính
phi 1 USD và chưa bao gồm giấy phép sử dụng tài khoản Azure Bài toán chi phí
cũng được tính toán cho mô hình thứ tư được công bố năm 2021 - recognition_04,phiên bản này cải thiện nhiều về độ chính xác, cũng như đã giải quyết nhu cầu nhận
dạng khuôn mặt đang đeo khẩu trang (loại N95, chất liệu vải, khâu trang phau thuật)
Tuy nhiên đơn vị không có kế hoạch chuyển đồi sang sử dụng mô hình recognition_04.1.1.2 Một số nghiên cứu nỗi bật về nhận dạng khuôn mặt có khẩu trang
Trong bài báo khoa học, tác giả Naeem Ullah và các cộng sự [3] đã dé xuất
framework mới có khả năng phát hiện khâu trang và nhận dạng khuôn mặt bị
che khuất bởi khẩu trang với tên gọi DeepMasknet, giải quyết vấn đề nhận dạng
bởi các phương pháp cũ khi thiếu mắt các thông tin quan trọng của khuôn mặt nhưmũi, môi, cằm, má, DeepMasknet lay cảm hứng từ Alexnet cho bài toán nhận dangkhuôn mặt với độ chính xác cao hơn DeepMasknet được đề xuất dựa trên hai phương.pháp thu phóng mô hình Mang nơ-ron tích chập (CNNs) phổ biến nhất là thu phóngtheo chiều sâu (Depth Scaling) với mười lớp (layers) bao gồm sáu lớp convolutional
và bốn lớp fully connected Và thu phóng theo độ phân giải (Resolution scaling) với
tỉ lệ ảnh đầu vào có độ phân giải 256 x 256 cho kết quả nhận dạng có độ chính xác
cao Ngoài ra, các tác giả đề cập đến vấn đề về dữ liệu khuôn mặt, khi vẫn chưa cómột bộ dữ liệu thống nhát và đa dang dé có thê đánh giá kết quả phát hiện khẩu trang
và nhận dạng khuôn mặt có khẩu trang Bộ dit liệu Mask detection and Masked facialrecognition (MDMER) là kết quả của việc nỗ lực phát triển của các tác giả, MDMFR
có quy mô lớn và đa dạng về giới tính, chủng tộc, độ tuôi, loại khẩu trang, điều kiệnchiếu sáng, góc khuôn mặt, môi trường, định dạng, kích thước để đo lường hiệu suấtcác phương pháp phát hiện và nhận dạng khuôn mặt đang đeo khẩu trang một cáchhiệu quả MDMER có hai danh mục hình ảnh khuôn mặt chứa 3292 hình có khẩutrang và 2832 ảnh không có khẩu trang Dé sử dụng dữ liệu ảnh trong MDMER cho
mô hình Deepmasknet, các tác giả phải thay đổi kích thước ảnh đúng bằng 256 x 256pixels do đây là kích thước tiêu chuẩn đầu vào của Deepmasknet Hiệu suất của
Deepmasknet được đánh giá trên ba tập dữ liệu Kaggle (Facemask (Smansid, 2020), Facemask Detection Dataset 20,000 hình (Jain và Singaraju, 2020), và Facemask
3
Trang 16Chương 1: Giới thiệu tổng quan về dé tài
dataset (Shah, 2020) cùng bộ dữ liệu MDMER Kết quả hiệu suất khi so sánh kết quả
nhận dạng khuôn mặt có khẩu trang với các mô hình hiện đại (state-of-the-art models)
đạt kết quả cao trên tập dữ liệu MDMER, tiêu biểu như độ chính xác của Deepmasknet
dat 93.33%, cao hơn 2,42% so với VGG-19, 9,13% so với Resnet- I8.
Conv Conv2 € Comd ComwS Cons
BNI BN2 ĐN4 BNS BNG
TRehl LReh2 L LReu LReuð — LReu6
mexpooll maxpool2 taxpool3 maxpocl4
Ngoài các nghiên cứu cải tiến mô hình, thuật toán, thì việc cung cấp, tổng hợp
và tăng cường dữ liệu cung cấp cho các mô hình có sẵn là hướng tiếp cận khả quan,đặc biệt phù hợp cho các phương pháp, mô hình nhận dạng khuôn mặt thiết kế dựa
trên học sâu, hầu hết phụ thuộc vào số lượng và chất lượng bộ dit liệu Công trình
khoa học của tác giả Zhongyuan Wang và các cộng sự [4] là một đóng góp đáng ghi
nhận, khi đề tài đã đề xuất ba loại tập dữ liệu khuôn mặt có khẩu trang cho bài toán
nhận dạng, bao gồm bộ dữ liệu: Masked Face Detection Dataset (MFDD), Real-world
Masked Face Recognition Dataset (RMFRD) va Simulated Masked Face Recognition
Dataset (SMFRD) Trong đó, ở thời diém công bố, tác giả nhận định RMERD là tập
di liệu có khuôn mặt đeo khẩu trang trong thế giới thực lớn nhất thé giới Các bộ dữ
liệu này được chia sẻ miễn phí cho cộng đồng MFDD chứa hai phần chính: Tổng
hợp từ các nhà nghiên cứu khác, phan còn lại thu thập từ nguồn internet Tập dữ liệuchứa 24,771 ảnh khuôn mặt có khẩu trang, được nhóm tác giả gán nhãn, xác định vịtrí khẩu trang trên khuôn mặt MFDD được sử dung để thực hiện huấn luyện, đào tạo
mô hình phục vụ bài toán phát hiện khẩu trang RMFRD được xây dựng từ việc thu
thập ảnh trên internet bởi công cụ crawler và chọn lọc những hình ảnh đạt tiêu chuân
Trang 17Chương 1: Giới thiệu tổng quan về dé tài
với nội dung ảnh là khuôn mặt trực diện của người nổi tiếng, cùng khuôn mặt đang
đeo khẩu trang của họ Sau đó thực hiện gán nhãn dữ liệu bằng công cụ Labellmg và
LabelMe Kết quả RMERD chứa 5,000 ảnh của 525 người nỗ ng đang đeo khẩu
trang và 90,000 ảnh tương ứng của họ khi không đeo khẩu trang SMFRD được xâydựng với việc sử dụng thư viện Dlib làm dồi dào số lượng dữ liệu khuôn mặt deo
khẩu trang, thư viện đã hỗ trợ thao tác gán khâu trang tự động trên khuôn mặt trong
các bộ dữ liệu khuôn mặt có sẵn, tiêu biéu như bộ dữ liệu LFW va Webface Kết quảmột tập dữ liệu chứa 500,000 hình ảnh khuôn mặt có đeo khẩu trang được giả lậpthêm vào bởi Dlib của 10,000 đối tượng Tổng hợp kết quả từ nhóm tác giả, đề tài đãđóng góp rất lớn khi cải thiện được độ chính xác nhận dạng khuôn mặt có khẩu trang
từ 50% lên đến 95% cho các mô hình học sâu phục vụ bài toán nhận dạng khuôn mặt
Công trình tiếp theo của tác giả Walid Hariri [5] đề cập đến một trong cácthách thức của thị giác máy tính là “occlusion — che khuất” Cụ thể trong bài toánnhận dạng khuôn mặt với định dạng hai chiều Occlusion xảy ra khi khuôn mặt bị chekhuất một phan bởi việc mang nón, đeo mắt kính, mang khẩu trang hoặc bat cứ vật
thể nào khác, dẫn đến khó khăn trong nhận dạng Đối với khuôn mặt có khẩu trang là
thách thức lớn nhất khi thực hiện nhận dạng vì phần lớn khuôn mặt bị che khuất Cónhiều cách tiếp cận dé giải quyết vấn dé này, mà tác giả chia thành 3 nhóm chính:
Local matching approach, Restoration approach và Occlusion removal approach.
Nhóm Occlusion removal approach được chú ý nhiều hơn khi phương thức hoạt động
chủ yếu từ việc phát hiện những vùng được cho làm xảy ra tình trạng occlusion với
khuôn mặt Sau đó, những vùng này bị loại bỏ hoàn toàn trong quá trình trích xuất
đặc trưng và phân loại Segmentation là phương thức hữu hiệu cho việc phát hiện
vùng bị che khuất Lấy cảm hứng từ hiệu suất cao của CNNs vốn được xem là cách
tiếp cận phô biến cho nhận dạng khuôn mặt, tác giả đã đề xuất một phương pháp hiệu
quả dựa trên Occlusion removal và các tính năng học sâu Bước đầu của phương pháp
là loại bỏ vùng bị che khuất bởi khẩu trang, sau đó sử dụng ba pre-trained model làVGG-16, AlexNet, va ResNet-50 để trích xuất đặc trưng các vùng còn lại của khuônmặt (chủ yếu ở vùng trán và mat)
Trang 18Chương 1: Giới thiệu tổng quan về dé tài
Reglon of
= interest c-
Hình 1.1.2.b: Khuôn mặt được loại bỏ vùng chứa khẩu trang [5]
Áp dụng một trong các phương pháp rút trích đặc trưng tiên tiến là mô hình
Bag-of-features (BoF hoặc bag-of-visual-words — mô hình túi từ) cho các feature map của
lớp tích chập cuối cùng dé tăng tốc thời gian xử lý của ba mô hình trên mà vẫn dam
bảo độ chính xác và đạt được sự tối ưu so với lớp Fully Connected của CNN cổ điền
Cuối cùng áp dụng theo mô hình mạng Multilayer Perceptron cho quá trình phân loại
Sau các bước, sẽ thu được kết quả gần giống nhất với ảnh đã định nghĩa trong CSDL
Dé đánh giá phương pháp đã đề xuất, tác giả sử dụng hai bộ dữ liệu RMFRD vàSMERD của Zhongyuan Wang và cộng sự Kết quả về độ chính xác nhận dạng trên
tập dữ liệu RMFRD đạt 91.3%, đạt 88.9% trên tập dữ liệu SMFRD
Deep features extraction Feature vectors extraction Quantization
from feature maps Layer
x3 sized Global MIP
Region of Feature maps histogram classifier Interest
n sized Feature vectors Layer
Hình 1.1.2.c: Kiến trúc mô hình đề xuất của Walid Hariri [5]
Vé mặt ứng dụng, ngoài những nghiên cứu khoa học trên, một số thư viện, hệ
thống nhận dạng khuôn mặt khi đang đeo khẩu trang hoặc mắt kính nổi bật được
thương mại dé bên thứ ba tích hợp như: Bộ ROC SDK 2.0 của công ty Rank One
Computing; Bộ Visage SDK của công ty Visage Technologies, Các công trình
nghiên cứu đã trình bày là nguồn cảm hứng và tham khảo khoa học đề khóa luận cóthể ứng dụng, thiết kế mô hình xử lý giải quyết bài toán, mục tiêu mong muốn
Trang 19Chương 1: Giới thiệu tổng quan về dé tài
1.2 PHẠM VI VÀ MỤC TIÊU CỦA ĐÈ TÀI
Ứng dụng được triển khai với quy mô nội bộ doanh nghiệp Bài toán và ứngdụng được tập trung trong việc xác thực khuôn mặt có khẩu trang Luận văn tập trung
xây dựng bộ dữ liệu khuôn mặt của 342 nhân viên đang làm việc tại tòa nhà “6500” Với 342 nhân viên đang làm việc, trong đó có khoảng 30% nhân viên thời vụ trong 3
— 6 tháng, mỗi nhân viên ký mới hoặc tái ký hợp đồng làm việc sẽ phải đăng ký lại
khuôn mặt theo định dạng và mẫu yêu cầu, hoặc yêu cầu đăng ký lại khuôn mặt khi
có thông báo từ nhân sự Do đó dữ liệu khuôn mặt ít bị ảnh hưởng bởi các yếu tố gâynhiễu khác như: khuôn mặt thiếu sáng, thay đổi kiểu tóc, trang điểm, lý do tuổitác/thời gian, che nửa mặt Luận văn này không tập trung giải quyết với những dữ
liệu gây nhiễu trên Về dữ liệu đầu vào cho mô hình xử lý, để tài chấp nhận dữ liệu
với các định dang phổ biến của một đoạn video, tệp hình ảnh hoặc live video có chứakhuôn mặt người trong một khung hình đang đeo hoặc không có khẩu trang từ nguồncamera IP hoặc camera trên thiết bị di động, đối với một khung hình chứa nhiềukhuôn mặt, bộ nhận dạng sẽ phát hiện và nhận dạng khuôn mặt có khoảng cách gần
với camera thu hình nhất Luận văn không giải quyết trường hợp làm giả khuôn mặt
tuy nhiên vẫn sẽ đưa ra phương án khắc phục trong phần cuối chương Bộ dữ liệuhuấn luyện và kiểm thử trong luận văn là bộ dữ liệu tự xây dựng với hai tập có khẩu
trang và không có khâu trang Phạm vi kết quả sẽ là hình ảnh người cần nhận dang
trùng khớp với dữ liệu khuôn mặt đã đăng ký, chuỗi kết quả định dang JSON và các
thông số trả về khác Các thao tác xử lý và hiền thị kết qua thông qua các ứng dung
dưới dạng console, desktop, nền tảng web/API Vận hành và kiểm chứng trên máytính phục vụ demo, thiết bị đi động và NVIDIA Jetson Nano Dev Kit (sử dụng phiên
bản desktop).
Việc nghiên cứu và xây dựng hệ thống nhận dạng khuôn mặt có khẩu trang
được xác định với các mục tiêu sau:
-Giải quyết được các thách thức: Hạn ché về dữ liệu khuôn mặt của một người(đối với nhân viên dang làm việc tại RW); Tốc độ xử lý nhận dạng; Độ chínhxác của kết quả nhận dạng đạt tỷ lệ cao; Khả năng tích hợp linh hoạt với các
bài toán, ứng dụng khác.
- Ung dung mô hình hoc sâu để nhận dang khuôn mặt khi deo khẩu trang
Trang 20Chương 1: Giới thiệu tổng quan về dé tài
- Xây dựng được bộ dữ liệu khuôn mặt có và không có khâu trang của nhân
viên kho hàng Do mỗi nhân viên chỉ cung cấp bồn hình ảnh khuôn mặt (không
đeo khẩu trang) dé đăng ký vào hệ thống chấm công
- Thực thi mô hình hoạt động, xử lý của ứng dụng đáp ứng được với tập dữ
liệu đã chuẩn bị và dữ liệu phát sinh trong quá trình bảo vệ luận văn
1.3 PHƯƠNG PHÁP NGHIÊN CỨU
Xuất phát từ nhu cầu thực tiễn, tìm hiểu và nghiên cứu các phương pháp và kỹthuật hiện có, trên cơ sở đó tìm ra cách vận dụng, áp dụng tư tưởng và ý tưởng để xây
dựng được mô hình xử lý phù hợp, đáp ứng với mục tiêu đã đặt ra đang hướng tới
của luận văn Thông qua đó, đóng góp được phương pháp, cách thức giải quyết vấn
đề theo hướng mới về mặt xử lý, và kỹ thuật Một số phương pháp, kỹ thuật tiêu biểuđược áp dụng, triển khai liên quan đến đề tài như:
- Phương pháp kết hợp phong cách dựa trên mô hình StyleGAN2 cho ra chấtlượng ảnh có độ phân giải tốt Phục vụ quá trình thử nghiệm, đánh giá
- Phương pháp xử lý ảnh: Trích xuất frame hình từ video, phân tách khuônmặt với nội dung nên trong ảnh, thu nhỏ tỉ lệ hình ảnh đúng với kích thướccho phép của mô hình áp dụng Sử dụng các thư viện xử lý ảnh dé gán tự độngkhẩu trang lên khuôn mặt, phục vụ tăng cường dữ liệu cho hình ảnh khuôn mặt
đăng ký vào CSDL.
- Phương pháp kết hợp xử lý với các mô hình phát hiện khuôn mặt (Retinaface),
nhận dạng khuôn mặt, so khớp dữ liệu (Arcface).
- Kỹ thuật thao tác với CSDL: CSDL ứng dụng và CSDL vector, file
server.
- Kỹ thuật xây dựng phần mềm: Xây dựng ứng dụng thử nghiệm, API,
1.4 NỘI DUNG THỰC HIỆN
Đề tài thực hiện một số nội dung chính nhằm đạt được kết quả, mục tiêu đã đề ra:
- Tìm hiểu về bài toán nhận dạng danh tính của nhân viên kho hàng công ty RegalLogistics bằng việc đề xuất mô hình học sâu cho nhận dạng khuôn mặt
- Nghiên cứu, khảo sát, phân tích và thực nghiệm các thuật toán, phương pháp, ky
thuật liên quan.
Trang 21Chương 1: Giới thiệu tổng quan về dé tài
- Xây dựng, tông hợp bộ dữ liệu khuôn mặt nhân viên RW không và có đeo khâu
trang, cùng bộ dữ liệu khuôn mặt phục vụ kiểm thử Mỗi dữ liệu ảnh hoặc khung hình
video chỉ chứa duy nhất một khuôn mặt trực diện, không bị che khuất bởi khẩu trang,
mắt kính mát, độ phân giải hình ảnh đầu vào từ 96dpi trở lên, độ phân giải video đầu
vào đạt 720p hoặc 1080p.
- Thử nghiệm xử lý dữ liệu khuôn mặt đặc trưng hiện tại của nhân viên kho hàng (ảnh
thiếu sáng, chất lượng thấp, bị nhòe) bằng cách tiếp cận ứng dụng của mô hình
Generative Adversatial Network (GAN) - thuộc nhóm Generative model, một
framework tạo sinh dữ liệu bằng phương pháp học không giám sát thông qua quátrình đối nghịch, training đồng thời hai mô hình mạng neural luôn đối nghịch nhau là
Generative model và Discriminative model [6] Áp dụng kết quả nghiên cứu về GAN
thông qua mô hình StyleGAN2 - là mạng đối thủ chung được xây dựng dựa trênStyleGAN [7], một thiết kế thay thế trong việc giải quyết các vấn đề xảy ra trong việc
sử dụng tính năng tăng trưởng liên tục với mục đích 6n định quá trình đào tạo có độphân giải cao [8] StyleGAN tạo ra các phiên bản hình ảnh khuôn mặt đạt chất lượng
cao hon so với Traditional GAN StyleGAN2 cải thiện những thiếu sót của phiên bản
trước [9] Sử dụng StyleGAN2 cho ra ảnh chất lượng cao và đa dang về phong cách,mong muốn hình ảnh khuôn mặt cần xác thực có chất lượng tốt, tăng độ chính xáccủa kết quả nhận dạng
- Xây dựng mô hình hoạt động cho ứng dụng nhận dạng, sử dụng một bộ phát hiện khuôn mặt single-stage face detector — RetinaFace, xác định được các góc cạnh, cũng.
như các điểm như mắt, mũi miệng RetinaFace thể hiện dưới dang pixel của khuônmặt dựa trên các tỉ lệ khác nhau, bằng cách tận dụng lợi thế của extra-supervisedlearning va self-supervised learning [10] Tiếp theo thực hiện tăng cường dữ liệukhuôn mặt của một người bằng cách loại bỏ phần dưới của khuôn mặt, tạo ra cácphiên bản khuôn mặt đeo khẩu trang từ khuôn mặt không đeo khẩu trang, khẩu trang
có các phiên bản mau sắc khác nhau, phần mắt tạo ra phiên bản có đeo kính, mau damặt thay đổi Kết quả từ các bước trước sẽ được đưa vào Deep face recognition
model là Arcface có tác dụng mã hóa - encode khuôn mặt có trong bức anh/frame
thành véc tơ embedding Arcface được đề xuất và đánh giá cao trong việc tăng cường
sự hiệu quả trong việc phân biệt của các embedding đặc trưng đã học thông qua Deep
Trang 22Chương 1: Giới thiệu tổng quan về dé tài
Convolutional Neural Networks cho bài toán nhận dạng khuôn mặt [11] Để cho rakết quả chính xác, giai đoạn cuối của mô hình sẽ đưa một số kết quả từ các công đoạn
trên làm đầu vào của một hệ thống gọi là DeepFace dé xem xét người cần nhận dang
có đúng thật là khuôn mặt đã được đề xuất trong CSDL hay không Deepface đượcphát triển, đào tạo trên tập dữ lớn về khuôn mặt, với nhiều đặc trưng khác nhau,
đạt được độ chính xác cao và có giá trị cao hơn so với các hệ thống khác tại thời diém
công bố do có sử dung Deep Learning [12] Cuối cùng, ứng dụng được xây dựng dướidạng Software-as-a-Service (SAAS) tăng khả năng mở rộng và kế thừa cho các hệthống khác Cài đặt mô hình xử lý phát hiện, nhận dạng tại NVIDIA Jetson Nano DevKit, là thiết bị đóng vai trò Client, các kết quả trả về cho Server Linux quản lý tap
trung.
- Đánh giá phương pháp đã thực hiện trên bộ dữ liệu đã xây dựng, phân tích những
điểm mạnh và hạn chế của phương pháp Sử dụng kết qua dé đánh giá mô hình ứngdụng đã thiết kế Trình bày các kết quả đạt được và phương hướng phát triển tiếp theo
10
Trang 23Chương 2: Cơ sở lý thuyết
CHƯƠNG 2
CƠ SỞ LÝ THUYET
Chương 2 trình bày cơ sở lý thuyết của đề tài liên quan đến vấn đề cải thiện sốlượng, chất lượng hình ảnh, phương pháp xác định vị trí khuôn mặt trong khung hình,
phương pháp xác thực khuôn mặt và phương pháp đánh giá hiệu quả mô hình.
2.1 DU LIEU ANH TRONG NHAN DẠNG KHUÔN MAT
Chất lượng hình ảnh khuôn mặt được xem như là một trong những phép dolường cho sự phù hợp của một hình ảnh chứa khuôn mặt đối với hệ thống nhận dạng
khuôn mặt tự động Nói cách khác, hiệu suất của hệ thống nhận dạng khuôn mặt phần
lớn phụ thuộc vào chất lượng hình ảnh khuôn mặt thu thập được đưa vào hệ thống
[13] Don cử dữ liệu ảnh đạt chuẩn có kiểm soát như ảnh khuôn mặt của thé căn cước
công dân, khuôn mặt ở vị trí trực diện, các điểm trọng yếu của khuôn mặt ở mức hàihòa, rõ nét, ánh sáng phân bồ đều, với chất lượng ảnh như vậy, kết quả nhận dang
khuôn mặt sẽ cực kỳ chính xác Quy định tiêu chuân cho dữ liệu khuôn mặt dạng ảnh
được tuân thủ theo ISO/IEC 19794-5, ISO/IEC TR 29794-5 hoặc gần đây là ISO/IEC
39794-5.
Tuy nhiên, ở điều kiện thực tế, những dữ liệu ảnh thu thập được từ các thiết bị nhưcamera giám sát, thiết bị đi động, chất lượng ít nhiều sẽ không đồng đều và rõ néttheo định tính Điều này có thé làm giảm đáng kể độ chính xác của kết quả nhận dangkhuôn mặt nói chung và nhận dạng khuôn mặt có khẩu trang nói riêng Để đánh giá
11
Trang 24Chương 2: Cơ sở lý thuyết
chất lượng hình ảnh theo định lượng, có thê dựa trên một vài chỉ số như: Blur (dạng
mờ, nhòe), Sharpness (độ sắc nét), Brightness (độ sáng), Contrast (độ tương phản),
Pose Asymmetry (tư thé bat đối xứng của khuôn mit), [15] Giải quyết vấn đề về
dé liệu ảnh chất lượng thấp, có thé ké đến các giải pháp chính như sử dụng xử lý ảnhhay tạo sinh ảnh kỹ thuật số thông qua các thư viện và mô hình thuật toán tiên tiến
Tang cường dữ liệu thường được sử dụng trong các bài toán phân loại [16], là
kỹ thuật hữu dụng cho quá trình xây dựng tập dữ liệu trước khi đưa vào bộ huấn luyệnthu được mô hình máy học tối ưu, đạt độ chính xác cao khi thử nghiệm với các mẫuthử thực tế Các loại dữ liệu áp dụng được kỹ thuật này như: Âm thanh, tiếng nói, chữviết, văn bản, đồ họa, hình ảnh tĩnh, ảnh động, Đối với nhận dạng khuôn mặt, dữ
liệu đầu vào có thể là hình ảnh hoặc video, tuy nhiên đều quy về cùng loại dữ liệu
ảnh bằng việc thực hiện công đoạn tiền xử lý dữ liệu Tập trung vào tăng cường dữ
liệu ảnh cho khuôn mặt sẽ giúp đa dạng hóa hơn các phong cách, trường hợp phát
sinh trong thực tế của khuôn mặt Tăng cường hình ảnh là thao tác sử dụng các phép.biến đổi hình học, chuyền đổi không gian màu, thêm nhiễu, giảm nhiễu, xóa ngẫu
nhiên, trên ảnh như: lật, cắt, xoay, tịnh tiến, tăng độ tương phản khắc phục được
vấn đề về số lượng dữ liệu ảnh thu thập bi hạn chế Tuy nhiên, đối với khuôn mặt,phải lựa chọn các thao tác với ảnh phù hợp đề không làm giảm độ chính xác của kết
quả nhận dạng.
Imgaug [17] là một thư viện python hỗ trợ tăng cường hình ảnh cho các dự ánmáy học Imgaug tập hợp các kỹ thuật biến đổi hình ảnh, dễ sử dụng và thao tác, cho
Hình 2.1.b: Một số phép biến đồi trên ảnh bởi imgaug [17]
Việc trích chọn các kỹ thuật biến đổi ảnh phù hợp cho bài toán cần dựa vàoứng dụng thực tế Đề tài không lựa chọn phép xoay ảnh do đầu vào khuôn mặt được
trích xuất từ camera thiết bị di động, camera giám sát lắp đặt theo phương thẳng đứng,
điều này giúp loại bỏ các trường hợp khuôn mặt lệch góc lớn hơn 90 độ so với mặtphẳng Dé đảm bảo dữ liệu khuôn mặt được day đủ và đảm bảo đúng kích thước đầu
12
Trang 25Chương 2: Cơ sở lý thuyết
vào 112 x 112 của mô hình nhận dạng, không sử dụng các phương pháp cắt xén,
dropout, coarse dropout hoặc các kỹ thuật tương tự được cung cấp bởi imgaug Dé
tăng cường ảnh với hiệu ứng nhiễu với các đốm, sử dụng chức năng “SpeckleNoise”
với severity đúng bằng 1 Trong một số trường hợp, hình ảnh đầu vào khi nhận dạngkhuôn mặt bị mờ ở mức cho phép (có thé thay được khuôn mặt bằng mắt thường), dé
giải quyết với tính chất ảnh như vậy, thực hiện phép mờ ảnh bằng hàm GaussianBlur
với severity mang giá trị 1, đảm bảo được ảnh bị làm mờ nhưng không gây nhằm lẫnkhuôn mặt (ở mức severity cao hơn, các khuôn mặt có khả năng cho ra kết quả gâynhằm lẫn do những đặc trưng của khuôn mặt không còn rõ nét) Độ tương phản làmảnh tăng cường gần hơn về phong cách với ảnh khuôn mặt chụp tại kho hàng do hiệu
ứng mờ tối, ở chức năng này, chọn severity ở mức 1 áp dụng cho hàm “Contrast” Độ
sáng của ảnh khuôn mặt được đăng ký ở mức 2 về độ sáng, áp dụng cho hàm
Ap dụng các phép biến đồi ảnh tương tự với thư viện Albumentation
Là một thư viện tăng cường hình ảnh mạnh mẽ, được chứng minh vượt trội hơn vềhiệu suất so với imgaug (ví dụ: nhanh hon imgaug 4.1847 giây với tác vụ Grayscale,
3.833 giây với tác vụ ShiftHSV) [18] Albumentation đáp ứng nhiều tác vụ khác nhau
với hình ảnh như: phân loại, phân vùng, phát hiện .
Đối với bài toán nhận dạng trong phạm vi ài, việc tăng cường dữ liệu ảnhkhuôn mặt có đeo khâu trang và lưu trữ dữ liệu này vào CSDL giúp bài toán đượcgiải quyết một cách tương đối mà không cần phải thay đồi thuật toán của các mô hình,công nghệ có sin Dữ liệu ảnh khuôn mặt có khẩu trang được xây dựng và tổng hợp
từ các nguồn trên mạng, sử dụng các công cụ đồ họa hoặc gán khẩu trang tự động.Lấy ý tưởng từ watermark (overlay ảnh), thường được gọi là hình mờ, có dạng lớpmàu, logo, tem, hình hoặc chữ ký, được đặt chồng lên hình ảnh gốc ở một vị trí nào
đó Về tính chất, hình ảnh được biéu diễn trong máy tính dưới dang ma trận của cácpixels (điểm ảnh) Nếu là ảnh màu, thì mỗi pixel sẽ gồm một bộ (R,G,B) tương ứngvới Red, Green, Blue Thao tác với các pixel sẽ thực hiện được việc chèn khẩu trangvào khuôn mặt Hình ảnh khuôn mặt có khẩu trang được tạo thành tự động từ các
bước sau:
+ Bước 1: Chuẩn bị ảnh gốc (ảnh khuôn mặt), anh overlay (khẩu trang)
13
Trang 26Chương 2: Cơ sở lý thuyết
+ Bước 2: Xác định kích thước size ảnh gốc (ảnh nền), ảnh overlay (tiền cảnh),
vị trí chèn vào ảnh góc
+ Bước 3: Khởi tạo vòng lặp, duyệt qua tat cả pixels của ảnh overlay Ở mỗi
lần lặp sẽ đọc kênh alpha của ảnh overlay Sau cùng thực hiện phép tính hòa
trộn vào ảnh góc, tương ứng với giá tri alpha đã tìm được
+ Kết quả: Ảnh màu có khuôn mặt đang đeo khẩu trang, khẩu trang che khuất
phần mũi, cằm, miệng.
Hình 2.1.c: Ảnh màu có khuôn mặt trước và sau khi gán khẩu trang.
StyleGAN được đề cập đến như là kỹ thuật tăng cường dữ liệu ảnh, đa dạnghóa về phong cách của nội dung ảnh, đặc biệt đối với khuôn mặt con người
StyleGAN2 là phiên bản thứ hai của StyleGAN, cải thiện được chất lượng hình ảnh
và xóa bỏ được các đóm màu đặc trưng như giọt nước xuất hiện trong ảnh tạo ra bởi
StyleGAN StyleGAN2 được ứng dụng trong một số bài toán như: Face generators
(Thay đổi hình thái, biểu cảm, mau da, giới tính khuôn mặt, ), Age Transformation
(thay đổi khuôn mặt theo thời gian về tuổi tác), Cartoon Face Generation (tạo lập
khuôn mặt thật theo phong cách hoạt họa), Style transfer, Khóa luận ứng dụng kếtquả nghiên cứu của Jihye Back [19] về StyleGAN2 trong một số trường hợp ảnhkhuôn mặt đăng ký vào hệ thống nhận dạng có chất lượng kém (chỉ tiết về dữ liệukhuôn mặt RW tại chương 3) với bài toán chuyển đổi ảnh thực sang hình hoạt họa.Jihye Back đề xuất áp dụng hai phương thức để đạt được mức độ tương đồng caogiữa ảnh gốc và ảnh hoạt họa: FreezeSG (Freeze Style vector and Generator) vàStructure Loss đảm bao cho việc dịch ảnh gốc thành phiên bản hình hoạt họa nhưng
vẫn bảo toàn được cấu trúc nội dung theo ảnh gốc và giải pháp mong muốn đạt được
ảnh chất lượng cao
14
Trang 27Chương 2: Cơ sở lý thuyết
Source (FFHQ) FreezeD FreezeD with IS FreezeG.D FreezeG, Dwith LS Ours: FreezeSG, D Ours: FreezeSG + D with LS
Hình 2.1.d: Anh hình họa thực nghiệm với FreezeSG va LS [8]
Hình 2.1.e: Ảnh hình họa thực nghiệm với hai cặp FreezeSG với LS và
StructureLoss với LS [9]
2.2 PHƯƠNG PHÁP PHÁT HIỆN KHUÔN MẶT TRONG ẢNH
Phát hiện khuôn mặt là một trong những ứng dụng của bài toán phát hiện vật
thể (Object Detection ) Là quá trình xác định vùng chứa một hoặc nhiều khuôn mặt
trong một bức ảnh hoặc video (phân biệt khuôn mặt người với những đối tượng khác
xung quanh) Một khuôn mặt được phát hiện sẽ xác định được các tọa độ để vẽ một
hộp giới hạn (bounding box) khoanh vùng chứa khuôn mặt, đồng thời chỉ ra được các
điểm trọng yếu tạo nên cấu trúc khuôn mặt như đã trình bày Phát hiện khuôn mặt làmột khía cạnh cơ bản của hệ thống nhận dạng khuôn mặt Một số thư viện, mô hìnhđược sử dụng để phát hiện khuôn mặt nôi tiêng như: Dlib, OpenCV Haar Cascades,
MTCNN, FaceNet, YOLO, Retinaface,
Retinaface là công cụ đò tìm khuôn mặt sử dụng kỹ thuật học tập đa tác vụ,
thực hiện dự đoán đồng thời trên mỗi pixel, từ đó định vị được khuôn mặt với hộpgiới hạn, độ tin cậy với khuôn mặt tìm được, nam điểm mốc trên khuôn mặt (mắt trái,
mắt phải, mũi, mép miệng bên trái, mép miệng bên trái) và dự đoán tái tạo khuôn mặt
ba chiều (3D) [10]
15
Trang 28Chương 2: Cơ sở lý thuyết
Dense face regression
Hình 2.2.a: Mô hình phát hiện khuôn mat bằng Retinaface [10]
Đầu tra của Retinaface là chuỗi JSON [10] phục vụ nhu cau tính toán và lưu trữ:
{"face_1": {
"score": 0.9993440508842468, # Điểm tin cậy
"facial_area": [155, 81, 434, 443], # Hai tọa độ góc của bounding box
"landmarks": {
"right_eye": [257.82974, 209.64787], #Toa độ mắt phải
"left_eye": [374.93427, 251.78687], #Toa độ mắt trái
"nose": [303.4773, 299.91 144], #Toa độ mũi
"mouth_right": [228.37329, 338.73193], #Tọa độ mép miệng phải
"mouth_left": [320.21982, 374.58798] #Tọa độ mép miệng trái
})
Hình 2.2.b: Hình ảnh đã được đánh dấu các điểm mốc bởi Retinaface
Retinaface bao gồm 3 thành phần chính, được thiết kế dựa trên mang feature
pyramid kết hợp với 5 context module độc lập nhau, sau đó là việc tính toán một
multi-task loss dé tinh chỉnh cho mỗi pre-define box (anchor), từ đó xác định được 5
16
Trang 29Chương 2: Cơ sở lý thuyết
Context Module (x5)
Hình 2.2.c: Retinaface thuộc nhóm single-stage đề xuất để xác định đa vị trí khuôn mặt
[10]
Các thuật toán xây dựng dựa trên phương pháp two-stage (phân loại, phát hiện
đối tượng bởi 2 bước) như: RCNN, Fast-RCNN, Faster-RCNN, Hoạt động theo
cơ chế dé xuất và sàng lọc, two-stage khoanh vùng va crop (cắt) các ROI trong bức
ảnh hay trích xuất các vùng trên ảnh có khả năng chứa đối tượng, sau đó thông qua 2nhánh Object classification và Bounding box regression để phân loại và xác định vịtrí đối tượng Phương pháp two-stage cho kết quả đạt độ chính xác cao tuy nhiên việchuấn luyện và đưa ra các quyết định chậm hơn so với single-stage Single-stage lợi
thế về mặt thời gian do áp dụng trực tiếp 2 thành phần Object classification và
Bounding box regression, tức sẽ không đi qua lớp trích xuất đặc trưng hay vùng ROI.Single-stage xem việc phát hiện đối tượng là một bài toán hồi quy (regression) Đốivới bài toán phát hiện khuôn mặt, thực hiện bởi Retinaface, việc lấy mẫu các vị trí và
các tỉ li ia khuôn mặt khiến các class bị mat cân bằng trong quá trình huấn luyện
Việc mat cân bằng đã đề cập được xử lý theo phương pháp dé xuất của những cong
trình nghiên cứu khác như sampling và re-weighting (Focal loss) Các thuật toán thuộc nhóm single-stage như Retinaface, SSD, YOLO, thích hợp cho việc xây
dựng các hệ thống phát hiện theo thời gian thực, được đánh giá có độ bao phủ (recall)cao hơn, tuy nhiên nhược điểm về tỉ lệ False Positive lại cao và độ chính xác rõ ràng
kém hơn so với two-stage [10] Đối với Retinaface, nhược điểm này được khắc phục
khi được thiết kế theo mạng Feature Pyramid
Việc lựa chọn thiết kế theo mạng Feature Pyramid được nhóm tác giảRetinaface nghiên cứu dựa trên những so sánh và công trình nghiên cứu về việc loại
17
Trang 30Chương 2: Cơ sở lý thuyết
bỏ các vùng không phải khuôn mặt dựa trên một trong các phương pháp phát hi
các kích
thé là Image Pyramid Image Pyramid có thé dự đoán được khuôn mặt với
thước từ nhỏ đến lớn, tuy nhiên nhược điểm của phương pháp này rất chậm vì phải
dự đoán vật thé trên mỗi tỉ lệ của hình gốc và gây tốn hhớ Feature Pyramid là môhình phát hiện các đặc trưng cho các bài toán phát hiện đối tượng, được dé cập đến
để thay thế Image Pyramid và các mô hình tương tự đang được sử dụng bởi Fast
R-CNN, YOLO hay Single Shot Detector, phù hợp cho mục tiêu của Retinaface với
khả năng sliding anchor trên các feature map có tỉ lệ khác nhau Ở hình hình 2.2.c, từhình ảnh đầu vào, Retinaface áp dụng feature pyramid có được 5 feature map với các
tỉ lệ khác nhau từ tầng P2 đến P5 đã được tính toán từ backbone tương ứng là Resnet
(được pre-trained với bộ dữ liệu ImageNet-I 1k), theo mô hình top-down (các layer
có độ phân giải cao được xây dựng từ các layer có độ phân giải thấp có nhiều feature)
Tai feature map Pó, được tính toán bởi thực hiện phép tích chập ma trận lọc 3x3, với
số pixel thay đôi trên ma trận đầu vào C5 là 2 (stride = 2) Bên cạnh đó, thành phầncontext module được thiết kế dé nâng cao sức mạnh mô hình, thay thế các lớp tích
chập 3x3 bởi deformation convolutional network (DCN) cho các feature maps Cuối
cùng, mỗi anchor i được tính toán bởi ham loss (multi-task loss) cho kết quả chínhxác hơn các bounding box đầu ra được dự đoán Hàm Multi-task loss được trình bày
bởi công thức 2.1.
L= Las (pipi) + Arpi Loox(ti,ti”) + Äapi” Lpe(i,lbŸ) + 3p” Lpixer (2.1) [10]
Ham loss này gồm 4 phan như sau:
- Classification loss Lels là hàm softmax cho 2 class khuôn mặt hay không phải khuôn
mặt Trong đó p; là xác suất dự đoán anchor i là khuôn mặt, với pỉ là 1 hoặc 0
- Face box regression loss L›os(fi, ti”)
- Facial landmark regression loss Lyis(li, li’)
- Regression loss của các điểm 3D Lpixci
Theo két quả thực nghiệm Retinaface trên bộ dữ liệu WIDER FACE (Hard),
Retinaface đạt 91,4% về chỉ số độ chính xác trung bình (Average Precision) [10] và
đang xếp hạng thứ hai trong bảng xếp hạng các model phát hiện khuôn mặt, sau
TinaFace với cách biệt 1% Retinaface cũng được thử nghiệm độ chính xác nhận dang
khuôn mặt khi kết hợp với Arcface, một phương pháp nhận dạng khuôn mặt hiện đại
18
Trang 31Chương 2: Cơ sở lý thuyết
Kết quả trên tập dữ liệu ấn tượng với hiệu suất nhận dạng đạt 99,86% cao hơn 0,03%
so VỚI Sự kết hợp giữa MTCNN và ArcFace [10] Retinaface cho thấy Sự vượt trội
trong bài toán phát hiện khuôn mặt với những phương pháp, kỹ thuật xây dựng hiện
đại, đạt độ chính xác cao khi thực nghiệm với bộ dữ liệu uy tín Với kết quả nhậndạng khuôn mặt kết hợp giữa Arcface khả quan, luận văn đề xuất sử dụng Arcface
kết hợp cùng Retinaface, thực nghiệm sự kết hợp của hai mô hình này, cho mô hình
bài toán nhận dạng khuôn mặt có khẩu trang cho nhân viên kho hàng tại RW
2.3 PHƯƠNG PHÁP NHẬN DẠNG KHUÔN MẶT
Nhận dạng khuôn mặt là quá trình xác định danh tính một khuôn mặt trong
bức ảnh hoặc video dựa trên CSDL đã có từ trước Quá trình nhận dạng bắt đầu từ bộphát hiện khuôn mặt, sau đó lọc ra các khuôn mặt đã phát hiện được Từ đó tiến hành
so sánh các đặc điểm khuôn mặt trong ảnh đầu vào với những khuôn mặt đã có trongCSDL đề xác định khuôn mặt đó là ai Có nhiều phương pháp tiếp cận cho bài toánnhận dạng khuôn mặt phù hợp với từng loại ứng dụng và nhu cầu về nhận dạng Về
cơ bản, nhận dạng khuôn mặt được tiếp cận như là vấn đề của bài toán phân lớp(classification) Nhiệm vụ của bài toán là phân loại hình ảnh đầu vào thuộc vào các
lớp nhãn tương ứng Đối với bài toán nhận dạng khuôn mặt, việc phân lớp sẽ cho biết
ảnh khuôn mặt đầu vào thuộc nhãn (danh tính khuôn mat) nào trong tập dữ liệu đãhuấn luyện Tuy nhiên, cách tiếp cận theo hướng phân lớp như vậy nhanh chóng cho.thấy được nhược điềm lớn nhất đối với các bài toán nhận dạng khuôn mặt, nhận dạnggiọng nói, nhân dạng hình thé, là khi phải đối mặt số lượng lớn các nhãn được gántrên các khuôn mặt Với một hệ thống nhận dạng khuôn mặt, không thể nào có thểthu thập cùng lúc tất cả các khuôn mặt của một thành phó, đất nước hay thé gi
huấn luyện và duy trì sử dụng cho các lần nhận dạng, về độ khả thi và hiệu suất rõràng thấy được đây là điều không thể Nếu với tần suất luân chuyền và biến độngnhân sự ở các công ty dịch vụ Kho vận, vận tải, thực phẩm, không thể nào huấn
luyện lại mô hình sau mỗi lần đăng ký khuôn mặt mới, dù lượng nhãn khuôn mặt có
thể nhỏ Một số thách thức lớn về khuôn mặt khi giải quyết bởi các thuật toán phânlớp như khuôn mặt đa góc, tỉ lệ khuôn mặt, thay đổi hình thái khuôn mặt, khuôn mặt
bị che khuat, không thé nao gan nhãn chính xác cho các trường hợp nay đối vớikhuôn mặt Để khắc phục nhược điểm và tăng tính linh hoạt, giải quyết trọn vẹn cho
19
Trang 32Chương 2: Cơ sở lý thuyết
bài toán nhận dạng khuôn mặt, tiếp cận phương pháp similarity learning [20] dựa trên
sự tương đồng của hai đối tượng (khuôn mặt), nhận dạng khuôn mặt dựa trên khoảng
cách của hai khuôn mặt, nếu khoảng cách càng nhỏ tiệm cận zero thì hình ảnh đầu
vào khớp với danh tính có trong CSDL Phương pháp này không phụ thuộc vào sốlượng các class (danh tính khuôn mặt), không phải huấn luyện lại mô hình khi có dữliệu mới, phù hợp với bài toán nhận dạng khuôn mặt Để đo được khoảng cách giữahình ảnh khuôn mặt cần truy vấn với hình khuôn mặt có trong CSDL, sử dụng các
mô hình tối ưu trong việc mã hóa hình ảnh truy vấn và các hình ảnh khuôn mặt có
trong CSDL thành các embedding vector va tính toán khoảng cách theo cặp Siamese
networks có kha năng mã hóa | cặp hình ảnh thành hai vector và đo khoảng cách
(khoảng cách cosin) giữa chúng với nhau thông qua hàm mắt mát (loss function) là
một trong những mô hình phô biến, phù hợp áp dụng trên những mẫu dự liệu phứctạp Một trong bốn ham loss (Margin-loss, Intra-loss, Inter-loss, Triplet-loss) đượcđánh giá hiệu qua nhất để tính khoảng cách giữa hai class (khuôn mặt) thông qua cácthử nghiệm được đề cập trong bài báo Arcface [11] là Margin loss Một sô deep face
recognition model thuộc Margin loss như ArcFace, CosFace, SphereFace Trong đó
tác giả Jiankang đã đưa ra loạt dẫn chứng về sự hiệu quả của ArcFace (AdditiveAngular Margin Loss) so với các model tiền nhiệm
Arcface biết đến như là công cụ phục vụ quá trình nhận dạng khuôn mặt tiên
tiến hiện nay Arcface đã có những cải tiến khi đề xuất hàm mat mát mới (Additive
Angular Margin Loss) thay cho hàm Softmax (hàm trung bình mũ) đê tăng khả năng
nhận dạng khuôn mặt, khi hàm softmax gặp nhược điểm với số lượng các class vềkhuôn mặt thay đổi theo chiều hướng tăng [11] Tích vô hướng giữa vector đặc trưng
từ mô hình Deep Convolutional Neural Networks (DCNN) và lớp fully connected
cuối bằng khoảng cách cosine sau khi chuẩn hóa feature và weight Sử dụng hàm
arc-cosine dé tính toán góc giữa feature hiện tai với weight mục tiêu Sau đó cộng thêm
một “additive angular margin” vào góc mục tiêu và lấy lại logit mục tiêu bằng hàmcosin Sau cùng tất cả các logit được chia lại tỷ lệ bằng một feature norm cố định.Các bước tiếp theo hoàn toàn giống hàm mắt mát softmax
20
Trang 33Chương 2: Cơ sở lý thuyết
Trong ứng dung, tận dung Arcface dé encode một hình ảnh đầu vào với kích
thước 112 x112 thành một embedding vector phục vụ tính khoảng cách với
embedding vector khác, từ đó tìm ra được danh tính khuôn mặt.
112x112
model.get_embedding
[[-1.2601601 -@.0231402 @.0496207 0.12062282 -@.6127377 36527574
@.74560636 1.1521952 -0.19438967 -1.3109193 0.9970855 -@.36556235 -1.7426088 -@.4508834 1.8380163 @.46698484 090.5239836 -@.14021854
@.39043272 @.15307352 0.47490504 -@.23078242 09.22364248 @.39151162 -9.16728698 @.75638014 @.10289359 -@.13514355 0.5138678 00.42724553 -9.8355281 -0.6749625 @.2521965 -@.3694694 36905292 -0.28342193
1.3876553 -@.56463766 -0.907199 -9.9490114 0.8225903 1.4278977
-2.1875238 -1.3704662 ]]
Hình 2.3.b: Encode ảnh thành vector đặc trưng
Deepface [21] là một framework cho việc nhận dạng khuôn mặt và phân tích
các thuộc tính của khuôn mặt (tuổi tác, giới tính, chủng tộc) Deepface tích hợp các
mô hình tiên tiến về nhận dạng khuôn mặt như: VGG-Face, Google FaceNet,OpenFace, Facebook DeepFace, DeepID, ArcFace và Dlib Deepface hỗ trợ xác thựchai khuôn mặt với nhau có phải cùng một người và tìm kiếm danh tính khuôn mặt
trong CSDL.
21
Trang 34Chương 2: Cơ sở lý thuyết
Hình 2.3.c: Kết quả xác thực từ DeepFace khi sử dụng VGG-Face và tính khoảng cách
bằng ham cosine [21]
2.4 ĐÁNH GIÁ HE THONG NHAN DANG KHUÔN MAT
Để đánh giá hệ thống nhận dạng khuôn mặt có khẩu trang, đề tài sử dụng
Confusion Matrix với các độ đo là độ chính xác (accuracy), độ tin cậy (precision), độ
bao phủ (recall) và FI-Score Như là phương pháp đánh giá cho hiệu quả nhận dang
của hệ thống dựa trên các kết quả nhận dạng thu thập trong quá trình thực nghiệm
Confusion Matrix là ma trận nhằm lẫn hay ma trận lỗi là một bố cục bảng cụthể cho phép hình dung hiệu suất của một thuật toán Là một trong những kỹ thuậtđánh giá cho các bài toán phân loại Confusion Matrix giải quyết vấn đề lý tưởng hóa
về kết quả đánh giá so với chỉ số accuracy (độ chính xác) (phần trăm các lớp đã phân
loại đúng / tổng số dự đoán) Nhược điểm của việc đánh giá bởi chỉ số accuracy khi
kết quả hệ thống chỉ trả về nhãn True (Đúng) hay False (Sai), trong khi đó, kết quảnhận dạng có thể gây hiểu lầm như việc trả về kết quả True nhưng trên thực tế là
False (danh tính không khớp khuôn mặt).
2
Trang 35Chương 2: Cơ sở lý thuyết
Predicted Class
————~>—n
Negative
= " False Negative (FN) Sensitivity
Positive ‘True Positive (TP) Tywenr TP
ype I! Error căm
Actual Class
cục | False Positive (FP) | „ Specificity
Negative kề ‘True Negative (TN) TN
Hinh 2.4; Hinh anh mé ta Confusion Matrix [22]
Goi Positive class là nhận dang được khuôn mặt, Nagative class là không nhận
dạng được khuôn mặt Khi đó các giá trị TP, TN, FP, FN được định nghĩa như sau:
- True Positive (TP): Số lượng nhận dang được Mã định danh trong CSDL khớp với
khuôn mặt (dự đoán đúng).
- True Negative (TN): Số lượng không nhận dạng được Khuôn mặt thực sự không
có trong CSDL (dự đoán đúng).
- False Positive (FP): Số lượng nhận dạng được Mã định danh không khớp với khuôn
mặt hoặc khuôn mặt không có trong CSDL (dự đoán sai) — Type I Error
- False Negative (FN): Số lượng không nhận dạng được Khuôn mặt có trong CSDL
(dự đoán sai) — Type II Error
Tir bốn chỉ số trên, tính toán được các chỉ số:
Trang 36Chương 3: Thực nghiệm và đánh giá
hàng (warehouse - building), với mỗi kho hàng sẽ nhóm các nhân viên theo các nhóm.
(group) riêng biệt Theo đó, hệ thống sẽ cho phép đăng ký và nhận dạng khuôn mặtcủa nhân viên trong kho hàng theo từng nhóm đã quy định Hệ thống đáp ứng việcnhận dạng khuôn mặt ngay cả khi đang đeo khẩu trang với tốc độ nhận dạng nhanhchóng Hệ sinh thái ứng dụng bao gồm: API cho việc tích hợp với các hệ thống phầnmềm khác trong kho hàng; ứng dụng thử nghiệm ngay tại server; ứng dụng thửnghiệm trên nền web; ứng dụng thử nghiệm trên NVIDIA Jetson Nano Dev Kit Tiến
hành phân tích các yêu cầu và chức năng của ứng dụng, thiết kế các thành phần xử lý
tương ứng và thực nghiệm bộ dữ liệu khuôn mặt với API đã xây dựng, đánh giá kết
quả từ giải pháp.
3.1 XÂY DỰNG DỮ LIỆU CHO HỆ THÓNG NHẬN DẠNG
Đôi với hệ thông châm công hiện tại băng nhận dạng khuôn mặt tại RW, nhân
viên đăng ký lần đầu với thiết bị di động với bốn ảnh chụp khuôn mặt Trong điềukiện thiếu sáng và góc chụp không hoàn hảo (hình 3 I.a) cùng dữ liệu khuôn mặt củamột nhân viên rất ít (đa dạng dữ liệu thấp) dẫn đến việc chấm công gặp sai sót và đôikhi không thé chấm công được Với vấn đề này, buộc nhân viên phải thao tác bằngtay, nhập mã nhân viên và mật khẩu trên phần mềm tablet chấm công chung dé xácthực Điều này dẫn đến việc chờ đợi của những nhân viên khác, ảnh hưởng đến côngviệc và hiệu suất hoạt động của doanh nghiệp Trong tình hình dịch bệnh, các loạivirus lây qua đường hô hap, tiếp xúc gan, việc thao tác bằng tay cần hạn chế và loại
bỏ, việc chấm công nhân viên ngay cả khi đang đeo khẩu trang là điều cần thiết
24
Trang 37Chương 3: Thực nghiệm và đánh giá
Với đặc trưng dữ liệu hình ảnh khuôn mặt có hoặc không có khẩu trang của
nhân viên kho hàng như: góc chụp, thiếu sáng, khoảng cách thu hình khá xa và số
lượng hạn chế dữ liệu khuôn mặt đăng ký, hệ thống chấm công không khả thi với
khẩu trang, việc thu thập thêm khuôn mặt của nhân viên gặp khó khăn, việc xây dựng
dit liệu cho hệ thống nhận dạng khuôn mặt có khẩu trang được tập trung vào các van
để sau:
+ Tăng cường sự đa dạng hóa dữ liệu đăng ký vào hệ thống: Ánh sáng, mau sắc, các
yếu tố gây nhiễu, mờ,
+ Tăng cường dữ liệu khuôn mặt có khẩu trang đăng ký vào hệ thống
+ Tổng hợp dữ liệu khuôn mặt các nhân viên RW phục vụ kiểm thử hệ thống
+ Gan khẩu trang cho bộ dữ liệu đã tổng hợp, phục vụ kiểm tra khả năng nhận dạngvới khẩu trang
Hiện tại, việc đăng ký khuôn mặt vào hệ thống tại RW được thực hiện với sự
hỗ trợ của phần mềm trên thiết bị di động như máy tính bảng, điện thoại Do đó nhânviên mới có thê tự chủ động, đăng nhập tài khoản nhân viên và khởi tạo chấm công,
bằng việc chụp bốn hình ảnh khuôn mặt Tuy nhiên, vấn đề các ảnh chụp có sự chênh
lệch về độ phân giải (các thiết bị di động khác nhau), góc chụp, biểu cảm và hình thái
khuôn mặt do không có quy cách đăng ký dẫn đến sự khác biệt khi đưa vào hệ thống.nhận dạng, điều kiện chiếu sáng cũng là vấn đề với ảnh chụp Trên tỉnh thần vẫn sử
35
Trang 38Chương 3: Thực nghiệm và đánh giá
dụng những dữ liệu đăng ký khuôn mặt này ở hệ thống đang vận hành, áp dụng cho
đề tài luận văn Những dữ liệu khuôn mặt mới đăng ký vào hệ thống luôn khuyến
khích phải có tiêu chuẩn phù hợp về độ phân giải, góc chụp, hình thái khuôn mặt ở
mức bình thường,
Sử dụng các thư viện tăng cường như Imgaug, Albumentation đề thay đổi về
chất lượng ảnh, thêm nhiễu, mờ, ánh sáng, dé làm da dạng hóa nguồn dữ liệu đăng
ký của mỗi khuôn mặt Cùng với đó là khuôn mặt được gán khẩu trang, che khuất
phần mũi trở xuống Các thao tác trên được thực hiện tự động sau khi đã hoàn thành
đăng ký khuôn mặt với bốn bức hình
Dữ liệu khuôn mặt các nhân viên RW, phục vụ kiểm thử hệ thông, được tổng
hợp thông qua việc truy xuất các kết quả nhận dạng khuôn mặt chấm công của hệ
thống hiện tại của RW Sau đó, sẽ gán tự động khẩu trang vào các khuôn mặt nàybằng chương trình tự động Khuôn mặt sẽ được phát hiện bởi Retinaface, tìm ra được
năm điểm đặc trưng trên khuôn mặt, sau đó gan khẩu trang theo tọa độ của mũi, miệng.
Xem minh họa hình 3.1.b
Hình 3.1.b: Hình ảnh được tạo tự động với sự thay đổi tiêu biểu về độ sáng, làm mờ, thêm
nhiễu, thêm khẩu trang
Tập dữ liệu “Regal staff face” (RSF) được xây dựng và tổng hợp từ khuôn mặt của
342 nhân viên Regal Logistic với 65,048 ảnh phân chia thành hai thư mục lớn gồm:
“DataEnroll” va “DataCheckin” Với thư mục “DataEnroll” chứa 1,490 ảnh khuôn
mặt không mang khẩu trang và 1,490 ảnh khuôn mặt mang khẩu trang của 342 nhân
viên với các mã định danh tương ứng Thư mục “DataCheckin” chứa 31,034 ảnh
khuôn mặt không mang khẩu trang và 31,034 ảnh khuôn mặt mang khẩu trang của
342 nhân viên trong suốt quá trình cham công bằng máy tính bảng, thiết bị di động
26