Luận văn thạc sĩ Khoa học máy tính: Ứng dụng nhận dạng khuôn mặt có khẩu trang cho nhân viên kho hàng

Kiến trúc mô hình dé xuất của Walid Hariri 6Hình 2.1.a Anh khuôn mặt tiêu chuẩn theo ISO/IEC 19794-5 11Hình 2.1.b Một số phép biến đổi trên ảnh bởi imgaug 12Hình 2.1.c Ảnh màu có khuôn m

Trang 1

ĐẠI HỌC QUÓC GIA TP.HÒ CHÍ MINHTRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

PHẠM ĐỨC DUY

UNG DỤNG NHAN DẠNG KHUÔN MAT

CÓ KHẨU TRANG CHO NHÂN VIÊN KHO HÀNG

LUẬN VĂN THẠC SĨ

NGÀNH KHOA HỌC MÁY TÍNH

Mã ngành: 8.48.01.01

NGƯỜI HƯỚNG DẪN KHOA HỌC:

TS LÊ MINH HUNG

TP.HO CHÍ MINH - NĂM 2022

Trang 2

LỜI CẢM ƠN

Đầu tiên, em xin gửi lời cảm ơn đến quý thầy cô trường Đại học Công nghệ thông tin

đã truyền đạt những kiến thức chuyên môn cho em trong suốt quá trình học tập tại

trường, đó là những nền tảng kiến thức vững chắc cho em tiếp cận và tiến xa hơntrong lĩnh vực chuyên môn của mình Em kính chúc quý thầy cô dồi dao sức khỏe,

đạt được nhiều thành tựu và luôn là niềm cảm hứng học thuật cho thế hệ học viên tiếp

theo.

Em xin bày tỏ lòng biết ơn chân thành đến Tiến sĩ Lê Minh Hưng, người thầy đã dẫndắt cho em đến với dé tài Thầy đã tận tâm, nhiệt tinh hướng dẫn và tạo mọi điều kiệnthuận lợi để em hoàn thành tốt đề tài luận văn

Con xin gửi lời cảm ơn sâu sắc, sự kính trọng đến cha mẹ đã nuôi đạy, luôn ủng hộ,

động viên con vượt qua mọi khó khăn Lời cảm ơn đến người anh cả đã luôn là niềm

tự hào và nguồn cảm hứng, động lực để phấn đấu không ngừng trong học tập

Xin cảm ơn tất cả bạn bè đã chia sẻ, động giúp đỡ và hỗ trợ kiểm thử, đưa ranhững lời nhận xét khách quan, hữu ích dé đề tài được hoàn thiện hơn

Luận văn đã hoàn thành và đạt được kết quả nhất định tuy nhiên vẫn không tránh khỏithiếu sót Kính mong sự cảm thông và đóng góp ý kiến từ quý thầy cô

Tp Hồ Chí Minh, ngày 30 tháng 06 năm 2022

Học viên th

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn thạc sĩ về đề tài: “Ứng dụng nhận dạng khuôn mặt có khâu

trang cho nhân viên kho hàng” là công trình nghiên cứu cá nhân của tôi trong thời

gian qua Mọi nội dung trong luận văn chưa được công bố dưới bat kỳ hình thức nào

Tôi xin chịu hoàn toàn trách nhiệm nếu có sự không trung thực trong luận văn.

Tp Hồ Chí Minh, ngày 30 tháng 06 năm 2022

Học viên thực hiện

Phạm Đức Duy

Trang 4

LỜI CẢM ƠN

LỜI CAM ĐOAN.

MỤC LỤC

DANH MỤC CAC KY HIỆU VA CHỮ VIET TAT

DANH MỤC CAC BANG

DANH MỤC CÁC HINH VE, DO THI.

MO DAU.

CHƯƠNG 1 GIỚI THIEU TONG QUAN VE ĐÈ TÀI.

1.1 TONG QUAN GIẢI PHÁP NHAN DẠNG KHUÔN MAT

1.1.1 Vấn đề về hệ thống nhận dạng khuôn mặt hiện tại của Regal Warehouse 1.1.2 Một số nghiên cứu nỗi bật về nhận dang khuôn mặt có khẩu trang

1.2 PHẠM VI VÀ MỤC TIÊU CỦA ĐÈ TÀI

1.3 PHƯƠNG PHÁP NGHIÊN CỨU

1.4 NỘI DUNG THỰC HIỆN

CHƯƠNG 2 CƠ SỞ LÝ THUYÉT.

2.1 DU LIEU ANH TRONG NHAN DẠNG KHUÔN MAT.

2.2 PHUONG PHAP PHAT HIEN KHUON MAT TRONG ANH

2.3 PHUONG PHAP DẠNG KHUÔN MA’

2.4 ĐÁNH GIA HE THONG NHẬN DẠNG KHUÔN MAT

CHƯƠNG 3 THỰC NGHIỆM VÀ ĐÁNH GI/

3.1 XÂY DỰNG DỮ LIỆU CHO HỆ THÓNG NHẬN DẠNG

3.2 MÔ HÌNH NHAN DẠNG KHUÔN MAT

3.2.1 Chức năng đăng ký khuôn mit (Training)

3.2.2 Chức năng nhận dạng khuôn mặt (Prediction)

3.3 PHẠM VI, MỤC TIÊU ỨNG DỤNG NHẬN DẠNG CÓ KHẢU TRANG

Trang 5

4.3 DONG GOP TU DE TAL

4.4 HUONG PHAT TRIEN DE TÀI

TÀI LIEU THAM KHAO

Trang 6

: Application Programming Interface

: Internet of things (Internet Van Vat)

: Convolutional Neural Networks

: Cơ sở di liệu : Layer Swapping

: Region of Interest (Vùng quan tâm)

Trang 7

DANH MỤC CÁC BẢNG

Số hiệu bang Tén bang TrangBảng 3.5.2.a Kết quả nhận dang có khẩu trang với nhân viên RW 44Bang 3.5.2.b Cac chỉ số đánh giá hiệu quả mô hình 44

vi

Trang 8

DANH MỤC CÁC HÌNH VẼ, ĐÒ THỊ

Số hiệu Tén hình vẽ TrangHình I.1.2.a Kiến trúc mô hình DeepMasknet 4Hình 1.1.2.5 Khuôn mặt được loại bỏ vùng chứa khẩu trang 6Hình 1.1.2 Kiến trúc mô hình dé xuất của Walid Hariri 6Hình 2.1.a Anh khuôn mặt tiêu chuẩn theo ISO/IEC 19794-5 11Hình 2.1.b Một số phép biến đổi trên ảnh bởi imgaug 12Hình 2.1.c Ảnh màu có khuôn mặt trước va sau khi gán khẩu trang 14Hình 2.1.d Ảnh hình họa thực nghiệm với FreezeSG và LS 15Hinh2.1.e Ảnh hình họa thực nghiệm với hai cặp FreezeSG với LS 15

va StructureLoss với LS

Hình 2.2.a Mô hình phát hiện khuôn mặt bang Retinaface 16Hình 2.2.b Hình anh đã được đánh dấu các điểm mốc bởi Retinaface 16Hình 2.2.c Retinaface thuộc nhóm single-stage đề xuất để xác định đa 17

vị trí khuôn mặt

Hình 2.3.a Huấn luyện một DCNN dé nhận dạng khuôn mặt được 21

giám sát boi ArcFace loss

Hình 2.3.b Encode anh thành vector đặc trưng 21

Hình 2.3.c Kết quả xác thực từ DeepFace khi sử dụng VGG-Face và 2

tính khoảng cách bằng hàm cosine

Hình 2.4 Hình ảnh mô tả Confusion Matrix 23

Hình 3.I.a Hình ảnh một số nhân viên RW 25Hình 3.1.b Hình ảnh được tao tự động với sự thay đôi tiêu biểu về độ 26

sáng, làm mờ, thêm nhiễu, thêm khẩu trang

Hình 3.I.c Tập dữ liệu RSF với 342 nhân viên 27

vii

Trang 9

Tập dữ liệu RSF với 342 nhân viên lưu trữ trên ô đĩa

Mô hình huấn luyện khuôn mặt

Quy trình đăng ký khuôn mặt

Mô hình xác định danh tính khuôn mặt

Quy trình nhận dạng khuôn mặt

Hệ thống nhận dạng khuôn mặt có khẩu trang

Nhận dạng khuôn mặt trên nên tảng DesktopNhận dạng khuôn mặt trên nền tảng WebKhuôn mặt không nằm trong vùng nhận dạngGiao diện web API đầy đủ tính nang cần thiết

Màn hình đăng nhập trang quản trị Building, Group Màn hình quản lý với menu tùy chọn

Màn hình quản lý thông tin Building

Màn hình quản lý thông tin Group

Màn hình quan lý dữ liệu thao tác trên Mysql workbench

Thu mục lưu trữ trên 6 đĩa ứng với từng Building/Group

Dữ liệu hình ảnh lưu trữ trên ô đĩa ứng với từng nhân viên

Milvus lưu trữ 2592 vector đặc trưng của 342 người

viii

27

28 30

30

32

34 37

38

39

40 40

4I

4I 42 42 42 43

Trang 10

MỞ ĐÀU

Trong thời kỳ đại dich Coronavirus disease 2019 (COVID-19), deo khẩu trang

là điều kiện bắt buộc đề phòng tránh lây nhiễm Đến nay, năm 2022, diễn biến bệnh

dịch tuy có suy giảm, ít lây lan nhưng các doanh nghiệp, tổ chức vẫn luôn khuyếncáo đeo khâu trang khi hoạt động nơi đông người Điều này đặt ra thách thức không

nhỏ đối với việc nhận dạng khuôn mặt, phục vụ cho các công tác định danh, chấm

công, Các hệ thống nhận dạng khuôn mặt trước kỳ đại dịch chưa quan tâm nhiều

đến yếu tô khuôn mặt của một người đang đeo khẩu trang, yêu cầu người dùng phảixác thực khuôn mặt không bị che khuất bởi bắt kì vật thé nào, bao gồm khẩu trang

Theo nghiên cứu của National Institute of Standards and Technology, trước kỳ đại

dịch, các thuật toán nhận dạng khuôn mặt đã không thê xác định được 20-50% hình

ảnh của những người đeo khẩu trang [1] Với năm 2019, việc gỡ bỏ khâu trang bằngtay xác thực khuôn mặt là nguy cơ dẫn đến tăng cao khả năng xâm nhập từ Virus Décải thiện hệ thống nhận dạng khuôn mặt thông thường và nâng cao độ chính xác, việcứng dụng các mô hình và thuật toán tiên tiến là sự cần thiết, điều này sẽ đem lại kết

quả rõ rệt trong việc phòng chống lây nhiễm virus diện rộng

Công ty Regal Logistics là một công ty cung ca các dịch vụ logistic theo hợp

đồng, vận hành và quản lý các nhà kho Regal Warehouse là một trong những kho

hàng đang sử dụng hệ thống khuôn mặt truyền thống, ứng dụng nhận dạng khuôn mặtmắt từ 10 giây đến 20 giây cho việc xác thực một nhân viên, chỉ phí thuê dich vụnhận dạng khuôn mặt tốn kém và khó có thé tích hợp với các hệ thống khác trong hệsinh thái phần mềm của công ty Sử dụng hệ thống nhận dang trong công tác chamcông, nhân viên được yêu cầu phải hạ khẩu trang để xác thực Quy mô nhân sự có

100 nhân viên khối văn phòng và 1000 nhân viên phục vụ kho, làm việc trong cácnhà kho mang số hiệu “6400”, “6500”, “6501”, “6510”, “6546”, “7450” Trung bìnhmột ngày, mỗi nhân viên sử dụng hệ thống nhận dạng từ 4 đến 6 lần, tổng số tác vụ

xử lý khuôn mặt từ 4000 tác vụ đến 6000 tác vụ Các thời điểm tăng mạnh nhu cầu

sử dụng cùng lúc như: Nhập ca, tan ca, nghỉ trưa, gây nghẽn hệ thống Cho thấy hệthống nhận dạng hiện tại đang gây bat cập cho doanh nghiệp, thêm vào khả năng lây

nhiém virus cao.

Trang 11

Xuất phát từ vấn đề thực tế, mong muốn đề xuất giải pháp nhận dạng khuôn

mặt mới, xây dựng một ứng dụng cải thiện hiệu suất, cắt giảm chỉ phí hoạt động

doanh nghiệp và tăng tính an toàn trong thời kỳ đại dịch Dé tt Ứng dụng nhận

dạng khuôn mặt có khẩu trang cho nhân viên kho hàng” đã đưa ra giải pháp giải quyếtnhu cầu doanh nghiệp bằng việc ứng dụng các kỹ thuật, thành quả nghiên cứu sẵn có

từ các Học giả dé giải quyết bài toán cụ thể mang tính ứng dụng cao Kết quả đề tài

có khả năng tích hợp vào các hệ thống truy cập quản lý kho hàng, chấm công, ứng

dụng di động nghiệp vụ kho hàng.

Đóng góp từ kết quả nghiên cứu, triển khai của đề tài:

~ Trình bày phương pháp tăng cường dữ liệu khuôn mặt dạng hình ảnh bị hạn

chế về số lượng, chất lượng độ phân giải, thông qua xử lý ảnh và sử dụng mô hình có

khả năng cải thiện độ phân giải Ảnh được tạo ra giải quyết được vấn đề hình ảnh đầu

vào đặc thù trong môi trường kho hàng và cải thiện được độ chính xác khi nhận dạng

nhân viên trong kho.

- Bằng việc tìm hiéu, tham khảo và tông hợp, luận văn đã cung cấp thông tin,

giới thiệu một số phương pháp đã triển khai thành công trong việc phát hiện và định

danh một người đang đeo khẩu trang Là nguồn chia sẻ học thuật, cơ sở để ứng dụng

và đề xuất các mô hình cải tiền cho ứng dụng

- Thông qua kết quả để tài, một mô hình xử lý đề xuất đề giải quyết bài toán

có tích hợp các kỹ thuật trong lĩnh vực IoTs, kỹ nghệ phần mềm, xử lý ảnh và thị giácmáy tính mang tính ứng dụng, dễ dàng triển khai và mở rộng Minh chứng tính khảthi khi áp dụng, triển khai mô hình này

Nội dung của luận văn được trình bày trong 4 chương, bao gồm:

Chương | giới thiệu tổng quan về đề tài bao gồm các khảo sát, tìm hiểu một

số mô hình, bài toán, ứng dụng đã triển khai trong việc nhận dạng khuôn mặt ngay cả

khi đang đeo khẩu trang Theo đó, trình bảy mục tiêu cụ thể, phương pháp tiếp cận

giải quyết vấn đề và nội dung thực hiện của luận văn

Chương 2 trình bày cơ sở lý thuyết của đề tài liên quan đến vấn đề cải thiện sốlượng, chất lượng hình ảnh, phương pháp xác định vị trí khuôn mặt trong khung hình,

phương pháp xác thực khuôn mặt và phương pháp đánh giá hiệu quả mô hình.

Trang 12

Chương 3 trình bày quá trình thực nghiệm các phương pháp giải quyết vấn đề

về dữ liệu khuôn mặt đặc trưng trong kho hàng với phạm vi đề tài Trình bày mô hình

xây dựng cho hệ thống nhận dạng khuôn mặt có khẩu trang cho nhân viên kho hàng

Sau đó, cài đặt thử nghiệm ứng dụng nhận dạng khuôn mặt có khẩu trang cho nhânviên kho hàng Ung dụng có chức năng phân quyền quản lý sử dụng cho từng kho.hàng (warehouse - building), với mỗi kho hàng sẽ nhóm các nhân viên theo các nhóm(group) riêng biệt Theo đó, hệ thông sẽ cho phép đăng ký và nhận dạng khuôn mặtcủa nhân viên trong kho hàng theo từng nhóm đã quy định Hệ thống đáp ứng việcnhận dạng khuôn mặt ngay cả khi đang đeo khẩu trang với tốc độ nhận đạng nhanhchóng Hệ sinh thái ứng dụng bao gồm: API cho việc tích hợp với các hệ thông phan

mềm khác trong kho hàng; ứng dụng thử nghiệm ngay tại server; ứng dụng thử

nghiệm trên nền web; ứng dụng thử nghiệm trên NVIDIA Jetson Nano Dev Kit Tiénhành phân tích các yêu cầu và chức năng của ứng dụng, thiết kế các thành phan xử lytương ứng và thực nghiệm bộ dữ liệu khuôn mặt với API đã xây dựng, đánh giá kết

quả từ giải pháp.

Chương 4 tông kết những kết quả đạt được, tóm tắt lại các vấn đề đã đặt ra và

cách giải quyết trong luận văn Những đóng góp định hướng ứng dụng, đề xuất vàhướng phát triển cho đề tài trong tương lai

xi

Trang 13

Chương 1: Giới thiệu tổng quan về đề tài

CHƯƠNG 1

GIỚI THIỆU TONG QUAN VE DE TÀI

Chương | giới thiệu tong quan về dé tài bao gồm các khảo sát, tìm hiểu một

số mô hình, bài toán, ứng dụng đã triển khai trong việc nhận dạng khuôn mặt ngay cảkhi đang đeo khẩu trang Theo đó, trình bày mục tiêu cụ thể, phương pháp tiếp cậngiải quyết vấn đề và nội dung thực hiện của luận văn

1.1 TONG QUAN GIẢI PHÁP NHAN DẠNG KHUÔN MAT

Sự bùng nổ rõ rệt các giải pháp giảm tiếp xúc hoặc hạn chế tiếp xúc gần hiệnnay giữa người với người và người với đồ vật, phần lớn thông qua tác động mạnh mẽcủa đại dịch COVID-19 Công nghệ sinh trắc học nhận dạng khuôn mặt là một trongcác giải pháp cho thấy được mức độ hiệu quả cao Công nghệ này đã được ứng dụngtrong nhiều lĩnh vực như: Y tế, tài chính ngân hàng, giáo dục, truyền thông, nhà hàngkhách sạn, Thể hiện qua các ứng dung hỗ trợ pháp y, hỗ trợ khiếm thị, giám sát anninh, nhận dạng khách hàng, điểm danh học sinh, quảng cáo thông minh, thanh toán

một cham, Cho thấy lợi ích thiết thực từ công nghệ nhận dạng khuôn mặt đối với

xã hội và đời sống Hiện nay, các nghiên cứu nhằm nâng cao hệ thống nhận dạngkhuôn mặt đã đạt bước tiến mới với việc xác thực khuôn mặt ba chiều chống giả mạo,khuôn mặt đang đeo khâu trang, xác thực với nửa khuôn mat, Nắm bat xu thé,nhiều đơn vị đã, đang nghiên cứu và triển khai, thương mại thành công các giải phápliên quan đến nhận dạng khuôn mặt, đáp ứng kịp thời và hiệu quả cho các cơ quan,

tổ chức mong muốn ứng dụng vào lĩnh vực của mình

Nhìn chung cơ chế hoạt động của công nghệ nhận dạng khuôn mặt cho phépnhận dạng một người cụ thể từ nguồn ảnh hoặc video Mô hình hoạt động sẽ trải quacác bước xử lý bóc tách khuôn mặt ra khỏi khung cảnh nền, xác định vị trí, khoảngcách các điểm trọng yếu tạo nên cấu trúc khuôn mặt (Facial landmark) của một người

như: Lông mày phải, lông mày trái, mắt phải, mắt trái, mũi, miệng, hàm, cằm Sau đó

tiến hành encoding ảnh hoặc frame hình (đối với video) thành vector embedding, cuối

cùng thực hiện phép so sánh giữa 2 vector với nhau đê xác định được khuôn mặt đó

là ai Đề tài đã dựa theo cơ chế hoạt động này để tìm kiếm mô hình phù hợp, xây

dựng giải pháp riêng biệt, có kết quả tương đối để hỗ trợ doanh nghiệp trong hoạt

Trang 14

động kinh doanh Chỉ tiết về cách thức và phương pháp xử lý cụ thé sẽ được trình bày

trong Chương 2 — Cơ sở lý thuyết

Sự đầu tư, phát triển thị giác máy tính nói chung, công nghệ nhận dạng khuôn

mặt nói riêng đã góp phần xây dựng nền kinh tế thông minh, áp dụng khoa học kỹthuật vào đời sống, thúc day sự phát triển khoa học - công nghệ và đổi mới sáng tao

trong quá trình day mạnh công nghiệp hóa, hiện đại hóa cho Việt Nam nói riêng Một

số kết quả nghiên cứu, giải pháp hoàn chỉnh về nhận dạng khuôn mặt đã thương mạihoặc được chia sẻ rộng rãi đến cộng đồng khoa học đạt được phản hồi tích cực

1.1.1 Vấn đề về hệ thống nhận dạng khuôn mặt hiện tại của Regal Warehouse

Microsoft Azure Face service là dịch vụ điện toán đám mây cung cấp các thuật

toán trí tuệ nhân tạo để phát hiện, nhận dạng và phân tích khuôn mặt của con ngườithông qua hình ảnh Dịch vụ hỗ trợ một số kịch bản sử dụng tiêu biểu như xác thựcdanh tính, kiểm soát truy cập vào ra và làm mờ khuôn mặt dé bảo mật danh tính Faceservice sử dụng các mô hình máy học (machine learning) để thực hiện các xử lý cho

khuôn mặt người trong hình ảnh [2] Microsoft đưa ra các lựa chọn model nhận dạng

phù hợp với nhu cầu của đơn vị tích hợp Hiện tại Azure Face service có 4 mô hìnhnhận dạng Trong đó 3 mô hình gồm recognition_01 (2017), recognition_02 (2019),

recognition_03 (2020) là các phiên bản đang được hỗ trợ tương thích với những ứng dung đã phân chia các khuôn mặt theo danh sách hoặc theo nhóm nhận dạng Mỗinhóm khuôn mặt sẽ được liên kết với một trong các mô hình một, hai hoặc ba và

không thể thay thế sự lựa chọn mô hình khi tạo thành công, ngoài ra ba mô hình nàykhông cho phép nhận dạng khuôn mặt khi đang đeo khẩu trang, độ chính xác khi nhận

dạng chưa tối ưu là những nhược diém của các mô hình này Đây là dịch vụ trên

Azure mà RW đang sử dụng cho ứng dụng chấm công Ngoài những nhược điểm kểtrên, ba phiên bản mô hình này và mô hình thứ 4 hỗ trợ thao tác với hình ảnh làm đầuvào dưới dang tệp tin ảnh hoặc đường dẫn liên kết (url) với định đạng cho phép làJPEG, PNG, GIF (frame hình đầu tiên), BMP, kích thước giới hạn chỉ 6MB, với video.hoặc video trực tuyến phần mềm bên thứ ba phải xử lý khung hình để chuyển về dingđịnh dạng yêu cầu, một số khuôn mặt không nhận dạng được khi ngược sáng, ánhsáng mạnh và chất lượng hình ảnh đưới mức trung bình Chỉ phí giấy phép sử dụngFace service cho 3 mô hình cũng là vấn đề với RW khi một ngày trung bình hệ thống

2

Trang 15

chấm công thực hiện 5000 tác vụ (bao gồm các lần chấm công trong buổi sáng, giải

lao sáng, buổi trưa, giải lao chiều, tan ca cho mỗi người) Với mỗi 1000 tác vụ sẽ tính

phi 1 USD và chưa bao gồm giấy phép sử dụng tài khoản Azure Bài toán chi phí

cũng được tính toán cho mô hình thứ tư được công bố năm 2021 - recognition_04,phiên bản này cải thiện nhiều về độ chính xác, cũng như đã giải quyết nhu cầu nhận

dạng khuôn mặt đang đeo khẩu trang (loại N95, chất liệu vải, khâu trang phau thuật)

Tuy nhiên đơn vị không có kế hoạch chuyển đồi sang sử dụng mô hình recognition_04.1.1.2 Một số nghiên cứu nỗi bật về nhận dạng khuôn mặt có khẩu trang

Trong bài báo khoa học, tác giả Naeem Ullah và các cộng sự [3] đã dé xuất

framework mới có khả năng phát hiện khâu trang và nhận dạng khuôn mặt bị

che khuất bởi khẩu trang với tên gọi DeepMasknet, giải quyết vấn đề nhận dạng

bởi các phương pháp cũ khi thiếu mắt các thông tin quan trọng của khuôn mặt nhưmũi, môi, cằm, má, DeepMasknet lay cảm hứng từ Alexnet cho bài toán nhận dangkhuôn mặt với độ chính xác cao hơn DeepMasknet được đề xuất dựa trên hai phương.pháp thu phóng mô hình Mang nơ-ron tích chập (CNNs) phổ biến nhất là thu phóngtheo chiều sâu (Depth Scaling) với mười lớp (layers) bao gồm sáu lớp convolutional

và bốn lớp fully connected Và thu phóng theo độ phân giải (Resolution scaling) với

tỉ lệ ảnh đầu vào có độ phân giải 256 x 256 cho kết quả nhận dạng có độ chính xác

cao Ngoài ra, các tác giả đề cập đến vấn đề về dữ liệu khuôn mặt, khi vẫn chưa cómột bộ dữ liệu thống nhát và đa dang dé có thê đánh giá kết quả phát hiện khẩu trang

và nhận dạng khuôn mặt có khẩu trang Bộ dit liệu Mask detection and Masked facialrecognition (MDMER) là kết quả của việc nỗ lực phát triển của các tác giả, MDMFR

có quy mô lớn và đa dạng về giới tính, chủng tộc, độ tuôi, loại khẩu trang, điều kiệnchiếu sáng, góc khuôn mặt, môi trường, định dạng, kích thước để đo lường hiệu suấtcác phương pháp phát hiện và nhận dạng khuôn mặt đang đeo khẩu trang một cáchhiệu quả MDMER có hai danh mục hình ảnh khuôn mặt chứa 3292 hình có khẩutrang và 2832 ảnh không có khẩu trang Dé sử dụng dữ liệu ảnh trong MDMER cho

mô hình Deepmasknet, các tác giả phải thay đổi kích thước ảnh đúng bằng 256 x 256pixels do đây là kích thước tiêu chuẩn đầu vào của Deepmasknet Hiệu suất của

Deepmasknet được đánh giá trên ba tập dữ liệu Kaggle (Facemask (Smansid, 2020), Facemask Detection Dataset 20,000 hình (Jain và Singaraju, 2020), và Facemask

3

Trang 16

Chương 1: Giới thiệu tổng quan về dé tài

dataset (Shah, 2020) cùng bộ dữ liệu MDMER Kết quả hiệu suất khi so sánh kết quả

nhận dạng khuôn mặt có khẩu trang với các mô hình hiện đại (state-of-the-art models)

đạt kết quả cao trên tập dữ liệu MDMER, tiêu biểu như độ chính xác của Deepmasknet

dat 93.33%, cao hơn 2,42% so với VGG-19, 9,13% so với Resnet- I8.

Conv Conv2 € Comd ComwS Cons

BNI BN2 ĐN4 BNS BNG

TRehl LReh2 L LReu LReuð — LReu6

mexpooll maxpool2 taxpool3 maxpocl4

Ngoài các nghiên cứu cải tiến mô hình, thuật toán, thì việc cung cấp, tổng hợp

và tăng cường dữ liệu cung cấp cho các mô hình có sẵn là hướng tiếp cận khả quan,đặc biệt phù hợp cho các phương pháp, mô hình nhận dạng khuôn mặt thiết kế dựa

trên học sâu, hầu hết phụ thuộc vào số lượng và chất lượng bộ dit liệu Công trình

khoa học của tác giả Zhongyuan Wang và các cộng sự [4] là một đóng góp đáng ghi

nhận, khi đề tài đã đề xuất ba loại tập dữ liệu khuôn mặt có khẩu trang cho bài toán

nhận dạng, bao gồm bộ dữ liệu: Masked Face Detection Dataset (MFDD), Real-world

Masked Face Recognition Dataset (RMFRD) va Simulated Masked Face Recognition

Dataset (SMFRD) Trong đó, ở thời diém công bố, tác giả nhận định RMERD là tập

di liệu có khuôn mặt đeo khẩu trang trong thế giới thực lớn nhất thé giới Các bộ dữ

liệu này được chia sẻ miễn phí cho cộng đồng MFDD chứa hai phần chính: Tổng

hợp từ các nhà nghiên cứu khác, phan còn lại thu thập từ nguồn internet Tập dữ liệuchứa 24,771 ảnh khuôn mặt có khẩu trang, được nhóm tác giả gán nhãn, xác định vịtrí khẩu trang trên khuôn mặt MFDD được sử dung để thực hiện huấn luyện, đào tạo

mô hình phục vụ bài toán phát hiện khẩu trang RMFRD được xây dựng từ việc thu

thập ảnh trên internet bởi công cụ crawler và chọn lọc những hình ảnh đạt tiêu chuân

Trang 17

với nội dung ảnh là khuôn mặt trực diện của người nổi tiếng, cùng khuôn mặt đang

đeo khẩu trang của họ Sau đó thực hiện gán nhãn dữ liệu bằng công cụ Labellmg và

LabelMe Kết quả RMERD chứa 5,000 ảnh của 525 người nỗ ng đang đeo khẩu

trang và 90,000 ảnh tương ứng của họ khi không đeo khẩu trang SMFRD được xâydựng với việc sử dụng thư viện Dlib làm dồi dào số lượng dữ liệu khuôn mặt deo

khẩu trang, thư viện đã hỗ trợ thao tác gán khâu trang tự động trên khuôn mặt trong

các bộ dữ liệu khuôn mặt có sẵn, tiêu biéu như bộ dữ liệu LFW va Webface Kết quảmột tập dữ liệu chứa 500,000 hình ảnh khuôn mặt có đeo khẩu trang được giả lậpthêm vào bởi Dlib của 10,000 đối tượng Tổng hợp kết quả từ nhóm tác giả, đề tài đãđóng góp rất lớn khi cải thiện được độ chính xác nhận dạng khuôn mặt có khẩu trang

từ 50% lên đến 95% cho các mô hình học sâu phục vụ bài toán nhận dạng khuôn mặt

Công trình tiếp theo của tác giả Walid Hariri [5] đề cập đến một trong cácthách thức của thị giác máy tính là “occlusion — che khuất” Cụ thể trong bài toánnhận dạng khuôn mặt với định dạng hai chiều Occlusion xảy ra khi khuôn mặt bị chekhuất một phan bởi việc mang nón, đeo mắt kính, mang khẩu trang hoặc bat cứ vật

thể nào khác, dẫn đến khó khăn trong nhận dạng Đối với khuôn mặt có khẩu trang là

thách thức lớn nhất khi thực hiện nhận dạng vì phần lớn khuôn mặt bị che khuất Cónhiều cách tiếp cận dé giải quyết vấn dé này, mà tác giả chia thành 3 nhóm chính:

Local matching approach, Restoration approach và Occlusion removal approach.

Nhóm Occlusion removal approach được chú ý nhiều hơn khi phương thức hoạt động

chủ yếu từ việc phát hiện những vùng được cho làm xảy ra tình trạng occlusion với

khuôn mặt Sau đó, những vùng này bị loại bỏ hoàn toàn trong quá trình trích xuất

đặc trưng và phân loại Segmentation là phương thức hữu hiệu cho việc phát hiện

vùng bị che khuất Lấy cảm hứng từ hiệu suất cao của CNNs vốn được xem là cách

tiếp cận phô biến cho nhận dạng khuôn mặt, tác giả đã đề xuất một phương pháp hiệu

quả dựa trên Occlusion removal và các tính năng học sâu Bước đầu của phương pháp

là loại bỏ vùng bị che khuất bởi khẩu trang, sau đó sử dụng ba pre-trained model làVGG-16, AlexNet, va ResNet-50 để trích xuất đặc trưng các vùng còn lại của khuônmặt (chủ yếu ở vùng trán và mat)

Trang 18

Reglon of

= interest c-

Hình 1.1.2.b: Khuôn mặt được loại bỏ vùng chứa khẩu trang [5]

Áp dụng một trong các phương pháp rút trích đặc trưng tiên tiến là mô hình

Bag-of-features (BoF hoặc bag-of-visual-words — mô hình túi từ) cho các feature map của

lớp tích chập cuối cùng dé tăng tốc thời gian xử lý của ba mô hình trên mà vẫn dam

bảo độ chính xác và đạt được sự tối ưu so với lớp Fully Connected của CNN cổ điền

Cuối cùng áp dụng theo mô hình mạng Multilayer Perceptron cho quá trình phân loại

Sau các bước, sẽ thu được kết quả gần giống nhất với ảnh đã định nghĩa trong CSDL

Dé đánh giá phương pháp đã đề xuất, tác giả sử dụng hai bộ dữ liệu RMFRD vàSMERD của Zhongyuan Wang và cộng sự Kết quả về độ chính xác nhận dạng trên

tập dữ liệu RMFRD đạt 91.3%, đạt 88.9% trên tập dữ liệu SMFRD

Deep features extraction Feature vectors extraction Quantization

from feature maps Layer

x3 sized Global MIP

Region of Feature maps histogram classifier Interest

n sized Feature vectors Layer

Hình 1.1.2.c: Kiến trúc mô hình đề xuất của Walid Hariri [5]

Vé mặt ứng dụng, ngoài những nghiên cứu khoa học trên, một số thư viện, hệ

thống nhận dạng khuôn mặt khi đang đeo khẩu trang hoặc mắt kính nổi bật được

thương mại dé bên thứ ba tích hợp như: Bộ ROC SDK 2.0 của công ty Rank One

Computing; Bộ Visage SDK của công ty Visage Technologies, Các công trình

nghiên cứu đã trình bày là nguồn cảm hứng và tham khảo khoa học đề khóa luận cóthể ứng dụng, thiết kế mô hình xử lý giải quyết bài toán, mục tiêu mong muốn

Trang 19

1.2 PHẠM VI VÀ MỤC TIÊU CỦA ĐÈ TÀI

Ứng dụng được triển khai với quy mô nội bộ doanh nghiệp Bài toán và ứngdụng được tập trung trong việc xác thực khuôn mặt có khẩu trang Luận văn tập trung

xây dựng bộ dữ liệu khuôn mặt của 342 nhân viên đang làm việc tại tòa nhà “6500” Với 342 nhân viên đang làm việc, trong đó có khoảng 30% nhân viên thời vụ trong 3

— 6 tháng, mỗi nhân viên ký mới hoặc tái ký hợp đồng làm việc sẽ phải đăng ký lại

khuôn mặt theo định dạng và mẫu yêu cầu, hoặc yêu cầu đăng ký lại khuôn mặt khi

có thông báo từ nhân sự Do đó dữ liệu khuôn mặt ít bị ảnh hưởng bởi các yếu tố gâynhiễu khác như: khuôn mặt thiếu sáng, thay đổi kiểu tóc, trang điểm, lý do tuổitác/thời gian, che nửa mặt Luận văn này không tập trung giải quyết với những dữ

liệu gây nhiễu trên Về dữ liệu đầu vào cho mô hình xử lý, để tài chấp nhận dữ liệu

với các định dang phổ biến của một đoạn video, tệp hình ảnh hoặc live video có chứakhuôn mặt người trong một khung hình đang đeo hoặc không có khẩu trang từ nguồncamera IP hoặc camera trên thiết bị di động, đối với một khung hình chứa nhiềukhuôn mặt, bộ nhận dạng sẽ phát hiện và nhận dạng khuôn mặt có khoảng cách gần

với camera thu hình nhất Luận văn không giải quyết trường hợp làm giả khuôn mặt

tuy nhiên vẫn sẽ đưa ra phương án khắc phục trong phần cuối chương Bộ dữ liệuhuấn luyện và kiểm thử trong luận văn là bộ dữ liệu tự xây dựng với hai tập có khẩu

trang và không có khâu trang Phạm vi kết quả sẽ là hình ảnh người cần nhận dang

trùng khớp với dữ liệu khuôn mặt đã đăng ký, chuỗi kết quả định dang JSON và các

thông số trả về khác Các thao tác xử lý và hiền thị kết qua thông qua các ứng dung

dưới dạng console, desktop, nền tảng web/API Vận hành và kiểm chứng trên máytính phục vụ demo, thiết bị đi động và NVIDIA Jetson Nano Dev Kit (sử dụng phiên

bản desktop).

Việc nghiên cứu và xây dựng hệ thống nhận dạng khuôn mặt có khẩu trang

được xác định với các mục tiêu sau:

-Giải quyết được các thách thức: Hạn ché về dữ liệu khuôn mặt của một người(đối với nhân viên dang làm việc tại RW); Tốc độ xử lý nhận dạng; Độ chínhxác của kết quả nhận dạng đạt tỷ lệ cao; Khả năng tích hợp linh hoạt với các

bài toán, ứng dụng khác.

- Ung dung mô hình hoc sâu để nhận dang khuôn mặt khi deo khẩu trang

Trang 20

- Xây dựng được bộ dữ liệu khuôn mặt có và không có khâu trang của nhân

viên kho hàng Do mỗi nhân viên chỉ cung cấp bồn hình ảnh khuôn mặt (không

đeo khẩu trang) dé đăng ký vào hệ thống chấm công

- Thực thi mô hình hoạt động, xử lý của ứng dụng đáp ứng được với tập dữ

liệu đã chuẩn bị và dữ liệu phát sinh trong quá trình bảo vệ luận văn

1.3 PHƯƠNG PHÁP NGHIÊN CỨU

Xuất phát từ nhu cầu thực tiễn, tìm hiểu và nghiên cứu các phương pháp và kỹthuật hiện có, trên cơ sở đó tìm ra cách vận dụng, áp dụng tư tưởng và ý tưởng để xây

dựng được mô hình xử lý phù hợp, đáp ứng với mục tiêu đã đặt ra đang hướng tới

của luận văn Thông qua đó, đóng góp được phương pháp, cách thức giải quyết vấn

đề theo hướng mới về mặt xử lý, và kỹ thuật Một số phương pháp, kỹ thuật tiêu biểuđược áp dụng, triển khai liên quan đến đề tài như:

- Phương pháp kết hợp phong cách dựa trên mô hình StyleGAN2 cho ra chấtlượng ảnh có độ phân giải tốt Phục vụ quá trình thử nghiệm, đánh giá

- Phương pháp xử lý ảnh: Trích xuất frame hình từ video, phân tách khuônmặt với nội dung nên trong ảnh, thu nhỏ tỉ lệ hình ảnh đúng với kích thướccho phép của mô hình áp dụng Sử dụng các thư viện xử lý ảnh dé gán tự độngkhẩu trang lên khuôn mặt, phục vụ tăng cường dữ liệu cho hình ảnh khuôn mặt

đăng ký vào CSDL.

- Phương pháp kết hợp xử lý với các mô hình phát hiện khuôn mặt (Retinaface),

nhận dạng khuôn mặt, so khớp dữ liệu (Arcface).

- Kỹ thuật thao tác với CSDL: CSDL ứng dụng và CSDL vector, file

server.

- Kỹ thuật xây dựng phần mềm: Xây dựng ứng dụng thử nghiệm, API,

1.4 NỘI DUNG THỰC HIỆN

Đề tài thực hiện một số nội dung chính nhằm đạt được kết quả, mục tiêu đã đề ra:

- Tìm hiểu về bài toán nhận dạng danh tính của nhân viên kho hàng công ty RegalLogistics bằng việc đề xuất mô hình học sâu cho nhận dạng khuôn mặt

- Nghiên cứu, khảo sát, phân tích và thực nghiệm các thuật toán, phương pháp, ky

thuật liên quan.

Trang 21

- Xây dựng, tông hợp bộ dữ liệu khuôn mặt nhân viên RW không và có đeo khâu

trang, cùng bộ dữ liệu khuôn mặt phục vụ kiểm thử Mỗi dữ liệu ảnh hoặc khung hình

video chỉ chứa duy nhất một khuôn mặt trực diện, không bị che khuất bởi khẩu trang,

mắt kính mát, độ phân giải hình ảnh đầu vào từ 96dpi trở lên, độ phân giải video đầu

vào đạt 720p hoặc 1080p.

- Thử nghiệm xử lý dữ liệu khuôn mặt đặc trưng hiện tại của nhân viên kho hàng (ảnh

thiếu sáng, chất lượng thấp, bị nhòe) bằng cách tiếp cận ứng dụng của mô hình

Generative Adversatial Network (GAN) - thuộc nhóm Generative model, một

framework tạo sinh dữ liệu bằng phương pháp học không giám sát thông qua quátrình đối nghịch, training đồng thời hai mô hình mạng neural luôn đối nghịch nhau là

Generative model và Discriminative model [6] Áp dụng kết quả nghiên cứu về GAN

thông qua mô hình StyleGAN2 - là mạng đối thủ chung được xây dựng dựa trênStyleGAN [7], một thiết kế thay thế trong việc giải quyết các vấn đề xảy ra trong việc

sử dụng tính năng tăng trưởng liên tục với mục đích 6n định quá trình đào tạo có độphân giải cao [8] StyleGAN tạo ra các phiên bản hình ảnh khuôn mặt đạt chất lượng

cao hon so với Traditional GAN StyleGAN2 cải thiện những thiếu sót của phiên bản

trước [9] Sử dụng StyleGAN2 cho ra ảnh chất lượng cao và đa dang về phong cách,mong muốn hình ảnh khuôn mặt cần xác thực có chất lượng tốt, tăng độ chính xáccủa kết quả nhận dạng

- Xây dựng mô hình hoạt động cho ứng dụng nhận dạng, sử dụng một bộ phát hiện khuôn mặt single-stage face detector — RetinaFace, xác định được các góc cạnh, cũng.

như các điểm như mắt, mũi miệng RetinaFace thể hiện dưới dang pixel của khuônmặt dựa trên các tỉ lệ khác nhau, bằng cách tận dụng lợi thế của extra-supervisedlearning va self-supervised learning [10] Tiếp theo thực hiện tăng cường dữ liệukhuôn mặt của một người bằng cách loại bỏ phần dưới của khuôn mặt, tạo ra cácphiên bản khuôn mặt đeo khẩu trang từ khuôn mặt không đeo khẩu trang, khẩu trang

có các phiên bản mau sắc khác nhau, phần mắt tạo ra phiên bản có đeo kính, mau damặt thay đổi Kết quả từ các bước trước sẽ được đưa vào Deep face recognition

model là Arcface có tác dụng mã hóa - encode khuôn mặt có trong bức anh/frame

thành véc tơ embedding Arcface được đề xuất và đánh giá cao trong việc tăng cường

sự hiệu quả trong việc phân biệt của các embedding đặc trưng đã học thông qua Deep

Trang 22

Convolutional Neural Networks cho bài toán nhận dạng khuôn mặt [11] Để cho rakết quả chính xác, giai đoạn cuối của mô hình sẽ đưa một số kết quả từ các công đoạn

trên làm đầu vào của một hệ thống gọi là DeepFace dé xem xét người cần nhận dang

có đúng thật là khuôn mặt đã được đề xuất trong CSDL hay không Deepface đượcphát triển, đào tạo trên tập dữ lớn về khuôn mặt, với nhiều đặc trưng khác nhau,

đạt được độ chính xác cao và có giá trị cao hơn so với các hệ thống khác tại thời diém

công bố do có sử dung Deep Learning [12] Cuối cùng, ứng dụng được xây dựng dướidạng Software-as-a-Service (SAAS) tăng khả năng mở rộng và kế thừa cho các hệthống khác Cài đặt mô hình xử lý phát hiện, nhận dạng tại NVIDIA Jetson Nano DevKit, là thiết bị đóng vai trò Client, các kết quả trả về cho Server Linux quản lý tap

trung.

- Đánh giá phương pháp đã thực hiện trên bộ dữ liệu đã xây dựng, phân tích những

điểm mạnh và hạn chế của phương pháp Sử dụng kết qua dé đánh giá mô hình ứngdụng đã thiết kế Trình bày các kết quả đạt được và phương hướng phát triển tiếp theo

10

Trang 23

Chương 2: Cơ sở lý thuyết

CHƯƠNG 2

CƠ SỞ LÝ THUYET

Chương 2 trình bày cơ sở lý thuyết của đề tài liên quan đến vấn đề cải thiện sốlượng, chất lượng hình ảnh, phương pháp xác định vị trí khuôn mặt trong khung hình,

phương pháp xác thực khuôn mặt và phương pháp đánh giá hiệu quả mô hình.

2.1 DU LIEU ANH TRONG NHAN DẠNG KHUÔN MAT

Chất lượng hình ảnh khuôn mặt được xem như là một trong những phép dolường cho sự phù hợp của một hình ảnh chứa khuôn mặt đối với hệ thống nhận dạng

khuôn mặt tự động Nói cách khác, hiệu suất của hệ thống nhận dạng khuôn mặt phần

lớn phụ thuộc vào chất lượng hình ảnh khuôn mặt thu thập được đưa vào hệ thống

[13] Don cử dữ liệu ảnh đạt chuẩn có kiểm soát như ảnh khuôn mặt của thé căn cước

công dân, khuôn mặt ở vị trí trực diện, các điểm trọng yếu của khuôn mặt ở mức hàihòa, rõ nét, ánh sáng phân bồ đều, với chất lượng ảnh như vậy, kết quả nhận dang

khuôn mặt sẽ cực kỳ chính xác Quy định tiêu chuân cho dữ liệu khuôn mặt dạng ảnh

được tuân thủ theo ISO/IEC 19794-5, ISO/IEC TR 29794-5 hoặc gần đây là ISO/IEC

39794-5.

Tuy nhiên, ở điều kiện thực tế, những dữ liệu ảnh thu thập được từ các thiết bị nhưcamera giám sát, thiết bị đi động, chất lượng ít nhiều sẽ không đồng đều và rõ néttheo định tính Điều này có thé làm giảm đáng kể độ chính xác của kết quả nhận dangkhuôn mặt nói chung và nhận dạng khuôn mặt có khẩu trang nói riêng Để đánh giá

11

Trang 24

chất lượng hình ảnh theo định lượng, có thê dựa trên một vài chỉ số như: Blur (dạng

mờ, nhòe), Sharpness (độ sắc nét), Brightness (độ sáng), Contrast (độ tương phản),

Pose Asymmetry (tư thé bat đối xứng của khuôn mit), [15] Giải quyết vấn đề về

dé liệu ảnh chất lượng thấp, có thé ké đến các giải pháp chính như sử dụng xử lý ảnhhay tạo sinh ảnh kỹ thuật số thông qua các thư viện và mô hình thuật toán tiên tiến

Tang cường dữ liệu thường được sử dụng trong các bài toán phân loại [16], là

kỹ thuật hữu dụng cho quá trình xây dựng tập dữ liệu trước khi đưa vào bộ huấn luyệnthu được mô hình máy học tối ưu, đạt độ chính xác cao khi thử nghiệm với các mẫuthử thực tế Các loại dữ liệu áp dụng được kỹ thuật này như: Âm thanh, tiếng nói, chữviết, văn bản, đồ họa, hình ảnh tĩnh, ảnh động, Đối với nhận dạng khuôn mặt, dữ

liệu đầu vào có thể là hình ảnh hoặc video, tuy nhiên đều quy về cùng loại dữ liệu

ảnh bằng việc thực hiện công đoạn tiền xử lý dữ liệu Tập trung vào tăng cường dữ

liệu ảnh cho khuôn mặt sẽ giúp đa dạng hóa hơn các phong cách, trường hợp phát

sinh trong thực tế của khuôn mặt Tăng cường hình ảnh là thao tác sử dụng các phép.biến đổi hình học, chuyền đổi không gian màu, thêm nhiễu, giảm nhiễu, xóa ngẫu

nhiên, trên ảnh như: lật, cắt, xoay, tịnh tiến, tăng độ tương phản khắc phục được

vấn đề về số lượng dữ liệu ảnh thu thập bi hạn chế Tuy nhiên, đối với khuôn mặt,phải lựa chọn các thao tác với ảnh phù hợp đề không làm giảm độ chính xác của kết

quả nhận dạng.

Imgaug [17] là một thư viện python hỗ trợ tăng cường hình ảnh cho các dự ánmáy học Imgaug tập hợp các kỹ thuật biến đổi hình ảnh, dễ sử dụng và thao tác, cho

Hình 2.1.b: Một số phép biến đồi trên ảnh bởi imgaug [17]

Việc trích chọn các kỹ thuật biến đổi ảnh phù hợp cho bài toán cần dựa vàoứng dụng thực tế Đề tài không lựa chọn phép xoay ảnh do đầu vào khuôn mặt được

trích xuất từ camera thiết bị di động, camera giám sát lắp đặt theo phương thẳng đứng,

điều này giúp loại bỏ các trường hợp khuôn mặt lệch góc lớn hơn 90 độ so với mặtphẳng Dé đảm bảo dữ liệu khuôn mặt được day đủ và đảm bảo đúng kích thước đầu

12

Trang 25

vào 112 x 112 của mô hình nhận dạng, không sử dụng các phương pháp cắt xén,

dropout, coarse dropout hoặc các kỹ thuật tương tự được cung cấp bởi imgaug Dé

tăng cường ảnh với hiệu ứng nhiễu với các đốm, sử dụng chức năng “SpeckleNoise”

với severity đúng bằng 1 Trong một số trường hợp, hình ảnh đầu vào khi nhận dạngkhuôn mặt bị mờ ở mức cho phép (có thé thay được khuôn mặt bằng mắt thường), dé

giải quyết với tính chất ảnh như vậy, thực hiện phép mờ ảnh bằng hàm GaussianBlur

với severity mang giá trị 1, đảm bảo được ảnh bị làm mờ nhưng không gây nhằm lẫnkhuôn mặt (ở mức severity cao hơn, các khuôn mặt có khả năng cho ra kết quả gâynhằm lẫn do những đặc trưng của khuôn mặt không còn rõ nét) Độ tương phản làmảnh tăng cường gần hơn về phong cách với ảnh khuôn mặt chụp tại kho hàng do hiệu

ứng mờ tối, ở chức năng này, chọn severity ở mức 1 áp dụng cho hàm “Contrast” Độ

sáng của ảnh khuôn mặt được đăng ký ở mức 2 về độ sáng, áp dụng cho hàm

Ap dụng các phép biến đồi ảnh tương tự với thư viện Albumentation

Là một thư viện tăng cường hình ảnh mạnh mẽ, được chứng minh vượt trội hơn vềhiệu suất so với imgaug (ví dụ: nhanh hon imgaug 4.1847 giây với tác vụ Grayscale,

3.833 giây với tác vụ ShiftHSV) [18] Albumentation đáp ứng nhiều tác vụ khác nhau

với hình ảnh như: phân loại, phân vùng, phát hiện .

Đối với bài toán nhận dạng trong phạm vi ài, việc tăng cường dữ liệu ảnhkhuôn mặt có đeo khâu trang và lưu trữ dữ liệu này vào CSDL giúp bài toán đượcgiải quyết một cách tương đối mà không cần phải thay đồi thuật toán của các mô hình,công nghệ có sin Dữ liệu ảnh khuôn mặt có khẩu trang được xây dựng và tổng hợp

từ các nguồn trên mạng, sử dụng các công cụ đồ họa hoặc gán khẩu trang tự động.Lấy ý tưởng từ watermark (overlay ảnh), thường được gọi là hình mờ, có dạng lớpmàu, logo, tem, hình hoặc chữ ký, được đặt chồng lên hình ảnh gốc ở một vị trí nào

đó Về tính chất, hình ảnh được biéu diễn trong máy tính dưới dang ma trận của cácpixels (điểm ảnh) Nếu là ảnh màu, thì mỗi pixel sẽ gồm một bộ (R,G,B) tương ứngvới Red, Green, Blue Thao tác với các pixel sẽ thực hiện được việc chèn khẩu trangvào khuôn mặt Hình ảnh khuôn mặt có khẩu trang được tạo thành tự động từ các

bước sau:

+ Bước 1: Chuẩn bị ảnh gốc (ảnh khuôn mặt), anh overlay (khẩu trang)

13

Trang 26

+ Bước 2: Xác định kích thước size ảnh gốc (ảnh nền), ảnh overlay (tiền cảnh),

vị trí chèn vào ảnh góc

+ Bước 3: Khởi tạo vòng lặp, duyệt qua tat cả pixels của ảnh overlay Ở mỗi

lần lặp sẽ đọc kênh alpha của ảnh overlay Sau cùng thực hiện phép tính hòa

trộn vào ảnh góc, tương ứng với giá tri alpha đã tìm được

+ Kết quả: Ảnh màu có khuôn mặt đang đeo khẩu trang, khẩu trang che khuất

phần mũi, cằm, miệng.

Hình 2.1.c: Ảnh màu có khuôn mặt trước và sau khi gán khẩu trang.

StyleGAN được đề cập đến như là kỹ thuật tăng cường dữ liệu ảnh, đa dạnghóa về phong cách của nội dung ảnh, đặc biệt đối với khuôn mặt con người

StyleGAN2 là phiên bản thứ hai của StyleGAN, cải thiện được chất lượng hình ảnh

và xóa bỏ được các đóm màu đặc trưng như giọt nước xuất hiện trong ảnh tạo ra bởi

StyleGAN StyleGAN2 được ứng dụng trong một số bài toán như: Face generators

(Thay đổi hình thái, biểu cảm, mau da, giới tính khuôn mặt, ), Age Transformation

(thay đổi khuôn mặt theo thời gian về tuổi tác), Cartoon Face Generation (tạo lập

khuôn mặt thật theo phong cách hoạt họa), Style transfer, Khóa luận ứng dụng kếtquả nghiên cứu của Jihye Back [19] về StyleGAN2 trong một số trường hợp ảnhkhuôn mặt đăng ký vào hệ thống nhận dạng có chất lượng kém (chỉ tiết về dữ liệukhuôn mặt RW tại chương 3) với bài toán chuyển đổi ảnh thực sang hình hoạt họa.Jihye Back đề xuất áp dụng hai phương thức để đạt được mức độ tương đồng caogiữa ảnh gốc và ảnh hoạt họa: FreezeSG (Freeze Style vector and Generator) vàStructure Loss đảm bao cho việc dịch ảnh gốc thành phiên bản hình hoạt họa nhưng

vẫn bảo toàn được cấu trúc nội dung theo ảnh gốc và giải pháp mong muốn đạt được

ảnh chất lượng cao

14

Trang 27

Source (FFHQ) FreezeD FreezeD with IS FreezeG.D FreezeG, Dwith LS Ours: FreezeSG, D Ours: FreezeSG + D with LS

Hình 2.1.d: Anh hình họa thực nghiệm với FreezeSG va LS [8]

Hình 2.1.e: Ảnh hình họa thực nghiệm với hai cặp FreezeSG với LS và

StructureLoss với LS [9]

2.2 PHƯƠNG PHÁP PHÁT HIỆN KHUÔN MẶT TRONG ẢNH

Phát hiện khuôn mặt là một trong những ứng dụng của bài toán phát hiện vật

thể (Object Detection ) Là quá trình xác định vùng chứa một hoặc nhiều khuôn mặt

trong một bức ảnh hoặc video (phân biệt khuôn mặt người với những đối tượng khác

xung quanh) Một khuôn mặt được phát hiện sẽ xác định được các tọa độ để vẽ một

hộp giới hạn (bounding box) khoanh vùng chứa khuôn mặt, đồng thời chỉ ra được các

điểm trọng yếu tạo nên cấu trúc khuôn mặt như đã trình bày Phát hiện khuôn mặt làmột khía cạnh cơ bản của hệ thống nhận dạng khuôn mặt Một số thư viện, mô hìnhđược sử dụng để phát hiện khuôn mặt nôi tiêng như: Dlib, OpenCV Haar Cascades,

MTCNN, FaceNet, YOLO, Retinaface,

Retinaface là công cụ đò tìm khuôn mặt sử dụng kỹ thuật học tập đa tác vụ,

thực hiện dự đoán đồng thời trên mỗi pixel, từ đó định vị được khuôn mặt với hộpgiới hạn, độ tin cậy với khuôn mặt tìm được, nam điểm mốc trên khuôn mặt (mắt trái,

mắt phải, mũi, mép miệng bên trái, mép miệng bên trái) và dự đoán tái tạo khuôn mặt

ba chiều (3D) [10]

15

Trang 28

Dense face regression

Hình 2.2.a: Mô hình phát hiện khuôn mat bằng Retinaface [10]

Đầu tra của Retinaface là chuỗi JSON [10] phục vụ nhu cau tính toán và lưu trữ:

{"face_1": {

"score": 0.9993440508842468, # Điểm tin cậy

"facial_area": [155, 81, 434, 443], # Hai tọa độ góc của bounding box

"landmarks": {

"right_eye": [257.82974, 209.64787], #Toa độ mắt phải

"left_eye": [374.93427, 251.78687], #Toa độ mắt trái

"nose": [303.4773, 299.91 144], #Toa độ mũi

"mouth_right": [228.37329, 338.73193], #Tọa độ mép miệng phải

"mouth_left": [320.21982, 374.58798] #Tọa độ mép miệng trái

})

Hình 2.2.b: Hình ảnh đã được đánh dấu các điểm mốc bởi Retinaface

Retinaface bao gồm 3 thành phần chính, được thiết kế dựa trên mang feature

pyramid kết hợp với 5 context module độc lập nhau, sau đó là việc tính toán một

multi-task loss dé tinh chỉnh cho mỗi pre-define box (anchor), từ đó xác định được 5

16

Trang 29

Context Module (x5)

Hình 2.2.c: Retinaface thuộc nhóm single-stage đề xuất để xác định đa vị trí khuôn mặt

[10]

Các thuật toán xây dựng dựa trên phương pháp two-stage (phân loại, phát hiện

đối tượng bởi 2 bước) như: RCNN, Fast-RCNN, Faster-RCNN, Hoạt động theo

cơ chế dé xuất và sàng lọc, two-stage khoanh vùng va crop (cắt) các ROI trong bức

ảnh hay trích xuất các vùng trên ảnh có khả năng chứa đối tượng, sau đó thông qua 2nhánh Object classification và Bounding box regression để phân loại và xác định vịtrí đối tượng Phương pháp two-stage cho kết quả đạt độ chính xác cao tuy nhiên việchuấn luyện và đưa ra các quyết định chậm hơn so với single-stage Single-stage lợi

thế về mặt thời gian do áp dụng trực tiếp 2 thành phần Object classification và

Bounding box regression, tức sẽ không đi qua lớp trích xuất đặc trưng hay vùng ROI.Single-stage xem việc phát hiện đối tượng là một bài toán hồi quy (regression) Đốivới bài toán phát hiện khuôn mặt, thực hiện bởi Retinaface, việc lấy mẫu các vị trí và

các tỉ li ia khuôn mặt khiến các class bị mat cân bằng trong quá trình huấn luyện

Việc mat cân bằng đã đề cập được xử lý theo phương pháp dé xuất của những cong

trình nghiên cứu khác như sampling và re-weighting (Focal loss) Các thuật toán thuộc nhóm single-stage như Retinaface, SSD, YOLO, thích hợp cho việc xây

dựng các hệ thống phát hiện theo thời gian thực, được đánh giá có độ bao phủ (recall)cao hơn, tuy nhiên nhược điểm về tỉ lệ False Positive lại cao và độ chính xác rõ ràng

kém hơn so với two-stage [10] Đối với Retinaface, nhược điểm này được khắc phục

khi được thiết kế theo mạng Feature Pyramid

Việc lựa chọn thiết kế theo mạng Feature Pyramid được nhóm tác giảRetinaface nghiên cứu dựa trên những so sánh và công trình nghiên cứu về việc loại

17

Trang 30

bỏ các vùng không phải khuôn mặt dựa trên một trong các phương pháp phát hi

các kích

thé là Image Pyramid Image Pyramid có thé dự đoán được khuôn mặt với

thước từ nhỏ đến lớn, tuy nhiên nhược điểm của phương pháp này rất chậm vì phải

dự đoán vật thé trên mỗi tỉ lệ của hình gốc và gây tốn hhớ Feature Pyramid là môhình phát hiện các đặc trưng cho các bài toán phát hiện đối tượng, được dé cập đến

để thay thế Image Pyramid và các mô hình tương tự đang được sử dụng bởi Fast

R-CNN, YOLO hay Single Shot Detector, phù hợp cho mục tiêu của Retinaface với

khả năng sliding anchor trên các feature map có tỉ lệ khác nhau Ở hình hình 2.2.c, từhình ảnh đầu vào, Retinaface áp dụng feature pyramid có được 5 feature map với các

tỉ lệ khác nhau từ tầng P2 đến P5 đã được tính toán từ backbone tương ứng là Resnet

(được pre-trained với bộ dữ liệu ImageNet-I 1k), theo mô hình top-down (các layer

có độ phân giải cao được xây dựng từ các layer có độ phân giải thấp có nhiều feature)

Tai feature map Pó, được tính toán bởi thực hiện phép tích chập ma trận lọc 3x3, với

số pixel thay đôi trên ma trận đầu vào C5 là 2 (stride = 2) Bên cạnh đó, thành phầncontext module được thiết kế dé nâng cao sức mạnh mô hình, thay thế các lớp tích

chập 3x3 bởi deformation convolutional network (DCN) cho các feature maps Cuối

cùng, mỗi anchor i được tính toán bởi ham loss (multi-task loss) cho kết quả chínhxác hơn các bounding box đầu ra được dự đoán Hàm Multi-task loss được trình bày

bởi công thức 2.1.

L= Las (pipi) + Arpi Loox(ti,ti”) + Äapi” Lpe(i,lbŸ) + 3p” Lpixer (2.1) [10]

Ham loss này gồm 4 phan như sau:

- Classification loss Lels là hàm softmax cho 2 class khuôn mặt hay không phải khuôn

mặt Trong đó p; là xác suất dự đoán anchor i là khuôn mặt, với pỉ là 1 hoặc 0

- Face box regression loss L›os(fi, ti”)

- Facial landmark regression loss Lyis(li, li’)

- Regression loss của các điểm 3D Lpixci

Theo két quả thực nghiệm Retinaface trên bộ dữ liệu WIDER FACE (Hard),

Retinaface đạt 91,4% về chỉ số độ chính xác trung bình (Average Precision) [10] và

đang xếp hạng thứ hai trong bảng xếp hạng các model phát hiện khuôn mặt, sau

TinaFace với cách biệt 1% Retinaface cũng được thử nghiệm độ chính xác nhận dang

khuôn mặt khi kết hợp với Arcface, một phương pháp nhận dạng khuôn mặt hiện đại

18

Trang 31

Kết quả trên tập dữ liệu ấn tượng với hiệu suất nhận dạng đạt 99,86% cao hơn 0,03%

so VỚI Sự kết hợp giữa MTCNN và ArcFace [10] Retinaface cho thấy Sự vượt trội

trong bài toán phát hiện khuôn mặt với những phương pháp, kỹ thuật xây dựng hiện

đại, đạt độ chính xác cao khi thực nghiệm với bộ dữ liệu uy tín Với kết quả nhậndạng khuôn mặt kết hợp giữa Arcface khả quan, luận văn đề xuất sử dụng Arcface

kết hợp cùng Retinaface, thực nghiệm sự kết hợp của hai mô hình này, cho mô hình

bài toán nhận dạng khuôn mặt có khẩu trang cho nhân viên kho hàng tại RW

2.3 PHƯƠNG PHÁP NHẬN DẠNG KHUÔN MẶT

Nhận dạng khuôn mặt là quá trình xác định danh tính một khuôn mặt trong

bức ảnh hoặc video dựa trên CSDL đã có từ trước Quá trình nhận dạng bắt đầu từ bộphát hiện khuôn mặt, sau đó lọc ra các khuôn mặt đã phát hiện được Từ đó tiến hành

so sánh các đặc điểm khuôn mặt trong ảnh đầu vào với những khuôn mặt đã có trongCSDL đề xác định khuôn mặt đó là ai Có nhiều phương pháp tiếp cận cho bài toánnhận dạng khuôn mặt phù hợp với từng loại ứng dụng và nhu cầu về nhận dạng Về

cơ bản, nhận dạng khuôn mặt được tiếp cận như là vấn đề của bài toán phân lớp(classification) Nhiệm vụ của bài toán là phân loại hình ảnh đầu vào thuộc vào các

lớp nhãn tương ứng Đối với bài toán nhận dạng khuôn mặt, việc phân lớp sẽ cho biết

ảnh khuôn mặt đầu vào thuộc nhãn (danh tính khuôn mat) nào trong tập dữ liệu đãhuấn luyện Tuy nhiên, cách tiếp cận theo hướng phân lớp như vậy nhanh chóng cho.thấy được nhược điềm lớn nhất đối với các bài toán nhận dạng khuôn mặt, nhận dạnggiọng nói, nhân dạng hình thé, là khi phải đối mặt số lượng lớn các nhãn được gántrên các khuôn mặt Với một hệ thống nhận dạng khuôn mặt, không thể nào có thểthu thập cùng lúc tất cả các khuôn mặt của một thành phó, đất nước hay thé gi

huấn luyện và duy trì sử dụng cho các lần nhận dạng, về độ khả thi và hiệu suất rõràng thấy được đây là điều không thể Nếu với tần suất luân chuyền và biến độngnhân sự ở các công ty dịch vụ Kho vận, vận tải, thực phẩm, không thể nào huấn

luyện lại mô hình sau mỗi lần đăng ký khuôn mặt mới, dù lượng nhãn khuôn mặt có

thể nhỏ Một số thách thức lớn về khuôn mặt khi giải quyết bởi các thuật toán phânlớp như khuôn mặt đa góc, tỉ lệ khuôn mặt, thay đổi hình thái khuôn mặt, khuôn mặt

bị che khuat, không thé nao gan nhãn chính xác cho các trường hợp nay đối vớikhuôn mặt Để khắc phục nhược điểm và tăng tính linh hoạt, giải quyết trọn vẹn cho

19

Trang 32

bài toán nhận dạng khuôn mặt, tiếp cận phương pháp similarity learning [20] dựa trên

sự tương đồng của hai đối tượng (khuôn mặt), nhận dạng khuôn mặt dựa trên khoảng

cách của hai khuôn mặt, nếu khoảng cách càng nhỏ tiệm cận zero thì hình ảnh đầu

vào khớp với danh tính có trong CSDL Phương pháp này không phụ thuộc vào sốlượng các class (danh tính khuôn mặt), không phải huấn luyện lại mô hình khi có dữliệu mới, phù hợp với bài toán nhận dạng khuôn mặt Để đo được khoảng cách giữahình ảnh khuôn mặt cần truy vấn với hình khuôn mặt có trong CSDL, sử dụng các

mô hình tối ưu trong việc mã hóa hình ảnh truy vấn và các hình ảnh khuôn mặt có

trong CSDL thành các embedding vector va tính toán khoảng cách theo cặp Siamese

networks có kha năng mã hóa | cặp hình ảnh thành hai vector và đo khoảng cách

(khoảng cách cosin) giữa chúng với nhau thông qua hàm mắt mát (loss function) là

một trong những mô hình phô biến, phù hợp áp dụng trên những mẫu dự liệu phứctạp Một trong bốn ham loss (Margin-loss, Intra-loss, Inter-loss, Triplet-loss) đượcđánh giá hiệu qua nhất để tính khoảng cách giữa hai class (khuôn mặt) thông qua cácthử nghiệm được đề cập trong bài báo Arcface [11] là Margin loss Một sô deep face

recognition model thuộc Margin loss như ArcFace, CosFace, SphereFace Trong đó

tác giả Jiankang đã đưa ra loạt dẫn chứng về sự hiệu quả của ArcFace (AdditiveAngular Margin Loss) so với các model tiền nhiệm

Arcface biết đến như là công cụ phục vụ quá trình nhận dạng khuôn mặt tiên

tiến hiện nay Arcface đã có những cải tiến khi đề xuất hàm mat mát mới (Additive

Angular Margin Loss) thay cho hàm Softmax (hàm trung bình mũ) đê tăng khả năng

nhận dạng khuôn mặt, khi hàm softmax gặp nhược điểm với số lượng các class vềkhuôn mặt thay đổi theo chiều hướng tăng [11] Tích vô hướng giữa vector đặc trưng

từ mô hình Deep Convolutional Neural Networks (DCNN) và lớp fully connected

cuối bằng khoảng cách cosine sau khi chuẩn hóa feature và weight Sử dụng hàm

arc-cosine dé tính toán góc giữa feature hiện tai với weight mục tiêu Sau đó cộng thêm

một “additive angular margin” vào góc mục tiêu và lấy lại logit mục tiêu bằng hàmcosin Sau cùng tất cả các logit được chia lại tỷ lệ bằng một feature norm cố định.Các bước tiếp theo hoàn toàn giống hàm mắt mát softmax

20

Trang 33

Trong ứng dung, tận dung Arcface dé encode một hình ảnh đầu vào với kích

thước 112 x112 thành một embedding vector phục vụ tính khoảng cách với

embedding vector khác, từ đó tìm ra được danh tính khuôn mặt.

112x112

model.get_embedding

[[-1.2601601 -@.0231402 @.0496207 0.12062282 -@.6127377 36527574

@.74560636 1.1521952 -0.19438967 -1.3109193 0.9970855 -@.36556235 -1.7426088 -@.4508834 1.8380163 @.46698484 090.5239836 -@.14021854

@.39043272 @.15307352 0.47490504 -@.23078242 09.22364248 @.39151162 -9.16728698 @.75638014 @.10289359 -@.13514355 0.5138678 00.42724553 -9.8355281 -0.6749625 @.2521965 -@.3694694 36905292 -0.28342193

1.3876553 -@.56463766 -0.907199 -9.9490114 0.8225903 1.4278977

-2.1875238 -1.3704662 ]]

Hình 2.3.b: Encode ảnh thành vector đặc trưng

Deepface [21] là một framework cho việc nhận dạng khuôn mặt và phân tích

các thuộc tính của khuôn mặt (tuổi tác, giới tính, chủng tộc) Deepface tích hợp các

mô hình tiên tiến về nhận dạng khuôn mặt như: VGG-Face, Google FaceNet,OpenFace, Facebook DeepFace, DeepID, ArcFace và Dlib Deepface hỗ trợ xác thựchai khuôn mặt với nhau có phải cùng một người và tìm kiếm danh tính khuôn mặt

trong CSDL.

21

Trang 34

Hình 2.3.c: Kết quả xác thực từ DeepFace khi sử dụng VGG-Face và tính khoảng cách

bằng ham cosine [21]

2.4 ĐÁNH GIÁ HE THONG NHAN DANG KHUÔN MAT

Để đánh giá hệ thống nhận dạng khuôn mặt có khẩu trang, đề tài sử dụng

Confusion Matrix với các độ đo là độ chính xác (accuracy), độ tin cậy (precision), độ

bao phủ (recall) và FI-Score Như là phương pháp đánh giá cho hiệu quả nhận dang

của hệ thống dựa trên các kết quả nhận dạng thu thập trong quá trình thực nghiệm

Confusion Matrix là ma trận nhằm lẫn hay ma trận lỗi là một bố cục bảng cụthể cho phép hình dung hiệu suất của một thuật toán Là một trong những kỹ thuậtđánh giá cho các bài toán phân loại Confusion Matrix giải quyết vấn đề lý tưởng hóa

về kết quả đánh giá so với chỉ số accuracy (độ chính xác) (phần trăm các lớp đã phân

loại đúng / tổng số dự đoán) Nhược điểm của việc đánh giá bởi chỉ số accuracy khi

kết quả hệ thống chỉ trả về nhãn True (Đúng) hay False (Sai), trong khi đó, kết quảnhận dạng có thể gây hiểu lầm như việc trả về kết quả True nhưng trên thực tế là

False (danh tính không khớp khuôn mặt).

2

Trang 35

Predicted Class

————~>—n

Negative

= " False Negative (FN) Sensitivity

Positive ‘True Positive (TP) Tywenr TP

ype I! Error căm

Actual Class

cục | False Positive (FP) | „ Specificity

Negative kề ‘True Negative (TN) TN

Hinh 2.4; Hinh anh mé ta Confusion Matrix [22]

Goi Positive class là nhận dang được khuôn mặt, Nagative class là không nhận

dạng được khuôn mặt Khi đó các giá trị TP, TN, FP, FN được định nghĩa như sau:

- True Positive (TP): Số lượng nhận dang được Mã định danh trong CSDL khớp với

khuôn mặt (dự đoán đúng).

- True Negative (TN): Số lượng không nhận dạng được Khuôn mặt thực sự không

có trong CSDL (dự đoán đúng).

- False Positive (FP): Số lượng nhận dạng được Mã định danh không khớp với khuôn

mặt hoặc khuôn mặt không có trong CSDL (dự đoán sai) — Type I Error

- False Negative (FN): Số lượng không nhận dạng được Khuôn mặt có trong CSDL

(dự đoán sai) — Type II Error

Tir bốn chỉ số trên, tính toán được các chỉ số:

Trang 36

Chương 3: Thực nghiệm và đánh giá

hàng (warehouse - building), với mỗi kho hàng sẽ nhóm các nhân viên theo các nhóm.

(group) riêng biệt Theo đó, hệ thống sẽ cho phép đăng ký và nhận dạng khuôn mặtcủa nhân viên trong kho hàng theo từng nhóm đã quy định Hệ thống đáp ứng việcnhận dạng khuôn mặt ngay cả khi đang đeo khẩu trang với tốc độ nhận dạng nhanhchóng Hệ sinh thái ứng dụng bao gồm: API cho việc tích hợp với các hệ thống phầnmềm khác trong kho hàng; ứng dụng thử nghiệm ngay tại server; ứng dụng thửnghiệm trên nền web; ứng dụng thử nghiệm trên NVIDIA Jetson Nano Dev Kit Tiến

hành phân tích các yêu cầu và chức năng của ứng dụng, thiết kế các thành phần xử lý

tương ứng và thực nghiệm bộ dữ liệu khuôn mặt với API đã xây dựng, đánh giá kết

quả từ giải pháp.

3.1 XÂY DỰNG DỮ LIỆU CHO HỆ THÓNG NHẬN DẠNG

Đôi với hệ thông châm công hiện tại băng nhận dạng khuôn mặt tại RW, nhân

viên đăng ký lần đầu với thiết bị di động với bốn ảnh chụp khuôn mặt Trong điềukiện thiếu sáng và góc chụp không hoàn hảo (hình 3 I.a) cùng dữ liệu khuôn mặt củamột nhân viên rất ít (đa dạng dữ liệu thấp) dẫn đến việc chấm công gặp sai sót và đôikhi không thé chấm công được Với vấn đề này, buộc nhân viên phải thao tác bằngtay, nhập mã nhân viên và mật khẩu trên phần mềm tablet chấm công chung dé xácthực Điều này dẫn đến việc chờ đợi của những nhân viên khác, ảnh hưởng đến côngviệc và hiệu suất hoạt động của doanh nghiệp Trong tình hình dịch bệnh, các loạivirus lây qua đường hô hap, tiếp xúc gan, việc thao tác bằng tay cần hạn chế và loại

bỏ, việc chấm công nhân viên ngay cả khi đang đeo khẩu trang là điều cần thiết

24

Trang 37

Với đặc trưng dữ liệu hình ảnh khuôn mặt có hoặc không có khẩu trang của

nhân viên kho hàng như: góc chụp, thiếu sáng, khoảng cách thu hình khá xa và số

lượng hạn chế dữ liệu khuôn mặt đăng ký, hệ thống chấm công không khả thi với

khẩu trang, việc thu thập thêm khuôn mặt của nhân viên gặp khó khăn, việc xây dựng

dit liệu cho hệ thống nhận dạng khuôn mặt có khẩu trang được tập trung vào các van

để sau:

+ Tăng cường sự đa dạng hóa dữ liệu đăng ký vào hệ thống: Ánh sáng, mau sắc, các

yếu tố gây nhiễu, mờ,

+ Tăng cường dữ liệu khuôn mặt có khẩu trang đăng ký vào hệ thống

+ Tổng hợp dữ liệu khuôn mặt các nhân viên RW phục vụ kiểm thử hệ thống

+ Gan khẩu trang cho bộ dữ liệu đã tổng hợp, phục vụ kiểm tra khả năng nhận dạngvới khẩu trang

Hiện tại, việc đăng ký khuôn mặt vào hệ thống tại RW được thực hiện với sự

hỗ trợ của phần mềm trên thiết bị di động như máy tính bảng, điện thoại Do đó nhânviên mới có thê tự chủ động, đăng nhập tài khoản nhân viên và khởi tạo chấm công,

bằng việc chụp bốn hình ảnh khuôn mặt Tuy nhiên, vấn đề các ảnh chụp có sự chênh

lệch về độ phân giải (các thiết bị di động khác nhau), góc chụp, biểu cảm và hình thái

khuôn mặt do không có quy cách đăng ký dẫn đến sự khác biệt khi đưa vào hệ thống.nhận dạng, điều kiện chiếu sáng cũng là vấn đề với ảnh chụp Trên tỉnh thần vẫn sử

35

Trang 38

dụng những dữ liệu đăng ký khuôn mặt này ở hệ thống đang vận hành, áp dụng cho

đề tài luận văn Những dữ liệu khuôn mặt mới đăng ký vào hệ thống luôn khuyến

khích phải có tiêu chuẩn phù hợp về độ phân giải, góc chụp, hình thái khuôn mặt ở

mức bình thường,

Sử dụng các thư viện tăng cường như Imgaug, Albumentation đề thay đổi về

chất lượng ảnh, thêm nhiễu, mờ, ánh sáng, dé làm da dạng hóa nguồn dữ liệu đăng

ký của mỗi khuôn mặt Cùng với đó là khuôn mặt được gán khẩu trang, che khuất

phần mũi trở xuống Các thao tác trên được thực hiện tự động sau khi đã hoàn thành

đăng ký khuôn mặt với bốn bức hình

Dữ liệu khuôn mặt các nhân viên RW, phục vụ kiểm thử hệ thông, được tổng

hợp thông qua việc truy xuất các kết quả nhận dạng khuôn mặt chấm công của hệ

thống hiện tại của RW Sau đó, sẽ gán tự động khẩu trang vào các khuôn mặt nàybằng chương trình tự động Khuôn mặt sẽ được phát hiện bởi Retinaface, tìm ra được

năm điểm đặc trưng trên khuôn mặt, sau đó gan khẩu trang theo tọa độ của mũi, miệng.

Xem minh họa hình 3.1.b

Hình 3.1.b: Hình ảnh được tạo tự động với sự thay đổi tiêu biểu về độ sáng, làm mờ, thêm

nhiễu, thêm khẩu trang

Tập dữ liệu “Regal staff face” (RSF) được xây dựng và tổng hợp từ khuôn mặt của

342 nhân viên Regal Logistic với 65,048 ảnh phân chia thành hai thư mục lớn gồm:

“DataEnroll” va “DataCheckin” Với thư mục “DataEnroll” chứa 1,490 ảnh khuôn

mặt không mang khẩu trang và 1,490 ảnh khuôn mặt mang khẩu trang của 342 nhân

viên với các mã định danh tương ứng Thư mục “DataCheckin” chứa 31,034 ảnh

khuôn mặt không mang khẩu trang và 31,034 ảnh khuôn mặt mang khẩu trang của

342 nhân viên trong suốt quá trình cham công bằng máy tính bảng, thiết bị di động

26

Tiêu đề	Ứng Dụng Nhận Dạng Khuôn Mặt Có Khẩu Trang Cho Nhân Viên Kho Hàng
Tác giả	Phạm Đức Duy
Người hướng dẫn	TS. Lê Minh Hưng
Trường học	Đại Học Quốc Gia Tp.Hồ Chí Minh
Chuyên ngành	Khoa Học Máy Tính
Thể loại	luận văn thạc sĩ
Năm xuất bản	2022
Thành phố	Tp. Hồ Chí Minh

Định dạng
Số trang	76
Dung lượng	42,53 MB