Chống tấn công giả mạo bằng ảnh, video

TỔNG QUAN BÀI TOÁN CHỐNG TẤN CÔNG GIẢ MẠO BẰNG ẢNH, VIDEO

Tổng quan bài toán chống tấn công giả mạo bằng ảnh, video

Công nghệ nhận dạng sinh trắc học, đặc biệt là bảo mật bằng khuôn mặt, đang ngày càng trở nên quan trọng trong các hệ thống truy cập thông minh Việc truy cập vào hệ thống qua khuôn mặt mang lại sự tiện lợi, nhưng cũng tiềm ẩn rủi ro khi hình ảnh và video của khuôn mặt dễ dàng được tìm thấy trên các mạng xã hội như Facebook, Youtube, và Tiktok Những hình ảnh này có thể bị lợi dụng cho các mục đích xấu, khiến các hệ thống nhận diện khuôn mặt trở nên dễ bị tấn công Kẻ tấn công có thể sử dụng hình ảnh khuôn mặt in trên giấy hoặc video đã quay sẵn để đánh lừa hệ thống, đặt ra thách thức lớn cho bảo mật.

Hình 1 1 Ví dụ tấn công giả mạo khuôn mặt bằng video [9]

Như vậy, định nghĩa bài toán chống tấn công giả mạo khuôn mặt bằng ảnh, video có thể được tóm lược như sau:

Chống tấn công giả mạo khuôn mặt bằng ảnh và video là quy trình xác định tính xác thực của khuôn mặt được đưa vào hệ thống sinh trắc học Điều này bao gồm việc kiểm tra xem khuôn mặt đó có phải là khuôn mặt thật đang được quay trực tiếp hay không, thông qua các thiết bị và công nghệ hiện đại.

13 bị của hệ thống hay là khuôn mặt giả mạo được in trên giấy hoặc xuất hiện trong video đã quay sẵn trước đó.”

Bài toán chống tấn công giả mạo đóng vai trò quan trọng trong các hệ thống bảo mật sinh trắc học Việc bảo vệ hệ thống khỏi các cuộc tấn công giả mạo từ bên ngoài là cần thiết để đảm bảo an toàn và hiệu quả trong việc sử dụng công nghệ sinh trắc học.

1.1.2 Đối tượng, phạm vi và phương pháp nghiên cứu Đề tài tập trung nghiên cứu các giải pháp khác nhau cho bài toán chống tấn công giả mạo khuôn mặt bằng hình ảnh hoặc video, từ đó đề xuất giải pháp sử dụng mạng nơ-ron tích chập và xây dựng một ứng dụng minh hoạ thực tế để kiểm tra tính khả thi của giải pháp

Trong quá trình thực hiện đề tài, tôi đã tiến hành nghiên cứu theo cách tiếp cận sau:

Khảo sát các phương pháp hiện tại trong việc giải quyết bài toán chống giả mạo khuôn mặt, bài viết sẽ phân tích ưu và nhược điểm của từng phương pháp Những phương pháp này bao gồm nhận diện khuôn mặt 3D, phân tích chuyển động và sử dụng công nghệ sinh trắc học Mỗi phương pháp có những lợi thế và hạn chế riêng, từ độ chính xác đến khả năng chống lại các kỹ thuật làm giả ngày càng tinh vi Việc hiểu rõ các phương pháp này là cần thiết để phát triển giải pháp hiệu quả hơn trong việc bảo vệ an ninh và nhận diện khuôn mặt.

 Tìm hiểu cơ sở lý thuyết về học sâu, mạng nơ-ron tích chập và các kiến trúc mạng nơ-ron tích chập phổ biến hiện nay

Nghiên cứu về các giải pháp chống tấn công giả mạo khuôn mặt bằng hình ảnh hoặc video sử dụng mạng nơ-ron tích chập đã cho thấy nhiều phương pháp hiệu quả Bài viết này sẽ phân tích các nghiên cứu liên quan và đề xuất giải pháp phù hợp nhất để triển khai đề tài, nhằm nâng cao khả năng bảo mật trong nhận diện khuôn mặt.

1.1.3 Giới hạn của bài toán Đề tài được nghiên cứu trong luận văn với những giới hạn như sau:

 Kiểu tấn công giả mạo sử dụng là tấn công sử dụng hình ảnh hoặc video chứa khuôn mặt

 Ảnh RGB 2D là dữ liệu đầu vào của bài toán

 Giải pháp tiếp cận là sử dụng mạng nơ-ron tích chập hai chiều (2D CNN).

Các cách tiếp cận giải quyết bài toán

1.2.1 Cách tiếp cận dựa trên tác động của con người

Cách tiếp cận này tập trung vào việc phân biệt giữa truy cập hợp lệ và truy cập giả mạo, dựa trên việc người dùng thực sự có mặt trước camera Điều này giúp đảm bảo rằng chỉ những người dùng xác thực mới có thể truy cập vào hệ thống.

Có hai phương pháp chính để giải quyết bài toán hành động và cử chỉ tự nhiên, bao gồm phương pháp phát hiện nháy mắt (Eye Blink) và phương pháp thử thách – phản hồi (Challenge – Response) Trong đó, phương pháp phát hiện nháy mắt đóng vai trò quan trọng trong việc nhận diện các hành động tự nhiên.

Nháy mắt là hành động tự nhiên của con người, đóng vai trò quan trọng trong việc phân biệt giữa khuôn mặt thật và khuôn mặt giả mạo Phương pháp kiểm tra này sử dụng chuỗi hình ảnh từ camera để xác định sự hiện diện của nháy mắt; nếu có nháy mắt, đó là khuôn mặt thật, ngược lại, nếu không có nháy mắt, đó là khuôn mặt giả mạo.

Phương pháp này có nhiều ưu điểm như chi phí thấp, dễ triển khai trên các thiết bị và thuận tiện cho người dùng nhờ vào hoạt động nháy mắt tự nhiên Tuy nhiên, nhược điểm lớn nhất của phương pháp là không thể phát hiện các tấn công giả mạo sử dụng video, vì khuôn mặt trong video vẫn có thể nháy mắt bình thường.

Phương pháp thử thách – phản hồi yêu cầu người dùng thực hiện các thao tác trên khuôn mặt, giúp hệ thống kiểm tra khả năng nhận diện Người dùng cần tuân thủ các yêu cầu này để hoàn thành thử thách.

Hệ thống yêu cầu người dùng thực hiện một loạt hành động ngẫu nhiên như quay mặt sang trái hoặc phải, há mồm, nhắm mắt, cười, và làm mặt buồn Số lượng và thứ tự các hành động này không được ấn định trước, nhằm tăng cường tính bảo mật; ví dụ, có thể yêu cầu 2 hoặc 5 động tác khác nhau trong mỗi lần xác nhận Nhiệm vụ của người dùng là thực hiện chính xác các hành động để hệ thống có thể xác nhận danh tính.

Phương pháp thử thách-phản hồi đã khắc phục nhược điểm lớn nhất của phương pháp phát hiện nháy mắt, cho phép phát hiện tấn công giả mạo qua video Tuy nhiên, phương pháp này cũng gặp phải vấn đề lớn là người dùng phải thực hiện nhiều thao tác để được nhận diện, dẫn đến trải nghiệm không tốt Nếu có sai sót trong bất kỳ thao tác nào, người dùng sẽ phải bắt đầu lại từ đầu, gây ức chế và tốn thời gian.

1.2.2 Cách tiếp cận dựa trên các đặc trưng của khuôn mặt

Cách tiếp cận này tập trung vào việc trích xuất đặc trưng khuôn mặt để phân biệt giữa khuôn mặt thật và giả mạo bằng các thuật toán học máy Hai phương pháp chính được áp dụng là sử dụng Local Binary Patterns (LBP) kết hợp với Support Vector Machine (SVM) và mạng nơ-ron tích chập.

LBP (Local Binary Patterns) là một phương pháp hiệu quả trong việc rút trích đặc trưng hình ảnh Sau khi rút trích, các đặc trưng này sẽ được chọn lọc và thu gọn thành các vector đặc trưng, có thể sử dụng cho các mô hình học máy SVM (Support Vector Machine) là một thuật toán học máy phổ biến, giúp phân chia dữ liệu thành các nhóm riêng biệt, hỗ trợ quá trình huấn luyện và phân loại.

Khi áp dụng phương pháp LBP kết hợp với SVM, hình ảnh khuôn mặt được trích xuất đặc trưng thông qua LBP, tạo ra các vector đặc trưng Những vector này sau đó được sử dụng làm đầu vào cho thuật toán SVM, giúp phân loại hình ảnh khuôn mặt thành hai loại: thật hoặc giả mạo.

Phương pháp kết hợp LBP và SVM là giải pháp đơn giản và dễ triển khai trên các thiết bị, nhưng đặc trưng LBP thường bị ảnh hưởng bởi nhiễu, dẫn đến giảm hiệu quả phân loại thật/giả của mô hình Ngược lại, phương pháp sử dụng mạng nơ-ron tích chập (CNN) mang lại độ chính xác cao hơn trong việc phân loại hình ảnh.

Mạng nơ-ron tích chập (CNN) là một loại mạng lưới bao gồm nhiều lớp tích chập xếp chồng, giúp trích xuất các đặc trưng và thông tin trừu tượng từ hình ảnh, từ đó nâng cao khả năng phân loại ảnh.

Hình 1 2 Kiến trúc cơ bản của mạng nơ-ron tích chập [15]

Phương pháp sử dụng mạng nơ-ron tích chập để phân loại khuôn mặt giúp xác định xem hình ảnh đầu vào là thật hay giả mạo thông qua việc trích xuất các đặc trưng và thông tin trừu tượng Ưu điểm lớn nhất của phương pháp này là khả năng trích xuất nhiều đặc trưng, từ đó nâng cao khả năng phân biệt giữa hình ảnh thật và giả Tuy nhiên, một vấn đề cần lưu ý là hiện tượng overfitting, khi mà kết quả phân loại trên bộ dữ liệu huấn luyện rất tốt nhưng không đạt hiệu quả tương tự trên các bộ dữ liệu khác.

Bài toán chống tấn công giả mạo khuôn mặt là một lĩnh vực đa dạng với nhiều phương pháp giải quyết khác nhau, mỗi phương pháp có ưu và nhược điểm riêng Với sự phát triển mạnh mẽ của học sâu (Deep Learning), các mô hình mạng nơ-ron tích chập đã được cải thiện đáng kể về cả chất lượng và tốc độ Dựa trên các đối tượng và phạm vi mà tôi đã đề cập ở mục 1.1.2 và 1.1.3, tôi quyết định sử dụng mạng nơ-ron tích chập hai chiều, áp dụng một số kiến trúc mạng nơ-ron tích chập phổ biến hiện nay để phân biệt giữa khuôn mặt thật và giả mạo.

MỘT SỐ NGHIÊN CỨU LIÊN QUAN

Mạng nơ-ron tích chập trong bài toán phân loại ảnh

Phân loại ảnh là một trong những bài toán quan trọng nhất trong lĩnh vực Thị giác máy tính Hiện nay, việc áp dụng mạng nơ-ron tích chập được xem là một trong những giải pháp hiệu quả nhất để giải quyết vấn đề này.

Mạng nơ-ron tích chập bao gồm các lớp cơ bản như lớp tích chập (convolution), lớp lấy mẫu (pooling), lớp kết nối đầu đủ (fully connected) và một số lớp phụ trợ khác.

Hình 2 1 Kiến trúc cơ bản của một mạng nơ-ron tích chập [14]

Lớp tích chập trong mạng nơ-ron tích chập là lớp quan trọng nhất, có chức năng phát hiện các đặc trưng không gian hiệu quả Những đặc trưng này có thể là đơn giản như góc, cạnh, màu sắc, hoặc phức tạp và trừu tượng hơn Chúng giúp mô hình phân loại dữ liệu đầu vào tốt hơn so với các phương pháp trích chọn đặc trưng khác như LBP và HoG Hiện nay, một số kiến trúc mạng nơ-ron tích chập phổ biến bao gồm ResNet, MobileNet và EfficientNet.

Kiến trúc mạng ResNet, được giới thiệu vào năm 2015, đã xuất sắc giành chiến thắng tại cuộc thi ILSVRC 2015 với tỷ lệ lỗi chỉ 3.57% trong bài toán phân loại ảnh trên bộ dữ liệu ImageNet.

Kiến trúc mạng ResNet được thiết kế với nhiều lớp tích chập chồng lên nhau, giúp tạo ra mạng sâu hơn Tuy nhiên, khi xây dựng mạng nơ-ron tích chập với quá nhiều lớp, hiện tượng mất mát đạo hàm (vanishing gradient) có thể xảy ra, làm giảm hiệu quả quá trình học của mô hình ResNet ra đời nhằm khắc phục vấn đề này, cải thiện khả năng học của mạng.

Kiến trúc mạng ResNet sử dụng các khối dư (residual blocks) với các nhánh cộng (shortcut connections) để kết nối giá trị đầu vào với đầu ra Mỗi khối dư bao gồm giá trị đầu vào (x) được xử lý qua một số lớp tích chập để tạo ra F(x), sau đó cộng thêm x vào F(x) để cho ra đầu ra cuối cùng là F(x) + x Nhờ vào các nhánh cộng này, quá trình lan truyền đạo hàm có thể diễn ra hiệu quả hơn, giúp tránh hiện tượng mất mát đạo hàm trong các lớp sâu của mạng.

Kiến trúc mạng MobileNet, được Google giới thiệu lần đầu vào năm 2017, tập trung vào việc tối ưu hóa độ chính xác trong các ứng dụng trên thiết bị điện tử có tài nguyên phần cứng hạn chế.

Kiến trúc của MobileNet được xây dựng trên nền tảng hợp lý, sử dụng các lớp tích chập phân tách theo chiều sâu để giảm thiểu khối lượng tính toán mà vẫn đảm bảo độ chính xác cao Phép tích chập theo chiều sâu sử dụng một bộ lọc riêng cho mỗi kênh đầu vào, tiếp theo là phép chập 1x1 để kết hợp các đầu ra, tạo nên hiệu quả tối ưu cho việc xử lý hình ảnh.

Hình 2 3 Phép chập sử dụng trong kiến trúc mạng MobileNet [17]

Kiến trúc mạng MobileNet tích hợp các khối dư với kết nối tắt tương tự như kiến trúc ResNet, nhưng có sự điều chỉnh để giảm số kênh (hoặc chiều sâu) ở đầu vào và đầu ra của mỗi khối dư.

Hình 2 4 Khối dư trong kiến trúc mạng MobileNet [17]

Kiến trúc mạng EfficientNet, được Google giới thiệu lần đầu vào năm 2019, tập trung vào việc tối ưu hóa ba yếu tố quan trọng của mạng nơ-ron: độ phân giải đầu vào, độ sâu và độ rộng.

Độ phân giải đầu vào cao hơn giúp cung cấp nhiều chi tiết hơn cho hình ảnh, từ đó cải thiện khả năng suy luận của mô hình đối với các đối tượng nhỏ trong ảnh.

20 ảnh độ phân giải cao khiến mạng học được nhiều đặc trưng chi tiết của những đối tượng gây nhiễu trong ảnh, ảnh hưởng đến kết quả mong muốn

Độ sâu của mạng nơ-ron liên quan trực tiếp đến số lượng lớp tích chập được xếp chồng lên nhau Việc tăng độ sâu này giúp mạng có khả năng nhận diện các đặc trưng phức tạp hơn Tuy nhiên, nếu độ sâu tăng quá mức, mạng có thể gặp vấn đề mất mát đạo hàm, dẫn đến việc huấn luyện trở nên khó khăn hơn.

Độ rộng của mạng ảnh hưởng đến số lượng bộ lọc trong lớp tích chập, giúp các lớp này nhận diện các đặc trưng chi tiết hơn Tuy nhiên, nếu độ rộng tăng quá mức, việc học các đặc trưng phức tạp sẽ gặp khó khăn.

Hình 2.5 cho ta thấy rõ hơn về khả năng mở rộng của kiến trúc mạng nơ ron

Hình 2 5 Khả năng mở rộng của mạng nơ-ron tích chập [11]

Kiến trúc mạng EfficientNet áp dụng các khối dư tương tự MobileNet nhưng với kích thước lớn hơn Mô hình cơ sở của EfficientNet được minh họa trong hình 2.6 Từ mô hình này, Google đã phát triển nhiều phiên bản khác nhau của mạng EfficientNet.

Hình 2 6 Kiến trúc mạng cơ sở của EfficientNet (EfficientNetB0) [11]

Một số nghiên cứu sử dụng mạng nơ-ron tích chập cho bài toán chống tấn công giả mạo

Trong bài viết này, tôi sẽ giới thiệu các giải pháp nghiên cứu nhằm chống lại tấn công giả mạo khuôn mặt thông qua hình ảnh hoặc video, sử dụng mạng nơ-ron tích chập Sau khi phân tích các giải pháp hiện có, tôi sẽ đưa ra lựa chọn và đề xuất giải pháp của riêng mình.

2.2.1 Giải pháp sử dụng thông tin về không gian và thời gian a Ý tưởng, giải pháp tiếp cận Đối với bài toán phân loại ảnh nhị phân (hai lớp dữ liệu) bình thường sử dụng mạng nơ-ron tích chập thì dữ liệu đầu vào thường là ảnh RGB Trong giải pháp này, ngoài việc sử dụng ảnh RGB làm dữ liệu đầu vào, tác giả đề xuất sử dụng thêm các thông tin bổ trợ là thông tin về không gian và thời gian của khuôn mặt để giám sát quá trình huấn luyện của mạng nơ-ron, giúp cho mô hình đầu ra có thể phân loại dữ liệu tốt hơn

Theo nghiên cứu, khuôn mặt thật chứa thông tin về không gian, thể hiện qua độ sâu, trong khi khuôn mặt giả mạo không có đặc điểm này Cụ thể, khuôn mặt thật có vùng mũi gần máy ảnh hơn hai bên má, ngược lại, các điểm ảnh trên khuôn mặt giả mạo nằm trên cùng một mặt phẳng Thông tin về độ sâu của khuôn mặt có thể được sử dụng để giám sát quá trình học của mạng nơ-ron Bên cạnh đó, nghiên cứu cũng chỉ ra rằng tín hiệu nhịp tim (rPPG - remote Photoplethysmography) có thể được phát hiện từ video trực tiếp, và do đó, tín hiệu này cũng được áp dụng trong việc giám sát quá trình học của mạng nơ-ron.

Hình 2 7 Sử dụng thêm thông tin độ sâu và tín hiệu nhịp tim giám sát quá trình học của mạng nơ-ron[1]

Giải pháp này tập trung vào việc giúp mạng nơ-ron nhận diện các mô hình giả mạo đã biết trong không gian và thời gian, bên cạnh việc trích xuất các đặc trưng cụ thể để phân tách hai lớp dữ liệu Kiến trúc mô hình được thiết kế nhằm tối ưu hóa khả năng này.

Hình 2 8 Tổng quan kiến trúc mô hình [1]

Kiến trúc mạng nơ-ron đề xuất kết hợp giữa mạng nơ-ron tích chập (CNN) và mạng nơ-ron hồi quy (RNN) nhằm khám phá và trích chọn các thuộc tính, đặc trưng liên quan đến độ sâu của khuôn mặt thật và khuôn mặt giả mạo Mạng nơ-ron tích chập chịu trách nhiệm phát hiện các đặc điểm cấu trúc, trong khi mạng nơ-ron hồi quy giám sát quá trình học và các thuộc tính thay đổi theo thời gian trên các khung hình Chi tiết về kiến trúc mô hình được thể hiện trong hình 2.9.

Hình 2 9 Kiến trúc chi tiết của mô hình mạng [1]

Mạng nơ-ron tích chập (CNN) trong kiến trúc đề xuất bao gồm nhiều khối CNN, mỗi khối được cấu thành từ ba lớp: lớp tích chập (Conv), lớp lấy mẫu (Pool), và lớp thay đổi kích thước đầu vào Sau mỗi lần thay đổi kích thước đầu vào, kích thước của các lớp sẽ được điều chỉnh tương ứng.

Mạng nơ-ron tích chập được thiết kế với kích thước 64x64 và có khả năng nối lại (concatenate) các kết nối rẽ nhánh, giúp trích xuất các đặc trưng từ các lớp có độ sâu khác nhau, tương tự như cấu trúc ResNet Mạng này được chia thành hai nhánh: một nhánh để ước tính bản đồ độ sâu (depth map) và một nhánh để ước tính bản đồ đặc trưng (feature map).

Trong mạng nơ-ron hồi quy (RNN), mục tiêu là ước tính tín hiệu nhịp tim f từ chuỗi Nf khung hình liên tiếp Hình 2.9 minh họa mạng nơ-ron hồi quy với lớp LSTM (Long Short Term Memory) gồm 100 nút ẩn, tiếp theo là một lớp kết nối đầy đủ (FC) và một lớp biến đổi Fourier nhanh (FFT) để xử lý dữ liệu.

Kết quả đánh giá được tính toán dựa trên nhiều bộ dữ liệu khác nhau, trong đó SiW và Oulu-NPU là những bộ dữ liệu chất lượng cao được sử dụng cho đánh giá nội bộ (intra-testing), trong khi đó các bộ dữ liệu như CASIA-MFSD và Replay-Attack được áp dụng cho đánh giá chéo (cross-testing).

Bảng 2 1 Kết quả đánh giá nội bộ trên bộ dữ liệu Oulu-NPU với các giao thức đánh giá khác nhau [1]

Giao thức đánh giá Phương pháp APCER

Phương pháp đề xuất trong Bảng 2.1 đạt tỉ lệ lỗi trung bình (ACER) thấp nhất so với các phương pháp khác trong bốn giao thức đánh giá khác nhau Điều này cho thấy giải pháp này mang lại kết quả tốt trên bộ dữ liệu Oulu-NPU.

Kết quả đánh giá chéo của phương pháp đề xuất [1] được thể hiện trong bảng 2.2

Bảng 2 2 Tỉ lệ lỗi trung bình khi đánh giá chéo trên bộ dữ liệu CASIA-MFSD và Replay-

CASIA-MFSD Replay Attack Replay Attack CASIA-MFSD

Kết quả đánh giá chéo trên các bộ dữ liệu trong Bảng 2.2 cho thấy tỷ lệ lỗi trung bình vẫn cao (trên 25%), nhưng vẫn thấp hơn so với các phương pháp khác Điều này chứng tỏ rằng giải pháp đề xuất có khả năng khái quát tốt hơn so với các giải pháp khác được đánh giá.

2.2.2 Giải pháp sử dụng đầu vào gồm đa phương thức kết hợp a Ý tưởng, giải pháp tiếp cận

Hiện nay, sự phát triển của công nghệ bảo mật nhận diện khuôn mặt đi kèm với sự gia tăng đa dạng và tinh vi của các kiểu tấn công giả mạo vào hệ thống này Những hình thức tấn công không chỉ giới hạn ở việc sử dụng hình ảnh và video mà còn bao gồm nhiều phương pháp phức tạp khác.

 Sử dụng hình ảnh người khác được cắt vùng mắt, mũi và đưa mắt, mũi của kẻ tấn công vào những vùng đó

 Sử dụng ảnh vùng mắt của người khác đặt lên vùng mắt của mình

 Làm cong hình ảnh mặt phẳng chứa khuôn mặt,…

Các mạng nơ-ron chỉ sử dụng ảnh RGB, HSV, hoặc YcrCb có thể không đạt hiệu quả cao trong việc phát hiện các kiểu tấn công giả mạo phức tạp Để cải thiện khả năng phân loại khuôn mặt thật và giả mạo, giải pháp đề xuất là sử dụng bản đồ độ sâu và ảnh hồng ngoại (IR) làm đầu vào cho mạng nơ-ron, dựa trên sự khác biệt về độ sâu và nhiệt độ giữa khuôn mặt thật và giả mạo.

Kiến trúc mạng nơ-ron đề xuất nhằm kết hợp ba phương thức đầu vào gồm ảnh RGB, bản đồ độ sâu và ảnh hồng ngoại, để tối ưu hóa quá trình nhận diện giả mạo Mô hình sử dụng ba mạng con được huấn luyện riêng biệt cho từng luồng dữ liệu, sau đó kết nối chúng lại với nhau, nhằm đảm bảo thông tin từ các nguồn khác nhau bổ sung cho nhau Chi tiết về kiến trúc mô hình được trình bày trong hình 2.10.

Hình 2 10 Kiến trúc tổng quan mô hình [2]

Mỗi luồng dữ liệu trong hệ thống sử dụng kiến trúc mạng ResNet-18 hoặc ResNet-34 làm thành phần chính để trích xuất đặc trưng Các khối sau nhánh res1, res2, res3, res4, res5 được áp dụng cho từng kiểu dữ liệu đầu vào, trong đó các khối sau nhánh res3, res4, res5 được kết hợp bằng SEF Dữ liệu sau đó được giảm chiều thông qua lớp Global Average Pooling (GAP) và nối lại, trước khi được phân loại qua lớp Fully Connected (FC) Kết quả đánh giá cho thấy hiệu quả của phương pháp này trong việc xử lý dữ liệu.

Giải pháp đề xuất được đánh giá trên bộ dữ liệu CASIA-SURF, với các kết quả tính toán được thể hiện trong bảng 2.3

Bảng 2 3 Kết quả đánh giá trên bộ dữ liệu CASIA-SURF với kiến trúc mạng dựa trên

Phương pháp APCER (%) NPCER (%) ACER (%)

MÔ HÌNH TRIỂN KHAI THỬ NGHIỆM

Giải pháp thử nghiệm

3.1.1 Giải pháp thứ nhất: giải quyết như bài toán phân loại ảnh hai lớp (thật và giả mạo) với dữ liệu đầu vào là ảnh RGB

Dựa trên các kiến trúc mạng nơ-ron phổ biến như ResNet và MobileNet, tôi đã đề xuất một kiến trúc tổng quan cho mạng nơ-ron tích chập nhằm giải quyết bài toán chống tấn công giả mạo, như được minh họa trong hình 3.1.

Hình 3 1 Tổng quan kiến trúc mạng nơ-ron sử dụng

Thành phần kiến trúc mạng gồm một số phần chính như sau:

 Đầu vào của mạng là một ảnh RGB với kích thước 256 x 256

Mạng nơ-ron tích chập (CNN) bao gồm các khối CNN, trong đó mỗi khối thường chứa các lớp tích chập, lấy mẫu và hàm kích hoạt được sắp xếp chồng lên nhau để trích xuất các đặc trưng có thể học của mô hình Các kiến trúc mạng nơ-ron tích chập phổ biến hiện nay như ResNet, MobileNet và Xception có thể được sử dụng trong thành phần này.

Đầu ra của mạng nơ-ron tích chập được lấy mẫu qua phương pháp trung bình toàn phần (GAP - Global Average Pooling) và sau đó được kết nối với một lớp kết nối đầy đủ (FC - Fully Connected) để tạo thành đầu ra cuối cùng cho mạng nơ-ron.

Tại đầu ra của mạng nơ-ron, hàm mất mát được sử dụng là “binary cross entropy” để điều chỉnh các tham số của mạng, với công thức cụ thể như sau:

Binary cross entropy loss được tính bằng công thức: -Y * log(Yp) - (1 - Y) * log(1 - Yp), trong đó Y là kết quả đầu ra mong muốn và Yp là kết quả dự đoán của mô hình Trong luận văn này, tôi đã lựa chọn các kiến trúc mạng nơ-ron tích chập cơ bản dựa trên các tiêu chí phù hợp với yêu cầu của bài toán.

 Là các kiến trúc mạng nơ-ron phổ biến, có kết quả phân loại tốt đã được công bố trên bộ dữ liệu ImageNet

 Kiến trúc mạng nơ-ron không quá phức tạp để có thể dễ dàng tuỳ biến và điều chỉnh sau này

Số lượng tham số của mạng được giới hạn để phù hợp với tài nguyên hệ thống, đồng thời đảm bảo quá trình phát hiện tấn công giả mạo trong ứng dụng được thực hiện theo thời gian thực.

Một số mạng nơ-ron tích chập phổ biến được sử dụng cho bài toán phân loại ảnh với 1000 lớp trên bộ dữ liệu ImageNet được trình bày trong bảng 3.1.

Bảng 3 1 Thông tin một số mạng nơ-ron tích chập sử dụng để phân loại trên bộ dữ liệu

Kiến trúc mạng Kích thước

Dựa trên các tiêu chí đã nêu, tôi đã lựa chọn hai kiến trúc mạng nơ-ron tích chập chính để thực hiện thí nghiệm, đó là MobileNetv2 và EfficientNetB0 Sau khi thay thế hai kiến trúc này vào phần "mạng nơ-ron tích chập" trong mô hình hình 3.1, bảng 3.2 cung cấp thông tin về số lượng tham số và kích thước của mạng nơ-ron được sử dụng.

Bảng 3 2 Số lượng tham số và kích thước mô hình sử dụng

STT Kiến trúc mạng nơ-ron sử dụng Số lượng tham số Kích thước (MB)

3.1.2 Giải pháp thứ hai: sử dụng ảnh RGB và thêm thông tin độ sâu của ảnh

Trong giải pháp thứ nhất, tôi đã lựa chọn hai kiến trúc mạng nơ-ron là MobileNetv2 và EfficientNetB0, và tiến hành tùy chỉnh bằng cách thêm các nhánh CNN phụ trợ để mô hình có thể học được các đặc trưng liên quan đến độ sâu của ảnh EfficientNetB0 bao gồm 7 khối CNN chính, mỗi khối chứa các lớp phổ biến như lớp tích chập, lớp lẫy mẫu dữ liệu và hàm kích hoạt, được sắp xếp theo một trình tự nhất định Tôi đã xem xét các bản đồ đặc trưng đầu ra sau mỗi khối CNN để bổ sung các nhánh CNN nhằm cải thiện khả năng học thông tin về độ sâu.

Kiến trúc mạng và quá trình huấn luyện được mô tả trong hình 3.2

Hình 3 2 Mạng nơ-ron thêm nhánh thông tin về độ sâu dựa trên kiến trúc EfficientNetB0 trong quá trình huấn luyện

Kiến trúc mạng nơ-ron trong hình 3.2 được mô tả cụ thể như sau:

 Dữ liệu đầu vào của mạng gồm hai ảnh là ảnh RGB chứa khuôn mặt và ảnh độ sâu của khuôn mặt đó, có kích thước 256x256

Ảnh đầu vào RGB được xử lý qua lớp tích chập và các khối CNN của kiến trúc EfficientB0 Tại các đầu ra của các khối với kích thước bản đồ đặc trưng 128x128, 64x64 và 32x32, tôi tiến hành thay đổi kích thước về 64x64 và ghép chúng lại với nhau Kết quả là một bản đồ đặc trưng F chứa các đặc trưng của ảnh ở nhiều kích thước khác nhau, giúp mô hình có khả năng học hỏi thông tin tổng quát hơn từ ảnh.

Bản đồ đặc trưng F được chia thành hai nhánh, mỗi nhánh thực hiện quá trình trích xuất đặc trưng qua các lớp tích chập với các hệ số bộ lọc khác nhau Nhánh 1 nhằm dự đoán bản đồ độ sâu của ảnh (D1), trong khi nhánh 2 tập trung vào việc học các đặc trưng tiếp theo (F1) của ảnh Để giám sát quá trình học của mô hình, tại đầu ra D1, tôi sử dụng ảnh độ sâu gốc và áp dụng hàm mất mát "mean square error".

𝑖=1 trong đó: N là số điểm ảnh trong bức ảnh, 𝑦 𝑖 là giá trị thực tế của điểm ảnh i, 𝑦̃ 𝑖 là giá trị của điểm ảnh i mô hình dự đoán được

Bản đồ độ sâu D1 được tạo ra thông qua hàm lấy ngưỡng nhị phân, sử dụng mặt nạ để chỉ giữ lại các điểm ảnh trên khuôn mặt và loại bỏ vùng nền Mặt nạ này sau đó được kết hợp với bản đồ đặc trưng F1 bằng phép nhân, tạo ra bản đồ đặc trưng Y, giúp loại bỏ các giá trị đặc trưng của nền và chỉ giữ lại những đặc trưng của khuôn mặt Quy trình này giúp mô hình tập trung vào các đặc trưng khuôn mặt, từ đó giảm thiểu ảnh hưởng của nền ảnh đối với chất lượng mô hình.

Bản đồ đặc trưng Y được xử lý qua các khối CNN của kiến trúc EfficientNetB0, kết thúc bằng lớp lấy mẫu trung bình toàn phần (GAP) và lớp kết nối đầy đủ (FC) Trong quá trình này, hàm mất mát "binary cross entropy" được sử dụng để giám sát.

35 học của mô hình giống như trong giải pháp thứ nhất Vì vậy, hàm mất mát tổng quát của mô hình đề xuất là:

Đánh giá thực nghiệm

3.2.1 Chuẩn bị dữ liệu a Bộ dữ liệu SiW [13]

Bộ dữ liệu SiW cung cấp cho người dùng video về khuôn mặt thật và giả mạo từ 165 người, với tốc độ 30 khung hình/giây và độ phân giải HD Các video khuôn mặt thật được ghi lại với nhiều khoảng cách, tư thế, ánh sáng và biểu cảm khác nhau, trong khi khuôn mặt giả mạo được thực hiện bằng hình ảnh hoặc video Ngoài ra, các thiết bị quay video và thiết bị in hình ảnh hoặc hiển thị video dùng cho việc tấn công giả mạo cũng rất đa dạng.

Hình 3 3 Một số ví dụ về khuôn mặt thật trong video của bộ dữ liệu SiW [13]

Hình 3 4 Một số ví dụ về khuôn mặt giả mạo trong video của bộ dữ liệu SiW [13]

Cụ thể hơn về tập dữ liệu SiW ta có:

Bộ dữ liệu SiW được phân chia thành hai tập nhỏ: tập dữ liệu huấn luyện và tập dữ liệu đánh giá, với số lượng cụ thể được trình bày trong bảng 3.3.

Bảng 3 3 Chi tiết số lượng video trong bộ dữ liệu SiW

Tập dữ liệu Huấn luyện Đánh giá

Số video truy cập đúng 714 599

Số video tấn công giả mạo 1,703 1,462

Mỗi video đi kèm với một tệp đính kèm chứa thông tin về vị trí khuôn mặt trong từng khung hình Sau khi trích xuất khuôn mặt từ tất cả các video, số lượng ảnh khuôn mặt được thống kê trong bảng 3.4.

Bảng 3 4 Số lượng hình ảnh khuôn mặt trích xuất ra được của bộ dữ liệu SiW

Tập dữ liệu Huấn luyện Đánh giá

Số khuôn mặt giả mạo 799,748 684,983

Do bộ dữ liệu SiW thiếu tập dữ liệu kiểm thử, tôi đã chia tách một phần từ bộ dữ liệu huấn luyện ban đầu với tỷ lệ huấn luyện/kiểm thử khoảng 4/1 Số liệu chi tiết được trình bày trong bảng 3.5.

Bảng 3 5 Số lượng hình ảnh khuôn mặt sau khi tách tập dữ liệu kiểm thử từ tập dữ liệu huấn luyện của bộ dữ liệu SiW

Tập dữ liệu Huấn luyện Kiểm thử Đánh giá

Số khuôn mặt giả mạo 611,298 188,450 684,853

Bảng 3.5 chỉ ra rằng tổng số lượng hình ảnh khuôn mặt là rất lớn Tôi đã tiến hành tách bộ dữ liệu SiW thành một phiên bản nhỏ hơn, được gọi là “SiW-mini” Trong mỗi video, khuôn mặt được hiển thị rõ ràng.

Khi xem video, các khuôn mặt trong các khung hình liền kề thường có sự tương đồng cao do sự thay đổi không đáng kể trong thời gian ngắn Để tối ưu hóa quá trình, tôi sẽ lấy khuôn mặt của các khung hình với bước nhảy 10, tức là chỉ chọn khuôn mặt từ mỗi khung hình thứ mười.

1, 10, 20,… trong một video Do đó, bộ dữ liệu SiW-mini có số lượng bằng ~10% so với bộ dữ liệu SiW gốc

Hình 3 5 Khuôn mặt của các khung hình liên tiếp không có sự khác biệt đáng kể

Thông số bộ dữ liệu SiW-mini được thể hiện trong bảng 3.6

Bảng 3 6 Số lượng hình ảnh khuôn mặt của bộ dữ liệu SiW-mini

Tổng số khuôn mặt 110,198 34,306 122,927 b Bộ dữ liệu Oulu-NPU [12]

Bộ dữ liệu Oulu-NPU chứa 4,950 video về khuôn mặt thật và giả mạo, được ghi lại bằng camera trước của sáu thiết bị di động trong nhiều điều kiện ánh sáng và bối cảnh khác nhau Các khuôn mặt giả mạo được tạo ra bằng hai loại máy in và hai màn hình hiển thị khác nhau.

Hình 3 6 Một số ảnh ví dụ về bộ dữ liệu Oulu-NPU [12]

Cụ thể hơn về bộ dữ liệu Oulu-NPU ta có:

Bộ dữ liệu Oulu-NPU được phân chia thành ba tập dữ liệu chính: tập huấn luyện, tập phát triển và tập đánh giá, với số lượng cụ thể được trình bày trong bảng 3.7.

Bảng 3 7 Chi tiết số lượng video trong bộ dữ liệu Oulu-NPU

Tập dữ liệu Huấn luyện Phát triển Đánh giá

Số video truy cập đúng 360 270 360

Số video tấn công giả mạo 1,440 1,080 1,440

Bộ dữ liệu Oulu-NPU khác với bộ dữ liệu SiW ở chỗ không có tệp chứa tọa độ khuôn mặt đi kèm Để khắc phục điều này, tôi đã sử dụng thư viện Opencv2 để trích xuất khuôn mặt từ các video Sau khi hoàn tất quá trình trích xuất, số lượng ảnh khuôn mặt được trình bày trong bảng 3.8.

Bảng 3 8 Số lượng hình ảnh khuôn mặt trích xuất ra được của bộ dữ liệu Oulu-NPU

Tập dữ liệu Huấn luyện Phát triển Đánh giá

Bảng 3.8 chỉ ra rằng số lượng hình ảnh khuôn mặt trong bộ dữ liệu Oulu-NPU không nhiều Để có đánh giá khách quan với bộ dữ liệu SiW, tôi sẽ tạo ra bộ dữ liệu nhỏ hơn từ Oulu-NPU, gọi là “Oulu-NPU-mini”, bằng cách chọn các khuôn mặt từ các khung hình 1, 3, 5,… trong video, với bước nhảy là 2 Thêm vào đó, tôi cũng sẽ sử dụng tập dữ liệu phát triển của Oulu-NPU để tạo ra tập dữ liệu kiểm thử cho Oulu-NPU-mini.

Bảng 3 9 Số lượng hình ảnh khuôn mặt của bộ dữ liệu Oulu-NPU-mini

3.2.2 Kịch bản và các thông số đánh giá kết quả a Kịch bản đánh giá

Trong quá trình thực hiện đề tài, tôi đã sử dụng hai bộ dữ liệu chính là SiW-mini và Oulu-NPU-mini cho các giai đoạn huấn luyện, kiểm thử và đánh giá.

Vì vậy, tôi đề xuất hai kịch bản đánh giá kết quả thực nghiệm triển khai mô hình, cụ thể như sau

Kịch bản đánh giá mô hình bao gồm hai phương pháp chính Kịch bản thứ nhất là đánh giá nội bộ, trong đó kết quả được tính toán trên chính tập dữ liệu đánh giá của bộ dữ liệu đã sử dụng để đào tạo mô hình, như SiW-mini và Oulu-NPU-mini Phương pháp này giúp xác định xem mô hình có đạt được hiệu suất tốt hay không và có xảy ra hiện tượng như overfitting hoặc underfitting hay không Kịch bản thứ hai là đánh giá chéo, trong đó kết quả được đánh giá trên tập dữ liệu khác với bộ dữ liệu huấn luyện Cụ thể, mô hình được đào tạo trên SiW-mini sẽ được kiểm tra trên Oulu-NPU-mini và ngược lại Điều này giúp đánh giá khả năng của mô hình khi áp dụng vào các tập dữ liệu khác, từ đó xác định tính khả thi của giải pháp trong thực tế.

Quá trình huấn luyện, kiểm thử và đánh giá mô hình được tiến hành trên máy tính cá nhân với các thông số cho trong bảng 3.10

Bảng 3 10 Cấu hình máy tính cá nhân sử dụng

STT Thiết bị Thông tin

1 Hệ điều hành Window 10, 64bit

5 HDD 2TB b Các thông số đánh giá

Trong hệ thống phân loại nhị phân, các thông số đánh giá thường được tính toán dựa trên hai loại lỗi chính: False Positive (FP) và False Negative (FN) Trong bối cảnh chống tấn công giả mạo, lớp Positive được xác định là khuôn mặt giả mạo, trong khi lớp Negative là khuôn mặt thật Do đó, False Positive (FP) xảy ra khi mô hình nhầm lẫn khuôn mặt giả mạo là khuôn mặt thật, và False Negative (FN) là khi mô hình nhận diện sai khuôn mặt thật thành khuôn mặt giả mạo Dựa trên các định nghĩa này, tôi tiến hành đánh giá mô hình thông qua các độ đo liên quan.

Tỷ lệ từ chối sai (FPR - False Positive Rate) là chỉ số phản ánh mức độ lỗi khi một người dùng hợp lệ bị hệ thống từ chối truy cập Nếu tỷ lệ lỗi này cao, việc truy cập của người dùng hợp lệ sẽ trở nên khó khăn, ảnh hưởng đến trải nghiệm người dùng và hiệu quả của hệ thống.

FNR – Tỉ lệ sai lệch âm (False Negative Rate) là tỉ lệ chấp nhận sai, tức là tỉ lệ lỗi khi hệ thống cho phép truy cập giả mạo Khi tỉ lệ này cao, khả năng phát hiện giả mạo của hệ thống sẽ giảm, dẫn đến việc dễ dàng chấp thuận các lượt truy cập không hợp lệ, gây ra nguy cơ lớn cho an ninh hệ thống.

Ứng dụng thực thi

3.3.1 Tổng quan ứng dụng thực thi

Sơ đồ tổng quan ứng dụng thực thi được mô tả trong hình 3.11

Ứng dụng thực thi được chia thành hai phần chính: phát hiện khuôn mặt và phân loại khuôn mặt thật hay giả mạo Các chức năng này được thực hiện thông qua các khối chức năng tương ứng.

Khối phát hiện khuôn mặt sử dụng ảnh RGB để nhận diện khuôn mặt dưới dạng các hộp giới hạn Các khuôn mặt trong các hộp này sẽ được đưa vào khối chức năng tiếp theo Để thực hiện việc phát hiện khuôn mặt, có thể sử dụng một số công cụ hoặc thư viện như dlib hoặc mtcnn Trong ứng dụng này, tôi chọn sử dụng thư viện dlib vì nó mang lại kết quả phát hiện khuôn mặt chính xác và nhanh chóng.

Khối phân loại thật/giả mạo sử dụng các bức ảnh chỉ chứa khuôn mặt làm đầu vào Qua mô hình đã được huấn luyện, quá trình phân loại sẽ xác định xem khuôn mặt đầu vào là thật hay giả mạo.

3.3.2 Thực thi ứng dụng a Dữ liệu cho ứng dụng Ứng dụng được triển khai và kiểm thử offline, nghĩa là dùng các video quay lại các lượt truy cập hệ thống làm đầu vào sau đó phát hiện xem lượt truy cập nào là thật hay giả mạo bằng cách phân loại các khuôn mặt trong video là khuôn mặt thật hay giả mạo Các video trên được quay lại ở khoảng cách gần (1.5 mét) với đủ ba dạng truy cập là truy cập hợp lệ (sử dụng khuôn mặt thật để truy cập), tấn công giả mạo bằng hình ảnh và tấn công giả mạo bằng video Các thiết bị sử dụng để tạo dữ liệu cho ứng dụng được liệt kê trong bảng 3.17

Bảng 3 17 Các thiết bị sử dụng để tạo dữ liệu cho ứng dụng

STT Tên thiết bị Mục đích sử dụng

1 Điện thoại Samsung Galaxy S9 Quay video các lượt truy cập làm đầu vào cho ứng dụng thực thi

Quay và hiển thị lại video cho tấn công giả mạo bằng video

In hình ảnh cho tấn công giả mạo bằng hình ảnh

Video đầu vào có độ dài 18 giây, tốc độ khung hình 30fps và độ phân giải fullHD (1920x1080)

Hình 3 12 Ví dụ về video tự xây dựng

Ứng dụng được phát triển bằng ngôn ngữ lập trình Python, sử dụng các thư viện học máy TensorFlow và Keras trên máy tính cá nhân với thông số cấu hình được nêu trong bảng 3.10 Đối với giải pháp chỉ sử dụng ảnh RGB, thời gian phân loại khuôn mặt thật và giả mạo trên kiến trúc MobileNetv2 và EfficientNetB0 được thống kê trong bảng 3.18.

Bảng 3 18 Thời gian phân loại khi sử dụng kiến trúc MobileNetv2 và EfficientNetB0 theo giải pháp chỉ sử dụng ảnh RGB

STT Kiến trúc mô hình

Thời gian phân loại trên

Hình 3 13 Ví dụ kết quả thực thi theo giải pháp chỉ sử dụng ảnh RGB

Giải pháp sử dụng ảnh RGB cho phép phân loại khuôn mặt thật và giả mạo với thời gian nhanh và độ chính xác cao trên GPU Nhờ vào phần cứng hiện đại, việc triển khai ứng dụng theo thời gian thực trở nên khả thi Trong khi đó, khi sử dụng thêm thông tin độ sâu, thời gian phân loại trên backbone EfficientNetB0 tăng lên 18.5 ms trên GPU do có thêm các nhánh tích chập giúp mô hình học hỏi thông tin sâu hơn.

Hình 3 14 Ví dụ kết quả thực thi theo giải pháp sử dụng thêm thông tin độ sâu

Tiêu đề	Chống Tấn Công Giả Mạo Bằng Ảnh, Video
Tác giả	Phan Minh Khuê
Người hướng dẫn	TS. Nguyễn Thị Oanh
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Mạng Máy Tính Và An Toàn Thông Tin
Thể loại	Luận Văn Thạc Sĩ
Năm xuất bản	2021
Thành phố	Hà Nội

Định dạng
Số trang	52
Dung lượng	2,6 MB