Nghiên cứu phương pháp nhận dạng và định danh người sử dụng deep learning

CỞ SỞ LÝ THUYẾT

Xử lý ảnh

Xử lý ảnh là một lĩnh vực quan trọng trong thị giác máy, bao gồm quá trình biến đổi ảnh ban đầu thành ảnh mới theo ý muốn người sử dụng Các hoạt động trong xử lý ảnh bao gồm phân tích, phân lớp, nâng cao chất lượng, phân đoạn và tách cạnh, cũng như gán nhãn cho các vùng trong ảnh Xử lý ảnh số, một nhánh của tin học ứng dụng, liên quan đến việc biến đổi và mã hóa các ảnh tự nhiên Mục tiêu của xử lý ảnh là cải thiện chất lượng ảnh, tự động nhận diện và đánh giá nội dung hình ảnh Phân tích hình ảnh thành các phần có ý nghĩa giúp phân biệt các đối tượng khác nhau, từ đó mô tả cấu trúc của ảnh ban đầu Một số phương pháp nhận dạng cơ bản bao gồm nhận diện đối tượng, tách cạnh và phân đoạn hình ảnh, được ứng dụng rộng rãi trong y học và nhận dạng chữ trong văn bản.

Trước khi đi sâu vào bài toán phát hiện giả mạo khuôn mặt, chúng ta cần biết một số khái niệm cơ bản trong xử lý ảnh Cụ thể:

+ Ảnh kỹ thuật số: là một dạng biểu diễn của ảnh ở dạng ma trận số 2 chiều

Hình 1.1-1 Ảnh kỹ thuật số

Độ phân giải ảnh là chỉ số thể hiện mức độ chi tiết mà một bức ảnh có thể hiển thị, với độ phân giải càng cao thì ảnh càng sắc nét và chi tiết hơn Ví dụ, độ phân giải VGA là 640 x 480, trong khi độ phân giải HD đạt 1280 x 720.

Hình 1.1-2 Độ phân giải của ảnh

Điểm ảnh (pixel) là đơn vị nhỏ nhất trong ảnh kỹ thuật số, đại diện cho một mẫu của hình ảnh Số lượng điểm ảnh càng nhiều, độ chính xác của ảnh kỹ thuật số càng cao, giúp tái hiện nội dung của ảnh gốc một cách chân thực hơn.

3 trưng của một điểm ảnh gồm 2 thành phần: tọa độ (x,y) và cường độ sáng (intensity)

+ Mức xám của ảnh (Grayscale):

Mức xám của ảnh, hay còn gọi là greyscale, đại diện cho độ sáng của từng điểm ảnh Trong xử lý ảnh hiện nay, mức xám phổ biến nhất là 256, với giá trị từ 0 đến 255.

Hình 1.1-3 Mức xám của ảnh

Ảnh màu được biểu diễn theo hệ màu RGB, sử dụng ba ma trận mức xám 256 cho ba màu chính: đỏ (R), lục (G) và lam (B) Màu sắc của mỗi điểm ảnh được xác định bởi giá trị cường độ tại ba ma trận màu tương ứng với cùng một tọa độ.

Hình 1.1-4 Ví dụ về ảnh màu

Trích xuất đặc trưng của ảnh dựa trên cường độ điểm ảnh cho thấy rằng hình ảnh có thể được coi như một ma trận, trong đó mỗi điểm ảnh biểu thị một màu sắc cụ thể.

Bằng cách định hình lại ma trận thành một vector đặc trưng, chúng ta có thể bao quát toàn bộ đặc tính của ảnh Quá trình này bao gồm việc ghép các hàng của ma trận lại với nhau, tức là làm phẳng ma trận để tạo ra một đại diện tổng quát hơn cho dữ liệu hình ảnh.

Optical Character Recognition (OCR) is a classic machine learning challenge, with handwritten text serving as a quintessential example of this problem.

Bộ dữ liệu viết tay của scikit-learn bao gồm hình ảnh thang độ xám (Grayscale) của hơn 1.700 chữ số từ 0 đến 9 Mỗi bức ảnh có kích thước 8x8 pixels, trong đó mỗi pixel được biểu thị bằng giá trị cường độ từ 0 đến 16, với màu trắng đại diện cho cường độ cao nhất (mức 0) và màu đen biểu thị cường độ thấp nhất (mức 16).

Hình 1.1-5 Ví dụ về dữ liệu viết tay của scikit-learning [2]

Phép biểu diễn bằng ma trận chỉ có khả năng thực hiện một số công việc cơ bản như nhận diện ký tự Tuy nhiên, khi làm việc với hình ảnh có độ phân giải cao, kích thước ma trận sẽ tăng theo, dẫn đến việc vector đặc trưng cũng sẽ trở nên lớn hơn.

Một hình ảnh thang độ xám có kích thước 100x100 sẽ tạo ra vector đặc trưng 10.000 chiều, trong khi hình ảnh thang độ xám kích thước 1920x1080 sẽ tạo ra vector đặc trưng lên đến 2.073.600 chiều.

Kỹ thuật này không chỉ gặp phải nhược điểm về kích thước lớn, mà còn bị ảnh hưởng bởi việc training ở các cường độ sáng tại những điểm pixel cụ thể Điều này làm cho mô hình sau khi được huấn luyện trở nên nhạy cảm với các yếu tố như thay đổi tỷ lệ, xoay và dịch chuyển ảnh.

Một model sau khi đã training sẽ không nhận diện được số 0 trong khi dịch vài pixels theo bất kỳ hướng nào, phóng to, xoay, một vài độ

Việc học hỏi từ cường độ điểm ảnh gặp khó khăn do mô hình dễ bị ảnh hưởng bởi sự thay đổi về ánh sáng Vì vậy, kỹ thuật này không hiệu quả cho các tác vụ liên quan đến ảnh chụp hoặc ảnh tự nhiên.

+ Trích xuất đặc trưng của ảnh thông qua những điểm đáng chú ý:

Kỹ thuật "Trích xuất các đặc tính của ảnh thông qua cường độ điểm ảnh" cho phép tạo ra vector đặc trưng bao gồm các giá trị hình ảnh và giá trị nhiễu Sau khi thực hiện preprocessing, chúng ta nhận thấy rằng giá trị của các pixel trắng không thực sự hữu ích Con người có khả năng nhận diện đối tượng mà không cần quan sát toàn bộ thuộc tính của nó Do đó, kỹ thuật này sẽ chỉ ra những đặc tính nổi bật của hình ảnh.

Cạnh và góc là hai loại điểm quan tâm phổ biến trong xử lý hình ảnh Cạnh được xác định là ranh giới nơi cường độ điểm ảnh thay đổi nhanh chóng, trong khi góc hình thành từ giao điểm của hai cạnh.

Convolution Neural Network

Mạng nơ-ron tích chập (Convolutional Neural Network - CNN) là một trong những mô hình Deep Learning tiên tiến và phổ biến nhất hiện nay Mô hình này cho phép xây dựng các hệ thống thông minh với độ chính xác cao, đặc biệt trong lĩnh vực xử lý ảnh.

Bảy hãng công nghệ hàng đầu thế giới như Facebook, Google, Baidu và Amazon đã tích hợp các chức năng thông minh vào sản phẩm của họ, bao gồm nhận diện khuôn mặt, phát triển xe tự lái, tìm kiếm hình ảnh và gợi ý sản phẩm cho người dùng.

Mạng nơ-ron tích chập (CNN) được phát triển nhằm cải tiến các mạng nơ-ron nhận tạo truyền thống trong việc học thông tin từ hình ảnh Các mạng nơ-ron truyền thống sử dụng liên kết đầy đủ giữa các điểm ảnh và các node, dẫn đến việc gia tăng nhanh chóng số lượng liên kết khi kích thước ảnh lớn, gây ra nhu cầu tính toán và lưu trữ rất lớn Hơn nữa, việc liên kết đầy đủ này cũng tạo ra sự dư thừa thông tin do nhiều vùng trong ảnh không cần thiết phải tính toán Mạng CNN ra đời với nhiều cải tiến về kiến trúc, đặc biệt là phép tích chập, từ đó mang lại hiệu quả cao hơn trong việc xử lý hình ảnh.

Mạng nơ-ron tích chập có cấu trúc khác biệt so với mạng nơ-ron thông thường, trong đó mạng nơ-ron thông thường xử lý đầu vào thông qua nhiều tầng ẩn liên kết chặt chẽ Mỗi tầng bao gồm một tập hợp các nơ-ron và kết nối đầy đủ với các nơ-ron ở tầng trước, với tầng cuối cùng đại diện cho dự đoán của mạng.

Hình 1.2-1 Mạng nơ-ron ba lớp thông thường [5]

Mạng nơ-ron Tích chập có cấu trúc ba chiều: rộng, cao và sâu Các nơ-ron trong mạng chỉ kết nối với một vùng nhỏ của lớp tiếp theo, thay vì liên kết hoàn toàn Cuối cùng, tầng đầu ra được tối giản thành một vector chứa các giá trị xác suất.

Hình 1.2-2 Mạng nơ-ron tích chập sắp xếp các nơ-ron trong 3 chiều

CNN gồm hai thành phần:

Phần lớp ẩn trong mạng nơ-ron đóng vai trò quan trọng trong việc trích xuất các đặc trưng thông qua các phép toán như tích chập và lấy mẫu Các phép toán này giúp mạng phát hiện và nhận diện các đặc điểm quan trọng từ dữ liệu đầu vào.

Phần phân lớp sử dụng một lớp với các liên kết đầy đủ để thực hiện nhiệm vụ phân loại các đặc trưng đã được trích xuất trước đó Tầng này cung cấp xác suất cho mỗi đối tượng xuất hiện trong hình ảnh.

Kiến trúc mạng CNN phổ biến [33]

Mạng LeNet-5, được phát triển bởi LeCun vào năm 1998, là mạng CNN đầu tiên được thiết kế cho phân loại ảnh, đặc biệt là phân loại chữ số Mạng này đã được một số ngân hàng sử dụng để nhận dạng chữ số viết tay trên các tờ séc Ảnh đầu vào của mạng có độ phân giải 32x32 pixel với màu xám, và để xử lý ảnh có độ phân giải cao hơn, cần có nhiều lớp Convolution hơn.

Hiện tại, sức mạnh tính toán của phần cứng còn hạn chế, khiến việc huấn luyện một mạng CNN với nhiều lớp trở nên khó khăn Dưới đây là mô hình mạng gồm 7 lớp.

AlexNet đã mang đến những cải tiến đáng kể trong phân loại ảnh, giảm tỷ lệ lỗi top-5 từ 26% xuống còn 15,3% Kiến trúc CNN này vượt trội hơn hẳn các phương pháp trước đó, với vị trí thứ hai chỉ đạt top-5 error 26,2% mà không sử dụng CNN.

The AlexNet architecture is similar to LeNet but features a deeper structure with more layers and a greater number of filters per layer, incorporating stacked convolutional layers It utilizes various convolution sizes, including 11x11, 5x5, and 3x3, along with max pooling, dropout, and data augmentation techniques ReLU activations are applied after each convolutional and fully connected layer, and the network is optimized using the Stochastic Gradient Descent (SGD) algorithm with momentum.

ImageNet required up to six days of processing time using two Nvidia GeForce GTX 580 GPUs, with the network divided into two pipelines This network was developed by the SuperVision Group, which includes notable members Alex Krizhevsky, Geoffrey Hinton, and Ilya Sutskever.

Hình 1.2-3 Kiến trúc mạng LeNet-5 cho nhận diện chữ số viết tay

Vào năm 2013 tại ILSVRC, kiến trúc mạng ZFNet, một biến thể của mạng CNN, đã giành chiến thắng với tỷ lệ lỗi top-5 là 14,8% Thành công này đạt được nhờ việc điều chỉnh các siêu tham số của mạng AlexNet, trong khi vẫn giữ nguyên kiến trúc của các thành phần mạng CNN tương tự như AlexNet.

GoogleNet, còn được gọi là Inception V1, đã giành chiến thắng trong ILSVRC 2014 với tỷ lệ lỗi top-5 chỉ 6,67% Kết quả này gần sát với hiệu suất của con người, khiến ban tổ chức phải xem xét lại cách đánh giá.

Hình 1.2-5 Kiến trúc mạng ZFNet

Việc đạt được độ chính xác vượt trội so với GoogleNet thực sự đòi hỏi nhiều nỗ lực và sự huấn luyện chuyên sâu Sau vài ngày đào tạo, chuyên gia Andrej Karpathy đã đạt được tỷ lệ lỗi top-5 là 5,1% (đánh giá một lần) và 3,6% (đánh giá nhiều lần) Mạng này được phát triển dựa trên kiến trúc LeNet nhưng tích hợp thêm module inception, mang lại hiệu suất cao hơn Quá trình đào tạo mạng sử dụng các kỹ thuật như Batch Normalization, biến dạng hình ảnh để tăng cường dữ liệu, cùng với thuật toán tối ưu RMSprop.

Machine learning [6]

Trong những năm gần đây, Trí Tuệ Nhân Tạo (AI) và Machine Learning (Học Máy) đã trở thành biểu tượng của cuộc cách mạng công nghiệp lần thứ tư AI đang thâm nhập vào mọi lĩnh vực trong đời sống, từ xe tự hành của Google và Tesla, hệ thống tự tag khuôn mặt trên Facebook, đến trợ lý ảo Siri của Apple và hệ thống gợi ý sản phẩm của Amazon Những ứng dụng như hệ thống gợi ý phim của Netflix và máy chơi cờ vây AlphaGo của Google DeepMind chỉ là một phần nhỏ trong vô vàn ứng dụng của AI và Machine Learning hiện nay.

Hình 1.3-1 Quá trình hình thành của Machine learning[4]

Machine Learning is a subset of Artificial Intelligence (AI) that enables computers to learn from data without explicit programming According to Wikipedia, it is defined as the field of computer science that grants machines the ability to learn autonomously In simple terms, Machine Learning focuses on developing algorithms that allow systems to improve their performance based on the input data they receive.

Trong lĩnh vực machine learning, định luật "No Free Lunch" chỉ ra rằng không tồn tại một thuật toán tối ưu cho tất cả các vấn đề, đặc biệt là trong học có giám sát, như mô hình tiên đoán Dưới đây là một số thuật toán machine learning hàng đầu thường được các nhà khoa học dữ liệu áp dụng.

Hồi quy tuyến tính [6] có lẽ là một trong những thuật toán nổi tiếng nhất và được hiểu rõ nhất trong thống kê và machine learning

Mô hình tiên đoán tập trung vào việc giảm thiểu sai sót và nâng cao độ chính xác của các dự đoán, đồng thời đảm bảo chi phí giải trình hợp lý Để đạt được mục tiêu này, chúng ta sẽ áp dụng và tận dụng các thuật toán từ nhiều lĩnh vực khác nhau, bao gồm cả thống kê.

Hình 1.3-2 Ví dụ về hồi quy tuyến tính[6]

Biểu diễn hồi quy tuyến tính là một phương trình mô tả đường thẳng phù hợp nhất cho mối quan hệ giữa các biến đầu vào (x) và biến đầu ra (y) Phương pháp này tìm kiếm các trọng số cụ thể cho các biến đầu vào, được gọi là các hệ số (B).

Chúng ta sẽ dự đoán y với biến x cho trước và mục tiêu của thuật toán hồi quy tuyến tính là tìm các giá trị cho các hệ số B0 và B1

Có nhiều kỹ thuật để xác định mô hình hồi quy tuyến tính từ dữ liệu, bao gồm phương pháp đại số tuyến tính cho phương pháp bình phương tối thiểu thông thường và tối ưu hóa bằng Gradient descent.

Hồi quy logistic là một thuật toán được áp dụng trong machine learning, xuất phát từ lĩnh vực thống kê Phương pháp này đặc biệt hiệu quả cho các bài toán phân loại nhị phân, nơi chỉ có hai lớp giá trị cần phân biệt.

Hồi quy logistic, tương tự như hồi quy tuyến tính, nhằm mục đích xác định các hệ số cho trọng lượng của từng biến đầu vào Tuy nhiên, khác với hồi quy tuyến tính, đầu ra dự đoán của hồi quy logistic được chuyển đổi thông qua một hàm không tuyến tính gọi là hàm logistic.

Hồi quy logistic cho phép chúng ta sử dụng các dự đoán như xác suất để xác định liệu một ví dụ dữ liệu thuộc lớp 0 hay lớp 1 Điều này rất hữu ích trong các tình huống mà chúng ta cần cung cấp nhiều lý do cho một dự đoán cụ thể.

Hồi quy logistic, giống như hồi quy tuyến tính, hoạt động hiệu quả hơn khi loại bỏ các thuộc tính không liên quan và các thuộc tính tương quan Đây là một mô hình học máy nhanh chóng và hiệu quả cho các vấn đề phân loại nhị phân.

Cây phân loại và hồi quy là những phương pháp học máy hiệu quả để xây dựng các mô hình dự đoán từ dữ liệu Các mô hình này được tạo ra thông qua việc phân vùng đệ quy không gian dữ liệu, giúp cải thiện độ chính xác trong việc dự đoán.

Cây quyết định là một công cụ mạnh mẽ để biểu diễn các phân vùng dự đoán, cho phép phân loại các biến phụ thuộc với giá trị hữu hạn không có thứ tự Trong khi đó, cây hồi quy được sử dụng cho các biến phụ thuộc có giá trị rời rạc liên tục hoặc có thứ tự, với sai số dự đoán thường được tính bằng chênh lệch bình phương giữa các giá trị quan sát và giá trị dự đoán.

Cây quyết định (decision trees) là một thuật toán quan trọng trong mô hình dự đoán machine learning Mô hình này được biểu diễn dưới dạng một cây nhị phân, trong đó mỗi nút đại diện cho một biến đầu vào (x) và một điểm phân chia trên biến đó, thường là biến số.

Hình 1.3-4 Cây phân loại và hồi quy [8]

Các node lá trong cây chứa biến đầu ra (y) dùng để dự đoán Dự đoán được thực hiện bằng cách di chuyển qua các nhánh của cây cho đến khi đến một node lá, từ đó lấy giá trị lớp tại node lá đó.

Cây có khả năng học nhanh chóng và dự đoán hiệu quả cho nhiều loại vấn đề Chúng thường mang lại độ chính xác cao mà không yêu cầu dữ liệu phải được chuẩn bị đặc biệt.

Naive Bayes (Hình 1.3-5) là một thuật toán đơn giản nhưng mạnh mẽ về mô hình tiên đoán

Mô hình bao gồm hai loại xác suất có thể được tính trực tiếp từ dữ liệu:

1) Xác suất của mỗi lớp;

2) Xác suất có điều kiện cho mỗi lớp với mỗi giá trị x

Kết luận

Chương đầu tiên giới thiệu về xử lý ảnh, các thuật toán Machine Learning và kiến trúc mạng CNN phổ biến, cung cấp nền tảng lý thuyết cần thiết để áp dụng trong các bài toán trí thông minh nhân tạo Trong đó, nhận diện và chống giả mạo khuôn mặt là những lĩnh vực đang phát triển mạnh mẽ hiện nay.

TỔNG QUAN VỀ HỆ THỐNG PHÁT HIỆN GIẢ MẠO KHUÔN MẶT

Khái niệm chống giả mạo khuôn mặt

Trong những năm gần đây, công nghệ nhận diện khuôn mặt đã được áp dụng rộng rãi trên các thiết bị điện tử và điện thoại thông minh nhằm tăng cường bảo mật hệ thống Tuy nhiên, một số hệ thống vẫn còn dễ bị mở khóa bởi các hình ảnh, video hoặc khuôn mặt giả, cho thấy rằng công nghệ này chưa thể hoàn toàn thay thế các phương thức bảo mật truyền thống như mã khóa, nhận diện vân tay và mống mắt Các tập đoàn công nghệ lớn như Samsung và Apple đã đầu tư đáng kể vào việc phát triển các thuật toán chống giả mạo khuôn mặt để nâng cao độ an toàn của hệ thống Sự tiện ích của công nghệ nhận diện khuôn mặt ngày càng được ứng dụng phổ biến trong kỷ nguyên công nghệ 4.0.

Tấn công giả mạo (spoofing attack) là sử dụng một số tham số sinh trắc học để đánh lừa hệ thống bảo mật bằng nhận diện khuôn mặt

Chống giả mạo (anti-spoofing) bao gồm các biện pháp bảo vệ nhằm ngăn chặn các cuộc tấn công giả mạo Các biện pháp này được thực hiện thông qua một loạt công nghệ và thuật toán được tích hợp vào hệ thống nhận dạng.

Tấn công trình bày (Presentation attack) là một lỗ hổng nghiêm trọng trong hệ thống nhận dạng khuôn mặt, cho phép kẻ xấu giả mạo danh tính bằng cách sử dụng hình ảnh hoặc video Những cuộc tấn công này có thể làm giảm độ tin cậy của công nghệ nhận diện, gây ra rủi ro cho an ninh và bảo mật thông tin Việc nâng cao khả năng phát hiện các cuộc tấn công trình bày là cần thiết để bảo vệ hệ thống khỏi những mối đe dọa này.

Các cuộc tấn công trực tiếp hoặc giả mạo vào hệ thống nhận dạng khuôn mặt đang thu hút sự quan tâm lớn từ cộng đồng sinh trắc học Sự phát triển nhanh chóng của công nghệ nhận diện khuôn mặt trong các ứng dụng thời gian thực đã tạo ra mối lo ngại về khả năng bảo vệ trước các cuộc tấn công, đặc biệt trong các tình huống không giám sát như kiểm soát biên giới tự động Mục tiêu chính của các cuộc tấn công này là làm hỏng hệ thống nhận dạng bằng cách sử dụng các tạo tác sinh trắc học Các loại tạo tác phổ biến bao gồm ảnh in, màn hình điện tử hiển thị ảnh khuôn mặt, phát lại video qua màn hình điện tử và mặt nạ 3D, tất cả đều cho thấy nguy cơ bảo mật cao đối với các hệ thống nhận diện khuôn mặt.

Phương pháp tấn công hệ thống nhận dạng khuôn mặt

Tấn công hệ thống nhận dạng khuôn mặt có thể chia thành 2 loại: trực tiếp và gián tiếp

Tấn công trực tiếp diễn ra dưới cấp độ cảm biến (camera) và nằm ngoài sự kiểm soát của nhà sản xuất hệ thống Trong tình huống này, kẻ tấn công cố gắng đánh lừa hệ thống mà không có cơ chế bảo vệ vật lý nào có thể áp dụng Trong loại tấn công này, kẻ xâm nhập giả trang thành một cá nhân khác bằng cách làm sai lệch đặc điểm sinh trắc học, từ đó đạt được lợi thế bất hợp pháp.

Hình 2.2-1 Phương pháp giả mạo khuôn mặt

Các cuộc tấn công trực tiếp được thể hiện như Hình 2.2-1 Tấn công trực tiếp bao gồm tấn công 2D và tấn công 3D

Các cuộc tấn công 2D sử dụng ảnh in khuôn mặt người lên giấy và video hiển thị trên màn hình các thiết bị điện tử

Hình 2.2-2 Tấn công bằng ảnh

Hình ảnh chụp danh tính bị tấn công có thể dễ dàng thu thập từ internet hoặc qua camera giấu kín Sau khi có ảnh, kẻ tấn công có thể in ra hoặc sử dụng màn hình điện tử để trình bày trước camera của hệ thống nhận dạng khuôn mặt, tạo ra nguy cơ cao cho an ninh của hệ thống.

Hình 2.2-3 Tấn công bằng video

Các cuộc tấn công video là một trong những mối đe dọa lớn đối với hệ thống nhận dạng khuôn mặt 2D, do khả năng thành công cao nhờ vào việc hiển thị hình ảnh sống động Ví dụ minh họa cho loại hình tấn công này được thể hiện trong Hình 2.2-3.

Các cuộc tấn công 3D có thể được thực hiện bằng cách sử dụng bản in 3D, điêu khắc hoặc mặt nạ, hoặc thông qua robot tinh vi để tái tạo biểu cảm với trang điểm Hình 2.2-4 minh họa một ví dụ điển hình về tấn công 3D sử dụng mặt nạ, cho thấy khả năng tái tạo khuôn mặt tinh xảo có thể dễ dàng đánh lừa các hệ thống nhận diện khuôn mặt.

Tấn công gián tiếp xảy ra khi kẻ xâm nhập có quyền truy cập vào hệ thống nhận dạng, cho phép họ thực hiện các hành động từ bên trong.

Khi kẻ tấn công gián tiếp xâm nhập vào hệ thống, chúng có thể giả mạo tính năng trích xuất, thao tác tham chiếu sinh trắc học, hoặc khai thác những điểm yếu trong hệ thống Để ngăn chặn các cuộc tấn công này, việc tăng cường tính bảo mật và niêm phong quyền truy cập vào các hệ thống nhận dạng là rất cần thiết.

Các phương thức chống giả mạo

Đề tài của tôi tập trung vào việc phát triển hệ thống phát hiện giả mạo khuôn mặt, với trọng tâm là phân tích các phương pháp chống lại các cuộc tấn công trực tiếp.

2.3.1 Các phương thức chống giả mạo 2D

2.3.1.1 Chống giả mạo bằng phương thức trích xuất đặc trưng thủ công

Trích xuất các đặc trưng thủ công cụ thể là LBP [15] (local binary pattern- mô hình nhị phân cục bộ)

Mô hình nhị phân cục bộ (LBP) là một kỹ thuật quan trọng trong phân tích hình ảnh kết cấu, giúp phát hiện giả mạo bằng cách ngưỡng hóa các pixel dựa trên các pixel lân cận Hình ảnh được chia thành các mảng nhỏ, trong đó các pixel xung quanh pixel trung tâm được lấy và trừ đi để tạo ra các đặc trưng hình ảnh Tuy nhiên, LBP đã trở nên lỗi thời và không còn phù hợp với các ứng dụng hiện đại.

30 dụng để chống lại một loạt các cuộc tấn công Nhưng nó có tác dụng khi được sử dụng kết hợp với các giải pháp khác

Kết quả âm được biểu thị bằng 0 và kết quả dương bằng 1, tạo thành chuỗi kết quả 0 và 1 theo chiều kim đồng hồ, được hiểu là số thập phân Các tính toán tương tự được áp dụng cho từng pixel trong mẫu, từ đó xây dựng một biểu đồ mô tả kết cấu của bản vá Biểu đồ từ tất cả các bản vá sau đó được nối lại, cung cấp các mô tả đặc trưng cho hình ảnh Những mô tả này có thể được sử dụng trong SVM hoặc các thuật toán phân loại khác Phương pháp này mang lại mô hình có kích thước nhẹ, rất hiệu quả khi áp dụng trong các thuật toán Machine Learning và xử lý ảnh.

Phương pháp này đã trở nên lỗi thời, có hiệu suất thấp và chỉ có thể chống lại các cuộc tấn công từ ảnh in 2D Nó không đủ khả năng bảo vệ trước các cuộc tấn công từ hình ảnh hoặc video hiển thị trên màn hình thiết bị điện tử.

2.3.1.2 Chống giả mạo bằng phương thức phát hiện nháy mắt

Phát hiện nháy mắt là một phương pháp chính xác để xác định sự sống của khuôn mặt, với con người trung bình chớp mắt từ 15 đến 30 lần mỗi phút Mỗi lần nháy mắt, mắt sẽ nhắm lại trong khoảng 250 mili giây Công nghệ ghi hình hiện đại có thể ghi lại video với độ phân giải cao, chỉ có khoảng cách 50 mili giây giữa các khung hình khi quay ở 30FPS, giúp tăng cường độ chính xác trong việc phát hiện nháy mắt.

31 Ưu điểm: phương pháp này cho ra kết quả khá tốt khoảng 95,7%, hệ thống chỉ sử dụng 1 camera RGB

Mặc dù phương pháp này mang lại kết quả cao, nó đã được phát triển từ năm 2007 và chỉ phù hợp với các thiết bị điện tử cũ Hiện nay, việc ghi lại video chất lượng cao với độ trễ thấp trở nên dễ dàng hơn, làm cho sự khác biệt giữa số lần nhắm mắt của người sống và trên thiết bị điện tử ngày càng thu hẹp.

2.3.1.3 Chống giả mạo bằng phương thức học sâu

Sự tiến bộ của mạng nơ ron tích chập (CNN) đã dẫn đến quan niệm rằng việc chống giả mạo khuôn mặt chỉ đơn giản là một bài toán phân loại nhị phân Tuy nhiên, không tồn tại bộ đặc trưng cụ thể nào mà các mạng này có thể nhận diện và hiểu rõ Hy vọng rằng các kernel tích chập được huấn luyện sẽ phát hiện ra những chi tiết mà con người không thể nhận thấy.

Hình 2.3-2 Ví dụ về ảnh thật và giả mạo

Hình 2.3-2 cho thấy rằng các biến dạng trên hình bên trái không thể nhìn thấy, trong khi hình bên phải thể hiện rõ các biến dạng đa dạng, phụ thuộc vào điều kiện môi trường và đặc điểm thiết bị Việc sử dụng CNN cho bài toán phân loại này mang lại độ chính xác rất cao.

Nhược điểm của việc sử dụng CNN là sự phụ thuộc quá lớn vào tập dữ liệu Hệ thống chống giả mạo khuôn mặt có thể hoạt động hiệu quả trong một bộ dữ liệu cụ thể, nhưng khả năng của nó sẽ giảm sút khi áp dụng vào các tập dữ liệu khác.

32 động rất kém trong điều kiện thực tế Sử dụng CNN đòi hỏi rất nhiều về phần cứng, chi phí giá thành để triển khai là rất lớn

2.3.1.4 Chống giả mạo bằng phương thức thách thức phản hồi

Kỹ thuật này sử dụng một hành động đặc biệt gọi là thách thức để xác minh sự hiện diện của một cá nhân trong chuỗi video Hệ thống phản ứng thách thức dựa trên nhiều loại thách thức như nụ cười, biểu cảm nỗi buồn hay hạnh phúc, và chuyển động đầu nhằm xác nhận danh tính Phương pháp này mang lại khả năng bảo mật cao mà không yêu cầu quá nhiều về thuật toán.

Nhược điểm: phương pháp này đòi hỏi một lượng lớn thời gian để thực hiện hết thách thức và gây bất tiện người dùng

2.3.2 Phương thức chống giả mạo 3D

Chống giả mạo dựa trên phân tích thông tin chiều sâu là phương pháp sử dụng camera 3D, mang lại độ tin cậy cao trong việc phát hiện các cuộc tấn công giả mạo Thông tin chiều sâu chính xác giúp phân biệt rõ ràng giữa khuôn mặt và hình dạng phẳng, từ đó nâng cao khả năng bảo mật Ưu điểm nổi bật của phương pháp này là khả năng chống lại các cuộc tấn công dưới dạng mặt phẳng với độ chính xác tuyệt đối.

Nhược điểm của việc chống giả mạo trong trường hợp in 3D hoặc mặt nạ là cần phải kết hợp nhiều phương pháp khác nhau Hơn nữa, chi phí sử dụng camera 3D hiện tại vẫn còn là một thách thức lớn.

Phương pháp phát hiện giả mạo khuôn mặt dựa trên phân tích đặc trưng ảnh RGB và NIR

Theo những phân tích ở trên, những phương thức chống giả mạo 2D chỉ sử dụng một camera cần sử dụng rất nhiều tài nguyên trong quá trình xử lý (phương

Phương pháp phát hiện giả mạo khuôn mặt dựa trên phân tích đặc trưng của ảnh RGB và NIR giúp khắc phục những hạn chế của các hệ thống hiện tại, như độ chính xác thấp và trải nghiệm người dùng kém Hệ thống sử dụng hai camera RGB và NIR để thu thập dữ liệu đầu vào, kết hợp với trích xuất đặc trưng thủ công nhằm phân tích sự khác biệt giữa ảnh người thật và giả mạo Thuật toán SVM được áp dụng để phân loại người thật và giả mạo, đảm bảo độ chính xác cao, tốc độ phát hiện nhanh và tối ưu hóa tài nguyên xử lý.

2.4.1 Tổng quan về hệ thống

Phương pháp chống giả mạo khuôn mặt dựa trên phân tích đặc trưng ảnh RGB và NIR được thể hiện như hình 2.4-1

Hình 2.4-1 Sơ đồ khối hệ thống chống giả mạo

Hệ thống phát hiện giả mạo khuôn mặt sử dụng ảnh RGB và NIR thu trực tiếp từ camera Khi cả hai loại ảnh đều phát hiện khuôn mặt, chúng sẽ được chuẩn hóa và đưa vào bộ phát hiện khuôn mặt như Dlib hoặc MTCNN để xác định vị trí các bộ phận trên khuôn mặt.

Khuôn mặt sau khi được trích xuất sẽ trải qua quá trình phân tích đặc trưng, bao gồm phản xạ ánh sáng từ ảnh RGB và NIR vùng má, đặc trưng HoG vùng mũi từ ảnh NIR, và độ sáng vùng đồng tử mắt cũng từ ảnh NIR Những đặc trưng này sẽ được kết hợp và đưa vào bộ phân loại SVM để xác định xem ảnh là thật hay giả.

2.4.2 Đặc điểm ảnh RGB, NIR

Việc khai thác đặc trưng từ ảnh RGB mà không sử dụng mạng CNN gặp nhiều khó khăn, đặc biệt khi hình ảnh chất lượng cao hoặc hiển thị trên điện thoại, máy tính bảng khiến việc quan sát trở nên khó phân biệt Do đó, việc sử dụng ảnh NIR là cần thiết cho hệ thống phát hiện giả mạo khuôn mặt.

Hình 2.4-2 Khác nhau giữa bước sóng của ánh sáng nhìn thấy và cận hồng ngoại [18]

Cấu tạo của mắt, giấy và màn hình LCD rất khác nhau, với các đèn LED trong màn hình LCD và mực in trên giấy A4 phát ra ánh sáng nhìn thấy Ánh sáng này bị chặn lại bởi bộ lọc của camera NIR, cho phép chụp ảnh các thiết bị thông qua camera.

Công nghệ NIR không thể nhận diện khuôn mặt khi sử dụng màn hình LCD hoặc in phun trên giấy A4, giúp ngăn chặn việc giả mạo Trong khi đó, hình ảnh in laser trên giấy A4 có thể hiển thị khuôn mặt rõ ràng dưới ánh sáng cận hồng ngoại, nhưng có sự khác biệt rõ rệt ở một số bộ phận trên khuôn mặt giữa ảnh NIR của người thật và ảnh in Chẳng hạn, mắt người có khả năng phản xạ tới 90% ánh sáng NIR, tạo ra sự khác biệt đáng kể.

2.4.3 Phát hiện vị trí khuôn mặt

Hiện nay, công nghệ phát hiện khuôn mặt đang ngày càng trở nên phổ biến và phát triển với độ chính xác cao và tốc độ phát hiện nhanh Phương pháp phát hiện khuôn mặt có thể được chia thành hai loại: một là dựa trên đặc trưng thủ công (hand-crafted features) và hai là dựa trên đặc trưng được trích xuất từ mạng nơ-ron tích chập (CNN).

Các phương pháp phát hiện truyền thống sử dụng kỹ thuật cửa sổ trượt và các đặc trưng thủ công như HOG, SIFT, LBP và SUFE, kết hợp với bộ phân loại như SVM để xác định sự hiện diện của khuôn mặt trong vùng cửa sổ Một ví dụ điển hình là thuật toán HOG-SVM detector, được triển khai trong thư viện Dlib.

Hình 2.4-3 Đặc trưng HOG của ảnh chứa khuôn mặt

Thuật toán Viola-Jones là một phương pháp nổi tiếng trong việc phát hiện đối tượng, đặc biệt là khuôn mặt Được giới thiệu bởi Paul Viola và Michael Jones trong bài báo "Rapid Object Detection using a" (Phát hiện đối tượng nhanh chóng), thuật toán này đã trở thành nền tảng cho nhiều ứng dụng nhận diện hình ảnh hiện nay.

Thuật toán "Boosted Cascade of Simple Features" được giới thiệu tại CVPR 2001 yêu cầu một lượng lớn ảnh khuôn mặt (ảnh tích cực) và ảnh nền không chứa khuôn mặt (ảnh nền) Quá trình này bao gồm việc trích xuất các đặc trưng từ những bức ảnh này thông qua các đặc trưng Haar.

Hình 2.4-4 Các đặc trưng Haar

Các hình chữ nhật được gọi là kernels, đóng vai trò quan trọng trong việc "chụp" các đặc trưng khuôn mặt như mũi, khoảng cách giữa hai lông mày và miệng Thuật toán thực hiện phép toán ma trận giữa giá trị pixel của ảnh và các kernels, từ đó thu được một giá trị đặc trưng bằng cách trừ tổng số pixel ở vùng chữ nhật trắng với tổng số pixel ở vùng chữ nhật đen.

Hình 2.4-5 Các đặc trưng Haar trên khuôn mặt ở các vị trí khác nhau [24]

Sau khi tính toán nhiều đặc trưng với kích cỡ và vị trí khác nhau của mỗi kernel, chỉ những đặc trưng quan trọng nhất được chọn, chẳng hạn như các đặc trưng liên quan đến vùng mắt và mũi trên khuôn mặt Để lựa chọn các đặc trưng tốt, thuật toán Adaboost được sử dụng, giúp tìm ra ngưỡng phân loại phù hợp cho các khuôn mặt thành positive và negative Quá trình này được lặp lại cho đến khi đạt được độ chính xác mong muốn Khi áp dụng thuật toán lên một bức ảnh, ảnh sẽ được chia thành các vùng nhỏ và đánh giá riêng biệt, thay vì áp dụng tất cả các đặc trưng đã chọn Các đặc trưng này được phân chia thành các giai đoạn của các bộ phân loại và được áp dụng từng cái một, phương pháp này được gọi là Cascade of Classifiers.

Hệ thống phát hiện khuôn mặt sử dụng thuật toán Viola-Jones áp dụng phương pháp trượt cửa sổ trên các ảnh từ image pyramid, cho phép xác định khuôn mặt ở các tỉ lệ khác nhau Image pyramid là tập hợp các ảnh có kích thước khác nhau được tạo ra từ ảnh gốc thông qua việc thay đổi kích thước Sau khi xác định các vùng khả thi, thuật toán NMS (Non-maxima suppression) được sử dụng để chọn ra vùng duy nhất cho mỗi khuôn mặt.

Hình 2.4-7 Ảnh trước và sau khi chạy thuật toán NMS

Gần đây, sự phát triển mạnh mẽ của trí tuệ nhân tạo, đặc biệt là học máy và học sâu, đã nâng cao độ chính xác trong việc phát hiện khuôn mặt.

Thay vì sử dụng các đặc trưng thủ công như trước đây, hiện nay các đặc trưng có thể được trích xuất tự động thông qua mạng nơ-ron tích chập (CNN) Việc áp dụng CNN cho phép thu được các đặc trưng tiêu biểu một cách hiệu quả và chính xác.

39 phương pháp này cho chất lượng tốt hơn các đặc trưng truyền thống điều này đã được kiểm chứng ví dụ như bộ MTCNN[27]detector

Kết luận

Chương 2 đã trình bày kiến trúc chung của hệ thống chống giả mạo khuôn mặt Chương này trình bày khảo sát về các phương pháp chống giả mạo khuôn mặt phổ biến trên thế giới Nhóm đã đưa ra phương pháp phát hiện giả mạo khuôn mặt khắc phục được nhưng hạn chế về của những phương pháp trên về mặt thiết bị, thuật toán và độ chính xác Chương cũng mô tả chi tiết phương pháp phát hiện giả mạo khuôn mặt sử dụng trình trích xuất đặc trưng cố định với 3 đặc trưng bao gồm đặc trưng ánh sáng vùng đồng tử mắt, đặc trưng HOG vùng mũi và đặc trưng tỷ lệ phản xạ ánh sáng

KẾT QUẢ VÀ ĐÁNH GIÁ

Tiêu đề	Nghiên Cứu Phương Pháp Nhận Dạng Và Định Danh Người Sử Dụng Deep Learning
Tác giả	Lê Xuân Hưng
Người hướng dẫn	TS Võ Lê Cường
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Kỹ Thuật Viễn Thông
Thể loại	luận văn thạc sĩ
Năm xuất bản	2020
Thành phố	Hà Nội

Định dạng
Số trang	79
Dung lượng	3,93 MB