ĐỀ TÀI CÁC PHƯƠNG PHÁP TẠO MẪU ảo TRONG NHẬN DIỆN KHUÔN MẶT

GIỚI THIỆU TỔNG QUAN

Giới thiệu

Trong những năm gần đây, công nghệ nhận dạng khuôn mặt đã đạt được những bước tiến vượt bậc nhờ vào các mô hình học sâu như Mạng thần kinh tích chập (CNN), với độ chính xác có thể vượt qua tiêu chuẩn của con người Ưu điểm nổi bật của nhận dạng khuôn mặt dựa trên học sâu là khả năng học cách trích xuất các tính năng mạnh mẽ từ các tập dữ liệu đào tạo quy mô lớn một cách hiệu quả.

Trong các ứng dụng nhận dạng khuôn mặt, như nhận dạng chứng minh nhân dân, hộ chiếu, xác nhận tư pháp và kiểm soát nhập học, thường chỉ sử dụng một mẫu đào tạo cho mỗi danh tính.

Nhận dạng khuôn mặt một mẫu cho mỗi người (SSPP) hay còn gọi là một mẫu cho mỗi người (OSPP) và một ảnh cho mỗi người (SIPP) là những phương pháp nhận dạng khuôn mặt với chỉ một hình ảnh duy nhất cho mỗi cá nhân Tuy nhiên, độ chính xác và khả năng tổng quát của các phương pháp truyền thống cũng như học sâu thường giảm sút trong tình huống SSPP Vì vậy, nhận dạng khuôn mặt trong bối cảnh SSPP vẫn là một thách thức lớn trong lĩnh vực công nghệ hiện nay.

Hình 1.1 Mối liên hệ giữa các vùng nghiên cứu

Nhận dạng khuôn mặt SSPP (xanh lam) là một vấn đề thuộc lĩnh vực học một lần (xanh lục), trong đó mỗi lớp chỉ có một mẫu được gán nhãn duy nhất Công nghệ này đã thu hút nhiều nghiên cứu và ứng dụng trong lĩnh vực nhận dạng hình ảnh.

Với sự phát triển của học sâu, phương pháp học một lần đang thu hút sự chú ý trong lĩnh vực dịch máy và phân tích ngữ nghĩa Tuy nhiên, việc áp dụng các phương pháp học một lần cho nhận dạng khuôn mặt SSPP gặp khó khăn do sự khác biệt lớn giữa các lớp trong tác vụ một lần, trong khi nhận dạng khuôn mặt SSPP yêu cầu phân loại chi tiết với sự khác biệt nhỏ hơn Vì vậy, việc tìm ra cách hiệu quả để áp dụng học sâu vào nhận dạng khuôn mặt SSPP vẫn là một thách thức quan trọng.

Tiếp cận

Các phương pháp nhận dạng khuôn mặt SSPP dựa trên học sâu được chia thành hai loại: phương pháp mẫu ảo và phương pháp học chung Việc áp dụng các mô hình học sâu thông thường cho nhiệm vụ SSPP với tập hợp đào tạo mẫu đơn ban đầu thường dẫn đến hiện tượng overfitting.

Một ý tưởng hiệu quả là phát triển các mẫu ảo nhằm mở rộng tập huấn luyện và chuyển đổi nhiệm vụ nhận diện khuôn mặt SSPP thành một nhiệm vụ nhận diện khuôn mặt đa mẫu tổng quát.

Loại phương pháp này được gọi là phương pháp mẫu ảo.

Virtual Image Generation (Tạo hình ảnh ảo)

Các phương pháp tạo hình ảnh ảo dựa trên Deep Learning chủ yếu sử dụng Bộ mã hóa tự động (AE) và Mạng đối kháng sinh (GAN) Các phương pháp AE đã được áp dụng rộng rãi, với phương pháp mới nhất là AE Fully Connected, cho phép tách các hình dạng và xác thực các thành phần trong biến tiềm ẩn thông qua học không giám sát Reed và cộng sự đã phát triển AE Máy Boltzmann Hạn chế (RBM) với cách tiếp cận giám sát một phần để phân tách thông tin nhận dạng và biến thể nội bộ Đối với biến đổi độ chiếu sáng, Deep Lambertian Networks (DLN) được đề xuất bởi Hinton, cho rằng khuôn mặt là Lambertian, sử dụng bề mặt bình thường và hệ thống Deep Belief Net (DBN).

4 số phản xạ albedo để cùng đại diện cho thông tin nhận dạng, và sử dụng vectơ góc ánh sáng để biểu thị các biến thể trong lớp

Mô hình AE áp dụng quy trình "mã hóa - phân tách và điều chỉnh các biến tiềm ẩn - giải mã" Li và cộng sự [14] xem việc tạo mẫu ảo như một bài toán tối ưu hóa, nhằm giảm thiểu tổn thất thuộc tính và mất danh tính Zhu và cộng sự [15] khai thác thông tin nhận dạng từ bộ mã hóa, kết hợp với việc lấy mẫu ngẫu nhiên nhiễu để tạo mẫu ảo Zhang và cộng sự [16] đã huấn luyện AE bằng tập dữ liệu phụ trợ và chuyển biến thể nội lớp thành mẫu duy nhất Để đảm bảo chất lượng tạo ra và giữ lại thông tin nhận dạng, các biến thể trong lớp được lấy từ các mẫu lân cận, điều này có thể hạn chế khả năng tạo biến thể trong lớp.

Một số phương pháp tạo mẫu ảo sử dụng GANs đã được nghiên cứu, trong đó Zakharov và cộng sự [17] đã khai thác các điểm đặc trưng khuôn mặt để thể hiện sự biến đổi trong lớp và áp dụng chiến lược siêu học nhằm tạo ra mẫu ảo chất lượng cao trong quá trình đào tạo Đồng thời, Choe và cộng sự [18] đã giới thiệu một phương pháp tạo mẫu ảo dựa trên Mạng đối phương tạo ra cân bằng (BEGAN), trong đó các biến tiềm ẩn được điều chỉnh cụ thể được nhập vào trình tạo BEGAN để thu được mẫu ảo.

Phương pháp nội suy các biến tiềm ẩn của khuôn mặt được nhân đôi để chuyển đổi tư thế có thể làm thay đổi thông tin nhận dạng trong mẫu ảo, đặc biệt là với các khuôn mặt có đặc điểm phân biệt dựa trên sự không đối xứng.

Hình 1.2 Kết quả của các phương pháp tạo ảnh ảo dựa trên học sâu

Do sự đa dạng trong các tập hợp đào tạo và hình ảnh khuôn mặt mẫu đầu vào, việc xác định phương pháp nào tạo ra kết quả tốt hơn là rất khó khăn Một câu hỏi mở khác là cách đánh giá chất lượng của các mẫu ảo được tạo ra So sánh độ chính xác của nhận dạng khuôn mặt là một phương pháp tiềm năng, tuy nhiên, nó sẽ bị ảnh hưởng nhiều bởi cấu trúc của mô hình nhận dạng.

CÁC PHƯƠNG PHÁP TẠO HÌNH ẢNH ẢO

Nhận dạng khuôn mặt sử dụng mạng thần kinh kiến trúc sâu

Trong bài viết này, tác giả trình bày một mô hình mạng thần kinh lấy cảm hứng từ não bộ, có khả năng học ánh xạ phi tuyến giữa không gian hình ảnh và không gian thành phần Mô hình mạng nơron sâu được sử dụng để tách các thành phần tư thế từ một người, từ đó tổng hợp hình ảnh ảo của dữ liệu thử nghiệm trong nhiều tư thế và điều kiện ánh sáng khác nhau Những hình ảnh ảo này sau đó được sử dụng để đào tạo bộ phân loại mạng thần kinh.

Kết quả cho thấy rằng việc đào tạo bộ phân loại thần kinh với hình ảnh ảo đạt hiệu suất vượt trội hơn so với phương pháp đào tạo sử dụng hình ảnh xem trực diện.

Thiết kế mạng neural sâu cho phép xử lý thông tin hình ảnh phi tuyến tính, đặc biệt là trong nhận diện khuôn mặt Các hình ảnh khuôn mặt chứa hai loại thông tin chính: tư thế và thông tin về người Bằng cách trích xuất các thành phần độc lập, chúng ta có thể tách biệt hai loại thông tin này Sau khi sử dụng mạng neural sâu để phân biệt, hệ thống sẽ tổng hợp các hình ảnh ảo dựa trên hình ảnh nhìn trực diện và các thành phần đã được trích xuất trước đó.

Hình 2.1.1 Sơ đồ khối của quy trình hệ thống nhận dạng khuôn mặt

• Chuẩn hóa hình ảnh ở các tư thế khác nhau một cách phi tuyến tính

Mở rộng kích thước tập huấn luyện bằng cách kết hợp thông tin trước đó, sử dụng mạng nơ-ron phi tuyến để tạo ra các biểu diễn mới cho hình ảnh đầu vào Mạng nơ-ron này hoạt động như một bộ mã tự động, giúp tổng hợp và cải thiện chất lượng dữ liệu.

Mạng hóa bao gồm hai thành phần chính: mạng nhận dạng và mạng tổng hợp Mạng nhận dạng hoạt động như một bộ mã hóa, chuyển đổi đầu vào thành mã có chiều thấp, trong khi mạng tổng hợp đóng vai trò là bộ giải mã, chuyển đổi mã trở lại thành bản tái tạo của đầu vào.

Mục đích của nghiên cứu này là ước tính sự đa dạng phi tuyến của các biến thể tư thế Để đạt được điều này, một mô hình xử lý thông tin thần kinh phi tuyến đã được áp dụng nhằm phân tách giữa tư thế và thông tin của người.

A Nonlinear neural information processing: Xử lý thông tin thần kinh phi tuyến Giả sử rằng 𝑥̅ là hình ảnh trực diện, được nhúng vào nhiều thứ khác nhau tương ứng, ta có:

Trong nghiên cứu này, 𝑋̅ 𝑗 đại diện cho tư thế thứ j, trong khi 𝑣 𝑗 có thể là bất kỳ giá trị nào áp dụng cho hình ảnh xem trực diện trong không gian hình ảnh đầu vào để tạo ra tư thế mới Để ước lượng chính xác đa dạng các biến thể tư thế, việc ước lượng 𝑣 𝑗 là cần thiết Hơn nữa, việc tách biệt 𝑣 𝑗 khỏi 𝑥̅ cần được thực hiện một cách chính xác nếu 𝑋 𝑗 có sẵn.

Để khai thác các thành phần phi tuyến từ tín hiệu của các nguồn khác nhau, chúng ta cần trích xuất các thành phần độc lập phi tuyến tương ứng với các tư thế khác nhau Kết hợp những thành phần này với các yếu tố liên quan đến hình ảnh xem trực diện sẽ giúp tạo ra những hình ảnh ảo đa dạng.

Vì vậy, sử dụng một mạng nơron sâu tự động tương tác được minh họa trong hình 2.1.3, để tách các thành phần này

Hình 2.1.2 Sơ đồ tách thông tin người khỏi thông tin tư thế

Hình 2.1.3 Cấu trúc mạng nơ ron phi tuyến cho phân nhóm thông tin người

Trong mạng lưới thần kinh được đề xuất, tế bào thần kinh lớp nút cổ chai được chia thành hai phần: phần tư thế được đào tạo theo cách có giám sát, trong khi mạng người được đào tạo bằng thuật toán học tập không giám sát Trong quá trình đào tạo, các hình ảnh khác nhau của từng người trong cơ sở dữ liệu được sử dụng để tính toán trung bình của nhóm nơ-ron đặc điểm, và mã trung bình này được áp dụng làm mã của người trong phần đào tạo bộ giải mã.

Trong phương trình này, M đại diện cho mã trung bình của một cá nhân, γ là hệ số hiệu quả của mã mới (được chọn là 0,95), và P là mã của hình ảnh mới.

Trong mỗi giai đoạn, việc sao chép ngược không chỉ lỗi đầu ra mà còn cả lỗi giữa mã mới và các mã trước đó là cần thiết Phương pháp mới lạ này cho phép tạo ra một mã đặc biệt trong lớp nút cổ chai, giúp phân nhóm thông tin người một cách hiệu quả và không cần giám sát.

Mô hình phân cụm thông tin người đề xuất bao gồm sáu lớp mô-đun phi tuyến, với các tham số ở nhiều mức độ trừu tượng Các hàm cấp thấp hơn giúp trích xuất các khía cạnh đơn giản của phân phối dữ liệu, và thông qua việc tổ chức chúng, các khía cạnh phức tạp hơn có thể được học.

Phương pháp học tập này phản ánh cách mà bộ não con người hoạt động: bắt đầu từ việc tiếp thu các khái niệm đơn giản, sau đó tổ chức và tổng hợp chúng để hình thành những khái niệm trừu tượng phức tạp hơn.

Lấy cảm hứng từ cấu trúc não bộ, các kỹ sư phân chia giải pháp thành nhiều cấp độ trừu tượng để xử lý hiệu quả Hình 2.1.4 minh họa đường cong sai số của mạng nơ ron trong quá trình huấn luyện thông tin phi tuyến.

Phân tách đặc trưng của biến thể với Manifold Interaction

Reed và cộng sự đã áp dụng AE Máy Boltzmann Hạn chế (RBM) với cấu trúc tương tự, nhưng họ sử dụng phương pháp giám sát một phần để phân tách thông tin nhận dạng và biến thể nội bộ.

Tác giả đề xuất sử dụng nhiều tọa độ khác nhau để mô hình hóa sự tương tác giữa các yếu tố liên quan đến biến thể Để giải quyết vấn đề này, một máy Boltzmann bậc cao hơn được giới thiệu, kết hợp các tương tác giữa các nhóm đơn vị ẩn, với mỗi nhóm học cách mã hóa một hệ số biến thiên riêng biệt Mô hình này đạt hiệu suất cao trong nhận dạng cảm xúc và xác minh khuôn mặt trên Cơ sở dữ liệu khuôn mặt Toronto, đồng thời chứng minh khả năng tách rời trên bộ dữ liệu CMU Multi-PIE Các yếu tố như tư thế, hình dạng và ánh sáng kết hợp để tạo ra hình ảnh 3D, trong khi hình thái và biểu cảm tạo ra hình ảnh khuôn mặt Mặc dù có nhiều yếu tố thay đổi cho các phương thức khác, phần này sẽ tập trung vào việc mô hình hóa hình ảnh.

Hình 2.2.1 Minh họa về cách tiếp cận đối với tư thế tạo mẫu và các biến thể nhận dạng trong hình ảnh khuôn mặt

Khi xác định danh tính, việc di chuyển theo “sợi” tương ứng (được biểu thị bằng hình elip màu đỏ) sẽ dẫn đến sự thay đổi tư thế Đồng thời, khi cố định tư thế, việc di chuyển qua mặt cắt dọc (được tô bóng trong hình chữ nhật màu xanh lam) sẽ ảnh hưởng đến nhận dạng Mô hình của chúng ta ghi nhận sự tương tác giữa tư thế và tọa độ nhận dạng để tạo ra hình ảnh chính xác.

Hình ảnh có thể giúp lưu giữ thông tin về các yếu tố cơ bản của sự thay đổi, vì hiểu biết về một yếu tố có thể cải thiện ước tính của các yếu tố khác Chẳng hạn, việc ước lượng tư thế tốt có thể hỗ trợ trong việc suy ra chính xác hình thái khuôn mặt và ngược lại.

Khi hình ảnh đầu vào chịu ảnh hưởng từ nhiều yếu tố khác nhau, chúng thường nằm trên một đa tạp phức tạp, điều này gây khó khăn trong việc học các biểu diễn hữu ích.

Các hình ảnh khuôn mặt với những đặc điểm nhận dạng và góc nhìn khác nhau tạo nên sự đa dạng trong danh tính và góc nhìn.

Khi xem xét ảnh khuôn mặt của một người từ các góc độ khác nhau với độ cao cố định, quỹ đạo của các bức ảnh sẽ tạo thành một sợi hình vòng, hình thành đường góp phụ nối liền giữa các sợi ảnh.

Sử dụng máy Boltzmann bậc cao để mô hình hóa phân bố các đặc điểm hình ảnh và yếu tố tiềm ẩn của sự biến đổi, cho phép gỡ rối hiệu quả các yếu tố thay đổi Mỗi nhóm đơn vị ẩn nhạy cảm với những thay đổi trong yếu tố biến đổi tương ứng và tương đối bất biến với những nhóm khác Các biến thể mô hình được coi là các máy Boltzmann tháo rời nhau, đạt hiệu suất nhận dạng cảm xúc và xác minh khuôn mặt hiện đại nhất trên cơ sở dữ liệu Toronto (TFD), cũng như hiệu suất mạnh mẽ trong ước tính tư thế và xác minh khuôn mặt trên CMU Multi-PIE.

Trong bài viết này, chúng ta sẽ khám phá máy Boltzmann hạn chế (RBM), một mô hình đồ họa vô hướng hai cực với D đơn vị hiển thị nhị phân và K đơn vị ẩn nhị phân Phân bố chung và chức năng năng lượng của RBM được xác định một cách cụ thể.

Trong mô hình RBM, Z là hàm phân vùng, Wik là trọng số giữa các đơn vị ẩn i và k, bk là các thành kiến ẩn, và ci là các thành kiến hiển thị Các đơn vị trong cùng một lớp là độc lập có điều kiện so với các đơn vị trong lớp khác, và các phân phối có điều kiện được tính toán dựa trên các yếu tố này.

Hàm logistic được sử dụng trong mạng Boltzmann hạn chế (RBM), cho phép tối đa hóa khả năng log-likelihood của dữ liệu thông qua phương pháp giảm gradient ngẫu nhiên Mặc dù gradient không thể đo trực tiếp, ta có thể ước lượng nó thông qua phương pháp phân kỳ tương phản (CD) theo Hinton (2002).

Để đơn giản hóa, giả sử có hai nhóm đơn vị ẩn h và m, mặc dù có thể thêm nhiều nhóm khác Nếu có nhãn sẵn có, chúng có thể được kết hợp với các đơn vị e.

Hình 2.2.2 Các đơn vị nhãn e kết hợp với các đơn vị ẩn m

Mô hình giả định tương tác nhân ba chiều giữa D đơn vị hiển thị v ∈ {0,1} D và hai nhóm đơn vị ẩn h ∈ {0,1} K và m ∈ {0,1} L được minh họa trong Hình 2.2.2 Hàm năng lượng của mô hình này được định nghĩa rõ ràng để phản ánh mối quan hệ giữa các đơn vị.

Hình 3: cấu trúc RNN của mô hình

Các mũi tên chỉ hướng truyền về phía trước trong một số yếu tố thay đổi, chúng ta có thể

Kẹp các đơn vị ẩn tương ứng giống nhau giữa hai điểm dữ liệu giúp mô hình hóa hình thái khuôn mặt chung từ hai hình ảnh của cùng một người Điều này cho phép các đơn vị ẩn khác giải thích sự khác biệt về tư thế hoặc biểu cảm.

Mỗi nhóm đơn vị ẩn đại diện cho một phép nhúng hữu ích gắn liền với hệ số biến đổi của nó Trong quá trình nhúng, các cặp dữ liệu tương ứng cần được đặt gần nhau, trong khi các cặp dữ liệu không tương ứng nên được phân tách xa nhau.

2.2.3 Kết quả thí nghiệm: Đánh giá hiệu suất mô hình trên một số cơ sở dữ liệu hình ảnh:

Deep Lambertian Networks

Deep Lambertian Networks kết hợp giữa Deep Belief Net và giả định phản xạ Lambertian, liên quan đến sự thay đổi chiếu sáng trong nhận thức thị giác Mô hình phản xạ Lambertian cung cấp một đại diện bất biến chiếu sáng, hữu ích cho việc nhận dạng Dựa trên Deep Belief Net (DBN), mô hình này sử dụng pháp tuyến và hệ số phản xạ albedo để biểu diễn thông tin nhận dạng, đồng thời sử dụng các vector góc ánh sáng để thể hiện các biến thể trong lớp.

Mục tiêu của nghiên cứu này là cải thiện khả năng nhận dạng one-shot và tạo ra hình ảnh với ánh sáng mới Sự thay đổi hướng và cường độ ánh sáng có thể ảnh hưởng tiêu cực đến hiệu suất nhận dạng, do hầu hết các thuật toán dựa vào cường độ hình ảnh làm đầu vào Để khắc phục vấn đề này, chúng tôi sẽ phát triển một mô hình trong đó các yếu tố như hệ số phản xạ albedo, bề mặt pháp tuyến và ánh sáng được thể hiện rõ ràng dưới dạng các biến tiềm ẩn.

*Bối cảnh nghiên cứu (Vì sao đề tài này cần được nghiên cứu):

Nhận thức thị giác gặp nhiều thách thức, đặc biệt là do sự thay đổi độ chiếu sáng Một giải pháp hiệu quả là ước lượng các đặc trưng bất biến của độ chiếu sáng để phục vụ cho việc nhận dạng Hệ số phản xạ albedo và bề mặt pháp tuyến là những yếu tố quan trọng trong quá trình này Bài viết sẽ trình bày một mô hình sinh nhiều lớp, trong đó các biến tiềm ẩn bao gồm hệ số phản xạ albedo, bề mặt pháp tuyến và nguồn sáng.

Kết hợp mạng niềm tin sâu sắc (Deep Belief Nets) với giả định về độ phản xạ Lambertian, mô hình có khả năng học các hệ số phản xạ albedo từ hình ảnh 2D Sự biến đổi về độ chiếu sáng được giải thích thông qua việc thay đổi biến tiềm ẩn chiếu sáng trong mô hình.

Belhumeur và Kriegman (1996) đã chứng minh rằng tập hợp hình ảnh của một vật thể dưới các điều kiện ánh sáng khác nhau tạo thành một hình nón đa diện, được gọi là hình nón chiếu sáng, với giả định rằng vật thể có phản xạ Lambertian và vị trí của nó là cố định.

(Ước lượng hệ số phản xạ albedo và bề mặt pháp tuyến từ một hình ảnh duy nhất)

Mô hình phản xạ Lambertian được mô tả qua sơ đồ trong Hình 2.3.1, trong đó l ∈ R^3 đại diện cho hướng ánh sáng chiếu vào, còn ni ∈ R^3 là vector pháp tuyến bề mặt, vuông góc với mặt phẳng tiếp tuyến tại một điểm cụ thể trên bề mặt.

Bài báo này sẽ giới thiệu một mô hình tổng quát:

(a) kết hợp albedo, các bề mặt pháp tuyến và ánh sáng làm các biến tiềm ẩn;

(b) sử dụng tương tác nhân để tính gần đúng mô hình phản xạ Lambertian;

(c) học từ tập hợp các hình ảnh 2D về sự phân bố trên các hình dạng đối tượng 3D;

(d) có khả năng nhận dạng một lần từ một ví dụ huấn luyện duy nhất

Gaussian Restricted Boltzmann Machines (GRBM) được sử dụng để mô hình hóa hệ số phản xạ albedo và các tiêu chuẩn bề mặt GRBM có thể được coi là một hỗn hợp các Gaussian đường chéo với các tham số chia sẻ, trong đó số lượng thành phần hỗn hợp tỷ lệ với số lượng các nút ẩn Với sự hiện diện của các nút có thể nhìn thấy và các nút ẩn, năng lượng của cấu hình khớp được xác định bởi một công thức cụ thể.

Các phân phối có điều kiện cần thiết để suy luận và tạo ra được đưa ra bởi:

DLN là mô hình kết hợp giữa các DBN và mô hình phản xạ Lambertian, được sử dụng phổ biến để mô phỏng biến thể độ chiếu sáng trên các bề mặt vật thể khuếch tán Theo mô hình Lambertian, cường độ pixel thứ i được mô hình hóa là vi, với albedo (hệ số phản xạ khuếch tán) phụ thuộc vào vật liệu và độ chiếu sáng là bất biến Điều đặc biệt là hình ảnh của một vật thể có thể được tạo ra trong các điều kiện ánh sáng khác nhau mà không làm thay đổi albedo và các tiêu chuẩn bề mặt, nhờ vào các phép nhân trong các biến ẩn trong mô hình Lambertian.

Trong DLN, lớp hiển thị bao gồm cường độ pixel hình ảnh v ∈ R^Nv, với Nv là số pixel trong hình ảnh Các biến ẩn lớp đầu tiên bao gồm hệ số phản xạ albedo, chuẩn bề mặt và vectơ nguồn sáng Mỗi pixel i có hai biến ngẫu nhiên tiềm ẩn: hệ số phản xạ albedo ai ∈ R^1 và bề mặt chuẩn ni ∈ R^3 Hệ số phản xạ albedo của ảnh được biểu diễn bằng a ∈ R^Nv, trong khi ma trận chuẩn bề mặt N có kích thước Nv × 3, với ni là hàng thứ i của N Biến nguồn sáng l ∈ R^3 chỉ hướng của nguồn sáng trong hiện trường Chúng tôi sử dụng GRBM để lập mô hình cho hệ số phản xạ albedo và chuẩn bề mặt, cùng với một Gaussian trước khi mô hình hóa l Việc sử dụng GRBM là quan trọng do chúng tôi mong đợi sự phân bố trên hệ số phản xạ albedo và pháp tuyến là đa phương thức.

Mô hình đồ họa của Deep Lambertian Network thể hiện các quả cân màu vàng mô phỏng chuẩn bề mặt, trong khi các quả cân màu xanh lá cây đại diện cho hệ số phản xạ albedo Vectơ hướng nguồn sáng, được chỉ ra bằng mũi tên bên trái, hướng về phía nguồn sáng và được chia sẻ cho tất cả các pixel trong hình ảnh Để có được màu sắc tối ưu, việc xem hình ảnh trong điều kiện ánh sáng phù hợp là rất quan trọng.

Hình 2.3.3 Các ví dụ từ cơ sở dữ liệu khuôn mặt mở rộng Yale B Mỗi hàng chứa các mẫu từ một tập hợp con chiếu sáng

Hình 2.3.4 Các mẫu ngẫu nhiên sau 50.000 Gibbs lặp lại của Deep Belief Network mô hình hóa hệ số phản xạ albedo đã học trước đó

Hình 2.3.5 Bên trái: 1 ảnh test đầu vào duy nhất

Phải: Các mẫu trung gian trong quá trình lấy mẫu Gibbs xen kẽ: các lần lặp từ 1 đến 50 Hàng trên cùng chứa hệ số phản xạ albedo ước tính

Hàng dưới cùng bao gồm các chuẩn bề mặt ước tính, trong đó các hệ số phản xạ albedo và bề mặt pháp tuyến được khởi tạo với độ lệch rõ rệt so với các GRBM tương ứng.

Kết quả suy luận được trình bày bên trái, chỉ dựa vào một hình ảnh thử nghiệm duy nhất Cột đầu tiên hiển thị các hình ảnh kiểm tra, cột thứ hai thể hiện hệ số phản xạ albedo, và cột thứ ba cung cấp các chỉ tiêu bề mặt.

Giữa: Kết quả cải thiện một chút khi sử dụng hình ảnh thử nghiệm bổ sung với độ sáng khác

Sử dụng hệ số phản xạ albedo ước tính và chuẩn bề mặt, chúng tôi trình bày hình ảnh tổng hợp trong các điều kiện ánh sáng mới.

Hình 2.3.7 Kết quả nhận dạng trên cơ sở dữ liệu khuôn mặt Yale B

NN: nearest neighbor DBN: Deep Belief Network Correlation: normalized cross correlation SVD: singular value decomposition DLN: Deep Lambertian Network

Mô hình tổng hợp này bao gồm các biến tiềm ẩn quan trọng và các phương pháp mô phỏng mô hình phản xạ Lambertian Việc nghiên cứu các bất biến độ chiếu sáng trực tiếp từ dữ liệu sẽ giúp nâng cao khả năng nhận diện one-shot và tạo ra hình ảnh với ánh sáng hướng mới.

Mạng tích chập cho việc tạo khuôn mặt con người theo hướng thuộc tính và bảo tồn danh tính

và bảo tồn danh tính:

Li và cộng sự [14] xem việc tạo ra các mẫu ảo là một vấn đề tối ưu hóa, trong đó họ giảm thiểu tổn thất thuộc tính và mất danh tính để tạo ra các mẫu đích Các mô hình tạo khuôn mặt dựa trên CNN thường không giữ được danh tính của khuôn mặt được tạo ra hoặc hình ảnh khuôn mặt tham chiếu Để giải quyết vấn đề này, nhóm nghiên cứu đã đề xuất một mô hình tối ưu hóa nhằm tạo khuôn mặt người với các thuộc tính cụ thể, đồng thời vẫn giữ nguyên danh tính của hình ảnh tham chiếu.

Các thuộc tính có thể được trích xuất từ hình ảnh hướng dẫn hoặc bằng cách điều chỉnh các đặc điểm của hình ảnh tham chiếu Sử dụng mạng tích chập sâu "VGG-Face", hàm loss được xác định trên các bản đồ đặc trưng convolutional Tiếp theo, chúng ta áp dụng thuật toán gradient descent để tối ưu hóa vấn đề này.

Mô hình dựa trên hình ảnh 2D mà không cần tạo mô hình 3D

2.4.2 Chi tiết phương pháp: Áp dụng mạng VGG-Face được đào tạo trên một tập dữ liệu quy mô rất lớn để nhận dạng khuôn mặt

Mô hình tối ưu hóa bao gồm các thuật ngữ thuộc tính, nhận dạng và chính quy để tạo ra khuôn mặt sắc nét từ hình ảnh trống Thuật toán gradient descent được áp dụng thông qua backpropagation của VGG-Face nhằm tối ưu hóa quá trình tạo khuôn mặt Để giảm thiểu sai lệch màu sắc so với hình ảnh tham chiếu, phương pháp chuyển màu được học thêm, giúp hình ảnh tạo ra hòa hợp với không gian màu của khuôn mặt tham chiếu.

Mặt nạ thuộc tính để cải thiện chất lượng hình ảnh được tạo ra

Face generation for attribute transfer:

Perceptual loss được sử dụng để đánh giá sự tương đồng giữa các hình ảnh dựa trên thuộc tính và nhận dạng Thay vì yêu cầu hai hình ảnh phải giống nhau hoàn toàn ở mức độ pixel, phương pháp này tập trung vào việc so sánh nội dung của hai ảnh để đảm bảo chúng có sự tương đồng về mặt ý nghĩa.

VGG-Face là một mô hình được đào tạo trên tập dữ liệu khuôn mặt quy mô lớn, cho thấy hiệu suất xuất sắc trong nhận dạng khuôn mặt Mô hình này sử dụng VGG-Face để mô hình hóa Perceptual loss, với 5 lớp tích chập đầu tiên giúp trích xuất các đặc điểm chung từ hình ảnh.

(Các lớp tích chập sâu hơn bị bỏ sót do hiệu suất kém trong việc tái tạo hình ảnh)

Mất mát thuộc tính là hiện tượng được mô hình hóa trên một tập hợp hình ảnh chứa các thuộc tính đã được trích xuất từ dữ liệu LFW Giả định rằng các hình ảnh này có cùng tư thế và thuộc tính giống nhau do con người xác định Các thuộc tính khác được lấy mẫu độc lập từ phân phối tương ứng Với kích thước tập hợp đủ lớn, việc sử dụng chung các hình ảnh khuôn mặt sẽ giúp nâng cao các thuộc tính đã cho trong khi ngăn chặn sự ảnh hưởng của các thuộc tính khác.

Identity loss: được sử dụng để khuyến khích mặt mục tiêu giữ cùng danh tính với mặt tham chiếu

Có 2 cách để cải tiến:

• Adding Spatial Masks for Attributes

• Transforming the Color of Generated Face

Việc thêm mặt nạ vào quá trình tạo khuôn mặt giúp duy trì các thuộc tính khác một cách hiệu quả Hình 2.4.2 (a) minh họa rằng khi tạo ra khuôn mặt có thuộc tính "đeo kính" từ khuôn mặt tham chiếu, việc sử dụng mặt nạ giữ cho các thuộc tính như miệng và ria mép không bị thay đổi, trong khi nếu không có mặt nạ, các thuộc tính này sẽ bị biến đổi.

Các thử nghiệm đã chứng minh rằng mô hình có khả năng tạo ra khuôn mặt với các thuộc tính nhất định, đồng thời vẫn duy trì được danh tính của khuôn mặt tham chiếu Những khuôn mặt được tạo ra có độ chân thực và rõ nét cao.

Tập dữ liệu Labeled Faces in the Wild (LFW) bao gồm khoảng 13.000 hình ảnh khuôn mặt, với mỗi khuôn mặt được căn chỉnh theo 68 mốc và thay đổi kích thước thành 224 × 224, phù hợp với đầu vào của VGG-Face Việc tạo hình ảnh dựa trên thuộc tính giúp nâng cao khả năng nhận diện và phân loại khuôn mặt.

Hình 2.4.3 minh họa các hình ảnh được tạo ra với những thuộc tính trực quan khác nhau Cột bên trái thể hiện mặt tham chiếu, trong khi cột bên phải hiển thị mặt được tạo ra.

Generate images with given guided images: Tạo ảnh theo ảnh mẫu

Hình 2.4.4 Khuôn mặt được tạo ra từ các hình ảnh hướng dẫn nhất định

Evaluate the quality generated images: Đánh giá chất lượng hình ảnh được tạo ra

Images generated from different VGG layers: Hình ảnh được tạo từ các lớp VGG khác nhau

Hình 2.4.5 Các khuôn mặt được tạo từ các lớp phức hợp khác nhau

Square Error của các khuôn mặt được tạo từ các lớp phức hợp khác nhau

Influence of the TV regulariser :

Hình 2.4.6 Các khuôn mặt được tạo với các giá trị γ khác nhau

Bài báo này mô hình hóa việc tạo mặt theo hướng thuộc tính như một bài toán tối ưu hóa với sự mất cảm thụ ngữ nghĩa Để nâng cao chất lượng tạo khuôn mặt, các kỹ thuật Spatial Mask và color transform được giới thiệu Thuật toán gradient descent được áp dụng để giải quyết bài toán tối ưu hóa trên mạng VGG-face Kết quả thử nghiệm cho thấy mô hình có khả năng tạo ra các khuôn mặt thực tế với các thuộc tính cụ thể, đồng thời vẫn bảo toàn danh tính của mặt tham chiếu.

Biểu diễn đa chế độ xem (Multi-View Representation) trong Deep Learning để nhận dạng khuôn mặt

Multi-view perceptron (MVP) có khả năng phân tích các đặc điểm nhận dạng và chế độ xem, đồng thời tạo ra một loạt hình ảnh đa chế độ xem từ một hình ảnh khuôn mặt 2D duy nhất MVP đã chứng minh hiệu suất vượt trội trên tập dữ liệu MultiPIE, đồng thời có khả năng nội suy và dự đoán hình ảnh một cách không giám sát trong quá trình đào tạo.

Hình ảnh trong hai hàng cuối cùng là của cùng một người, với các đặc điểm nhận dạng được đánh dấu bằng màu xanh lam và chế độ xem được thể hiện bằng màu da cam Điều này cho thấy rằng các đặc điểm nhận dạng của một người có sự tương đồng, mặc dù được chụp ở các góc độ khác nhau Ngược lại, các đặc điểm chế độ xem trong cùng một góc nhìn lại tương tự nhau, bất chấp việc chúng thuộc về các danh tính khác nhau.

Một số đóng góp chính:

Đề xuất một perceptron đa chế độ xem (MVP) cùng với thuật toán học tập của nó nhằm phân biệt các nhân tố và xem các biểu diễn với các tập hợp tế bào thần kinh khác nhau, giúp các tính năng đã học trở nên phân biệt và mạnh mẽ hơn.

MVP có khả năng tái tạo toàn bộ quang phổ chỉ với một hình ảnh 2D, tương tự như cách mà não người nhận thức khuôn mặt từ nhiều góc nhìn khác nhau Điều này giúp phân biệt các danh tính rõ ràng hơn, đặc biệt khi các danh tính khác nhau có thể có ngoại hình tương tự.

30 trong một khung nhìn cụ thể nhưng khác nhau ở những khung nhìn khác như được minh họa trong Hình 1

MVP có khả năng nội suy và dự đoán hình ảnh từ các góc nhìn không quan sát được, tương tự như cách mà con người thực hiện suy luận.

Thay vì áp dụng các mô hình hình học truyền thống, thông tin chế độ xem được mã hóa bằng một số lượng nhỏ tế bào thần kinh, cho phép khôi phục toàn bộ quang phổ cùng với các tế bào thần kinh nhận dạng Một trong những ứng dụng nổi bật của phương pháp này là Multi-View Perceptron.

Giả sử rằng dữ liệu huấn luyện là một tập hợp các cặp hình ảnh:

Trong nghiên cứu này, Xij đại diện cho hình ảnh đầu vào của nhận dạng thứ i trong khung nhìn thứ j, trong khi Yik là hình ảnh đầu ra của cùng một danh tính nhưng trong khung nhìn thứ k, và Vik là nhãn khung nhìn của đầu ra Vik được định nghĩa là một vectơ nhị phân M chiều, trong đó phần tử thứ k có giá trị 1 và các phần tử còn lại là 0 MVP được đào tạo từ dữ liệu huấn luyện để có khả năng xuất ra tuần tự các hình ảnh y với cùng một nhận dạng ở các chế độ xem khác nhau, cùng với nhãn chế độ xem v của chúng Cuối cùng, kết quả đầu ra v và y được tạo ra từ quá trình này.

F là một hàm phi tuyến tính, trong khi Θ là tập hợp các trọng số và độ lệch cần học Có ba loại nơ-ron ẩn: ℎ 𝑖𝑑, ℎ 𝑣 và ℎ 𝑟, mỗi loại có nhiệm vụ trích xuất các đặc điểm nhận dạng và tái tạo hình ảnh khuôn mặt đầu ra.

: biểu thị một biến nhiễu

Cấu trúc mạng của MVP bao gồm sáu lớp, trong đó có ba lớp chứa nơ-ron xác định được tham số hóa bởi trọng số U0, U1, U4, và ba lớp có sự kết hợp của nơ-ron xác định và ngẫu nhiên với trọng số U2, V2, W2, U3, V3, U5, W5.

Quá trình tạo ra y và v bắt đầu từ x, chảy qua các tế bào thần kinh để trích xuất đặc điểm nhận dạng ℎ 𝑖𝑑 Đặc điểm này kết hợp với biểu diễn chế độ xem ẩn ℎ 𝑣 để mang lại đặc trưng phục hồi khuôn mặt ℎ 𝑟, từ đó tạo ra y Đồng thời, cả ℎ 𝑣 và y đều được hợp nhất để tạo ra v.

Các nơron ẩn nhị phân xác định ℎ 𝑖𝑑 và ℎ 𝑟, cùng với các nơron ẩn nhị phân ngẫu nhiên ℎ 𝑣 được lấy mẫu từ phân phối q (ℎ 𝑣 ), tạo ra sự đa dạng trong khả năng nhận thức với nhiều góc nhìn khác nhau ℎ 𝑣 thường có số chiều thấp, khoảng mười, cho phép lập mô hình cho 2^10 chế độ xem khác nhau Để minh họa, ta có thể xem xét một mô hình MVP với chỉ một lớp ẩn gồm ℎ 𝑖𝑑 và ℎ 𝑣, và có thể thêm nhiều lớp hơn để phát triển mô hình Chúng ta cũng xem xét một phân phối chung bằng cách loại bỏ các nơron ẩn ngẫu nhiên.

Trọng số và độ lệch của mô hình MVP được xác định thông qua phương pháp cực đại hóa khả năng (maximum likelihood estimation - MLE) nhằm ước lượng các tham số Giới hạn dưới của MLE là một yếu tố quan trọng trong quá trình này.

Phương trình (3) đạt được bằng cách phân tách log-likelihood thành 2 phần:

Giới hạn dưới có thể được tối đa hóa thông qua phương pháp Tối đa hóa kỳ vọng Monte Carlo (MCEM) Theo quy tắc Bayes, phân phối hậu nghiệm thực sự của MVP được xác định như sau:

Trong đó, p(y, v | hv) thể hiện lỗi nhận thức của nhiều chế độ xem, p(hv) là phân phối trước trên hv, và p(y, v) là hằng số chuẩn hóa Để ước tính phân phối hậu nghiệm chính xác, ta tiến hành thiết lập:

Nó được ước lượng gần đúng bằng cách lấy mẫu hv từ phân phối đồng đều, tức là hv ∼U

(0, 1), được tính theo trọng số quan trọng p (y, v | hv; Θold) Với thuật toán EM, giới hạn dưới của log-likelihood trở thành:

Trong đó, là trọng số Bước E lấy mẫu các tế bào thần kinh ẩn ngẫu nhiên, tức là hvs ∼U (0, 1), trong khi bước M tính toán gradient,

Trong đó gradient được tính bằng cách lấy trung bình trên tất cả các gradient đối với các mẫu quan trọng

Hai bước cần được lặp lại để ước tính phần sau Độ phức tạp không gian tăng lên khi cần nhiều mẫu hơn, vì cần lưu trữ dữ liệu, mẫu được đề xuất và đầu ra tương ứng ở mỗi lớp của mạng sâu Khi triển khai thuật toán với GPU, cần cân bằng giữa kích thước dữ liệu và độ chính xác của ước tính, đặc biệt khi bộ nhớ GPU không đủ cho dữ liệu đào tạo quy mô lớn.

Tái tạo mẫu với Deep Autoencoder (DA) cho một mẫu mỗi người trong nhận dạng khuôn mặt

Nghiên cứu này giới thiệu một thuật toán mới nhằm tổng quát hóa các biến thể nội lớp của các đối tượng nhiều mẫu thành các đối tượng mẫu đơn thông qua việc sử dụng bộ mã hóa tự động học sâu Thuật toán bắt đầu bằng việc đào tạo một bộ mã tự động sâu tổng quát với tất cả hình ảnh trong thư viện, sau đó tinh chỉnh một bộ mã tự động sâu theo lớp (CDA) cho từng đối tượng mẫu đơn Các mẫu của đối tượng nhiều mẫu, tương tự như đối tượng mẫu đơn, được sử dụng làm đầu vào cho CDA để tạo ra các mẫu mới.

Bài báo này đề xuất một thuật toán OSPP mới dựa trên DA (OSPP-DA)

Nghiên cứu một hàm phi tuyến tính của phân tích phân biệt (DA) nhằm tổng quát hóa các biến thể trong lớp từ các đối tượng nhiều mẫu thành các đối tượng mẫu đơn và tái tạo mẫu mới cho các đối tượng một mẫu Đầu tiên, thuật toán Generalised DA (GDA) được đào tạo với trọng số và độ lệch từ tất cả các mẫu trong thư viện Tiếp theo, GDA được tinh chỉnh cho từng mẫu đơn của từng đối tượng, tạo ra phân tích phân biệt dành riêng cho từng lớp (CDA) GDA bao gồm tất cả các biến thể trong lớp và giữa các lớp của hình ảnh thư viện, trong khi CDA được điều chỉnh để tổng quát hóa các biến thể trong lớp cho lớp cụ thể Cuối cùng, các mẫu của đối tượng nhiều mẫu tương tự nhất với đối tượng mẫu đơn được chọn và đưa vào CDA tương ứng để tạo ra các mẫu mới.

Nhận dạng khuôn mặt OSPP đã được chuyển đổi thành nhận dạng khuôn mặt nhiều mẫu cho từng cá nhân Để phân loại, các phương pháp như khoảng cách L2 tối thiểu, phân tích thành phần chính (PCA), SRC và hồi quy softmax đã được áp dụng Các thử nghiệm trên các cơ sở dữ liệu khuôn mặt như Yale mở rộng B, AR và CMU PIE đã chứng minh tính hiệu quả của thuật toán được đề xuất.

Ý tưởng chính của thuật toán OSPP-DA bao gồm các bước sau: (a) Đào tạo DA bằng cách sử dụng tất cả hình ảnh trong thư viện để tạo ra GDA, (b) Tinh chỉnh GDA với từng mẫu đơn nhằm tạo ra CDA, (c) Tạo lại mẫu mới cho các đối tượng mẫu đơn, và (d) Phân loại chúng theo khoảng cách tối thiểu L2, hồi quy PCA, SRC hoặc hồi quy softmax.

Sau đây là những ý chính:

(i) khám phá cách tổng quát hóa các biến thể trong lớp của các đối tượng nhiều mẫu thành các đối tượng mẫu đơn có DA

(ii) thực hiện nhiều thử nghiệm để kiểm tra thuật toán được đề xuất

Bài viết này được cấu trúc như sau: Phần 2 sẽ giới thiệu thuật toán OSPP-DA, Phần 3 sẽ trình bày kết quả thí nghiệm, và Phần 4 sẽ đưa ra kết luận.

Nhận dạng khuôn mặt OSPP dựa trên DA:

Deep autoencoder (DA) là một mạng nơron sâu học tập không giám sát, có khả năng tự động khám phá và phân tích cấu trúc phi tuyến tính phức tạp từ các mẫu đào tạo.

DA bao gồm hai thành phần chính: bộ mã hóa và bộ giải mã, với quy trình đào tạo trải qua ba giai đoạn: pretraining, unrolling và global fine-tuning Cấu trúc của DA có bộ mã hóa với các lớp kích thước 21 × 21-200-100-50-25, đi kèm với một bộ giải mã đối xứng.

Hình 2.6.2 Ba giai đoạn tạo DA: (a) Pretraining, (b) Unrolling, (c) Global fine-tuning

Pretraining: Đầu tiên, DA được đào tạo mỗi hai lớp Mỗi mạng hai lớp là một ‘máy Boltzmann hạn chế’ (RBM)

Hình 2.6.3 Một RBM với bốn đầu vào và ba đầu ra Đầu vào và đầu ra của RBM được gọi là đơn vị 'hiển thị' và 'ẩn' tương ứng

[ , , , ] là data đầu vào, [b 1 , b 2 , b 3 , b 4 ] là vector bias đầu vào, [h 1 , h 2 , h 3 ] là data đầu ra, [b 1 , b 2 , b 3 ] là vector bias đầu ra, w ij , i = 1, 2, 3, 4, j = 1, 2, 3 là trọng số giữa đầu vào và đầu ra

Với mỗi đầu vào v, trạng thái nhị phân của từng đơn vị ẩn j được xác định là 1 với một xác suất nhất định.

Hàm logistic sigmoid được sử dụng để xác định trạng thái của các đơn vị ẩn Khi trạng thái này đã được quyết định, các trạng thái ước tính của đơn vị hiển thị sẽ được tái tạo với xác suất nhất định.

Với vi, hj là trạng thái nhị phân của đơn vị 'hiển thị' i và đơn vị 'ẩn' j, sự thay đổi trọng số của RBM được đưa ra bởi:

RBM, hay mạng biên độ ngẫu nhiên, được đào tạo dựa trên tỷ lệ học tập và kỳ vọng dữ liệu đầu vào Quá trình này bao gồm việc phân kỳ tương phản, trong đó các đơn vị ẩn sau khi được học sẽ trở thành các đơn vị hiển thị cho RBM tiếp theo Mỗi RBM mới sẽ được huấn luyện theo phương pháp tương tự, đảm bảo sự tái tạo dữ liệu hiệu quả.

Sau giai đoạn pretraining, bước tiếp theo là "unrolling", trong đó tạo ra các mạng giải mã bằng cách xây dựng bộ giải mã với trọng số và độ lệch giống hệt như bộ mã hóa, như thể hiện trong Hình 2b.

Sau khi hoàn thành hai bước đầu, DA đã được tạo ra nhưng vẫn tồn tại sai số tái tạo lớn Giai đoạn thứ ba nhằm giảm thiểu sai số này bằng cách cập nhật trọng số và độ lệch thông qua việc nhân giống ngược toàn bộ DA, từ đó giảm thiểu lỗi cross-entropy Bên cạnh đó, GDA và CDA cũng đóng vai trò quan trọng trong quá trình này.

Dữ liệu thư viện bao gồm nhiều hình ảnh chủ đề mẫu:

(N1 đối tượng và M ảnh cho mỗi đối tượng)

Hình ảnh đối tượng mẫu đơn (thường là hình ảnh trung tính):

(N2 đối tượng và 1 ảnh cho mỗi đối tượng)

Hình ảnh truy vấn được ký hiệu là y

GDA được hình thành thông qua việc đào tạo DA với toàn bộ hình ảnh trong thư viện Sau khi hoàn tất quá trình học GDA, CDA được phát triển bằng cách tinh chỉnh GDA với mẫu đơn của từng đối tượng thông qua phương pháp tinh chỉnh toàn cầu.

GDA cung cấp một đa tạp bao gồm tất cả các biến thể trong dữ liệu đào tạo Đối với CDA, quá trình tinh chỉnh sẽ điều chỉnh đa tạp để phù hợp với mẫu đơn, từ đó tái tạo các mẫu mới cho đối tượng cụ thể.

Hình 2.6.4 (a) GDA, (b) CDA c Tái tạo và nhận dạng mẫu:

Để tái tạo mẫu, cần xác định khoảng cách L2 tối thiểu giữa ảnh trung tính và chọn đối tượng đa mẫu tương đồng nhất với mẫu đơn i Các mẫu của đối tượng đa mẫu này sẽ được sử dụng để tạo ra các mẫu mới tương ứng (Hình 1c).

*Ba bước để tái thiết:

(i) Tính khoảng cách L2 giữa các ảnh trung tính của nhiều đối tượng mẫu và mẫu đơn Lấy ID của chủ thể có nhiều mẫu giống nhau nhất

(ii) Đầu vào của CDA và ngõ ra là các mẫu tái tạo của đối tượng mẫu đơn i

(iii) Chạy i = 1 đến N2, lặp lại (i) và (ii), và tất cả các mẫu tái tạo là:

Few-Shot Adversarial Learning của Realistic Neural talking Head Models

Phương pháp tạo mẫu ảo sử dụng GANs do Zakharov và cộng sự phát triển đã khai thác các điểm đặc trưng khuôn mặt để biểu diễn sự biến đổi trong lớp Chiến lược siêu học được áp dụng nhằm nâng cao chất lượng mẫu ảo trong quá trình đào tạo đối tượng.

Hình 2.7.1 trình bày kết quả tổng hợp hình ảnh khuôn mặt đang nói chuyện, sử dụng các dấu vết mốc khuôn mặt từ nhiều video khác nhau của cùng một người (bên trái) và từ một người khác (bên phải) Kết quả được điều chỉnh dựa trên các mốc từ khung đích, với khung nguồn là ví dụ từ tập huấn luyện Các mô hình khuôn mặt biết nói bên trái được đào tạo bằng tám khung, trong khi mô hình bên phải chỉ được đào tạo một lần.

Trong bài viết này, nhóm tác giả tập trung vào việc phát triển các mô hình khuôn mặt nói chuyện thực tế được cá nhân hóa, cho phép tạo ra chuỗi video mô phỏng biểu cảm và giọng nói của một cá nhân cụ thể Cụ thể, họ nghiên cứu cách tổng hợp hình ảnh đầu cá nhân hóa từ ảnh thực với một tập hợp các đặc điểm khuôn mặt, nhằm nâng cao chất lượng hoạt ảnh của mô hình.

Tổng hợp chuỗi khuôn mặt nói chuyện thực tế gặp nhiều khó khăn do hai lý do chính Thứ nhất, khuôn mặt con người có độ phức tạp cao về trắc quang, hình học và động học Sự phức tạp này không chỉ đến từ việc tạo mẫu khuôn mặt với nhiều phương pháp khác nhau mà còn liên quan đến việc tạo mẫu khoang miệng, tóc và quần áo.

Hệ thống thị giác của con người rất nhạy bén với những sai sót nhỏ trong việc tạo mô hình khuôn mặt, điều này giải thích tại sao các hình đại diện giống như phim hoạt hình phi thực tế lại phổ biến trong nhiều hệ thống hội nghị từ xa hiện nay Khả năng chịu đựng sai lầm của các mô hình khuôn mặt thấp đã thúc đẩy việc sử dụng những hình đại diện này trong thực tế.

Bài báo này trình bày một hệ thống tạo ra mô hình mặt biết nói dựa trên few-shot learning với thời gian đào tạo hạn chế Hệ thống có khả năng tạo kết quả hợp lý từ một bức ảnh duy nhất (one-shot learning) và cải thiện độ trung thực khi thêm vài bức ảnh Các đầu nói chuyện được tạo ra từ mô hình sử dụng ConvNets sâu, tổng hợp khung hình video thông qua chuỗi hoạt động phức tạp mà không cần uốn cong.

Khả năng học tập nhanh chóng đạt được thông qua quá trình mở rộng pre-training trên một kho dữ liệu lớn các video về đầu nói chuyện của nhiều diễn giả khác nhau với ngoại hình đa dạng Trong quá trình meta-learning, hệ thống mô phỏng các nhiệm vụ học tập để chuyển đổi các vị trí mốc thành những bức ảnh cá nhân hóa và thực tế, từ đó tạo ra một bộ hình ảnh đào tạo nhỏ cho từng người.

Trong các thử nghiệm, chúng tôi so sánh đầu biết nói do hệ thống tạo ra với các mô hình đầu biết nói thần kinh khác thông qua các phép đo định lượng và nghiên cứu người dùng Phương pháp của chúng tôi tạo ra hình ảnh chân thực và mang tính cá nhân hóa cao.

Hệ thống vay mượn được thiết kế dựa trên những tiến bộ gần đây trong việc tạo mô hình tổng quát về hình ảnh, với kiến trúc đào tạo đối nghịch và các yếu tố phân biệt có điều kiện Giai đoạn meta-learning áp dụng cơ chế chuẩn hóa phiên bản thích ứng, chứng minh tính hữu ích trong các nhiệm vụ tạo có điều kiện quy mô lớn.

2.7.2 Chi tiết phương pháp: a Kiến trúc và ký hiệu:

Kiến trúc meta-learning sử dụng mạng embedder để ánh xạ hình ảnh khuôn mặt với các vectơ nhúng, giúp chứa đựng thông tin độc lập với tư thế Mạng trình tạo chuyển đổi các mốc khuôn mặt đầu vào thành các khung đầu ra thông qua các lớp chập, được điều chế bởi vectơ nhúng qua chuẩn hóa phiên bản thích ứng Trong quá trình meta-learning, các khung từ cùng một video được chuyển qua trình nhúng, trung bình hóa kết quả và dùng để dự đoán các thông số thích ứng của Generator Cuối cùng, các điểm mốc của một khung hình khác được chuyển qua Generator và hình ảnh thu được được so sánh với ground truth.

Giả sử có M chuỗi video với các khuôn mặt khác nhau, được biểu diễn bằng x i (t), trong đó i là chỉ số của chuỗi video và t là khung hình Chúng ta sẽ sử dụng mã căn chỉnh khuôn mặt để trích xuất các đường nét đặc trưng của từng khuôn mặt.

Trong meta-learning, có 3 mạng network được đào tạo:

Embedder: , lấy một khung hình video x i (s), một hình ảnh mốc liên quan y i (s), và ánh xạ các đầu vào này thành một vectơ N chiều ê i (s)

Bộ tạo video sử dụng hình ảnh cột mốc y i (t) cho khung video mà trình nhúng không thể nhìn thấy, nhằm dự đoán video nhúng ê i và xuất ra khung video tổng hợp Bộ tạo này được đào tạo để tối đa hóa sự tương đồng giữa đầu ra và khung ground truth Tất cả các tham số của bộ tạo được phân chia thành hai loại: tham số chung 𝜓̂ và tham số riêng.

50 của người 𝜓̂ 𝑖 chỉ 𝜓̂ được huấn luyện trực tiếp, trong khi 𝜓̂ 𝑖 được dự đoán từ vectơ nhúng bằng cách sử dụng ma trận chiếu có thể huấn luyện :

Bộ phân biệt nhận đầu vào là khung hình video x_i(t) và hình ảnh mốc y_i(t) cùng với chỉ số huấn luyện i Các tham số học được của bộ phân biệt bao gồm θ, W, w0 và b Bộ phân biệt sử dụng ConvNet V(x_i(t), y_i(t); θ) để chuyển đổi khung đầu vào và hình ảnh mốc thành một vectơ N chiều Nó dự đoán một điểm số r, cho biết liệu khung hình x_i(t) có phải là khung thực của chuỗi video thứ i và có khớp với tư thế đầu vào y_i(t) hay không, dựa trên đầu ra của ConvNet và các tham số W, w0, b.

Các thông số của cả ba mạng đều được đào tạo theo kiểu đối nghịch b Giai đoạn học tổng hợp (Meta-learning):

Chúng tôi thực hiện quá trình này bằng cách mô phỏng các tập K-shot learning với K = 8 trong các thí nghiệm Trong mỗi tập, một chuỗi video đào tạo i được chọn ngẫu nhiên cùng với một khung hình t từ chuỗi đó Bên cạnh khung hình t, chúng tôi cũng chọn ngẫu nhiên K khung hình s1, s2, , sK từ cùng một chuỗi video.

Để tính toán ước lượng ei cho lần nhúng video thứ i, chúng ta chỉ cần lấy trung bình của các lần nhúng ˆei (sk) được dự đoán cho các khung hình bổ sung.

Việc tái tạo ˆxi (t) của khung thứ t, dựa trên phép nhúng ước tính ˆei, sau đó được tính:

Các tham số của trình tạo nhúng và trình tạo sau đó được tối ưu hóa để giảm thiểu

Định dạng
Số trang	64
Dung lượng	4,15 MB

Tài liệu tham khảo	Loại	Chi tiết
[10] Abdolali F, Seyyedsalehi S A. Face recognition from a single image per person using deep architecture neural networks[C] // Proceedings of the 3rd International Conference on Computer and Electrical Engineering (ICCEE). Chengdu, China: IEEE, 2010: 1: 70-73	Khác
[11] Abdolali F, Seyyedsalehi S A. Improving face recognition from a single image per person via virtual images produced by a bidirectional network[J]. Procedia-Social and Behavioral Sciences, 2012, 32: 108- 116	Khác
[12] Reed S, Sohn K, Zhang Y, et al. Learning to disentangle factors of variation with manifold interaction[C] //Proceedings of the 31st International Conference on Machine Learning (ICML). Beijing, China: IMLS, 2014: 1431-1439	Khác
[13] Tang Y, Salakhutdinov R, Hinton G. Deep lambertian networks[J]. ArXiv Preprint, ArXiv:1206.6445, 2012	Khác
[14] Li M, Zuo W, Zhang D. Convolutional network for attribute-driven and identity-preserving human face generation[J]. ArXiv Preprint, ArXiv:1608.06434, 2016	Khác
[15] Zhu Z, Luo P, Wang X, et al. Multi-view perceptron: A deep model for learning face identity and view representations[C] //Proceedings of the 2014 International Conference on Neural Information Processing Systems (NIPS). Kuching, Malaysia: MIT Press, 2014: 217-225	Khác
[16] Zhang Y, Peng H. Sample reconstruction with deep autoencoder for one sample per person face recognition[J]. IET Computer Vision, 2017, 11(6): 471-478	Khác
[17] Zakharov E, Shysheya A, Burkov E, et al. Few-shot adversarial learning of realistic neural talking head models[C] //Proceedings of the 2019 IEEE International Conference on Computer Vision (ICCV). Seoul, Korea: IEEE, 2019: 9459-9468	Khác
[18] Choe J, Park S, Kim K, et al. Face generation for low-shot learning using generative adversarial networks[C] //Proceedings of the 2017 IEEE International Conference on Computer Vision Workshops (ICCVW). Venice, Italy: IEEE, 2017: 1940-1948	Khác