1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BÁO cáo THỰC tập tốt NGHIỆP đề tài các PHƯƠNG PHÁP tạo mẫu ảo TRONG NHẬN DIỆN KHUÔN mặt

64 22 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Các Phương Pháp Tạo Mẫu Ảo Trong Nhận Diện Khuôn Mặt
Tác giả Phùng Thanh Phong
Người hướng dẫn GVHD: Đặng Nguyên Châu
Trường học Đại Học Bách Khoa
Chuyên ngành Điện – Điện Tử
Thể loại báo cáo thực tập tốt nghiệp
Năm xuất bản 2021
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 64
Dung lượng 6,85 MB

Cấu trúc

  • Chương 1: GIỚI THIỆU TỔNG QUAN (5)
    • 1.1 Giới thiệu (5)
    • 1.2 Tiếp cận (6)
    • 1.3 Virtual Image Generation (Tạo hình ảnh ảo) (6)
  • Chương 2: CÁC PHƯƠNG PHÁP TẠO HÌNH ẢNH ẢO (9)
    • 2.1 Nhận dạng khuôn mặt sử dụng mạng thần kinh kiến trúc sâu (9)
    • 2.2 Phân tách đặc trưng của biến thể với Manifold Interaction (16)
    • 2.3 Deep Lambertian Networks (21)
    • 2.4 Mạng tích chập cho việc tạo khuôn mặt con người theo hướng thuộc tính và bảo tồn danh tính (27)
    • 2.5 Biểu diễn đa chế độ xem (Multi-View Representation) trong Deep Learning để nhận dạng khuôn mặt (32)
    • 2.6 Tái tạo mẫu với Deep Autoencoder (DA) cho một mẫu mỗi người trong nhận dạng khuôn mặt (40)
    • 2.7 Few-Shot Adversarial Learning của Realistic Neural talking Head Models (50)
    • 2.8 Tạo khuôn mặt để học low-shot sử dụng Generative Adversarial Networks (GAN) (0)
  • TÀI LIỆU THAM KHẢO (64)

Nội dung

GIỚI THIỆU TỔNG QUAN

Giới thiệu

Trong những năm gần đây, công nghệ nhận dạng khuôn mặt đã đạt được bước tiến vượt bậc nhờ vào các mô hình học sâu như Mạng thần kinh tích chập (CNN), cho phép độ chính xác vượt qua tiêu chuẩn của con người Ưu điểm nổi bật của nhận dạng khuôn mặt dựa trên học sâu là khả năng học hỏi và trích xuất các tính năng mạnh mẽ từ các tập dữ liệu lớn, mang lại hiệu quả cao trong quá trình nhận diện.

Trong các ứng dụng nhận dạng khuôn mặt như nhận dạng chứng minh nhân dân, hộ chiếu, xác nhận tư pháp và kiểm soát nhập học, thường chỉ sử dụng một mẫu đào tạo cho mỗi danh tính.

Nhận dạng khuôn mặt một mẫu cho mỗi người (SSPP) hay một ảnh cho mỗi người (SIPP) là một thách thức trong lĩnh vực công nghệ nhận diện Độ chính xác và khả năng tổng quát hóa của các phương pháp truyền thống và học sâu thường giảm khi áp dụng trong tình huống SSPP Do đó, việc phát triển các giải pháp hiệu quả cho nhận dạng khuôn mặt trong bối cảnh này vẫn đang là một vấn đề cần được nghiên cứu và giải quyết.

Hình 1.1 Mối liên hệ giữa các vùng nghiên cứu.

Nhận dạng khuôn mặt SSPP (xanh lam) thuộc về vấn đề học một lần (xanh lục), thường chỉ với một mẫu được gán nhãn cho mỗi lớp, và có nhiều ứng dụng trong nhận dạng hình ảnh, dịch máy và phân tích ngữ nghĩa Sự gia tăng của học sâu đã làm nổi bật tầm quan trọng của học một lần dựa trên học sâu Tuy nhiên, các phương pháp này không thể áp dụng trực tiếp cho nhận dạng khuôn mặt SSPP do sự khác biệt lớn giữa các lớp trong tác vụ một lần, trong khi nhận dạng khuôn mặt SSPP yêu cầu phân loại chi tiết với sự khác biệt nhỏ hơn Do đó, việc áp dụng hiệu quả học sâu vào nhận dạng khuôn mặt SSPP vẫn là một thách thức cấp thiết.

Tiếp cận

Các phương pháp nhận dạng khuôn mặt SSPP dựa trên học sâu được phân loại thành hai loại chính: phương pháp mẫu ảo và phương pháp học chung Việc áp dụng các mô hình Deep Learning thông thường cho nhiệm vụ SSPP với tập dữ liệu đào tạo mẫu đơn ban đầu thường dẫn đến hiện tượng overfitting.

Một giải pháp hiệu quả là phát triển các mẫu ảo nhằm mở rộng tập huấn luyện, từ đó chuyển đổi nhiệm vụ nhận diện khuôn mặt SSPP thành một nhiệm vụ nhận diện khuôn mặt đa mẫu tổng quát.

Loại phương pháp này được gọi là phương pháp mẫu ảo.

Virtual Image Generation (Tạo hình ảnh ảo)

Các phương pháp tạo hình ảnh ảo dựa trên Deep Learning hiện nay chủ yếu sử dụng Bộ mã hóa tự động (AE) và Mạng đối kháng sinh (GAN) Các phương pháp AE đã được thử nghiệm và áp dụng rộng rãi, trong đó phương pháp mới nhất là AE Fully Connected, tách biệt hình dạng và xác thực các thành phần trong biến tiềm ẩn thông qua học không giám sát Reed và cộng sự đã áp dụng AE Máy Boltzmann Hạn chế (RBM) với cách tiếp cận giám sát một phần để phân tách thông tin nhận dạng và biến thể nội bộ Đối với biến đổi độ chiếu sáng, Deep Lambertian Networks (DLN) do Hinton và cộng sự đề xuất, coi khuôn mặt là Lambertian, sử dụng bề mặt bình thường và hệ thống Deep Belief Net (DBN).

Báo cáo thực tập tốt nghiệp GHVD của Đặng Nguyên Châu nêu rõ việc sử dụng số phản xạ albedo để đại diện cho thông tin nhận dạng, đồng thời áp dụng vectơ góc ánh sáng nhằm thể hiện các biến thể trong lớp.

Mô hình AE sử dụng quy trình "mã hóa - phân tách và điều chỉnh các biến tiềm ẩn - giải mã" Li và cộng sự xem việc tạo mẫu ảo là vấn đề tối ưu hóa, giảm thiểu tổn thất thuộc tính và mất danh tính Zhu và cộng sự khai thác thông tin từ bộ mã hóa và sử dụng nhiễu ngẫu nhiên để tạo mẫu ảo Zhang và cộng sự huấn luyện AE với dữ liệu phụ trợ, sau đó chuyển biến thể nội lớp thành mẫu duy nhất Để đảm bảo chất lượng tạo mẫu và giữ thông tin nhận dạng, các biến thể trong lớp đến từ mẫu lân cận, điều này có thể hạn chế khả năng tạo biến thể trong lớp.

Một số phương pháp tạo mẫu ảo sử dụng GANs đã được nghiên cứu, trong đó Zakharov và cộng sự [17] đã áp dụng các điểm đặc trưng khuôn mặt để thể hiện sự biến đổi trong lớp, kết hợp với chiến lược siêu học nhằm tạo ra mẫu ảo chất lượng cao trong quá trình đào tạo Đồng thời, Choe và cộng sự [18] đã giới thiệu một phương pháp tạo mẫu ảo mới dựa trên Mạng đối phương tạo ra cân bằng (BEGAN), trong đó các biến tiềm ẩn được điều chỉnh cụ thể được nhập vào trình tạo BEGAN đã được đào tạo để thu được mẫu ảo.

Phương pháp nội suy các biến tiềm ẩn của khuôn mặt được nhân đôi để chuyển đổi tư thế có thể dẫn đến sự thay đổi thông tin nhận dạng trong mẫu ảo, đặc biệt đối với các khuôn mặt có đặc điểm phân biệt do sự không đối xứng.

Hình 1.2 Kết quả của các phương pháp tạo ảnh ảo dựa trên học sâu.

Với sự đa dạng trong các tập hợp đào tạo và hình ảnh khuôn mặt đầu vào, việc xác định phương pháp tạo mẫu nào hiệu quả hơn trở nên khó khăn Do đó, việc đánh giá chất lượng các mẫu ảo được tạo ra là một vấn đề mở Một trong những cách tiếp cận tiềm năng là so sánh độ chính xác của nhận dạng khuôn mặt, nhưng điều này sẽ phụ thuộc nhiều vào cấu trúc của mô hình nhận dạng được sử dụng.

Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu

CÁC PHƯƠNG PHÁP TẠO HÌNH ẢNH ẢO

Nhận dạng khuôn mặt sử dụng mạng thần kinh kiến trúc sâu

Trong bài viết này, tác giả giới thiệu một mô hình mạng thần kinh lấy cảm hứng từ não bộ, có khả năng học ánh xạ phi tuyến giữa không gian hình ảnh và không gian thành phần Mô hình mạng nơron sâu được sử dụng để tách các thành phần tư thế của một người, từ đó tổng hợp hình ảnh ảo cho dữ liệu thử nghiệm trong nhiều tư thế và điều kiện ánh sáng khác nhau Những hình ảnh ảo này sau đó được áp dụng để đào tạo bộ phân loại mạng thần kinh.

Kết quả cho thấy rằng việc đào tạo bộ phân loại thần kinh bằng hình ảnh ảo đạt hiệu suất cao hơn so với việc sử dụng hình ảnh xem trực diện.

Thiết kế mạng neural sâu cho phép xử lý thông tin hình ảnh phi tuyến tính, trong đó hình ảnh khuôn mặt chứa hai loại thông tin chính: tư thế và thông tin người Bằng cách trích xuất các thành phần độc lập, chúng ta có thể tách biệt hai loại thông tin này Sau khi sử dụng mạng neural sâu để phân biệt, quá trình tổng hợp hình ảnh ảo sẽ được thực hiện dựa trên hình ảnh nhìn trực diện và các thành phần đã được trích xuất trước đó.

Hình 2.1.1 Sơ đồ khối của quy trình hệ thống nhận dạng khuôn mặt.

• Chuẩn hóa hình ảnh ở các tư thế khác nhau một cách phi tuyến tính.

Để mở rộng kích thước của tập training, ta kết hợp thông tin trước đó bằng cách sử dụng một mạng xử lý thông tin thần kinh phi tuyến Mạng nơ-ron này hoạt động như một bộ mã tự động được quy định hóa, bao gồm mạng nhận dạng và mạng tổng hợp Mạng nhận dạng chuyển đổi đầu vào thành mã có chiều thấp, trong khi mạng tổng hợp thực hiện vai trò giải mã, chuyển đổi mã trở lại thành bản tái tạo của đầu vào.

Mục tiêu của nghiên cứu này là ước lượng sự đa dạng phi tuyến của các biến thể tư thế Để đạt được điều này, một mô hình xử lý thông tin thần kinh phi tuyến đã được áp dụng nhằm phân tách giữa tư thế và thông tin của người dùng.

A Nonlinear neural information processing: Xử lý thông tin thần kinh phi tuyến

Giả sử rằng là hình ảnh trực diện, được nhúng vào nhiều thứ khác nhau tương ứng, ta có:

Biểu thị tư thế thứ j có thể áp dụng cho hình ảnh xem trực diện trong không gian hình ảnh đầu vào nhằm tạo ra tư thế mới Để ước tính chính xác các biến thể tư thế đa dạng, cần thực hiện ước lượng một cách cẩn thận Hơn nữa, việc tách biệt cũng cần được thực hiện chính xác nếu có đủ thông tin sẵn có.

Do sự phi tuyến trong tín hiệu từ nhiều nguồn, cần trích xuất các thành phần phi tuyến độc lập theo từng tư thế khác nhau Bằng cách kết hợp các thành phần này với những yếu tố liên quan đến hình ảnh xem trực diện, chúng ta có thể tạo ra những hình ảnh ảo đa dạng.

Vì vậy, sử dụng một mạng nơron sâu tự động tương tác được minh họa trong hình 2.1.3, để tách các thành phần này.

Hình 2.1.2 Sơ đồ tách thông tin người khỏi thông tin tư thế.

Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu

Hình 2.1.3 Cấu trúc mạng nơ ron phi tuyến cho phân nhóm thông tin người.

Trong mạng lưới thần kinh đề xuất, tế bào thần kinh lớp nút cổ chai được chia thành hai phần: phần tư thế được đào tạo theo cách giám sát, trong khi mạng người được đào tạo bằng thuật toán học tập không giám sát Trong quá trình đào tạo, các hình ảnh khác nhau của từng người trong cơ sở dữ liệu được sử dụng để tính toán trung bình của nhóm nơ-ron đặc điểm, và mã trung bình này được áp dụng làm mã của người trong phần đào tạo bộ giải mã.

Trong phương trình này, M đại diện cho mã trung bình của một cá nhân, γ là hệ số hiệu quả của mã mới được thiết lập là 0,95, và P là mã của hình ảnh mới.

Trong mỗi giai đoạn, không chỉ lỗi đầu ra mà cả lỗi giữa mã mới và các mã trước đó cũng được sao chép ngược Phương pháp độc đáo này tạo ra một mã đặc biệt trong lớp nút cổ chai, giúp phân nhóm thông tin người một cách hiệu quả mà không cần giám sát.

Mô hình phân cụm thông tin người được đề xuất bao gồm sáu lớp mô-đun phi tuyến với các tham số ở nhiều mức trừu tượng khác nhau Các hàm cấp thấp hơn được sử dụng để trích xuất các khía cạnh đơn giản của phân phối dữ liệu, từ đó giúp học được các khía cạnh phức tạp hơn khi kết hợp chúng lại.

Phương pháp học tập này phản ánh cách mà bộ não con người tiếp nhận kiến thức: bắt đầu từ việc nắm vững các khái niệm đơn giản, sau đó tổng hợp và phát triển chúng để hiểu những khái niệm trừu tượng phức tạp hơn.

Lấy cảm hứng từ kiến trúc não bộ, các kỹ sư đã phân chia các giải pháp thành nhiều cấp độ trừu tượng để xử lý hiệu quả Hình 2.1.4 minh họa đường cong sai số của mạng nơ ron trong quá trình huấn luyện thông tin phi tuyến.

Đường cong lỗi của mô hình xử lý thông tin phi tuyến được đào tạo thông qua phương pháp phân nhóm không giám sát cho cả thông tin tư thế và con người Để đánh giá hiệu quả của mạng nơ-ron đã được đào tạo, một số hình ảnh đào tạo được đưa vào mô hình, và chất lượng của hình ảnh được cấu trúc sinh thái sẽ phản ánh khả năng của mạng Hình 2.1.5 minh họa một ví dụ về hình ảnh tái tạo.

Hình 2.1.5 Hình ảnh tái tạo của người thứ 15 trong cơ sở dữ liệu AUTFDB.

Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu

Sau khi đào tạo mô hình xử lý thông tin thần kinh phi tuyến với cơ sở dữ liệu AUTFDB, chúng ta có thể tạo ra các tư thế ảo gần đúng cho cơ sở dữ liệu BME Mạng thần kinh nhận hình ảnh xem trực diện, trong đó mã hóa mỗi người phản ánh mức độ tương đồng với 80 người trong AUTFDB Bằng cách điều chỉnh mã tư thế một cách thủ công, chúng ta có thể tạo ra hình ảnh ảo từ hình ảnh nhìn trực diện BME, như minh họa trong hình 2.1.6.

Hình 2.1.6 Ảnh ảo của người thứ 10 trong cơ sở dữ liệu BME được tổng hợp bằng mô hình xử lý thông tin thần kinh phi tuyến.

B Neural network classifier: Bộ phân loại mạng nơ ron

Phân tách đặc trưng của biến thể với Manifold Interaction

Reed và cộng sự [12] đã sử dụng AE Máy Boltzmann Hạn chế (RBM) với cấu trúc tương tự, nhưng áp dụng phương pháp giám sát một phần để phân tách thông tin nhận dạng và biến thể nội bộ.

Tác giả đề xuất một phương pháp học nhiều tọa độ khác nhau cho các yếu tố liên quan đến biến thể và mô hình hóa sự tương tác chung của chúng thông qua một máy Boltzmann bậc cao hơn Phương pháp này kết hợp các tương tác giữa các nhóm đơn vị ẩn, giúp mỗi nhóm học cách mã hóa một hệ số biến thiên riêng biệt Mô hình đạt hiệu suất cao trong việc nhận diện cảm xúc và xác minh khuôn mặt trên Cơ sở dữ liệu khuôn mặt Toronto, đồng thời chứng minh khả năng tách rời các tính năng trên bộ dữ liệu CMU Multi-PIE Sự kết hợp của tư thế, hình dạng và ánh sáng tạo ra hình ảnh vật thể 3D, trong khi hình thái và biểu cảm kết hợp để tạo ra hình ảnh khuôn mặt Mặc dù có nhiều yếu tố thay đổi đối với các phương thức khác, phần này sẽ tập trung vào việc mô hình hóa hình ảnh.

Hình 2.2.1 Minh họa về cách tiếp cận đối với tư thế tạo mẫu và các biến thể nhận dạng trong hình ảnh khuôn mặt.

Báo cáo thực tập tốt nghiệp của Đặng Nguyên Châu chỉ ra rằng khi xác định danh tính, việc di chuyển theo “sợi” tương ứng (được biểu thị bằng hình elip màu đỏ) sẽ làm thay đổi tư thế Khi tư thế được cố định, việc di chuyển qua mặt cắt dọc (được tô bóng trong hình chữ nhật màu xanh lam) sẽ dẫn đến sự thay đổi trong nhận diện Mô hình của chúng ta thể hiện mối quan hệ giữa tư thế và tọa độ nhận diện nhằm tạo ra hình ảnh chính xác.

Hình ảnh có thể giúp lưu giữ thông tin về các yếu tố cơ bản của sự thay đổi, vì kiến thức về một yếu tố có thể cải thiện ước tính về các yếu tố khác Chẳng hạn, ước tính tư thế tốt có thể hỗ trợ suy ra chính xác hình thái khuôn mặt và ngược lại.

Khi hình ảnh đầu vào chịu ảnh hưởng từ nhiều yếu tố biến đổi, chúng thường xuất hiện trên một đa tạp phức tạp, điều này gây khó khăn trong việc học các biểu diễn hữu ích.

Các hình ảnh khuôn mặt với những đặc điểm nhận dạng và góc nhìn đa dạng giúp chúng ta hình dung ra sự phong phú trong danh tính và góc nhìn của mỗi người.

Khi xem xét hình ảnh khuôn mặt của một người từ các góc độ khác nhau với độ cao cố định, quỹ đạo của các bức ảnh sẽ tạo thành một sợi hình vòng, thể hiện đường góp phụ từ sợi này sang sợi khác.

Sử dụng máy Boltzmann bậc cao hơn để mô hình hóa phân bố các đặc điểm hình ảnh và yếu tố tiềm ẩn của sự biến đổi, cho phép mô hình gỡ rối hiệu quả các yếu tố thay đổi Mỗi nhóm đơn vị ẩn nhạy cảm với sự biến đổi của yếu tố tương ứng và tương đối bất biến với những thay đổi ở các nhóm khác Các biến thể mô hình được coi là các máy Boltzmann (disBM) độc lập Mô hình này đạt hiệu suất cao trong nhận dạng cảm xúc và xác minh khuôn mặt trên Cơ sở dữ liệu khuôn mặt Toronto (TFD) cũng như trong ước tính tư thế và xác minh khuôn mặt trên CMU Multi-PIE.

Trong bài viết này, chúng ta sẽ khám phá máy Boltzmann hạn chế (RBM), một mô hình đồ họa vô hướng hai cực với D đơn vị hiển thị nhị phân v ∈ {0,1} D và K đơn vị ẩn nhị phân h ∈ {0,1} K Phân bố chung và chức năng năng lượng của mô hình này được xác định theo các quy tắc cụ thể.

Trong mô hình RBM, hàm phân vùng Z, trọng số Wik giữa các đơn vị ẩn i và k, cùng với các thành kiến ẩn bk và thành kiến hiển thị ci, đóng vai trò quan trọng Các đơn vị trong cùng một lớp được xem là độc lập có điều kiện so với các đơn vị trong lớp khác, và các phân phối có điều kiện được tính toán theo cách cụ thể.

Hàm logistic được sử dụng trong RBM để tối đa hóa khả năng log-likelihood của dữ liệu thông qua phương pháp giảm gradient ngẫu nhiên Mặc dù gradient không thể đo được trực tiếp, chúng ta có thể ước lượng nó thông qua phương pháp phân kỳ tương phản (CD) theo Hinton (2002).

Giả sử có hai nhóm đơn vị ẩn h và m, mặc dù có thể thêm nhiều nhóm khác Nếu có nhãn sẵn có, chúng có thể được kết hợp với các đơn vị e.

Hình 2.2.2 Các đơn vị nhãn e kết hợp với các đơn vị ẩn m.

15 Báo cáo thực tập tốt nghiệp a Energy function:

Mô hình giả định tương tác ba chiều giữa D đơn vị hiển thị v ∈ {0,1} D và hai nhóm đơn vị ẩn h ∈ {0,1} K và m ∈ {0,1} L được trình bày trong Hình 2.2.2 Hàm năng lượng của mô hình này được định nghĩa để phân tích sự tương tác giữa các đơn vị.

Hình 3: cấu trúc RNN của mô hình.

Các mũi tên chỉ hướng truyền về phía trước trong một số yếu tố thay đổi, chúng ta có thể

Kẹp các đơn vị ẩn tương ứng giống nhau cho cả hai điểm dữ liệu giúp mô hình hóa hình thái khuôn mặt chung từ hai hình ảnh của cùng một người Trong khi đó, các đơn vị ẩn khác sẽ giải thích sự khác biệt như tư thế và biểu cảm.

Mỗi nhóm đơn vị ẩn cung cấp một phép nhúng quan trọng liên quan đến hệ số biến đổi của nó Các cặp dữ liệu tương ứng cần được nhúng gần nhau, trong khi các cặp dữ liệu không tương ứng phải được tách biệt.

2.2.3 Kết quả thí nghiệm: Đánh giá hiệu suất mô hình trên một số cơ sở dữ liệu hình ảnh:

Deep Lambertian Networks

Deep Lambertian Networks kết hợp Deep Belief Net với giả định phản xạ Lambertian, liên quan đến biến đổi chiếu sáng trong nhận thức thị giác Mô hình phản xạ Lambertian cung cấp đại diện bất biến chiếu sáng hữu ích cho việc nhận dạng Dựa trên Deep Belief Net (DBN), mô hình này sử dụng pháp tuyến và hệ số phản xạ albedo để thể hiện thông tin nhận dạng, đồng thời áp dụng các vector góc ánh sáng để biểu diễn các biến thể trong lớp.

Mục tiêu của nghiên cứu là cải thiện khả năng nhận dạng one-shot và tạo ra hình ảnh với ánh sáng mới Sự thay đổi hướng và cường độ ánh sáng có thể ảnh hưởng tiêu cực đến hiệu suất nhận dạng, do nhiều thuật toán dựa vào cường độ hình ảnh làm đầu vào Để khắc phục vấn đề này, nghiên cứu tập trung vào việc phát triển một mô hình mà trong đó hệ số phản xạ albedo, bề mặt pháp tuyến và ánh sáng được biểu diễn rõ ràng dưới dạng các biến tiềm ẩn.

*Bối cảnh nghiên cứu (Vì sao đề tài này cần được nghiên cứu):

Nhận thức thị giác gặp khó khăn do sự thay đổi độ chiếu sáng, và một giải pháp hiệu quả là ước lượng các biểu diễn bất biến của độ chiếu sáng trước khi tiến hành nhận dạng Các yếu tố như hệ số phản xạ albedo và bề mặt pháp tuyến là những ví dụ điển hình Bài viết này sẽ trình bày một mô hình sinh nhiều lớp, trong đó các biến tiềm ẩn bao gồm hệ số phản xạ albedo, bề mặt pháp tuyến và nguồn sáng.

Kết hợp mạng niềm tin sâu sắc (Deep Belief Nets) với giả định về độ phản xạ Lambertian, mô hình có khả năng học hỏi các đặc điểm của hệ số phản xạ albedo từ hình ảnh 2D Các biến thể về độ chiếu sáng được giải thích thông qua việc điều chỉnh biến tiềm ẩn chiếu sáng trong mô hình.

Belhumeur và Kriegman (1996) đã chứng minh rằng tập hợp hình ảnh của một vật thể dưới các điều kiện ánh sáng khác nhau tạo thành một hình nón đa diện, được gọi là hình nón chiếu sáng, với giả định rằng phản xạ là Lambertian và vật thể không thay đổi vị trí.

(Ước lượng hệ số phản xạ albedo và bề mặt pháp tuyến từ một hình ảnh duy nhất)

Mô hình phản xạ Lambertian được mô tả qua hình 2.3.1, trong đó vector l ∈ R^3 biểu thị hướng ánh sáng chiếu vào, và vector ni ∈ R^3 là pháp tuyến bề mặt, vuông góc với mặt phẳng tiếp tuyến tại một điểm trên bề mặt.

Bài báo này sẽ giới thiệu một mô hình tổng quát:

(a) kết hợp albedo, các bề mặt pháp tuyến và ánh sáng làm các biến tiềm ẩn;

(b) sử dụng tương tác nhân để tính gần đúng mô hình phản xạ Lambertian;

(c) học từ tập hợp các hình ảnh 2D về sự phân bố trên các hình dạng đối tượng 3D;

(d) có khả năng nhận dạng một lần từ một ví dụ huấn luyện duy nhất.

Máy Boltzmann Giới hạn Gaussian (GRBM) được áp dụng để mô hình hóa hệ số phản xạ albedo và các tiêu chuẩn bề mặt GRBM có thể coi như một tổ hợp các Gaussian đường chéo với các tham số chung, trong đó số lượng thành phần hỗn hợp tỷ lệ thuận với số nút ẩn Với sự hiện diện của các nút có thể quan sát và nút ẩn, năng lượng của cấu hình khớp được xác định bởi.

Các phân phối có điều kiện cần thiết để suy luận và tạo ra được đưa ra bởi:

Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu

DLN là mô hình kết hợp giữa các DBN và mô hình phản xạ Lambertian, được áp dụng phổ biến để mô phỏng biến thể độ chiếu sáng cho các bề mặt vật thể khuếch tán Theo mô hình Lambertian, cường độ pixel thứ i được mô hình hóa là vi, trong đó albedo, hay hệ số phản xạ, phản ánh độ phản xạ khuếch tán của bề mặt tại pixel i và không thay đổi theo độ chiếu sáng Điều này cho phép tạo ra hình ảnh của một vật thể dưới các điều kiện ánh sáng khác nhau mà không làm thay đổi albedo và các tiêu chuẩn bề mặt, nhờ vào các phép nhân trong các biến ẩn của mô hình Lambertian.

Trong DLN, lớp hiển thị bao gồm cường độ pixel hình ảnh v ∈ R^Nv, với Nv là số pixel trong hình ảnh Các biến ẩn của lớp đầu tiên bao gồm hệ số phản xạ albedo, chuẩn bề mặt và vectơ nguồn sáng Đối với mỗi pixel i, có hai biến ngẫu nhiên tiềm ẩn: hệ số phản xạ albedo ai ∈ R^1 và bề mặt chuẩn ni ∈ R^3 Hệ số phản xạ albedo của ảnh được biểu diễn bằng a ∈ R^Nv, trong khi ma trận chuẩn bề mặt N có kích thước Nv × 3, với ni là hàng thứ i của N Biến nguồn sáng l ∈ R^3 chỉ hướng của nguồn sáng trong hiện trường Chúng tôi sử dụng GRBM để mô hình hóa hệ số phản xạ albedo và chuẩn bề mặt, cùng với một Gaussian để mô hình hóa l Việc sử dụng GRBM là cần thiết do chúng tôi dự đoán rằng phân bố trên hệ số phản xạ albedo và pháp tuyến là đa phương thức.

Mô hình đồ họa của Deep Lambertian Network thể hiện rõ ràng các yếu tố quan trọng trong việc mô phỏng ánh sáng và phản xạ bề mặt Các quả cân màu vàng đại diện cho chuẩn bề mặt, trong khi các quả cân màu xanh lá cây mô hình hóa hệ số phản xạ albedo Hướng của nguồn sáng được chỉ định bởi vectơ ánh sáng, được chia sẻ cho tất cả các pixel trong hình ảnh, giúp tạo ra hiệu ứng màu sắc tốt nhất.

Hình 2.3.3 Các ví dụ từ cơ sở dữ liệu khuôn mặt mở rộng Yale B Mỗi hàng chứa các mẫu từ một tập hợp con chiếu sáng.

Hình 2.3.4 Các mẫu ngẫu nhiên sau 50.000 Gibbs lặp lại của Deep Belief Network mô hình hóa hệ số phản xạ albedo đã học trước đó.

Hình 2.3.5 Bên trái: 1 ảnh test đầu vào duy nhất.

Báo cáo thực tập tốt nghiệp của Đặng Nguyên Châu trình bày về các mẫu trung gian trong quá trình lấy mẫu Gibbs, với các lần lặp từ 1 đến 50 Hệ số phản xạ albedo ước tính được thể hiện ở hàng trên cùng.

Hàng dưới cùng chứa các chuẩn bề mặt ước tính, với các hệ số phản xạ albedo và bề mặt pháp tuyến được khởi tạo dựa trên độ lệch có thể nhìn thấy từ các GRBM tương ứng.

Kết quả suy luận được trình bày bên trái, dựa trên một hình ảnh thử nghiệm duy nhất Cột đầu tiên hiển thị các hình ảnh kiểm tra, cột thứ hai cung cấp hệ số phản xạ albedo, và cột thứ ba thể hiện các chỉ tiêu bề mặt.

Giữa: Kết quả cải thiện một chút khi sử dụng hình ảnh thử nghiệm bổ sung với độ sáng khác.

Bằng cách sử dụng hệ số phản xạ albedo ước tính và chuẩn bề mặt, chúng tôi hiển thị hình ảnh tổng hợp trong các điều kiện ánh sáng mới ở bên phải.

Hình 2.3.7 Kết quả nhận dạng trên cơ sở dữ liệu khuôn mặt Yale B.

NN: nearest neighbor DBN: Deep Belief Network Correlation: normalized cross correlation SVD: singular value decomposition DLN: Deep Lambertian Network

Mô hình tổng hợp trên bao gồm các biến tiềm ẩn quan trọng và phương pháp mô phỏng phản xạ Lambertian Việc nghiên cứu các bất biến độ chiếu sáng trực tiếp từ dữ liệu giúp nâng cao khả năng nhận dạng one-shot và tạo ra hình ảnh với hướng ánh sáng mới.

Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu

Mạng tích chập cho việc tạo khuôn mặt con người theo hướng thuộc tính và bảo tồn danh tính

và bảo tồn danh tính:

Li và cộng sự coi việc tạo ra các mẫu ảo là một bài toán tối ưu hóa, trong đó họ giảm thiểu tổn thất thuộc tính và mất danh tính để tạo ra các mẫu đích Các mô hình tạo khuôn mặt dựa trên CNN thường không giữ được danh tính của khuôn mặt được tạo ra so với hình ảnh tham chiếu Để khắc phục vấn đề này, nhóm nghiên cứu đã đề xuất một mô hình tối ưu hóa nhằm tạo ra khuôn mặt người với các thuộc tính đã cho, đồng thời duy trì danh tính của hình ảnh tham chiếu.

Các thuộc tính có thể được trích xuất từ hình ảnh hướng dẫn hoặc thông qua việc điều chỉnh các đặc điểm thuộc tính của hình ảnh tham chiếu Sử dụng mạng tích chập sâu "VGG-Face", hàm mất mát được xác định dựa trên các bản đồ đặc trưng convolutional Tiếp theo, chúng ta áp dụng thuật toán gradient descent để tối ưu hóa vấn đề này.

Mô hình dựa trên hình ảnh 2D mà không cần tạo mô hình 3D.

2.4.2 Chi tiết phương pháp: Áp dụng mạng VGG-Face được đào tạo trên một tập dữ liệu quy mô rất lớn để nhận dạng khuôn mặt.

Mô hình tối ưu hóa bao gồm ba thuật ngữ chính: thuật ngữ thuộc tính để chuyển các thuộc tính đã cho sang khuôn mặt tạo ra, thuật ngữ nhận dạng để áp đặt giới hạn nhận dạng cho khuôn mặt, và thuật ngữ chính quy nhằm tạo ra hình ảnh mịn màng và sắc nét Để giải quyết vấn đề tối ưu hóa, thuật toán gradient descent được áp dụng thông qua backpropagation của VGG-Face để tạo khuôn mặt từ hình ảnh trống Để giảm thiểu sự sai lệch màu sắc so với hình ảnh tham chiếu, phương pháp chuyển màu được học thêm nhằm biến hình ảnh tạo ra thành không gian màu của mặt tham chiếu.

Mặt nạ thuộc tính để cải thiện chất lượng hình ảnh được tạo ra.

Face generation for attribute transfer:

Perceptual loss được sử dụng để đánh giá sự tương đồng giữa các hình ảnh dựa trên thuộc tính và nhận dạng Thay vì yêu cầu hai hình ảnh phải giống nhau hoàn toàn ở mức pixel, phương pháp này tập trung vào việc so sánh nội dung của hai ảnh để đảm bảo chúng có sự tương đồng về mặt hình ảnh.

VGG-Face là một mô hình được đào tạo trên tập dữ liệu khuôn mặt lớn, cho thấy hiệu suất ấn tượng trong nhận dạng khuôn mặt Mô hình này ứng dụng VGG-Face để mô hình hóa Perceptual loss, với 5 lớp tích chập đầu tiên giúp trích xuất các đặc điểm chung từ hình ảnh.

(Các lớp tích chập sâu hơn bị bỏ sót do hiệu suất kém trong việc tái tạo hình ảnh)

Mất mát thuộc tính là quá trình được mô hình hóa trên một tập hợp hình ảnh từ dữ liệu LFW, trong đó các thuộc tính được trích xuất và giả định rằng tất cả hình ảnh đều có cùng tư thế và thuộc tính giống nhau do con người xác định Các thuộc tính khác của những hình ảnh này được lấy mẫu độc lập từ phân phối tương ứng Khi kích thước tập hợp đủ lớn, việc sử dụng chung các hình ảnh khuôn mặt này sẽ giúp nâng cao các thuộc tính đã cho, đồng thời hạn chế sự xuất hiện của các thuộc tính không mong muốn.

Identity loss: được sử dụng để khuyến khích mặt mục tiêu giữ cùng danh tính với mặt tham chiếu.

Có 2 cách để cải tiến:

• Adding Spatial Masks for Attributes

• Transforming the Color of Generated Face

Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu

Việc thêm mặt nạ vào khuôn mặt có thể giữ nguyên các thuộc tính khác, như được minh họa trong Hình 2.4.2 (a) Trong ví dụ này, chúng ta tạo ra một khuôn mặt có thuộc tính "đeo kính" từ khuôn mặt tham chiếu Trước khi áp dụng mặt nạ, khuôn mặt được tạo ra đã thay đổi các thuộc tính trên miệng và ria mép, trong khi khuôn mặt được tạo bằng mặt nạ giữ nguyên tất cả các thuộc tính khác.

Các nghiên cứu đã chỉ ra rằng mô hình có khả năng tạo ra các khuôn mặt với những đặc điểm nhất định, đồng thời vẫn giữ được danh tính của khuôn mặt tham chiếu Những khuôn mặt được tạo ra rất chân thực và sắc nét.

Tập dữ liệu Labeled Faces in the Wild (LFW) bao gồm khoảng 13.000 hình ảnh khuôn mặt, với mỗi khuôn mặt được căn chỉnh theo 68 mốc và thay đổi kích thước thành 224 × 224, phù hợp với đầu vào của VGG-Face Hình ảnh được tạo ra dựa trên các thuộc tính đặc trưng.

Hình 2.4.3 minh họa các hình ảnh được tạo ra với những thuộc tính trực quan khác nhau Cột bên trái thể hiện mặt tham chiếu, trong khi cột bên phải trình bày mặt được tạo ra dựa trên các thuộc tính đó.

Generate images with given guided images: Tạo ảnh theo ảnh mẫu

Hình 2.4.4 Khuôn mặt được tạo ra từ các hình ảnh hướng dẫn nhất định.

Evaluate the quality generated images: Đánh giá chất lượng hình ảnh được tạo ra

Images generated from different VGG layers: Hình ảnh được tạo từ các lớp VGG khác nhau

Hình 2.4.5 Các khuôn mặt được tạo từ các lớp phức hợp khác nhau

Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu

Square Error của các khuôn mặt được tạo từ các lớp phức hợp khác nhau

Influence of the TV regulariser :

Hình 2.4.6 Các khuôn mặt được tạo với các giá trị γ khác nhau

Bài báo này mô hình hóa bài toán tạo mặt theo hướng thuộc tính như một bài toán tối ưu hóa với sự mất cảm thụ ngữ nghĩa Để nâng cao chất lượng tạo khuôn mặt, các kỹ thuật như Spatial Mask và color transform được giới thiệu Thuật toán gradient descent được áp dụng để giải quyết vấn đề tối ưu hóa trên mạng VGG-face Kết quả thử nghiệm cho thấy mô hình có khả năng tạo ra các khuôn mặt thực tế với các thuộc tính nhất định, đồng thời bảo toàn danh tính của mặt tham chiếu.

Biểu diễn đa chế độ xem (Multi-View Representation) trong Deep Learning để nhận dạng khuôn mặt

Multi-view perceptron (MVP) có khả năng gỡ rối các đặc điểm nhận dạng và chế độ xem, đồng thời suy ra một phổ hình ảnh đa chế độ xem từ một hình ảnh khuôn mặt 2D duy nhất MVP đã đạt hiệu suất vượt trội trên tập dữ liệu MultiPIE và còn có khả năng nội suy, dự đoán hình ảnh trong môi trường không giám sát trong quá trình đào tạo.

Hình ảnh trong hai hàng cuối cùng cho thấy cùng một người, với các tính năng trích xuất của MVP liên quan đến danh tính được đánh dấu bằng màu xanh lam và chế độ xem được đánh dấu bằng màu da cam Điều này cho thấy rằng các đặc điểm nhận dạng của cùng một người là tương tự nhau, mặc dù được chụp ở các chế độ xem khác nhau Ngược lại, các đặc điểm chế độ xem của những hình ảnh trong cùng một chế độ xem lại tương tự nhau, mặc dù thuộc về các danh tính khác nhau.

Một số đóng góp chính:

Đề xuất một perceptron đa chế độ xem (MVP) cùng với thuật toán học tập của nó nhằm phân biệt các nhân tố và xem các biểu diễn thông qua các tập hợp tế bào thần kinh khác nhau Điều này giúp tăng cường khả năng phân biệt và tính mạnh mẽ của các tính năng đã học.

MVP có khả năng tái tạo toàn bộ quang phổ từ một hình ảnh 2D duy nhất, tương tự như cách mà não người nhận thức khuôn mặt từ nhiều góc độ khác nhau Điều này giúp phân biệt rõ ràng các danh tính, ngay cả khi chúng có thể trông giống nhau.

Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu trong một khung nhìn cụ thể nhưng khác nhau ở những khung nhìn khác như được minh họa trong Hình 1.

MVP có khả năng nội suy và dự đoán hình ảnh từ các góc nhìn không quan sát được, điều này phản ánh khả năng suy luận tương tự như con người.

Thay vì áp dụng các mô hình hình học truyền thống, thông tin chế độ xem được mã hóa bằng một số lượng tế bào thần kinh hạn chế, cho phép khôi phục toàn bộ quang phổ và các tế bào thần kinh nhận dạng Mô hình Multi-View Perceptron mang lại khả năng này, tối ưu hóa quá trình nhận diện và phân tích thông tin.

Giả sử rằng dữ liệu huấn luyện là một tập hợp các cặp hình ảnh:

Trong bài viết này, Xij đại diện cho hình ảnh đầu vào của nhận dạng thứ i trong khung nhìn thứ j, trong khi Yik là hình ảnh đầu ra của cùng một danh tính trong khung nhìn thứ k Vik là nhãn khung nhìn của đầu ra, được biểu diễn bằng một vectơ nhị phân M chiều, với phần tử thứ k là 1 và các phần tử còn lại là 0 MVP được huấn luyện từ dữ liệu để có thể xuất ra các hình ảnh y tương ứng với cùng một nhận dạng ở các chế độ xem khác nhau, cùng với nhãn chế độ xem v Cuối cùng, kết quả đầu ra v và y được tạo ra từ quá trình này.

F là một hàm phi tuyến tính, trong khi Θ đại diện cho tập hợp các trọng số và độ lệch cần được học Bài viết đề cập đến ba loại nơ-ron ẩn, bao gồm ℎ , ℎ và ℎ , có vai trò quan trọng trong việc trích xuất các đặc điểm nhận dạng và tái tạo hình ảnh khuôn mặt đầu ra.

: biểu thị một biến nhiễu.

Cấu trúc mạng của MVP bao gồm sáu lớp, trong đó có ba lớp chỉ chứa các nơ-ron xác định được tham số hóa bởi trọng số U0, U1, U4 Bên cạnh đó, ba lớp còn lại bao gồm cả nơ-ron xác định và ngẫu nhiên, với trọng số U2, V2, W2, U3, V3, U5, W5.

Quá trình tạo ra y và v bắt đầu từ x, qua các tế bào thần kinh để trích xuất đặc điểm nhận dạng ℎ Những đặc điểm này kết hợp với biểu diễn chế độ xem ẩn ℎ, tạo ra đặc trưng phục hồi khuôn mặt ℎ Cuối cùng, ℎ được sử dụng để tạo ra y, trong khi ℎ và y được hợp nhất để hình thành v.

Các nơron ẩn nhị phân xác định ℎ và ℎ, cùng với các nơron ẩn nhị phân ngẫu nhiên ℎ được lấy mẫu từ phân phối q (ℎ), tạo ra nhiều góc nhìn khác nhau thông qua việc lấy mẫu khác nhau Với khoảng mười chiều, các nơron nhị phân này có thể mô hình hóa 2^10 chế độ xem khác nhau Để minh họa, xem xét một mô hình MVP đơn giản chỉ với một lớp ẩn ℎ và ℎ; nhiều lớp có thể được thêm vào và phát triển theo cách tương tự Trong quá trình học, chúng ta sẽ xem xét một phân phối chung và loại bỏ các nơron ẩn ngẫu nhiên.

Trọng số và độ lệch của MVP được xác định thông qua phương pháp cực đại hóa khả năng (maximum likelihood estimation - MLE) nhằm ước lượng các tham số Giới hạn dưới của MLE đóng vai trò quan trọng trong việc đánh giá độ chính xác của ước lượng.

Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu

Phương trình (3) đạt được bằng cách phân tách log-likelihood thành 2 phần:

Giới hạn dưới có thể được tối đa hóa thông qua Tối đa hóa kỳ vọng Monte Carlo (MCEM) Theo quy tắc Bayes, phân phối hậu nghiệm thực sự của MVP được xác định như sau:

Trong đó, p(y, v | hv) biểu thị cho lỗi nhận thức từ nhiều chế độ xem, p(hv) là phân phối trước trên hv, và p(y, v) đóng vai trò là hằng số chuẩn hóa Để ước tính phân phối hậu nghiệm thực sự, chúng ta thực hiện các bước cần thiết.

Để ước lượng gần đúng, chúng ta lấy mẫu hv từ phân phối đồng đều hv ∼U (0, 1) và tính theo trọng số quan trọng p (y, v | hv; Θold) Sử dụng thuật toán EM, giới hạn dưới của log-likelihood được xác định.

Trong đó, là trọng số Bước E lấy mẫu các tế bào thần kinh ẩn ngẫu nhiên, tức là hvs ∼U (0, 1), trong khi bước M tính toán gradient,

Trong đó gradient được tính bằng cách lấy trung bình trên tất cả các gradient đối với các mẫu quan trọng.

Tái tạo mẫu với Deep Autoencoder (DA) cho một mẫu mỗi người trong nhận dạng khuôn mặt

Nghiên cứu này giới thiệu một thuật toán mới nhằm tổng quát hóa các biến thể nội lớp của các đối tượng nhiều mẫu thành các đối tượng mẫu đơn thông qua việc sử dụng bộ mã hóa tự động học sâu Thuật toán bắt đầu bằng việc đào tạo một bộ mã tự động sâu tổng quát với toàn bộ hình ảnh trong thư viện, sau đó tinh chỉnh một bộ mã tự động sâu theo lớp (CDA) cho từng đối tượng mẫu đơn cụ thể Các mẫu của đối tượng nhiều mẫu, tương tự như đối tượng mẫu đơn, được sử dụng làm đầu vào cho CDA để tạo ra các mẫu mới.

Bài báo này đề xuất một thuật toán OSPP mới dựa trên DA (OSPP-DA).

Nghiên cứu một hàm phi tuyến tính của DA nhằm tổng quát hóa các biến thể trong lớp từ các đối tượng nhiều mẫu thành các đối tượng mẫu đơn và tái tạo các mẫu mới cho các đối tượng này Đầu tiên, thuật toán Generalised DA (GDA) được đào tạo với trọng số và độ lệch từ tất cả các mẫu trong thư viện Tiếp theo, GDA được tinh chỉnh riêng cho từng mẫu đơn của từng đối tượng để phát triển DA chuyên biệt cho từng lớp (CDA) GDA bao gồm tất cả các biến thể trong lớp và giữa các lớp của hình ảnh thư viện, trong khi CDA được điều chỉnh để tổng quát hóa các biến thể trong lớp cho lớp cụ thể Các mẫu của đối tượng nhiều mẫu gần nhất với đối tượng mẫu đơn sẽ được chọn và đưa vào CDA tương ứng để tạo ra các mẫu mới.

Nhận dạng khuôn mặt OSPP đã được chuyển đổi thành nhận dạng khuôn mặt nhiều mẫu cho mỗi cá nhân Các phương pháp như khoảng cách L2 tối thiểu, phân tích thành phần chính (PCA), SRC và hồi quy softmax được áp dụng để đạt được kết quả phân loại Thí nghiệm được thực hiện trên các cơ sở dữ liệu khuôn mặt như Yale mở rộng B, AR và CMU PIE, nhằm chứng minh tính hợp lệ của thuật toán đề xuất.

Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu

Ý tưởng chính của thuật toán OSPP-DA bao gồm các bước sau: (a) Đào tạo DA bằng cách sử dụng toàn bộ hình ảnh trong thư viện để tạo ra GDA, (b) Tinh chỉnh GDA với từng mẫu đơn nhằm tạo ra CDA, (c) Tạo lại mẫu mới cho các đối tượng mẫu đơn, và (d) Phân loại các mẫu này theo khoảng cách tối thiểu L2, hồi quy PCA, SRC hoặc hồi quy softmax.

Sau đây là những ý chính:

(i) khám phá cách tổng quát hóa các biến thể trong lớp của các đối tượng nhiều mẫu thành các đối tượng mẫu đơn có DA.

(ii) thực hiện nhiều thử nghiệm để kiểm tra thuật toán được đề xuất.

Bài viết này được cấu trúc thành các phần rõ ràng: Phần 2 sẽ giới thiệu thuật toán OSPP-DA, Phần 3 sẽ trình bày kết quả thí nghiệm, và cuối cùng, Phần 4 sẽ đưa ra kết luận.

Nhận dạng khuôn mặt OSPP dựa trên DA:

Deep autoencoder (DA) là một mạng nơron sâu học tập không giám sát, có khả năng tự động khám phá và nhận diện cấu trúc phi tuyến tính phức tạp trong các mẫu đào tạo.

DA bao gồm hai thành phần chính: bộ mã hóa và bộ giải mã Quá trình đào tạo DA diễn ra qua ba giai đoạn: pretraining, unrolling và global fine-tuning Bộ mã hóa có cấu trúc với các lớp kích thước (21 × 21) -200-100-50-25, kết hợp với một bộ giải mã đối xứng để minh họa.

Hình 2.6.2 Ba giai đoạn tạo DA: (a) Pretraining, (b) Unrolling, (c) Global fine-tuning

Pretraining: Đầu tiên, DA được đào tạo mỗi hai lớp Mỗi mạng hai lớp là một ‘máy Boltzmann hạn chế’ (RBM).

Hình 2.6.3 Một RBM với bốn đầu vào và ba đầu ra Đầu vào và đầu ra của RBM được gọi là đơn vị 'hiển thị' và 'ẩn' tương ứng.

Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu

[ , , , ] là data đầu vào, [b 1 , b 2 , b 3 , b 4 ] là vector bias đầu vào, [h 1 , h 2 , h 3 ] là data đầu ra, [b 1 , b 2 , b 3 ] là vector bias đầu ra, w ij , i = 1, 2, 3, 4, j = 1, 2, 3 là trọng số giữa đầu vào và đầu ra.

Với mỗi đầu vào v, trạng thái nhị phân của từng đơn vị ẩn j sẽ được xác định là 1 với một xác suất nhất định.

Hàm logistic sigmoid được sử dụng để xác định trạng thái của các đơn vị ẩn Khi trạng thái của các đơn vị này đã được quyết định, các trạng thái ước tính của đơn vị hiển thị sẽ được tái tạo với một xác suất nhất định.

Với vi, hj là trạng thái nhị phân của đơn vị 'hiển thị' i và đơn vị 'ẩn' j, sự thay đổi trọng số của RBM được đưa ra bởi:

RBM (Restricted Boltzmann Machine) là một mô hình học máy sử dụng để tối ưu hóa tỷ lệ học tập và cải thiện chất lượng dữ liệu đầu vào Quá trình đào tạo RBM diễn ra thông qua sự phân kỳ tương phản, trong đó các đơn vị ẩn sau khi được học sẽ trở thành các đơn vị hiển thị cho RBM tiếp theo Mỗi RBM mới sẽ được huấn luyện theo cách tương tự, nhằm nâng cao khả năng tái tạo và hiệu suất của mô hình.

Sau giai đoạn pretraining, quá trình "unrolling" diễn ra, tạo ra các mạng giải mã bằng cách xây dựng bộ giải mã với trọng số và độ lệch tương tự như bộ mã hóa, như thể hiện trong Hình 2b.

Sau khi hoàn thành hai bước trước, DA đã được tạo ra nhưng vẫn còn sai số tái tạo lớn Giai đoạn thứ ba, được gọi là tinh chỉnh toàn cầu, nhằm giảm thiểu sai số này bằng cách cập nhật trọng số và độ lệch thông qua quá trình nhân giống ngược trên toàn bộ DA, nhằm tối ưu hóa sai số cross-entropy Bên cạnh đó, cần phân biệt giữa GDA và CDA để hiểu rõ hơn về các phương pháp này.

Dữ liệu thư viện bao gồm nhiều hình ảnh chủ đề mẫu:

(N1 đối tượng và M ảnh cho mỗi đối tượng).

Hình ảnh đối tượng mẫu đơn (thường là hình ảnh trung tính):

(N2 đối tượng và 1 ảnh cho mỗi đối tượng).

Hình ảnh truy vấn được ký hiệu là y.

GDA được hình thành thông qua việc đào tạo DA với toàn bộ hình ảnh trong thư viện Sau khi hoàn tất quá trình học GDA, CDA được tạo ra bằng cách tinh chỉnh GDA với mẫu đơn của từng đối tượng, thực hiện việc tinh chỉnh toàn cầu GDA với các bản sao để tạo ra kết quả chính xác hơn.

GDA cung cấp một đa tạp bao gồm tất cả các biến thể trong dữ liệu đào tạo Đối với CDA, quá trình tinh chỉnh sẽ điều chỉnh đa tạp sao cho phù hợp với mẫu đơn, từ đó tái tạo các mẫu mới cho từng đối tượng cụ thể.

Hình 2.6.4 (a) GDA, (b) CDA. c Tái tạo và nhận dạng mẫu:

Để thực hiện quá trình tái tạo mẫu, cần xác định khoảng cách L2 tối thiểu giữa các ảnh trung tính Từ đó, chọn đối tượng đa mẫu có sự tương đồng cao nhất với đối tượng mẫu đơn i Các mẫu của đối tượng đa mẫu này sau đó sẽ được sử dụng để tạo ra các mẫu mới, như minh họa trong Hình 1c.

*Ba bước để tái thiết:

(i) Tính khoảng cách L2 giữa các ảnh trung tính của nhiều đối tượng mẫu và mẫu đơn Lấy ID của chủ thể có nhiều mẫu giống nhau nhất.

Báo cáo thực tập tốt nghiệp GHVD: Đặng Nguyên Châu

(ii) Đầu vào của CDA và ngõ ra là các mẫu tái tạo của đối tượng mẫu đơn i.

(iii) Chạy i = 1 đến N2, lặp lại (i) và (ii), và tất cả các mẫu tái tạo là:

Few-Shot Adversarial Learning của Realistic Neural talking Head Models

Phương pháp tạo mẫu ảo sử dụng GANs đã được Zakharov và cộng sự [17] áp dụng, trong đó các điểm đặc trưng khuôn mặt được trích xuất để thể hiện sự biến đổi trong lớp Chiến lược siêu học được áp dụng nhằm nâng cao chất lượng của mẫu ảo được tạo ra trong quá trình đào tạo đối tượng.

Hình 2.7.1 trình bày kết quả tổng hợp hình ảnh khuôn mặt nói chuyện bằng cách sử dụng các dấu vết mốc khuôn mặt từ chuỗi video khác nhau của cùng một người (bên trái) và từ một người khác (bên phải) Kết quả được điều chỉnh dựa trên các mốc lấy từ khung đích, trong khi khung nguồn là ví dụ từ tập huấn luyện Các mô hình khuôn mặt biết nói bên trái được đào tạo với tám khung, trong khi các mô hình bên phải chỉ được đào tạo một lần.

Trong bài viết này, nhóm tác giả tập trung vào việc phát triển các mô hình khuôn mặt nói chuyện thực tế được cá nhân hóa, cho phép tổng hợp chuỗi video chân thực về biểu cảm và giọng nói của từng cá nhân Cụ thể, họ nghiên cứu cách tổng hợp hình ảnh đầu cá nhân hóa từ ảnh thật, sử dụng một tập hợp các đặc điểm khuôn mặt (landmarks) để tạo ra hoạt ảnh cho mô hình.

Tổng hợp chuỗi khuôn mặt nói chuyện thực tế là một thách thức lớn do hai lý do chính Thứ nhất, khuôn mặt con người có độ phức tạp cao về trắc quang, hình học và động học Sự phức tạp này không chỉ đến từ việc tạo mẫu khuôn mặt với nhiều phương pháp khác nhau mà còn liên quan đến việc tạo mẫu khoang miệng, tóc và quần áo.

Báo cáo thực tập tốt nghiệp của Đặng Nguyên Châu chỉ ra rằng hệ thống thị giác của con người rất nhạy bén với những sai sót nhỏ trong mô hình ngoại hình của khuôn mặt Khả năng chịu đựng sai lầm thấp này lý giải cho sự phổ biến của các hình đại diện giống như phim hoạt hình phi thực tế trong nhiều hệ thống hội nghị từ xa hiện nay.

Bài báo giới thiệu một hệ thống tạo mô hình mặt biết nói từ ít bức ảnh thông qua phương pháp học ít mẫu (few-shot learning) và thời gian đào tạo hạn chế Hệ thống này có khả năng tạo ra kết quả hợp lý từ một bức ảnh duy nhất (one-shot learning) và khi thêm vài bức ảnh, độ trung thực của quá trình cá nhân hóa sẽ được cải thiện Các đầu nói chuyện được tạo ra sử dụng mô hình ConvNets sâu, tổng hợp khung hình video qua chuỗi hoạt động phức tạp mà không cần uốn cong.

Khả năng học tập nhanh chóng được phát triển thông qua quá trình mở rộng pre-training trên một kho dữ liệu lớn chứa video về các diễn giả khác nhau với ngoại hình đa dạng Trong quá trình meta-learning, hệ thống mô phỏng các nhiệm vụ học tập trong vài lần chụp, từ đó học cách chuyển đổi các vị trí mốc thành những bức ảnh cá nhân hóa trông thực tế, tạo ra một bộ hình ảnh đào tạo nhỏ cho từng người.

Trong các thử nghiệm, chúng tôi so sánh các đầu biết nói do hệ thống tạo ra với các mô hình thần kinh thay thế thông qua các phép đo định lượng và nghiên cứu người dùng Phương pháp của chúng tôi tạo ra hình ảnh chân thực và độ trung thực cá nhân hóa, mang lại trải nghiệm tốt hơn cho người dùng.

Hệ thống vay mượn được thiết kế dựa trên những tiến bộ gần đây trong việc tạo mô hình tổng về hình ảnh, với kiến trúc đào tạo đối nghịch và các yếu tố phân biệt có điều kiện Giai đoạn meta-learning áp dụng cơ chế chuẩn hóa phiên bản thích ứng, cho thấy hiệu quả trong các nhiệm vụ tạo có điều kiện quy mô lớn.

2.7.2 Chi tiết phương pháp: a Kiến trúc và ký hiệu:

Kiến trúc meta-learning liên quan đến mạng embedder ánh xạ hình ảnh khuôn mặt với các vectơ nhúng, giúp loại bỏ thông tin phụ thuộc vào tư thế Mạng trình tạo chuyển đổi các mốc khuôn mặt đầu vào thành khung đầu ra thông qua các lớp chập, được điều chỉnh bởi các vectơ nhúng thông qua chuẩn hóa phiên bản thích ứng Trong quá trình meta-learning, các khung từ cùng một video được đưa qua trình nhúng, trung bình kết quả và sử dụng để dự đoán các thông số thích ứng cho Generator Cuối cùng, các điểm mốc của khung hình khác được chuyển qua Generator và so sánh với hình ảnh ground truth.

Giả sử có M chuỗi video với những khuôn mặt biết nói khác nhau, được biểu diễn bằng x i (t), trong đó i là chỉ số chuỗi video và t là khung hình Sử dụng mã căn chỉnh khuôn mặt hiện có để trích xuất các đường nét đặc trưng của khuôn mặt.

Trong meta-learning, có 3 mạng network được đào tạo:

Embedder: , lấy một khung hình video x i (s), một hình ảnh mốc liên quan y i (s), và ánh xạ các đầu vào này thành một vectơ N chiều ê i (s).

Bộ tạo generator nhận hình ảnh cột mốc y i (t) cho khung video mà trình nhúng không thể thấy, từ đó dự đoán video nhúng ê i và xuất ra khung video tổng hợp Mục tiêu của bộ tạo là tối đa hóa sự tương đồng giữa đầu ra và khung ground truth Tất cả các tham số trong bộ tạo được phân chia thành hai loại: tham số chung ̂ và tham số riêng.

Báo cáo thực tập tốt nghiệp của Đặng Nguyên Châu đề cập đến việc huấn luyện trực tiếp một mô hình, trong khi các dự đoán được thực hiện từ vectơ nhúng thông qua ma trận chiếu có khả năng huấn luyện.

Bộ phân biệt nhận đầu vào là khung hình video x i (t) và hình ảnh mốc y i (t) cùng chỉ số huấn luyện i Các tham số học được bao gồm θ, W, w0 và b Nó sử dụng phần ConvNet V (xi (t), yi (t); θ) để chuyển đổi khung hình và hình ảnh mốc thành một vectơ N chiều Dựa trên đầu ra từ ConvNet và các tham số, bộ phân biệt đưa ra một điểm số thực r, cho biết liệu khung hình xi (t) có phải là khung thực của chuỗi video thứ i và có khớp với tư thế đầu vào yi (t) hay không.

Các thông số của cả ba mạng đều được đào tạo theo kiểu đối nghịch. b Giai đoạn học tổng hợp (Meta-learning):

Quá trình này được thực hiện thông qua việc mô phỏng các tập K-shot learning với K = 8 trong các thí nghiệm Mỗi tập bao gồm việc chọn ngẫu nhiên một chuỗi video đào tạo i và một khung hình t từ chuỗi đó Ngoài khung hình t, chúng ta cũng chọn ngẫu nhiên thêm K khung hình s1, s2, , sK từ cùng một chuỗi video.

Tạo khuôn mặt để học low-shot sử dụng Generative Adversarial Networks (GAN)

[10] Abdolali F, Seyyedsalehi S A Face recognition from a single image per person using deep architecture neural networks[C] // Proceedings of the 3rd International Conference on Computer and Electrical Engineering (ICCEE) Chengdu, China: IEEE, 2010: 1: 70-73.

[11] Abdolali F, Seyyedsalehi S A Improving face recognition from a single image per person via virtual images produced by a bidirectional network[J] Procedia-Social and Behavioral Sciences, 2012, 32: 108- 116.

[12] Reed S, Sohn K, Zhang Y, et al Learning to disentangle factors of variation with manifold interaction[C] //Proceedings of the 31st International Conference on Machine Learning (ICML) Beijing, China: IMLS, 2014: 1431-1439.

[13] Tang Y, Salakhutdinov R, Hinton G Deep lambertian networks[J] ArXiv Preprint,

[14] Li M, Zuo W, Zhang D Convolutional network for attribute-driven and identity-preserving human face generation[J] ArXiv Preprint, ArXiv:1608.06434, 2016.

The study by Zhu et al (2014) presents the Multi-view Perceptron, a deep learning model designed to enhance the learning of face identity and view representations This research was showcased at the International Conference on Neural Information Processing Systems (NIPS) held in Kuching, Malaysia, and is published by MIT Press The findings contribute significantly to the fields of computer vision and facial recognition technology.

[16] Zhang Y, Peng H Sample reconstruction with deep autoencoder for one sample per person face recognition[J] IET Computer Vision, 2017, 11(6): 471-478.

[17] Zakharov E, Shysheya A, Burkov E, et al Few-shot adversarial learning of realistic neural talking head models[C] //Proceedings of the 2019 IEEE International Conference on Computer Vision (ICCV). Seoul, Korea: IEEE, 2019: 9459-9468

[18] Choe J, Park S, Kim K, et al Face generation for low-shot learning using generative adversarial networks[C] //Proceedings of the 2017 IEEE International Conference on Computer Vision Workshops (ICCVW) Venice, Italy: IEEE, 2017: 1940-1948.

Ngày đăng: 10/02/2022, 10:17

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[10] Abdolali F, Seyyedsalehi S A. Face recognition from a single image per person using deep architecture neural networks[C] // Proceedings of the 3rd International Conference on Computer and Electrical Engineering (ICCEE). Chengdu, China: IEEE, 2010: 1: 70-73 Khác
[11] Abdolali F, Seyyedsalehi S A. Improving face recognition from a single image per person via virtual images produced by a bidirectional network[J]. Procedia-Social and Behavioral Sciences, 2012, 32: 108- 116 Khác
[12] Reed S, Sohn K, Zhang Y, et al. Learning to disentangle factors of variation with manifold interaction[C] //Proceedings of the 31st International Conference on Machine Learning (ICML). Beijing, China: IMLS, 2014: 1431-1439 Khác
[13] Tang Y, Salakhutdinov R, Hinton G. Deep lambertian networks[J]. ArXiv Preprint, ArXiv:1206.6445, 2012 Khác
[14] Li M, Zuo W, Zhang D. Convolutional network for attribute-driven and identity-preserving human face generation[J]. ArXiv Preprint, ArXiv:1608.06434, 2016 Khác
[15] Zhu Z, Luo P, Wang X, et al. Multi-view perceptron: A deep model for learning face identity and view representations[C] //Proceedings of the 2014 International Conference on Neural Information Processing Systems (NIPS). Kuching, Malaysia: MIT Press, 2014: 217-225 Khác
[16] Zhang Y, Peng H. Sample reconstruction with deep autoencoder for one sample per person face recognition[J]. IET Computer Vision, 2017, 11(6): 471-478 Khác
[17] Zakharov E, Shysheya A, Burkov E, et al. Few-shot adversarial learning of realistic neural talking head models[C] //Proceedings of the 2019 IEEE International Conference on Computer Vision (ICCV).Seoul, Korea: IEEE, 2019: 9459-9468 Khác
[18] Choe J, Park S, Kim K, et al. Face generation for low-shot learning using generative adversarial networks[C] //Proceedings of the 2017 IEEE International Conference on Computer Vision Workshops (ICCVW). Venice, Italy: IEEE, 2017: 1940-1948 Khác

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w