1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa hướng nhìn

82 26 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 82
Dung lượng 1,99 MB

Cấu trúc

  • CHƯƠNG 1 TỔNG QUAN VỀ ĐỀ TÀI (0)
    • 1.1. Hình thành vấn đề (10)
    • 1.2. Phạm vi nghiên cứu (11)
      • 1.2.1. Đối tượng nghiên cứu (0)
      • 1.2.2. Mục tiêu của đề tài (11)
      • 1.2.3. Phương pháp nghiên cứu (12)
    • 1.3. Tóm lược những kết quả đạt được (0)
    • 1.4. Kết cấu của đề tài (13)
  • CHƯƠNG 2 CƠ SỞ LÝ THUYẾT (0)
    • 2.1. Mô hình hệ thống video 3D (15)
    • 2.2. Hệ tọa độ và thông số camera (16)
    • 2.3. Bản đồ chiều sâu của ảnh (19)
    • 2.4. Tổng hợp ảnh cho video 3D (21)
    • 2.5. Phương pháp đánh giá kết quả (26)
  • CHƯƠNG 3 CÁC KẾT QUẢ NGHIÊN CỨU LIÊN QUAN (0)
    • 3.1. Tổng hợp ảnh theo vùng ảnh tin cậy (28)
      • 3.1.1. Mã hóa và Tổng hợp ảnh cho Multiview Video (28)
      • 3.1.2. Cải tiến tổng hợp ảnh dựa trên tách lớp đối tượng (31)
      • 3.1.3. Dự đoán trên ảnh tổng hợp cho Multiview Video (34)
    • 3.2. Tổng hợp ảnh theo hiệu chỉnh ảnh (35)
      • 3.2.1. Tổng hợp ảnh không có thông số hiệu chỉnh (35)
    • 3.4. Tổng kết các nghiên cứu liên quan (44)
  • CHƯƠNG 4 HIỆN THỰC CHƯƠNG TRÌNH (0)
    • 4.1. Tập tin cấu hình (45)
    • 4.2. Tập tin tham số camera (0)
    • 4.3. Dữ liệu ảnh đầu vào (54)
    • 4.4. Sơ đồ khối chức năng của chương trình (55)
      • 4.4.1. Hàm ForwardWarp (57)
      • 4.4.2. Hàm Merge (58)
      • 4.4.3. Hàm Fillholes (59)
  • CHƯƠNG 5 KẾT QUẢ VÀ ĐÁNH GIÁ (0)
    • 5.1. Cài đặt và thực thi chương trình (65)
    • 5.2. Tập dữ liệu kiểm tra chương trình (66)
      • 5.2.1. Thiết lập camera cho các tập dữ liệu (66)
      • 5.2.2. Đặc tả tập dữ liệu (0)
    • 5.3. Kết quả thực thi chương trình (68)
    • 5.4. Đánh giá kết quả thu được (76)
  • CHƯƠNG 6 KẾT LUẬN VÀ KIẾN NGHỊ (0)
  • TÀI LIỆU THAM KHẢO (80)

Nội dung

TỔNG QUAN VỀ ĐỀ TÀI

Hình thành vấn đề

Những tiến bộ trong công nghệ chế tạo máy ảnh và thiết bị hiển thị đã nâng cao khả năng thu hình nhiều góc nhìn (Free Viewpoint), đáp ứng nhu cầu ngày càng tăng về ứng dụng video 3D như truyền hình 3D (3DTV) và video đa hướng nhìn Ứng dụng video 3D (3DV) mở rộng video 2D với khả năng tạo dựng 3D (3D rendering), yêu cầu thêm một góc quay được giải mã và hiển thị đồng thời để tạo hiệu ứng 3D Người dùng có thể tương tác và chọn góc nhìn ưa thích trong không gian 3D, mang lại trải nghiệm hình ảnh sống động và gần gũi với thực tế Các ứng dụng này không chỉ phục vụ nhu cầu giải trí mà còn được áp dụng trong giáo dục, y tế, nhằm tối ưu hóa hiệu quả hình ảnh.

Sự gia tăng dữ liệu ảnh từ nhiều góc nhìn (Multiview) so với trình chiếu đơn góc nhìn đã tạo ra thách thức trong việc xử lý và truyền tải Việc khai thác mối tương quan giữa các góc quay để giảm lượng dữ liệu trong các ứng dụng video đa hướng nhìn và truyền hình 3D (3DTV) đang thu hút sự quan tâm của nhiều tổ chức nghiên cứu và công nghiệp Các định dạng video 3D mới, như MVD (Multiview Video plus Depth), cho phép giảm đáng kể tỉ lệ dữ liệu thô được truyền tải, mang lại hiệu quả cao hơn trong việc xử lý video.

Depth) chỉ cần M tập con của N góc nhìn được truyền đi, đối với mỗi chuỗi trong video thuộc M, truyền thêm thông tin dữ liệu về chiều sâu tương ứng

Nhu cầu ngày càng cao về ứng dụng video sinh động và những tiến bộ trong nghiên cứu 3DV đã thúc đẩy sự phát triển mạnh mẽ của lĩnh vực tổng hợp ảnh (View synthesis) Nghiên cứu này nhằm xây dựng hình ảnh tổng hợp từ một máy quay ảo ở vị trí khác với các máy quay thực, sử dụng kỹ thuật tổng hợp ảnh dựa trên chiều sâu để nâng cao chất lượng ảnh tổng hợp trung gian trong hệ thống 3DV Do đó, đề tài nghiên cứu “Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa góc nhìn” được đề xuất nhằm đáp ứng nhu cầu thực tiễn.

Phạm vi nghiên cứu

1.2.1 Đối tƣợng nghiên cứu Ảnh trung gian (Intermediate View) được tổng hợp từ các cặp máy ảnh liền kề bằng cách chiếu 3D (3D projection) Các phương pháp tổng hợp ảnh hầu hết đếu dựa trên dữ liệu về chiều sâu (depth-based) của các ảnh cho trước, thực hiện các phép nội suy, ngoại suy để tổng hợp được ảnh trung gian Có thể chia làm ba nhóm phương pháp chính: theo độ tin cậy các vùng trong ảnh, theo hiệu chỉnh ảnh và theo chiều sâu thích nghi Trong đề tài này sẽ đi theo hướng dựa theo độ tin cậy để hiện thực, vì đây là một phương pháp cho ra kết quả tốt hiện nay xét về định tính lẫn định lượng [3]

Tổng hợp ảnh dựa trên hình ảnh sâu rất nhạy cảm với các sai sót trong thông số máy ảnh và bản đồ độ sâu Ba loại artifact chính là vết mờ, đường viền và lỗ Để cải thiện các lỗi này và nâng cao chất lượng ảnh tổng hợp, có thể áp dụng một số giải thuật hiệu quả, đồng thời kết hợp các phương pháp hiệu chỉnh ảnh sau quá trình tổng hợp.

1.2.2 Mục tiêu của đề tài Đề tài được thực hiện với hai mục tiêu chính Thứ nhất là tổng kết các kỹ thuật tổng hợp ảnh khác nhau trong cộng đồng nghiên cứu về các ứng dụng 3DV, đặc biệt nhấn mạnh vào kỹ thuật tổng hợp ảnh dựa vào chiều sâu được đề xuất bởi MPEG Hiểu và nắm rõ các bước khác nhau trong quá trình tổng hợp ảnh, bao gồm phương pháp ánh xạ 3D (3D warping), pha trộn ảnh (merging) và lấp lỗ trống (hole filling)

Mục tiêu thứ hai là hiện thực hóa mô hình đánh giá cho chương trình tổng hợp ảnh dựa trên dữ liệu chiều sâu, được xây dựng trên phần mềm VSRS phiên bản 3.5 Chương trình này tích hợp các thuật toán khác nhau cho phương pháp lấp chỗ trống nhằm nâng cao chất lượng ảnh sau tổng hợp Kết quả mong muốn là một mô hình hoàn chỉnh với các khối chức năng, bộ dữ liệu đầu vào và phương pháp đánh giá kết quả cho ứng dụng tổng hợp ảnh Mô hình này sẽ giúp các nhóm nghiên cứu hoặc thực hiện tiếp theo có thể bổ sung và đánh giá các phương pháp cải tiến cho ứng dụng tổng hợp ảnh một cách hiệu quả.

Quá trình thực hiện đề tài nghiên cứu về các kỹ thuật tổng hợp ảnh cho 3DV bao gồm các bước chính sau:

Nắm vững cơ sở lý thuyết về các kỹ thuật tổng hợp ảnh là rất quan trọng, bao gồm kiến thức về hệ tọa độ hình học, thông số camera, và bản đồ chiều sâu của ảnh Ngoài ra, việc áp dụng các phương pháp đánh giá chất lượng ảnh sau khi tổng hợp cũng đóng vai trò quan trọng trong việc đảm bảo tính chính xác và độ tin cậy của hình ảnh.

 Tổng kết và đánh giá các kết quả nghiên cứu liên quan đến tổng hợp ảnh cho các ứng dụng 3DV hoặc đa góc nhìn

Sử dụng phần mềm VSRS phiên bản 3.5 để tổng hợp hình ảnh dựa trên phương pháp chiều sâu, đồng thời cải thiện chất lượng ảnh tổng hợp bằng cách áp dụng các thuật toán lấp chỗ trống.

 Áp dụng các phương pháp định tính, định lượng để đánh giá tổng quát các kết quả đạt được từ nhiều nguồn dữ liệu ảnh vào (dataset) khác nhau

1.3 Tóm lƣợc những kết quả đạt đƣợc

Dựa trên các yêu cầu và mục tiêu của đề tài, chúng tôi đã tiến hành nghiên cứu và thực hiện, từ đó đạt được kết quả đáng kể cả về lý thuyết lẫn thực tiễn.

Bài viết đã nghiên cứu và đánh giá các phương pháp tổng hợp ảnh dựa trên dữ liệu chiều sâu, bao gồm phương pháp theo vùng ảnh tin cậy, hiệu chỉnh ảnh và chiều sâu thích nghi Đồng thời, bài viết cũng trình bày mô hình hệ thống tổng hợp ảnh dựa trên dữ liệu chiều sâu với các bước cụ thể.

 Lấp lỗ trống (hole filling)

Chương trình tổng hợp ảnh dựa trên dữ liệu chiều sâu sử dụng đầu vào là dữ liệu màu và dữ liệu chiều sâu từ các góc nhìn tham khảo, kết hợp với các tham số cho góc nhìn ảo Quá trình này thực hiện các bước nội suy để tạo ra ảnh trung gian ảo, bao gồm ánh xạ 3D, pha trộn ảnh và lấp chỗ trống Đặc biệt, trong bước lấp chỗ trống, chương trình áp dụng nhiều phương pháp khác nhau để cải thiện chất lượng ảnh.

 Tương thích theo mức độ chiều sâu (depth-level-apdtive) [8]

 Sử dụng màu điểm ảnh lân cận với độ sâu lớn nhất [11]

 Đề xuất cải tiến [11] bằng kĩ thuật lấy giá trị màu trung bình

Cuối cùng, chúng tôi đã cung cấp bộ dữ liệu ảnh và áp dụng phương pháp đánh giá định lượng PSNR, cũng như đánh giá định tính để tổng hợp và phân tích toàn bộ kết quả chương trình.

Mô hình đánh giá này có thể được kế thừa để bổ sung các phương pháp cải tiến cho ứng dụng tổng hợp ảnh khác về sau

1.4 Kết cấu của đề tài

Luận văn được tổ chức theo cấu trúc sau đây:

Chương 1 giới thiệu tổng quan về đề tài bao gồm hoàn cảnh ra đời của đề tài, phạm vi nghiên cứu xét đến đối tượng nghiên cứu, không gian, thời gian thực hiện đề tài, và mục tiêu, ý nghĩa của đề tài

Chương 2 trình bày một số kiến thức nền tảng bao gồm mô hình hệ thống video 3D, mô hình chức năng tổng hợp ảnh, bản đồ chiều sâu của ảnh, kĩ thuật ánh xạ 3D (3D warping) và kĩ thuật lấp chỗ trống (hole filling) trong tổng hợp ảnh theo chiều sâu Chương này cũng bàn về mô hình đánh giá kết quả nghiên cứu

Chương 3 bàn về các nghiên cứu liên quan Các công trình nghiên cứu được chọn giới thiệu liên quan đến nhiệm vụ chính của đề tài là tổng hợp ảnh trung gian dựa trên chiều sâu và các kĩ thuật lấp chỗ trống

Chương 4 trình bày chi tiết hiện thực cho chương trình tổng hợp ảnh trung gian dựa trên chiều sâu và hiện thực các chức năng lấp chỗ trống được đề xuất nhằm cải thiện và nâng cao chất lượng hình ảnh sau tổng hợp

Chương 5 đưa ra các kết quả đạt được của chương trình tổng hợp ảnh, đồng thời đánh giá, so sánh với các công trình liên quan trước đó

Chương 6 tổng kết và trình bày một số kết luận sau khi thực hiện đề tài nghiên cứu

Cuối cùng là phần liệt kê các tài liệu tham khảo trong quá trình nghiên cứu và hiện thực đề tài luận văn.

Kết cấu của đề tài

Luận văn được tổ chức theo cấu trúc sau đây:

Chương 1 giới thiệu tổng quan về đề tài bao gồm hoàn cảnh ra đời của đề tài, phạm vi nghiên cứu xét đến đối tượng nghiên cứu, không gian, thời gian thực hiện đề tài, và mục tiêu, ý nghĩa của đề tài

Chương 2 trình bày một số kiến thức nền tảng bao gồm mô hình hệ thống video 3D, mô hình chức năng tổng hợp ảnh, bản đồ chiều sâu của ảnh, kĩ thuật ánh xạ 3D (3D warping) và kĩ thuật lấp chỗ trống (hole filling) trong tổng hợp ảnh theo chiều sâu Chương này cũng bàn về mô hình đánh giá kết quả nghiên cứu

Chương 3 bàn về các nghiên cứu liên quan Các công trình nghiên cứu được chọn giới thiệu liên quan đến nhiệm vụ chính của đề tài là tổng hợp ảnh trung gian dựa trên chiều sâu và các kĩ thuật lấp chỗ trống

Chương 4 trình bày chi tiết hiện thực cho chương trình tổng hợp ảnh trung gian dựa trên chiều sâu và hiện thực các chức năng lấp chỗ trống được đề xuất nhằm cải thiện và nâng cao chất lượng hình ảnh sau tổng hợp

Chương 5 đưa ra các kết quả đạt được của chương trình tổng hợp ảnh, đồng thời đánh giá, so sánh với các công trình liên quan trước đó

Chương 6 tổng kết và trình bày một số kết luận sau khi thực hiện đề tài nghiên cứu

Cuối cùng là phần liệt kê các tài liệu tham khảo trong quá trình nghiên cứu và hiện thực đề tài luận văn.

CƠ SỞ LÝ THUYẾT

Mô hình hệ thống video 3D

Hệ thống 3DV hỗ trợ nhiều người xem với các góc nhìn khác nhau bằng cách hiển thị nhiều ảnh cùng lúc Ví dụ, màn hình LCD độ phân giải cao của Philips cho phép xem đồng thời chín góc nhìn khác nhau Người dùng ở các vị trí khác nhau sẽ thấy các góc nhìn tương ứng, tạo ra trải nghiệm hình ảnh 3D khi di chuyển trong không gian Tuy nhiên, cảm nhận 3D không liền mạch và bị giới hạn bởi số lượng vị trí xem Chức năng mở rộng của 3DV tăng tốc độ dữ liệu lên N lần so với video 2D, trong khi mã hóa đa góc nhìn thường giảm tốc độ bit tổng thể khoảng 20% Một phương pháp hiệu quả cho video stereo là sử dụng định dạng video cộng với độ sâu (V+D), với chuẩn MPEG-C Phần 3 cho phép tái tạo video stereo từ video dựa trên chiều sâu, giúp nén dữ liệu độ sâu hiệu quả hơn Các góc nhìn với bản đồ độ sâu chính xác được gửi cùng với tín hiệu video, cho phép tạo ra các góc nhìn khác tại phía nhận thông qua công nghệ DIBR.

Pos: góc nhìn,R: mắt phải, L: mắt trái, V: view / hình ảnh, D: chiều sâu

Các thiết kế hệ thống 3DV dựa trên định dạng MVD gặp nhiều thách thức, bao gồm việc thu hình từ nhiều góc nhìn, ước lượng độ sâu, xác định tham số hệ thống, cũng như cải thiện hiệu quả nén dữ liệu, truyền tải và rendering Những vấn đề này vẫn đang trong quá trình nghiên cứu và phát triển.

Hệ tọa độ và thông số camera

Để mô tả bài toán tổng hợp ảnh, một mô hình hình học camera được sử dụng, trong đó định nghĩa ba loại hệ tọa độ và các thông số của camera Hình học camera là yếu tố chính trong việc hiểu và xử lý hình ảnh.

Hệ thống 3DV là khái niệm cơ bản liên quan đến các kỹ thuật đã được hiện thực hóa trong MPEG 3DV Trong phần này, chúng ta sẽ tóm tắt mô hình này như một kiến thức nền tảng.

Hệ tọa độ trong đa góc nhìn bao gồm ba loại: hệ tọa độ thế giới, hệ tọa độ camera và hệ tọa độ ảnh Hệ tọa độ 3D duy nhất được xác định không phụ thuộc vào bất kỳ camera nào, trong khi mỗi camera có hệ tọa độ riêng Hệ tọa độ camera là ba chiều với mặt phẳng x_c - y_c là mặt phẳng camera, nơi trung tâm quang học nằm trong mặt phẳng này Hệ tọa độ ảnh là hai chiều trong mặt phẳng ảnh nơi hình ảnh được chụp, và mặt phẳng ảnh song song với mặt phẳng camera Giao điểm của trục quang học z_c với mặt phẳng ảnh được gọi là principal point.

Để mô tả mối quan hệ giữa hệ tọa độ camera và hệ tọa độ ảnh, hai tập hợp thông số camera quan trọng được định nghĩa là ma trận nội A và ma trận ngoại E = [R | t] Ma trận nội A thể hiện sự chuyển đổi từ hệ tọa độ camera sang hệ tọa độ ảnh của nó.

Độ dài tiêu cự f x và f y tương ứng trên trục x và y, trong khi (o x, o y) là độ lệch của điểm chính Điểm chính có thể là (0,0) nếu gốc của hệ tọa độ ảnh trùng với điểm chính Tuy nhiên, gốc của mặt phẳng ảnh thường được đặt ở góc trên bên trái, dẫn đến việc điểm chính sẽ khác 0.

Quan sát hình bên phải, ta nhận thấy mối quan hệ giữa độ dài tiêu cự f x, vị trí pixel từ điểm chính u, và tọa độ 3D trong hệ tọa độ camera (x C, z C) được thể hiện rõ ràng.

C C f x u x  z Nếu principle point offset khác 0, vị trí pixel u có thể được tính: x C x C u f x o z 

Do đó dưới đây chúng ta sẽ có mối quan hệ giữa tọa độ ảnh và tọa độ camera sử dụng ma trận nội A:

Ma trận ngoại E = [R | t] được sử dụng để chuyển đổi từ hệ tọa độ thế giới sang hệ tọa độ camera, bao gồm ma trận xoay R 3x3 và ma trận dịch chuyển t 3x1.

Phương trình (2.2.1) và (2.2.2) miêu tả cách thức mà một điểm 3D ở trong hệ tọa độ thế giới được ánh xạ vào trong hệ tọa độ camera.

Bản đồ chiều sâu của ảnh

Trong đồ họa 3D, bản đồ chiều sâu (depth map) là hình ảnh chứa thông tin về khoảng cách giữa các bề mặt của đối tượng trong cảnh từ một góc nhìn cụ thể Thuật ngữ này liên quan đến bộ đệm chiều sâu (Z-buffer), trong đó "Z" đề cập đến trục trung tâm của máy ảnh theo hướng trục Z, không phải trục Z tuyệt đối của cảnh.

Hình 2.3: Ví dụ về bản đồ chiều sâu của ảnh

Hai bản đồ độ sâu khác nhau được trình bày trong Hình 2.3, cùng với mô hình ban đầu Bản đồ độ sâu đầu tiên thể hiện độ sáng tương ứng với khoảng cách từ máy ảnh, trong đó bề mặt gần tối hơn và bề mặt xa sáng hơn Bản đồ thứ hai cho thấy độ sáng liên quan đến khoảng cách từ một mặt phẳng tiêu danh nghĩa, với bề mặt gần mặt phẳng tiêu cự tối hơn và bề mặt xa hơn thì sáng hơn Giá trị pixel của ảnh độ sâu nằm trong khoảng từ 0 đến 255, trong đó z near và z far là dải chiều sâu của khung cảnh vật lý Giá trị pixel là 0 biểu thị điểm 3D xa nhất với chiều sâu z far, trong khi giá trị pixel là 255 cho biết điểm 3D gần nhất với chiều sâu z near.

Hình 2.4 : Ví dụ về giá trị chiều sâu của ảnh

Chênh lệch (disparity) giữa hai ảnh là giá trị ngược lại với độ sâu (depth) của ảnh, với mối tương quan âm giữa chúng Khi khoảng cách từ máy ảnh tăng, chênh lệch giảm, điều này cho phép nhận thức tính toán độ sâu trong hình ảnh stereo Bằng cách sử dụng hình học và đại số, các điểm trong hình ảnh stereo 2D có thể được ánh xạ thành các tọa độ trong không gian 3D Hình 2.5 [17] minh họa bản đồ chiều sâu tương quan giữa hai ảnh được tính toán thông qua disparity.

Hình 2.5: Chiều sâu tương quan giữa hai ảnh thông qua bản đồ disparity

Sự khác biệt giữa hai hình ảnh stereo thường được xác định bằng cách so sánh sự thay đổi của điểm ảnh bên trái Chẳng hạn, một điểm tại tọa độ (x, t) của hình ảnh bên trái có thể xuất hiện tại tọa độ (x, t – 3) trong hình ảnh bên phải, dẫn đến chênh lệch 3 điểm ảnh Tuy nhiên, hình ảnh stereo không phải lúc nào cũng chính xác với phép tính chênh lệch do các thiết lập máy ảnh có thể hơi lệch khỏi điểm gốc Để khắc phục điều này, quá trình chỉnh hình ảnh (rectification) được thực hiện, giúp cả hai hình ảnh được quay để đảm bảo sự chênh lệch chỉ xảy ra theo hướng ngang mà không có sự khác biệt trên trục y.

Tổng hợp ảnh cho video 3D

Trong phần này chúng ta sẽ thảo luận một số kỹ thuật tổng hợp ảnh

Đối với ứng dụng 3DV, thay vì truyền tải nhiều ảnh từ mọi góc nhìn, chúng ta có thể sử dụng video từ một số góc nhìn kèm theo bản đồ chiều sâu tương ứng Bản đồ chiều sâu, được thể hiện dưới dạng ảnh xám, cho biết cấp độ chiều sâu của từng điểm ảnh Phương pháp này giúp tối ưu hóa quá trình tổng hợp ảnh trung gian bằng cách áp dụng DIBR, mang lại hiệu quả cao hơn so với việc sử dụng nhiều ảnh tĩnh Trong bài viết này, chúng tôi sẽ giới thiệu định dạng bản đồ chiều sâu phổ biến nhất.

Giá trị pixel Y của ảnh depth nằm trong khoảng từ 0 đến 255, trong khi z near và z far xác định dải chiều sâu của khung cảnh vật lý Giá trị chiều sâu vật lý z tương ứng với giá trị pixel Y.

Mục tiêu chính của hệ thống tổng hợp ảnh là tạo ra một hình ảnh ảo từ các góc nhìn xung quanh bằng cách sử dụng thông số máy ảnh, hình ảnh màu và hình ảnh sâu Hệ thống này hoạt động dựa trên chiều sâu, như được minh họa trong Hình 2.6.

Hình 2.6: Sơ đồ tổng hợp ảnh trung gian dựa trên chiều sâu

Bước đầu tiên trong quá trình tổng hợp ảnh là ánh xạ các pixel từ ảnh ở góc nhìn tham khảo sang góc nhìn ảo, sử dụng bản đồ chiều sâu đã được cung cấp Kỹ thuật này được gọi là ánh xạ 3D dựa trên chiều sâu Ví dụ minh họa cho ánh xạ 3D nhằm tạo ra hình ảnh trung gian ở góc nhìn ảo được thể hiện trong Hình 2.7.

Uốn cong 3D dựa trên chiều sâu

Trộn ảnh trái và phải

Lấp chỗ trống sau khi ghép ảnh Ảnh màu Ảnh chiều sâu

Uốn cong 3D dựa trên chiều sâu Ảnh tổng hợp ở góc nhìn ảo

Góc nhìn trái Góc nhìn phải

Hình 2.7: Khái niệm chung về 3D warping

Khi chọn một pixel tại tọa độ (u_r, v_r) trong hệ tọa độ ảnh của góc nhìn tham khảo, ta có thể xác định vị trí tương ứng của nó (u_v, v_v) trong góc nhìn ảo thông qua quá trình ánh xạ Dựa vào các phương trình (2.1) và (2.2), chúng ta có thể tính toán tọa độ thế giới của điểm 3D tương ứng với pixel (u_r, v_r) trong góc nhìn tham khảo.

  (2.4) r cho biết nó thuộc về góc nhìn tham khảo, và z C r , là giá trị depth được tính toán từ bản đồ chiều sâu sử dụng (2.3)

Sau đó cũng từ phương trình (2.1) và (2.2) chúng ta có thể ánh xạ điểm 3D này tới hệ tọa độ ảnh của góc nhìn ảo

MPEG 3DV yêu cầu một quy trình ánh xạ nghiêm ngặt, thuộc về góc nhìn ảo, có thể được đơn giản hóa trong một số tình huống.

Để có được video đa góc nhìn chất lượng, các camera nên được sắp xếp song song và cách xa vật thể càng nhiều càng tốt Khoảng cách lý tưởng giữa các camera thường là 5cm.

Khi cần hiệu chỉnh ảnh để tạo ra các góc nhìn sắp xếp tuyến tính và song song, cần cung cấp cả dữ liệu đã hiệu chỉnh và dữ liệu gốc Việc này nên được thực hiện bằng các thuật toán chất lượng cao để đảm bảo hiệu chỉnh đạt hiệu quả tốt nhất.

 Các thông số hiệu chuẩn máy ảnh như thông số trong, thông số ngoài, hay mặt phẳng cảm biến cũng được yêu cầu phải chính xác

Dựa vào các yêu cầu đã nêu, chúng ta sẽ giải quyết vấn đề tổng hợp ảnh trong trường hợp đặc biệt này bằng cách xem xét phương pháp dịch chuyển 1D, do sự chênh lệch chỉ xảy ra dọc theo trục u Để đơn giản hóa kết quả, giả sử camera ảo có cùng độ dài tiêu cự và ma trận xoay, điều này không làm mất đi tính tổng quát của phương pháp Do đó, chúng ta sẽ xây dựng phương trình dựa trên công thức tổng quát (2.4) và (2.5).

Trong bài viết này, chúng ta sẽ tìm hiểu về các thành phần của vector dịch chuyển trong không gian 3D, bao gồm độ dài tiêu cự f và các thành phần x của vector dịch chuyển t từ góc nhìn ảo và góc nhìn tham khảo Cụ thể, t x v và t x r đại diện cho chiều ngang của vector dịch chuyển, trong khi o x v và o x r là các thành phần x của principle point offset từ hai góc nhìn này Chúng ta cũng sẽ định nghĩa không gian cơ bản (baseline spacing) là l = t x v - t x r và sự khác biệt trong principle offset là du = o x v - o x r Cuối cùng, vị trí pixel tương ứng trong góc nhìn ảo có thể được biểu diễn thông qua một sự chênh lệch d.

Trong trường hợp đặc biệt với camera sắp xếp song song, khi z được xác định bằng phương trình (2.3), chúng ta có thể ánh xạ mọi pixel từ góc nhìn tham khảo sang góc nhìn ảo thông qua phương trình (2.7).

Trong phương trình (2.7), kết quả có thể là số thực, cho phép một pixel được ánh xạ vào vị trí không phải là số nguyên Để tối ưu hóa quá trình, chúng ta sẽ làm tròn tới vị trí pixel nguyên và nhằm giảm thiểu ảnh hưởng của lỗi làm tròn, việc ánh xạ tới vị trí pixel con có thể được xem xét Trong phần hiện thực của mode 1D trong phần mềm tổng hợp ảnh VSRS [11] cho MPEG 3DV, người dùng có thể chọn làm tròn một nửa pixel hoặc pixel nguyên Việc ánh xạ pixel tới nửa pixel hay pixel nguyên cụ thể sẽ ảnh hưởng đến chất lượng tổng hợp ảnh Do đó, việc tăng kích thước chiều rộng ảnh (upsample) lên 2 hoặc 4 lần ở góc nhìn tham khảo trước khi thực hiện ánh xạ có thể cải thiện chất lượng ánh xạ.

Sau bước ánh xạ 3D, các hình ảnh ánh xạ trung gian thường xuất hiện lỗi như lỗ trống và đường viền đen do thiếu chính xác trong thông số máy ảnh và ranh giới không chính xác giữa hình ảnh kết cấu và hình ảnh sâu Để khắc phục, chúng ta có thể sử dụng giãn hình ảnh, lấp đầy các lỗ trống bằng ánh xạ 3D khác và loại bỏ lỗi để có được ảnh tổng hợp tự nhiên hơn Tiếp theo, quá trình trộn các hình ảnh diễn ra để tạo ra ảnh sau khi ánh xạ 3D, và cuối cùng là áp dụng các giải thuật lấp đầy lỗ trống cho hình ảnh hoàn thiện Các vấn đề lấp đầy lỗ hổng có thể được chia thành hai phần: xác định lỗ và tìm kiếm tham số thích hợp để xây dựng lại các phần bị mất Trong nhiều tình huống thực tế, lỗ trống thường xuất hiện trong các hình ảnh có cấu trúc đơn giản, như trong các không gian phẳng mịn của ngôi nhà hoặc văn phòng Đối với những trường hợp này, thuật toán đơn giản sẽ xác định lỗ và tham số vùng lân cận, dựa vào lớp các đối tượng để xác định lỗ trống thuộc về đối tượng nào, sau đó nội suy giá trị màu dựa trên dữ liệu có sẵn.

Phương pháp đánh giá kết quả

Để đánh giá chất lượng của ảnh sau tổng hợp có hai phương pháp: phương pháp định tính và phương pháp định lượng

Phương pháp định tính đánh giá chất lượng ảnh dựa trên cảm nhận của con người về màu sắc so với ảnh gốc Để khẳng định kết quả, việc sử dụng bảng khảo sát ý kiến là một phương pháp hiệu quả, mặc dù độ chính xác phụ thuộc vào đối tượng khảo sát Trong khi đó, phương pháp định lượng sử dụng chỉ số Tỉ số tín hiệu cực đại trên nhiễu (PSNR) để đánh giá chất lượng ảnh, phản ánh tỉ lệ giữa năng lượng tối đa của tín hiệu và năng lượng nhiễu ảnh hưởng đến độ chính xác thông tin PSNR thường được biểu diễn bằng đơn vị logarithm decibel do sự biến đổi rộng của các tín hiệu.

PSNR là chỉ số quan trọng để đánh giá chất lượng tín hiệu khôi phục từ các thuật toán nén có mất mát dữ liệu trong nén ảnh Trong đó, tín hiệu đại diện cho dữ liệu gốc, còn nhiễu là các lỗi xảy ra trong quá trình nén Khi so sánh các thuật toán nén, cảm nhận của con người về chất lượng dữ liệu khôi phục thường là tiêu chí chính, dẫn đến việc một số thuật toán có thể cho kết quả chất lượng tốt hơn mặc dù có giá trị PSNR thấp hơn Do đó, để so sánh hiệu quả của hai thuật toán, cần sử dụng cùng một bộ nén và giải nén, cũng như đảm bảo nội dung dữ liệu là tương đồng.

Cách đơn giản nhất để định nghĩa là sử dụng lỗi bình phương trung bình (MSE) cho ảnh hai chiều có kích thước m×n, trong đó I là ảnh gốc và K là ảnh được khôi phục tương ứng.

(2.8) PSNR được định nghĩa bởi:

MAXI là giá trị tối đa của pixel trong ảnh, với giá trị 255 khi pixel được biểu diễn bằng 8 bit Trong trường hợp tổng quát, MAXI được tính bằng 2^B - 1, với B là số bit của tín hiệu Đối với ảnh màu, mỗi pixel có ba giá trị RGB, và khi tính PSNR, MSE được tính là tổng của ba giá trị trên ba kênh màu, chia cho kích thước ảnh và chia cho 3.

Giá trị PSNR thường dao động từ 30 đến 50 dB trong ảnh và video nén có mất mát dữ liệu, với giá trị cao hơn cho thấy chất lượng tốt hơn Đối với tín hiệu truyền không dây, giá trị PSNR chấp nhận được thường nằm trong khoảng từ 20 dB đến 25 dB.

CÁC KẾT QUẢ NGHIÊN CỨU LIÊN QUAN

Tổng hợp ảnh theo vùng ảnh tin cậy

3.1.1 Mã hóa và Tổng hợp ảnh cho Multiview Video

Nghiên cứu này kết hợp mã hóa video đa góc nhìn với dữ liệu chiều sâu và tổng hợp ảnh dựa trên độ tin cậy Trong quá trình tổng hợp ảnh, các góc nhìn trung gian được tạo ra bằng cách chiếu 3D giữa các cặp góc nhìn ban đầu, với tham số k điều chỉnh pha trộn và trọng lượng giữa các mẫu Phương pháp này phát hiện các khu vực không đáng tin cậy và gián đoạn chiều sâu, nhằm giảm thiểu sai sót trong quá trình chiếu Các khu vực đáng tin cậy được chiếu trước, sau đó ranh giới không đáng tin cậy được phân chia thành dữ liệu nền trước và nền sau Dữ liệu nền trước được sáp nhập với vùng dữ liệu đáng tin cậy theo cách tiếp cận phần trước nhất để bảo đảm thông tin quan trọng được ưu tiên Ngược lại, thông tin nền sau chỉ được sử dụng để lấp đầy các khu vực khuất Cuối cùng, các thuật toán nâng cao như loại bỏ outlier, lấp chỗ trống và làm mịn cạnh tự nhiên được áp dụng để hoàn thiện quá trình tổng hợp ảnh dựa trên vùng tin cậy.

Phân tách lớp (layer extraction) là quá trình phân biệt giữa các vùng sâu đáng tin cậy và không đáng tin cậy trong các góc nhìn ban đầu Các khu vực dọc theo biên và cạnh của đối tượng thường được coi là không đáng tin cậy do ảnh hưởng của nền trước và nền sau, có thể gây ra sai sót khi chiếu vào góc nhìn mới Lỗi từ ước lượng độ sâu chủ yếu xuất phát từ việc biến dạng đường biên của đối tượng, dẫn đến việc phát hiện các vùng ảnh có độ sâu gián đoạn đáng kể để tạo ra các lớp chính và đường biên Để thực hiện điều này, thuật toán phát hiện cạnh Canny được áp dụng để làm việc trên các ảnh dữ liệu sâu, giúp đánh dấu khu vực rộng không đáng tin cậy dọc theo các cạnh đã được phát hiện.

Chiếu lớp (layer projection) là bước thứ hai trong quy trình tổng hợp ảnh, tạo ra một góc nhìn chung từ các hình ảnh gốc bên trái và bên phải cùng với bản đồ độ sâu và thông tin hiệu chỉnh máy ảnh Quá trình này sử dụng tham số nội suy λ để chiếu các vựng khác nhau từ hai hình ảnh đầu vào lên góc nhìn ảo, sau đó hợp nhất kết quả dựa trên chiều sâu và độ tin cậy Vùng tin cậy được chiếu trước thông qua nội suy tuyến tính trên dữ liệu màu Tiếp theo, nền trước được chiếu tương tự như lớp chung, sau đó hai lớp này được kết hợp Các mẫu trước nhất từ lớp được thực hiện, chủ yếu là ranh giới mẫu nền trước Cuối cùng, lớp nền sau được chiếu để lấp đầy các khoảng trống còn lại trong giao diện trung gian.

Nâng cấp hình ảnh là quá trình điều chỉnh và hoàn thiện, trong đó các vết nứt nhỏ có thể xuất hiện do tính chất forward mapping dựa trên ánh xạ 3D Mỗi điểm từ hình ảnh ban đầu được chiếu vào góc nhìn trung gian, dẫn đến việc tạo ra các artifact trong góc nhìn tổng hợp Các lỗ trống lớn thường xuất hiện ở những vùng không được nhìn thấy đồng thời từ hai góc nhìn gốc Để khắc phục hiện tượng này, việc áp dụng bộ lọc “low-pass filter” giúp tạo ra hình ảnh tự nhiên hơn.

Tách lớp Góc nhìn trái

Tạo đường biên lớp Góc nhìn trái

Trình chiếu lớp Góc nhìn trái

Tách lớp Góc nhìn phải

Tạo đường biên lớp Góc nhìn phải

Trình chiếu lớp Góc nhìn phải

Nâng cấp góc nhìn trung gian

Hình 3.1: Sơ đồ xử lý của tổng hợp ảnh dựa trên độ tin cây

Nghiên cứu này tổng hợp góc nhìn trung gian từ dữ liệu không nén và nén, cho thấy chất lượng hình ảnh được cải thiện nhờ quy trình xử lý dựa trên độ tin cậy Kết quả trong Hình 3.2 chỉ ra rằng các hình ảnh dọc theo ranh giới đối tượng được cải thiện và các artifact được giảm thiểu Các khu vực không liên tục dọc theo chiều sâu được xử lý riêng, với phát hiện cạnh đủ mạnh để nhận diện các cạnh trơn tru trong dữ liệu mã hóa chiều sâu Quy trình lọc tích hợp đã loại bỏ các điểm phân tán, như minh họa trong Hình 3.2 Do đó, phương pháp dựa trên độ tin cậy cao có khả năng nâng cao chất lượng góc nhìn tổng hợp trong các hệ thống 3DV cũng như cho dữ liệu nén.

Hình 3.2: Kết quả tổng hợp ảnh có và không sử dụng độ tin cậy

Các khu vực có độ sâu tương ứng và khu vực cạnh dễ gây ra artifacts trong quá trình tổng hợp ảnh Nghiên cứu sự phụ thuộc giữa mã hóa và tổng hợp ảnh cho thấy kết quả ở các giai đoạn đơn lẻ và chuỗi 3DV hoàn chỉnh Đánh giá tổng hợp ảnh chỉ ra rằng phương pháp dựa trên độ tin cậy giúp ngăn chặn artifacts trong dữ liệu nén, làm cho nó phù hợp với hệ thống 3DV.

3.1.2 Cải tiến tổng hợp ảnh dựa trên tách lớp đối tƣợng

Nghiên cứu này đề xuất một phương pháp cải tiến tổng hợp ảnh dựa trên tách lớp đối tượng của ảnh chiều sâu trong ngữ cảnh ràng buộc về tốc độ Các điểm ảnh từ mỗi lớp LDI được tổ chức lại nhằm tăng cường tính liên tục của dữ liệu sâu Để khắc phục các artifact do ảnh sâu gián đoạn, một ảnh mới đại diện cho LDI được đề xuất, chia thành hai lớp riêng biệt: lớp nền trước và lớp nền sau Việc này giúp nâng cao hiệu quả nén nhờ vào sự tương quan không gian cao hơn, cải thiện dự báo không gian cho bản đồ texture và chiều sâu Thêm vào đó, các lớp liên tục có thể được mô hình hóa hiệu quả về tốc độ và giảm artifact thông qua kỹ thuật dựng hình dựa trên lưới Số lượng lớp trong một LDI không giống nhau cho từng pixel; một số vị trí có thể chứa một lớp, trong khi những vị trí khác có thể có nhiều lớp Nghiên cứu này trình bày phương pháp tách lớp nền trước và nền sau dựa trên thuật toán phát triển theo miền, cho phép chia các điểm ảnh LDI thành hai lớp dựa trên đối tượng, xác định khu vực R như thể hiện trong Hình 3.3.

[5], nơi mà các điểm ảnh nền trước và nền có thể dễ dàng xác định

Hình 3.3: Ví dụ trạng thái khởi tạo của thuật toán Region Growing

Các khu vực đã phân loại (a) , (b) phát triển điểm ảnh theo điểm ảnh, cho đến khi toàn bộ hình ảnh được phân loại, như thể hiện trong Hình 3.4 [5]

Hình 3.4: Kết quả áp dụng Region Growing cho các lớp đã phân loại

Sau khi hoàn thành phân loại foreground/background, lớp nền thường không đầy đủ, với một số khu vực không thể nhìn thấy từ bất kỳ điểm đầu vào nào Để tái tạo kết cấu nền bị mất, cần sử dụng các thuật toán inpainting cho cả hình ảnh và bản đồ độ sâu.

Cuối cùng, quá trình mô hình hóa (rendering) được thực hiện bằng cách biến đổi liên tục từng lớp vào lưới Lưới nền trước được phủ lên lưới nền sau nhằm tránh kéo dài khoảng ranh giới của các đối tượng Phương pháp này đã chứng minh tính khả thi của việc dựng hình thời gian thực, cho phép hiển thị hình ảnh một cách hiệu quả như minh họa trong Hình 3.5.

Hình 3.5: So sánh rendering giữa LDI thông thường và dựa trên đôi tượng

Các LDI dựa trên đối tượng mang lại nhiều tính năng ưu việt, bao gồm việc giảm số lượng chiều sâu không liên tục trong mỗi lớp, qua đó cải thiện hiệu suất nén và giảm thiểu các artifact nén ở một bitrate nhất định Mặc dù giai đoạn rendering chỉ có thể thực hiện với hai mắt lưới, nhưng có thể xuất hiện một số kết cấu kéo dài Để tránh những artifact này, việc thực hiện chiếu theo trình tự là cần thiết, giúp loại bỏ các vết nứt và lấp đầy các lỗ trống bằng kết cấu nền.

3.1.3 Dự đoán trên ảnh tổng hợp cho Multiview Video

Nghiên cứu này giới thiệu một phương pháp tối ưu hóa tỉ lệ biến dạng của ảnh sau khi mã hóa bằng cách kết hợp tổng hợp ảnh với dự đoán trong mã hóa video MultiView Phương pháp sử dụng thông tin chiều sâu được mã hóa và bộ giải mã để tạo ra góc nhìn tổng hợp, nhằm cải thiện độ chính xác của dự đoán Các biến thể ảnh mới và phương thức trực tiếp được trình bày để suy ra chiều sâu và điều chỉnh thông tin vector từ các khối lân cận, giúp giảm bớt số bit cần thiết cho chế độ xem dự đoán tổng hợp Quá trình tổng hợp ảnh bao gồm cả chiều sâu và thông số máy ảnh, tạo ra dữ liệu tham khảo dựa trên khối cho dự đoán trong mã hóa Một lợi thế của tổng hợp ảnh là khả năng tìm kiếm lớn, nhờ vào việc sử dụng thông số máy ảnh để xác định vị trí phù hợp Cuối cùng, thông tin mã hóa có thể được lưu dưới dạng chiều sâu vô hướng, trong khi sự chênh lệch được biểu diễn bằng vector Để tạo ra hình ảnh tổng hợp cho tham khảo, cần tìm dự đoán cường độ điểm ảnh cho máy ảnh dự đoán tại thời gian t cho mỗi điểm ảnh của các khối hiện tại, áp dụng mô hình máy ảnh pinhole để chuyển đổi tọa độ pixel vào tọa độ thế giới.

Các tọa độ trong không gian thế giới sẽ được ánh xạ vào mục tiêu tọa độ [x’,y’,z’] của các khung hình trong máy ảnh c’ (máy ảnh tham chiếu) theo công thức (3.2) để thực hiện dự đoán.

Tìm chiều sâu D tối ưu để kết nối các điểm (x,y) với các điểm (x’, y’) trong quá trình kết hợp phân điểm Quá trình này sử dụng D tốt nhất để tổng hợp I’[c, t, x, y], được gọi là tổng hợp ánh xạ 3D Để cải thiện hiệu suất dự đoán tổng hợp ảnh, một điều chỉnh tổng hợp vector (Cx,Cy) và độ sâu duy nhất sẽ được áp dụng cho tất cả các điểm ảnh trong một macroblock Điều này nhằm đạt được sự cân bằng hợp lý giữa chất lượng và tốc độ mã hóa thông tin, phù hợp với các tiêu chuẩn mã hóa video truyền thống như H.264/AVC.

Tổng hợp ảnh theo hiệu chỉnh ảnh

3.2.1 Tổng hợp ảnh không có thông số hiệu chỉnh

Nghiên cứu này trình bày một phương pháp tự động nhằm xác định view ảo thông qua việc sao chép hình học epipolar giữa hai góc nhìn tham khảo Đồng thời, bài viết cũng đề xuất một kỹ thuật để tạo ra các góc nhìn tổng hợp từ một hình ảnh chưa được hiệu chỉnh duy nhất.

Trong thuật toán tổng hợp ảnh, cấu trúc dẫn (affin) là một thuộc tính quan trọng, tương đối độc lập với việc chọn góc nhìn thứ hai Do đó, góc nhìn thứ hai có thể được tổng hợp bằng cách chỉ định một mặt phẳng homography và epipole, dẫn đến các thuật toán tổng hợp hiệu quả.

1 Cho một tập các cặp liên hợp (mi’;mi’) , i = 0 n

2 Thu hồi epipole e’ và homograhpy H

3 Chọn một điểm mo và biến đổi H nhằm thỏa mãn: m o ’ ~ H  m o + e’

4 Tính toán cấu trúc tương đối affin ki : k i = (H  m i x m i ’) T (m i ’x e’) || (m i ’x e’) || 2

5 Có được một epipole mới en và một mặt phẳng homography H 

6 Chuyển điểm trong góc nhìn tổng hợp với m i ’ n ~ H  m i ’ + e n k i

Hai vấn đề cần giải quyết là cách tính toán tương quan và xác định epipole e” mới cùng homography H  với vị trí và hướng của máy ảnh ảo đã được cố định Bài nghiên cứu trình bày hai kỹ thuật: đầu tiên là cải tiến trong việc tính toán epipole e” và homography H , dựa trên cấu trúc tương đối affin được thu hồi từ một hình ảnh; thứ hai là phương pháp thu hồi cấu trúc tương đối affin từ hình ảnh.

Ma trận homography H z giữa các hình ảnh quan sát ước tính bốn điểm tương quan, cho phép tổng hợp một góc nhìn z khi áp dụng H z trên hình ảnh Epipole e’ được tính từ mặt phẳng homography và thị sai (parallax) của hai đối tượng Tiếp theo, biến đổi H z được tính toán như bước 3, và cuối cùng, cấu trúc tương đối affin k i cho tất cả các đối tượng được xác định như bước 4 Hình 3.6 [3] minh họa kết quả của quá trình tổng hợp này.

Hình 3.6: Kết quả tổng hợp sử dụng Parallax, Trái - hình ảnh thực, phải- hình ảnh tổng hợp

Phương pháp xác định vị trí máy ảnh ảo không cần thông số bằng cách sao chép các hình học epipolar liên kết các quan điểm mô hình được xem là một phương pháp dịch chuyển cơ sở Góc nhìn ảo không nhất thiết phải nằm giữa hai camera thật; ảnh tổng hợp từ các góc nhìn tham khảo mà không cần hiệu chỉnh camera là một phần quan trọng của nghiên cứu này.

3.2.2 Nội suy và ngoại suy ảnh cho MVC

Một số phương pháp tổng hợp ảnh dựa trên ước lượng độ sâu, nhưng nghiên cứu này đề xuất một phương pháp không cần thông tin chiều sâu trước Đặc biệt, nghiên cứu tập trung vào các chương trình tổng hợp ảnh không yêu cầu thông số máy ảnh, thường không có sẵn Trong trường hợp này, ước tính chênh lệch (disparity estimation) được sử dụng để tính toán các bản đồ khác nhau giữa hai góc nhìn lân cận, từ đó tổng hợp các góc nhìn ảo bằng cách sử dụng thông tin disparity.

Hầu hết các phương pháp tổng hợp ảnh hiện nay được thiết kế cho chế độ xem stereo với hai máy ảnh song song, chỉ khác nhau một chút về vị trí Để xử lý các thiết lập máy ảnh phức tạp hơn, phương pháp nội suy RVI (Rectification-based Interpolation) được đề xuất, cho phép tính toán ma trận cơ bản giữa hai hình ảnh và kết hợp epipolar mà không cần thông số máy ảnh cụ thể Phương pháp này yêu cầu ít thiết lập máy ảnh, miễn là khoảng cách giữa chúng không quá xa, nên rất phù hợp cho các hệ thống video MultiView với máy ảnh không canh lề và thông số không rõ ràng Hình 3.7 minh họa các bước chính trong thuật toán RVI.

Hiệu chỉnh ảnh phải Ước lượng độ sâu Nội suy ảnh Khôi phục hiệu chỉnh ảnh Ảnh góc nhìn ảo

Hình 3.7: Sơ đồ khối của giải thuật RVI

1) Hiệu chỉnh ảnh đầu vào( Projective View Rectification): Để khắc phục các góc nhìn đầu vào không song song, đầu tiên ước tính ma trận cơ bản, đặc trưng hình học epipolar giữa hai góc nhìn Ma trận có thể thu được mà không cần sử dụng bất kỳ thông số máy ảnh Giả sử một điểm X trong không gian 3-D là chiếu của điểm x l trong một view Đầu tiên, tọa độ nguồn gốc được translate sang trung tâm hình ảnh thông qua một biến đổi:

T = | 0 1 –Cy |  0 0 1  trong đó c = (c x , c y ) là trung tâm ảnh.Giả sử epipole xem là e = (ex, ey,

1) T sau khi dịch Bước tiếp theo là để xoay hình ảnh epipole di chuyển trục x, tức là, phối hợp đồng nhất của nó có định dạng (v, 0, 1 ) T Phép quay R như sau là cần thiết

R = | -e y e x 0 |  0 0 1 với  = 1 nếu e x  0  = -1 nếu ngược lại

Cho một vị trí epipole mới (v, 0, 0) T , việc chuyển đổi sau đây được áp dụng cho bản đồ epipole đến vô cùng:

Kết quả ma trận hiệu chỉnh cho một góc nhìn: H = GRT

2) Ước lượng độ sâu(Disparity estimation): hai góc nhìn song song được tạo ra sau khi hiệu chỉnh, disparity estimation có thể được thực hiện trong 1-D Tuy nhiên, xử lý độc lâp của các dòng quét khác nhau dẫn đến các đường sọc ngang trong bản đồ disparity Một số đồ thị các thuật toán cắt giảm đã được đề xuất để đạt được ước lượng sự khác biệt chính xác hơn, nhưng không có thể xử lý lỗi khuất tốt, bởi vì giả định rằng mỗi pixel ở góc nhìn trái có thể được ánh xạ vào nhiều pixel ở góc nhìn phải, nhưng trong thực tế một số điểm ảnh trong giao diện bên trái có bị khuất và không tương ứng với bất kỳ điểm ảnh trong giao diện bên phải Một thuật ngữ được giới thiệu để ưu tiên cho các giải pháp với những thay đổi nhỏ giữa các vùng lân cận, trong khi vẫn giữ những ưu điểm của đồ thị cắt là chi phí năng lượng cho điểm ảnh (x, y) được định nghĩa là

Công thức E(x, y) = E data (x, y) + E occ (x, y) + E smooth (x, y) bao gồm ba thành phần chính: E data thể hiện sự khác biệt cường độ giữa các điểm ảnh tương ứng, E occ áp đặt hình phạt cho các pixel bị khuất, và E smooth đảm bảo rằng các điểm ảnh lân cận có sự chênh lệch tương tự nhau.

3) Nội suy góc nhìn theo pixel phụ(Sub-Pixel View Interpolation): nội suy pixel có thể được thực hiện sau khi disparity estimation Mặc dù hai góc nhìn lân cận có sẵn, không có đảm bảo rằng mỗi pixel trong một góc nhìn có điểm ảnh tương ứng của nó trong giao diện khác, do bị khuất Do đó, cần xem xét nhiều trường hợp khác nhau

Hình 3.8 minh họa quá trình nội suy ảnh cho các trường hợp điểm ảnh khác nhau Tại mỗi pixel, dữ liệu màu và vị trí được nội suy, trong đó vị trí điểm ảnh tương ứng trong góc nhìn trung gian được xác định dễ dàng thông qua sự chênh lệch (disparity), và giá trị màu pixel được nội suy từ hai góc nhìn trái và phải Đối với các điểm ảnh có vị trí nằm ngoài khu vực hình ảnh hợp lệ, sự chênh lệch của pixel biên được mở rộng, và màu sắc được sao chép phù hợp Một số điểm ảnh chỉ có thể nhìn thấy trong một góc nhìn do lỗi khuất, dẫn đến việc không thể tính toán disparity Khu vực khuất của góc nhìn bên trái bị che bởi các đối tượng bên phải, và ngược lại cho góc nhìn bên phải Trong trường hợp này, góc nhìn nội suy có thể sử dụng sự chênh lệch của các điểm ảnh láng giềng Nếu khoảng cách giữa các góc nhìn trái/phải và góc nhìn mục tiêu là 0,5, tọa độ nội suy sẽ là số nguyên hoặc số nguyên nửa, giúp đơn giản hóa công thức tính toán nội suy.

4) Khôi phục ảnh đã hiệu chỉnh (Projective Un-Rectification): thuật toán hiệu chỉnh trên có thể tạo ra hình ảnh nội suy không phải là khung hình chữ nhật gốc Vì vậy, bước cuối cùng của phương pháp RVI là chiếu góc nhìn trung gian để các tọa độ ban đầu tại cùng một vị trí Để làm như vậy, trước tiên chúng ta xác định vị trí các vị trí của bốn góc từ nội suy hình ảnh w i (t j ) Mục tiêu là tìm ma trận 3x3 ma trận un-rectification B giảm thiểu các lỗi ánh xạ từ những điểm này để bốn góc của hình ảnh w i (t j ), với xi là tọa độ đồng nhất của bốn góc trong w i (t j ) Các phương pháp biến đổi tuyến tính trực tiếp có thể được áp dụng để đơn giản việc chiếu ngược ảnh về không gian ban đầu

3.3 Tổng hợp ảnh theo chiều sâu thích nghi

Trong tổng hợp ảnh, việc xem xét nhiều điểm ảnh ứng cử viên là cần thiết để tạo ra giá trị màu cho một điểm ảnh trong góc nhìn ảo Tuy nhiên, khi các điểm ảnh này thuộc các đối tượng khác nhau, điểm ảnh tổng hợp có thể bị mờ Để khắc phục vấn đề này, bài báo đề xuất một thuật toán tổng hợp ảnh theo chiều sâu thích ứng, trong đó màu của điểm ảnh được pha trộn dựa trên các mức độ sâu khác nhau Thuật toán phân loại các điểm ảnh chiều sâu thành các cụm dựa trên giá trị độ sâu, và các cụm này được sử dụng để giải quyết hiển thị và pha trộn trong quá trình tổng hợp Cuối cùng, các lỗ hổng còn lại được lấp đầy dựa trên chiều sâu thích nghi.

Tổng kết các nghiên cứu liên quan

Nghiên cứu cho thấy việc kết hợp tổng hợp ảnh với mã hóa cho video 3D sẽ mang lại kết quả khả quan, cải thiện chất lượng và tính sống động cho các ứng dụng đa hướng nhìn Đây là một bước tiến công nghệ quan trọng trong lĩnh vực xử lý ảnh và đồ họa máy tính, đồng thời hứa hẹn có tác động tích cực đến nhiều lĩnh vực khác như công nghiệp, giải trí và giáo dục.

Trong những năm gần đây, nhiều nghiên cứu về tổng hợp ảnh ứng dụng trong Multiview Video đã được thực hiện và đánh giá tại các hội nghị uy tín như ICIP, ICME của IEEE và EURASIP Journal Đặc biệt, nghiên cứu về tổng hợp ảnh dựa trên chiều sâu đang trở thành xu hướng mới, thu hút sự quan tâm của đông đảo người nghiên cứu.

Dựa trên các nền tảng lý thuyết và nghiên cứu liên quan, khả năng tiếp tục nghiên cứu và cải tiến Tổng hợp ảnh dựa trên chiều sâu là khả thi và có thể thực hiện trong khuôn khổ của luận văn Thạc sĩ này.

HIỆN THỰC CHƯƠNG TRÌNH

KẾT QUẢ VÀ ĐÁNH GIÁ

Ngày đăng: 29/08/2021, 17:42

HÌNH ẢNH LIÊN QUAN

Hình 2.2: Mối quan hệ hình học giữa hệ tọa độ camera và hệ tọa độ ảnh - Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa hướng nhìn
Hình 2.2 Mối quan hệ hình học giữa hệ tọa độ camera và hệ tọa độ ảnh (Trang 17)
Hình 2.5: Chiều sâu tương quan giữa hai ảnh thông qua bản đồ disparity - Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa hướng nhìn
Hình 2.5 Chiều sâu tương quan giữa hai ảnh thông qua bản đồ disparity (Trang 20)
Hình 2.4 :Ví dụ về giá trị chiều sâu của ảnh - Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa hướng nhìn
Hình 2.4 Ví dụ về giá trị chiều sâu của ảnh (Trang 20)
Hình 2.7: Khái niệm chung về 3D warping - Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa hướng nhìn
Hình 2.7 Khái niệm chung về 3D warping (Trang 23)
Hình 3.1: Sơ đồ xử lý của tổng hợp ảnh dựa trên độ tin cây - Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa hướng nhìn
Hình 3.1 Sơ đồ xử lý của tổng hợp ảnh dựa trên độ tin cây (Trang 30)
Hình 3.2: Kết quả tổng hợp ảnh có và không sử dụng độ tin cậy - Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa hướng nhìn
Hình 3.2 Kết quả tổng hợp ảnh có và không sử dụng độ tin cậy (Trang 31)
Hình 3.5: So sánh rendering giữa LDI thông thường và dựa trên đôi tượng - Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa hướng nhìn
Hình 3.5 So sánh rendering giữa LDI thông thường và dựa trên đôi tượng (Trang 33)
Hình 3.6: Kết quả tổng hợp sử dụng Parallax, Trái - hình ảnh thực, phải- hình ảnh tổng hợp  - Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa hướng nhìn
Hình 3.6 Kết quả tổng hợp sử dụng Parallax, Trái - hình ảnh thực, phải- hình ảnh tổng hợp (Trang 36)
Hình 3.7: Sơ đồ khối của giải thuật RVI - Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa hướng nhìn
Hình 3.7 Sơ đồ khối của giải thuật RVI (Trang 37)
Hình 3.8: Nội suy ảnh cho các trường hợp điểm ảnh khác nhau - Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa hướng nhìn
Hình 3.8 Nội suy ảnh cho các trường hợp điểm ảnh khác nhau (Trang 40)
Hình 3.9 Ví dụ về tổng hợp ảnh theo chiều sâu thích nghi - Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa hướng nhìn
Hình 3.9 Ví dụ về tổng hợp ảnh theo chiều sâu thích nghi (Trang 43)
Trong tập tin cấu hình có xác định vị trí của các tâp dữ liệu ảnh đầu vào (dataset). Để chạy chương trình VSRS [11] cần cung cấp các tập ảnh gồm:  - Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa hướng nhìn
rong tập tin cấu hình có xác định vị trí của các tâp dữ liệu ảnh đầu vào (dataset). Để chạy chương trình VSRS [11] cần cung cấp các tập ảnh gồm: (Trang 54)
Hình 4.1: Sơ đồ khối chức năng chương trình tổng hợp ảnh - Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa hướng nhìn
Hình 4.1 Sơ đồ khối chức năng chương trình tổng hợp ảnh (Trang 55)
Hình 4.2: Sơ đồ khối chức năng nội suy trung gian - Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa hướng nhìn
Hình 4.2 Sơ đồ khối chức năng nội suy trung gian (Trang 56)
Hình 4.8: Thuật toán đề xuất FillHoles2 - Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa hướng nhìn
Hình 4.8 Thuật toán đề xuất FillHoles2 (Trang 63)
Hình 4.9: Ví dụ kết quả lấp lỗ trống FillHoles2 - Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa hướng nhìn
Hình 4.9 Ví dụ kết quả lấp lỗ trống FillHoles2 (Trang 64)
Bảng 1: Cấu trúc thư mục của chương trình tổng hợp ảnh - Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa hướng nhìn
Bảng 1 Cấu trúc thư mục của chương trình tổng hợp ảnh (Trang 66)
Bảng 2 mô tả các tập dữ liệu dùng để kiểm tra chương trình - Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa hướng nhìn
Bảng 2 mô tả các tập dữ liệu dùng để kiểm tra chương trình (Trang 67)
Hình 5.2: Kết quả so sánh PSRN của tập Balloon - Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa hướng nhìn
Hình 5.2 Kết quả so sánh PSRN của tập Balloon (Trang 69)
Bảng 3: Kết quả PSNR của tập dữ liệu Balloon - Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa hướng nhìn
Bảng 3 Kết quả PSNR của tập dữ liệu Balloon (Trang 69)
Hình 5.4: Kết quả so sánh PSNR của tập Champagne - Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa hướng nhìn
Hình 5.4 Kết quả so sánh PSNR của tập Champagne (Trang 71)
Bảng 6: Kết quả PSNR của tập dữ liệu LoveBird - Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa hướng nhìn
Bảng 6 Kết quả PSNR của tập dữ liệu LoveBird (Trang 72)
Hình 5.5: Kết quả so sánh PSNR của tập LoveBird - Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa hướng nhìn
Hình 5.5 Kết quả so sánh PSNR của tập LoveBird (Trang 72)
Bảng 7: Kết quả PSNR của tập dữ liệu LoveBird - Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa hướng nhìn
Bảng 7 Kết quả PSNR của tập dữ liệu LoveBird (Trang 73)
Hình 5.7: Kết quả định tính của tập dữ liệu Balloon - Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa hướng nhìn
Hình 5.7 Kết quả định tính của tập dữ liệu Balloon (Trang 74)
Hình 5.8: Kết quả định tính của tập dữ liệu Champagne - Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa hướng nhìn
Hình 5.8 Kết quả định tính của tập dữ liệu Champagne (Trang 74)
Hình 5.10: Kết quả định tính của tập dữ liệu Newspaper - Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa hướng nhìn
Hình 5.10 Kết quả định tính của tập dữ liệu Newspaper (Trang 75)
Hình 5.9: Kết quả định tính của tập dữ liệu Kendo - Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa hướng nhìn
Hình 5.9 Kết quả định tính của tập dữ liệu Kendo (Trang 75)
Hình 5.12: Ví dụ đánh giá định tính của tập Champagne - Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa hướng nhìn
Hình 5.12 Ví dụ đánh giá định tính của tập Champagne (Trang 77)
Hình 5.13: Ví dụ đánh giá định tính của tập LoveBird - Tổng hợp ảnh dựa trên chiều sâu để hỗ trợ các ứng dụng đa hướng nhìn
Hình 5.13 Ví dụ đánh giá định tính của tập LoveBird (Trang 78)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w