Tìm hiểu về H265

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG KHOA:KỸ THUẬT ĐIỆN – ĐIỆN TỬ Báo cáo: Công nghệ phát thanh truyền hình số Đề tài: Tìm hiểu về H265 TÊN THÀNH VIÊN: NGUYỄN MINH HOÀNG NGUYỄN ANH VĂN TRẦN VĂN THỊNH LỚP : D11XLTH HÀ NỘI, 2015 1 MỤC LỤC TỔNG QUAN VỀ MÃ HÓA VIDEO HIỆU SUẤT CAO H265 (HEVC-High Efficiency Video Coding) I GIỚI THIỆU Tóm tắt:Mã hóa video hiệu suất cao (HEVC) hiện đang như mã hóa tiêu chuẩn mới nhất của video ITU-T và ISO / IEC. Mục tiêu chính của các nỗ lực chuẩn HEVC là để cho phép cải thiện hiệu suất nén tương đối so với các tiêu chuẩn trong phạm vi của việc giảm tốc độ bit 50% cho chất lượng video bằng tri giác hiện tại. Bài viết này cung cấp một cái nhìn tổng quan về các tính năng kỹ thuật và đặc điểm của các tiêu chuẩn HEVC. HEVC tiêu chuẩn là dự án video chung gần đây nhất của ITU-T Video Coding Experts Group (VCEG) và ISO / IEC Moving Picture Experts Group (MPEG) tổ chức tiêu chuẩn hóa, làm việc với nhau trong một quan hệ đối tác, hợp tác chung về mã hóa video (JCT-VC) [1]. Các phiên bản gốc đầu tiên của tiêu chuẩn HEVC được tung ra vào tháng 1 năm 2013. Công việc bổ sung được quy hoạch để mở rộng các tiêu chuẩn để hỗ trợ một số kịch bản ứng dụng bổ sung, bao gồm mở rộng phạm vi sử dụng chức năng và hỗ trợ định dạng màu sắc, khả năng mã hóa video được mở rộng, và 3D / âm thanh. Trong ISO / IEC, tiêu chuẩn HEVC sẽ trở thành MPEG-H phần 2 Tiêu chuẩn mã hóa video đã phát triển chủ yếu thông qua sự phát triển của các tiêu chuẩn ITU-T và ISO / IEC nổi tiếng. ITU-T H.261 bản 2và H.263 bản 3, ISO / IEC bản 4 MPEG-1 4 và bản 5 MPEG-4 Visual và hai tổ chức hợp tác sản xuất các bản 6 và 7 H.262 / MPEG -2 Video và H.264 / MPEG-4 Advanced Video Coding (AVC) tiêu chuẩn. Hai tiêu chuẩn được sản xuất cùng đã có một tác động đặc biệt mạnh mẽ và đã tìm thấy con đường của họ vào một loạt các sản phẩm đang ngày càng phổ biến trong cuộc sống hàng ngày của chúng tôi. Trong suốt quá trình tiến hóa này, những nỗ lực tiếp tục đã được thực hiện để tối đa hóa khả năng nén và cải thiện các đặc tính khác như mất dữ liệu mạnh mẽ, trong khi xem xét các tài nguyên tính toán mà là thực tế để sử dụng trong các sản phẩm tại thời điểm triển khai dự đoán của mỗi tiêu chuẩn. Các chính tiêu chuẩn mã hóa video trực tiếp trước các dự án HEVC H.264 / MPEG-4 AVC, ban đầu được phát triển trong thời gian giữa năm 1999 và 2003, và sau đó đã được mở rộng trên nhiều năm 2003-2009. H.264 / MPEG-4 AVC đã là một công nghệ cho phép video trong hầu hết mọi lĩnh vực mà trước đây không được bao phủ bởi H.262 / MPEG-2 Video và đã di dời đáng kể các tiêu chuẩn cao niên trong lĩnh vực ứng dụng hiện tại của nó. 2 Nó được sử dụng rộng rãi cho nhiều ứng dụng, bao gồm cả phát sóng (HD) tín hiệu truyền hình qua vệ tinh, cáp, và các hệ thống truyền dẫn mặt đất, mua lại nội dung video và chỉnh sửa hệ thống, máy quay phim, ứng dụng bảo mật, Internet và mạng lưới video, và ứng dụng như chat video, hội nghị truyền hình, và các hệ thống telepresence. Tuy nhiên, sự đa dạng ngày càng tăng của dịch vụ, sự phổ biến của HD video, và sự xuất hiện của các định dạng HD (ví dụ, độ phân giải 4k x 2k hoặc 8k x 4k) đang tạo ra nhu cầu mạnh mẽ hơn để mã hóa vượt trội so với H.264 /MPEG-4 AVC. Sự cần thiết thậm chí còn mạnh mẽ hơn khi độ phân giải cao được đi kèm với âm thanh stereo hoặc chụp MultiView và hiển thị. Hơn nữa, các ứng dụng video nhắm mục tiêu các thiết bị di động và máy tính bảng, cũng như việc truyền tải cần cho dịch vụ video theo yêu cầu, được áp đặt những thách thức nghiêm trọng trên mạng ngày nay. Một mong muốn tăng cho chất lượng cao hơn và độ phân giải cũng được phát sinh trong các ứng dụng điện thoại di động. HEVC đã được thiết kế để giải quyết về cơ bản tất cả các ứng dụng hiện có của H.264 / MPEG-4 AVC và đặc biệt tập trung vào hai vấn đề chính: tăng độ phân giải video và tăng cường sử dụng kiến trúc xử lý song song. Cú pháp của HEVC là chung chung và cũng thường thích hợp cho các ứng dụng khác. Như các trường hợp cho tất cả video mã hóa của ITU-T và ISO / IEC, trong HEVC chỉ là cấu trúc bitstream và cú pháp được chuẩn hóa, cũng như những hạn chế về bitstream và lập bản đồ của nó cho các thế hệ của các hình ảnh được giải mã. Các ánh xạ được cho bởi ý nghĩa của các yếu tố cú pháp và quá trình giải mã như vậy mà mỗi bộ giải mã phù hợp với các tiêu chuẩn sẽ cho kết quả tương tự khi đưa ra một bitstream mà phù hợp với những hạn chế của tiêu chuẩn. Sự hạn chế này trong phạm vi của tiêu chuẩn cho phép tự do tối đa để tối ưu hóa việc triển khai một cách thích hợp để ứng dụng (cân bằng chất lượng nén, chi phí thực hiện, thời gian để thị trường, và cân nhắc khác). Tuy nhiên, nó không cung cấp bảo hành chất lượng, vì nó cho phép ngay cả kỹ thuật mã hóa thô được xem xét phù hợp. Để hỗ trợ các ngành công nghiệp cộng đồng trong việc học cách sử dụng các tiêu chuẩn, các nỗ lực tiêu chuẩn hóa không chỉ bao gồm sự phát triển của một văn bản tài liệu đặc hiệu nhưng cũng tham khảo các phần mềm mã nguồn như là một ví dụ về cách HEVC video có thể được mã hóa và giải mã. Các phần mềm dự thảo tài liệu tham khảo đã được sử dụng như một công cụ nghiên cứu cho công việc nội bộ của ủy ban trong việc thiết kế các tiêu chuẩn, và cũng có thể được sử dụng như một công cụ nghiên cứu nói chung và là cơ sở của sản phẩm. Một tiêu chuẩn bộ dữ liệu thử nghiệm cũng đang được phát triển để kiểm tra sự phù hợp với các tiêu chuẩn. 3 II. HEVC -MÃ HÓA THIẾT KẾ VÀ TÍNH NĂNG NỔI BẬT Tiêu chuẩn HEVC được thiết kế để đạt được nhiều mục tiêu, bao gồm cả mã hóa hệ thống giao, lồng ghép khả năng phục hồi dữ liệu bị mất, cũng như sử dụng kiến trúc xử lý song song. Các phần dưới đây sẽ mô tả các yếu tố quan trọng của thiết kế mà các mục tiêu đạt được, và các hoạt động mã hóa điển hình mà sẽ tạo ra một bitstream hợp lệ. 2.1. Tầng mã hóa video Lớp mã hóa video HEVCcùng phương pháp (dự đoán 2 bức tranh và 2D chuyển đổi mã hóa) được sử dụng trong tất cả các tiêu chuẩn nén video từ H.261. Hình 1 mô tả sơ đồ khối của một bộ mã hóa video lai, mà có thể tạo ra một bitstream phù hợp với các tiêu chuẩn HEVC. Một thuật toán mã hóa xuất một bitstream phù hợp,HEVC thường sẽ tiến hành như sau: Mỗi bức ảnh được chia thành nhiều vùng khối hình, với khối chính xác được truyền đạt đến các bộ giải mã. Những hình ảnh đầu tiên của một chuỗi video (và hình ảnh đầu tiên kinh ở mỗi điểm truy cập ngẫu nhiên vào một chuỗi video) được mã hóa bằng cách sử dụng dự đoán hình ảnh (có sử dụng một số dự đoán của dữ liệu không gian đến khu vực trong hình ảnh đó, nhưng không có sự phụ thuộc vào các hình ảnh khác). Đối với tất cả các hình ảnh còn lại của một chuỗi hoặc giữa các điểm truy cập ngẫu nhiên, chế độ mã hóa dự báo tạm thời interpicture được sử dụng cho hầu hết các khối. Quá trình mã hóa để dự đoán interpicture bao gồm việc lựa chọn dữ liệu chuyển động các hình ảnh tham khảo và chuyển động vectơ được chọn (MV) áp dụng để dự đoán các mẫu của mỗi khối. Các bộ mã hóa và giải mã tín hiệu tạo ra giống hệt nhau dự đoán interpicture bằng cách áp dụng đền bù chuyển động (MC) sử dụng các MV và quyết định chế độ dữ liệu, được truyền như là thông tin phụ. Các tín hiệu còn lại của dự đoán hình ảnh nội hay inter, đó là sự khác biệt giữa các khối ban đầu và chọn từ trước của nó, được biến đổi bởi một tuyến liên kết không gian chuyển đổi. Các hình thức xuyên được các quy mô, lượng tử hóa, entropy mã hóa, và được truyền cùng với các thông tin dự đoán. 4 Các bộ mã hóa các bản sao các vòng lặp xử lý giải mã (xem hộp màu xám bóng mờ trong hình. 1) như vậy mà cả hai sẽ tạo ra những dự đoán giống hệt nhau cho dữ liệu tiếp theo. Vì vậy, các lượng tử chuyển đổi được xây dựng bằng rộng nghịch đảo và sau đó được chuyển đổi ngược để lặp lại trong các xấp xỉ giải mã các tín hiệu còn lại. Việc còn lại sau đó được bổ sung vào dự đoán, và kết quả của việc bổ sung mà sau đó có thể được đưa vào một hoặc hai hiện vật gây ra bởi khối xử lý khôn ngoan và lượng tử hóa. Các đại diện hình ảnh (đó là một bản sao của các đầu ra của bộ giải mã) được lưu trữ trong một bộ đệm hình ảnh giải mã được sử dụng cho những dự đoán của hình ảnh tiếp theo. Nói chung, thứ tự của mã hóa hoặc giải mã xử lý hình ảnh thường khác với thứ tự mà họ đến từ các nguồn; cần thiết phải có một sự phân biệt giữa thứ tự giải mã (bitstream) và thứ tự xuất (ví dụ, để hiển thị) cho một bộ giải mã. HEVC dự kiến sẽ được đầu vào như hình ảnh quét liên tục (hoặc là do các nguồn video có nguồn gốc ở định dạng đó hoặc do Deinterlacing trước khi mã hóa). Không có tính năng mã hóa rõ ràng là hiện nay trong thiết kế HEVC để hỗ trợ việc sử dụng các chức năng quét xen kẽ, như quét xen kẽ không còn được sử dụng để hiển thị và đang trở thành đáng kể ít phổ biến để phân phối. Tuy nhiên, một cú pháp siêu dữ liệu đã được cung cấp trong HEVC để cho phép một bộ mã hóa để chỉ ra rằng video quét đã được gửi đi bằng cách mã hóa từng vùng(tức là, các dòng chẵn hoặc số lẻ của mỗi khung hình video) của video như một bức tranh riêng biệt hoặc rằng nó đã được gửi đi bằng cách mã hóa từng khung hình như một bức tranh HEVC mã. Điều này cung cấp một phương pháp của mã hóa video mà không có gánh nặng giải mã với một nhu cầu để hỗ trợ quá trình giải mã đặc biệt cho nó. 5 Hình 1. Điển hình bộ mã hóa video HEVC Trong phần tiếp theo, các tính năng khác nhau tham gia vào video hybrid sử dụng mã hóa HEVC được nhấn mạnh như sau. 1) Mã hóa các đơn vị cây và cấu trúc mã hóa khối cây (CTB): Cốt lõi của lớp mã hóa trong các tiêu chuẩn trước đó là các khối mẫu, chứa 16 × 16 khối lumavà trong trường hợp bình thường là 4: 2: 0 lấy mẫu màu, hai tương ứng với 8 × 8 khối của mẫu chroma; trong khi đó các cấu trúc tương tự trong HEVC là đơn vị cây mã hóa (CTU), trong đó có một kích thước lựa chọn bởi các bộ mã hóa và có thể lớn hơn một macroblock truyền thống. Các CPU bao gồm một CTB luma và chroma CTBs và các yếu tố cú pháp tương ứng. Kích thước L × L của một luma CTB thể được chọn là L = 16, 32, hoặc 64 mẫu, với các kích thước lớn hơn thường cho phép nén tốt hơn. HEVC sau đó hỗ trợ một phân vùng của CTBs thành các khối nhỏ hơn sử dụng một cấu trúc cây và giống như tín hiệu [8] 2) Đơn vị mã hóa (CUS) và khối mã hóa (NHTM): Cú pháp quadtree của CTU kích thước và vị trí của luma và sắc độ của NHTM. Do đó, kích thước của các luma CTB là kích thước được hỗ trợ lớn nhất cho một CB luma. Việc chia tách của một CTU vào luma và chroma NHTM là báo hiệu cùng. Một CB luma và thường hai chroma NHTM, cùng với cú pháp kết hợp, tạo thành một đơn vị mã hóa (CU). Một CTB có thể chỉ chứa một CU hoặc có thể được tách ra để hình thành nhiều CUS, và mỗi CU có một phân vùng thành các đơn vị liên quan dự báo và một cây chuyển các đơn vị (TUS). 3) đơn vị dự báo và dự báo khối (PBs): Các dữ liệu để mã một khu vực hình ảnh sử dụng interpicture hoặc dự đoán hình ảnh liên được thực hiện ở cấp CU. Tùy thuộc về quyết định dự đoán loại cơ bản, các luma và chroma NHTM sau đó có thể được phân chia thêm kích thước và dự đoán từ khối luma và chroma dự đoán (PBs). HEVC hỗ trợ kích thước PB biến từ 64 × 64 xuống 4 × 4 mẫu. 4) TUS và chuyển khối: Các dư dự đoán được mã hóa bằng khối biến đổi. Một cơ cấu cây TU có gốc rễ của nó ở cấp CU. Các luma CB còn lại có thể giống với các luma chuyển khối (TB) hoặc có thể được phân chia thêm vào TBS luma nhỏ. Điều tương tự cũng áp dụng cho các TBS chroma.DCT là cho TB vuông kích thước 4 × 4, 8 × 8, 16 × 16, và 32 × 32. Đối với 4 × 4 biến đổi của lima liên dư đoán hình ảnh, một số nguyên biến đổi xuất phát từ một hình thức sin rời rạc DST. 5) Tín hiệu vectơ Motion: nâng cao dự báo vector chuyển động (AMP) được sử dụng, bao gồm cả nguồn gốc của nhiều ứng cử viên có khả năng nhất dựa trên dữ liệu từ liền kề PBs và hình ảnh tham khảo. Một chế độ nối cho MV mã hóa cũng có thể được sử dụng, cho phép người thừa kế của MV từ tạm thời hoặc không gian lân cận PBs. Hơn nữa, so với H.264 / MPEG-4 AVC, cải thiện và trực tiếp bỏ qua suy luận chuyển động. 6 6) Bồi thường Motion: Tứ mẫu chính xác được sử dụng cho các MV được sử dụng cho nội suy vị trí phân đoạn mẫu (so với vị trí nửa mẫu tiếp theo là nội tuyến tính cho vị trí tứ mẫu trong H.264 / MPEG-4 AVC). Tương tự như H.264 / MPEG-4 AVC, nhiều hình ảnh tham khảo được sử dụng. Đối với mỗi PB, một hoặc hai vectơ chuyển động có thể được truyền đi, hay bi mã hóa tiên đoán, tương ứng. Như trong H.264 / MPEG-4 AVC, nhân rộng và bù đắp hoạt động có thể được áp dụng cho các tín hiệu dự báo một cách gọi như dự đoán quan trọng. 7) Ảnh dự đoán: Các mẫu ranh giới được giải mã của các khối liền kề được sử dụng làm dữ liệu tham khảo cho dự đoán tại khu vực có dự đoán interpicture không được thực hiện. Liên Ảnh dự đoán hỗ trợ 33 chế độ (so với tám chế độ như H.264 / MPEG-4 AVC), cộng với mặt phẳng (bề mặt ) và DC chế độ dự đoán. Các chế độ dự đoán intrapicture được chọn sẽ được mã hóa bằng cách bắt nguồn chế độ xác suất lớn nhất (ví dụ, hướng dự đoán) dựa trên những giải mã trước đây PBs. 8) Kiểm soát Quantization: Như trong H.264 / MPEG-4 AVC, hình thức tái lượng tử (IRQ) được sử dụng trong HEVC, với lượng tử ma trận rộng hỗ trợ cho các loại chuyển đổi kích thước khối. 9) Entropy mã hóa: Bối cảnh thích ứng số học nhị phân (CABAC) được sử dụng để mã hóa dữ liệu ngẫu nhiên. Điều này cũng tương tự như các chương trình CABAC trong H.264 / MPEG-4 AVC, nhưng đã trải qua một số cải tiến để cải thiện tốc độ thông lượng của nó (đặc biệt là cho các kiến trúc xử lý song song) và hiệu suất nén của nó, và để giảm yêu cầu bộ nhớ ngữ cảnh của nó. 2.2 Kiến trúc cao cấp Một số khía cạnh thiết kế mới với các tiêu chuẩn HEVC cải thiện cho hoạt động trên một loạt các ứng dụng và các môi trường mạng và cải thiện mạnh mẽ đến mất mát dữ liệu. Tuy nhiên, các kiến trúc cú pháp cao cấp được sử dụng trong các tiêu chuẩn AVC H.264 / MPEG-4 đã thường được giữ lại, bao gồm các tính năng sau đây: 1) Thông số cấu trúc bộ: bộ thông số chứa thông tin mà có thể được chia sẻ cho các giải mã nhiều vùng của video được giải mã. Các tham số cấu trúc bộ cung cấp một cơ chế mạnh mẽ cho việc truyền dữ liệu cần thiết cho quá trình giải mã. Các khái niệm về trình tự và thông số hình ảnh từ bộ H.264 / MPEG-4 AVC được tăng cường bởi một tham số video mới tập (VPS) cấu trúc. 2) Cấu trúc cú pháp đơn vị NAL: Mỗi cấu trúc cú pháp được đặt vào một gói dữ liệu logic được gọi là một lớp mạng trừu tượng (NAL) đơn vị. Sử dụng các nội dung của một byte đơn vị NAL tiêu đề hai, nó có thể dễ dàng xác định mục đích của các dữ liệu tải trọng liên quan. 7 3) Slices: Một cấu trúc dữ liệu có thể được giải mã một cách độc lập từ slice khác của hình ảnh đó, trong điều khoản của entropy mã hóa, dự báo tín hiệu, và xây dựng lại tín hiệu còn lại. Một lát, hoặc có thể là một hình ảnh toàn bộ hoặc một khu vực của một bức tranh. Một trong những mục đích chính của lát là trong trường hợp mất mát dữ liệu. Trong trường hợp truyền số lượng tối đa của các bit tải trọng trong một lát thường bị hạn chế, và số lượng của CPU trong slice thường được thay đổi để giảm thiểu các chi phí đóng gói thoại trong khi vẫn giữ kích thước của mỗi gói tin trong này bị ràng buộc. 4) Thông tin tăng cường bổ sung (SEI) và video khả năng sử dụng siêu dữ liệu (VUI): Cú pháp bao gồm hỗ trợ cho nhiều loại siêu dữ liệu được gọi là SEI và VUI. Những dữ liệu này cung cấp thông tin về thời gian của các hình ảnh video, việc giải thích đúng đắn của các không gian màu được sử dụng trong các tín hiệu video, 3D stereoscopic khung đóng gói thông tin, hiển thị gợi ý cấp thông tin khác, và như vậy. 2.3. Giải mã cú pháp và Cơ cấu cú pháp Cuối cùng, bốn tính năng mới được giới thiệu trong các chuẩn HEVC ,để nâng cao khả năng xử lý song song hoặc sửa đổi các cấu trúc dữ liệu lát cho mục đích đóng gói thoại. Mỗi người có thể có các lợi ích trong bối cảnh ứng dụng cụ thể và nó thường lên cho người thực hiện một bộ mã hóa hoặc giải mã để xác định xem liệu và làm thế nào để tận dụng lợi thế của các tính năng này. 1) Gạch: Các tùy chọn để phân chia một bức ảnh thành các vùng hình chữ nhật được gọi là gạch có được. Các tư thế chính của gạch là để tăng cường khả năng xử lý song song chứ không phải là cung cấp khả năng phục hồi lỗi. Tiles là độc lập vùng giải mã của một hình ảnh được mã hóa với một số thông tin tiêu đề chia sẻ. Gạch bổ sung có thể được sử dụng cho các mục đích không gian truy cập ngẫu nhiên cho các khu vực địa phương của hình ảnh video. Một điển hình con của một bức tranh gồm phân chia các hình ảnh thành các vùng hình chữ nhật với các con số xấp xỉ bằng CPU của mỗi gạch. Gạch cung cấp song song ở mức độ thô hơn của granularity (hình ảnh / subpicture), và không đồng bộ phức tạp của chủ đề là cần thiết cho việc sử dụng chúng. 2) Đầu sóng xử lý song song: Khi xử lý song song đầu sóng được kích hoạt(WPP), một lát được chia thành các hàng. Hàng đầu tiên kinh được xử lý một cách bình thường, hàng ghế thứ hai có thể bắt đầu được xử lý sau khi chỉ có hai CPU đã được xử lý ở hàng đầu tiên kinh, hàng ghế thứ ba có thể bắt đầu được xử lý sau khi chỉ có hai CTUs đã được xử lý ở hàng thứ hai và như vậy các mô hình bối cảnh của các coder entropy trong mỗi hàng được suy ra từ những người ở hàng trước với độ trễ xử lý hai-CTU. WPP cung cấp một hình thức xử lý song song ở mức một lát. WPP thường có thể cung cấp hiệu suất tốt hơn so với gạch nén (và tránh được một số hiện vật trực quan mà có thể được gây ra bằng cách sử dụng gạch). 8 3) Phân đoạn lát phụ thuộc: Một cấu trúc được gọi là một phân đoạn lát phụ thuộc cho phép dữ liệu liên kết với một điểm vào đầu sóng đặc biệt hoặc ngói vào được thực hiện trong một đơn vị NAL riêng biệt, và do đó có khả năng làm cho những dữ liệu có sẵn cho một hệ thống cho năng đóng gói phân mảnh với độ trễ thấp hơn nếu nó là tất cả các mã trong cùng một lát. Một đoạn lát phụ thuộc cho một điểm vào đầu sóng chỉ có thể được giải mã sau khi ít nhất một phần của quá trình giải mã một đoạn lát đã được thực hiện. Phân đoạn lát phụ thuộc chủ yếu là hữu ích trong việc mã hóa độ trễ thấp, nơi mà các công cụ khác song song có thể trừng phạt hiệu suất nén. Trong hai phần sau đây,mô tả chi tiết hơn về các tính năng chính được đưa ra. III. CÚ PHÁP CAO CẤP Các cú pháp cao cấp của HEVC chứa nhiều yếu tố đã được thừa hưởng từ NAL của H.264 / MPEG-4 AVC. Các NAL cung cấp khả năng bản đồ các lớp video mã hóa (VCL) dữ liệu mà đại diện cho nội dung của hình ảnh lên lớp vận chuyển khác nhau, bao gồm RTP / IP, ISO MP4, và H.222.0 / MPEG-2 Systems, và cung cấp một khuôn khổ cho khả năng phục hồi mất gói tin. Đối với các khái niệm chung của các thiết kế NAL như các đơn vị NAL, bộ tham số, đơn vị truy cập, định dạng dòng byte, và định dạng. Đơn vị NAL được phân loại vào VCL và không VCL NAL đơn vị theo liệu chúng có chứa hình ảnh hoặc dữ liệu được mã hóa có liên quan khác, tương ứng. Trong các tiêu chuẩn HEVC, một số loại đơn vị NAL VCL xác định các loại hình ảnh cho mục đích khởi tạo bộ giải mã và truy cập ngẫu nhiên được bao gồm. Bảng I liệt kê các loại NAL đơn vị và ý nghĩa liên quan của họ và các lớp học kiểu trong tiêu chuẩn HEVC. Các phần dưới đây sẽ trình bày một mô tả các tính năng mới được hỗ trợ bởi các cú pháp cao cấp. 3.1. Truy cập ngẫu nhiên và Bitstream nối Các đặc điểm thiết kế mới hỗ trợ tính năng đặc biệt cho phép truy cập ngẫu nhiên và nối bitstream. Trong H.264 / MPEG-4 AVC, một bitstream luôn phải bắt đầu với một đơn vị truy cập IDR. Một đơn vị truy cập IDR chứa một cách độc lập mã một hình ảnh được giải mã mà không giải mã bất kỳ hình ảnh trước đó trong các đơn vị NAL dòng. Sự hiện diện của một đơn vị truy cập IDR chỉ ra rằng không có hình ảnh tiếp theo trong bitstream sẽ yêu cầu tham chiếu đến hình ảnh trước khi hình ảnh mà nó chứa để được giải mã. Những hình ảnh IDR được sử dụng trong một cấu trúc mã hóa được biết đến như một GOP khép kín (trong đó đảng Cộng hòa đại diện cho nhóm các hình ảnh). Các truy cập ngẫu nhiên (CRA) hình cú pháp chỉ tường việc sử dụng một hình ảnh được mã hóa một cách độc lập ở vị trí của một điểm truy cập ngẫu nhiên (RAP), tức là, một vị trí trong một bitstream mà tại đó một bộ giải mã có thể bắt đầu giải mã thành công hình ảnh mà không cần để giải mã bất kỳ hình ảnh đã xuất hiện trước đó trong bitstream, 9 mà hỗ trợ để mã hóa thời gian ef được gọi là hoạt động mở GOP. Hỗ trợ tốt các truy cập ngẫu nhiên là rất quan trọng cho phép chuyển mạch kênh, tìm kiếm các hoạt động hợp, và các dịch vụ truyền động. Một số hình ảnh một bức tranh CRA để giải mã và đứng trước nó để hiển thị có thể có những tham chiếu dự đoán interpicture đến hình ảnh mà không có sẵn tại các bộ giải mã ,do đó phải được loại bỏ bởi một bộ giải mã bắt đầu quá trình giải mã của nó tại một điểm CRA. Các vị trí của các điểm mối nối từ bitstreams khác nhau mã ban đầu có thể được chỉ ra bằng cách truy cập liên kết bị phá vỡ (BLA) hình ảnh. Một hoạt động bitstream nối có thể được thực hiện bằng cách thay đổi các đơn vị loại hình CRA NAL trong một bitstream để các giá trị mà chỉ là một hình ảnh BLA và cách nối các bitstream mới ở vị trí của một bức tranh RAP trong bitstream khác. Một bức tranh RAP có thể là một hình ảnh IDR, CRA, hoặc BLA, và cả hai CRA và BLA hình ảnh có thể được theo sau bởi hình ảnh RASL trong bitstream (tùy thuộc vào giá trị cụ thể của các đơn vị NAL loại sử dụng cho một bức tranh BLA). Bất kỳ hình ảnh RASL liên kết với một hình ảnh BLA luôn phải được loại bỏ bởi bộ giải mã, vì chúng có thể chứa các tham chiếu đến hình ảnh mà không phải là thực sự hiện diện trong bitstream do một hoạt động nối. Các loại khác của bức tranh đó có thể làm theo một bức tranh RAP để giải mã và đứng trước nó để đầu ra là giải mã truy cập ngẫu nhiên hàng đầu (Radl) hình ảnh, mà không thể có những tham chiếu đến bất kỳ hình ảnh mà trước hình ảnh RAP để giải mã. RASL và Radl hình ảnh được gọi chung là hình ảnh hàng đầu (LP). Hình ảnh đó làm theo một bức tranh RAP trong cả để giải mã và đầu ra thứ tự, mà được biết đến như là hình ảnh dấu. Bảng 1 10 3.2. Hỗ trợ Phân tán: Tương tự như các tính năng khả năng mở rộng thời gian trong H.264 / MPEG-4 AVC video khả năng mở rộng mã hóa (SVC) mở rộng thời gian trong các đơn vị tiêu đề NAL, mà chỉ ra một mức độ trong một cấu trúc dự đoán thời gian theo cấp bậc. Điều này đã được giới thiệu để đạt được khả năng mở rộng theo thời gian mà không cần phải phân tích các bộ phận của bitstream khác với đơn vị NAL tiêu đề. Trong những trường hợp nhất định, số lượng các lớp con thời gian giải mã có thể được điều chỉnh trong quá trình giải mã của một chuỗi video được mã hóa. Các vị trí của một điểm trong bitstream mà chuyển mạch lớp con có thể bắt đầu giải mã một số lớp thời gian cao hơn có thể được chỉ định bởi sự hiện diện của lớp con truy cập thời gian (TSA) hình ảnh và bước tiến khôn ngoan TSA (STSA) hình ảnh. Ở vị trí của một bức tranh TSA, nó có thể chuyển đổi từ một lớp con giải mã thời gian thấp hơn để giải mã bất kỳ lớp con thời gian cao hơn, và ở vị trí của một bức tranh STSA, nó có thể chuyển đổi từ một lớp con giải mã thời gian thấp hơn để giải mã chỉ có một Đặc biệt, lớp con thời gian cao hơn (nhưng không phải là lớp tiếp tục ở trên đó, trừ khi họ cũng chứa STSA hoặc TSA hình ảnh). 11 Hình 2. Ví dụ về một cấu trúc thời gian dự đoán và các giá trị POC, để giải mã, và nội dung RPC cho mỗi bức ảnh. 3.3. Thông số khác VPS đã được thêm vào như là siêu dữ liệu để mô tả các đặc tính tổng thể của chuỗi video được mã hóa, bao gồm cả phụ thuộc giữa các lớp con tạm thời. Mục đích chính của việc này là để cho phép mở rộng tương thích của các tiêu chuẩn về hiệu tại tầng hệ thống, ví dụ như, khi lớp cơ bản của một tương lai mở rộng khả năng mở rộng bitstream hoặc MultiView sẽ cần phải được giải mã bởi một bộ giải mã di sản, nhưng mà thêm thông tin về cấu trúc bitstream mà chỉ liên quan đến các bộ giải mã tiên tiến sẽ được bỏ qua. 3.4. Tham khảo Hình Sets và tham khảo Hình Lists Đối với quản lý hình ảnh nhiều tài liệu tham khảo, một tập hợp các hình ảnh trước đó được giải mã cần phải có mặt trong triển mã đệm hình ảnh (DPB) cho việc giải mã của phần còn lại của hình ảnh trong bitstream. Để xác định những hình ảnh này, một danh sách các số thứ tự hình ảnh (POC) được truyền đi trong mỗi tiêu đề slice. Tập hợp các hình ảnh tham khảo giữ lại được gọi là hình ảnh tham khảo thiết (RPS). Vả. 2 cho thấy giá trị POC, giải mã trình tự, và Ross cho một ví dụ cấu trúc dự đoán thời gian. Như trong H.264 / MPEG-4 AVC, có hai danh sách được xây dựng như là danh sách các hình ảnh trong DPB, và chúng được gọi là Danh mục tài liệu tham khảo hình ảnh và danh sách 0 ,1. Một chỉ số được gọi là một chỉ số hình ảnh tham chiếu được sử dụng để xác định một hình ảnh đặc biệt trong một 12 trong những danh sách này. Một hình ảnh có thể được lựa chọn từ một trong những danh sách này. Hai hình ảnh được lựa chọn-một từ mỗi danh sách. Khi một danh sách chứa chỉ có một hình ảnh, các chỉ số hình ảnh tham khảo ngầm có giá trị 0 và không cần phải được truyền trong bitstream. Các cú pháp cao cấp cho việc xác định RPS ,danh sách hình ảnh tham khảo cho dự đoán interpicture là mạnh mẽ hơn để mất mát dữ liệu hơn trong việc thiết kế H.264 / MPEG-4 AVC trước và là thuận lợi hơn cho các hoạt động như truy cập ngẫu nhiên và chế độ hoạt động (ví dụ như, tua đi, tua lại nhanh, tìm kiếm, và chuyển đổi bitstream thích ứng). Một khía cạnh quan trọng của cải tiến này là cú pháp rõ ràng hơn, thay vì phụ thuộc vào suy luận từ các trạng thái nội bộ được lưu trữ trong quá trình giải mã vì nó giải mã hình ảnh bitstream bằng hình ảnh. Hơn nữa, cú pháp có liên quan cho các khía cạnh của thiết kế thực sự là đơn giản hơn nó đã được cho H.264 / MPEG-4 AVC. IV. HEVC-KỸ THUẬT MÃ HÓA VIDEO Các thuật toán mã hóa nguồn cơ bản là một lai của dự đoán interpicture khai thác , thống kê về thời gian, dự đoán intrapicture để khai thác sự phụ thuộc thống kê không gian, và chuyển đổi mã hóa của các dự đoán tín hiệu còn lại để tiếp tục khai thác những phụ thuộc thống kê không gian. Không có yếu tố mã hóa duy nhất trong thiết kế HEVC cung cấp phần lớn các cải tiến không thể trong yếu của nó trong BẢN nén liên quan đến các tiêu chuẩn mã hóa video trước. Đó là, thay vào đó, đa số những cải tiến nhỏ mà thêm đến sự tăng trọng yếu. 4.1. Lấy mẫu đại diện của hình ảnh Đối với các tín hiệu video màu, HEVC thường sử dụng một không gian màu YCbCr tristimulus với 4: 2: 0 mẫu (mặc dù phần mở rộng sang các định dạng mẫu khác là đơn giản, và được quy hoạch trong một phiên bản tiếp theo). Điều này phân biệt một màu đại diện thành ba thành phần được gọi là Y, Cb, Cr. Các thành phần Y cũng được gọi là luma, và đại diện cho độ sáng. Hai thành phần chroma Cb và Cr đại diện cho mức độ mà các màu từ xám lệch về phía màu xanh và màu đỏ tương ứng. Bởi vì hệ thống thị giác của con người là nhạy cảm hơn với luma hơn chroma, 4: 2: 0 cấu trúc lấy mẫu thường được sử dụng, trong đó mỗi thành phần chroma có một phần tư số lượng mẫu của các thành phần luma (một nửa số lượng mẫu trong cả chiều ngang và chiều dọc). Mỗi mẫu cho mỗi thành phần thường được đại diện với 8 hoặc 10 b chính xác, và những trường hợp 8-b là một trong những điển hình hơn. Trong phần còn lại của bài viết này, chúng tôi tập trung sự chú ý của chúng tôi về việc sử dụng điển hình: các thành phần YCbCr 4: 2: 0 mẫu và 8 b mỗi mẫu cho các đại diện của các đầu vào được mã hóa và giải mã tín hiệu video đầu ra. Các hình ảnh video được thường dần dần lấy mẫu với hình chữ nhật kích thước W × H trong đó W là chiều rộng và H là chiều cao của hình ảnh về mẫu luma. Mỗi mảng 13 thành phần chroma, với 4: 2: 0 lấy mẫu, sau đó là W / 2 × H / 2. Cho một tín hiệu video như vậy, cú pháp HEVC ngăn bằng những hình ảnh tiếp theo mô tả sau. 4.2. Bộ phận của hình ảnh vào đơn vị mã hóa Một hình ảnh được phân chia thành các đơn vị mã hóa cây (CTUs), mà mỗi chứa CTBs luma và chroma CTBs. Một luma CTB bao gồm một khu vực hình chữ nhật hình ảnh của L × L của các thành phần luma và các sắc độ tương ứng CTBs bọc lẫn L/2 × L/2 mẫu của mỗi của hai thành phần chroma. Giá trị của L có thể bằng 16, 32, hoặc 64 như được xác định bởi một yếu tố cú pháp đặc hiệu mã hóa trong các SPS. So với các khối mẫu truyền thống sử dụng một mảng kích thước cố định fi 16 × 16 mẫu luma, như được sử dụng bởi tất cả của ITU-T và ISO / IEC JTC 1 chuẩn video mã hóa từ H.261 (mà đã được chuẩn hóa vào năm 1990), HEVC hỗ trợ kích thước CTBs lựa chọn theo nhu cầu của các bộ mã hóa về bộ nhớ và yêu cầu tính toán. Sự hỗ trợ của CTBs lớn hơn so với tiêu chuẩn trước đó là đặc biệt khi mã hóa nội dung video độ phân giải cao. Các CTB luma và CTBs hai sắc độ cùng với cú pháp liên quan tạo thành một CTU. CTU là đơn vị chế biến cơ bản được sử dụng trong các tiêu chuẩn để xác định quá trình giải mã. 4.3. Bộ phận của CTB vào NHTM Các khối luma và chroma CTBs có thể được sử dụng trực tiếp như các CB hoặc có thể được tiếp tục phân chia thành nhiều NHTM. Phân vùng là đạt được bằng cách sử dụng các cấu trúc cây. Các phân vùng cây trong HEVC thường được áp dụng đồng thời với cả luma và sắc độ, mặc dù trường hợp ngoại lệ được áp dụng khi kích thước tối thiểu nhất định được đạt cho chroma. CTU chứa một cú pháp cho phép tách các NHTM đến một kích thước phù hợp được lựa chọn dựa trên các đặc tính tín hiệu của khu vực đó được bao phủ bởi các CTB. Quá trình tách có thể được lặp cho đến khi kích thước cho một CB luma đạt đến một kích thước tối thiểu cho phép luma CB được chọn bởi bộ mã hóa bằng cách sử dụng cú pháp trong SPS và luôn luôn là 8 × 8 hoặc lớn hơn (trong đơn vị của mẫu luma). Các ranh giới của hình ảnh là theo đơn vị tối thiểu cho phép kích thước luma CB. Kết quả là, ở các cạnh phải và phía dưới của bức tranh, một số CTUs có thể bao gồm các khu vực mà là một phần bên ngoài ranh giới của hình ảnh. Tình trạng này được phát hiện bởi các bộ giải mã và CTU là mặc nhiên được phân chia như cần thiết để làm giảm kích thước CB đến điểm mà toàn bộ CB vào hình ảnh. 4.4. PBs Các chế độ dự đoán cho CU được báo hiệu như là nội, dù nó sử dụng trong bức ảnh(không gian) dự đoán hoặc trong bức ảnh(thời gian) dự đoán. Khi chế độ dự đoán được hiệu như bên trong, kích thước PB, đó là kích thước khối mà tại đó các chế độ dự đoán trong bức ảnh được thành lập là giống như kích thước CB cho tất cả các kích thước block trừ kích thước CB nhỏ nhất được phép vào bitstream. Đối với các trường hợp sau, 14 một mặt cho biết xem CB được chia thành bốn góc của mỗi PB có chế độ dự đoán trong bức ảnh riêng của họ. Lý do cho phép phân chia này là để cho phép lựa chọn chế độ dự đoán hình ảnh liên riêng biệt cho khối nhỏ như 4 × 4 trong kích thước. Khi dự đoán luma trong bức ảnh hoạt động với 4 × 4 khối, dự đoán trang bức ảnh chroma cũng sử dụng 4 × 4 khối (mỗi bao gồm các khu vực hình ảnh tương tự như khối bốn 4 × 4 luma). Kích thước thực tế tại khu vực mà dự đoán trong bức ảnh hoạt động (đó là khác biệt với các kích thước PB, mà tại đó các chế độ dự đoán trong bức ảnh được thành lập) phụ thuộc vào các phân vùng mã hóa còn lại được mô tả như sau. Khi chế độ dự đoán được hiệu như inter, nó là số liệu luma và chroma NHTM được chia thành một, hai hoặc bốn PBs. Việc chia tách thành bốn PBs chỉ được phép khi kích thước CB bằng với kích thước tối thiểu cho phép CB, sử dụng một loại hình tương đương của tách như nếu không có thể được thực hiện ở cấp CB của thiết kế chứ không phải ở cấp PB. Khi một CB được chia thành bốn PBs, mỗi PB bao gồm một góc phần tư của CB. Khi một CB được chia thành hai PBs, sáu loại tách này là có thể. Các khả năng phân vùng cho trong bức ảnh dự đoán các CB được mô tả trong hình. 3. Các phân vùng trên minh họa cho trường hợp không tách CB có kích thước M × M, tách các CB thành hai PBs kích thước M × M/2 hoặc M/2 × M, hoặc chia tách nó thành bốn PBs của size M/2 × M/2. Bốn loại phân vùng thấp hơn trong hình. 3 được gọi là phân vùng chuyển động như bất đối xứng (AMP), và chỉ được phép khi M là 16 hoặc lớn hơn cho luma. Một PB của phân vùng bất đối xứng có chiều cao hoặc chiều rộng M / 4 và chiều rộng hoặc chiều cao M, tương ứng, và PB khác LLS phần còn lại của CB bởi có một chiều cao hoặc chiều rộng của 3M / 4 và chiều rộng hoặc chiều cao M. Mỗi trong bức ảnh PB được gán một hoặc hai vectơ chuyển động và các chỉ số hình ảnh tham khảo. Để hạn chế tối đa trường hợp xấu nhất băng thông bộ nhớ, PBs kích thước luma 4 × 4 không được phép cho dự đoán trong bức ảnh , và PBs của luma kích thước 4 × 8 và 8 × 4 được giới hạn cho mã hóa. Quá trình dự đoán trong bức ảnh được trình bày cụ thể như sau. Các luma và chroma PBs, cùng với cú pháp dự đoán liên quan, tạo PU. 15 Hình. 3. Chế độ để tách một CB vào PBs, chịu hạn chế kích thước nhất định. Đối với hình ảnh dự đoán các CB, chỉ M × M và M/2 × M/2 được hỗ trợ 4.5. Cấu trúc phân vùng và đơn vị Đối với mã hóa còn sót lại, một CB có thể được phân chia thành đệ quy đổi khối (TBS). Các phân vùng được đánh dấu bằng một . Chỉ CB và TB phân vùng vuông là nơi một khối có thể được đệ quy chia thành các góc phần tư, như minh họa trong hình. 4. Đối với một CB luma nhất định kích thước M × M, một tín hiệu cho dù nó được chia thành bốn khối có kích thước M/2 × M/2. nếu tách xa hơn là có thể, như báo hiệu bởi độ sâu tối đa chỉ ra trong SPS, mỗi góc phần tư được giao cho biết cho dù nó được chia thành bốn phần. Các khối nút lá còn lại là các biến đổi khối được tiếp tục xử lý bằng cách chuyển đổi mã hóa. Các bộ mã hóa cho các TB luma tối đa và tối thiểu kích thước mà nó sẽ sử dụng. Splitting là tiềm ẩn khi có kích thước CB là lớn hơn so với kích thước tối đa TB. Không tách là tiềm ẩn khi chia sẽ cho kết quả trong một kích thước luma TB nhỏ hơn tối thiểu quy định. Kích thước chroma TB là một nửa kích thước TB luma trong mỗi chiều, trừ khi kích thước luma TB là 4 × 4, trong trường hợp một đơn 4 × 4 sắc độ TB được sử dụng cho các khu vực được bao phủ bởi bốn 4 × 4 TBS luma. Trong các mẫu được giải mã của TBS gần nhất lân cận (trong hoặc ngoài CB) được sử dụng làm dữ liệu tham khảo cho dự đoán trong bức ảnh. Ngược lại với các tiêu chuẩn trước đó, việc thiết kế cho phép một HEVC TB để chiều dài qua nhiều PBs cho CUS để tối đa hóa các mã hóa tiềm năng của các phân vùng TB cấu trúc. 16 Hình 4. Phân ngành của một CTB vào các CB 4.6. Slices Một chuỗi các CTUs đó được xử lý theo thứ tự của một raster quét. Một hình ảnh có thể được chia thành một hoặc một vài lát như thể hiện trong hình 5 sẽ có một hình ảnh là một tập hợp của một hoặc nhiều lát. Slice được khép kín trong ý nghĩa rằng, cho sự sẵn có của các trình tự và thông số hình ảnh bộ hoạt động, các yếu tố cú pháp của họ có thể được phân tích từ các bitstream và các giá trị của các mẫu trong các khu vực của hình ảnh mà slice đại diện có thể được một cách chính xác giải mã (ngoại trừ đối với những tác động của trong vòng gần cạnh của slice) mà không sử dụng bất kỳ dữ liệu từ slice khác trong cùng một hình ảnh. Điều này có nghĩa là dự đoán trong hình ảnh (ví dụ trong bức ảnh dự đoán tín hiệu không gian hoặc dự đoán của các vectơ chuyển động) không được thực hiện qua các biên giới slice. Một số thông tin từ các lát khác có thể, tuy nhiên, là cần thiết để áp dụng trong vòng qua biên của slice. Mỗi miếng có thể được mã hóa bằng cách sử dụng các loại mã hóa khác nhau như sau. 1) Tôi cắt: Một lát trong đó tất cả cus của slice được mã hóa bằng cách sử dụng chỉ dự đoán trong hình ảnh. 2) P slice: Ngoài các loại mã hóa của một I lát, một số cus của P lát cũng có thể được mã hóa bằng cách sử dụng dự đoán với ít nhất một tín hiệu dự đoán bù chuyển động mỗi PB. P lát chỉ sử dụng danh sách hình ảnh tham khảo 0. 3) B lát: Ngoài các loại mã hóa có sẵn trong một P lát, một số cus của B lát cũng có thể được mã hóa bằng cách sử dụng dự đoán trong bức ảnh với ít nhất hai tín hiệu dự đoán bù mỗi PB. Lát B sử dụng cả hai danh sách hình ảnh tham khảo 0 và danh sách 1. Mục đích chính của lát là sau khi mất mát dữ liệu. Hơn nữa, lát thường bị hạn chế sử dụng một số đa là bit, ví dụ, để truyền packetized. Cho nên, lát thường có thể chứa một số lượng rất khác nhau của CTUs mỗi miếng một cách phụ thuộc vào các hoạt động trong các cảnh video. 17 Ngoài lát, HEVC là khép kín và độc lập giải mã vùng của hình ảnh. Mục đích chính của gạch là để cho phép việc sử dụng kiến trúc xử lý song song để mã hóa và giải mã. Nhiều gạch có thể chia sẻ thông tin tiêu đề bằng được chứa trong cùng một lát. Ngoài ra, một gạch duy nhất có thể chứa nhiều lát. Một gạch bao gồm một nhóm chữ nhật sắp xếp của CTUs (thông thường, nhưng không nhất thiết, tất cả chúng có chứa khoảng cùng một số CTUs), như thể hiện trong hình. 5b . Để hỗ trợ các chi tiết của dữ liệu gói tiếng, độc lập được bổ sung. Cuối cùng, với WPP, một lát được chia thành các hàng của CTUs. Việc giải mã của mỗi hàng có thể được bắt đầu ngay sau một vài quyết định cần thiết để dự báo và thích ứng đã được thực hiện ở hàng ghế trước. Điều này hỗ trợ xử lý song song của hàng CTUs bằng cách sử dụng một số luồng xử lý trong bộ mã hóa hoặc giải mã (hoặc cả hai). Một ví dụ được hiển thị trong hình. 5c. Đối với thiết kế đơn giản, WPP không được phép để được sử dụng kết hợp với gạch (mặc dù các tính năng có thể, về nguyên tắc, hoạt động đúng với nhau). Hình 5. Phân ngành của các bức 18 4.7. Dự đoán liên ảnh Ảnh dự đoán hoạt động theo quy mô lao, và trước đó đã được giải mã mẫu ranh giới từ không gian lân cận TBS được sử dụng để tạo thành các tín hiệu dự đoán. Dự đoán hướng với 33 định hướng hướng khác nhau cho các kích cỡ (vuông) TB từ 4 × 4 đến 32 × 32. Hình 6. Các chế độ và phương hướng định hướng cho dự đoán liên hình ảnh. Các hướng dự đoán có thể được hiển thị trong hình 6. pháp thay thế cực, dự đoán phẳng (giả định một biên độ bề mặt có độ dốc ngang và dọc có nguồn gốc từ biên giới) và DC dự đoán (một ở bề mặt với một giá trị phù hợp với các giá trị trung bình của các mẫu biên) cũng có thể được sử dụng. Đối với sắc độ, ngang, dọc, phẳng, và DC chế độ dự đoán có thể được báo hiệu một cách rõ ràng, hoặc chế độ dự đoán chroma có thể được chỉ định để được giống như các chế độ dự đoán luma (và, như một trường hợp đặc biệt để tránh tín hiệu dư thừa, khi một của đầu tiên ,bốn lựa chọn được chỉ định và cũng giống như các chế độ dự đoán luma, chế độ được áp dụng thay thế). Mỗi CB có thể được mã hóa bằng một trong những loại mã hóa, tùy thuộc vào loại slice. Tương tự như H.264 / MPEG-4 AVC, hình ảnh nội tiên đoán mã hóa được hỗ trợ trong tất cả các loại slice. 19 HEVC hỗ trợ hình ảnh trong nội bộ tiên đoán phương pháp mã hóa khác nhau gọi là Intra-Góc, Intra-Planar và Intra-DC. Các phần dưới đây sẽ trình bày một lời giải thích ngắn gọn về các thêm và một số kỹ thuật được áp dụng chung. 1) PB phân vùng: Một CB dự đoán kích thước M×M có thể có một trong hai loại phân vùng PB gọi là × PART-2N 2N và PART-N × N,trong đó chỉ ra rằng các CB không chia và thứ hai chỉ ra rằng các CB được chia thành bốn kích thước bằng nhau PBs. (Khái niệm, trong ký hiệu này, N = M/2). 2) Dự đoán Intra-góc: không gian tên miền dự đoán trước đây đã được sử dụng thành công trong H.264 / MPEG-4 AVC. Các dự đoán của HEVC tương tự hoạt động trong lĩnh vực không gian, nhưng được mở rộng trong yếu đáng, chủ yếu là do sự gia tăng kích thước của TB và tăng số lượng các hướng dự đoán có thể lựa chọn. So với tám hướng dự đoán của H.264 / MPEG- 4 AVC, HEVC hỗ trợ tổng cộng 33 dự đoán hướng 3) Intra-Planar và Intra-DC dự đoán: Ngoài dự đoán Intra-góc nhắm vùng có cạnh hướng mạnh mẽ, HEVC hỗ trợ hai phương pháp dự báo khác, Intra-Planar và Intra-DC, mà chế độ tương tự trong H. 264 / MPEG-4 AVC. Trong khi Intra-DC trước ngôn từ sử dụng giá trị trung bình của các mẫu tham khảo cho các dự báo, giá trị trung bình của hai tiên đoán tuyến tính sử dụng bốn mẫu tham khảo góc được sử dụng trong nội Planar dự đoán để ngăn chặn sự gián đoạn dọc theo ranh giới khối. Các chế độ dự đoán IntraPlanar được hỗ trợ ở tất cả các kích thước khóa trong HEVC, trong khi H.264 / MPEG-4 AVC hỗ trợ dự đoán chiếc máy bay chỉ khi kích thước luma PB là 16 × 16, và dự đoán chiếc máy bay của nó hoạt động hơi khác nhau từ các dự đoán phẳng trong HEVC. 4) Tham khảo mẫu Smoothing: Trong HEVC, các mẫu tham khảo sử dụng cho các dự đoán hình ảnh liên đôi khi bởi [1 2 1]/4 trong một cách tương tự như những gì đã được sử dụng cho 8 × 8 dự đoán hình ảnh liên trong H.264 / MPEG-4 AVC. HEVC làm mịn các hoạt động thích nghi hơn, theo hướng từ, số lượng của sự gián đoạn phát hiện, và kích thước khối. 5) Để loại bỏ các bất liên tục dọc theo khối ranh giới, trong ba chế độ, Intra-DC (chế độ 1) và Intra-góc [k] với k = 10 hoặc 26 (chính xác ngang hoặc thẳng đứng chính xác), 6) Các mẫu tham khảo không có sẵn tại các lát gạch hoặc ranh giới. Ngoài ra, khi một tính năng mất khả năng phục hồi được gọi là hạn chế dự báo trong nội bộ được kích hoạt, các mẫu tham khảo láng giềng bên trong bất kỳ dự đoán PB cũng được coi là không có sẵn để tránh để các dữ liệu hình ảnh có khả năng bị hỏng trước khi giải mã truyền lỗi vào các tín hiệu dự đoán. Trong khi chỉ có chế độ dự đoán Intra-DC được phép cho những trường hợp như vậy trong H.264 / MPEG-4 AVC, HEVC cho phép việc sử dụng các phương thức dự đoán khác sau khi thay thế các giá trị mẫu tham khảo 20 7) Chế độ mã hóa: HEVC hỗ trợ tổng cộng 33 chế độ dự đoán Intra-góc và IntraPlanar và Intra-DC chế độ dự báo cho dự đoán luma cho tất cả các kích thước block. Do sự gia tăng số lượng các hướng, HEVC xem xét ba phương thức có thể xảy ra nhất (MPMs) khi mã hóa các chế độ dự đoán, chứ không phải là một chế độ có thể xảy ra nhất xem xét trong H.264 / MPEG-4 AVC. Trong ba chế độ có thể xảy ra nhất, đầu tiên kinh hai được theo các phương thức dự đoán các bên trên và bên trái PBs nếu những PBs có sẵn và được mã hóa bằng cách sử dụng một chế độ dự đoán. Bất kỳ chế độ dự báo không hoạt động được coi là Intra-DC. Các PB trên luma CTB luôn luôn được coi là không có sẵn để tránh sự cần thiết để lưu trữ một bộ đệm dòng của chế độ dự đoán luma gần nhất. Khi hai chế độ có thể xảy ra nhất là không bằng nhau, chế độ xác suất lớn nhất thứ ba được thiết lập bằng IntraPlanar, Intra-DC, theo thứ tự này, không phải là một bản sao của một trong những đầu tiên hai chế độ. Khi hai chế độ có thể xảy ra nhất là như nhau, nếu chế độ fi đầu tiên này có giá trị Intra-Planar hoặc Intra-DC, các phương thức có thể xảy ra nhất thứ hai và thứ ba được phân công như Intra-Planar, Intra-DC,theo đó các chế độ này, theo thứ tự này, không phải là bản sao. Khi hai chế độ có thể xảy ra nhất là như nhau và các chế độ đầu tiên có giá trị Intra-Góc, các phương thức có thể xảy ra nhất thứ hai và thứ ba được chọn là hai chế độ dự đoán góc mà gần gũi nhất với các góc (tức là, các giá trị của k) của đầu tiên .Trong trường hợp đó, chế độ dự đoán luma hiện nay là một trong ba MPMs, chỉ có chỉ số MPM được truyền đến các bộ giải mã. Nếu không, các chỉ số của chế độ dự đoán luma hiện nay không bao gồm ba MPMs được truyền đến các bộ giải mã bằng cách sử dụng một 5b có chu cổ định. 4.8 Dự đoán trong hình ảnh 1) PB Phân vùng: So với dự đoán các CB, HEVC hỗ trợ nhiều hình dạng phân vùng PB cho dự đoán NHTM. Các chế độ phân vùng của PART-2N×2N, PART-2N×N, và PART-N×2N chỉ ra các trường hợp khi CB không được chia, tách thành hai bằng kích thước chiều ngang PBs, và chia thành hai bằng kích thước PBs theo chiều dọc , tương ứng. PART-N×N đặc hiệu mà các CB được chia thành bốn bằng kích thước PBs, nhưng chế độ này chỉ được hỗ trợ khi kích thước CB bằng với kích thước nhỏ nhất CB phép. Ngoài ra, có bốn loại phân vùng có hỗ trợ tách thành hai CB PBs có kích cỡ khác nhau: PART-2N×nu, PART-2N nD, PART-nL×2N, và PART-nR×2N. Những loại này được gọi là phân vùng chuyển động không đối xứng. 2) Mẫu Interpolation: Các mẫu của PB cho một dự đoán CB thu được từ những người trong một khu vực khối tương ứng trong các hình ảnh tham khảo bởi một số hình ảnh tham khảo, mà là ở một vị trí thay thế bởi các thành phần ngang và dọc của các vectơ chuyển động. Ngoại trừ các trường hợp khi các vectơ chuyển động có một giá trị số 21 nguyên, phân số mẫu nội suy được sử dụng để tạo ra các mẫu dự đoán cho các vị trí lấy mẫu. Như trong H.264 / MPEG-4 AVC, HEVC hỗ trợ vector chuyển động với các đơn vị của một phần tư của khoảng cách giữa các mẫu luma. Đối với mẫu sắc độ, độ chính xác các vectơ chuyển động được xác định theo các định dạng lấy mẫu sắc độ, mà cho 4 Kết quả 0 mẫu trong các đơn vị của 1/8 của khoảng cách giữa các mẫu chroma 2. Hình. 7. Vị trí lấy mẫu phân đoạn cho luma Các mẫu phân đoạn cho mẫu luma trong HEVC sử dụng ứng dụng tách biệt của một cho các vị trí nửa mẫu và bảy cho các vị trí mẫu trung tâm. Điều này trái ngược với quá trình được sử dụng trong H.264/MPEG-4 AVC, mà áp dụng một quá trình nội suy hai giai đoạn của đầu tiên tạo ra các giá trị của một hoặc hai mẫu lân cận ở vị trí nửa mẫu sử dụng sáu, làm tròn kết quả trung gian, và sau đó hai giá trị trung bình ở vị trí số nguyên hoặc nửa mẫu. HEVC thay vì sử dụng một quá trình duy nhất tách nội suy để tạo ra tất cả các vị trí phân đoạn không hoạt động trung gian, giúp tăng độ chính xác và kiến trúc của 22 mẫu phân đoạn nội suy. Độ chính xác suy cũng được cải thiện bằng cách sử dụng trong HEVC Trong hình 7, các vị trí dán nhãn với chữ hoa chữ, Ai, j, đại diện cho các mẫu luma có sẵn tại các địa điểm mẫu số nguyên, trong khi các vị trí khác có nhãn với chữ thường biểu diễn các mẫu tại các địa điểm mẫu số nguyên không, mà cần phải được tạo ra bằng cách nội suy . Các mẫu nhãn a0, j, b 0, j, c 0, j, d 0,0, 0,0 h, và n0,0 được bắt nguồn từ các mẫu Ai, j bằng cách áp dụng tám cho nửa mẫu vị trí và bảy cho các vị trí tứ mẫu như sau: nơi B ≥ liên tục 8 là bit độ sâu của các mẫu tham khảo (và thường là B = 8 cho hầu hết các ứng dụng) được đưa ra trong Bảng II. Trong các công thức, biểu thị một >> dịch chuyển số học ngay. Các mẫu nhãn e0,0, f 0,0, 0,0 g, i 0,0, 0,0 j, k 0,0, 0,0 p, q 0,0, và r0,0 có thể được bắt nguồn bởi áp dụng tương ứng với các mẫu nằm ở a0 liền kề theo chiều dọc, j, b 0, j và c0, vị trí j như sau: 23 Khi B được tính bằng 8, vì vậy các giá trị tương tự có thể được tính toán trong trường hợp này bằng cách áp dụng đứng trước. Khi thực hiện một cách thích hợp, quá trình bồi thường chuyển động của HEVC có thể được thực hiện bằng cách sử dụng các yếu tố chỉ lưu trữ 16-b (mặc dù chăm sóc phải được thực hiện để làm điều này một cách chính xác). Đó là vào thời điểm này trong quá trình trọng chọn từ trước được áp dụng khi lựa chọn bởi các bộ mã hóa. Trong khi đó, H.264/MPEG-4 AVC hỗ trợ cả về mặt thời gian tiềm ẩn và rõ ràng dự đoán trọng, trong HEVC chỉ dự đoán có trọng rõ ràng được áp dụng, bởi tỉ lệ và bù đắp các dự đoán với các giá trị được gửi một cách rõ ràng bởi các bộ mã hóa. Các bit độ sâu của các dự báo này sau đó được điều chỉnh để các bit gốc độ sâu của các mẫu tham khảo.. Trong H.264 / MPEG-4 AVC, đến ba giai đoạn của hoạt động làm tròn được yêu cầu để có được mỗi mẫu dự đoán (cho mẫu nằm ở vị trí tứ mẫu). Nếu dự đoán được sử dụng, tổng số các hoạt động làm tròn là sau đó bảy trong trường hợp xấu nhất. Trong HEVC, 24 nhiều nhất là hai hoạt động làm tròn là cần thiết để có được mỗi mẫu nằm tại các vị trí tứ mẫu, do đó đã làm tròn hoạt động là khu rừng đặc dụng trong trường hợp xấu nhất khi được sử dụng. Hơn nữa, trong việc sử dụng phổ biến nhất, nơi độ sâu bit B là 8 b, tổng số làm tròn hoạt động trong trường hợp xấu nhất là tiếp tục giảm đến 3. Do số lượng thấp hơn các hoạt động làm tròn, các lỗi làm tròn số tích lũy được giảm và lớn được kích hoạt liên quan đến cách thức thực hiện các hoạt động cần thiết trong các bộ giải mã. Quá trình suy mẫu phân đoạn cho các thành phần chroma là tương tự như đối với các thành phần luma, ngoại trừ các số là 4 và độ chính xác phân đoạn là 1/8 cho 4 thông thường: 2: 0 dạng chroma trường hợp. HEVC một bộ bốn cho vị trí thứ tám mẫu, được cho trong Bảng III đối với trường hợp 4: 2: 0 dạng chroma (ở đâu, trong H.264/MPEG-4 AVC, chỉ có hai được áp dụng). các giá trị ký hiệu là filter1 [i], fi [i] lter2, fi l- ter3 [i], và filter4 [i] với i = -1, ..., 2 được sử dụng để liên polating 1/8, 2 / 8, 3/8, và 4/8 vị trí phân đoạn cho các mẫu sắc độ, tương ứng. Sử dụng tính đối xứng cho / 8 5, 6/8, và 7 / vị trí phân đoạn thứ 8, các giá trị nhân đôi của filter3 [1-i], fi lter2 [1-i], và fi lter1 [1-i] với i = -1, ..., 2 được sử dụng tương ứng. 3) Merge Mode: thông tin chuyển động thông thường bao gồm các giá trị chuyển vectơ chuyển động theo chiều ngang và thẳng đứng, một hoặc hai chỉ số hình ảnh tham khảo, và, trong trường hợp của khu vực sự tiên đoán trong B lát, một trong đó tham khảo danh sách hình ảnh có liên quan đến mỗi chỉ số. HEVC bao gồm một chế độ nối để lấy được các thông tin chuyển động từ khối không gian, tạm thời láng giềng. Nó được ký hiệu là chế độ nối vì nó tạo thành một khu vực sáp nhập chia sẻ tất cả các thông tin chuyển động. Các chế độ nối là khái niệm tương tự như trực tiếp và bỏ qua chế độ trong H.264/MPEG-4 AVC. Tuy nhiên, có hai sự khác biệt quan trọng. Đầu tiên, nó truyền tải thông tin chỉ số để lựa chọn một trong số nhiều ứng cử viên có sẵn, một cách đôi khi được gọi là một chương trình cạnh tranh chuyển động. Nó cũng rõ ràng danh sách hình ảnh tham khảo và chỉ số hình ảnh. 25 Hình 8. Vị trí các ứng cử viên không gian của thông tin di động Tập hợp các ứng viên có thể có trong các chế độ nối bao gồm các ứng cử viên không gian lân cận, một ứng cử viên tạm thời, và các ứng cử viên được tạo ra. Hình 8 cho thấy vị trí của các ứng cử viên đã không gian. Đối với từng vị trí ứng cử viên, sự sẵn có được kiểm tra theo thứ tự {a1, b 1, b 0, a 0, b 2}. Nếu các khối nằm ở vị trí được dự đoán hoặc vị trí nằm ngoài slice hiện tại hoặc ngói, nó được coi như là không có. Sau khi xác nhận các ứng cử viên không gian, hai loại được loại bỏ. Nếu vị trí ứng cử viên cho PU hiện tại sẽ đề cập đến đầu tiên PU trong CU cùng, vị trí được loại trừ, như hợp nhất cùng có thể đạt được một CU mà không chia thành các phân vùng dự báo. Hơn nữa, bất kỳ mục thừa nơi ứng viên có thông tin chính xác chuyển động cùng cũng bị loại trừ. Đối với các ứng viên thời gian, vị trí dưới cùng bên phải ngay bên ngoài của PUcủa hình ảnh tham chiếu được sử dụng nếu nó có sẵn. Nếu không, vị trí trung tâm được sử dụng để thay thế. Cách chọn PU tương tự như các tiêu chuẩn trước, nhưng HEVC cho phép nhiều bằng cách truyền một chỉ số để xác định các tài liệu tham khảo danh sách hình ảnh được sử dụng cho các hình ảnh tham khảo Một vấn đề liên quan đến việc sử dụng của các ứng cử viên tạm thời là lượng bộ nhớ để lưu trữ các thông tin chuyển động của hình ảnh tham khảo. Điều này được giải quyết bằng cách hạn chế các để lưu trữ các ứng cử viên chuyển động thời gian để chỉ độ phân giải của một lưới luma 16 × 16, thậm chí khi những cấu trúc PB nhỏ hơn được sử dụng tại các vị trí tương ứng trong hình tham khảo. Ngoài ra, một PPS cấp cho phép các bộ mã hóa để vô hiệu hóa việc sử dụng các ứng viên thời gian, đó là hữu ích cho các ứng dụng với truyền dễ bị lỗi. Số lượng tối đa của các ứng cử viên hợp C là trong tiêu đề slice. Nếu số lượng các ứng cử viên hợp nhất được tìm thấy (bao gồm cả các ứng viên thời gian) là lớn hơn so với C, chỉ có đầu tiên C - 1 ứng cử viên không gian và các ứng cử viên tạm thời được giữ lại. Nếu không, nếu số lượng ứng cử viên hợp nhất là ít hơn so với C, các ứng cử viên bổ sung được tạo ra cho đến khi số bằng C. này các phân tích và làm cho nó mạnh mẽ hơn, như khả năng phân tích các dữ liệu được mã hóa không phụ thuộc vào ứng cử viên hợp nhất sẵn có Đối với B lát, các ứng cử viên trộn bổ sung được tạo ra bằng cách chọn hai ứng cử viên hiện có theo một danh sách hình ảnh tham khảo 0 và danh sách 1. Ví dụ, đầu tiên tạo ra ứng cử viên sử dụng đầu tiên kinh hợp nhất ứng cử viên cho danh 0 và các ứng cử viên hợp thứ hai cho danh sách 1. HEVC tổng cộng 12 cặp của hai theo thứ tự sau đây trong danh sách ứng cử viên hợp nhất đã được xây dựng như là (0, 1), (1, 0), (0, 2), (2, 0), (1 , 2), (2, 1), (0, 3), (3, 0), (1, 3), (3, 1), (2, 3), và (3, 2). Trong số đó, có tới đã ứng viên có thể được bao gồm sau khi loại bỏ các mục không cần thiết. Khi lát là một P slice hoặc số ứng cử viên hợp nhất vẫn ít hơn so với C, không vectơ chuyển động kết hợp với các chỉ số tài liệu tham khảo từ số không đến số lượng ảnh tham chiếu trừ một được sử dụng để ll bất kỳ mục còn lại trong danh sách ứng cử viên hợp nhất. Trong HEVC, chế độ bỏ qua 26 được đối xử như là một trường hợp đặc biệt của các chế độ nối khi tất cả các khối mã AGS là bằng không. Trong trường hợp đặc hiệu, chỉ có một ag bỏ và các chỉ số tương ứng kết hợp được truyền tới bộ giải mã. Các chế độ B-trực tiếp của H.264/MPEG-4 AVC cũng được thay thế bằng chế độ nối, kể từ khi chế độ nối cho phép tất cả các thông tin chuyển động để được bắt nguồn từ những thông tin chuyển động không gian và thời gian của các khối lân cận với các mã còn lại. 4) Chuyển động Vector Dự đoán cho Nonmerge Mode: Khi một CB dự đoán là không được mã hóa trong chế độ bỏ qua hoặc hợp nhất, các vectơ chuyển động được mã hóa bằng một kiểu khác dự báo vectơ chuyển động. Tương tự như các chế độ nối, HEVC cho phép mã hóa để lựa chọn các yếu tố dự báo vectơ chuyển động giữa nhiều ứng viên dự đoán. Sự khác biệt giữa dự đoán và các vectơ chuyển động thực tế và chỉ số của các ứng cử viên được truyền tới bộ giải mã. Chỉ có hai ứng cử viên chuyển động không gian được lựa chọn theo sự sẵn có trong đã ứng cử viên trong hình 8,đầu tiên ứng cử viên không gian chuyển động được chọn từ tập hợp các vị trí còn lại {a0, a1} và điều thứ hai từ tập hợp các vị trí trên {b0, b1, b2} của họ, trong khi vẫn giữ thứ tự tìm kiếm như được chỉ ra trong hai bộ. HEVC chỉ cho phép một số lượng thấp hơn nhiều của các ứng cử viên sẽ được sử dụng trong quá trình dự báo vector chuyển động cho các trường hợp , kể từ khi mã hóa có thể gửi một sự khác biệt mã hoá để thay đổi các vector chuyển động. Hơn nữa, các bộ mã hóa cần thực hiện đánh giá chuyển động, đó là một trong những hoạt động tính toán đắt tiền nhất trong bộ mã hóa, và phức tạp được giảm bằng cách cho phép một số lượng nhỏ của các ứng cử viên. Khi chỉ số tham chiếu của PU láng giềng là không tương đương với của PU hiện nay, một phiên bản thu nhỏ của các vector chuyển động được sử dụng. Các vector chuyển động láng giềng được thu nhỏ theo các khoảng cách thời gian giữa các bức tranh hiện tại và hình ảnh tham khảo chỉ định bởi các chỉ số kinh của PU láng giềng, PU hiện tại, tương ứng. Khi hai ứng cử viên không gian có các thành phần vector chuyển động cùng, một ứng cử viên không gian dư thừa được loại trừ. Khi số lượng các nhân tố ảnh vector chuyển động không bằng hai và việc sử dụng thời gian MV dự đoán là không bị vô hiệu hóa một cách rõ ràng, các ứng cử viên dự báo thời MV được bao gồm. Điều này có nghĩa rằng các ứng cử viên tạm thời không được sử dụng ở tất cả khi hai ứng cử viên không gian có sẵn. Cuối cùng, một vector không chuyển động được bao gồm nhiều lần cho đến khi số lượng các vector chuyển động dự đoán ứng viên bằng hai, đảm bảo rằng số lượng các yếu tố dự báo vector chuyển động là hai. Như vậy, chỉ một mã hóa là cần thiết để xác định 27 4.9 Biến đổi Scaling HEVC sử dụng chuyển đổi mã hóa của các dự báo lỗi còn sót lại trong một cách tương tự như trong các tiêu chuẩn trước. Các khối còn lại được phân chia thành nhiều TBS vuông,. Các hỗ trợ chuyển đổi kích thước khối là 4 × 4, 8 × 8, 16 × 16, và 32 × 32. 1) Chuyển đổi: biến đổi hai chiều được tính bằng cách áp dụng 1-D chuyển theo các hướng ngang và dọc. Các yếu tố của lõi biến đổi ma trận được phát sinh bởi quy mô xấp xỉ hàm cơ sở DCT, dưới cân nhắc như hạn chế phạm vi hoạt động cần thiết để chuyển đổi tính toán và tối đa hóa độ chính xác và gần gũi với tính trực giao khi các mục ma trận là chỉ tường fi ed như các giá trị số nguyên. Để đơn giản, chỉ có một ma trận số nguyên cho chiều dài của 32 điểm là và các phiên bản mẫu phụ được sử dụng cho các kích cỡ khác. Ví dụ, các ma trận cho chiều dài-16 là biến thể hiện trong các phương trình ở dưới cùng của trang trước. Các ma trận cho chiều dài-8 và độ dài-4 biến đổi có thể được rút ra bằng cách sử dụng đầu tiên tám mục hàng 0, 2, 4, ..., và bằng cách sử dụng đầu tiên bốn mục hàng 0, 4, 8, ... , tương ứng. Mặc dù chuẩn biến đổi đơn giản về giá trị của một ma trận, các giá trị của các mục trong ma trận đã được lựa chọn để có tính chất đối xứng chính cho phép triển khai nhanh chóng một phần yếu tố có rất ít hoạt động toán học hơn là một phép nhân ma trận bình thường, và các biến đổi lớn hơn có thể được xây dựng bằng cách sử dụng các phép biến đổi nhỏ hơn như các khối xây dựng. Do kích thước tăng lên của các phép biến đổi được hỗ trợ, hạn chế phạm vi hoạt động của các kết quả trung gian từ giai đoạn đầu tiên kinh của việc chuyển đổi là khá quan trọng. HEVC rõ ràng chèn một 7-b phải và 16-b hoạt động cắt sau khi đầu tiên 1-D nghịch đảo giai đoạn của ,chuyển đổi để đảm bảo rằng tất cả các tế làm trung gian các giá trị có thể được lưu trữ trong bộ nhớ 16-b (để giải mã video 8-b). 28 2) Cách 4 × 4 Chuyển đổi: Đối với các khối có kích thước 4 × 4 biến đổi, một số nguyên thay thế biến đổi xuất phát từ một DST được áp dụng cho các khối còn lại luma cho chế độ dự đoán, với các biến đổi ma trận Các chức năng cơ bản của DST tốt hơn t tài sản thống kê rằng biên độ còn lại có xu hướng tăng khi khoảng cách từ các mẫu ranh giới được sử dụng để dự đoán trở nên lớn hơn. Xét về độ phức tạp, 4 × 4 DST phong cách chuyển đổi không phải là nhiều hơn tính toán triển hơn 4 × 4 DCT phong cách biến đổi, và nó cung cấp giảm tốc độ bit khoảng 1% trong hình ảnh bên trong tiên đoán mã hóa. Việc sử dụng các loại DST của biến đổi được giới hạn chỉ có 4 × 4 Luma chuyển khối, vì đối với các trường hợp khác bổ sung mã hóa cải thiện tính hiệu cho bao gồm cả bổ sung chuyển đổi loại đã được tìm thấy sẽ được biên. 3) Mở rộng quy mô và Quantization: Vì các hàng của ma trận dạng trans là xấp xỉ gần các giá trị của các hàm cơ sở quy mô thống nhất của DCT trực giao, các hoạt động được kết hợp trong các của H.264/MPEG-4 AVC là không cần thiết trong HEVC. Tránh này của tần số đặc hiệu hàm cơ sở rộng là hữu ích trong kích thước bộ nhớ trung gian, đặc biệt là khi xem xét rằng kích thước của các biến đổi có thể được lớn như 32 × 32. Đối HEVC sử dụng về cơ bản đề án URQ cùng kiểm soát bởi một tham số lượng tử (QP) như trong H.264/MPEG-4 AVC. Phạm vi của các giá trị QP là 0-51, và sự gia tăng của 6 đôi lượng tử kích thước bước như vậy mà các bản đồ của các giá trị QP bước kích thước xấp xỉ rộng ma trận cũng được hỗ trợ. Để giảm bộ nhớ cần thiết để lưu trữ giá trị tần số rộng đặc hiệu, chỉ có ma trận lượng tử có kích thước 4×4 và 8×8 được sử dụng. Đối với những biến đổi lớn hơn 16×16 và 32×32 kích cỡ, một ma trận 8×8 rộng được gửi và được áp dụng bởi các giá trị chia sẻ trong vòng 2×2×4 và 4 nhóm ở tần số trừ giá trị tại DC vị trí, mà giá trị khác nhau được gửi đi và áp dụng. 4.10 Entropy Mã hóa HEVC đặc hiệu chỉ có một phương pháp mã hóa entropy, CABAC chứ không phải hai như H.264/MPEG-4 AVC. Các thuật toán lõi của CABAC là không thay đổi, và các 29 phần dưới đây hiện một vài khía cạnh của nó như thế nào được sử dụng trong các thiết kế HEVC. 1) Bối cảnh Modeling: lựa chọn phù hợp của mô hình bối cảnh được biết đến là một yếu tố quan trọng để nâng cao tính hiệu của CABAC mã hóa. Trong HEVC, sự phân tách sâu của cây mã hóa hoặc chuyển đổi cây được khai thác để lấy được các chỉ số mô hình bối cảnh các yếu tố cú pháp khác nhau, thêm vào những không gian lân cận sử dụng trong H.264/AVC. Ví dụ, các yếu tố cú pháp bỏ xác định xem các CB được mã hoá như bỏ qua và các yếu tố cú pháp tách mã hóa đơn xác định xem CB là chia thêm được mã hóa bằng cách sử dụng mô hình bối cảnh dựa trên các thông tin về không gian lân cận. Các yếu tố cú pháp tách biến cờ xác định xem đó là bệnh lao chia xa hơn và ba yếu tố cú pháp quy định cụ thể khác không đổi cho mỗi thành phần màu sắc, CBF-luma, CBF-cb và CBF-cr, được mã hoá dựa trên sự phân chia sâu việc chuyển đổi cây. Mặc dù số lượng các ngữ cảnh sử dụng trong HEVC là ít hơn đáng kể so với H.264/MPEG-4 AVC, thiết kế entropy mã hóa thực sự cung cấp năng nén tốt hơn nhiều hơn so với một phần mở rộng đơn giản của H.264/MPEG- 4 AVC. Hơn nữa, việc sử dụng rộng rãi hơn trong thực hiện HEVC của chế độ bỏ qua các hoạt động CABAC để tăng thông lượng bằng cách giảm số lượng dữ liệu mà cần phải được mã hóa bằng cách sử dụng bối cảnh CABAC. Sự phụ thuộc giữa các dữ liệu được mã hóa cũng được xem xét một cách cẩn thận để cho phép thêm thông tối đa. 2) Thích ứng Scanning: thực hiện trong 4 × 4 subblocks cho tất cả các kích cỡ TB (tức là sử dụng chỉ có một vùng cho kích thước TB 4 × 4, và sử dụng nhiều 4×4 trong chuyển đổi các khối lớn hơn). phương pháp quét , đường chéo lên bên phải, ngang, và quét dọc như hình. 9, được lựa chọn mặc nhiên để mã hóa các biến đổi của 4×4 và 8×8 kích cỡ TB trong vùng dự đoán. Việc lựa chọn để quét phụ thuộc vào dự đoán . Việc quét dọc được sử dụng khi hướng dự đoán là gần ngang và quét ngang được sử dụng khi hướng dự đoán gần thẳng đứng. Để được hướng dẫn dự báo khác, các đường chéo quét lên bên phải được sử dụng. Đối với các biến đổi ở chế độ dự đoán của tất cả các kích thước khối và các biến đổi 16×16 hoặc 32×32 dự đoán , 4×4 đường chéo quét lên bên phải là độc quyền áp dụng 30 cho phép biến đổi Hình 9. Ba phương pháp quét trong HEVC. (a) quét lên bên phải. (b) quét ngang. (c) quét dọc. 3) Mã hóa: Tương tự như H.264/MPEG-4 AVC, HEVC truyền vị trí cuối cùng chuyển đổi, một bản đồ trọng yếu, ký bit và mức biến đổi. Tuy nhiên, những thay đổi khác nhau cho từng phần đã được thực hiện, đặc biệt là xử lý tốt hơn về trọng yếu đáng tăng kích thước của TBS. Đầu tiên, các tần số ngang và dọc phối hợp các vị trí cuối cùng được mã hóa cho các TB trước khi gửi các bản đồ trọng yếu của 4 × 4 subblocks đó chỉ ra những khác biến có giá trị khác không, thay vì gửi một loạt AGS được xen kẽ với các bản đồ trọng yếu như thực hiện trong H.264/MPEG-4 AVC. Bản đồ trọng yếu có nguồn gốc cho các nhóm cance trọng yếu liên quan đến kích thước cổ định 4×4 subblocks. Đối với tất cả các nhóm có ít nhất một trước cuối cùng vị trí , một trong yếu nhóm định một nhóm khác không được truyền, tiếp theo là trong yếu cance AGS cho mỗi trước khi đến vị trí chỉ định của trong yếu cuối cùng không thể. Các mô hình ngữ cảnh cho trong yếu không thể AGS là phụ thuộc vào vị trí cũng như các giá trị của quyền và các nhóm trong yếu không thể dưới AGS. Một phương pháp được gọi là dữ liệu ẩn dấu được sử dụng để tiếp tục cải thiện. Các bit dấu hiệu được mã hóa có điều kiện dựa vào số lượng và vị trí của mã. Khi ẩn dấu dữ liệu được sử dụng và có ít nhất hai khác không trong một subblock 4×4 và sự khác biệt giữa các vị trí quét của đầu tiên và các nonzero cuối cùng là lớn hơn 3, bit dấu hiệu đầu tiên kinh khác không là trong ferred từ tính chẵn lẻ của tổng các biên độ hụt . Nếu không, các bit dấu là mã hoá thông thường. Ở phía bộ mã hóa, điều này có thể được thực hiện bằng cách chọn một với một biên độ gần với ranh giới của một khoảng thời gian lượng tử bị buộc phải sử dụng khoảng thời gian lượng tử lân cận trong trường hợp chẵn lẻ sẽ không nếu không chỉ ra các dấu hiệu 31 chính xác của đầu tiên kinh. Điều này cho phép các bit dấu được mã hóa với chi phí thấp hơn (về tỷ lệ biến dạng) hơn nếu nó được mã hóa độc lập bằng cách cho các bộ mã hóa tự do lựa chọn chuyển đổi hình biên độ có thể được thay đổi bằng các chi phí tỷ lệ biến dạng thấp nhất. Đối với mỗi vị trí mà các fi tương ứng trong yếu không thể là bằng một, hai AGS xác định xem giá trị độ lớn hơn một hoặc hai được mã hóa, và sau đó các giá trị mức còn lại được mã hóa tùy thuộc vào hai giá trị 4.11 Bộ lọc vòng trong Trong HEVC, hai bước xử lý, cụ thể là một deblocking(DBF) tiếp theo là một filter SAO, được áp dụng để tái tạo các mẫu trước khi viết chúng vào bộ đệm hình ảnh giải mã trong vòng lặp giải mã. DBF là nhằm giảm bớt các hiện vật chặn do mã hóa dựa trên khối. DBF là tương tự như các DBF của AVC chuẩn H.264/MPEG-4, trong khi SAO mới được giới thiệu trong HEVC. Trong khi các DBF chỉ áp dụng cho các mẫu nằm ở block ranh giới, các fiter SAO được áp dụng thích nghi với tất cả các mẫu đáp ứng các điều kiện nhất định, ví dụ, dựa trên gradient. Trong sự phát triển của HEVC, nó cũng đã được coi là hoạt động một bước chế biến thứ ba gọi là lter thích ứng loopfi (ALF) sau khi filter SAO; Tuy nhiên, các tính năng ALF không được bao gồm trong thiết kế 1) Deblocking lọc: deblocking được áp dụng cho tất cả các mẫu tiếp giáp với một PU hoặc TU ranh giới, ngoại trừ trường hợp khi các biên giới cũng là một ranh giới hình ảnh, hoặc khi chặn được vô hiệu hóa trên lát gạch hoặc ranh giới (đó là một lựa chọn mà có thể được đánh dấu bằng việc mã hóa). Cần lưu ý rằng cả hai PU và TU ranh giới cần được xem xét kể từ ranh giới PU không phải luôn luôn phù hợp với ranh giới TU trong một số trường hợp dự đoán NHTM. Yếu tố cú pháp trong SPS và các tiêu đề lát kiểm soát xem các deblocking được áp dụng trên các lát và ngói ranh giới. Không giống như H.264/MPEG-4 AVC, nơi deblocking được áp dụng trên cơ sở lưới 4×4 mẫu, HEVC chỉ áp dụng cho các deblocking để các cạnh được xếp trên một mẫu lưới 8×8, cho cả luma và mẫu chroma. Hạn chế này làm giảm các trường hợp xấu nhất tính toán phức tạp mà không làm giảm đáng kể chất lượng hình ảnh. Nó cũng giúp cải thiện hoạt động xử lý song song bằng cách ngăn chặn sự nối tầng tương tác giữa các hoạt động filtering gần đó. Sức mạnh của deblocking được điều khiển bởi các giá trị của một số yếu tố cú pháp tương tự như các chương trình trong H.264 / MPEG-4 AVC, nhưng chỉ có ba thế mạnh được sử dụng hơn là 5. Cho rằng P và Q là hai khối liền kề với một ranh giới 8×8 lưới chung, sức mạnh filter 2 được chỉ định khi một trong những khối được dự đoán. Nếu không, sức mạnh filter của 1 được gán nếu có các điều kiện sau đây là đáp ứng. 1) P hoặc Q có ít nhất một số không đổi coef ficient. 32 2) Các chỉ số tham chiếu của P và Q không bằng nhau. 3) Các vectơ chuyển động của P và Q không bằng nhau. 4) Sự khác biệt giữa một thành phần vector chuyển động của P và Q là lớn hơn hoặc bằng một số nguyên mẫu. Nếu không có điều kiện trên được đáp ứng, sức mạnh filter 0 được phân công, điều đó có nghĩa rằng quá trình deblocking không được áp dụng. Theo sức mạnh filter và các tham số lượng tử trung bình của P và Q, hai ngưỡng, tC và β, được xác định từ bảng ned. Đối với các mẫu luma, một trong ba trường hợp.Chỉ có hai trường hợp, không có .Bình thường filtering chỉ được áp dụng khi các sức mạnh filter là lớn hơn một. Sau đó quá trình ltering được thực hiện bằng cách sử dụng các biến kiểm soát tC và β. Hình. 10. Bốn kiểu gradient được sử dụng trong SAO. Trong HEVC, thứ tự xử lý của deblocking là de định nghĩa là ngang cho các cạnh thẳng đứng cho toàn bộ hình ảnh đầu tiên, tiếp theo dọc cho cạnh ngang, hoặc vẫn có thể được thực hiện trên cơ sở CTB-by-CTB chỉ với một độ trễ xử lý nhỏ. 2) SAO: SAO là một quá trình giải mã bởi điều kiện thêm một giá trị bù đắp vào mỗi mẫu sau khi áp dụng các deblocking, dựa trên các giá trị trong bảng look-up truyền qua các bộ mã hóa. SAO được thực hiện trên cơ sở khu vực, dựa trên một loại chọn mỗi CTB bởi một yếu tố cú pháp sao-type-idx. Một giá trị 0 sao-type-idx chỉ ra rằng filter SAO không được áp dụng cho các CTB, và các giá trị 1 và 2 tín hiệu sử dụng băng offset và cạnh bù đắp các loại fi ltering, tương ứng. Trong băng bù chế độ đặc hiệu fi ed bởi saotype-idx bằng 1, giá trị bù đắp được lựa chọn trực tiếp phụ thuộc vào biên độ mẫu. Trong chế độ này, phạm vi biên độ mẫu đầy đủ được thống nhất chia thành 32 phân đoạn được gọi là ban nhạc, và các giá trị mẫu thuộc bốn trong số những ban nhạc (mà là liên tục trong vòng 32 ban nhạc) là bằng cách thêm vào các giá trị truyền ký hiệu là hiệu số ban nhạc, mà có thể là tích cực hay tiêu cực. Lý do chính để sử dụng bốn băng liên tiếp là trong các lĩnh vực mà hiện vật mịn dải có thể xuất hiện, biên độ mẫu trong một CTB xu hướng tập trung vào chỉ vài trong số những ban nhạc. Ngoài ra, sự lựa chọn thiết kế, sử 33 dụng bốn với các chế độ cạnh bù đắp của hoạt động đó cũng sử dụng bốn bù đắp giá trị. Trong cạnh bù đắp sao-type-idx bằng 2, một yếu tố cú pháp sao-eo-class với giá trị 0-3 tín hiệu cho dù một ngang, dọc hoặc một trong hai hướng dốc chéo được sử dụng cho cạnh đó bù đắp trong CTB. Hình. 10 mô tả bốn kiểu gradient sử dụng cho các sao-eoclass tương ứng trong chế độ này. trong Bảng IV. này được thực hiện đối với từng mẫu dựa trên các giá trị mẫu giải mã, vì vậy không có thêm tín hiệu là cần thiết. Tùy thuộc vào loại ở vị trí mẫu, cho các loại, một giá trị bù đắp từ một cái nhìn lên bảng truyền được thêm vào các giá trị mẫu. Các giá trị bù đắp luôn tích cực cho loại 1 và 2 và tiêu cực đối với loại 3 và 4 - do đó nói chung có tác dụng làm mịn ở chế độ bù đắp cạnh. Như vậy, với nhiều loại SAO 1 và 2, tổng cộng bốn biên độ giá trị bù đắp được truyền tới bộ giải mã cho mỗi CTB. Đối với loại 1, các dấu hiệu cũng được mã hóa. Các giá trị bù đắp và các yếu tố liên quan như cú pháp sao-type-idx và sao-eo-class được xác định bởi các bộ mã hóa - thường sử dụng các tiêu chí tối ưu hóa hiệu suất tốc độ biến dạng. Các thông số SAO có thể được chỉ để được thừa hưởng từ bên trái hoặc trên CTB sử dụng một hợp nhất để làm cho các tín hiệu Tóm lại, SAO là một hoạt động phi tuyến cho phép thêm tín hiệu được xây dựng lại, và nó có thể tăng cường đại diện tín hiệu ở cả hai mặt mịn và xung quanh các cạnh. 4.12 Chế độ mã hóa đặc biệt HEVC ba chế độ mã hóa đặc biệt, có thể được gọi ở cấp CU hoặc mức TU. 1) Trong chế độ I-PCM, dự báo, biến đổi, lượng tử hóa và mã hóa entropy được bỏ qua, và các mẫu được biểu diễn trực tiếp của một số bit. Mục đích chính của nó là để tránh tiêu thụ quá mức của các bit khi các đặc điểm tín hiệu rất bất thường và không thể được xử lý đúng cách mã hóa lai (ví dụ, tín hiệu tiếng ồn). 34 2) Trong chế độ lossless, biến đổi, lượng tử, và chế biến khác có ảnh hưởng đến hình ảnh giải mã (SAO và deblocking) được bỏ qua, và những tín hiệu còn lại từ các dự đoán hình ảnh liên hoặc liên trực tiếp đưa vào các coder entropy (bằng cách sử dụng cùng một bối cảnh khu phố mà thường sẽ được áp dụng cho các hình thức lâylượng tử). Điều này cho phép tái xây dựng toán học lossless, mà là đạt được mà không cần bất kỳ công cụ mã hóa bổ sung. 3) Trong chuyển đổi chế độ bỏ qua, chỉ có các biến đổi được thông qua phụ. Điều này chủ yếu là cải thiện nén cho một số loại nội dung video như lứa tuổi máy tính tạo ra đồ họa hoặc trộn với nội dung camera-view (ví dụ, cuộn văn bản). Chế độ này có thể được áp dụng cho TBS của 4×4 kích thước chỉ. SAO và deblocking không được áp dụng cho các khu vực chế độ lossless, và một điều khiển dù chúng được áp dụng cho các khu vực I-PCM. V. TẦNG LỚP,MỨC ĐỘ 5.1 Khái niệm Level và Tier Tầng và mức chỉ định điểm phù hợp cho việc thực hiện các tiêu chuẩn một cách tương thích trên các ứng dụng khác nhau có yêu cầu chức năng tương tự. Một trình một tập hợp các công cụ mã hóa hoặc các thuật toán có thể được sử dụng trong việc tạo ra một bitstream phù hợp, trong khi đó mức độ hạn chế đặt trên một số thông số quan trọng của bitstream, tương ứng với khả năng giải mã xử lý tải và bộ nhớ. Giới hạn cấp độ được thiết lập về tốc độ tối đa mẫu, kích thước hình ảnh tối đa, tốc độ bit tối đa, tỷ lệ nén tối thiểu và năng lực của các DPB và đệm hình ảnh được mã hóa (CPB) chứa dữ liệu nén trước khi giải mã nó cho dữ liệu. Trong thiết kế của HEVC, nó đã được xác định rằng một số ứng dụng tồn tại mà có yêu cầu mà chỉ khác nhau về tốc độ bit tối đa và khả năng CPB. Để giải quyết vấn đề này, hai tầng với một số lớp-một Tier chính cho hầu hết các ứng dụng và một Tier cao để sử dụng trong các ứng dụng đòi hỏi khắt khe nhất. Một bộ giải mã phù hợp với một tầng và mức độ nhất định là cần thiết để có khả năng giải mã tất cả các bitstreams đó phù hợp với các cấp cùng một hoặc tầng thấp hơn của mức đó hay bất kỳ mức dưới nó. Giải mã phù hợp với hỗ trợ tất cả các tính năng trong đó profile. Mã hóa không cần phải sử dụng bất kỳ tập hợp các tính năng hỗ trợ trong một profile, nhưng được yêu cầu để sản xuất phù hợp bitstream, tức là, bitstream mà tuân theo các hạn chế đặc hiệu cho phép chúng được giải mã bằng cách tuân giải mã. 5.2. Cấp độ các HEVC Chỉ ba profiles nhắm mục tiêu ứng dụng những yêu cầu khác nhau, được gọi là chính, Main 10, và chính Hình Tĩnh profiles, được lường trước được vào tháng năm 2013. Giảm thiểu số lượng các profiles cung cấp một số lượng tối đa khả năng tương tác giữa các thiết bị, và hơn nữa bởi thực tế là các dịch vụ truyền thống riêng, chẳng hạn như phát 35 sóng, điện thoại di động, trực tuyến, đang hội tụ đến điểm mà hầu hết các thiết bị cần sử dụng để hỗ trợ trở thành tất cả trong số họ. Ba dự thảo profiles bao gồm các công cụ mã hóa và cú pháp lớp cao được mô tả trong các phần trước của bài viết này, trong khi áp đặt các hạn chế sau đây. 1) Chỉ 4: 2: 0 chroma lấy mẫu được hỗ trợ. 2) Khi một bộ mã hóa mã hóa một hình ảnh bằng cách sử dụng nhiều gạch, nó cũng không thể sử dụng xử lý song song đầu sóng, và mỗi ngói phải có ít nhất 256 luma mẫu rộng và 64 mẫu luma cao. 3) Trong chính và chính Hình Tĩnh profiles, chỉ có một độ chính xác video của 8 b mỗi mẫu được hỗ trợ, trong khi chính 10 profile hỗ trợ lên đến 10b cho mỗi mẫu. 4) Trong Main Hình Tĩnh pro fi le, toàn bộ bitstream phải chứa chỉ có một hình ảnh được mã hóa (và do đó dự đoán hình ảnh liên không được hỗ trợ). Hiện nay, trong định nghĩa của 13 cấp độ được dự kiến sẽ được bao gồm trong phiên bản gốc đầu tiên của tiêu chuẩn như trong bảng V, từ mức chỉ hỗ trợ hình ảnh tương đối nhỏ kích thước như một kích thước hình ảnh luma 176 × 144 (đôi khi được gọi là một phần tư định dạng trung gian phổ biến) để hình ảnh kích thước lớn như 7680 × 4320 (thường được gọi là 8k x 4k). Chiều rộng và chiều cao ảnh được từng yêu cầu phải nhỏ hơn hoặc bằng √8 · MaxLumaPS, nơi MaxLumaPS là hình ảnh kích thước tối đa luma như thể hiện trong Bảng V (để tránh các vấn đề cho bộ giải mã có thể được tham gia với hình ảnh cực). Có hai tầng hỗ trợ cho tám của các cấp độ (level 4 và cao hơn). Năng lực CPB bằng tối đa các lần tốc độ bit 1s cho tất cả các cấp, ngoại trừ mức độ 1, trong đó có một (cao hơn) năng lực của CPB 350000b. Các công suất tối đa DPB đặc hiệu trong mỗi cấp độ là sáu hình ảnh khi hoạt động ở các kích thước hình ảnh tối đa được hỗ trợ bởi các cấp (bao gồm cả hình ảnh hiện tại và tất cả các hình ảnh khác được giữ lại trong các bộ giải mã tại bất kỳ điểm nào trong thời gian cho mục đích tham khảo hoặc đầu ra). Khi hoạt động với một hình ảnh kích thước nhỏ hơn so với kích thước tối đa được hỗ trợ bởi trình độ, khả năng lưu trữ hình ảnh DPB có thể tăng đến bao nhiêu là 16 hình ảnh (tùy thuộc vào kích thước hình ảnh được lựa chọn đặc biệt). Level hạn chế cũng là cho số lượng tối đa gạch sử dụng theo chiều ngang và theo chiều dọc trong mỗi hình ảnh và số lượng tối đa gạch sử dụng mỗi giây. 36 VI. QUÁ TRÌNH TIÊU CHUẨN HÓA Sau khi ra H.264/MPEG-4 AVC vào giữa năm 2004, cả ITU-T VCEG và ISO/IEC MPEG đã cố gắng để xác định khi những tiến bộ quan trọng tiếp theo trong mã hóa sẽ trở nên sẵn sàng cho việc chuẩn hóa. VCEG bắt đầu nghiên cứu tiến bộ tiềm năng trong năm 2004, bắt đầu xác định một số lĩnh vực công nghệ chủ chốt (KTAs) để nghiên cứu vào đầu năm 2005, và phát triển một phần mềm phổ biến KTA .Công nghệ khác nhau được đề xuất và sử dụng các phần mềm codebase KTA, được phát triển từ các phần mềm tham khảo H.264/MPEG-4 AVC gọi là mô hình doanh (JM). Từ năm 2005 đến năm 2008, MPEG bắt đầu các hoạt động thăm dò về phía trọng yếu không thể mã hóa cải tiến tính hiệu cũng đã tổ chức một số hội thảo và ban hành một "cuộc gọi cho bằng chứng" tiến bộ như vậy vào tháng Tư năm 2009. Chuyên gia kiểm tra xem đã được tiến hành để đánh giá liệu đệ trình của phản ứng để cuộc gọi. Từ cuộc điều tra tương ứng của họ, họ đã đồng ý rằng có những công nghệ rừng đặc dụng với các tiềm năng để cải thiện mã hóa trong yếu đáng, so với các tiêu chuẩn mã hóa video hiện có. Các phần đội hợp tác trên Video mã hóa (JCT-VC) được dự kiến sẽ được thành lập bởi cả hai nhóm trong tháng 1 năm 2010, và một cuộc gọi chung cho các đề xuất (CFP) trên công nghệ nén video đã được phát 37 hành bởi cùng một thời gian để xác định ban đầu công nghệ mà sẽ phục vụ như là một cơ sở của hoạt động tiêu chuẩn hóa trong tương lai. Tại cuộc họp đầu tiên vào tháng Tư năm 2010, JCT-VC thành lập với tên dự án HEVC, nghiên cứu đề xuất trình để đáp ứng với CFP, và thiết lập các phiên bản gốc đầu tiên của một mô hình thử nghiệm được xem xét (DIR), được sản xuất chung từ các yếu tố của một số đề xuất đầy hứa hẹn. Một phần mềm tương ứng đã được thực hiện sau cuộc họp này. Các công nghệ trình trong một số trong những đóng góp quan trọng đề nghị trước đó đã được thảo luận trong một phần đặc biệt của IEEE GIAO DỊCH VỀ MẠCH VÀ HỆ THỐNG Video TECHNOLOGY . Mặc dù DIR cho thấy trong yếu không thể mã hóa cải tiến tính hiệu so với tiêu chuẩn trước, nó đã có một số công cụ mã hóa dư thừa trong mỗi khối chức năng của hệ thống nén video, chủ yếu là do thực tế rằng các DIR là một thiết kế tập từ các khoản đóng góp khác nhau. Trong cuộc họp JCT-VC thứ hai trong tháng 7 năm 2010, quá trình bắt đầu lựa chọn các thiết lập cần thiết tối thiểu của mã hóa các công cụ cho mỗi khối chức năng của triệt để thử nghiệm từng phần của DIR. Dựa trên báo cáo kết quả kiểm tra thành phần đầy đủ KẾT LUẬN Tiêu chuẩn HEVC mới nổi đã được phát triển và hợp tác tiêu chuẩn hóa bởi cả ITU-T VCEG và các tổ chức ISO/IEC MPEG. HEVC đại diện cho một số tiến bộ trong công nghệ video mã hóa. Thiết kế lớp mã hóa video của nó được dựa trên các khái niệm dựa trên khối lai video mã hóa thông thường, nhưng với một số khác biệt quan trọng so với các tiêu chuẩn trước khi sử dụng tốt với nhau, các tính năng của các thiết kế mới cung cấp khoảng một khoản tiết kiệm 50% tốc độ bit cho chất lượng nhận thức liên quan đến việc thực hiện các tiêu chuẩn trước đó (đặc biệt là đối với một đoạn video có độ phân giải cao). Để biết thêm chi tiết về hiệu suất nén. Tuy nhiên, các bộ giải mã phức tạp thực hiện HEVC tổng thể không phải là một gánh nặng lớn (ví dụ, so với H.264/MPEG-4 AVC) sử dụng công nghệ chế biến hiện đại, và mã hóa phức tạp cũng là quản lý được. 38 TÀI LIỆU THAM KHẢO [1] B. Bross, W.-J. Han, G. J. Sullivan, J.-R. Ohm, and T. Wiegand, High Efficiency Video Coding (HEVC) Text Specification Draft 9, document JCTVC-K1003, ITUT/ISO/IEC Joint Collaborative Team on Video Coding (JCT-VC), Oct. 2012. [2] Video Codec for Audiovisual Services at px64 kbit/s, ITU-T Rec. H.261, version 1: Nov. 1990, version 2: Mar. 1993. [3] Video Coding for Low Bit Rate Communication, ITU-T Rec. H.263, Nov. 1995 (and subsequent editions). [4] Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to About 1.5 Mbit/s—Part 2: Video, ISO/IEC 11172-2 (MPEG-1), ISO/IEC JTC 1, 1993. 39 [5] Coding of Audio-Visual Objects—Part 2: Visual, ISO/IEC 14496-2 (MPEG-4 Visual version 1), ISO/IEC JTC 1, Apr. 1999 (and subsequent editions). [6] Generic Coding of Moving Pictures and Associated Audio Information— Part 2: Video, ITU-T Rec. H.262 and ISO/IEC 13818-2 (MPEG 2 Video), ITU-T and ISO/IEC JTC 1, Nov. 1994. [7] Advanced Video Coding for Generic Audio-Visual Services, ITU-T Rec. H.264 and ISO/IEC 14496-10 (AVC), ITU-T and ISO/IEC JTC 1, May 2003 (and subsequent editions). [8] H. Samet, “The quadtree and related hierarchical data structures,” Comput. Survey, vol. 16, no. 2, pp. 187–260, Jun. 1984. [9] T. Wiegand, G. J. Sullivan, G. Bjøntegaard, and A. Luthra, “Overview of the H.264/AVC video coding standard,” IEEE Trans. Circuits Syst. Video Technol., vol. 13, no. 7, pp. 560–576, Jul. 2003. [10] S. Wenger, “H.264/AVC over IP,” IEEE Trans. Circuits Syst. Video Technol., vol. 13, no. 7, pp. 645–656, Jul. 2003. [11] T. Stockhammer, M. M. Hannuksela, and T. Wiegand, “H.264/AVC in wireless environments,” IEEE Trans. Circuits Syst. Video Technol., vol. 13, no. 7, pp. 657–673, Jul. 2003. [12] H. Schwarz, D. Marpe, and T. Wiegand, “Overview of the scalable video coding extension of the H.264/AVC standard,” IEEE Trans. Circuits Syst. Video Technol., vol. 17, no. 9, pp. 1103–1120, Sep. 2007. [13] D. Marpe, H. Schwarz, and T. Wiegand, “Context-adaptive binary arithmetic coding in the H.264/AVC video compression standard,” IEEE Trans. Circuits Syst. Video Technol., vol. 13, no. 7, pp. 620–636, Jul. 2003. [14] G. J. Sullivan, Meeting Report for 26th VCEG Meeting, ITU-T SG16/Q6 document VCEG-Z01, Apr. 2005. [15] Call for Evidence on High-Performance Video Coding (HVC), MPEG document N10553, ISO/IEC JTC 1/SC 29/WG 11, Apr. 2009. [16] Joint Call for Proposals on Video Compression Technology, ITU-T SG16/Q6 document VCEG-AM91 and ISO/IEC MPEG document N11113, ITU-T and ISO/IEC JTC 1, Jan. 2010. 40 [17] Test Model Under Consideration, ITU-T/ISO/IEC Joint Collaborative Team on Video Coding (JCT-VC) document JCTVC-A205, ITU-T and ISO/IEC JTC 1, Apr. 2010. 41 [...]... xử lý tải và bộ nhớ Giới hạn cấp độ được thiết lập về tốc độ tối đa mẫu, kích thước hình ảnh tối đa, tốc độ bit tối đa, tỷ lệ nén tối thiểu và năng lực của các DPB và đệm hình ảnh được mã hóa (CPB) chứa dữ liệu nén trước khi giải mã nó cho dữ liệu Trong thiết kế của HEVC, nó đã được xác định rằng một số ứng dụng tồn tại mà có yêu cầu mà chỉ khác nhau về tốc độ bit tối đa và khả năng CPB Để giải quyết... bài viết này, chúng tôi tập trung sự chú ý của chúng tôi về việc sử dụng điển hình: các thành phần YCbCr 4: 2: 0 mẫu và 8 b mỗi mẫu cho các đại diện của các đầu vào được mã hóa và giải mã tín hiệu video đầu ra Các hình ảnh video được thường dần dần lấy mẫu với hình chữ nhật kích thước W × H trong đó W là chiều rộng và H là chiều cao của hình ảnh về mẫu luma Mỗi mảng 13 thành phần chroma, với 4: 2: 0... dù trường hợp ngoại lệ được áp dụng khi kích thước tối thiểu nhất định được đạt cho chroma CTU chứa một cú pháp cho phép tách các NHTM đến một kích thước phù hợp được lựa chọn dựa trên các đặc tính tín hiệu của khu vực đó được bao phủ bởi các CTB Quá trình tách có thể được lặp cho đến khi kích thước cho một CB luma đạt đến một kích thước tối thiểu cho phép luma CB được chọn bởi bộ mã hóa bằng cách... đổi khối được tiếp tục xử lý bằng cách chuyển đổi mã hóa Các bộ mã hóa cho các TB luma tối đa và tối thiểu kích thước mà nó sẽ sử dụng Splitting là tiềm ẩn khi có kích thước CB là lớn hơn so với kích thước tối đa TB Không tách là tiềm ẩn khi chia sẽ cho kết quả trong một kích thước luma TB nhỏ hơn tối thiểu quy định Kích thước chroma TB là một nửa kích thước TB luma trong mỗi chiều, trừ khi kích thước... TSA hình ảnh) 11 Hình 2 Ví dụ về một cấu trúc thời gian dự đoán và các giá trị POC, để giải mã, và nội dung RPC cho mỗi bức ảnh 3.3 Thông số khác VPS đã được thêm vào như là siêu dữ liệu để mô tả các đặc tính tổng thể của chuỗi video được mã hóa, bao gồm cả phụ thuộc giữa các lớp con tạm thời Mục đích chính của việc này là để cho phép mở rộng tương thích của các tiêu chuẩn về hiệu tại tầng hệ thống, ví... chuẩn về hiệu tại tầng hệ thống, ví dụ như, khi lớp cơ bản của một tương lai mở rộng khả năng mở rộng bitstream hoặc MultiView sẽ cần phải được giải mã bởi một bộ giải mã di sản, nhưng mà thêm thông tin về cấu trúc bitstream mà chỉ liên quan đến các bộ giải mã tiên tiến sẽ được bỏ qua 3.4 Tham khảo Hình Sets và tham khảo Hình Lists Đối với quản lý hình ảnh nhiều tài liệu tham khảo, một tập hợp các hình... mẫu luma, như được sử dụng bởi tất cả của ITU-T và ISO / IEC JTC 1 chuẩn video mã hóa từ H.261 (mà đã được chuẩn hóa vào năm 1990), HEVC hỗ trợ kích thước CTBs lựa chọn theo nhu cầu của các bộ mã hóa về bộ nhớ và yêu cầu tính toán Sự hỗ trợ của CTBs lớn hơn so với tiêu chuẩn trước đó là đặc biệt khi mã hóa nội dung video độ phân giải cao Các CTB luma và CTBs hai sắc độ cùng với cú pháp liên quan tạo... là mạnh mẽ hơn để mất mát dữ liệu hơn trong việc thiết kế H.264 / MPEG-4 AVC trước và là thuận lợi hơn cho các hoạt động như truy cập ngẫu nhiên và chế độ hoạt động (ví dụ như, tua đi, tua lại nhanh, tìm kiếm, và chuyển đổi bitstream thích ứng) Một khía cạnh quan trọng của cải tiến này là cú pháp rõ ràng hơn, thay vì phụ thuộc vào suy luận từ các trạng thái nội bộ được lưu trữ trong quá trình giải... thước tối thiểu cho phép luma CB được chọn bởi bộ mã hóa bằng cách sử dụng cú pháp trong SPS và luôn luôn là 8 × 8 hoặc lớn hơn (trong đơn vị của mẫu luma) Các ranh giới của hình ảnh là theo đơn vị tối thiểu cho phép kích thước luma CB Kết quả là, ở các cạnh phải và phía dưới của bức tranh, một số CTUs có thể bao gồm các khu vực mà là một phần bên ngoài ranh giới của hình ảnh Tình trạng này được phát... sau Khi chế độ dự đoán được hiệu như inter, nó là số liệu luma và chroma NHTM được chia thành một, hai hoặc bốn PBs Việc chia tách thành bốn PBs chỉ được phép khi kích thước CB bằng với kích thước tối thiểu cho phép CB, sử dụng một loại hình tương đương của tách như nếu không có thể được thực hiện ở cấp CB của thiết kế chứ không phải ở cấp PB Khi một CB được chia thành bốn PBs, mỗi PB bao gồm một góc ...MỤC LỤC TỔNG QUAN VỀ MÃ HÓA VIDEO HIỆU SUẤT CAO H265 (HEVC-High Efficiency Video Coding) I GIỚI THIỆU Tóm tắt:Mã hóa video hiệu suất... luma đạt đến kích thước tối thiểu cho phép luma CB chọn mã hóa cách sử dụng cú pháp SPS luôn × lớn (trong đơn vị mẫu luma) Các ranh giới hình ảnh theo đơn vị tối thiểu cho phép kích thước luma... TB luma tối đa tối thiểu kích thước mà sử dụng Splitting tiềm ẩn có kích thước CB lớn so với kích thước tối đa TB Không tách tiềm ẩn chia cho kết kích thước luma TB nhỏ tối thiểu quy định Kích

Định dạng
Số trang	41
Dung lượng	0,92 MB