Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 41 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
41
Dung lượng
0,92 MB
Nội dung
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
KHOA:KỸ THUẬT ĐIỆN – ĐIỆN TỬ
Báo cáo: Công nghệ phát thanh truyền hình số
Đề tài: Tìm hiểu về H265
TÊN THÀNH VIÊN: NGUYỄN MINH HOÀNG
NGUYỄN ANH VĂN
TRẦN VĂN THỊNH
LỚP
: D11XLTH
HÀ NỘI, 2015
1
MỤC LỤC
TỔNG QUAN VỀ MÃ HÓA VIDEO HIỆU SUẤT CAO H265
(HEVC-High Efficiency Video Coding)
I GIỚI THIỆU
Tóm tắt:Mã hóa video hiệu suất cao (HEVC) hiện đang như mã hóa tiêu chuẩn mới
nhất của video ITU-T và ISO / IEC. Mục tiêu chính của các nỗ lực chuẩn HEVC là để
cho phép cải thiện hiệu suất nén tương đối so với các tiêu chuẩn trong phạm vi của việc
giảm tốc độ bit 50% cho chất lượng video bằng tri giác hiện tại. Bài viết này cung cấp
một cái nhìn tổng quan về các tính năng kỹ thuật và đặc điểm của các tiêu chuẩn HEVC.
HEVC tiêu chuẩn là dự án video chung gần đây nhất của ITU-T Video Coding
Experts Group (VCEG) và ISO / IEC Moving Picture Experts Group (MPEG) tổ chức
tiêu chuẩn hóa, làm việc với nhau trong một quan hệ đối tác, hợp tác chung về mã hóa
video (JCT-VC) [1]. Các phiên bản gốc đầu tiên của tiêu chuẩn HEVC được tung ra vào
tháng 1 năm 2013. Công việc bổ sung được quy hoạch để mở rộng các tiêu chuẩn để hỗ
trợ một số kịch bản ứng dụng bổ sung, bao gồm mở rộng phạm vi sử dụng chức năng và
hỗ trợ định dạng màu sắc, khả năng mã hóa video được mở rộng, và 3D / âm thanh.
Trong ISO / IEC, tiêu chuẩn HEVC sẽ trở thành MPEG-H phần 2
Tiêu chuẩn mã hóa video đã phát triển chủ yếu thông qua sự phát triển của các tiêu
chuẩn ITU-T và ISO / IEC nổi tiếng. ITU-T H.261 bản 2và H.263 bản 3, ISO / IEC bản 4
MPEG-1 4 và bản 5 MPEG-4 Visual và hai tổ chức hợp tác sản xuất các bản 6 và 7
H.262 / MPEG -2 Video và H.264 / MPEG-4 Advanced Video Coding (AVC) tiêu chuẩn.
Hai tiêu chuẩn được sản xuất cùng đã có một tác động đặc biệt mạnh mẽ và đã tìm thấy
con đường của họ vào một loạt các sản phẩm đang ngày càng phổ biến trong cuộc sống
hàng ngày của chúng tôi. Trong suốt quá trình tiến hóa này, những nỗ lực tiếp tục đã
được thực hiện để tối đa hóa khả năng nén và cải thiện các đặc tính khác như mất dữ liệu
mạnh mẽ, trong khi xem xét các tài nguyên tính toán mà là thực tế để sử dụng trong các
sản phẩm tại thời điểm triển khai dự đoán của mỗi tiêu chuẩn.
Các chính tiêu chuẩn mã hóa video trực tiếp trước các dự án HEVC H.264 / MPEG-4
AVC, ban đầu được phát triển trong thời gian giữa năm 1999 và 2003, và sau đó đã được
mở rộng trên nhiều năm 2003-2009. H.264 / MPEG-4 AVC đã là một công nghệ cho
phép video trong hầu hết mọi lĩnh vực mà trước đây không được bao phủ bởi H.262 /
MPEG-2 Video và đã di dời đáng kể các tiêu chuẩn cao niên trong lĩnh vực ứng dụng
hiện tại của nó.
2
Nó được sử dụng rộng rãi cho nhiều ứng dụng, bao gồm cả phát sóng (HD) tín hiệu
truyền hình qua vệ tinh, cáp, và các hệ thống truyền dẫn mặt đất, mua lại nội dung video
và chỉnh sửa hệ thống, máy quay phim, ứng dụng bảo mật, Internet và mạng lưới video,
và ứng dụng như chat video, hội nghị truyền hình, và các hệ thống telepresence. Tuy
nhiên, sự đa dạng ngày càng tăng của dịch vụ, sự phổ biến của HD video, và sự xuất hiện
của các định dạng HD (ví dụ, độ phân giải 4k x 2k hoặc 8k x 4k) đang tạo ra nhu cầu
mạnh mẽ hơn để mã hóa vượt trội so với H.264 /MPEG-4 AVC. Sự cần thiết thậm chí
còn mạnh mẽ hơn khi độ phân giải cao được đi kèm với âm thanh stereo hoặc chụp
MultiView và hiển thị. Hơn nữa, các ứng dụng video nhắm mục tiêu các thiết bị di động
và máy tính bảng, cũng như việc truyền tải cần cho dịch vụ video theo yêu cầu, được áp
đặt những thách thức nghiêm trọng trên mạng ngày nay. Một mong muốn tăng cho chất
lượng cao hơn và độ phân giải cũng được phát sinh trong các ứng dụng điện thoại di
động.
HEVC đã được thiết kế để giải quyết về cơ bản tất cả các ứng dụng hiện có của
H.264 / MPEG-4 AVC và đặc biệt tập trung vào hai vấn đề chính: tăng độ phân giải
video và tăng cường sử dụng kiến trúc xử lý song song. Cú pháp của HEVC là chung
chung và cũng thường thích hợp cho các ứng dụng khác.
Như các trường hợp cho tất cả video mã hóa của ITU-T và ISO / IEC, trong HEVC
chỉ là cấu trúc bitstream và cú pháp được chuẩn hóa, cũng như những hạn chế về
bitstream và lập bản đồ của nó cho các thế hệ của các hình ảnh được giải mã. Các ánh xạ
được cho bởi ý nghĩa của các yếu tố cú pháp và quá trình giải mã như vậy mà mỗi bộ giải
mã phù hợp với các tiêu chuẩn sẽ cho kết quả tương tự khi đưa ra một bitstream mà phù
hợp với những hạn chế của tiêu chuẩn. Sự hạn chế này trong phạm vi của tiêu chuẩn cho
phép tự do tối đa để tối ưu hóa việc triển khai một cách thích hợp để ứng dụng (cân bằng
chất lượng nén, chi phí thực hiện, thời gian để thị trường, và cân nhắc khác). Tuy nhiên,
nó không cung cấp bảo hành chất lượng, vì nó cho phép ngay cả kỹ thuật mã hóa thô
được xem xét phù hợp.
Để hỗ trợ các ngành công nghiệp cộng đồng trong việc học cách sử dụng các tiêu
chuẩn, các nỗ lực tiêu chuẩn hóa không chỉ bao gồm sự phát triển của một văn bản tài
liệu đặc hiệu nhưng cũng tham khảo các phần mềm mã nguồn như là một ví dụ về cách
HEVC video có thể được mã hóa và giải mã. Các phần mềm dự thảo tài liệu tham khảo
đã được sử dụng như một công cụ nghiên cứu cho công việc nội bộ của ủy ban trong việc
thiết kế các tiêu chuẩn, và cũng có thể được sử dụng như một công cụ nghiên cứu nói
chung và là cơ sở của sản phẩm. Một tiêu chuẩn bộ dữ liệu thử nghiệm cũng đang được
phát triển để kiểm tra sự phù hợp với các tiêu chuẩn.
3
II. HEVC -MÃ HÓA THIẾT KẾ VÀ TÍNH NĂNG NỔI BẬT
Tiêu chuẩn HEVC được thiết kế để đạt được nhiều mục tiêu, bao gồm cả mã hóa hệ
thống giao, lồng ghép khả năng phục hồi dữ liệu bị mất, cũng như sử dụng kiến trúc xử lý
song song. Các phần dưới đây sẽ mô tả các yếu tố quan trọng của thiết kế mà các mục
tiêu đạt được, và các hoạt động mã hóa điển hình mà sẽ tạo ra một bitstream hợp lệ.
2.1. Tầng mã hóa video
Lớp mã hóa video HEVCcùng phương pháp (dự đoán 2 bức tranh và 2D chuyển đổi
mã hóa) được sử dụng trong tất cả các tiêu chuẩn nén video từ H.261. Hình 1 mô tả sơ đồ
khối của một bộ mã hóa video lai, mà có thể tạo ra một bitstream phù hợp với các tiêu
chuẩn HEVC.
Một thuật toán mã hóa xuất một bitstream phù hợp,HEVC thường sẽ tiến hành như
sau:
Mỗi bức ảnh được chia thành nhiều vùng khối hình, với khối chính xác được truyền
đạt đến các bộ giải mã. Những hình ảnh đầu tiên của một chuỗi video (và hình ảnh đầu
tiên kinh ở mỗi điểm truy cập ngẫu nhiên vào một chuỗi video) được mã hóa bằng cách
sử dụng dự đoán hình ảnh (có sử dụng một số dự đoán của dữ liệu không gian đến khu
vực trong hình ảnh đó, nhưng không có sự phụ thuộc vào các hình ảnh khác). Đối với tất
cả các hình ảnh còn lại của một chuỗi hoặc giữa các điểm truy cập ngẫu nhiên, chế độ mã
hóa dự báo tạm thời interpicture được sử dụng cho hầu hết các khối. Quá trình mã hóa để
dự đoán interpicture bao gồm việc lựa chọn dữ liệu chuyển động các hình ảnh tham khảo
và chuyển động vectơ được chọn (MV) áp dụng để dự đoán các mẫu của mỗi khối. Các
bộ mã hóa và giải mã tín hiệu tạo ra giống hệt nhau dự đoán interpicture bằng cách áp
dụng đền bù chuyển động (MC) sử dụng các MV và quyết định chế độ dữ liệu, được
truyền như là thông tin phụ.
Các tín hiệu còn lại của dự đoán hình ảnh nội hay inter, đó là sự khác biệt giữa các
khối ban đầu và chọn từ trước của nó, được biến đổi bởi một tuyến liên kết không gian
chuyển đổi. Các hình thức xuyên được các quy mô, lượng tử hóa, entropy mã hóa, và
được truyền cùng với các thông tin dự đoán.
4
Các bộ mã hóa các bản sao các vòng lặp xử lý giải mã (xem hộp màu xám bóng mờ
trong hình. 1) như vậy mà cả hai sẽ tạo ra những dự đoán giống hệt nhau cho dữ liệu tiếp
theo. Vì vậy, các lượng tử chuyển đổi được xây dựng bằng rộng nghịch đảo và sau đó
được chuyển đổi ngược để lặp lại trong các xấp xỉ giải mã các tín hiệu còn lại. Việc còn
lại sau đó được bổ sung vào dự đoán, và kết quả của việc bổ sung mà sau đó có thể được
đưa vào một hoặc hai hiện vật gây ra bởi khối xử lý khôn ngoan và lượng tử hóa. Các đại
diện hình ảnh (đó là một bản sao của các đầu ra của bộ giải mã) được lưu trữ trong một
bộ đệm hình ảnh giải mã được sử dụng cho những dự đoán của hình ảnh tiếp theo. Nói
chung, thứ tự của mã hóa hoặc giải mã xử lý hình ảnh thường khác với thứ tự mà họ đến
từ các nguồn; cần thiết phải có một sự phân biệt giữa thứ tự giải mã (bitstream) và thứ tự
xuất (ví dụ, để hiển thị) cho một bộ giải mã.
HEVC dự kiến sẽ được đầu vào như hình ảnh quét liên tục (hoặc là do các nguồn
video có nguồn gốc ở định dạng đó hoặc do Deinterlacing trước khi mã hóa). Không có
tính năng mã hóa rõ ràng là hiện nay trong thiết kế HEVC để hỗ trợ việc sử dụng các
chức năng quét xen kẽ, như quét xen kẽ không còn được sử dụng để hiển thị và đang trở
thành đáng kể ít phổ biến để phân phối. Tuy nhiên, một cú pháp siêu dữ liệu đã được
cung cấp trong HEVC để cho phép một bộ mã hóa để chỉ ra rằng video quét đã được gửi
đi bằng cách mã hóa từng vùng(tức là, các dòng chẵn hoặc số lẻ của mỗi khung hình
video) của video như một bức tranh riêng biệt hoặc rằng nó đã được gửi đi bằng cách mã
hóa từng khung hình như một bức tranh HEVC mã. Điều này cung cấp một phương pháp
của mã hóa video mà không có gánh nặng giải mã với một nhu cầu để hỗ trợ quá trình
giải mã đặc biệt cho nó.
5
Hình 1. Điển hình bộ mã hóa video HEVC
Trong phần tiếp theo, các tính năng khác nhau tham gia vào video hybrid sử dụng mã
hóa HEVC được nhấn mạnh như sau.
1) Mã hóa các đơn vị cây và cấu trúc mã hóa khối cây (CTB): Cốt lõi của lớp mã hóa
trong các tiêu chuẩn trước đó là các khối mẫu, chứa 16 × 16 khối lumavà trong trường
hợp bình thường là 4: 2: 0 lấy mẫu màu, hai tương ứng với 8 × 8 khối của mẫu chroma;
trong khi đó các cấu trúc tương tự trong HEVC là đơn vị cây mã hóa (CTU), trong đó có
một kích thước lựa chọn bởi các bộ mã hóa và có thể lớn hơn một macroblock truyền
thống. Các CPU bao gồm một CTB luma và chroma CTBs và các yếu tố cú pháp tương
ứng. Kích thước L × L của một luma CTB thể được chọn là L = 16, 32, hoặc 64 mẫu, với
các kích thước lớn hơn thường cho phép nén tốt hơn. HEVC sau đó hỗ trợ một phân vùng
của CTBs thành các khối nhỏ hơn sử dụng một cấu trúc cây và giống như tín hiệu [8]
2) Đơn vị mã hóa (CUS) và khối mã hóa (NHTM): Cú pháp quadtree của CTU kích
thước và vị trí của luma và sắc độ của NHTM. Do đó, kích thước của các luma CTB là
kích thước được hỗ trợ lớn nhất cho một CB luma. Việc chia tách của một CTU vào luma
và chroma NHTM là báo hiệu cùng. Một CB luma và thường hai chroma NHTM, cùng
với cú pháp kết hợp, tạo thành một đơn vị mã hóa (CU). Một CTB có thể chỉ chứa một
CU hoặc có thể được tách ra để hình thành nhiều CUS, và mỗi CU có một phân vùng
thành các đơn vị liên quan dự báo và một cây chuyển các đơn vị (TUS).
3) đơn vị dự báo và dự báo khối (PBs): Các dữ liệu để mã một khu vực hình ảnh sử
dụng interpicture hoặc dự đoán hình ảnh liên được thực hiện ở cấp CU. Tùy thuộc về
quyết định dự đoán loại cơ bản, các luma và chroma NHTM sau đó có thể được phân
chia thêm kích thước và dự đoán từ khối luma và chroma dự đoán (PBs). HEVC hỗ trợ
kích thước PB biến từ 64 × 64 xuống 4 × 4 mẫu.
4) TUS và chuyển khối: Các dư dự đoán được mã hóa bằng khối biến đổi. Một cơ cấu
cây TU có gốc rễ của nó ở cấp CU. Các luma CB còn lại có thể giống với các luma
chuyển khối (TB) hoặc có thể được phân chia thêm vào TBS luma nhỏ. Điều tương tự
cũng áp dụng cho các TBS chroma.DCT là cho TB vuông kích thước 4 × 4, 8 × 8, 16 ×
16, và 32 × 32. Đối với 4 × 4 biến đổi của lima liên dư đoán hình ảnh, một số nguyên
biến đổi xuất phát từ một hình thức sin rời rạc DST.
5) Tín hiệu vectơ Motion: nâng cao dự báo vector chuyển động (AMP) được sử dụng,
bao gồm cả nguồn gốc của nhiều ứng cử viên có khả năng nhất dựa trên dữ liệu từ liền
kề PBs và hình ảnh tham khảo. Một chế độ nối cho MV mã hóa cũng có thể được sử
dụng, cho phép người thừa kế của MV từ tạm thời hoặc không gian lân cận PBs. Hơn
nữa, so với H.264 / MPEG-4 AVC, cải thiện và trực tiếp bỏ qua suy luận chuyển động.
6
6) Bồi thường Motion: Tứ mẫu chính xác được sử dụng cho các MV được sử dụng
cho nội suy vị trí phân đoạn mẫu (so với vị trí nửa mẫu tiếp theo là nội tuyến tính cho vị
trí tứ mẫu trong H.264 / MPEG-4 AVC). Tương tự như H.264 / MPEG-4 AVC, nhiều
hình ảnh tham khảo được sử dụng. Đối với mỗi PB, một hoặc hai vectơ chuyển động có
thể được truyền đi, hay bi mã hóa tiên đoán, tương ứng. Như trong H.264 / MPEG-4
AVC, nhân rộng và bù đắp hoạt động có thể được áp dụng cho các tín hiệu dự báo một
cách gọi như dự đoán quan trọng.
7) Ảnh dự đoán: Các mẫu ranh giới được giải mã của các khối liền kề được sử dụng
làm dữ liệu tham khảo cho dự đoán tại khu vực có dự đoán interpicture không được thực
hiện. Liên Ảnh dự đoán hỗ trợ 33 chế độ (so với tám chế độ như H.264 / MPEG-4 AVC),
cộng với mặt phẳng (bề mặt ) và DC chế độ dự đoán. Các chế độ dự đoán intrapicture
được chọn sẽ được mã hóa bằng cách bắt nguồn chế độ xác suất lớn nhất (ví dụ, hướng
dự đoán) dựa trên những giải mã trước đây PBs.
8) Kiểm soát Quantization: Như trong H.264 / MPEG-4 AVC, hình thức tái lượng tử
(IRQ) được sử dụng trong HEVC, với lượng tử ma trận rộng hỗ trợ cho các loại chuyển
đổi kích thước khối.
9) Entropy mã hóa: Bối cảnh thích ứng số học nhị phân (CABAC) được sử dụng để
mã hóa dữ liệu ngẫu nhiên. Điều này cũng tương tự như các chương trình CABAC trong
H.264 / MPEG-4 AVC, nhưng đã trải qua một số cải tiến để cải thiện tốc độ thông lượng
của nó (đặc biệt là cho các kiến trúc xử lý song song) và hiệu suất nén của nó, và để
giảm yêu cầu bộ nhớ ngữ cảnh của nó.
2.2 Kiến trúc cao cấp
Một số khía cạnh thiết kế mới với các tiêu chuẩn HEVC cải thiện cho hoạt động trên
một loạt các ứng dụng và các môi trường mạng và cải thiện mạnh mẽ đến mất mát dữ
liệu. Tuy nhiên, các kiến trúc cú pháp cao cấp được sử dụng trong các tiêu chuẩn AVC
H.264 / MPEG-4 đã thường được giữ lại, bao gồm các tính năng sau đây:
1) Thông số cấu trúc bộ: bộ thông số chứa thông tin mà có thể được chia sẻ cho các
giải mã nhiều vùng của video được giải mã. Các tham số cấu trúc bộ cung cấp một cơ
chế mạnh mẽ cho việc truyền dữ liệu cần thiết cho quá trình giải mã. Các khái niệm về
trình tự và thông số hình ảnh từ bộ H.264 / MPEG-4 AVC được tăng cường bởi một tham
số video mới tập (VPS) cấu trúc.
2) Cấu trúc cú pháp đơn vị NAL: Mỗi cấu trúc cú pháp được đặt vào một gói dữ liệu
logic được gọi là một lớp mạng trừu tượng (NAL) đơn vị. Sử dụng các nội dung của một
byte đơn vị NAL tiêu đề hai, nó có thể dễ dàng xác định mục đích của các dữ liệu tải
trọng liên quan.
7
3) Slices: Một cấu trúc dữ liệu có thể được giải mã một cách độc lập từ slice khác của
hình ảnh đó, trong điều khoản của entropy mã hóa, dự báo tín hiệu, và xây dựng lại tín
hiệu còn lại. Một lát, hoặc có thể là một hình ảnh toàn bộ hoặc một khu vực của một bức
tranh. Một trong những mục đích chính của lát là trong trường hợp mất mát dữ liệu.
Trong trường hợp truyền số lượng tối đa của các bit tải trọng trong một lát thường bị
hạn chế, và số lượng của CPU trong slice thường được thay đổi để giảm thiểu các chi
phí đóng gói thoại trong khi vẫn giữ kích thước của mỗi gói tin trong này bị ràng buộc.
4) Thông tin tăng cường bổ sung (SEI) và video khả năng sử dụng siêu dữ liệu (VUI):
Cú pháp bao gồm hỗ trợ cho nhiều loại siêu dữ liệu được gọi là SEI và VUI. Những dữ
liệu này cung cấp thông tin về thời gian của các hình ảnh video, việc giải thích đúng đắn
của các không gian màu được sử dụng trong các tín hiệu video, 3D stereoscopic khung
đóng gói thông tin, hiển thị gợi ý cấp thông tin khác, và như vậy.
2.3. Giải mã cú pháp và Cơ cấu cú pháp
Cuối cùng, bốn tính năng mới được giới thiệu trong các chuẩn HEVC ,để nâng cao
khả năng xử lý song song hoặc sửa đổi các cấu trúc dữ liệu lát cho mục đích đóng gói
thoại. Mỗi người có thể có các lợi ích trong bối cảnh ứng dụng cụ thể và nó thường lên
cho người thực hiện một bộ mã hóa hoặc giải mã để xác định xem liệu và làm thế nào để
tận dụng lợi thế của các tính năng này.
1) Gạch: Các tùy chọn để phân chia một bức ảnh thành các vùng hình chữ nhật được
gọi là gạch có được. Các tư thế chính của gạch là để tăng cường khả năng xử lý song
song chứ không phải là cung cấp khả năng phục hồi lỗi. Tiles là độc lập vùng giải mã
của một hình ảnh được mã hóa với một số thông tin tiêu đề chia sẻ. Gạch bổ sung có thể
được sử dụng cho các mục đích không gian truy cập ngẫu nhiên cho các khu vực địa
phương của hình ảnh video. Một điển hình con của một bức tranh gồm phân chia các
hình ảnh thành các vùng hình chữ nhật với các con số xấp xỉ bằng CPU của mỗi gạch.
Gạch cung cấp song song ở mức độ thô hơn của granularity (hình ảnh / subpicture), và
không đồng bộ phức tạp của chủ đề là cần thiết cho việc sử dụng chúng.
2) Đầu sóng xử lý song song: Khi xử lý song song đầu sóng được kích hoạt(WPP),
một lát được chia thành các hàng. Hàng đầu tiên kinh được xử lý một cách bình thường,
hàng ghế thứ hai có thể bắt đầu được xử lý sau khi chỉ có hai CPU đã được xử lý ở hàng
đầu tiên kinh, hàng ghế thứ ba có thể bắt đầu được xử lý sau khi chỉ có hai CTUs đã
được xử lý ở hàng thứ hai và như vậy các mô hình bối cảnh của các coder entropy trong
mỗi hàng được suy ra từ những người ở hàng trước với độ trễ xử lý hai-CTU. WPP cung
cấp một hình thức xử lý song song ở mức một lát. WPP thường có thể cung cấp hiệu suất
tốt hơn so với gạch nén (và tránh được một số hiện vật trực quan mà có thể được gây ra
bằng cách sử dụng gạch).
8
3) Phân đoạn lát phụ thuộc: Một cấu trúc được gọi là một phân đoạn lát phụ thuộc
cho phép dữ liệu liên kết với một điểm vào đầu sóng đặc biệt hoặc ngói vào được thực
hiện trong một đơn vị NAL riêng biệt, và do đó có khả năng làm cho những dữ liệu có
sẵn cho một hệ thống cho năng đóng gói phân mảnh với độ trễ thấp hơn nếu nó là tất cả
các mã trong cùng một lát. Một đoạn lát phụ thuộc cho một điểm vào đầu sóng chỉ có thể
được giải mã sau khi ít nhất một phần của quá trình giải mã một đoạn lát đã được thực
hiện. Phân đoạn lát phụ thuộc chủ yếu là hữu ích trong việc mã hóa độ trễ thấp, nơi mà
các công cụ khác song song có thể trừng phạt hiệu suất nén.
Trong hai phần sau đây,mô tả chi tiết hơn về các tính năng chính được đưa ra.
III. CÚ PHÁP CAO CẤP
Các cú pháp cao cấp của HEVC chứa nhiều yếu tố đã được thừa hưởng từ NAL của
H.264 / MPEG-4 AVC. Các NAL cung cấp khả năng bản đồ các lớp video mã hóa (VCL)
dữ liệu mà đại diện cho nội dung của hình ảnh lên lớp vận chuyển khác nhau, bao gồm
RTP / IP, ISO MP4, và H.222.0 / MPEG-2 Systems, và cung cấp một khuôn khổ cho khả
năng phục hồi mất gói tin. Đối với các khái niệm chung của các thiết kế NAL như các
đơn vị NAL, bộ tham số, đơn vị truy cập, định dạng dòng byte, và định dạng.
Đơn vị NAL được phân loại vào VCL và không VCL NAL đơn vị theo liệu chúng có
chứa hình ảnh hoặc dữ liệu được mã hóa có liên quan khác, tương ứng. Trong các tiêu
chuẩn HEVC, một số loại đơn vị NAL VCL xác định các loại hình ảnh cho mục đích
khởi tạo bộ giải mã và truy cập ngẫu nhiên được bao gồm. Bảng I liệt kê các loại NAL
đơn vị và ý nghĩa liên quan của họ và các lớp học kiểu trong tiêu chuẩn HEVC. Các phần
dưới đây sẽ trình bày một mô tả các tính năng mới được hỗ trợ bởi các cú pháp cao cấp.
3.1. Truy cập ngẫu nhiên và Bitstream nối
Các đặc điểm thiết kế mới hỗ trợ tính năng đặc biệt cho phép truy cập ngẫu nhiên và
nối bitstream. Trong H.264 / MPEG-4 AVC, một bitstream luôn phải bắt đầu với một
đơn vị truy cập IDR. Một đơn vị truy cập IDR chứa một cách độc lập mã một hình ảnh
được giải mã mà không giải mã bất kỳ hình ảnh trước đó trong các đơn vị NAL dòng. Sự
hiện diện của một đơn vị truy cập IDR chỉ ra rằng không có hình ảnh tiếp theo trong
bitstream sẽ yêu cầu tham chiếu đến hình ảnh trước khi hình ảnh mà nó chứa để được giải
mã. Những hình ảnh IDR được sử dụng trong một cấu trúc mã hóa được biết đến như một
GOP khép kín (trong đó đảng Cộng hòa đại diện cho nhóm các hình ảnh).
Các truy cập ngẫu nhiên (CRA) hình cú pháp chỉ tường việc sử dụng một hình ảnh
được mã hóa một cách độc lập ở vị trí của một điểm truy cập ngẫu nhiên (RAP), tức là,
một vị trí trong một bitstream mà tại đó một bộ giải mã có thể bắt đầu giải mã thành công
hình ảnh mà không cần để giải mã bất kỳ hình ảnh đã xuất hiện trước đó trong bitstream,
9
mà hỗ trợ để mã hóa thời gian ef được gọi là hoạt động mở GOP. Hỗ trợ tốt các truy cập
ngẫu nhiên là rất quan trọng cho phép chuyển mạch kênh, tìm kiếm các hoạt động hợp,
và các dịch vụ truyền động. Một số hình ảnh một bức tranh CRA để giải mã và đứng
trước nó để hiển thị có thể có những tham chiếu dự đoán interpicture đến hình ảnh mà
không có sẵn tại các bộ giải mã ,do đó phải được loại bỏ bởi một bộ giải mã bắt đầu quá
trình giải mã của nó tại một điểm CRA.
Các vị trí của các điểm mối nối từ bitstreams khác nhau mã ban đầu có thể được chỉ ra
bằng cách truy cập liên kết bị phá vỡ (BLA) hình ảnh. Một hoạt động bitstream nối có thể
được thực hiện bằng cách thay đổi các đơn vị loại hình CRA NAL trong một bitstream để
các giá trị mà chỉ là một hình ảnh BLA và cách nối các bitstream mới ở vị trí của một bức
tranh RAP trong bitstream khác. Một bức tranh RAP có thể là một hình ảnh IDR, CRA,
hoặc BLA, và cả hai CRA và BLA hình ảnh có thể được theo sau bởi hình ảnh RASL
trong bitstream (tùy thuộc vào giá trị cụ thể của các đơn vị NAL loại sử dụng cho một
bức tranh BLA). Bất kỳ hình ảnh RASL liên kết với một hình ảnh BLA luôn phải được
loại bỏ bởi bộ giải mã, vì chúng có thể chứa các tham chiếu đến hình ảnh mà không phải
là thực sự hiện diện trong bitstream do một hoạt động nối. Các loại khác của bức tranh đó
có thể làm theo một bức tranh RAP để giải mã và đứng trước nó để đầu ra là giải mã truy
cập ngẫu nhiên hàng đầu (Radl) hình ảnh, mà không thể có những tham chiếu đến bất kỳ
hình ảnh mà trước hình ảnh RAP để giải mã. RASL và Radl hình ảnh được gọi chung là
hình ảnh hàng đầu (LP). Hình ảnh đó làm theo một bức tranh RAP trong cả để giải mã và
đầu ra thứ tự, mà được biết đến như là hình ảnh dấu.
Bảng 1
10
3.2. Hỗ trợ Phân tán:
Tương tự như các tính năng khả năng mở rộng thời gian trong H.264 / MPEG-4 AVC
video khả năng mở rộng mã hóa (SVC) mở rộng thời gian trong các đơn vị tiêu đề NAL,
mà chỉ ra một mức độ trong một cấu trúc dự đoán thời gian theo cấp bậc. Điều này đã
được giới thiệu để đạt được khả năng mở rộng theo thời gian mà không cần phải phân
tích các bộ phận của bitstream khác với đơn vị NAL tiêu đề.
Trong những trường hợp nhất định, số lượng các lớp con thời gian giải mã có thể
được điều chỉnh trong quá trình giải mã của một chuỗi video được mã hóa. Các vị trí của
một điểm trong bitstream mà chuyển mạch lớp con có thể bắt đầu giải mã một số lớp thời
gian cao hơn có thể được chỉ định bởi sự hiện diện của lớp con truy cập thời gian (TSA)
hình ảnh và bước tiến khôn ngoan TSA (STSA) hình ảnh. Ở vị trí của một bức tranh
TSA, nó có thể chuyển đổi từ một lớp con giải mã thời gian thấp hơn để giải mã bất kỳ
lớp con thời gian cao hơn, và ở vị trí của một bức tranh STSA, nó có thể chuyển đổi từ
một lớp con giải mã thời gian thấp hơn để giải mã chỉ có một Đặc biệt, lớp con thời gian
cao hơn (nhưng không phải là lớp tiếp tục ở trên đó, trừ khi họ cũng chứa STSA hoặc
TSA hình ảnh).
11
Hình 2. Ví dụ về một cấu trúc thời gian dự đoán và các giá trị POC, để giải mã,
và nội dung RPC cho mỗi bức ảnh.
3.3. Thông số khác
VPS đã được thêm vào như là siêu dữ liệu để mô tả các đặc tính tổng thể của chuỗi
video được mã hóa, bao gồm cả phụ thuộc giữa các lớp con tạm thời. Mục đích chính của
việc này là để cho phép mở rộng tương thích của các tiêu chuẩn về hiệu tại tầng hệ thống,
ví dụ như, khi lớp cơ bản của một tương lai mở rộng khả năng mở rộng bitstream hoặc
MultiView sẽ cần phải được giải mã bởi một bộ giải mã di sản, nhưng mà thêm thông tin
về cấu trúc bitstream mà chỉ liên quan đến các bộ giải mã tiên tiến sẽ được bỏ qua.
3.4. Tham khảo Hình Sets và tham khảo Hình Lists
Đối với quản lý hình ảnh nhiều tài liệu tham khảo, một tập hợp các hình ảnh trước đó
được giải mã cần phải có mặt trong triển mã đệm hình ảnh (DPB) cho việc giải mã của
phần còn lại của hình ảnh trong bitstream. Để xác định những hình ảnh này, một danh
sách các số thứ tự hình ảnh (POC) được truyền đi trong mỗi tiêu đề slice. Tập hợp các
hình ảnh tham khảo giữ lại được gọi là hình ảnh tham khảo thiết (RPS). Vả. 2 cho thấy
giá trị POC, giải mã trình tự, và Ross cho một ví dụ cấu trúc dự đoán thời gian.
Như trong H.264 / MPEG-4 AVC, có hai danh sách được xây dựng như là danh sách
các hình ảnh trong DPB, và chúng được gọi là
Danh mục tài liệu tham khảo hình ảnh và danh sách 0 ,1. Một chỉ số được gọi là một
chỉ số hình ảnh tham chiếu được sử dụng để xác định một hình ảnh đặc biệt trong một
12
trong những danh sách này. Một hình ảnh có thể được lựa chọn từ một trong những danh
sách này. Hai hình ảnh được lựa chọn-một từ mỗi danh sách. Khi một danh sách chứa chỉ
có một hình ảnh, các chỉ số hình ảnh tham khảo ngầm có giá trị 0 và không cần phải được
truyền trong bitstream. Các cú pháp cao cấp cho việc xác định RPS ,danh sách hình ảnh
tham khảo cho dự đoán interpicture là mạnh mẽ hơn để mất mát dữ liệu hơn trong việc
thiết kế H.264 / MPEG-4 AVC trước và là thuận lợi hơn cho các hoạt động như truy cập
ngẫu nhiên và chế độ hoạt động (ví dụ như, tua đi, tua lại nhanh, tìm kiếm, và chuyển đổi
bitstream thích ứng). Một khía cạnh quan trọng của cải tiến này là cú pháp rõ ràng hơn,
thay vì phụ thuộc vào suy luận từ các trạng thái nội bộ được lưu trữ trong quá trình giải
mã vì nó giải mã hình ảnh bitstream bằng hình ảnh. Hơn nữa, cú pháp có liên quan cho
các khía cạnh của thiết kế thực sự là đơn giản hơn nó đã được cho H.264 / MPEG-4
AVC.
IV. HEVC-KỸ THUẬT MÃ HÓA VIDEO
Các thuật toán mã hóa nguồn cơ bản là một lai của dự đoán interpicture khai thác ,
thống kê về thời gian, dự đoán intrapicture để khai thác sự phụ thuộc thống kê không
gian, và chuyển đổi mã hóa của các dự đoán tín hiệu còn lại để tiếp tục khai thác những
phụ thuộc thống kê không gian. Không có yếu tố mã hóa duy nhất trong thiết kế HEVC
cung cấp phần lớn các cải tiến không thể trong yếu của nó trong BẢN nén liên quan đến
các tiêu chuẩn mã hóa video trước. Đó là, thay vào đó, đa số những cải tiến nhỏ mà thêm
đến sự tăng trọng yếu.
4.1. Lấy mẫu đại diện của hình ảnh
Đối với các tín hiệu video màu, HEVC thường sử dụng một không gian màu YCbCr
tristimulus với 4: 2: 0 mẫu (mặc dù phần mở rộng sang các định dạng mẫu khác là đơn
giản, và được quy hoạch trong một phiên bản tiếp theo). Điều này phân biệt một màu đại
diện thành ba thành phần được gọi là Y, Cb, Cr. Các thành phần Y cũng được gọi là
luma, và đại diện cho độ sáng. Hai thành phần chroma Cb và Cr đại diện cho mức độ mà
các màu từ xám lệch về phía màu xanh và màu đỏ tương ứng. Bởi vì hệ thống thị giác của
con người là nhạy cảm hơn với luma hơn chroma, 4: 2: 0 cấu trúc lấy mẫu thường được
sử dụng, trong đó mỗi thành phần chroma có một phần tư số lượng mẫu của các thành
phần luma (một nửa số lượng mẫu trong cả chiều ngang và chiều dọc). Mỗi mẫu cho mỗi
thành phần thường được đại diện với 8 hoặc 10 b chính xác, và những trường hợp 8-b là
một trong những điển hình hơn. Trong phần còn lại của bài viết này, chúng tôi tập trung
sự chú ý của chúng tôi về việc sử dụng điển hình: các thành phần YCbCr 4: 2: 0 mẫu và 8
b mỗi mẫu cho các đại diện của các đầu vào được mã hóa và giải mã tín hiệu video đầu
ra. Các hình ảnh video được thường dần dần lấy mẫu với hình chữ nhật kích thước
W × H trong đó W là chiều rộng và H là chiều cao của hình ảnh về mẫu luma. Mỗi mảng
13
thành phần chroma, với 4: 2: 0 lấy mẫu, sau đó là W / 2 × H / 2. Cho một tín hiệu video
như vậy, cú pháp HEVC ngăn bằng những hình ảnh tiếp theo mô tả sau.
4.2. Bộ phận của hình ảnh vào đơn vị mã hóa
Một hình ảnh được phân chia thành các đơn vị mã hóa cây (CTUs), mà mỗi chứa
CTBs luma và chroma CTBs. Một luma CTB bao gồm một khu vực hình chữ nhật hình
ảnh của L × L của các thành phần luma và các sắc độ tương ứng CTBs bọc lẫn L/2 × L/2
mẫu của mỗi của hai thành phần chroma. Giá trị của L có thể bằng 16, 32, hoặc 64 như
được xác định bởi một yếu tố cú pháp đặc hiệu mã hóa trong các SPS. So với các khối
mẫu truyền thống sử dụng một mảng kích thước cố định fi 16 × 16 mẫu luma, như được
sử dụng bởi tất cả của ITU-T và ISO / IEC JTC 1 chuẩn video mã hóa từ H.261 (mà đã
được chuẩn hóa vào năm 1990), HEVC hỗ trợ kích thước CTBs lựa chọn theo nhu cầu
của các bộ mã hóa về bộ nhớ và yêu cầu tính toán. Sự hỗ trợ của CTBs lớn hơn so với
tiêu chuẩn trước đó là đặc biệt khi mã hóa nội dung video độ phân giải cao. Các CTB
luma và CTBs hai sắc độ cùng với cú pháp liên quan tạo thành một CTU. CTU là đơn vị
chế biến cơ bản được sử dụng trong các tiêu chuẩn để xác định quá trình giải mã.
4.3. Bộ phận của CTB vào NHTM
Các khối luma và chroma CTBs có thể được sử dụng trực tiếp như các CB hoặc có thể
được tiếp tục phân chia thành nhiều NHTM. Phân vùng là đạt được bằng cách sử dụng
các cấu trúc cây. Các phân vùng cây trong HEVC thường được áp dụng đồng thời với cả
luma và sắc độ, mặc dù trường hợp ngoại lệ được áp dụng khi kích thước tối thiểu nhất
định được đạt cho chroma. CTU chứa một cú pháp cho phép tách các NHTM đến một
kích thước phù hợp được lựa chọn dựa trên các đặc tính tín hiệu của khu vực đó được bao
phủ bởi các CTB. Quá trình tách có thể được lặp cho đến khi kích thước cho một CB
luma đạt đến một kích thước tối thiểu cho phép luma CB được chọn bởi bộ mã hóa bằng
cách sử dụng cú pháp trong SPS và luôn luôn là 8 × 8 hoặc lớn hơn (trong đơn vị của
mẫu luma). Các ranh giới của hình ảnh là theo đơn vị tối thiểu cho phép kích thước luma
CB. Kết quả là, ở các cạnh phải và phía dưới của bức tranh, một số CTUs có thể bao gồm
các khu vực mà là một phần bên ngoài ranh giới của hình ảnh. Tình trạng này được phát
hiện bởi các bộ giải mã và CTU là mặc nhiên được phân chia như cần thiết để làm giảm
kích thước CB đến điểm mà toàn bộ CB vào hình ảnh.
4.4. PBs
Các chế độ dự đoán cho CU được báo hiệu như là nội, dù nó sử dụng trong bức
ảnh(không gian) dự đoán hoặc trong bức ảnh(thời gian) dự đoán. Khi chế độ dự đoán
được hiệu như bên trong, kích thước PB, đó là kích thước khối mà tại đó các chế độ dự
đoán trong bức ảnh được thành lập là giống như kích thước CB cho tất cả các kích thước
block trừ kích thước CB nhỏ nhất được phép vào bitstream. Đối với các trường hợp sau,
14
một mặt cho biết xem CB được chia thành bốn góc của mỗi PB có chế độ dự đoán trong
bức ảnh riêng của họ. Lý do cho phép phân chia này là để cho phép lựa chọn chế độ dự
đoán hình ảnh liên riêng biệt cho khối nhỏ như 4 × 4 trong kích thước. Khi dự đoán luma
trong bức ảnh hoạt động với 4 × 4 khối, dự đoán trang bức ảnh chroma cũng sử dụng 4 ×
4 khối (mỗi bao gồm các khu vực hình ảnh tương tự như khối bốn 4 × 4 luma). Kích
thước thực tế tại khu vực mà dự đoán trong bức ảnh hoạt động (đó là khác biệt với các
kích thước PB, mà tại đó các chế độ dự đoán trong bức ảnh được thành lập) phụ thuộc
vào các phân vùng mã hóa còn lại được mô tả như sau. Khi chế độ dự đoán được hiệu
như inter, nó là số liệu luma và chroma NHTM được chia thành một, hai hoặc bốn PBs.
Việc chia tách thành bốn PBs chỉ được phép khi kích thước CB bằng với kích thước tối
thiểu cho phép CB, sử dụng một loại hình tương đương của tách như nếu không có thể
được thực hiện ở cấp CB của thiết kế chứ không phải ở cấp PB. Khi một CB được chia
thành bốn PBs, mỗi PB bao gồm một góc phần tư của CB. Khi một CB được chia thành
hai PBs, sáu loại tách này là có thể. Các khả năng phân vùng cho trong bức ảnh dự đoán
các CB được mô tả trong hình. 3. Các phân vùng trên minh họa cho trường hợp không
tách CB có kích thước M × M, tách các CB thành hai PBs kích thước M × M/2 hoặc M/2
× M, hoặc chia tách nó thành bốn PBs của size M/2 × M/2. Bốn loại phân vùng thấp hơn
trong hình. 3 được gọi là phân vùng chuyển động như bất đối xứng (AMP), và chỉ được
phép khi M là 16 hoặc lớn hơn cho luma. Một PB của phân vùng bất đối xứng có chiều
cao hoặc chiều rộng M / 4 và chiều rộng hoặc chiều cao M, tương ứng, và PB khác LLS
phần còn lại của CB bởi có một chiều cao hoặc chiều rộng của 3M / 4 và chiều rộng hoặc
chiều cao M. Mỗi trong bức ảnh PB được gán một hoặc hai vectơ chuyển động và các chỉ
số hình ảnh tham khảo. Để hạn chế tối đa trường hợp xấu nhất băng thông bộ nhớ, PBs
kích thước luma 4 × 4 không được phép cho dự đoán trong bức ảnh , và PBs của luma
kích thước 4 × 8 và 8 × 4 được giới hạn cho mã hóa. Quá trình dự đoán trong bức ảnh
được trình bày cụ thể như sau. Các luma và chroma PBs, cùng với cú pháp dự đoán liên
quan, tạo PU.
15
Hình. 3. Chế độ để tách một CB vào PBs, chịu hạn chế kích thước nhất định. Đối
với hình ảnh dự đoán các CB, chỉ M × M và M/2 × M/2 được hỗ trợ
4.5. Cấu trúc phân vùng và đơn vị
Đối với mã hóa còn sót lại, một CB có thể được phân chia thành đệ quy đổi khối
(TBS). Các phân vùng được đánh dấu bằng một . Chỉ CB và TB phân vùng vuông là nơi
một khối có thể được đệ quy chia thành các góc phần tư, như minh họa trong hình. 4. Đối
với một CB luma nhất định kích thước M × M, một tín hiệu cho dù nó được chia thành
bốn khối có kích thước M/2 × M/2. nếu tách xa hơn là có thể, như báo hiệu bởi độ sâu tối
đa chỉ ra trong SPS, mỗi góc phần tư được giao cho biết cho dù nó được chia thành bốn
phần. Các khối nút lá còn lại là các biến đổi khối được tiếp tục xử lý bằng cách chuyển
đổi mã hóa. Các bộ mã hóa cho các TB luma tối đa và tối thiểu kích thước mà nó sẽ sử
dụng. Splitting là tiềm ẩn khi có kích thước CB là lớn hơn so với kích thước tối đa TB.
Không tách là tiềm ẩn khi chia sẽ cho kết quả trong một kích thước luma TB nhỏ hơn tối
thiểu quy định. Kích thước chroma TB là một nửa kích thước TB luma trong mỗi chiều,
trừ khi kích thước luma TB là 4 × 4, trong trường hợp một đơn 4 × 4 sắc độ TB được sử
dụng cho các khu vực được bao phủ bởi bốn 4 × 4 TBS luma. Trong các mẫu được giải
mã của TBS gần nhất lân cận (trong hoặc ngoài CB) được sử dụng làm dữ liệu tham khảo
cho dự đoán trong bức ảnh. Ngược lại với các tiêu chuẩn trước đó, việc thiết kế cho phép
một HEVC TB để chiều dài qua nhiều PBs cho CUS để tối đa hóa các mã hóa tiềm năng
của các phân vùng TB cấu trúc.
16
Hình 4. Phân ngành của một CTB vào các CB
4.6. Slices
Một chuỗi các CTUs đó được xử lý theo thứ tự của một raster quét. Một hình ảnh có
thể được chia thành một hoặc một vài lát như thể hiện trong hình 5 sẽ có một hình ảnh là
một tập hợp của một hoặc nhiều lát. Slice được khép kín trong ý nghĩa rằng, cho sự sẵn
có của các trình tự và thông số hình ảnh bộ hoạt động, các yếu tố cú pháp của họ có thể
được phân tích từ các bitstream và các giá trị của các mẫu trong các khu vực của hình ảnh
mà slice đại diện có thể được một cách chính xác giải mã (ngoại trừ đối với những tác
động của trong vòng gần cạnh của slice) mà không sử dụng bất kỳ dữ liệu từ slice khác
trong cùng một hình ảnh. Điều này có nghĩa là dự đoán trong hình ảnh (ví dụ trong bức
ảnh dự đoán tín hiệu không gian hoặc dự đoán của các vectơ chuyển động) không được
thực hiện qua các biên giới slice. Một số thông tin từ các lát khác có thể, tuy nhiên, là cần
thiết để áp dụng trong vòng qua biên của slice. Mỗi miếng có thể được mã hóa bằng cách
sử dụng các loại mã hóa khác nhau như sau.
1) Tôi cắt: Một lát trong đó tất cả cus của slice được mã hóa bằng cách sử dụng chỉ
dự đoán trong hình ảnh.
2) P slice: Ngoài các loại mã hóa của một I lát, một số cus của P lát cũng có thể được
mã hóa bằng cách sử dụng dự đoán với ít nhất một tín hiệu dự đoán bù chuyển động mỗi
PB. P lát chỉ sử dụng danh sách hình ảnh tham khảo 0.
3) B lát: Ngoài các loại mã hóa có sẵn trong một P lát, một số cus của B lát cũng có
thể được mã hóa bằng cách sử dụng dự đoán trong bức ảnh với ít nhất hai tín hiệu dự
đoán bù mỗi PB.
Lát B sử dụng cả hai danh sách hình ảnh tham khảo 0 và danh sách 1. Mục đích chính
của lát là sau khi mất mát dữ liệu. Hơn nữa, lát thường bị hạn chế sử dụng một số đa là
bit, ví dụ, để truyền packetized. Cho nên, lát thường có thể chứa một số lượng rất khác
nhau của CTUs mỗi miếng một cách phụ thuộc vào các hoạt động trong các cảnh video.
17
Ngoài lát, HEVC là khép kín và độc lập giải mã vùng của hình ảnh. Mục đích chính
của gạch là để cho phép việc sử dụng kiến trúc xử lý song song để mã hóa và giải mã.
Nhiều gạch có thể chia sẻ thông tin tiêu đề bằng được chứa trong cùng một lát. Ngoài ra,
một gạch duy nhất có thể chứa nhiều lát. Một gạch bao gồm một nhóm chữ nhật sắp xếp
của CTUs (thông thường, nhưng không nhất thiết, tất cả chúng có chứa khoảng cùng một
số CTUs), như thể hiện trong hình. 5b . Để hỗ trợ các chi tiết của dữ liệu gói tiếng, độc
lập được bổ sung. Cuối cùng, với WPP, một lát được chia thành các hàng của CTUs.
Việc giải mã của mỗi hàng có thể được bắt đầu ngay sau một vài quyết định cần thiết để
dự báo và thích ứng đã được thực hiện ở hàng ghế trước. Điều này hỗ trợ xử lý song song
của hàng CTUs bằng cách sử dụng một số luồng xử lý trong bộ mã hóa hoặc giải mã
(hoặc cả hai). Một ví dụ được hiển thị trong hình. 5c. Đối với thiết kế đơn giản, WPP
không được phép để được sử dụng kết hợp với gạch (mặc dù các tính năng có thể, về
nguyên tắc, hoạt động đúng với nhau).
Hình 5. Phân ngành của các bức
18
4.7. Dự đoán liên ảnh
Ảnh dự đoán hoạt động theo quy mô lao, và trước đó đã được giải mã mẫu ranh giới
từ không gian lân cận TBS được sử dụng để tạo thành các tín hiệu dự đoán. Dự đoán
hướng với 33 định hướng hướng khác nhau cho các kích cỡ (vuông) TB từ 4 × 4 đến 32 ×
32.
Hình 6. Các chế độ và phương hướng định hướng cho dự đoán liên hình ảnh.
Các hướng dự đoán có thể được hiển thị trong hình 6. pháp thay thế cực, dự đoán
phẳng (giả định một biên độ bề mặt có độ dốc ngang và dọc có nguồn gốc từ biên giới)
và DC dự đoán (một ở bề mặt với một giá trị phù hợp với các giá trị trung bình của các
mẫu biên) cũng có thể được sử dụng. Đối với sắc độ, ngang, dọc, phẳng, và DC chế độ
dự đoán có thể được báo hiệu một cách rõ ràng, hoặc chế độ dự đoán chroma có thể được
chỉ định để được giống như các chế độ dự đoán luma (và, như một trường hợp đặc biệt để
tránh tín hiệu dư thừa, khi một của đầu tiên ,bốn lựa chọn được chỉ định và cũng giống
như các chế độ dự đoán luma, chế độ được áp dụng thay thế). Mỗi CB có thể được mã
hóa bằng một trong những loại mã hóa, tùy thuộc vào loại slice. Tương tự như H.264 /
MPEG-4 AVC, hình ảnh nội tiên đoán mã hóa được hỗ trợ trong tất cả các loại slice.
19
HEVC hỗ trợ hình ảnh trong nội bộ tiên đoán phương pháp mã hóa khác nhau gọi là
Intra-Góc, Intra-Planar và Intra-DC. Các phần dưới đây sẽ trình bày một lời giải thích
ngắn gọn về các thêm và một số kỹ thuật được áp dụng chung.
1) PB phân vùng: Một CB dự đoán kích thước M×M có thể có một trong hai loại
phân vùng PB gọi là × PART-2N 2N và PART-N × N,trong đó chỉ ra rằng các CB không
chia và thứ hai chỉ ra rằng các CB được chia thành bốn kích thước bằng nhau PBs.
(Khái niệm, trong ký hiệu này, N = M/2).
2) Dự đoán Intra-góc: không gian tên miền dự đoán trước đây đã được sử dụng thành
công trong H.264 / MPEG-4 AVC. Các dự đoán của HEVC tương tự hoạt động trong
lĩnh vực không gian, nhưng được mở rộng trong yếu đáng, chủ yếu là do sự gia tăng kích
thước của TB và tăng số lượng các hướng dự đoán có thể lựa chọn. So với tám hướng dự
đoán của H.264 / MPEG- 4 AVC, HEVC hỗ trợ tổng cộng 33 dự đoán hướng
3) Intra-Planar và Intra-DC dự đoán: Ngoài dự đoán Intra-góc nhắm vùng có cạnh
hướng mạnh mẽ, HEVC hỗ trợ hai phương pháp dự báo khác, Intra-Planar và Intra-DC,
mà chế độ tương tự trong H. 264 / MPEG-4 AVC. Trong khi Intra-DC trước ngôn từ sử
dụng giá trị trung bình của các mẫu tham khảo cho các dự báo, giá trị trung bình của
hai tiên đoán tuyến tính sử dụng bốn mẫu tham khảo góc được sử dụng trong nội Planar
dự đoán để ngăn chặn sự gián đoạn dọc theo ranh giới khối. Các chế độ dự đoán IntraPlanar được hỗ trợ ở tất cả các kích thước khóa trong HEVC, trong khi H.264 / MPEG-4
AVC hỗ trợ dự đoán chiếc máy bay chỉ khi kích thước luma PB là 16 × 16, và dự đoán
chiếc máy bay của nó hoạt động hơi khác nhau từ các dự đoán phẳng trong HEVC.
4) Tham khảo mẫu Smoothing: Trong HEVC, các mẫu tham khảo sử dụng cho các dự
đoán hình ảnh liên đôi khi bởi [1 2 1]/4 trong một cách tương tự như những gì đã được
sử dụng cho 8 × 8 dự đoán hình ảnh liên trong H.264 / MPEG-4 AVC. HEVC làm mịn
các hoạt động thích nghi hơn, theo hướng từ, số lượng của sự gián đoạn phát hiện, và
kích thước khối.
5) Để loại bỏ các bất liên tục dọc theo khối ranh giới, trong ba chế độ, Intra-DC (chế
độ 1) và Intra-góc [k] với k = 10 hoặc 26 (chính xác ngang hoặc thẳng đứng chính xác),
6) Các mẫu tham khảo không có sẵn tại các lát gạch hoặc ranh giới. Ngoài ra, khi
một tính năng mất khả năng phục hồi được gọi là hạn chế dự báo trong nội bộ được kích
hoạt, các mẫu tham khảo láng giềng bên trong bất kỳ dự đoán PB cũng được coi là
không có sẵn để tránh để các dữ liệu hình ảnh có khả năng bị hỏng trước khi giải mã
truyền lỗi vào các tín hiệu dự đoán. Trong khi chỉ có chế độ dự đoán Intra-DC được
phép cho những trường hợp như vậy trong H.264 / MPEG-4 AVC, HEVC cho phép việc
sử dụng các phương thức dự đoán khác sau khi thay thế các giá trị mẫu tham khảo
20
7) Chế độ mã hóa: HEVC hỗ trợ tổng cộng 33 chế độ dự đoán Intra-góc và IntraPlanar và Intra-DC chế độ dự báo cho dự đoán luma cho tất cả các kích thước block. Do
sự gia tăng số lượng các hướng, HEVC xem xét ba phương thức có thể xảy ra nhất
(MPMs) khi mã hóa các chế độ dự đoán, chứ không phải là một chế độ có thể xảy ra
nhất xem xét trong H.264 / MPEG-4 AVC. Trong ba chế độ có thể xảy ra nhất, đầu tiên
kinh hai được theo các phương thức dự đoán các bên trên và bên trái PBs nếu những
PBs có sẵn và được mã hóa bằng cách sử dụng một chế độ dự đoán. Bất kỳ chế độ dự
báo không hoạt động được coi là Intra-DC.
Các PB trên luma CTB luôn luôn được coi là không có sẵn để tránh sự cần thiết để
lưu trữ một bộ đệm dòng của chế độ dự đoán luma gần nhất. Khi hai chế độ có thể xảy ra
nhất là không bằng nhau, chế độ xác suất lớn nhất thứ ba được thiết lập bằng IntraPlanar, Intra-DC, theo thứ tự này, không phải là một bản sao của một trong những đầu
tiên hai chế độ. Khi hai chế độ có thể xảy ra nhất là như nhau, nếu chế độ fi đầu tiên này
có giá trị Intra-Planar hoặc Intra-DC, các phương thức có thể xảy ra nhất thứ hai và thứ
ba được phân công như Intra-Planar, Intra-DC,theo đó các chế độ này, theo thứ tự này,
không phải là bản sao. Khi hai chế độ có thể xảy ra nhất là như nhau và các chế độ đầu
tiên có giá trị Intra-Góc, các phương thức có thể xảy ra nhất thứ hai và thứ ba được chọn
là hai chế độ dự đoán góc mà gần gũi nhất với các góc (tức là, các giá trị của k) của đầu
tiên .Trong trường hợp đó, chế độ dự đoán luma hiện nay là một trong ba MPMs, chỉ có
chỉ số MPM được truyền đến các bộ giải mã. Nếu không, các chỉ số của chế độ dự đoán
luma hiện nay không bao gồm ba MPMs được truyền đến các bộ giải mã bằng cách sử
dụng một 5b có chu cổ định.
4.8 Dự đoán trong hình ảnh
1) PB Phân vùng: So với dự đoán các CB, HEVC hỗ trợ nhiều hình dạng phân vùng
PB cho dự đoán NHTM. Các chế độ phân vùng của PART-2N×2N, PART-2N×N, và
PART-N×2N chỉ ra các trường hợp khi CB không được chia, tách thành hai bằng kích
thước chiều ngang PBs, và chia thành hai bằng kích thước PBs theo chiều dọc , tương
ứng. PART-N×N đặc hiệu mà các CB được chia thành bốn bằng kích thước PBs, nhưng
chế độ này chỉ được hỗ trợ khi kích thước CB bằng với kích thước nhỏ nhất CB phép.
Ngoài ra, có bốn loại phân vùng có hỗ trợ tách thành hai CB PBs có kích cỡ khác nhau:
PART-2N×nu, PART-2N nD, PART-nL×2N, và PART-nR×2N. Những loại này được
gọi là phân vùng chuyển động không đối xứng.
2) Mẫu Interpolation: Các mẫu của PB cho một dự đoán CB thu được từ những người
trong một khu vực khối tương ứng trong các hình ảnh tham khảo bởi một số hình ảnh
tham khảo, mà là ở một vị trí thay thế bởi các thành phần ngang và dọc của các vectơ
chuyển động. Ngoại trừ các trường hợp khi các vectơ chuyển động có một giá trị số
21
nguyên, phân số mẫu nội suy được sử dụng để tạo ra các mẫu dự đoán cho các vị trí lấy
mẫu. Như trong H.264 / MPEG-4 AVC, HEVC hỗ trợ vector chuyển động với các đơn vị
của một phần tư của khoảng cách giữa các mẫu luma. Đối với mẫu sắc độ, độ chính xác
các vectơ chuyển động được xác định theo các định dạng lấy mẫu sắc độ, mà cho 4 Kết
quả 0 mẫu trong các đơn vị của 1/8 của khoảng cách giữa các mẫu chroma 2.
Hình. 7. Vị trí lấy mẫu phân đoạn cho luma
Các mẫu phân đoạn cho mẫu luma trong HEVC sử dụng ứng dụng tách biệt của một
cho các vị trí nửa mẫu và bảy cho các vị trí mẫu trung tâm. Điều này trái ngược với quá
trình được sử dụng trong H.264/MPEG-4 AVC, mà áp dụng một quá trình nội suy hai
giai đoạn của đầu tiên tạo ra các giá trị của một hoặc hai mẫu lân cận ở vị trí nửa mẫu sử
dụng sáu, làm tròn kết quả trung gian, và sau đó hai giá trị trung bình ở vị trí số nguyên
hoặc nửa mẫu. HEVC thay vì sử dụng một quá trình duy nhất tách nội suy để tạo ra tất cả
các vị trí phân đoạn không hoạt động trung gian, giúp tăng độ chính xác và kiến trúc của
22
mẫu phân đoạn nội suy. Độ chính xác suy cũng được cải thiện bằng cách sử dụng trong
HEVC
Trong hình 7, các vị trí dán nhãn với chữ hoa chữ, Ai, j, đại diện cho các mẫu luma có
sẵn tại các địa điểm mẫu số nguyên, trong khi các vị trí khác có nhãn với chữ thường biểu
diễn các mẫu tại các địa điểm mẫu số nguyên không, mà cần phải được tạo ra bằng cách
nội suy . Các mẫu nhãn a0, j, b 0, j, c 0, j, d 0,0, 0,0 h, và n0,0 được bắt nguồn từ các mẫu
Ai, j bằng cách áp dụng tám cho nửa mẫu vị trí và bảy cho các vị trí tứ mẫu như sau:
nơi B ≥ liên tục 8 là bit độ sâu của các mẫu tham khảo (và thường là B = 8 cho hầu
hết các ứng dụng) được đưa ra trong Bảng II. Trong các công thức, biểu thị một >> dịch
chuyển số học ngay. Các mẫu nhãn e0,0, f 0,0, 0,0 g, i 0,0, 0,0 j, k 0,0, 0,0 p, q 0,0, và
r0,0 có thể được bắt nguồn bởi áp dụng tương ứng với các mẫu nằm ở a0 liền kề theo
chiều dọc, j, b 0, j và c0, vị trí j như sau:
23
Khi B được tính bằng 8, vì vậy các giá trị tương tự có thể được tính toán trong trường
hợp này bằng cách áp dụng đứng trước. Khi thực hiện một cách thích hợp, quá trình bồi
thường chuyển động của HEVC có thể được thực hiện bằng cách sử dụng các yếu tố chỉ
lưu trữ 16-b (mặc dù chăm sóc phải được thực hiện để làm điều này một cách chính xác).
Đó là vào thời điểm này trong quá trình trọng chọn từ trước được áp dụng khi lựa chọn
bởi các bộ mã hóa. Trong khi đó, H.264/MPEG-4 AVC hỗ trợ cả về mặt thời gian tiềm
ẩn và rõ ràng dự đoán trọng, trong HEVC chỉ dự đoán có trọng rõ ràng được áp dụng, bởi
tỉ lệ và bù đắp các dự đoán với các giá trị được gửi một cách rõ ràng bởi các bộ mã hóa.
Các bit độ sâu của các dự báo này sau đó được điều chỉnh để các bit gốc độ sâu của các
mẫu tham khảo..
Trong H.264 / MPEG-4 AVC, đến ba giai đoạn của hoạt động làm tròn được yêu cầu
để có được mỗi mẫu dự đoán (cho mẫu nằm ở vị trí tứ mẫu). Nếu dự đoán được sử dụng,
tổng số các hoạt động làm tròn là sau đó bảy trong trường hợp xấu nhất. Trong HEVC,
24
nhiều nhất là hai hoạt động làm tròn là cần thiết để có được mỗi mẫu nằm tại các vị trí tứ
mẫu, do đó đã làm tròn hoạt động là khu rừng đặc dụng trong trường hợp xấu nhất khi
được sử dụng. Hơn nữa, trong việc sử dụng phổ biến nhất, nơi độ sâu bit B là 8 b, tổng số
làm tròn hoạt động trong trường hợp xấu nhất là tiếp tục giảm đến 3. Do số lượng thấp
hơn các hoạt động làm tròn, các lỗi làm tròn số tích lũy được giảm và lớn được kích hoạt
liên quan đến cách thức thực hiện các hoạt động cần thiết trong các bộ giải mã. Quá trình
suy mẫu phân đoạn cho các thành phần chroma là tương tự như đối với các thành phần
luma, ngoại trừ các số là 4 và độ chính xác phân đoạn là 1/8 cho 4 thông thường: 2: 0
dạng chroma trường hợp. HEVC một bộ bốn cho vị trí thứ tám mẫu, được cho trong
Bảng III đối với trường hợp 4: 2: 0 dạng chroma (ở đâu, trong H.264/MPEG-4 AVC, chỉ
có hai được áp dụng). các giá trị ký hiệu là filter1 [i], fi [i] lter2, fi l- ter3 [i], và filter4 [i]
với i = -1, ..., 2 được sử dụng để liên polating 1/8, 2 / 8, 3/8, và 4/8 vị trí phân đoạn cho
các mẫu sắc độ, tương ứng. Sử dụng tính đối xứng cho / 8 5, 6/8, và 7 / vị trí phân đoạn
thứ 8, các giá trị nhân đôi của filter3 [1-i], fi lter2 [1-i], và fi lter1 [1-i] với i = -1, ..., 2
được sử dụng tương ứng.
3) Merge Mode: thông tin chuyển động thông thường bao gồm các giá trị chuyển
vectơ chuyển động theo chiều ngang và thẳng đứng, một hoặc hai chỉ số hình ảnh tham
khảo, và, trong trường hợp của khu vực sự tiên đoán trong B lát, một trong đó tham khảo
danh sách hình ảnh có liên quan đến mỗi chỉ số. HEVC bao gồm một chế độ nối để lấy
được các thông tin chuyển động từ khối không gian, tạm thời láng giềng. Nó được ký
hiệu là chế độ nối vì nó tạo thành một khu vực sáp nhập chia sẻ tất cả các thông tin
chuyển động. Các chế độ nối là khái niệm tương tự như trực tiếp và bỏ qua chế độ trong
H.264/MPEG-4 AVC. Tuy nhiên, có hai sự khác biệt quan trọng. Đầu tiên, nó truyền tải
thông tin chỉ số để lựa chọn một trong số nhiều ứng cử viên có sẵn, một cách đôi khi
được gọi là một chương trình cạnh tranh chuyển động. Nó cũng rõ ràng danh sách hình
ảnh tham khảo và chỉ số hình ảnh.
25
Hình 8. Vị trí các ứng cử viên không gian của thông tin di động
Tập hợp các ứng viên có thể có trong các chế độ nối bao gồm các ứng cử viên không
gian lân cận, một ứng cử viên tạm thời, và các ứng cử viên được tạo ra. Hình 8 cho thấy
vị trí của các ứng cử viên đã không gian. Đối với từng vị trí ứng cử viên, sự sẵn có được
kiểm tra theo thứ tự {a1, b 1, b 0, a 0, b 2}. Nếu các khối nằm ở vị trí được dự đoán hoặc
vị trí nằm ngoài slice hiện tại hoặc ngói, nó được coi như là không có. Sau khi xác nhận
các ứng cử viên không gian, hai loại được loại bỏ. Nếu vị trí ứng cử viên cho PU hiện tại
sẽ đề cập đến đầu tiên PU trong CU cùng, vị trí được loại trừ, như hợp nhất cùng có thể
đạt được một CU mà không chia thành các phân vùng dự báo. Hơn nữa, bất kỳ mục thừa
nơi ứng viên có thông tin chính xác chuyển động cùng cũng bị loại trừ. Đối với các ứng
viên thời gian, vị trí dưới cùng bên phải ngay bên ngoài của PUcủa hình ảnh tham chiếu
được sử dụng nếu nó có sẵn. Nếu không, vị trí trung tâm được sử dụng để thay thế. Cách
chọn PU tương tự như các tiêu chuẩn trước, nhưng HEVC cho phép nhiều bằng cách
truyền một chỉ số để xác định các tài liệu tham khảo danh sách hình ảnh được sử dụng
cho các hình ảnh tham khảo Một vấn đề liên quan đến việc sử dụng của các ứng cử viên
tạm thời là lượng bộ nhớ để lưu trữ các thông tin chuyển động của hình ảnh tham khảo.
Điều này được giải quyết bằng cách hạn chế các để lưu trữ các ứng cử viên chuyển động
thời gian để chỉ độ phân giải của một lưới luma 16 × 16, thậm chí khi những cấu trúc PB
nhỏ hơn được sử dụng tại các vị trí tương ứng trong hình tham khảo. Ngoài ra, một PPS
cấp cho phép các bộ mã hóa để vô hiệu hóa việc sử dụng các ứng viên thời gian, đó là
hữu ích cho các ứng dụng với truyền dễ bị lỗi. Số lượng tối đa của các ứng cử viên hợp C
là trong tiêu đề slice. Nếu số lượng các ứng cử viên hợp nhất được tìm thấy (bao gồm cả
các ứng viên thời gian) là lớn hơn so với C, chỉ có đầu tiên C - 1 ứng cử viên không gian
và các ứng cử viên tạm thời được giữ lại. Nếu không, nếu số lượng ứng cử viên hợp nhất
là ít hơn so với C, các ứng cử viên bổ sung được tạo ra cho đến khi số bằng C. này các
phân tích và làm cho nó mạnh mẽ hơn, như khả năng phân tích các dữ liệu được mã hóa
không phụ thuộc vào ứng cử viên hợp nhất sẵn có
Đối với B lát, các ứng cử viên trộn bổ sung được tạo ra bằng cách chọn hai ứng cử
viên hiện có theo một danh sách hình ảnh tham khảo 0 và danh sách 1. Ví dụ, đầu tiên tạo
ra ứng cử viên sử dụng đầu tiên kinh hợp nhất ứng cử viên cho danh 0 và các ứng cử viên
hợp thứ hai cho danh sách 1. HEVC tổng cộng 12 cặp của hai theo thứ tự sau đây trong
danh sách ứng cử viên hợp nhất đã được xây dựng như là (0, 1), (1, 0), (0, 2), (2, 0), (1 ,
2), (2, 1), (0, 3), (3, 0), (1, 3), (3, 1), (2, 3), và (3, 2). Trong số đó, có tới đã ứng viên có
thể được bao gồm sau khi loại bỏ các mục không cần thiết. Khi lát là một P slice hoặc số
ứng cử viên hợp nhất vẫn ít hơn so với C, không vectơ chuyển động kết hợp với các chỉ
số tài liệu tham khảo từ số không đến số lượng ảnh tham chiếu trừ một được sử dụng để ll
bất kỳ mục còn lại trong danh sách ứng cử viên hợp nhất. Trong HEVC, chế độ bỏ qua
26
được đối xử như là một trường hợp đặc biệt của các chế độ nối khi tất cả các khối mã
AGS là bằng không. Trong trường hợp đặc hiệu, chỉ có một ag bỏ và các chỉ số tương
ứng kết hợp được truyền tới bộ giải mã. Các chế độ B-trực tiếp của H.264/MPEG-4 AVC
cũng được thay thế bằng chế độ nối, kể từ khi chế độ nối cho phép tất cả các thông tin
chuyển động để được bắt nguồn từ những thông tin chuyển động không gian và thời gian
của các khối lân cận với các mã còn lại.
4) Chuyển động Vector Dự đoán cho Nonmerge Mode: Khi một CB dự đoán là không
được mã hóa trong chế độ bỏ qua hoặc hợp nhất, các vectơ chuyển động được mã hóa
bằng một kiểu khác dự báo vectơ chuyển động. Tương tự như các chế độ nối, HEVC cho
phép mã hóa để lựa chọn các yếu tố dự báo vectơ chuyển động giữa nhiều ứng viên dự
đoán. Sự khác biệt giữa dự đoán và các vectơ chuyển động thực tế và chỉ số của các ứng
cử viên được truyền tới bộ giải mã. Chỉ có hai ứng cử viên chuyển động không gian được
lựa chọn theo sự sẵn có trong đã ứng cử viên trong hình 8,đầu tiên ứng cử viên không
gian chuyển động được chọn từ tập hợp các vị trí còn lại {a0, a1} và điều thứ hai từ tập
hợp các vị trí trên {b0, b1, b2} của họ, trong khi vẫn giữ thứ tự tìm kiếm như được chỉ ra
trong hai bộ. HEVC chỉ cho phép một số lượng thấp hơn nhiều của các ứng cử viên sẽ
được sử dụng trong quá trình dự báo vector chuyển động cho các trường hợp , kể từ khi
mã hóa có thể gửi một sự khác biệt mã hoá để thay đổi các vector chuyển động. Hơn nữa,
các bộ mã hóa cần thực hiện đánh giá chuyển động, đó là một trong những hoạt động tính
toán đắt tiền nhất trong bộ mã hóa, và phức tạp được giảm bằng cách cho phép một số
lượng nhỏ của các ứng cử viên. Khi chỉ số tham chiếu của PU láng giềng là không tương
đương với của PU hiện nay, một phiên bản thu nhỏ của các vector chuyển động được sử
dụng. Các vector chuyển động láng giềng được thu nhỏ theo các khoảng cách thời gian
giữa các bức tranh hiện tại và hình ảnh tham khảo chỉ định bởi các chỉ số kinh của PU
láng giềng, PU hiện tại, tương ứng. Khi hai ứng cử viên không gian có các thành phần
vector chuyển động cùng, một ứng cử viên không gian dư thừa được loại trừ. Khi số
lượng các nhân tố ảnh vector chuyển động không bằng hai và việc sử dụng thời gian MV
dự đoán là không bị vô hiệu hóa một cách rõ ràng, các ứng cử viên dự báo thời MV được
bao gồm. Điều này có nghĩa rằng các ứng cử viên tạm thời không được sử dụng ở tất cả
khi hai ứng cử viên không gian có sẵn. Cuối cùng, một vector không chuyển động được
bao gồm nhiều lần cho đến khi số lượng các vector chuyển động dự đoán ứng viên bằng
hai, đảm bảo rằng số lượng các yếu tố dự báo vector chuyển động là hai. Như vậy, chỉ
một mã hóa là cần thiết để xác định
27
4.9 Biến đổi Scaling
HEVC sử dụng chuyển đổi mã hóa của các dự báo lỗi còn sót lại trong một cách
tương tự như trong các tiêu chuẩn trước. Các khối còn lại được phân chia thành nhiều
TBS vuông,. Các hỗ trợ chuyển đổi kích thước khối là 4 × 4, 8 × 8, 16 × 16, và 32 × 32.
1) Chuyển đổi: biến đổi hai chiều được tính bằng cách áp dụng 1-D chuyển theo các
hướng ngang và dọc. Các yếu tố của lõi biến đổi ma trận được phát sinh bởi quy mô xấp
xỉ hàm cơ sở DCT, dưới cân nhắc như hạn chế phạm vi hoạt động cần thiết để chuyển đổi
tính toán và tối đa hóa độ chính xác và gần gũi với tính trực giao khi các mục ma trận là
chỉ tường fi ed như các giá trị số nguyên.
Để đơn giản, chỉ có một ma trận số nguyên cho chiều dài của 32 điểm là và các phiên
bản mẫu phụ được sử dụng cho các kích cỡ khác. Ví dụ, các ma trận cho chiều dài-16 là
biến thể hiện trong các phương trình ở dưới cùng của trang trước. Các ma trận cho chiều
dài-8 và độ dài-4 biến đổi có thể được rút ra bằng cách sử dụng đầu tiên tám mục hàng 0,
2, 4, ..., và bằng cách sử dụng đầu tiên bốn mục hàng 0, 4, 8, ... , tương ứng. Mặc dù
chuẩn biến đổi đơn giản về giá trị của một ma trận, các giá trị của các mục trong ma trận
đã được lựa chọn để có tính chất đối xứng chính cho phép triển khai nhanh chóng một
phần yếu tố có rất ít hoạt động toán học hơn là một phép nhân ma trận bình thường, và
các biến đổi lớn hơn có thể được xây dựng bằng cách sử dụng các phép biến đổi nhỏ hơn
như các khối xây dựng. Do kích thước tăng lên của các phép biến đổi được hỗ trợ, hạn
chế phạm vi hoạt động của các kết quả trung gian từ giai đoạn đầu tiên kinh của việc
chuyển đổi là khá quan trọng. HEVC rõ ràng chèn một 7-b phải và 16-b hoạt động cắt sau
khi đầu tiên 1-D nghịch đảo giai đoạn của ,chuyển đổi để đảm bảo rằng tất cả các tế làm
trung gian các giá trị có thể được lưu trữ trong bộ nhớ 16-b (để giải mã video 8-b).
28
2) Cách 4 × 4 Chuyển đổi: Đối với các khối có kích thước 4 × 4 biến đổi, một số
nguyên thay thế biến đổi xuất phát từ một DST được áp dụng cho các khối còn lại luma
cho chế độ dự đoán, với các biến đổi ma trận
Các chức năng cơ bản của DST tốt hơn t tài sản thống kê rằng biên độ còn lại có xu
hướng tăng khi khoảng cách từ các mẫu ranh giới được sử dụng để dự đoán trở nên lớn
hơn. Xét về độ phức tạp, 4 × 4 DST phong cách chuyển đổi không phải là nhiều hơn tính
toán triển hơn 4 × 4 DCT phong cách biến đổi, và nó cung cấp giảm tốc độ bit khoảng
1% trong hình ảnh bên trong tiên đoán mã hóa. Việc sử dụng các loại DST của biến đổi
được giới hạn chỉ có 4 × 4 Luma chuyển khối, vì đối với các trường hợp khác bổ sung mã
hóa cải thiện tính hiệu cho bao gồm cả bổ sung chuyển đổi loại đã được tìm thấy sẽ được
biên.
3) Mở rộng quy mô và Quantization: Vì các hàng của ma trận dạng trans là xấp xỉ gần
các giá trị của các hàm cơ sở quy mô thống nhất của DCT trực giao, các hoạt động được
kết hợp trong các của H.264/MPEG-4 AVC là không cần thiết trong HEVC. Tránh này
của tần số đặc hiệu hàm cơ sở rộng là hữu ích trong kích thước bộ nhớ trung gian, đặc
biệt là khi xem xét rằng kích thước của các biến đổi có thể được lớn như 32 × 32. Đối
HEVC sử dụng về cơ bản đề án URQ cùng kiểm soát bởi một tham số lượng tử (QP) như
trong H.264/MPEG-4 AVC. Phạm vi của các giá trị QP là 0-51, và sự gia tăng của 6 đôi
lượng tử kích thước bước như vậy mà các bản đồ của các giá trị QP bước kích thước xấp
xỉ rộng ma trận cũng được hỗ trợ.
Để giảm bộ nhớ cần thiết để lưu trữ giá trị tần số rộng đặc hiệu, chỉ có ma trận lượng
tử có kích thước 4×4 và 8×8 được sử dụng. Đối với những biến đổi lớn hơn 16×16 và
32×32 kích cỡ, một ma trận 8×8 rộng được gửi và được áp dụng bởi các giá trị chia sẻ
trong vòng 2×2×4 và 4 nhóm ở tần số trừ giá trị tại DC vị trí, mà giá trị khác nhau được
gửi đi và áp dụng.
4.10 Entropy Mã hóa
HEVC đặc hiệu chỉ có một phương pháp mã hóa entropy, CABAC chứ không phải
hai như H.264/MPEG-4 AVC. Các thuật toán lõi của CABAC là không thay đổi, và các
29
phần dưới đây hiện một vài khía cạnh của nó như thế nào được sử dụng trong các thiết kế
HEVC.
1) Bối cảnh Modeling: lựa chọn phù hợp của mô hình bối cảnh được biết đến là một
yếu tố quan trọng để nâng cao tính hiệu của CABAC mã hóa. Trong HEVC, sự phân tách
sâu của cây mã hóa hoặc chuyển đổi cây được khai thác để lấy được các chỉ số mô hình
bối cảnh các yếu tố cú pháp khác nhau, thêm vào những không gian lân cận sử dụng
trong H.264/AVC. Ví dụ, các yếu tố cú pháp bỏ xác định xem các CB được mã hoá như
bỏ qua và các yếu tố cú pháp tách mã hóa đơn xác định xem CB là chia thêm được mã
hóa bằng cách sử dụng mô hình bối cảnh dựa trên các thông tin về không gian lân cận.
Các yếu tố cú pháp tách biến cờ xác định xem đó là bệnh lao chia xa hơn và ba yếu tố cú
pháp quy định cụ thể khác không đổi cho mỗi thành phần màu sắc, CBF-luma, CBF-cb
và CBF-cr, được mã hoá dựa trên sự phân chia sâu việc chuyển đổi cây. Mặc dù số lượng
các ngữ cảnh sử dụng trong HEVC là ít hơn đáng kể so với H.264/MPEG-4 AVC, thiết
kế entropy mã hóa thực sự cung cấp năng nén tốt hơn nhiều hơn so với một phần mở
rộng đơn giản của H.264/MPEG- 4 AVC. Hơn nữa, việc sử dụng rộng rãi hơn trong thực
hiện HEVC của chế độ bỏ qua các hoạt động CABAC để tăng thông lượng bằng cách
giảm số lượng dữ liệu mà cần phải được mã hóa bằng cách sử dụng bối cảnh CABAC. Sự
phụ thuộc giữa các dữ liệu được mã hóa cũng được xem xét một cách cẩn thận để cho
phép thêm thông tối đa.
2) Thích ứng Scanning: thực hiện trong 4 × 4 subblocks cho tất cả các kích cỡ TB (tức
là sử dụng chỉ có một vùng cho kích thước TB 4 × 4, và sử dụng nhiều 4×4 trong chuyển
đổi các khối lớn hơn). phương pháp quét , đường chéo lên bên phải, ngang, và quét dọc
như hình. 9, được lựa chọn mặc nhiên để mã hóa các biến đổi của 4×4 và 8×8 kích cỡ TB
trong vùng dự đoán. Việc lựa chọn để quét phụ thuộc vào dự đoán . Việc quét dọc được
sử dụng khi hướng dự đoán là gần ngang và quét ngang được sử dụng khi hướng dự đoán
gần thẳng đứng. Để được hướng dẫn dự báo khác, các đường chéo quét lên bên phải được
sử dụng. Đối với các biến đổi ở chế độ dự đoán của tất cả các kích thước khối và các biến
đổi 16×16 hoặc 32×32 dự đoán , 4×4 đường chéo quét lên bên phải là độc quyền áp dụng
30
cho phép biến đổi
Hình 9. Ba phương pháp quét trong HEVC. (a) quét lên bên phải. (b) quét
ngang. (c) quét dọc.
3) Mã hóa: Tương tự như H.264/MPEG-4 AVC, HEVC truyền vị trí cuối cùng
chuyển đổi, một bản đồ trọng yếu, ký bit và mức biến đổi. Tuy nhiên, những thay đổi
khác nhau cho từng phần đã được thực hiện, đặc biệt là xử lý tốt hơn về trọng yếu đáng
tăng kích thước của TBS. Đầu tiên, các tần số ngang và dọc phối hợp các vị trí cuối cùng
được mã hóa cho các TB trước khi gửi các bản đồ trọng yếu của 4 × 4 subblocks đó chỉ ra
những khác biến có giá trị khác không, thay vì gửi một loạt AGS được xen kẽ với các bản
đồ trọng yếu như thực hiện trong H.264/MPEG-4 AVC. Bản đồ trọng yếu có nguồn gốc
cho các nhóm cance trọng yếu liên quan đến kích thước cổ định 4×4 subblocks. Đối với
tất cả các nhóm có ít nhất một trước cuối cùng vị trí , một trong yếu nhóm định một nhóm
khác không được truyền, tiếp theo là trong yếu cance AGS cho mỗi trước khi đến vị trí
chỉ định của trong yếu cuối cùng không thể. Các mô hình ngữ cảnh cho trong yếu không
thể AGS là phụ thuộc vào vị trí cũng như các giá trị của quyền và các nhóm trong yếu
không thể dưới AGS. Một phương pháp được gọi là dữ liệu ẩn dấu được sử dụng để tiếp
tục cải thiện. Các bit dấu hiệu được mã hóa có điều kiện dựa vào số lượng và vị trí của
mã. Khi ẩn dấu dữ liệu được sử dụng và có ít nhất hai khác không trong một subblock
4×4 và sự khác biệt giữa các vị trí quét của đầu tiên và các nonzero cuối cùng là lớn hơn
3, bit dấu hiệu đầu tiên kinh khác không là trong ferred từ tính chẵn lẻ của tổng các biên
độ hụt . Nếu không, các bit dấu là mã hoá thông thường.
Ở phía bộ mã hóa, điều này có thể được thực hiện bằng cách chọn một với một biên
độ gần với ranh giới của một khoảng thời gian lượng tử bị buộc phải sử dụng khoảng thời
gian lượng tử lân cận trong trường hợp chẵn lẻ sẽ không nếu không chỉ ra các dấu hiệu
31
chính xác của đầu tiên kinh. Điều này cho phép các bit dấu được mã hóa với chi phí thấp
hơn (về tỷ lệ biến dạng) hơn nếu nó được mã hóa độc lập bằng cách cho các bộ mã hóa tự
do lựa chọn chuyển đổi hình biên độ có thể được thay đổi bằng các chi phí tỷ lệ biến
dạng thấp nhất. Đối với mỗi vị trí mà các fi tương ứng trong yếu không thể là bằng một,
hai AGS xác định xem giá trị độ lớn hơn một hoặc hai được mã hóa, và sau đó các giá trị
mức còn lại được mã hóa tùy thuộc vào hai giá trị
4.11 Bộ lọc vòng trong
Trong HEVC, hai bước xử lý, cụ thể là một deblocking(DBF) tiếp theo là một filter
SAO, được áp dụng để tái tạo các mẫu trước khi viết chúng vào bộ đệm hình ảnh giải mã
trong vòng lặp giải mã. DBF là nhằm giảm bớt các hiện vật chặn do mã hóa dựa trên
khối. DBF là tương tự như các DBF của AVC chuẩn H.264/MPEG-4, trong khi SAO mới
được giới thiệu trong HEVC. Trong khi các DBF chỉ áp dụng cho các mẫu nằm ở block
ranh giới, các fiter SAO được áp dụng thích nghi với tất cả các mẫu đáp ứng các điều
kiện nhất định, ví dụ, dựa trên gradient. Trong sự phát triển của HEVC, nó cũng đã được
coi là hoạt động một bước chế biến thứ ba gọi là lter thích ứng loopfi (ALF) sau khi filter
SAO; Tuy nhiên, các tính năng ALF không được bao gồm trong thiết kế
1) Deblocking lọc: deblocking được áp dụng cho tất cả các mẫu tiếp giáp với một PU
hoặc TU ranh giới, ngoại trừ trường hợp khi các biên giới cũng là một ranh giới hình ảnh,
hoặc khi chặn được vô hiệu hóa trên lát gạch hoặc ranh giới (đó là một lựa chọn mà có
thể được đánh dấu bằng việc mã hóa). Cần lưu ý rằng cả hai PU và TU ranh giới cần
được xem xét kể từ ranh giới PU không phải luôn luôn phù hợp với ranh giới TU trong
một số trường hợp dự đoán NHTM. Yếu tố cú pháp trong SPS và các tiêu đề lát kiểm
soát xem các deblocking được áp dụng trên các lát và ngói ranh giới.
Không giống như H.264/MPEG-4 AVC, nơi deblocking được áp dụng trên cơ sở lưới
4×4 mẫu, HEVC chỉ áp dụng cho các deblocking để các cạnh được xếp trên một mẫu lưới
8×8, cho cả luma và mẫu chroma. Hạn chế này làm giảm các trường hợp xấu nhất tính
toán phức tạp mà không làm giảm đáng kể chất lượng hình ảnh. Nó cũng giúp cải thiện
hoạt động xử lý song song bằng cách ngăn chặn sự nối tầng tương tác giữa các hoạt động
filtering gần đó.
Sức mạnh của deblocking được điều khiển bởi các giá trị của một số yếu tố cú pháp
tương tự như các chương trình trong H.264 / MPEG-4 AVC, nhưng chỉ có ba thế mạnh
được sử dụng hơn là 5. Cho rằng P và Q là hai khối liền kề với một ranh giới 8×8 lưới
chung, sức mạnh filter 2 được chỉ định khi một trong những khối được dự đoán. Nếu
không, sức mạnh filter của 1 được gán nếu có các điều kiện sau đây là đáp ứng.
1) P hoặc Q có ít nhất một số không đổi coef ficient.
32
2) Các chỉ số tham chiếu của P và Q không bằng nhau.
3) Các vectơ chuyển động của P và Q không bằng nhau.
4) Sự khác biệt giữa một thành phần vector chuyển động của P và Q là lớn hơn
hoặc bằng một số nguyên mẫu.
Nếu không có điều kiện trên được đáp ứng, sức mạnh filter 0 được phân công, điều đó
có nghĩa rằng quá trình deblocking không được áp dụng. Theo sức mạnh filter và các
tham số lượng tử trung bình của P và Q, hai ngưỡng, tC và β, được xác định từ bảng ned.
Đối với các mẫu luma, một trong ba trường hợp.Chỉ có hai trường hợp, không có .Bình
thường filtering chỉ được áp dụng khi các sức mạnh filter là lớn hơn một. Sau đó quá
trình ltering được thực hiện bằng cách sử dụng các biến kiểm soát tC và β.
Hình. 10. Bốn kiểu gradient được sử dụng trong SAO.
Trong HEVC, thứ tự xử lý của deblocking là de định nghĩa là ngang cho các cạnh
thẳng đứng cho toàn bộ hình ảnh đầu tiên, tiếp theo dọc cho cạnh ngang, hoặc vẫn có thể
được thực hiện trên cơ sở CTB-by-CTB chỉ với một độ trễ xử lý nhỏ.
2) SAO: SAO là một quá trình giải mã bởi điều kiện thêm một giá trị bù đắp vào mỗi
mẫu sau khi áp dụng các deblocking, dựa trên các giá trị trong bảng look-up truyền qua
các bộ mã hóa. SAO được thực hiện trên cơ sở khu vực, dựa trên một loại chọn mỗi CTB
bởi một yếu tố cú pháp sao-type-idx. Một giá trị 0 sao-type-idx chỉ ra rằng filter SAO
không được áp dụng cho các CTB, và các giá trị 1 và 2 tín hiệu sử dụng băng offset và
cạnh bù đắp các loại fi ltering, tương ứng. Trong băng bù chế độ đặc hiệu fi ed bởi saotype-idx bằng 1, giá trị bù đắp được lựa chọn trực tiếp phụ thuộc vào biên độ mẫu. Trong
chế độ này, phạm vi biên độ mẫu đầy đủ được thống nhất chia thành 32 phân đoạn được
gọi là ban nhạc, và các giá trị mẫu thuộc bốn trong số những ban nhạc (mà là liên tục
trong vòng 32 ban nhạc) là bằng cách thêm vào các giá trị truyền ký hiệu là hiệu số ban
nhạc, mà có thể là tích cực hay tiêu cực. Lý do chính để sử dụng bốn băng liên tiếp là
trong các lĩnh vực mà hiện vật mịn dải có thể xuất hiện, biên độ mẫu trong một CTB xu
hướng tập trung vào chỉ vài trong số những ban nhạc. Ngoài ra, sự lựa chọn thiết kế, sử
33
dụng bốn với các chế độ cạnh bù đắp của hoạt động đó cũng sử dụng bốn bù đắp giá trị.
Trong cạnh bù đắp sao-type-idx bằng 2, một yếu tố cú pháp sao-eo-class với giá trị 0-3
tín hiệu cho dù một ngang, dọc hoặc một trong hai hướng dốc chéo được sử dụng cho
cạnh đó bù đắp trong CTB. Hình. 10 mô tả bốn kiểu gradient sử dụng cho các sao-eoclass tương ứng trong chế độ này. trong Bảng IV. này được thực hiện đối với từng mẫu
dựa trên các giá trị mẫu giải mã, vì vậy không có thêm tín hiệu là cần thiết. Tùy thuộc
vào loại ở vị trí mẫu, cho các loại, một giá trị bù đắp từ một cái nhìn lên bảng truyền
được thêm vào các giá trị mẫu. Các giá trị bù đắp luôn tích cực cho loại 1 và 2 và tiêu cực
đối với loại 3 và 4 - do đó nói chung có tác dụng làm mịn ở chế độ bù đắp cạnh.
Như vậy, với nhiều loại SAO 1 và 2, tổng cộng bốn biên độ giá trị bù đắp được truyền
tới bộ giải mã cho mỗi CTB. Đối với loại 1, các dấu hiệu cũng được mã hóa. Các giá trị
bù đắp và các yếu tố liên quan như cú pháp sao-type-idx và sao-eo-class được xác định
bởi các bộ mã hóa - thường sử dụng các tiêu chí tối ưu hóa hiệu suất tốc độ biến dạng.
Các thông số SAO có thể được chỉ để được thừa hưởng từ bên trái hoặc trên CTB sử
dụng một hợp nhất để làm cho các tín hiệu Tóm lại, SAO là một hoạt động phi tuyến cho
phép thêm tín hiệu được xây dựng lại, và nó có thể tăng cường đại diện tín hiệu ở cả hai
mặt mịn và xung quanh các cạnh.
4.12 Chế độ mã hóa đặc biệt
HEVC ba chế độ mã hóa đặc biệt, có thể được gọi ở cấp CU hoặc mức TU.
1) Trong chế độ I-PCM, dự báo, biến đổi, lượng tử hóa và mã hóa entropy
được bỏ qua, và các mẫu được biểu diễn trực tiếp của một số bit. Mục đích chính
của nó là để tránh tiêu thụ quá mức của các bit khi các đặc điểm tín hiệu rất bất
thường và không thể được xử lý đúng cách mã hóa lai (ví dụ, tín hiệu tiếng ồn).
34
2) Trong chế độ lossless, biến đổi, lượng tử, và chế biến khác có ảnh hưởng
đến hình ảnh giải mã (SAO và deblocking) được bỏ qua, và những tín hiệu còn
lại từ các dự đoán hình ảnh liên hoặc liên trực tiếp đưa vào các coder entropy
(bằng cách sử dụng cùng một bối cảnh khu phố mà thường sẽ được áp dụng cho
các hình thức lâylượng tử). Điều này cho phép tái xây dựng toán học lossless, mà
là đạt được mà không cần bất kỳ công cụ mã hóa bổ sung.
3) Trong chuyển đổi chế độ bỏ qua, chỉ có các biến đổi được thông qua phụ.
Điều này chủ yếu là cải thiện nén cho một số loại nội dung video như lứa tuổi
máy tính tạo ra đồ họa hoặc trộn với nội dung camera-view (ví dụ, cuộn văn
bản). Chế độ này có thể được áp dụng cho TBS của 4×4 kích thước chỉ.
SAO và deblocking không được áp dụng cho các khu vực chế độ lossless, và một điều
khiển dù chúng được áp dụng cho các khu vực I-PCM.
V. TẦNG LỚP,MỨC ĐỘ
5.1 Khái niệm Level và Tier
Tầng và mức chỉ định điểm phù hợp cho việc thực hiện các tiêu chuẩn một cách tương
thích trên các ứng dụng khác nhau có yêu cầu chức năng tương tự. Một trình một tập hợp
các công cụ mã hóa hoặc các thuật toán có thể được sử dụng trong việc tạo ra một
bitstream phù hợp, trong khi đó mức độ hạn chế đặt trên một số thông số quan trọng của
bitstream, tương ứng với khả năng giải mã xử lý tải và bộ nhớ. Giới hạn cấp độ được
thiết lập về tốc độ tối đa mẫu, kích thước hình ảnh tối đa, tốc độ bit tối đa, tỷ lệ nén tối
thiểu và năng lực của các DPB và đệm hình ảnh được mã hóa (CPB) chứa dữ liệu nén
trước khi giải mã nó cho dữ liệu. Trong thiết kế của HEVC, nó đã được xác định rằng
một số ứng dụng tồn tại mà có yêu cầu mà chỉ khác nhau về tốc độ bit tối đa và khả năng
CPB. Để giải quyết vấn đề này, hai tầng với một số lớp-một Tier chính cho hầu hết các
ứng dụng và một Tier cao để sử dụng trong các ứng dụng đòi hỏi khắt khe nhất. Một bộ
giải mã phù hợp với một tầng và mức độ nhất định là cần thiết để có khả năng giải mã tất
cả các bitstreams đó phù hợp với các cấp cùng một hoặc tầng thấp hơn của mức đó hay
bất kỳ mức dưới nó. Giải mã phù hợp với hỗ trợ tất cả các tính năng trong đó profile. Mã
hóa không cần phải sử dụng bất kỳ tập hợp các tính năng hỗ trợ trong một profile, nhưng
được yêu cầu để sản xuất phù hợp bitstream, tức là, bitstream mà tuân theo các hạn chế
đặc hiệu cho phép chúng được giải mã bằng cách tuân giải mã.
5.2. Cấp độ các HEVC
Chỉ ba profiles nhắm mục tiêu ứng dụng những yêu cầu khác nhau, được gọi là chính,
Main 10, và chính Hình Tĩnh profiles, được lường trước được vào tháng năm 2013. Giảm
thiểu số lượng các profiles cung cấp một số lượng tối đa khả năng tương tác giữa các
thiết bị, và hơn nữa bởi thực tế là các dịch vụ truyền thống riêng, chẳng hạn như phát
35
sóng, điện thoại di động, trực tuyến, đang hội tụ đến điểm mà hầu hết các thiết bị cần sử
dụng để hỗ trợ trở thành tất cả trong số họ. Ba dự thảo profiles bao gồm các công cụ mã
hóa và cú pháp lớp cao được mô tả trong các phần trước của bài viết này, trong khi áp đặt
các hạn chế sau đây.
1) Chỉ 4: 2: 0 chroma lấy mẫu được hỗ trợ.
2) Khi một bộ mã hóa mã hóa một hình ảnh bằng cách sử dụng nhiều gạch,
nó cũng không thể sử dụng xử lý song song đầu sóng, và mỗi ngói phải có ít
nhất 256 luma mẫu rộng và 64 mẫu luma cao.
3) Trong chính và chính Hình Tĩnh profiles, chỉ có một độ chính xác video
của 8 b mỗi mẫu được hỗ trợ, trong khi chính 10 profile hỗ trợ lên đến 10b cho
mỗi mẫu.
4) Trong Main Hình Tĩnh pro fi le, toàn bộ bitstream phải chứa chỉ có một
hình ảnh được mã hóa (và do đó dự đoán hình ảnh liên không được hỗ trợ).
Hiện nay, trong định nghĩa của 13 cấp độ được dự kiến sẽ được bao gồm trong phiên
bản gốc đầu tiên của tiêu chuẩn như trong bảng V, từ mức chỉ hỗ trợ hình ảnh tương đối
nhỏ kích thước như một kích thước hình ảnh luma 176 × 144 (đôi khi được gọi là một
phần tư định dạng trung gian phổ biến) để hình ảnh kích thước lớn như 7680 × 4320
(thường được gọi là 8k x 4k). Chiều rộng và chiều cao ảnh được từng yêu cầu phải nhỏ
hơn hoặc bằng √8 · MaxLumaPS, nơi MaxLumaPS là hình ảnh kích thước tối đa luma
như thể hiện trong Bảng V (để tránh các vấn đề cho bộ giải mã có thể được tham gia với
hình ảnh cực). Có hai tầng hỗ trợ cho tám của các cấp độ (level 4 và cao hơn). Năng lực
CPB bằng tối đa các lần tốc độ bit 1s cho tất cả các cấp, ngoại trừ mức độ 1, trong đó có
một (cao hơn) năng lực của CPB 350000b. Các công suất tối đa DPB đặc hiệu trong mỗi
cấp độ là sáu hình ảnh khi hoạt động ở các kích thước hình ảnh tối đa được hỗ trợ bởi các
cấp (bao gồm cả hình ảnh hiện tại và tất cả các hình ảnh khác được giữ lại trong các bộ
giải mã tại bất kỳ điểm nào trong thời gian cho mục đích tham khảo hoặc đầu ra). Khi
hoạt động với một hình ảnh kích thước nhỏ hơn so với kích thước tối đa được hỗ trợ bởi
trình độ, khả năng lưu trữ hình ảnh DPB có thể tăng đến bao nhiêu là 16 hình ảnh (tùy
thuộc vào kích thước hình ảnh được lựa chọn đặc biệt). Level hạn chế cũng là cho số
lượng tối đa gạch sử dụng theo chiều ngang và theo chiều dọc trong mỗi hình ảnh và số
lượng tối đa gạch sử dụng mỗi giây.
36
VI. QUÁ TRÌNH TIÊU CHUẨN HÓA
Sau khi ra H.264/MPEG-4 AVC vào giữa năm 2004, cả ITU-T VCEG và ISO/IEC
MPEG đã cố gắng để xác định khi những tiến bộ quan trọng tiếp theo trong mã hóa sẽ trở
nên sẵn sàng cho việc chuẩn hóa. VCEG bắt đầu nghiên cứu tiến bộ tiềm năng trong năm
2004, bắt đầu xác định một số lĩnh vực công nghệ chủ chốt (KTAs) để nghiên cứu vào
đầu năm 2005, và phát triển một phần mềm phổ biến KTA .Công nghệ khác nhau được
đề xuất và sử dụng các phần mềm codebase KTA, được phát triển từ các phần mềm tham
khảo H.264/MPEG-4 AVC gọi là mô hình doanh (JM). Từ năm 2005 đến năm 2008,
MPEG bắt đầu các hoạt động thăm dò về phía trọng yếu không thể mã hóa cải tiến tính
hiệu cũng đã tổ chức một số hội thảo và ban hành một "cuộc gọi cho bằng chứng" tiến bộ
như vậy vào tháng Tư năm 2009. Chuyên gia kiểm tra xem đã được tiến hành để đánh giá
liệu đệ trình của phản ứng để cuộc gọi. Từ cuộc điều tra tương ứng của họ, họ đã đồng ý
rằng có những công nghệ rừng đặc dụng với các tiềm năng để cải thiện mã hóa trong yếu
đáng, so với các tiêu chuẩn mã hóa video hiện có. Các phần đội hợp tác trên Video mã
hóa (JCT-VC) được dự kiến sẽ được thành lập bởi cả hai nhóm trong tháng 1 năm 2010,
và một cuộc gọi chung cho các đề xuất (CFP) trên công nghệ nén video đã được phát
37
hành bởi cùng một thời gian để xác định ban đầu công nghệ mà sẽ phục vụ như là một cơ
sở của hoạt động tiêu chuẩn hóa trong tương lai.
Tại cuộc họp đầu tiên vào tháng Tư năm 2010, JCT-VC thành lập với tên dự án
HEVC, nghiên cứu đề xuất trình để đáp ứng với CFP, và thiết lập các phiên bản gốc đầu
tiên của một mô hình thử nghiệm được xem xét (DIR), được sản xuất chung từ các yếu tố
của một số đề xuất đầy hứa hẹn. Một phần mềm tương ứng đã được thực hiện sau cuộc
họp này. Các công nghệ trình trong một số trong những đóng góp quan trọng đề nghị
trước đó đã được thảo luận trong một phần đặc biệt của IEEE GIAO DỊCH VỀ MẠCH
VÀ HỆ THỐNG Video TECHNOLOGY . Mặc dù DIR cho thấy trong yếu không thể mã
hóa cải tiến tính hiệu so với tiêu chuẩn trước, nó đã có một số công cụ mã hóa dư thừa
trong mỗi khối chức năng của hệ thống nén video, chủ yếu là do thực tế rằng các DIR là
một thiết kế tập từ các khoản đóng góp khác nhau. Trong cuộc họp JCT-VC thứ hai trong
tháng 7 năm 2010, quá trình bắt đầu lựa chọn các thiết lập cần thiết tối thiểu của mã hóa
các công cụ cho mỗi khối chức năng của triệt để thử nghiệm từng phần của DIR. Dựa
trên báo cáo kết quả kiểm tra thành phần đầy đủ
KẾT LUẬN
Tiêu chuẩn HEVC mới nổi đã được phát triển và hợp tác tiêu chuẩn hóa bởi cả ITU-T
VCEG và các tổ chức ISO/IEC MPEG. HEVC đại diện cho một số tiến bộ trong công
nghệ video mã hóa. Thiết kế lớp mã hóa video của nó được dựa trên các khái niệm dựa
trên khối lai video mã hóa thông thường, nhưng với một số khác biệt quan trọng so với
các tiêu chuẩn trước khi sử dụng tốt với nhau, các tính năng của các thiết kế mới cung
cấp khoảng một khoản tiết kiệm 50% tốc độ bit cho chất lượng nhận thức liên quan đến
việc thực hiện các tiêu chuẩn trước đó (đặc biệt là đối với một đoạn video có độ phân giải
cao). Để biết thêm chi tiết về hiệu suất nén. Tuy nhiên, các bộ giải mã phức tạp thực hiện
HEVC tổng thể không phải là một gánh nặng lớn (ví dụ, so với H.264/MPEG-4 AVC) sử
dụng công nghệ chế biến hiện đại, và mã hóa phức tạp cũng là quản lý được.
38
TÀI LIỆU THAM KHẢO
[1] B. Bross, W.-J. Han, G. J. Sullivan, J.-R. Ohm, and T. Wiegand, High Efficiency
Video Coding (HEVC) Text Specification Draft 9, document JCTVC-K1003, ITUT/ISO/IEC Joint Collaborative Team on Video Coding (JCT-VC), Oct. 2012.
[2] Video Codec for Audiovisual Services at px64 kbit/s, ITU-T Rec. H.261, version
1: Nov. 1990, version 2: Mar. 1993.
[3] Video Coding for Low Bit Rate Communication, ITU-T Rec. H.263, Nov. 1995
(and subsequent editions).
[4] Coding of Moving Pictures and Associated Audio for Digital Storage Media at up
to About 1.5 Mbit/s—Part 2: Video, ISO/IEC 11172-2 (MPEG-1), ISO/IEC JTC 1, 1993.
39
[5] Coding of Audio-Visual Objects—Part 2: Visual, ISO/IEC 14496-2 (MPEG-4
Visual version 1), ISO/IEC JTC 1, Apr. 1999 (and subsequent editions).
[6] Generic Coding of Moving Pictures and Associated Audio Information— Part 2:
Video, ITU-T Rec. H.262 and ISO/IEC 13818-2 (MPEG 2 Video), ITU-T and ISO/IEC
JTC 1, Nov. 1994.
[7] Advanced Video Coding for Generic Audio-Visual Services, ITU-T Rec. H.264
and ISO/IEC 14496-10 (AVC), ITU-T and ISO/IEC JTC 1, May 2003 (and subsequent
editions).
[8] H. Samet, “The quadtree and related hierarchical data structures,” Comput.
Survey, vol. 16, no. 2, pp. 187–260, Jun. 1984.
[9] T. Wiegand, G. J. Sullivan, G. Bjøntegaard, and A. Luthra, “Overview of the
H.264/AVC video coding standard,” IEEE Trans. Circuits Syst. Video Technol., vol. 13,
no. 7, pp. 560–576, Jul. 2003.
[10] S. Wenger, “H.264/AVC over IP,” IEEE Trans. Circuits Syst. Video Technol.,
vol. 13, no. 7, pp. 645–656, Jul. 2003.
[11] T. Stockhammer, M. M. Hannuksela, and T. Wiegand, “H.264/AVC in wireless
environments,” IEEE Trans. Circuits Syst. Video Technol., vol. 13, no. 7, pp. 657–673,
Jul. 2003.
[12] H. Schwarz, D. Marpe, and T. Wiegand, “Overview of the scalable video coding
extension of the H.264/AVC standard,” IEEE Trans. Circuits Syst. Video Technol., vol.
17, no. 9, pp. 1103–1120, Sep. 2007.
[13] D. Marpe, H. Schwarz, and T. Wiegand, “Context-adaptive binary arithmetic
coding in the H.264/AVC video compression standard,” IEEE Trans. Circuits Syst. Video
Technol., vol. 13, no. 7, pp. 620–636, Jul. 2003.
[14] G. J. Sullivan, Meeting Report for 26th VCEG Meeting, ITU-T SG16/Q6
document VCEG-Z01, Apr. 2005.
[15] Call for Evidence on High-Performance Video Coding (HVC), MPEG document
N10553, ISO/IEC JTC 1/SC 29/WG 11, Apr. 2009.
[16] Joint Call for Proposals on Video Compression Technology, ITU-T SG16/Q6
document VCEG-AM91 and ISO/IEC MPEG document N11113, ITU-T and ISO/IEC
JTC 1, Jan. 2010.
40
[17] Test Model Under Consideration, ITU-T/ISO/IEC Joint Collaborative Team on
Video Coding (JCT-VC) document JCTVC-A205, ITU-T and ISO/IEC JTC 1, Apr.
2010.
41
[...]... xử lý tải và bộ nhớ Giới hạn cấp độ được thiết lập về tốc độ tối đa mẫu, kích thước hình ảnh tối đa, tốc độ bit tối đa, tỷ lệ nén tối thiểu và năng lực của các DPB và đệm hình ảnh được mã hóa (CPB) chứa dữ liệu nén trước khi giải mã nó cho dữ liệu Trong thiết kế của HEVC, nó đã được xác định rằng một số ứng dụng tồn tại mà có yêu cầu mà chỉ khác nhau về tốc độ bit tối đa và khả năng CPB Để giải quyết... bài viết này, chúng tôi tập trung sự chú ý của chúng tôi về việc sử dụng điển hình: các thành phần YCbCr 4: 2: 0 mẫu và 8 b mỗi mẫu cho các đại diện của các đầu vào được mã hóa và giải mã tín hiệu video đầu ra Các hình ảnh video được thường dần dần lấy mẫu với hình chữ nhật kích thước W × H trong đó W là chiều rộng và H là chiều cao của hình ảnh về mẫu luma Mỗi mảng 13 thành phần chroma, với 4: 2: 0... dù trường hợp ngoại lệ được áp dụng khi kích thước tối thiểu nhất định được đạt cho chroma CTU chứa một cú pháp cho phép tách các NHTM đến một kích thước phù hợp được lựa chọn dựa trên các đặc tính tín hiệu của khu vực đó được bao phủ bởi các CTB Quá trình tách có thể được lặp cho đến khi kích thước cho một CB luma đạt đến một kích thước tối thiểu cho phép luma CB được chọn bởi bộ mã hóa bằng cách... đổi khối được tiếp tục xử lý bằng cách chuyển đổi mã hóa Các bộ mã hóa cho các TB luma tối đa và tối thiểu kích thước mà nó sẽ sử dụng Splitting là tiềm ẩn khi có kích thước CB là lớn hơn so với kích thước tối đa TB Không tách là tiềm ẩn khi chia sẽ cho kết quả trong một kích thước luma TB nhỏ hơn tối thiểu quy định Kích thước chroma TB là một nửa kích thước TB luma trong mỗi chiều, trừ khi kích thước... TSA hình ảnh) 11 Hình 2 Ví dụ về một cấu trúc thời gian dự đoán và các giá trị POC, để giải mã, và nội dung RPC cho mỗi bức ảnh 3.3 Thông số khác VPS đã được thêm vào như là siêu dữ liệu để mô tả các đặc tính tổng thể của chuỗi video được mã hóa, bao gồm cả phụ thuộc giữa các lớp con tạm thời Mục đích chính của việc này là để cho phép mở rộng tương thích của các tiêu chuẩn về hiệu tại tầng hệ thống, ví... chuẩn về hiệu tại tầng hệ thống, ví dụ như, khi lớp cơ bản của một tương lai mở rộng khả năng mở rộng bitstream hoặc MultiView sẽ cần phải được giải mã bởi một bộ giải mã di sản, nhưng mà thêm thông tin về cấu trúc bitstream mà chỉ liên quan đến các bộ giải mã tiên tiến sẽ được bỏ qua 3.4 Tham khảo Hình Sets và tham khảo Hình Lists Đối với quản lý hình ảnh nhiều tài liệu tham khảo, một tập hợp các hình... mẫu luma, như được sử dụng bởi tất cả của ITU-T và ISO / IEC JTC 1 chuẩn video mã hóa từ H.261 (mà đã được chuẩn hóa vào năm 1990), HEVC hỗ trợ kích thước CTBs lựa chọn theo nhu cầu của các bộ mã hóa về bộ nhớ và yêu cầu tính toán Sự hỗ trợ của CTBs lớn hơn so với tiêu chuẩn trước đó là đặc biệt khi mã hóa nội dung video độ phân giải cao Các CTB luma và CTBs hai sắc độ cùng với cú pháp liên quan tạo... là mạnh mẽ hơn để mất mát dữ liệu hơn trong việc thiết kế H.264 / MPEG-4 AVC trước và là thuận lợi hơn cho các hoạt động như truy cập ngẫu nhiên và chế độ hoạt động (ví dụ như, tua đi, tua lại nhanh, tìm kiếm, và chuyển đổi bitstream thích ứng) Một khía cạnh quan trọng của cải tiến này là cú pháp rõ ràng hơn, thay vì phụ thuộc vào suy luận từ các trạng thái nội bộ được lưu trữ trong quá trình giải... thước tối thiểu cho phép luma CB được chọn bởi bộ mã hóa bằng cách sử dụng cú pháp trong SPS và luôn luôn là 8 × 8 hoặc lớn hơn (trong đơn vị của mẫu luma) Các ranh giới của hình ảnh là theo đơn vị tối thiểu cho phép kích thước luma CB Kết quả là, ở các cạnh phải và phía dưới của bức tranh, một số CTUs có thể bao gồm các khu vực mà là một phần bên ngoài ranh giới của hình ảnh Tình trạng này được phát... sau Khi chế độ dự đoán được hiệu như inter, nó là số liệu luma và chroma NHTM được chia thành một, hai hoặc bốn PBs Việc chia tách thành bốn PBs chỉ được phép khi kích thước CB bằng với kích thước tối thiểu cho phép CB, sử dụng một loại hình tương đương của tách như nếu không có thể được thực hiện ở cấp CB của thiết kế chứ không phải ở cấp PB Khi một CB được chia thành bốn PBs, mỗi PB bao gồm một góc ...MỤC LỤC TỔNG QUAN VỀ MÃ HÓA VIDEO HIỆU SUẤT CAO H265 (HEVC-High Efficiency Video Coding) I GIỚI THIỆU Tóm tắt:Mã hóa video hiệu suất... luma đạt đến kích thước tối thiểu cho phép luma CB chọn mã hóa cách sử dụng cú pháp SPS luôn × lớn (trong đơn vị mẫu luma) Các ranh giới hình ảnh theo đơn vị tối thiểu cho phép kích thước luma... TB luma tối đa tối thiểu kích thước mà sử dụng Splitting tiềm ẩn có kích thước CB lớn so với kích thước tối đa TB Không tách tiềm ẩn chia cho kết kích thước luma TB nhỏ tối thiểu quy định Kích