Trong mạng chuyển mạch gói, các gói tin chuyển trên mạng gồm có phần tiêu đề (header) và phần tải tin (payload). Phần tiêu đề chứa địa chỉ đích cũng như là các thông tin về đường truyền, điều khiển và quản lý để mỗi gói có thể tìm đến địa chỉ đích và cổng ứng dụng/phiên tương ứng. Phần tải tin chứa các thông tin hữu ích đã được đóng gói.
Để thực hiện thoại gói, một số lượng định trước các giá trị của luồng số phát ra từ bộ mã hoá sẽ được nhóm lại và đóng gói vào phần tải tin để tạo ra gói thoại phù hợp cho truyền dẫn. Với thoại truyền qua mạng IP, IETF khuyến nghị đóng gói các khung sử dụng RTP và giao thức vận chuyển UDP.
Hình 3.5: Mô hình hệ thống truyền thông thoại gói
Tại phía vào, tín hiệu thoại tương tự được số hoá, sau đó một hoặc nhiều khung được đóng vào một gói dữ liệu. Đối với VoIP, quá trình này liên quan đến việc đóng gói UDP cho các gói tin RTP. Gói UDP sau đó được truyền qua mạng IP. Mạng này sẽ gây ra thêm trễ chuyển mạch, định tuyến và hàng đợi, biến thiên trễ (Jitter) và có thể cả hiện tượng mất gói.
Tại đầu ra, ngoài các công việc như giải mã, tách khung và tách gói, còn cần thêm một số cơ chế xử lý dữ liệu và gói để làm giảm ảnh hưởng của các yếu tố như trễ, mất gói hay biến động trễ,…Mục tiêu của cơ chế này là để đảm bảo tính thời gian thực, tính sống động và tính tương tác của luồng thoại. Qúa trình sử lý này có thể làm tăng thêm trễ. Khuyến nghị ITU-T G.114 chỉ ra rằng trễ một chiều từ đầu cuối đến đầu cuối ETE (End to End) phải ít hơn 150 ms và tỉ lệ gói bị mất phải ít (ví dụ phải nhỏ hơn 5%) để có thể duy trì chất lượng tín hiệu thoại.
Càng ít khung được đóng trong một gói thì tỉ lệ thông tin tiêu đề/tải tin và trễ xử lí càng lớn. Ngược lại, càng nhiều khung trong một gói thì trễ xử lí/lưu và truyền dẫn gói càng lớn. Trễ mạng tăng không chỉ khiến phía nhận lãng phí bộ đệm để chờ đợi trong thời gian dài trước khi phục hồi tín hiệu thoại mà còn ảnh hưởng đến tính sống động và chân thực của tiếng nói trong quá trình đàm thoại. Thêm vào đó, trong cuộc
đàm thoại thời gian thực, việc mất một số lượng lớn các khung liên tiếp có thể khiến người đàm thoại có ấn tượng về sự mất kết nối. Các nhà thiết kế và quản lý mạng phải hết sức lưu ý để đảm bảo các thông số trên nằm trong khoảng cho phép.
Thông thường các mẫu thoại từ 5 đến 48 ms sẽ được mã hoá và đôi khi nhiều khung được kết hợp lại vào một gói trước khi tiến hành đóng gói tin RTP.
Các chuẩn cho mã hoá thoại phổ biến là G.711, G.723.1 và G.729 cho các tốc độ bit lần lượt là 64, 5.3/6.3 và 8 kb/s. Ví dụ, mẫu G.723.1(6.3 kb/s) có độ dài 30 ms tạo ra 192 bit tải tin, cộng thêm tất cả các tiêu đề cần thiết và mã sửa lỗi FEC(Forward Error Correction) có thể tạo ra một gói khoảng 600 bit, kết quả là tốc độ bit sẽ vào khoảng 20 kb/s. Như vậy, việc tăng 300% băng thông yêu cầu dường như không hợp lý trừ khi kết hợp với cơ chế nén tiêu đề trước khi truyền tín hiệu qua mạng.
Hình 3.6: Ví dụ đóng gói khung thoại VoIP
Ví dụ thứ hai là một mẫu 7 ms của bộ mã hoá G.711 (64 kb/s) có thể tạo ra gói tin ứng dụng VoIP độ dài 128 byte. Như trên hình vẽ có thể thấy, gói tin này bao gồm cả 18 byte tiêu đề MAC và 8 byte tiêu đề Ethernet. Trong tổng số 26 byte tiêu đề khung Ethernet thì có 7 byte mào đầu cần thiết cho việc đồng bộ, 12 byte cho địa chỉ nguồn và đích (mỗi địa chỉ gồm 6 byte), 1 byte xác định vị trí bắt đầu của khung, 2 byte dành cho trường chiều dài khung, 4 byte kiểm tra lỗi FCS. Ngoài ra, các tiêu đề RTP, UDP và IP cộng lại sẽ thêm vào là 12+8+20=40 byte.
Như vậy, có thể thấy rằng các phần tiêu đề chiếm một tỉ lệ khá lớn trong tổng số chiều dài gói tin. Chính vì thế, IETF khuyến nghị sử dụng kỹ thuật nén tiêu đề tương tự như đối với TCP. Kỹ thuật này liên quan tới việc nén tiêu đề RTP, có thể giảm kích thước tiêu đề RTP/UDP/IP từ 12-40 byte xuống còn 2-4 byte. Điều này sẽ làm giảm kích thước gói nói chung và cho phép cải thiện đáng chất lượng truyền dẫn.
Khi kích thước gói lớn thì tổng độ trễ từ đầu cuối đến đầu cuối, bao gồm cả trễ xử lý, hàng đợi, chuyển mạch và truyền dẫn có thể lên cao cỡ 300 ms, mặc dù khuyến nghị G.114 đã chỉ ra rằng để đảm bảo chất lượng thoại, trễ đầu cuối một chiều phải ít
hơn 150 ms. Tuy nhiên, độ đo MOS (Mean Opinion Score) cho chất lượng thoại thường dựa vào tỉ lệ mất gói và biến động trễ nhiều hơn là thời gian trễ truyền dẫn.