Có 2 hướng tổng hợp tiếng nói chính là tổng hợp dựa vào việc phân tích tần số và tổng hợp dựa vào việc ghép âm. Đối với hướng phân tích tần số, ta phân tích các đặc trưng tiếng nói để tìm ra tần số, pha. Khi tổng hợp sẽ tái tạo tiếng nói từ các đặc tính này. Theo nghiên cứu của các chuyên gia thì hướng này rất phức tạp và chất lượng âm còn kém. Trong khi đó, hướng tổng hợp dựa vào việc ghép âm dễ dàng được hiện thực trên máy tính hơn.
Ghép từng từ đơn :
Tính chất tiếng Việt là âm của từ đầu không ảnh hưởng âm các từ sau. Do đó ta có thể ghép các từ thành một câu.
Tiếng Việt phổ thông có khoảng hơn 6000 từ. Nếu ta thu với tần số lấy mẫu 8KHz, 8 bit/mẫu, mono, nén PCM. Mỗi từ thu trong 0.8 giây thì khối lượng âm thanh cần lưu trữ là:
6000 * 8000 * 1 * 1 * 0.8 = 38,400,000 byte
Nhận xét :
- Phương pháp này đạt độ tự nhiên cao nhất và cách hiện thực đơn giản nhất.
- Mức độ ảnh hưởng của từ đi trước với từ đi sau là không đáng kể và có thể chấp nhận được.
- Không thể thu âm đầy đủ các từ trong tiếng Việt vì tiếng Việt có rất nhiều từ vay mượn từ các thứ tiếng khác, và có từ không có trong từ điển tiếng Việt nhưng vẫn có thể phát âm ra được.
- Khối lượng dữ liệu của phương pháp này là khá lớn so với các phương pháp khác. Tuy nhiên, với dung lượng đĩa cứng ngày nay thì vấn đề dung lượng như thế không phải là vấn đề đáng lo ngại.
Ghép âm theo các âm tiết cơ bản nhất:
SVTH : Bùi Danh Đạt Trang 26
Ví dụ: "bằng" được ghép từ [b]+[ằ]+[ng]
Phương pháp này có khối lượng lưu trữ nhỏ nhất vì chỉ có 28 phụ âm và 68 nguyên âm cùng các biến thể thanh. Khối lượng lưu trữ:
(28+68) * 8000 * 1 * 1 * 0.8 = 614,400 byte
Nhận xét :
- Khối lượng lưu trữ rất nhỏ
- Rất khó hiện thực vì khi phụ âm có vai trò làm phụ âm cuối, chúng được phát âm khác với khi chúng làm phụ âm đầu. Phụ âm đầu mở ra để kết hợp với nguyên âm, phụ âm cuối khép lại không kết hợp với nguyên âm nữa. Cần chú ý khi phát âm nguyên âm trong trường hợp âm cuối là loại tắc (vô thanh), ví dụ như p, t, c. Khi này thanh điệu không thể hiện trên phụ âm cuối mà thể hiện ở giai đoạn chuyển tiếp từ nguyên âm sang âm cuối.
- Chất lượng âm của phương pháp này rất thấp.
Ghép âm từ hai âm (loại 1):
Ví dụ : "bằng" được ghép từ [b] + [ ằng] .
Một từ được tách ra làm hai phần là phụ âm đầu và vần. điều này căn cứ trên đặc điểm tiếng Việt là phụ âm đầu ít phụ thuộc vào phần vần và thanh điệu.
Trong đó, phụ âm đầu được cắt rất ngắn chỉ còn lại âm bật. Phần vần cũng được cắt bỏ ở phần đầu một lượng tưng ứng.
Phương pháp này cho chất lượng âm thanh tương đương so với phương pháp ghép từ đơn. Theo phương pháp này ta tách được 28 phụ âm đầu và 650 phần vần. Với cách thu âm như trước thì khối lượng lưu trữ sẽ là:
650 * 8000 * 1 * 1 * (0.8 - 0.15) + 28 * 8000 * 1 * 1 * 0.15 = 3,143,600 byte
Nhận xét :
SVTH : Bùi Danh Đạt Trang 27
Âm của phụ âm “tr”
Âm của vần “inh” Vần “inh” sau khi được xén bớt phần thừa Âm “tr” sau khi được xén bớt phần thừa
Âm của từ “trinh”
HÌNH MÔ TẢ CÁCH GHÉP HAI ÂM THÀNH TỪ
- Một từ tiếng việt bao gồm 2 phần: phần âm đầu và phần vần. Âm đầu chủ yếu là các phụ âm trong tiếng việt. Ứng với một loại âm đầu ( ở đây chủ yếu là phụ âm ) phần vần ở phía sau sẽ thay đổi theo một quy luật nào đó so với phần vần chuẩn khi chưa có âm đầu tuỳ theo cách phát âm của phụ âm. Chẳng hạn : /t/ /am/ t
/ch/ /am/ ch
nếu đem /ch/ ráp với /am/ t thì tiếng phát ra sẽ không trung thực, tức là khi xây dựng mô hình âm thanh phần vần độc lập với so với âm đầu sẽ không tận dụng được hết tính phân biệt giữa các từ do sự biến đổi phổ tín hiệu phần vần so với tác động của các âm đầu khác nhau.
- Để tìm ra quy luật biến đổi phổ tín hiệu này đòi hỏi ta phải có máy phân tích phổ và đi vào lĩnh vực xử lý tiếng nói, ta mới có thể quan sát và phân tích mẫu sóng âm tại từng thời điểm nhằm tìm ra quy luật.
Ghép âm từ hai âm (loại 2):
Ví dụ "bằng" được ghép từ [bà]+[ằng]
Phương pháp này gần giống phương pháp trên nhưng phần phụ âm đầu được cắt lấn sang phần vần. Theo đó, ta sẽ có 28*650 = 18,200 phần phụ âm đầu tương ứng với 650 phần vần. Trong thực tế, chỉ cần khoảng 1400 phần đầu.
Như vậy khối lượng lưu trữ tổng cộng sẽ là:
(1400+650)* 8000 * 1 * 1 * 0.8 = 13,120,000 byte
Nhận xét :
- Vị trí cắt lấn sang phần vần nên khó xác định vì đây là vùng trộn lẫn giữa hai âm.
- Tuy khối lượng lưu trữ là nhỏ so với ghép từ (2.5 lần) nhưng lớn hơn nhiều so với ghép âm loại 1 (4 lần).
- Khi dùng phương pháp ghép âm thì việc chuẩn bị các âm mất thời gian rất lớn. Việc chuẩn bị âm được thực hiện thủ công do không thể xác định chính xác vị trí cần cắt. Do đó nếu phương pháp này có số lượng âm lớn gấp 4 lần thì thời gian và chi phí bỏ ra cũng lớn gấp 4 lần so với phương pháp ghép âm loại một.
SVTH : Bùi Danh Đạt Trang 28
typedef struct {
WORD wFormatTag;
WORD nChannels;
DWORD nSamplesPerSec;
DWORD nAvgBytesPerSec;
WORD nBlockAlign;
WORD wBitsPerSample;
WORD cbSize;
} WAVEFORMATEX;
- Ngoài ra chất lượng âm của phương pháp này cũng chưa được kiểm nghiệm để có thể đánh giá ưu điểm về chất lượng so với phương pháp loại 1.
III. Giới thiệu về file Wave (*.wav) :