TÍNH CẤP THIẾT CỦA LUẬN ÁN
Với sự phát triển mạnh mẽ của smartphone, mạng di động không chỉ phục vụ cho thoại mà còn cung cấp nhiều ứng dụng giá trị gia tăng như SMS và thanh toán trực tuyến Tuy nhiên, sự tiện lợi này cũng đi kèm với các lỗ hổng bảo mật, đòi hỏi cần bảo vệ thông tin thoại và dữ liệu người dùng Để phòng tránh các rủi ro như nghe lén, lộ lọt thông tin hay cài đặt phần mềm gián điệp, việc đảm bảo an toàn trong giao dịch thương mại và an ninh quốc gia trở nên cực kỳ quan trọng Bảo mật thông tin trên mạng di động đang trở thành một vấn đề nóng hiện nay.
Mặc dù mạng viễn thông di động GSM đã tích cực triển khai các biện pháp bảo mật thông qua quá trình sinh khóa, xác thực và mã hóa bằng các thuật toán chuẩn như A8, A3, A5, nhưng thông tin thoại trong mạng lõi vẫn tiềm ẩn rủi ro Các thủ đoạn đánh cắp tinh vi và tấn công công nghệ cao từ các đối tượng thù địch cho thấy rằng các giải pháp bảo mật hiện tại không đủ mạnh để bảo vệ thông tin thoại và dữ liệu trong các giao dịch quan trọng, đặc biệt trong lĩnh vực quốc phòng và an ninh Điều này nhấn mạnh tính cấp thiết của Luận án trong việc tìm kiếm giải pháp bảo mật hiệu quả hơn cho mạng di động.
Nếu tất cả hạ tầng mạng viễn thông di động được phủ sóng 3G/LTE và truyền dẫn trên nền tảng IP, việc bảo mật thông tin thoại và dữ liệu từ đầu cuối đến đầu cuối sẽ trở nên thuận lợi và dễ dàng hơn Tuy nhiên, thực tế cho thấy nhiều mạng viễn thông di động, đặc biệt ở Việt Nam, vẫn chưa phủ kín sóng 3G/LTE, dẫn đến nhiều thách thức trong các giao dịch thương mại.
Trong lĩnh vực quốc phòng và an ninh, việc triển khai các mạng truyền dẫn như PSTN, mạng vệ tinh, sóng ngắn và sóng cực ngắn HF/VHF/UHF vẫn đang diễn ra Mặc dù băng thông của những mạng này không lớn, nhưng chúng có tính cơ động cao và dễ dàng trong việc lắp đặt, đồng thời đảm bảo độ bảo mật cao Do đó, cần thiết phải phát triển các giải pháp và kỹ thuật để kết nối liên thông và bảo mật thông tin thoại cũng như dữ liệu trên nhiều môi trường truyền dẫn khác nhau, phục vụ cho mục đích quốc phòng, an ninh và một số giao dịch thương mại đặc biệt Đây chính là mục tiêu mà luận án cần tập trung nghiên cứu và giải quyết.
Thuật toán sinh khóa, xác thực và mã hóa hiện tại không đủ mạnh để đảm bảo an toàn cho thông tin giao dịch thương mại và thông tin quốc phòng Do đó, cần nghiên cứu và phát triển các thuật toán bảo mật dữ liệu và tín hiệu thoại với độ mạnh mẽ cao nhất Tuy nhiên, những thuật toán này phải có độ phức tạp thực thi hợp lý để phù hợp với các ứng dụng trên thiết bị có tài nguyên hạn chế Đây là một thách thức lớn, yêu cầu cân bằng giữa độ bảo mật cao và khả năng sử dụng tài nguyên hiệu quả trong quá trình thực thi.
Mặc dù nhiều hãng như Crypto AG, Motorola, và GSMK CryptoPhone đã nghiên cứu và phát triển sản phẩm bảo mật thông tin thoại, nhưng hiện tại, các giải pháp này chủ yếu chỉ áp dụng cho thiết bị đầu cuối và công nghệ truyền dữ liệu cụ thể như 3G/LTE Việc bảo mật thông tin thoại và dữ liệu giữa các thiết bị công nghệ khác nhau vẫn chưa được giải quyết triệt để, đặc biệt khi truyền dẫn qua các mạng khác nhau Do đó, nghiên cứu về mã hóa dữ liệu tín hiệu thoại trên các thiết bị đầu cuối và mạng truyền dẫn vẫn là một lĩnh vực còn nhiều tiềm năng và cần nhiều phương pháp tiếp cận khác nhau Xuất phát từ những phân tích này, nghiên cứu sinh đã chọn đề tài “Xây dựng thuật toán truyền dữ liệu qua kênh thoại của mạng GSM và ứng dụng thuật toán sinh số giả ngẫu.”
3 nhiên dựa trên các dãy phi tuyến lồng ghép để bảo mật dữ liệu” cho luận án của mình.
MỤC TIÊU, ĐỐI TƯỢNG, PHẠM VI VÀ PHƯƠNG PHÁP NGHIÊN CỨU
Mục tiêu nghiên cứu
Có 03 mục tiêu chính của luận án, đó là:
Nghiên cứu và đề xuất giải pháp truyền dữ liệu thoại mã hóa hiệu quả trên các thiết bị đầu cuối qua kênh thoại analog trong các mạng viễn thông khác nhau Mục tiêu là thực hiện mã hóa bảo mật thông tin thoại từ thiết bị đầu cuối đến đầu cuối trong các dịch vụ thoại và dữ liệu mạng di động 2G/3G/LTE, cũng như từ mạng di động đến máy điện thoại đầu cuối PSTN Đảm bảo chất lượng âm thanh ở mức chấp nhận được sau khi giải mã, với phổ tần tín hiệu thoại sau mã hóa tương tự như nhiễu trắng.
Lựa chọn và xây dựng thuật toán cần đảm bảo độ tin cậy và tính khả thi cho việc thực hiện thời gian thực trên các thiết bị có tài nguyên tính toán hạn chế Đồng thời, thuật toán phải đạt được độ phức tạp tính toán tối ưu để đảm bảo độ mật ở mức cao nhất.
Sử dụng Kit thực thi để chứng minh độ an toàn và bảo mật của thuật toán thông qua các đặc tính như tương quan, đồng sắc xuất và phân bố nhọn của dãy giả ngẫu nhiên Thực nghiệm này liên quan đến việc xử lý nén tín hiệu tiếng nói, mã hóa và điều chế để truyền dữ liệu mã hóa an toàn qua kênh tiếng nói mạng GSM Điều này được thực hiện mà không cần thay đổi cấu hình thiết bị đầu cuối hoặc dịch vụ mạng viễn thông hiện tại, đảm bảo tính tương thích dịch vụ liên mạng Các kết quả nghiên cứu sẽ được ghép nối và đóng gói thành sản phẩm hoàn chỉnh.
Đối tượng nghiên cứu
Đối tượngnghiên cứu của Luận án này giới hạn ở các giải pháp truyền dữ liệu số tín hiệu thoại bảo mật qua kênh truyền analog bao gồm:
Nghiên cứu tổng quan về các mạng viễn thông di động tập trung vào cơ chế đăng nhập, xác thực và bảo mật, đồng thời phân tích các thuật toán mã hóa tiếng nói (Vocoder) Bài viết đề xuất lựa chọn một thuật toán tối ưu nhằm nâng cao hiệu quả bảo mật và chất lượng truyền tải thông tin trong các hệ thống viễn thông hiện đại.
4 toán nén thoại để áp dụng trong các kênh truyền bang hẹp, yêu cầu độ trễ thấp, tính toán thời gian thực
Kỹ thuật xử lý tín hiệu thoại và mô hình mạng đóng vai trò quan trọng trong việc truyền dẫn tín hiệu thoại qua các mạng khác nhau Bài viết này nghiên cứu các thông số kỹ thuật và đặc trưng cơ bản của các thành phần mạng, đồng thời xem xét một số phương pháp điều chế nhằm tạo ra tín hiệu với phổ tần và đặc tính tương tự như tín hiệu tiếng nói của con người Điều này giúp cải thiện chất lượng truyền tải qua kênh thoại mạng GSM và các mạng liên kết như GSM/PSTN/HF/VHF.
(iii) Phân tích, xây dựng và sử dụng dãy tạo số tựa ngẫu nhiên phi tuyến 2 chiều theo kiểu lồng ghép để mã hóa dữ liệu:
Nghiên cứu các phương pháp sinh dãy lồng ghép, bao gồm cả lồng ghép phi tuyến, nhằm lựa chọn phương pháp lồng ghép phi tuyến đa chiều Mục tiêu là tạo ra dãy giả ngẫu nhiên với thuộc tính độ dài lớn, độ phức tạp cao, hàm tương quan tốt, đồng thời thực thi nhanh trên các vi xử lý có tài nguyên hạn chế.
Tổng hợp kết quả nghiên cứu và mô phỏng để phát triển sản phẩm bảo mật thoại hoàn chỉnh, có khả năng trình diễn qua các kênh Voice trên điện thoại thông thường Sản phẩm này cho phép kiểm tra chất lượng âm thanh sau khi giải mã và đánh giá chất lượng mã thông qua máy phân tích phổ sau khi mã hóa.
Nghiên cứu các phương pháp nén và mã hóa tín hiệu tiếng nói là rất quan trọng để tối ưu hóa chất lượng truyền tải Bên cạnh đó, việc tìm hiểu đặc điểm cơ bản của mạng truyền dẫn thoại, đặc biệt là mạng PSTN và GSM, giúp nâng cao hiệu suất kết nối Đồng thời, nghiên cứu về các phương pháp điều chế và giải điều chế dữ liệu cũng đóng vai trò quan trọng trong việc cải thiện khả năng truyền tải thông tin.
Nghiên cứu mô hình toán học nhằm xây dựng dãy PN phi tuyến với cấu trúc lồng ghép hai chiều Đánh giá đặc tính của mã phi tuyến lồng ghép dựa trên các tiêu chí như hàm tương quan, kích thước tập hợp, khả năng ngẫu nhiên hóa, tốc độ sinh và mã hóa dữ liệu trên vi xử lý với tài nguyên hạn chế.
Phương pháp nghiên cứu được thực hiện dựa trên tài liệu và công trình đã công bố, kết hợp với việc tổng hợp và phân tích kết quả nghiên cứu về mạng viễn thông di động tại Việt Nam, đặc biệt là trong lĩnh vực bảo mật thông tin thoại Bước đầu tiên sử dụng các công cụ toán học và MATLAB để phát triển bộ nén và mã hóa tín hiệu tiếng nói Tiếp theo, các kết quả mô phỏng trên máy tính được chuyển đổi sang thực thi trên chip DSP hoặc ARM để nén, mã hóa và điều chế tín hiệu Kết quả nghiên cứu được kiểm chứng qua mô phỏng và thực nghiệm, mang lại ý nghĩa khoa học và thực tiễn trong việc nâng cao bảo mật thông tin thoại trên các mạng viễn thông.
Luận án đã đề xuất một phương pháp mới để điều chế dữ liệu tựa ngẫu nhiên, cụ thể là dữ liệu thoại sau nén bằng cách sử dụng dãy phi tuyến lồng ghép 2 chiều mã hóa Kỹ thuật này chuyển đổi dữ liệu thành tín hiệu tương tự với cấu trúc phổ tần gần giống với phổ tần của tiếng nói, giúp tránh bị phát hiện bởi các bộ phân tích và nhận dạng tiếng nói trên thiết bị đầu cuối cũng như trong hệ thống mạng viễn thông.
Nghiên cứu đã phát triển một phương pháp và sản phẩm hoàn chỉnh để bảo mật thông tin thoại bằng kỹ thuật số, đã được áp dụng trong ngành Cơ yếu của Việt Nam Hướng phát triển tiếp theo có thể là xây dựng giải pháp truyền dữ liệu mật dưới dạng tín hiệu giả thoại qua các kênh như PSTN, HF, Satellite và các mạng IP.
CÁC KẾT QUẢ NGHIÊN CỨU ĐÃ ĐẠT ĐƯỢC
Các đóng góp khoa học của luận án bao gồm:
Đề xuất một kiến trúc lồng ghép mới cho m-dãy lồng ghép, một phương pháp tiên tiến trong việc sinh dãy lồng ghép và lồng ghép phi tuyến, đã được trình bày chi tiết trong bài báo [1b] Bên cạnh đó, bài viết cũng xây dựng giải pháp bảo mật dữ liệu thoại thông qua việc sử dụng thuật toán sinh số giả ngẫu nhiên dựa trên dãy phi tuyến lồng ghép kiểu mới.
(ii) Đề xuất thuật toán cải tiến tốc độ nén, nâng cao chất lượng mã thoại MELPe (có công bố các nội dung liên quan trong bài báo [2b]);
Đề xuất thực hiện kỹ thuật điều chế và giải điều chế nhằm truyền dữ liệu thoại mã hóa bảo mật qua các thiết bị đầu cuối và mạng truyền dẫn Giải pháp này tập trung vào việc truyền dữ liệu thoại bảo mật qua kênh thoại GSM cũng như các kênh hữu tuyến và vô tuyến băng hẹp khác, chi tiết được trình bày trong bài báo [3b].
Tùy biến rút gòn giúp tích hợp các chương trình nén và điều chế tín hiệu số được mô phỏng trên máy tính vào Vi xử lý STM32 Điều này cho phép vi xử lý hoạt động với đầy đủ tính năng như trên máy tính, đồng thời đảm bảo khả năng xử lý thời gian thực, và đã được phát triển thành sản phẩm hoàn chỉnh.
BỐ CỤC CỦA LUẬN ÁN
Cấu trúc của luận án gồm có ba chương với các nội dung được tóm tắt như sau:
Chương 1 của bài viết cung cấp cái nhìn tổng quan về mạng viễn thông di động GSM, nhấn mạnh các vấn đề an toàn và bảo mật, cũng như những điểm yếu dễ bị tấn công trong mạng này Bài viết phân tích sâu về xác thực và bảo mật trong mạng GSM, đồng thời trình bày các đặc điểm của tín hiệu thoại cơ bản và mô hình tạo tiếng nói Ngoài ra, chương này cũng đề cập đến quy trình mã hóa, nén và truyền tín hiệu thoại qua các mạng khác nhau Cuối cùng, bài viết đưa ra các định hướng giải quyết cho việc truyền dữ liệu thoại mã hóa hiệu quả trên các thiết bị đầu cuối thông qua các kênh thoại analog, đồng thời đảm bảo tính bảo mật cao cho thông tin thoại thời gian thực mà không cần thay đổi cấu hình thiết bị hoặc dịch vụ mạng hiện tại.
Chương 2 trình bày các giải pháp bảo mật cho tín hiệu thoại di động, bao gồm việc đề xuất giải pháp bảo mật tối ưu Chúng tôi lựa chọn bộ mã hoá dự đoán tuyến tính kích thích hỗn hợp MELP, đồng thời mô tả và phân tích cải tiến thuật toán để phát triển bộ mã hoá MELP cải tiến với tốc độ thấp cho ứng dụng nén thoại Ngoài ra, chương cũng thảo luận về các giải pháp truyền dữ liệu qua kênh thoại GSM, nêu rõ các hạn chế của kênh thoại GSM và các kênh truyền băng hẹp Chúng tôi đề xuất giải pháp điều chế và giải điều chế để truyền dữ liệu hiệu quả qua kênh thoại GSM và các kênh thoại băng hẹp, kèm theo kết quả thực nghiệm mô phỏng chứng minh chất lượng âm thanh tái tạo sau khi truyền và giải mã.
Chương 3 tập trung vào bảo mật dữ liệu thông qua việc sử dụng thuật toán sinh số giả ngẫu nhiên dựa trên dãy phi tuyến hai chiều lồng ghép Nội dung chương này bao gồm tổng quan về m-dãy, cấu trúc và các tính chất của dãy lồng ghép (tuyến tính và phi tuyến), cùng với việc đánh giá khả năng “ngẫu nhiên hóa” tín hiệu của mã phi tuyến lồng ghép Chương cũng đánh giá các phương pháp sinh dãy lồng ghép và lồng ghép phi tuyến, đồng thời đề xuất một phương pháp tính toán tối ưu để sinh dãy lồng ghép cho các thiết bị có tài nguyên hạn chế, kèm theo chứng minh sự tối ưu của phương pháp này Cuối cùng, chương đề xuất ứng dụng dãy lồng ghép phi tuyến trong kỹ thuật mật mã và thực thi thuật toán mã theo cấu trúc hai cấp, bao gồm cả thuật toán nén/giải nén Melpe và các thủ tục mã mật/giải mã.
Kết luận: Phần này tổng kết các kết quả chính đã đạt được và hướng phát triển tiếp theo từ luận án này
TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU
Tổng quan về mạng viễn thông di động GSM [1][2][29][34]
Cấu trúc mạng di động GSM được chia thành 3 khối chính gồm: Hệ thống con MS,
Hệ thống con trạm gốc BSS bao gồm BSC và các BTS, kết nối người dùng di động với mạng lõi GSM Hệ thống mạng lõi NSS, với khả năng định tuyến cuộc gọi giữa các mobile user qua BSS và thuê bao PSTN qua MSC và GMSC, cùng với NMS, thực hiện quản lý và giám sát toàn bộ mạng Hệ thống giao diện gồm ba lớp: Um kết nối giữa MS và BTS, Abit giữa BTS và BSC, và A giữa BSC và MSC Các khối con cơ bản của hệ thống được mô tả chi tiết trong bài viết.
- Module nhận thực thuê bao – SIM: Subscriber Identity Module
Module này thực chất là một Smart Card chưa các thuật toán A3/8, số IMSI, khóa bí mật Ki và số điện thoại
- Thiết bị đầu cuối – ME: Mobile Equipment
Cấu trúc cơ bản mạng GSM:
Hình 1.1 Cấu trúc cơ bản mạng GSM
Thiết bị này hoạt động tương đối độc lập với các thiết bị mạng truyền dẫn, không sử dụng thuật toán A5 và chỉ có thể kết nối với mạng GSM khi có SIM Nó không biết thuật toán A3/8 và Ki trên SIM.
- Trạm thu phát gốc – BTS: Base Transceiver Station
BTS là thành phần mạng thông tin di động mặt đất phục vụ cho các MS (Thiết bị
Khi được gắn Module SIM, các trạm gốc sẽ liên kết với nhau để kết nối các Cells sóng vô tuyến trong khu vực Những trạm gốc này sau đó sẽ được kết nối với trạm điều khiển MSC của vùng đó.
- Trạm điều khiển gốc – BSC: Base Staition Controller
BSC có vai trò quan trọng trong việc điều khiển các BTS xung quanh, bao gồm việc quản lý công suất phát cho các MS, phân bổ tần số kênh cho các BTS và MS, cũng như điều chỉnh nhảy tần số của các MS khi gặp phải nhiễu.
- Trung tâm chuyển mạch – MSC: Mobile Switching Center
MSC là nốt điều khiển các BSC trong hệ thống GSM, đóng vai trò là thiết bị trung tâm với nhiều chức năng quan trọng Nó thực hiện các nhiệm vụ chuyển mạch, xác thực, đăng ký và liên kết giữa các nốt, đồng thời kết nối với mạng PSTN.
- Đăng ký Thuê bao – HLR: Home Location Register
HLR (Home Location Register) là cơ sở dữ liệu quan trọng lưu trữ thông tin của các thuê bao di động, bao gồm các thông tin lâu dài và dịch vụ mà thuê bao được phép sử dụng Cơ sở dữ liệu này ghi nhận các thông tin như số IMEI, bản sao khóa bí mật Ki, VLR hiện tại và các dịch vụ hiện tại của thuê bao HLR cũng theo dõi các thuê bao bị tạo ra, bị chặn hoặc bị xóa bởi nhà cung cấp dịch vụ mạng.
- Đăng ký đăng nhập vùng - VLR: Visitor Location Register
VLR là một cơ sở dữ liệu quan trọng lưu trữ thông tin về thuê bao di động, bao gồm vị trí hiện tại và trạng thái của MS Nó cung cấp dữ liệu cần thiết để xử lý cuộc gọi khi có yêu cầu Thông tin trong VLR được cập nhật thường xuyên, đặc biệt khi MS bật máy, di chuyển sang BTS hoặc BSC khác, và theo định kỳ.
- Trung tâm xác thực thuê bao – AuC: Authentication Center
AuC có vai trò quan trọng trong việc kết hợp với HLR để cung cấp thông tin cho VLR, xác thực quyền truy nhập của thuê bao MS vào mạng và các quyền dịch vụ liên quan Cơ sở dữ liệu của AuC lưu trữ danh sách các thiết bị ME theo tiêu chuẩn quốc tế (IMSI), thông tin xác thực như khóa bí mật Ki, thông tin định danh Vùng LAI (Location Area Identity), và định danh thuê bao tạm TMSI (Temporary Mobile Subscriber Identity).
- Đăng ký nhận dạng thiết bị - EIR: Equitment Identity Register
EIR lưu giữ một CSDL để giám sát toàn bộ các ME có IMSI sử dụng trên mạng mạng đó (mỗi mạng chỉ có một EIR).
An toàn, bảo mật và một số điểm yếu về vấn đề này trong hệ thống mạng
GSM được phát triển với mục tiêu trở thành một hệ thống không dây an toàn Để đạt được điều này, hệ thống đã được thiết kế với các cơ chế bảo mật hiệu quả.
• Xác thực người dùng, xác thực dịch vụ di động
• Mã hóa các thông tin trao đổi trên môi trường radio
Xác thực người dùng trong mạng GSM sử dụng khóa chia sẻ trước và cơ chế mã hóa qua mạng Tuy nhiên, GSM dễ bị tấn công bởi nhiều loại hình tấn công khác nhau, mỗi loại nhằm vào một phần khác nhau của mạng Đặc biệt, GSM chỉ thực hiện xác thực người dùng với mạng mà không bảo vệ toàn diện trước các mối đe dọa.
Mô hình bảo mật và xác thực của GSM không có khả năng chống chối bỏ, sử dụng các thuật toán A5/(1, 2, 3) chỉ để mã hóa bảo vệ thoại trên kênh vô tuyến Tuy nhiên, giọng nói được truyền ở dạng rõ qua mạng lõi dưới dạng PCM và ADPCM A5 gặp nhiều hạn chế về mật mã, dẫn đến việc không thể đảm bảo an toàn cho cuộc gọi thoại Do đó, A5 không cung cấp bảo mật cuộc gọi hoàn toàn cho khách hàng GSM, và người dùng cũng không có quyền kiểm soát bảo mật mã hóa, mà điều này hoàn toàn phụ thuộc vào nhà cung cấp mạng và nhà sản xuất điện thoại di động.
1.2.1 Nguyên lý xác thực và bảo mật trong mạng di động GSM
Một số chức năng xác thực và bảo mật đã được tích hợp vào GSM, bao gồm: ỉ Xỏc thực chủ thể thuờ bao đăng ký
Sử dụng mó húa là cách hiệu quả để đảm bảo bảo mật thông tin trao đổi và bảo vệ danh tính của thuê bao SIM (Mã định danh thuê bao) được bảo vệ bằng mã số PIN, giúp ngăn chặn việc sử dụng SIM bị nhân bản SIM giả không thể gia nhập mạng đồng thời với SIM gốc, đảm bảo an toàn cho người dùng Mã số bảo mật Ki được bảo vệ an toàn, tăng cường tính bảo mật cho hệ thống.
Hệ thống GSM sử dụng nhiều thuật toán bảo mật để đảm bảo an toàn cho người dùng thông qua các thiết bị khác nhau Hai nguyên lý chính trong hệ thống này là xác thực người dùng và mã hóa dữ liệu, giúp bảo vệ thông tin cá nhân một cách hiệu quả.
• Xác thực người dùng đăng nhập mạng (Au)
Trong mạng GSM, quá trình xác thực thuê bao bắt đầu bằng việc xác thực người sử dụng, tiếp theo là xác thực các dịch vụ đã được chấp nhận Khi một MS khởi tạo lần đầu hoặc chuyển đến vùng BS mới, nó sẽ yêu cầu BTS cấp kênh truyền Sau khi có kênh truyền được thống nhất với BTS, MS sẽ gửi yêu cầu cập nhật thông tin mạng hiện tại đến MSC qua BSC, và MSC sẽ phản hồi nếu MS xác thực thành công.
Trong toàn bộ quá trình xác thực, có 3 nhân tố chính đó là: MS, MSC/VLR và HLR/AuC như trong Hình 1.2 [3]
Quá trình xác thực bắt đầu khi MS gửi số IMSI từ SIM đến VLR qua trạm BTS gần nhất VLR sau đó chuyển số IMSI đến trung tâm HLR/AuC, nơi sẽ tra cứu cơ sở dữ liệu để tìm ra khóa bí mật Ki tương ứng với IMSI Tiếp theo, trung tâm HLR/AuC sử dụng thuật toán xác thực A3 và thuật toán sinh khóa mã A8 để tạo ra khóa mã theo phiên (Kc) và kết quả ký được gọi là SRES.
Hình 1.2 Quá trình xác thực trong mạng GSM
HLR tạo ra một số ngẫu nhiên RAND 128bit và gửi bộ ba (Kc, SRES, RAND) đến VLR Sau đó, VLR gửi số RAND 128bit trở lại MS để yêu cầu tính toán SRES Sử dụng khóa bí mật Ki trên SIM và số RAND, MS áp dụng các thuật toán A3/8 để tính Kc và SRES MS sử dụng Kc làm khóa phiên làm việc và gửi SRES trở lại VLR để xác thực, trong khi VLR sẽ tiến hành so sánh.
2 SRES của MS và HLR, nếu trùng nhau thì xác thực thuê bao thành công, và MS sẽ được cấp quyền truy nhập mạng
Trong quá trình xác thực, số IMSI được gửi ở bước đầu tiên, và nếu hacker chiếm đoạt được số này, họ sẽ có 50% thông tin cần thiết để nhân bản SIM, trong khi mã Ki là thông tin còn lại cần thiết để hoàn tất quá trình này.
Xác thực người dùng và dịch vụ, cũng như mã hóa dữ liệu thoại và tin nhắn trong các thế hệ mạng GSM có sự khác biệt rõ rệt Cụ thể, quy trình xác thực và mã hóa trong chế độ UMTS không giống với GSM/GPRS Tuy nhiên, trong khuôn khổ của Luận án này, chỉ tập trung vào công nghệ chuyển mạch kênh (CS) để truyền tín hiệu thoại trên kênh GSM, do đó sẽ không phân tích các chế độ khác.
• Mã hóa dữ liệu người dùng như thoại, tin nhắn, Dữ liệu người dùng
Khóa phiên mã hóa Kc được áp dụng cho cả MS và hệ thống mạng lõi, sử dụng thuật toán A5 để mã hóa và giải mã dữ liệu người dùng Quá trình mã hóa không được thực hiện bởi Module SIM do hạn chế về khả năng xử lý, mà thay vào đó, nó được thực hiện trên ME Hình 1.3 [3] dưới đây minh họa toàn bộ quy trình xác thực, sinh khóa và mã hóa.
Hình 1.3 Toàn bộ quá trình xác thực, sinh khóa và mã hóa trong mạng GSM
Trước hết tìm hiểu về các thuật toán A3, A8, A5:
- Thuật toán A3 [3]: Sơ đồ khối thuật toán A3 như Hình 1.4
Hình 1.4 Mô hình thuật toán A3
Sơ đồ thực hiện các hàm chức năng trong thuật toán A3 để sinh ra SRES (32bit) được mô tả trong Hình 1.5, dưới đây:
Nhìn vào lược đồ thuật toán trên thì thấy thuật toán rất dễ bị phá
- Thuật toán A8: Sơ đồ khối thuật toán A8 như Hình 1.6
RAND 64bits (Left) 64bits (Right)
Ki 64bits (Left) 64bits (Right)
Hình 1.5 Sơ đồ khối các hàm thực hiện thuật toán A3
Hình 1.7 Sơ đồ khối thuật toán A5
- Thuật toán A5: Sơ đồ khối thuật toán A5 như hình 1.7
A5 là một thuật toán mã dòng, tạo ra dãy số giả ngẫu nhiên chất lượng cao để XOR với dữ liệu cần mã hóa, sử dụng các thanh ghi dịch phản hồi tuyến tính Có nhiều phương pháp thực thi thuật toán A5, nhưng chủ yếu chỉ có một số cách phổ biến được áp dụng.
Có bốn phiên bản mã hóa A5, bao gồm A5/0, A5/1, A5/2 và A5/3 (được sử dụng cho các hệ thống 3G) Trong số đó, A5/1 được biết đến là phiên bản mạnh nhất và phổ biến rộng rãi ở châu Âu và châu Mỹ, trong khi A5/2 chủ yếu được sử dụng ở châu Á Phiên bản A5/1 sử dụng ba thanh ghi dịch LFSR (R1, R2, R3), như minh họa trong Hình 1.8.
Hình 1.8 Sơ đồ khối thuật toán mã dòng A5 sử dụng 3 thanh ghi dịch phản hồi tuyến tính LFSR
Hình 1.6 Sơ đồ khối thuật toán mã A8
Như hình trên, 3 thanh ghi dịch phản hồi tuyến tính trên có độ dài lần lượt là
R1= 19, R2= 22 và R3# bits và tương ứng với 3 biểu thức trong Bảng 1.1 sau:
Bảng 1.1 Các thanh ghi LFSR LFSR Độ dài
(bit) Đa thức phản hồi Bít nhịp Khai thác bit
Bộ 3 thanh ghi dịch phản hồi tuyến tính hoạt động dựa trên nguyên tắc của các m_dãy, trong đó sau mỗi chu kỳ xung nhịp, các bít có trọng số '1' của đa thức (bít khai thác) sẽ được XOR với nhau và lưu vào bít có trọng số thấp nhất (bit Zero) Mỗi thanh ghi đều có một bít cố định, với thanh ghi 1 có bít thứ 8 (c1) và thanh ghi 2, 3 có bít thứ 10 (c2, c3).
Để xác định việc dịch hay không dịch trong hệ thống, hàm chức năng trong khối Clock sẽ quyết định dựa trên giá trị của các bit Nếu có sự dịch chuyển thanh ghi, toàn bộ thanh ghi sẽ được dịch sang trái 1 bit, với giá trị bit 0 được thay thế bằng bit từ khối Clock Mỗi chu kỳ xung nhịp, giá trị của các bit tại các vị trí c1, c2, c3 sẽ được sử dụng trong công thức hàm chức năng (1.1) để tính toán giá trị bit gọi là majority bit, theo công thức: c1 * c2 ⊕ c2 * c3 ⊕ c1 * c3.
Các phương pháp nén tiếng nói trong mạng GSM [33, 34]
1.3.1 Một số đặc điểm tín hiệu tiếng nói cơ bản của mạng GSM [33]
Bài viết này tập trung vào các yếu tố ảnh hưởng đến quá trình truyền dữ liệu qua kênh thoại GSM, đặc biệt là về băng tần, kỹ thuật xử lý mã thoại và chuyển đổi mã Chúng tôi sẽ không xem xét các tác động khác liên quan đến truyền thông trong mạng GSM hoặc giữa GSM và PSTN.
Kênh thoại mạng GSM được thiết kế để truyền tín hiệu tiếng nói trong băng tần hẹp 300-3400Hz, điều này hạn chế tốc độ truyền tải Các bộ mã (codec) trong GSM tối ưu hóa thuộc tính của tín hiệu tiếng nói nhằm đạt hiệu suất nén cao, đồng thời vẫn giữ chất lượng âm thanh nghe hiểu Tuy nhiên, tín hiệu không phải tiếng nói thường bị lọc bỏ qua các bộ lọc LPC, dẫn đến sự sai khác giữa tín hiệu tái tạo và tín hiệu ban đầu Để duy trì âm lượng trong cuộc đàm thoại, mạng GSM sử dụng bộ điều khiển độ lớn tự động (AGC) để điều chỉnh biên độ đầu ra, làm cho biên độ tín hiệu ra có thể khác với tín hiệu vào Thêm vào đó, tín hiệu tiếng nói thường xen lẫn với các khoảng lặng, được quản lý bởi bộ phát hiện tiếng nói (VAD).
Bộ phát hiện hoạt động (Activity Detectors) có khả năng nhận diện tín hiệu âm thanh và loại bỏ các khoảng lặng, giúp tiết kiệm băng thông và năng lượng Nhờ đó, quá trình truyền dữ liệu có thể bỏ qua những khoảng lặng không cần thiết.
1.3.2 Quá trình tạo và các tính chất cơ bản của tiếng nói
1.3.2.1 Mô hình hoá quá trình tạo tiếng nói [9][9b]
Không khí từ phổi được ép qua thanh quản, nơi các dây thanh âm dao động dưới sự điều khiển của hệ thần kinh, tạo ra âm thanh cho giọng nói Sự dao động này giống như việc mở và đóng một cánh cửa (thanh môn), làm cho luồng không khí từ phổi bị ngắt quãng, dẫn đến âm thanh khác nhau Ngoài ra, các thành phần hài bậc cao của tiếng nói còn phụ thuộc vào sự thay đổi của các cơ quan phát âm như họng, vòm họng, lưỡi, miệng, khoang mũi và mũi, tương tự như sự thay đổi tham số của các hốc cộng hưởng Hình 1.10 minh họa mô hình cơ học của hệ thống phát âm ở con người.
Hình 1.10 Biểu diễn mô hình cơ học của hệ thống phát âm
Mô hình cơ học của cơ quan phát âm có thể được biểu diễn bằng các ống hình trụ có chiều dài bằng nhau nhưng đường kính khác nhau, tạo thành các hốc cộng hưởng âm thanh với các tần số riêng biệt gọi là tần số formant Những tần số này sinh ra các âm vị khác nhau tùy thuộc vào hình dáng của cơ quan phát âm Mô hình này có thể được mô tả chính xác qua hệ phương trình vi phân, và trong quá trình phát âm, hình dáng của cơ quan phát âm thay đổi rất chậm, cho phép các tần số formant được duy trì trong khoảng thời gian ngắn.
Sự thay đổi của 23 âm vị thường được xem là không đáng kể, cho phép chúng ta biểu diễn hệ thống phát âm bằng một hệ thống tuyến tính ổn định theo thời gian Điều này có nghĩa là trong khoảng thời gian của một âm vị, các tham số của hệ thống hầu như không thay đổi, chỉ biến đổi khi chuyển từ âm vị này sang âm vị khác.
Hình 1.11 Mô hình dạng ống của cơ quan phát âm
Mô hình hóa quá trình kích thích của luồng không khí từ phổi qua thanh quản đến cơ quan phát âm là rất quan trọng Tùy thuộc vào loại âm thanh, cần áp dụng phương pháp mô hình hóa phù hợp để đảm bảo chất lượng tiếng nói sau khi tái tạo đạt yêu cầu.
1.3.2.2 Các tính chất cơ bản của tiếng nói
Trong kỹ thuật mã hoá tiếng nói, âm thanh được chia thành hai loại chính: âm hữu thanh và âm vô thanh Âm hữu thanh (voiced sound) phát sinh khi dây thanh âm dao động, tạo ra những ngắt quãng trong luồng không khí, với chu kỳ tuần hoàn khoảng 2-20ms, mô hình hoá thành các xung tuần hoàn Ngược lại, âm vô thanh (unvoiced sound) xảy ra khi luồng không khí đi qua thanh môn mà không theo quy luật nào, mô hình hoá tương tự như tín hiệu ngẫu nhiên.
Âm thanh trong tiếng nói chủ yếu được chia thành hai loại: âm hữu thanh và âm vô thanh, với phần lớn ngôn ngữ trên thế giới sử dụng âm hữu thanh Đặc biệt, tiếng Việt chủ yếu bao gồm các âm hữu thanh, phản ánh đặc trưng ngữ âm của ngôn ngữ này.
Nghiên cứu về âm hữu thanh trong tiếng Việt cho thấy có thể sử dụng hoàn toàn âm này mà không ảnh hưởng đến ngữ nghĩa của lời nói Để mã hóa và tái tạo tiếng nói, có thể mô hình hóa các tham số thể hiện sự kích thích không khí từ phổi và dao động qua thanh quản bằng những tham số cụ thể.
• Sự kích thích từ phổi tạo ra thay bằng nhiễu ngẫu nhiên
• Dao động của thanh quản (Khoang họng) được mô hình bằng các bộ lọc tạo chu kỳ ‘Pitch’
• Khoang tạo âm (Khoang miệng – Khoang mũi) được mô hình bằng bộ lọc LPC
Hình 1.12 dưới đây mô hình hóa này:
1.3.3 Các phương pháp mã hoá tiếng nói cơ bản
Mã hoá tiếng nói được phân loại thành ba loại chính: mã hoá dạng sóng, mã hoá nguồn và mã hoá lai Tốc độ bit và chất lượng tiếng nói sau khi tổng hợp từ các bộ mã hoá này được thể hiện rõ trong Hình 1.13.
Gain LPC Filter Speech Voice
Hình 1.12 Mô hình hóa quá trình tạo tiếng nói của con người [9b]
Hình 1.13 Chất lượng tiếng nói với tốc độ bit của các bộ mã hoá
Có thể chia mã hoá dạng sóng ra làm hai loại chính :
Trong miền thời gian: Mã hoá điều biến xung mã (PCM), điều biến xung mã sai lệch (DPCM) và điều biến xung mã sai lệch thích nghi (ADPCM)
Trong miền tần số: Mã hoá băng phụ hay còn gọi là băng con SBC (Subband
Coding) và mã hoá biến đổi thích nghi ATC (Adaptive Transform Coding)
Mã hoá nguồn sử dụng mô hình quá trình để tạo ra tín hiệu và khai thác các thông số của mô hình này nhằm mã hoá tín hiệu Các thông số này sẽ được truyền đến bộ giải mã Đối với tín hiệu tiếng nói, bộ mã hoá nguồn, hay còn gọi là vocoder, hoạt động dựa trên mô hình cơ quan phát âm và được kích thích bằng nguồn nhiễu trắng cho các đoạn âm vô thanh hoặc bằng dãy xung với chu kỳ bằng chu kỳ pitch cho các đoạn âm hữu thanh Thông tin gửi đến bộ giải mã bao gồm các thông số kỹ thuật của bộ lọc, chỉ định đoạn tiếng nói là âm hữu thanh hay vô thanh, cùng với sự thay đổi cần thiết của tín hiệu kích thích và chu kỳ pitch trong trường hợp âm hữu thanh.
Có nhiều kỹ thuật mã hóa nguồn, bao gồm mã hóa kênh, mã hóa formant, mã hóa tham số và mã hóa đồng hình Hiện tại, nghiên cứu chủ yếu tập trung vào các phương pháp này để cải thiện hiệu suất và chất lượng mã hóa.
Các bộ mã hoá tham số như mã hoá LPC, MELP và RELP được phát triển để tối ưu hóa mã hoá dự đoán tuyến tính Những công nghệ này thường được ứng dụng trong lĩnh vực điện thoại vệ tinh cũng như trong các hệ thống an ninh và quốc phòng.
Mã hóa lai thường sử dụng phương pháp mã hóa phân tích bằng cách tổng hợp AbS (Analysis-by-Synthesis), trong đó bộ mã hóa áp dụng mô hình cơ quan phát âm của con người Khác với mã hóa nguồn, phương pháp này lựa chọn tín hiệu kích thích nhằm tái tạo dạng sóng tiếng nói gần nhất với dạng sóng gốc Đặc điểm này tạo nên sự khác biệt giữa các bộ mã hóa kiểu AbS, và thuật toán tìm ra dạng sóng kích thích đóng vai trò quan trọng trong độ phức tạp của bộ mã hóa.
1.3.4 Kỹ thuật nén tiếng nói trong thông tin di động GSM
1.3.4.1 Các bộ mã Codec trong mạng GSM
Kết luận chương 1
Dựa trên các số liệu và phân tích trong Chương 1, công nghệ và năng lực tính toán hiện nay cho thấy rằng các thuật toán xác thực và bảo mật dữ liệu trong mạng di động GSM đang gặp phải vấn đề nghiêm trọng về an toàn thông tin, đặc biệt đối với người dùng có thông tin nhạy cảm và thông tin bí mật quốc gia Cấu trúc và các thành phần của mạng GSM hiện tại cho thấy rằng giải pháp tối ưu nhất cho vấn đề xác thực và bảo mật thông tin thoại giữa người dùng là phương pháp End to End.
Quá trình tạo và tổng hợp tiếng nói có thể được mô hình hóa như một hệ thống phát âm tuyến tính bất biến theo thời gian, trong đó các bộ mã hoá thoại trong miền thời gian được xây dựng dựa trên kỹ thuật dự đoán tuyến tính Điều này cho phép mô hình hóa chính xác các đặc tính thống kê của tín hiệu thoại thông qua các bộ lọc nguồn, bao gồm bộ lọc dự đoán thời gian ngắn và dài Giả thiết rằng tiếng nói là kết quả của việc kích thích một bộ lọc biến đổi theo thời gian bằng một dãy xung có chu kỳ đối với âm rung (voiced) và nguồn nhiễu ngẫu nhiên đối với âm câm (voiceless).
Các bộ mã hoá sử dụng kĩ thuật phân tích trong miền thời gian bao gồm APC (Adaptive Predictive Coding), RELP (Residual Excited Linear Prediction), MPLPC (Multi Pulse LPC), và đặc biệt là CELP (Code-Excited LPC), rất phù hợp cho các ứng dụng mã hóa dữ liệu tín hiệu thoại qua kênh thoại analog trong các mạng khác nhau.
CHƯƠNG 2: ĐỀ XUẤT THUẬT TOÁN NÉN VÀ ĐỀ XUẤT GIẢI PHÁP BẢO MẬT, TRUYỀN DỮ LIỆU QUA KÊNH THOẠI GSM
Lựa chọn giải pháp mã hóa mật cuộc gọi thoại di động trên kênh GSM 32 2.2 So sánh ba thuật toán nén dùng kỹ thuật dự đoán tuyến tính (LP Specch Model)
Thiết bị liên lạc GSM sử dụng Vocoder để chuyển đổi tín hiệu âm thanh thành dạng số hóa nén theo chuẩn GSM, sau đó truyền gói tin số hóa qua kênh GSM cùng với các tín hiệu điều khiển khác Mặc dù dữ liệu GSM được mã hóa bằng thuật toán A5/x, nhưng như đã phân tích, thuật toán này không đảm bảo an toàn cần thiết Một giải pháp đơn giản để mã hóa cuộc gọi thoại trên kênh voice GSM là xáo trộn tần số và đảo phổ tín hiệu âm thanh theo quy tắc xác định bởi khóa mã Phương pháp mã hóa này, mặc dù dễ áp dụng, nhưng vẫn có khả năng bị phân tích để khôi phục lại tín hiệu gốc.
Việc can thiệp vào quá trình xử lý dữ liệu của Modem GSM để mã hóa dữ liệu số hóa trước khi truyền trên kênh là khả thi Tuy nhiên, tất cả các Modem GSM đều có tính năng đóng kín, không cho phép can thiệp vào quy trình xử lý dữ liệu nội bộ.
Một giải pháp trung gian cho việc truyền dữ liệu là sử dụng chế độ CSD trên băng tần GSM, mặc dù hiện tại việc hỗ trợ CSD tại Việt Nam còn hạn chế Để đảm bảo mã hóa và truyền dữ liệu cuộc gọi thoại mật qua kênh GSM, cần xây dựng một module thực hiện các bước như tự thực hiện Vocoder với bitrate thấp, mã hóa dữ liệu thoại bằng thuật toán mã hóa mạnh, sử dụng mã hóa khóa đối xứng, và điều chế dữ liệu mã thành tín hiệu trong phổ tiếng nói để truyền qua kênh GSM thông thường.
33 việc này như là phát triển một Modem làm việc trên kênh thoại 2G/3G, nếu làm được
Modem với tính năng này không chỉ cho phép truyền dữ liệu qua kênh Voice GSM 2G/3G mà còn hỗ trợ tất cả các giao thức và mạng truyền thông thoại như mạng điện thoại chuyển mạch gói, mạng vô tuyến công nghệ SDR và OTT Để thu được tín hiệu tiếng nói ban đầu, bên máy thu sẽ thực hiện các bước theo thứ tự ngược lại Việc phát triển một modem như vậy liên quan đến nhiều kỹ thuật chuyên sâu, sẽ được đề cập chi tiết trong các phần sau.
Khi thực hiện phương án điều chế tín hiệu trong hệ thống GSM, cần chú ý đến hai vấn đề quan trọng Thứ nhất, quá trình điều chế phải diễn ra ở mức thời gian thực và sử dụng giải pháp Vocoder với Bitrate thấp để đảm bảo tín hiệu được truyền trong phổ tần mà không làm biến dạng cấu trúc khung thoại, đặc biệt là với chuẩn nén 13kbps Thứ hai, tầng Vocoder của GSM sử dụng bộ phát hiện tiếng nói tích cực VAD, có thể xác định một số phần của tín hiệu điều chế không phải là tiếng nói và do đó không được truyền đi để tiết kiệm năng lượng Do đó, cần điều chỉnh bộ điều chế để tránh bị VAD nhận diện là không phải tiếng nói, đồng thời vẫn đảm bảo hiệu quả truyền dữ liệu.
Khi lựa chọn bộ nén thoại (Vocoder) lý tưởng, cần chú ý đến các tiêu chí quan trọng như Bitrate thấp, chất lượng thoại tốt, khả năng chống nhiễu hiệu quả, thích ứng với ngôn ngữ người dùng, hiệu suất cao với tín hiệu câm, độ trễ ngắn và khả năng hoạt động tốt trên các tài nguyên xử lý hạn chế.
2.2 So sánh ba thuật toán nén dùng kỹ thuật dự đoán tuyến tính (LP Specch Model)
Ba thuật toán nén sử dụng LP bao gồm LPC10e, CELP và MELP, đều áp dụng kỹ thuật dự đoán tuyến tính và phổ biến trong thông tin vô tuyến Sự khác biệt chính giữa ba thuật toán này nằm ở độ phức tạp của chế độ kích thích Mô hình kích thích của vocoder CELP là tinh vi nhất, trong khi mô hình của vocoder MELP đã được đơn giản hóa Mặc dù chất lượng nén của CELP và MELP tương đương, MELP lại đạt tỷ lệ nén cao hơn và hỗ trợ nhiều chế độ, phương pháp cải thiện kích thích (pitch) cũng như tốc độ rất thấp.
Bảng 2.1, 2.2 dưới đây so sánh việc cấp phát bit giữa vocoder CELP và MELP:
Các tham số Số bit được cấp phát
Bảng 2.1 Số bit được cấp phát cho MELP 600bit [12]
Tham số Tổng số bit mỗi Frame
Chu kỳ Pitch (chỉ số bảng mã thích nghi) 28 Độ khuyết đại bảng mã thích nghi 20
Chỉ số phức tạp bảng mã Codebook 36 Độ phức tạp bảng mã khuyết đại 20 Đồng bộ 1
Bảng 2.2 Cấp phát các bit cho CELP (FS1061)
Mô hình và đề xuất bộ mã hoá dự đoán tuyến tính kích thích hỗn hợp MELP
Việc chọn bộ nén thoại (Vocoder) là một yếu tố quan trọng trong luận án này, cần phải đáp ứng các tiêu chí đã được nêu ra ở mục 2.1.
Thuật toán nén thoại MELP, cùng với các phiên bản MELPe và MELPe++, đã được Mỹ công nhận là chuẩn US MIL-STD-3005 và NATO là STANAG-4591 nhờ vào hiệu quả của nó trong các ứng dụng bảo mật vô tuyến băng tần hẹp Các mô hình này bao gồm các bít đồng bộ hóa tối ưu, giúp xử lý tốt trong điều kiện kênh có lỗi bít, mất gói và mất đồng bộ MELP nổi bật với khả năng cân bằng giữa băng thông và chất lượng tín hiệu thoại, đồng thời có thể thực hiện trên các Chip ARM hay DSP, rất phù hợp cho các giải pháp bảo mật thông tin thoại.
Ngày nay, chuẩn mã thoại MELPe gồm 3 tốc độ 2400bps, 1200bps và 600bps [11b,13,14]
Các vocoder dựa trên phương pháp mã hoá mô hình, các tham số đặc trưng cần được xác định đối với mỗi khung tín hiệu là:
- Các tham số kích thích gồm quyết định voice/unvoice và chu kì pitch
- Các tham số hệ thống gồm thông tin đường bao phổ hay đáp ứng xung của hệ thống
Trong quá trình giải mã, tín hiệu kích thích được tổng hợp từ các tham số kích thích, tạo thành một chuỗi xung tuần hoàn trong vùng voice và nhiễu ngẫu nhiên trong vùng unvoice Tín hiệu này sau đó được xử lý qua một bộ lọc, với các tham số dựa trên hệ thống đã ước lượng Mô hình LPC (Linear Prediction) thường được áp dụng cho hệ thống này.
Coding), trong đó mã hoá dự đoán tuyến tính được sử dụng để mô hình hoá đường bao phổ
Cải tiến quan trọng trong mô hình MELP là việc áp dụng mô hình kích thích hỗn hợp tuần hoàn/nhiễu và quyết định voice/unvoice cho từng dải tần, giúp nâng cao chất lượng tiếng nói đáng kể so với LPC-10 Tuy nhiên, mô hình này vẫn gặp một số khuyết điểm về chất lượng âm thanh, đặc biệt ở các vùng không ổn định và không tuần hoàn của tiếng nói.
Các vocoder truyền thống mang lại hiệu quả nghe hiểu tốt cho tiếng nói tổng hợp, nhưng chất lượng âm thanh lại không cao Nguyên nhân có thể được phân loại thành hai nhóm chính.
- Do hạn chế cơ bản trong mô hình tiếng nói
- Do ước lượng các tham số mô hình tiếng nói không chính xác
Các nhược điểm của các vocoder truyền thống về suy giảm chất lượng có thể thấy và các cơ sở của các biện pháp để giải quyết như sau:
Một trong những vấn đề chính làm giảm chất lượng trong các vocoder sử dụng mô hình voice/unvoice đơn giản là sự xuất hiện của âm thanh hỗn độn và âm ù, đặc biệt ở các vùng voice hỗn hợp và vùng có nhiễu Phân tích phổ thời gian ngắn cho thấy các hài tần số cơ bản nổi bật trong vùng voice hỗn hợp, trong khi vùng có nhiễu lại thể hiện năng lượng tương tự như nhiễu Nguyên nhân chính là do mô hình kích thích voice/unvoice chỉ tạo ra các tín hiệu kích thích với phổ đơn giản, bao gồm hoặc là các hài tần số cơ bản, hoặc là phổ nhiễu Để khắc phục tình trạng này, cần áp dụng mô hình kích thích hỗn hợp, trong đó các kích thích tuần hoàn và nhiễu sẽ được trộn lẫn và sau đó được tạo dạng phổ thông qua một bộ lọc, với các tham số bộ lọc này dựa trên các tham số hệ thống trong quá trình phân tích.
Cách giải quyết nâng cao chất lượng tiếng nói tổng hợp dựa trên khả năng phân biệt giữa các vùng tần số đặc trưng bởi hài của tần số cơ bản và nhiễu Để cải thiện mô hình voice/unvoice, cần thêm yếu tố biến thiên theo tần số Hình 1.14 minh họa khái niệm mô hình kích thích hỗn hợp đa băng trong tiếng nói.
Chất lượng tiếng nói tổng hợp của các vocoder bị ảnh hưởng đáng kể bởi việc ước lượng không chính xác các tham số mô hình tiếng nói, như pitch và quyết định voice/unvoice Sự không chính xác trong việc xác định pitch và quyết định voice/unvoice có thể làm giảm chất lượng tiếng nói tổng hợp, đặc biệt trong các tín hiệu có nhiễu, dẫn đến sự suy giảm nghiêm trọng về chất lượng.
Một hệ thống vocoder chất lượng cao cần cải tiến mô hình tiếng nói và áp dụng các phương pháp đáng tin cậy để ước lượng chính xác các tham số của mô hình này.
2.3.2 Mô hình thuật toán mã thoại MELP
Sơ đồ khối bộ mã hoá tiếng nói MELP (Mixed Excitation Linear Prediction) được thể hiện trong hình 2.1 [17][8] dưới đây:
Tạo nhiễu trắng Lọc tạo hình nhiễu Cường độ thoại Đáp ứng xung
Hình 2.1 Mô hình mã hóa tiếng nói Melp
2.3.2.1 Quá trình mã thoại MELP được biểu diễn trên Hình 2.2 [13][18]:
Một số bước cơ bản trong qui trình này được thực hiện như sau:
Bước 1: Loại bỏ thành phần tần số thấp (DC)
Bước đầu tiên trong quá trình nén tiếng nói là loại bỏ các thành phần năng lượng tần số thấp trong tín hiệu đầu vào Để thực hiện điều này, một bộ lọc thông cao Chebychev kiểu 2 bậc bốn với tần số cắt 60 Hz và suy giảm 30 dB ở dải chắn được sử dụng Đầu ra của bộ lọc này sẽ trở thành tín hiệu đầu vào cho tất cả các khối tiếp theo trong quá trình nén tiếng nói.
Bước 2: Tìm kiếm pitch tổng thể yêu cầu lọc tín hiệu đầu vào bằng bộ lọc Butterworth bậc 6 với tần số cắt 1 KHz Giá trị pitch được xác định trong khoảng t.
= 40÷160 mẫu và là giá trị có tự tương quan chuẩn hoá (tr) lớn nhất, trong đó:
Hình 2.2 Quy trình thực hiện mã thoại Melp
Trong bài viết này, τ đại diện cho số nguyên của các mẫu, trong khi [τ/2] là giá trị phần nguyên của τ/2, như thể hiện trong công thức (2.2) Cửa sổ phân tích pitch được đặt tại mẫu cuối cùng của khung hiện tại, và việc tính toán pitch cuối cùng sẽ được mở rộng đến 20 mẫu thông qua nội suy và kiểm tra bội pitch.
Bước 3: Phân tích voice tại các dải tần [12]
Khối chức năng này xác định năm cường độ giọng nói ở 5 dải thông Vbpi, từ i = 1 đến 5, đồng thời cung cấp độ chính xác cao hơn cho pitch và giá trị hàm tự tương quan chuẩn hóa đã được xác định.
Tín hiệu tiếng nói đầu vào được lọc qua năm dải tần từ 0 đến 4000 Hz bằng bộ lọc Butterworth bậc 6 Việc xác định pitch chính xác được thực hiện trên tín hiệu đầu ra của dải tần 0÷500 Hz, với hai giá trị pitch cần xem xét: pitch tổng thể của khung hiện tại và khung trước đó Hàm tự tương quan chuẩn hóa được tính toán trong khoảng ± 5 của giá trị pitch, và pitch phân sẽ được tìm quanh giá trị nguyên tối ưu Pitch nào có giá trị hàm tự tương quan chuẩn hóa lớn hơn sẽ được chọn làm pitch mới P2, với giá trị hàm tự tương quan chuẩn hóa r(P2) đại diện cho cường độ voice ở dải tần 0÷500 Hz Giá trị P2 sẽ được sử dụng để xác định cường độ voice ở các dải tần khác, từ đó xác định pitch cuối cùng và tính toán độ khuếch đại Cường độ voice ở các dải tần còn lại là giá trị lớn hơn trong hai giá trị được xem xét.
+ r(P2) trong thủ tục tìm pitch phân trong dải tần này
+ r(P2) trong thủ tục tìm pitch phân của đường bao miền thời gian của tín hiệu trong dải này
Giá trị sẽ được điều chỉnh giảm 0.1 để bù đắp cho sai số trong quá trình làm trơn tín hiệu đường bao miền thời gian Đường bao này được tính toán thông qua một khối tách toàn dạng sóng kết hợp với bộ lọc làm trơn, bao gồm một điểm không một chiều và một cặp điểm cực phức tại tần số 150 Hz với bán kính 0.97.
Bước 4: Xác định chính xác pitch phân
Giải pháp điều chế và giải điều chế để truyền dữ liệu qua kênh thoại GSM
2.4.1 Phương pháp điều chế tín hiệu tựa tiếng nói
Phương pháp điều chế tín hiệu tựa tiếng nói đã được thử nghiệm và mô tả trong nhiều nghiên cứu khác nhau Phương pháp này truyền dữ liệu dưới dạng tổng hợp thành tiếng nói, dựa trên ba đặc tính chính.
1) Đường bao của phổ tiếng nói được biểu diễn bởi các tần số phổ vạch (LSF)
2) Tần số cơ bản hoặc cao độ của giọng nói (pitch)
3) Hình dạng và năng lượng kích thích ACELP (hoặc CELP)
Các thông số nêu trên được bảo tồn khi truyền qua kênh thoại GSM và PSTN
Dữ liệu đầu vào được ánh xạ tới các thông số thông qua ba bảng mã (codebook) và sau đó được nhập vào bộ tổng hợp Tiếng nói tổng hợp này không thuộc về ngôn ngữ của bất kỳ cư dân nào trên thế giới, mà chỉ có tính chất tương tự như tiếng nói trong quá trình nén và giải nén.
Hình 2.9 Sơ đồ khối của phương pháp điều chế tín hiệu tựa tiếng nói [5][30]
Tiếng nói được tổng hợp và phát đi với các thông số chính Bộ phận phân tích tiếng nói bên thu sẽ tách các thông số, kiểm tra tính tương thích và tra cứu trong bảng mã để lấy dữ liệu cần thiết.
Hình 2.10 Sơ đồ khối của phương pháp giải điều chế tín hiệu tựa tiếng nói [30]
Dữ liệu được mã hóa với 10 bit cho LSF, 5 bit cho cao độ và 5 bit cho năng lượng, tổng cộng là 20 bit được truyền trong 20 ms, tương đương với tốc độ bit 1 kbps Tốc độ bit cao hơn có thể đạt được bằng cách sử dụng các bảng mã lớn hơn.
Trong phương pháp này, có hai nhiệm vụ chính cần thực hiện: chọn loại mã hóa tiếng nói và thiết kế các bảng mã Hệ thống GSM sử dụng mã nén tiếng nói theo thuật toán CELP – ACELP, do đó cần chọn mã hóa cùng loại để giảm thiểu sai lệch khi dữ liệu được truyền qua hệ thống Các lựa chọn mã nén bao gồm GSM-HR (VSELP), GSM-EFR, GSM-ARM (ACELP), CELP và Speedx, trong đó GSM-EFR được ưu tiên do tính đơn giản trong triển khai Loại mã nén được chọn sẽ quyết định cách thức thiết kế bảng mã.
Thiết kế bảng mã là một quá trình phức tạp và tốn thời gian, trong đó bảng mã thực hiện việc ánh xạ dữ liệu vào các thông số, sau đó nhập chúng vào bộ tổng hợp tiếng nói.
Có hai phương pháp được sử dụng để điền vào các bảng mã
Phương pháp biểu đồ là việc tạo ra các bảng mã dựa trên các tham số thường xuyên được sử dụng và ít sai lệch nhất khi truyền tải từ một đoạn ghi âm mẫu tiếng nói Ý tưởng chính là tối ưu hóa quá trình truyền thông qua việc xác định các tham số hiệu quả nhất.
Việc truyền tải dữ liệu qua hệ thống sẽ trở nên dễ dàng hơn với việc bảo toàn 65 Sau khi phân tích mẫu lời nói bằng máy phân tích EFR, các tham số được trích xuất và thống kê Chẳng hạn, tham số LSF có 5 chỉ số, lần đầu tiên được lượng tử hóa thành 7 bit Khi muốn truyền 2 bit trên tham số này, biểu đồ sẽ được chia thành 4 khoảng, và giá trị tối đa trong mỗi khoảng sẽ được đưa vào bảng mã, nhằm tránh các lựa chọn quá gần nhau Quy trình tương tự cũng được áp dụng cho các chỉ số LSF khác, tạo ra bảng mã là sự kết hợp của tất cả các giá trị tối đa Ngoài ra, các chỉ số về pitch và năng lượng cũng được xử lý theo cách tương tự.
Giải thuật di truyền GA
Giải thuật di truyền (GA) là một phương pháp tối ưu hóa hiệu quả cho quá trình dò tìm, bắt đầu bằng việc định nghĩa vấn đề một cách cẩn thận Trong GA, bộ gen được xác định theo nhiều cách khác nhau, và hiệu quả của phương pháp phụ thuộc vào cách giải quyết vấn đề Một quần thể được hình thành từ một tập hợp con của bộ gen và tiến hóa thông qua các cơ chế như đột biến và trao đổi chéo Những bộ gen thích nghi sẽ được giữ lại, trong khi chức năng luyện tập sẽ đánh giá và chọn ra bộ gen tốt nhất để phát triển Tuy nhiên, phương pháp này không đảm bảo tìm ra giải pháp tối ưu Công cụ GA trong Matlab có thể được sử dụng để thực hiện các mô phỏng liên quan.
Yêu cầu là chọn các mục cho bảng mã có BER thấp nhất, nhưng việc này gặp khó khăn khi thực hiện qua GA Khi tối ưu hóa LSF, các tham số khác được giữ cố định, và bộ gen trở thành bảng mã cho các tham số LSF Hàm luyện tập được sử dụng để tính toán BER cho từng mục trong bộ gen và tính trung bình kết quả Tuy chỉ có thể tối ưu hóa một tham số tại một thời điểm, để đạt được kết quả tốt nhất, cần tối ưu hóa đồng thời nhiều tham số, điều này là một thách thức lớn.
Tính ổn định của hệ thống
Bộ lọc STP (dự đoán thời gian ngắn) và LTP (dự đoán thời gian dài) là các bộ lọc IIR có đáp ứng xung vô hạn, thuộc mô hình toàn cực Việc lựa chọn bộ lọc phù hợp là rất quan trọng để tối ưu hóa hiệu suất trong các ứng dụng xử lý tín hiệu.
Có 66 hệ số có thể dẫn đến sự mất ổn định Để đảm bảo tính ổn định khi lựa chọn các hệ số, bạn có thể áp dụng các tiêu chuẩn nhất định.
1) Trong miền tần số (biến đổi Fourier): Nyquist
2) Trong miền Z (biến đổi Z): Schur-Cohn
3) Trong miền S (biến đổi Laplace): Routh Hurwitz
Việc kiểm tra mọi tổ hợp hệ số với bậc lọc 10 và bảng mã 1000 phần tử là một thách thức lớn, ngay cả khi sử dụng máy tính Hệ thống nén tiếng nói sử dụng các hệ số từ nguồn vật lý thực, phản ánh sự thay đổi chậm giữa các mẫu Trong quá trình điều chế tiếng nói, dữ liệu có thể không liên quan đến nhau, dẫn đến sự thay đổi đột ngột giữa các mẫu tiếng nói Khi tiếng nói giả được truyền qua GSM, việc tái tạo có thể gặp nhiều sai lệch, tạo ra một trở ngại đáng kể.
2.4.2 Đề xuất phương pháp điều chế tín hiệu kiểu viễn thông truyền thống có cấu trúc phổ gần giống phổ của tiếng nói
2.4.2.1 Điều chế tín hiệu kiểu viễn thông truyền thống Điều chế theo phương thức viễn thông truyền thống được nhiều tác giả nghiên cứu Thực nghiệm cho thấy điều chế (số) khóa pha (dịch pha) PSK tốt hơn so với điều chế (số) khóa biên độ (dịch biên) ASK và điều chế (số) khóa tần số (dịch tần) FSK ASK thay đổi biên độ, trong trường hợp này, bộ mã hóa tiếng nói của GSM có AGC và nó phát hiện các thay đổi về biên độ này sẽ thực hiện việc bù, điều này sẽ gây ra lỗi trong máy thu FSK cũng không phải là một lựa chọn tốt ở đây vì băng thông rất hạn chế
(4 kHz) Điều chế (số) dịch pha vi sai DPSK thường được chọn vì tính đơn giản khi thực hiện và không cần bộ thu kết hợp
Kênh bị giới hạn băng tần 4 kHz do tần số lấy mẫu là 8 kHz Trong hệ thống điện thoại, thường sử dụng các bộ lọc thông thấp và thông cao, vì vậy việc lựa chọn tần số sóng mang nên dựa trên tần số trung tâm của băng thông để tối ưu hóa hiệu suất.
67 các thiết bị đo lường Với dải tần 300-3400Hz tần số sóng mang được chọn là 1.8 kHz