GIỚI THIỆU
Đặc điểm ngôn ngữ tiếng Việt và tiếng Nhật
1.1.1 Đặc điểm ngôn ngữ tiếng Việt [16]
Tiếng Việt là một ngôn ngữ đơn lập, trong đó mỗi âm tiết được phát âm tách rời và thể hiện bằng một chữ viết riêng biệt Đặc điểm này rõ rệt ở tất cả các khía cạnh như ngữ âm, từ vựng và ngữ pháp, tạo nên sự độc đáo cho ngôn ngữ này.
Trong tiếng Việt, "tiếng" là một đơn vị ngữ âm đặc biệt, tương ứng với một âm tiết và cách viết phù hợp với phát âm Hệ thống âm vị tiếng Việt rất phong phú và cân đối, thể hiện rõ nét đặc điểm từ vựng của ngôn ngữ này.
Mỗi tiếng trong tiếng Việt là một đơn vị có nghĩa cơ bản, đóng vai trò quan trọng trong hệ thống ngôn ngữ Từ những tiếng này, con người có thể tạo ra các đơn vị từ vựng khác để định danh sự vật, hiện tượng, chủ yếu thông qua hai phương thức là ghép và láy.
Việc tạo ra các đơn vị từ vựng thông qua phương thức ghép bị chi phối bởi quy luật kết hợp ngữ nghĩa, như trong các ví dụ: đất nước, máy bay, nhà lầu xe hơi, nhà tan cửa nát Hiện nay, phương thức này là cách chủ yếu để hình thành các đơn vị từ vựng Tiếng Việt sử dụng các yếu tố cấu tạo từ thuần Việt hoặc vay mượn từ các ngôn ngữ khác để sáng tạo ra những từ ngữ mới, chẳng hạn như tiếp thị, karaoke, xa lộ thông tin, siêu liên kết văn bản, và truy cập ngẫu nhiên.
Vốn từ vựng tối thiểu của tiếng Việt chủ yếu bao gồm các từ đơn tiết, tức là một âm tiết, một tiếng Sự linh hoạt trong việc sử dụng và tạo ra các từ ngữ mới một cách dễ dàng đã thúc đẩy sự phát triển của vốn từ, làm cho nó phong phú về số lượng và đa dạng trong hoạt động Đối với cùng một sự vật, hiện tượng, hoạt động hay đặc trưng, có thể có nhiều từ ngữ khác nhau để biểu thị.
1.1.2 Đặc điểm ngôn ngữ tiếng Nhật
Người Nhật sử dụng bảng chữ cái Katakana, một hệ thống ngữ âm đặc biệt, chủ yếu để viết tên nước ngoài và từ mượn Bảng 1.1 trình bày các ký hiệu Katakana cùng với cách phát âm tiếng Nhật tương ứng Hai ký hiệu ở góc dưới bên phải được sử dụng để kéo dài nguyên âm hoặc phụ âm trong tiếng Nhật.
Bảng 1.1: Bảng chữ cái Katakana và cách phát âm tiếng Nhật [3]
Âm tiết trong tiếng Nhật đóng vai trò quan trọng, vừa là đơn vị ngữ âm nhỏ nhất vừa là đơn vị phát âm cơ bản Mỗi âm tiết được thể hiện bằng một chữ Kana (Hiragana và Katakana), với tổng cộng 112 dạng âm tiết trong tiếng Nhật Trong số này, có 21 dạng âm tiết chỉ xuất hiện trong các từ vay mượn từ nước ngoài.
Trong tiếng Việt, nhiều từ được tạo thành từ một âm tiết, mỗi âm tiết mang ý nghĩa riêng như "bàn", "trà", "bạn", "đèn" Ngược lại, tiếng Nhật chủ yếu có từ được cấu tạo từ hai âm tiết trở lên, trong đó mỗi âm tiết thường không có ý nghĩa riêng lẻ, ví dụ như từ "omoshiroi" với năm âm tiết /o/mo/shi/ro/i/ Tuy nhiên, cũng có những từ một âm tiết trong tiếng Nhật mà âm tiết đó mang nghĩa, như từ "ki" có nghĩa là cái cây.
“e” có nghĩa là bức tranh, “te” có nghĩa là cái tay nhƣng những từ nhƣ vậy chiếm số lƣợng rất nhỏ trong vốn từ vựng tiếng Nhật [15]
Tiếng Nhật bao gồm 5 nguyên âm: /a, i, u, e, o/ và 12 phụ âm: /k, s, t, g, z, d, n, m, h, b, p, r/, số lượng này tương đối ít so với các ngôn ngữ khác Bên cạnh đó, tiếng Nhật còn có hai âm đặc biệt là âm mũi (N) và âm ngắt (Q).
Trong tiếng Nhật, trọng âm đóng vai trò quan trọng, chủ yếu được thể hiện qua độ cao khi phát âm Nhờ có trọng âm, nhiều từ đồng âm nhưng khác nghĩa được phân biệt rõ ràng, chẳng hạn như từ “hashi”, với âm tiết thứ nhất mang nghĩa “đôi đũa” và âm tiết thứ hai mang nghĩa “cây cầu” Tuy nhiên, sự phân bố trọng âm không đồng nhất giữa các phương ngữ, do đó, phương ngữ Tokyo được chọn làm ngôn ngữ chuẩn.
Tiếng Nhật sở hữu một vốn từ vựng phong phú và đa dạng, thể hiện qua tính đa tầng lớp của các nhóm từ Trong đó, nhóm từ mượn, chủ yếu từ tiếng Anh, Pháp, Đức, Tây Ban Nha và Bồ Đào Nha, được viết bằng chữ Katakana để phân biệt với từ gốc Hán và từ thuần Nhật Một số ví dụ điển hình bao gồm tabako (thuốc lá), kereraisu (cơm cà ri) và uirusu (vi-rút).
Bài toán dịch máy và tiếp cận dịch dựa trên cụm từ phân cấp
1.2.1 Khái niệm về hệ dịch máy a Định nghĩa
Dịch máy (MT) là một lĩnh vực trong ngôn ngữ học tính toán, nghiên cứu việc sử dụng phần mềm để chuyển đổi văn bản hoặc bài phát biểu từ ngôn ngữ này sang ngôn ngữ khác Vai trò của dịch máy ngày càng trở nên quan trọng trong việc hỗ trợ giao tiếp và trao đổi thông tin giữa các nền văn hóa khác nhau.
Theo các nhà khoa học, hiện nay trên thế giới có ít nhất 7099 ngôn ngữ khác nhau, gây ra nhiều khó khăn trong việc trao đổi thông tin giữa các quốc gia Để giải quyết vấn đề này, một đội ngũ phiên dịch viên lớn đã được huy động để dịch thuật các văn bản và lời nói Để cải thiện hiệu quả dịch thuật, các mô hình tự động đã được đề xuất, và nghiên cứu về dịch máy đã bắt đầu ngay từ những ngày đầu xuất hiện của máy vi tính.
Dịch máy là một công cụ ứng dụng hữu ích, giúp tiết kiệm thời gian, chi phí và công sức Tuy nhiên, nó không thể hoàn toàn thay thế người dịch vì không thể tạo ra bản dịch chất lượng cao một cách tự động Do đó, sự tương tác của con người vẫn rất cần thiết trong quá trình dịch Hệ thống dịch máy bắt đầu với đầu vào là văn bản từ ngôn ngữ nguồn, có thể thu được từ các hệ soạn thảo hoặc nhận dạng chữ viết, lời nói Văn bản này cần được chỉnh sửa và kiểm tra chính tả trước khi đưa vào máy dịch.
Phần mềm dịch máy chuyển đổi văn bản từ ngôn ngữ nguồn sang ngôn ngữ đích, qua đó sử dụng một bộ chỉnh sửa để tạo ra văn bản hoàn chỉnh hơn Dưới đây là sơ đồ tổng quát của hệ thống dịch máy.
Hình 1.1: Sơ đồ tổng quan hệ dịch máy [1]
1.2.2 Mô hình dịch máy thống kê
Bài toán dịch máy đã được phát triển từ thập kỷ 50 và mạnh mẽ từ thập kỷ 80, với nhiều hệ dịch máy thương mại nổi tiếng như Systrans và Kant, cùng với hệ dịch mở của Google hỗ trợ hàng chục cặp ngôn ngữ phổ biến Các phương pháp dịch máy chủ yếu bao gồm dịch dựa vào luật và dịch dựa vào xác suất thống kê Mặc dù các hệ thống này đạt kết quả tốt với những cặp ngôn ngữ tương đồng về chữ cái và phát âm như Anh-Việt hay Đức-Anh, nhưng vẫn gặp nhiều hạn chế khi xử lý các cặp ngôn ngữ có cú pháp khác nhau như Anh-Trung và Việt-Nhật.
Hiện nay, nghiên cứu nhằm cải thiện chất lượng hệ thống dịch thuật đang diễn ra, chú trọng đến đặc điểm của từng cặp ngôn ngữ Đồng thời, phương pháp dịch dựa trên mạng nơ-ron đang phát triển mạnh mẽ với nhiều đột phá mới Một trong những hướng đi quan trọng là khảo sát phương pháp dịch máy thống kê.
Dịch máy thống kê dựa trên từ được phát triển từ nghiên cứu của Brown (1993), người đã xây dựng mô hình kênh nhiễu cho việc dịch thuật Mô hình này tương tự như mô hình chuyển ngữ được trình bày bởi Knight và Graehl (1997).
Dịch máy dựa trên phương pháp thống kê đang nổi bật với tiềm năng phát triển vượt trội so với các phương pháp truyền thống Thay vì phải xây dựng từ điển và quy luật chuyển đổi một cách thủ công, hệ thống này tự động tạo ra từ điển và quy luật dựa trên kết quả thống kê từ các kho ngữ liệu Nhờ đó, dịch máy thống kê có thể áp dụng cho bất kỳ cặp ngôn ngữ nào, mang lại sự linh hoạt và hiệu quả cao trong việc dịch thuật.
Dịch máy dựa trên phương pháp thống kê sẽ tìm câu ngôn ngữ đích e phù hợp nhất (có xác suất cao nhất) khi cho trước câu ngôn ngữ nguồn f
Mô hình dịch máy đƣợc Brown áp dụng vào bài toán nhƣ sau:
Trong quá trình dịch câu tiếng Việt 𝑓 1 𝐽 = 𝑓 1 … 𝑓 𝑗 … 𝑓 𝐽 sang tiếng Nhật 𝑒 1 𝐼 = 𝑒 1 … 𝑒 𝑖 … 𝑒 𝐼, Brown đã phát triển mô hình kênh nhiễu, trong đó e là đầu vào của bộ mã hoá (Encoder) Qua kênh nhiễu, đầu vào e được chuyển hóa thành f và sau đó được gửi đến bộ giải mã (Decoder) Mục tiêu là chọn câu tiếng Nhật sao cho xác suất hậu nghiệm Pr(𝑒 1 𝐼 |𝑓 1 𝐽 ) đạt giá trị lớn nhất, dựa theo quy tắc quyết định Bayes.
𝑒 1 𝐼 Như vậy, ta có thể xây dựng mô hình chung của hệ dịch máy bằng phương pháp thống kê theo hình 1.2 nhƣ sau:
Hình 1.2: Mô hình chung hệ dịch máy thống kêViệt – Nhật
Mô hình ngôn ngữ thường được giải quyết bằng mô hình n-gram và mới đây là mô hình neuron
Pha giải mã thường được giải quyết bằng các thuật toán Search như Viterbi Beam, A* stack, Graph Model
Trong mô hình dịch, vấn đề trọng tâm của việc mô hình hoá xác suất dịch
Pr 𝑓 1 𝐽 𝑒 1 𝐼 là quá trình xác định sự tương ứng giữa các từ trong câu nguồn và câu đích Mô hình thực hiện nhiệm vụ này được gọi là mô hình gióng hàng từ Hệ thống dịch thống kê trải qua các chu kỳ phát triển quan trọng.
Bước đầu tiên trong quy trình phát triển hệ thống dịch máy là thu thập ngữ liệu huấn luyện, bao gồm các văn bản song ngữ, thực hiện việc dóng hàng câu và trích lọc cặp câu phù hợp Tiếp theo, ở bước thứ hai, chúng ta tiến hành huấn luyện tự động hệ thống dịch máy, với mục tiêu tạo ra một hệ thống dịch máy hiệu quả.
Hệ thống dịch máy được kiểm tra kỹ lưỡng, và phân tích lỗi được thực hiện để xác định các vấn đề Dựa vào kiến trúc của hệ thống dịch máy thống kê, có thể phân loại các loại lỗi như lỗi tìm kiếm, lỗi mô hình, lỗi huấn luyện, lỗi corpus huấn luyện và lỗi tiền xử lý.
Mục tiêu của mô hình tốt hơn là phát triển một hệ thống có khả năng mô tả đầy đủ các thuộc tính của ngôn ngữ tự nhiên, đồng thời ước lượng chính xác các tham số tự do từ dữ liệu huấn luyện.
Để cải thiện quá trình huấn luyện, cần phát triển các thuật toán dựa trên cách tiếp cận hợp lý cực đại, nhằm giảm thiểu khả năng chỉ đạt được tối ưu địa phương Việc này giúp đảm bảo rằng kết quả tối ưu địa phương gần với tối ưu toàn cục, từ đó nâng cao hiệu quả của quá trình huấn luyện.
Lỗi tìm kiếm có thể xảy ra khi thuật toán không tìm ra câu dịch chính xác từ câu nguồn, dẫn đến việc chỉ có thể sử dụng các phương pháp tìm kiếm gần đúng Để đạt được hiệu quả tối ưu, thuật toán cần phải cân bằng giữa chất lượng dịch và thời gian xử lý.
Vấn đề tên riêng và từ mƣợn trong dịch máy
Trong những năm gần đây, việc chuyển ngữ tự động tên riêng đã thu hút sự quan tâm đáng kể, nhờ vào khả năng chống gian lận chuyển ngữ Quá trình này giúp tên riêng không bị truy vết bởi các cơ quan thực thi pháp luật và tình báo.
Hình 1.6: Ví dụ chuyển ngữ tên riêng tiếng Nga - Anh
Khả năng chuyển ngữ tên riêng đóng vai trò quan trọng trong dịch máy thống kê, vì các hệ thống này được huấn luyện trên các tập ngữ liệu song song lớn Tuy nhiên, những tập ngữ liệu này không thể bao quát hết tất cả các từ, đặc biệt là các tên riêng có hiệu suất cao Khi gặp một câu văn mới, hệ thống dịch máy sẽ dựa vào kiến thức từ ngữ liệu đã huấn luyện; nếu gặp từ chưa biết, nó có thể đưa từ đó vào danh sách chưa biết, sao chép từ đó vào bản dịch, hoặc tệ nhất là không thể dịch được.
Các phương pháp tự động đánh giá hệ thống dịch máy thống kê hiện tại dựa vào việc tính toán độ chính xác của các chuỗi từ có độ dài khác nhau, như chỉ số Bleu Việc chuyển ngữ chính xác tên riêng đóng vai trò quan trọng trong việc nâng cao hiệu quả bản dịch Thực tế, các bản dịch thường có nhiều câu trả lời chấp nhận được, ví dụ trong việc chuyển ngữ tiếng Nhật.
Để cải thiện hiệu suất của hệ thống dịch máy thống kê, việc thiết lập phiên âm chính xác cho các tên riêng như "Merck" (có thể là Meka, Meruka hoặc Meruku) là rất cần thiết thay vì chỉ chấp nhận bản dịch Mặc dù đã có nhiều tài liệu tham khảo để mở rộng bộ dữ liệu các bản dịch có thể chấp nhận, việc dịch các tên riêng vẫn gặp nhiều khó khăn, đặc biệt trong ngữ cảnh giữa tiếng Việt và tiếng Nhật.
Truy xuất thông tin ngôn ngữ chéo (CLIR) có thể được cải thiện nhờ vào việc dịch các từ không rõ ràng và tên riêng, như đã chỉ ra bởi AbdulJaleel và Larkey (2003) cùng với Virga và Khudanpur.
2003) Theo bản chất các ứng dụng CLIR có thể xem xét tăng truy hồi nếu có sự không rõ ràng khi sử dụng chuyển ngữ không giám sát
Trong luận văn này, chúng tôi nghiên cứu đề tài "Chuyển ngữ tự động từ tiếng Việt sang tiếng Nhật" bằng cách sử dụng hệ thống Moses và mô hình dịch máy thống kê Chúng tôi thực hiện nhiều thí nghiệm để xác định các thông số tối ưu và phân tích ảnh hưởng của kích thước mô hình chuyển ngữ cũng như phiên âm đối với kết quả dịch.
Đến đầu những năm 1990, từ mượn chiếm 13,5% vốn từ vựng tiếng Nhật, chủ yếu từ tiếng Anh (80%) Hiện nay, từ mượn đóng vai trò quan trọng trong đời sống ngôn ngữ của người Nhật Bản, đặc biệt là trong các lĩnh vực kinh tế, chính trị và xã hội.
Bài toán luận văn giải quyết
Chuyển ngữ tiếng Việt - Nhật là một lĩnh vực mới chưa được nghiên cứu nhiều Trong khóa luận này, chúng tôi tập trung vào các phương pháp dịch máy từ tiếng Việt sang tiếng Nhật dựa trên xác suất thống kê Đặc biệt, luận văn sẽ đề xuất phương pháp chuyển ngữ cho các từ không xác định, bao gồm cả tên riêng Thông qua thực nghiệm, chúng tôi đánh giá rằng chất lượng bản dịch tiếng Nhật được cải thiện đáng kể nhờ áp dụng mô hình chuyển ngữ không giám sát.
Kết cấu luận văn
Ngoài phần mở đầu và phần tài liệu tham khảo, luận văn này đƣợc tổ chức thành 5 chương với các nội dung chính như sau:
- Chương 2: Dịch máy thống kê dựa vào cụm từ phân cấp
- Chương 3: Dịch tên riêng và chuyển ngữ
- Chương 4: Thực nghiệm và đánh giá
DỊCH MÁY THỐNG KÊ DỰA TRÊN CỤM TỪ PHÂN CẤP
Trong chương này, chúng tôi giới thiệu phương pháp dịch máy thống kê dựa trên các cụm từ phân cấp, sử dụng mô hình ngữ pháp phi ngữ cảnh (CFG) đồng bộ mà không cần chú thích cú pháp từ bản song ngữ Phương pháp này kết hợp các yếu tố từ dịch cú pháp và dịch cụm từ Chúng tôi sẽ trình bày chi tiết về các phương pháp đào tạo và giải mã của hệ thống, đồng thời đánh giá hiệu suất dựa trên tốc độ và độ chính xác của bản dịch.
Chúng tôi đưa ra một định nghĩa không chính thức và mô tả chi tiết quá trình xây dựng một văn phạm phi ngữ cảnh đồng bộ cho mô hình.
2.1.1 Văn phạm phi ngữ cảnh đồng bộ
Trong một văn phạm phi ngữ cảnh đồng bộ các thành phần cấu trúc cơ bản đƣợc viết lại quy tắc với các cặp gióng hàng phía bên phải:
Ký hiệu X là một ký hiệu không kết thúc, trong đó γ và α bao gồm chuỗi ký hiệu kết thúc và ký hiệu không kết thúc Đặc biệt, ~ là ánh xạ 1-1 giữa các biến cố γ và α, ví dụ như trong chuỗi tiếng Trung.
“Aozhou shi yu Beihan you bangjiao de shaoshu guojia zhiyi” đƣợc dịch sang tiếng Anh là
Australia maintains diplomatic relations with North Korea, making it one of the few countries to do so This unique relationship highlights Australia's position in international diplomacy.
Trong bài viết này, chúng tôi sử dụng ký hiệu không kết thúc được đánh số để chỉ ra những sự kiện không liên quan, được kết nối bởi dấu “~” Các cặp cụm từ thông thường sẽ được chính thức hóa để đảm bảo tính chính xác và rõ ràng trong nội dung.
𝑋 → (𝑠𝑎𝑜𝑠𝑢 𝑔𝑢𝑜𝑗𝑖𝑎, 𝑓𝑒𝑤 𝑐𝑜𝑢𝑛𝑡𝑟𝑖𝑒𝑠) Thêm hai luật để hoàn thiện ví dụ của chúng ta:
Dẫn xuất văn phạm phi ngữ cảnh đồng bộ là quá trình áp dụng các quy tắc để chuyển đổi từ ký hiệu bắt đầu S thành cặp câu song ngữ Quá trình này bao gồm các cặp dạng câu với ký hiệu kết thúc và ký hiệu không kết thúc làm trung gian.
Hình 2.1: Ví dụ trích xuất của văn phạm phi ngữ cảnhđồng bộ
Ngữ pháp chủ yếu dựa vào các quy tắc trích xuất tự động, bắt đầu từ một tập ngữ liệu huấn luyện với các cặp câu gióng hàng Mỗi cặp gồm một câu nguồn (f), một câu đích (e), và một ánh xạ giữa vị trí của chúng Quá trình tạo gióng hàng từ được thực hiện bằng cách sử dụng GIZA++ trên ngữ liệu huấn luyện theo cả hai hướng, kết hợp từ hai bộ gióng hàng để tạo ra kết quả chính xác.
Chúng ta tiến hành trích xuất từ mỗi cặp câu đã gióng hàng theo một bộ quy tắc phù hợp Quy trình này bao gồm hai bước: đầu tiên, xác định các cặp cụm từ ban đầu dựa trên tiêu chí giống như các hệ thống dịch dựa trên cụm từ, yêu cầu ít nhất một từ trong cụm từ gióng hàng với một từ trong chuỗi câu đích, đồng thời không có từ nào trong cụm từ gióng hàng có thể gióng với từ bên ngoài cụm từ đích.
30 plus-year-past of friendly cooperation
Friendly cooperation over the last 30 years Định nghĩa 1
Cho một cặp chuỗi gióng hàng từ (f,e,~), với 𝑓 𝑖 𝑗 là chuỗi con của f từ vị trí i đến vị trí j và 𝑒 𝑖′ 𝑗′ tương tự cho e Quy tắc (𝑓 𝑖 𝑗 , 𝑒 𝑖′ 𝑗′ ) được định nghĩa là viết tắt của cặp chuỗi (f,e,~).
Để xây dựng các quy tắc từ các cụm từ, chúng ta cần xác định các cụm từ chứa những cụm từ khác và thay thế các cụm từ phụ bằng các ký hiệu không kết thúc Ví dụ, từ các cụm từ ban đầu được thể hiện trong hình dưới đây, chúng ta có thể phát triển một quy tắc mới.
Hình 2.2: Ví dụ trích xuất ngữ pháp: Chuỗi cụm từ ban đầu Định nghĩa 2
Bộ quy tắc (f,e,~) là bộ nhỏ nhất thỏa mãn các quy tắc sau:
1 Nếu (𝑓 𝑖 𝑗 , 𝑒 𝑖′ 𝑗 ′ ) là cặp chuỗi mở đầu thì:
2 Nếu (𝑋 → (𝛾, 𝛼)) là quy tắc của (f,e,~) và (𝑓 𝑖 𝑗 , 𝑒 𝑖′ 𝑗′ ) là cặp cụm từ ban đầu sao cho 𝛾 = 𝛾 1 𝑓 𝑖 𝑗 𝛾 2 và 𝛼 = 𝛼 1 𝑒 𝑖′ 𝑗′ 𝛼 2 thì:
𝑋 → (𝛾 1 𝑋 𝑘 𝛾 2 , 𝛼 1 𝑋 𝑘 𝛼 2 ) trong đó k là chỉ dấu không đƣợc sử dụng trong 𝛾và 𝛼 là quy tắc của (f,e,~)
Quy tắc keo (Glue rules) là quy tắc trích xuất từ ngữ liệu huấn luyện, cho phép ký hiệu bắt đầu của ngữ pháp X dịch chuỗi mới chỉ bằng các quy tắc trích xuất Để đảm bảo tính mạnh mẽ và liên tục của các mô hình dịch dựa trên cụm từ, ngữ pháp có thể chia một câu ngôn ngữ nguồn thành nhiều khối và dịch một đoạn trong một thời gian Điều này được chính thức hóa trong một văn phạm phi ngữ cảnh đồng bộ thông qua các quy tắc gọi là quy tắc keo.
Quy tắc phân tích S (ký hiệu bắt đầu) như một dãy được dịch mà không cần sắp xếp lại Nếu ngữ pháp chỉ bao gồm các quy tắc keo và các cặp cụm thông thường, mô hình sẽ trở thành mô hình dịch dựa trên cụm từ với bản dịch đơn âm, tức là không có cụm từ sắp xếp lại.
Quy tắc về thực thể (Entity Rules) yêu cầu rằng sau khi dịch mỗi câu, chúng tôi sử dụng các mô-đun dịch chuyên ngành để xử lý các con số, ngày tháng và từng dòng trong câu Các bản dịch này sẽ được chèn vào ngữ pháp theo các quy tắc mới Mặc dù các mô-đun này thường được áp dụng trong các hệ thống dịch dựa trên cụm từ, nhưng trong trường hợp này, các bản dịch có thể được tích hợp vào dịch dựa trên cụm từ phân cấp.
𝑋 → (𝑋 1 𝑑𝑢𝑜𝑛𝑖𝑎𝑛𝑙𝑎𝑖, 𝑜𝑣𝑒𝑟𝑡𝑒𝑙𝑎𝑠𝑡𝑋 1 𝑦𝑒𝑎𝑟𝑠) cho phép khái quát hóa cho “years”
Một câu tiếng Việt sẽ có một ngữ pháp phi ngữ cảnh đồng bộ, dẫn đến sự phát sinh của nhiều dẫn xuất Điều này tạo ra khả năng tồn tại nhiều bản dịch khác nhau Chúng ta sẽ định nghĩa một mô hình dựa trên các dẫn xuất D để dự đoán những bản dịch có khả năng xảy ra cao hơn những bản khác.
Chúng ta sử dụng một mô hình tuyến tính tổng quát cho các dẫn xuất D:
Trong bài viết này, chúng ta sẽ thảo luận về các đặc trưng φi được định nghĩa dựa trên dẫn xuất, với trọng số λi Một trong những đặc trưng quan trọng là mô hình ngôn ngữ m-gram PLM (e), trong khi các đặc trưng còn lại sẽ được xác định thông qua các hàm áp dụng lên các quy tắc trong dẫn xuất.
Nhƣ vậy chúng ta có thể viết lại P (D) nhƣ sau:
DỊCH TÊN RIÊNG VÀ CHUYỂN NGỮ
Một trong những thách thức phổ biến mà dịch giả gặp phải là việc dịch chính xác tên riêng Đặc biệt, trong các cặp ngôn ngữ như tiếng Tây Ban Nha và tiếng Anh, việc này thường không quá khó khăn; ví dụ, tên "Antonio Gil" thường được giữ nguyên trong bản dịch.
Antonio Gil Tình huống trở nên phức tạp hơn với các cặp ngôn ngữ có bảng chữ cái và hệ thống phát âm khác biệt, như tiếng Nhật - tiếng Anh và tiếng Việt - tiếng Nhật Trong các cặp ngôn ngữ này, bản dịch ngữ âm được gọi là phiên âm.
Trong dịch máy thống kê, ngữ liệu huấn luyện không thể bao phủ hết tất cả từ vựng của một ngôn ngữ Thay vì cố gắng dịch mọi từ, chúng tôi xem "từ không xác định" như một phần tự nhiên của quá trình dịch máy và tìm cách cải thiện chất lượng dịch bằng cách xử lý những từ này Việc phân đoạn từ có thể nâng cao chất lượng dịch nhưng cũng dẫn đến việc xuất hiện nhiều từ không xác định trong bản dịch do ngữ liệu huấn luyện hạn chế hơn.
Trong dịch thống kê Việt-Nhật, phần lớn các từ không xác định là tên thực thể, bao gồm các loại như tên người, tên tổ chức, tên địa danh và các biểu thức số như ngày, giờ, phần trăm, số điện thoại.
Ngôn ngữ có bản chất nhập nhằng, khiến một từ có thể mang nhiều nghĩa trong các ngữ cảnh khác nhau, và biểu thức số cũng không phải là ngoại lệ Thông thường, một biểu thức số không đầy đủ sẽ có nhiều nghĩa tùy thuộc vào ngữ cảnh Để giải quyết vấn đề này, chúng tôi khuyến nghị sử dụng mô hình ngôn ngữ không xác định trong tiếng Việt để xác định nghĩa phù hợp.
3.1.2 Một số nguyên tắc cần lưu ý khi chuyển tên tiếng Việt sang Katakana [17]
Nếu là nguyên âm, chuyển tương đương như sau:
Bảng 3.1: Nguyên tắc chuyển ngữ nguyên âm tiếng Việt sang tiếng Nhật
Nếu là phụ âm thì chúng ta cũng chuyển các hàng tương ứng, ví dụ :
Bảng 3.2: Ví dụ chuyển ngữ phụ âm tiếng Việt sang tiếng Nhật
3.1.3 Phương pháp của Kevin Night (1997)
Các chú giải song ngữ giúp ánh xạ các cụm từ katakana sang tiếng Việt, ví dụ: “mỳ tôm” -> “ミートム” (mitomu) Phương pháp này có khả năng tự động phân tích các cặp từ để ánh xạ chính xác các cụm katakana mới, và có thể áp dụng cho nhiều cặp ngôn ngữ khác Tuy nhiên, cách tiếp cận này chỉ là thô sơ và gặp một số vấn đề trong việc tìm sự tương ứng giữa các chữ cái tiếng Việt và ký tự katakana.
Chúng ta xây dựng một mô hình động của quá trình chuyển ngữ:
1 Một cụm từ tiếng Việt đƣợc viết ra
2 Một máy dịch/người dịch phát âm nó bằng tiếng Việt
3 Cách phát âm đƣợc sửa đổi để phù hợp với bản âm thanh tiếng Nhật
4 Các âm đƣợc chuyển đổi sang katakana
Chúng ta chia bài toán thành 4 phần nhỏ và áp dụng các kỹ thuật để phối hợp giải pháp cho từng phần Tiếng Việt có sự tương đồng giữa phát âm và viết, vì vậy chúng ta sẽ tập trung vào nghiên cứu bài toán 3 và 4 Các kỹ thuật này dựa trên xác suất và định lý Bayes.
Chúng tôi áp dụng hai thuật toán để cung cấp các bản dịch chất lượng cao Đầu tiên, chúng tôi sử dụng thuật toán Dijkstra để tìm đường đi ngắn nhất Thứ hai, chúng tôi triển khai một thuật toán khác cho phép xác định k bản dịch hiệu quả nhất với độ chính xác O(m + n log n + kn), trong đó, automata hữu hạn có trọng số bao gồm n trạng thái và m đối số.
Phương pháp tiếp cận theo mô-đun cho phép chúng tôi kiểm tra từng công cụ một cách độc lập, đảm bảo rằng các kết quả được kết hợp chính xác Chúng tôi không cắt bớt thông tin, do đó, automat hữu hạn có trọng số cuối cùng chứa tất cả các giải pháp, dù có sự không chắc chắn Phương pháp này tìm kiếm đường đi tốt nhất thông qua một automat hữu hạn có trọng số, thay vì chỉ tập trung vào trình tự tốt nhất, ví dụ như cùng một chuỗi không nhận được điểm thưởng cho việc xuất hiện nhiều lần.
3.1.4 Các mô hình xác suất Âm tiếng Việt sang âm tiếng Nhật
Chúng tôi tiến hành ánh xạ các chuỗi âm tiếng Việt sang chuỗi âm tiếng Nhật, tuy nhiên quá trình này gặp phải sự mất mát thông tin Cụ thể, âm “R” và “L” trong tiếng Việt được chuyển thành âm “r” trong tiếng Nhật, và 12 nguyên âm trong tiếng Việt chỉ được biểu đạt bằng 5 nguyên âm trong tiếng Nhật Điều này đặt ra hai vấn đề cần phải giải quyết.
1 Bản tóm tắt âm tiếng Nhật có mục đích gì?
2 Chúng tôi có thể xây dựng một automat hữu hạn có trọng số để thực hiện ánh xạ các chuỗi nhƣ thế nào?
Một bản tóm tắt hiệu quả cần có mục đích rõ ràng, trong đó âm tiết tiếng Nhật được thể hiện bằng ký tự katakana tương ứng, ví dụ như "に" tương đương với "ni" Cách tiếp cận này giúp người đọc dễ dàng nhận diện và hiểu rõ hơn về âm thanh của từ ngữ trong tiếng Nhật.
Trong tiếng Việt, âm "K" có thể tương ứng với các âm (ka), (ki), (ku), (ke) hoặc (ko) tùy thuộc vào ngữ cảnh Tuy nhiên, ký tự katakana chỉ đại diện cho một âm tiết, do đó không thể đưa ra một khái quát rõ ràng Thông thường, âm "K" trong tiếng Việt tương ứng với âm "k" trong tiếng Nhật, nhưng không phải lúc nào cũng chính xác Hơn nữa, sự tương ứng giữa chữ viết katakana và âm tiếng Nhật không hoàn toàn là 1-1, vì vậy một bản tóm tắt âm thanh độc lập là cần thiết Bản tóm tắt âm tiếng Nhật bao gồm 39 ký tự: 5 nguyên âm, 33 phụ âm (bao gồm nguyên âm đôi) và một âm đặc biệt (pause).
Chuỗi âm tiếng Việt như “Hồ Chí Minh” có thể được sắp xếp thành chuỗi âm tiếng Nhật “Hochimin”, điều này thú vị vì chuỗi âm tiếng Nhật thường dài hơn chuỗi âm tiếng Việt.
Chúng tôi phát triển một mô hình automat hữu hạn có trọng số, học tự động từ các cặp chuỗi âm Việt - Nhật, như “rượu nếp” và “mochigome” Bằng cách thao tác với bản chú giải thuật ngữ tiếng Việt và katakana, chúng tôi tạo ra các cặp từ cần thiết Sau đó, chúng tôi áp dụng thuật toán Ước lượng tối đa hóa (EM) để tính toán xác suất kí tự nối, giúp cải thiện độ chính xác trong việc chuyển đổi giữa hai ngôn ngữ.
1 Với mỗi cặp chuỗi âmViệt - Nhật, tính tất cả các sắp xếp có thể có giữa các thành phần của chúng Trong trường hợp của chúng tôi, một sự sắp xếp là một bản vẽ kết nối mỗi âm tiếng Việt với một hoặc nhiều âm tiếng Nhật Ví dụ, có 2 cách để sắp xếp các cặp “Tuấn”“twuan”: hoặc
Trong trường hợp này, sự xắp xếp bên trên bằng trực giác thích hợp hơn
THỰC NGHIỆM VÀ ĐÁNH GIÁ
Chương này trình bày về các bộ dữ liệu được sử dụng để huấn luyện và kiểm tra các mô hình phiên âm tiếng Việt-Nhật Phần mềm Moses được áp dụng xuyên suốt dự án, cùng với các số liệu đánh giá hiệu quả mô hình Cuối cùng, chương cũng mô tả chi tiết các thí nghiệm đã thực hiện.
4.1 Chuẩn bị dữ liệu đầu vào cho hệ dịch
Dữ liệu đầu vào cho hệ thống chuyển ngữ là 40.000 cặp câu song ngữ Việt – Nhật đã được thu thập, lọc nhiễu và gióng hàng từ Để chuẩn bị cho quá trình đào tạo, cần thực hiện một số bước quan trọng nhằm đảm bảo chất lượng dữ liệu.
Tách các từ và cụm từ trong chuỗi
Các từ ban đầu trong mỗi câu đƣợc chuyển đổi sang phiên bản chắc chắn nhất của chúng Điều này giúp giảm sự thƣa thớt dữ liệu
Các chuỗi dài và chuỗi trống sẽ bị loại bỏ để tránh gây ra vấn đề trong quá trình huấn luyện, và những câu sai lệch cũng sẽ được xóa.
4.2.Công cụ tiền xử lý
4.2.1 Môi trường triển khai phần cứng:
Bộ xử lý Core2Duo T9300 2.5Ghz, RAM 2GB, HDD free 20GB
Phần mềm: Hệ điều hành Ubuntu 12.04 32 bit 4.1.2
4.2.2.Bộ công cụ mã nguồn mở Moses
Moses là hệ thống dịch máy thống kê mạnh mẽ, cho phép người dùng dễ dàng xây dựng mô hình dịch cho bất kỳ cặp ngôn ngữ nào Hệ thống này tích hợp đầy đủ các thành phần cần thiết cho việc tiền xử lý dữ liệu, huấn luyện mô hình ngôn ngữ và mô hình dịch Ngoài ra, Moses còn cung cấp các công cụ tinh chỉnh cho các mô hình, sử dụng phương pháp huấn luyện với lỗi tối thiểu và đánh giá chất lượng dịch thông qua điểm BLEU.
Có thể tải về từ: http://www.statmt.org/moses/
GIZA++ (Och và Ney, 2003) là một phần mở rộng của chương trình GIZA, được phát triển bởi Nhóm dịch máy thống kê tại hội thảo mùa hè năm 1999 tại Trung tâm Ngôn ngữ và Xử lý Ngôn ngữ, Trường đại học Johns-Hopkins (CLSP / JHU) GIZA++ cung cấp hỗ trợ để đào tạo các mô hình IBM (Brown và cộng sự, 1993), bao gồm mô hình 4 và 5 GIZA được sử dụng kết hợp với Moses để thực hiện việc gióng hàng trên các tập ngữ liệu huấn luyện song song.
Việc triển khai Mert của Ashish Venugopal cho dịch máy thống kê, như mô tả trong các nghiên cứu của Och (2003) và Venugopal và Vogel (2005), bao gồm nhiều cải tiến cho phương thức đào tạo cơ bản Những cải tiến này bao gồm việc sử dụng điều kiện ban đầu ngẫu nhiên và trật tự mẫu chuyển hoán nhằm giải quyết bản chất tham lam của thuật toán Đồng thời, Mert cũng mở rộng hoặc hạn chế phạm vi các tham số động để tăng cường tác động tương đối tiềm năng của chúng hoặc để hạn chế việc sử dụng các mô hình nhất định Mert đã được Moses áp dụng để tối ưu hóa hiệu năng dịch máy.
Công cụ phân tách từ Vitk có khả năng xử lý văn bản tiếng Việt lên tới hai triệu âm tiết trong vòng 20 giây trên ba máy tính với cấu hình 24 lõi và 24 GB RAM, đạt độ chính xác khoảng 97% Bộ công cụ này được thiết kế để xử lý dữ liệu văn bản lớn, sử dụng Apache Spark, một nền tảng nhanh chóng và phổ biến cho việc xử lý dữ liệu quy mô lớn.
Có thể tải về từ: https://github.com/phuonglh/vn.vitk
Tương tự Vitk, Mecab là công cụ phân tách từ cho tiếng Nhật, độ chính xác lên đến 99%
Có thể tải về từ:https://pypi.python.org/pypi/mecab-python3
Dữ liệu đầu vào thu thập từ Ted và Wiki:
Dữ liệu huấn luyện Tiếng Việt 40000 câu
Dữ liệu điều chỉnh tham số
Tiếng Việt 950 câu Tiếng Nhật 950 câu
Dữ liệu đánh giá Tiếng Việt 1000 câu
4.3.2 Quá trình chuẩn bị dữ liệu và huấn luyện
Tách từ cho các file dữ liệu đầu vào
Cắt các câu dài cho 2 tệp dữ liệu huấn luyện
Huấn luyện mô hình ngôn ngữ
Mô hình ngôn ngữ được xây dựng để đảm bảo đầu ra trôi chảy, sử dụng ngôn ngữ mục tiêu, cụ thể là tiếng Nhật Tài liệu KenLM cung cấp hướng dẫn chi tiết về các tùy chọn dòng lệnh, và trong bài viết này, chúng tôi sẽ phát triển một mô hình ngôn ngữ 3-gram phù hợp.
Sau đó, chúng tôi nhị phân các tập tin * arpa.en sử dụng KenLM để tải nhanh hơn
Huẩn luyện mô hình dịch
Cuối cùng, chúng tôi tiến hành huấn luyện mô hình dịch bằng cách sử dụng GIZA++ để chạy gióng hàng và trích xuất cụm từ Quá trình này bao gồm việc tạo các bảng sắp xếp lại và cấu hình tệp cho Moses.
Huấn luyện tham số mô hình là giai đoạn tốn thời gian nhất trong quy trình Để thực hiện việc này, cần một lượng nhỏ dữ liệu song song, tách biệt với dữ liệu huấn luyện chính Chúng tôi đã sử dụng 950 cặp câu song ngữ Việt – Nhật để phục vụ cho quá trình huấn luyện này.
4.3.4 Chuyển ngữ từ không xác định
Quá trình dịch máy từ tiếng Việt sang tiếng Nhật theo phương pháp thống kê thường tạo ra các bản dịch chứa từ không xác định, bao gồm cả tên riêng mà mô hình dịch không thể xử lý Những từ này sẽ được chuyển ngữ thông qua Phương thức 1 của mô hình chuyển ngữ không giám sát.
Phương pháp này sử dụng mô hình dịch máy thống kê dựa trên cụm từ để học mô hình chuyển ngữ, với dữ liệu huấn luyện là các cặp từ trong ngữ liệu Chúng tôi tách các cặp từ thành ký tự và học hệ thống dịch cụm từ mà không thay đổi thứ tự ký tự giữa từ nguồn và từ đích, do đó không cần mô hình sắp xếp trật tự từ Chúng tôi chỉ sử dụng bốn đặc trưng cơ bản: đặc trưng dịch dựa trên cụm từ, mô hình ngôn ngữ, điểm phạt từ và cụm Trọng số của các đặc trưng này được học từ 1000 cặp từ chuyển ngữ.
Dữ liệu huấn luyện mô hình chuyển ngữ: Gồm 12.260 cặp từ đƣợc trích trọn từ dữ liệu 40.000 cặp câu song ngữ
Mô hình ngôn ngữ 3-gram đã được huấn luyện với 12.260 từ tiếng Nhật Để đánh giá chất lượng của mô hình dịch sau khi hoàn tất huấn luyện, chúng tôi tiến hành chuyển ngữ các từ không xác định trong file kết quả của mô hình dịch máy Số lượng từ không xác định này được xác định dựa trên cụm từ phân cấp chiều Việt - Nhật mà mô hình không thể dịch được.
Tổng có: 2006 từ không xác định
Số từ mang nghĩa: 1209 từ (60.3% tổng số từ không xác định)
Số từ không có nghĩa (tên riêng): 797 từ (39.7% tổng số từ không xác định)
4.4 Đánh giá và phân tích kết quả theo cỡ dữ liệu huấn luyện
4.4.1 Kết quả khi chƣa áp dụng mô hình chuyển ngữ
Chúng tôi đã thay đổi kích cỡ ngữ liệu huấn luyện từ 10.000 đến 40.000 cặp câu và tiến hành đánh giá chất lượng dịch thuật bằng điểm BLEU Điểm BLEU cao hơn cho thấy chất lượng dịch tốt hơn.
Hình 4.1: Kết quả đánh giá chất lượng dịch khi chưa tích hợp mô hình chuyển ngữ
Tiếng Việt Tiếng Nhật alleyne đã phải nhập_viện sau khi bị bắt vì bị tức ngực alleyne で逮捕された後、 nhập_viện tức
Tỷ lệ tử vong của dân thường ở quốc gia này đã tăng vọt, theo báo cáo từ Liên Hợp Quốc.
KẾT LUẬN
Một hệ thống tự động chuyển ngữ không giám sát có thể được xây dựng từ hệ thống dịch máy thống kê dựa trên cụm từ phân cấp, đạt hiệu suất tương đương với các hệ thống hiện đại Việc xây dựng hệ thống này không yêu cầu thông tin ngôn ngữ bổ sung như phát âm hay các ràng buộc ngôn ngữ, do đó cho phép phát triển nhanh chóng và tiết kiệm chi phí cho các cặp ngôn ngữ mới với đủ dữ liệu.
Một cải tiến đáng kể về điểm BLEU trong độ chính xác bản dịch đã được thực hiện nhờ mô hình chuyển ngữ không giám sát, sử dụng các cặp từ không xác định tiếng Việt - Nhật Mô hình này được xây dựng trên một tập dữ liệu lớn hơn với 40.000 cặp, vượt trội so với các thí nghiệm trước đó chỉ sử dụng 10.000, 20.000 hoặc 30.000 cặp.
Các công việc đạt đƣợc của luận văn:
Tìm hiểu tổng quan về hệ dịch máy đặc biệt là dịch máy thống kê dựa vào cụm từ phân cấp
Tìm hiểu tổng quan về mô hình chuyển ngữ tên của Kevin Night
Tìm hiểu phương pháp tích hợp mô hình chuyển ngữ không giám sát xử lý từ không xác định
Mô hình dịch máy thống kê dựa trên cụm từ phân cấp và mô hình chuyển ngữ không giám sát đã được thực nghiệm, cho thấy kết quả đánh giá tương đối khả quan.
Với những kết quả từ luận văn này, hy vọng trong tương lai sẽ nâng cao chất lượng dịch và thời gian dịch máy cho ngôn ngữ Việt - Nhật Điều này có thể đạt được bằng cách cập nhật ngữ liệu đầu vào phong phú, giảm kích thước bảng cụm từ, điều chỉnh các tham số để cải thiện quá trình huấn luyện mô hình, và cải tiến một số mô hình đảo cụm.