Hệ thống CLTE theo hướng tiếp cận cơ bản

Một phần của tài liệu (LUẬN văn THẠC sĩ) phát hiện kế thừa văn bản đa ngôn ngữ 04 (Trang 25 - 28)

Theo hướng tiếp cận này, Fandong Meng cộng sự [2] đã đề xuất ra hệ thống phát hiện kế thừa văn bản đa ngơn ngữ. Cho hai văn bản T1-T2 cần xác định mối quan hệ kế thừa, trong đĩ T2 được viết bằng tiếng Anh, T1 được viết bằng ngơn ngữ khác. Đầu tiên, nhĩm tác giả dịch văn bản T1 sang tiếng Anh. Sau đĩ, nhĩm tác giả sử dụng bộ cơng cụ mã nguồn mởEDITS để phát hiện mối quan hệ kế thừa giữa hai văn bản (EDITS là thành phần TE trong hướng tiếp cận cơ bản).Nhĩm tác giả đã tiến hành thực nghiệm trên bốn cặp ngơn ngữ Pháp-Anh, Tây Ban Nha-Anh, Italia-Anh, Đức-Anh. Độ chính xác trung bình qua các thực nghiệm của nhĩm tác giả là 0.5.

Mơ hình đề xuất của Fandong Meng và cộng sự [2] được thể hiện như hình vẽ dưới đây:

Cũng theo hướng tiếp cận cơ bản, Jiang ZHAO và cộng sự [4]đã xem xét bài tốn phát hiện kế thừa văn bản đa ngơn ngữCLTE như một vấn đề về phân lớp đa lớp, trong đĩ nhiều loại đặc trưng được sử dụng kết hợp với một bộ phân lớp SVM đa lớp. Hướng tiếp cận của nhĩm tác giả cĩ thể được chia thành ba bước: Đầu tiên, nhĩm tác giả sử dụng thành phần dịch máy để thu hẹp khoảng cách khác biệt ngơn ngữ giữa văn bản T và giả thuyết H. Ở bước thứ hai, nhĩm tác giả thực hiện tiền xử lý để tối đa hĩa sự tương đồng giữa hai đoạn văn bản để thực hiện phép tính chính xác hơn về độ tương đồng giữa hai văn bản. Ngồi các đặc trưng về độ tương đồng giữa hai văn bản, nhĩm tác giả đã đề xuất một số đặc trưng mới liên quan đến độ tương đồng ngữ nghĩa và sự khác biệt về câu. Cuối cùng tất cả các đặc trưng được kết hợp cùng nhau và làm dữ liệu đầu vào cho bộ phân lớp đa lớp SVM.

Nhĩm tác giả sử dụng các đặc trưng sau:

Các đặc trưng cơ bản: Tập đặc trưng này bao gồm các độ đo chiều dài

như:|A|,|B|,|A−B|,|B−A|,|A∪ B|,|A∩B|,|A|/|B| và |B|/|A|, trong đĩ A và B là hai văn bản, và chiều dài của văn bản là tổng các từ khơng bị lặp lại trong văn bản. Với các cặp văn bản thuộc các ngơn ngữ khác nhau, nhĩm tác giả sử dụng dịch máy để đưa chúng về cùng một ngơn ngữ rồi tính tốn đặc trưng cơ bản này.  Các đặc trưng tương đồng văn bản: Tập đặc trưng tương đồng văn bản bao gồm

các độ đo: hệ số Jaccard, hệ số Dice, hệ số Overlap, hệ số Weighted overlap, độ tương địng Cosine, khoảng cách Manhattan, khoảng cách Euclidean, khoảng cách Edit, khoảng cách Jaro-Winker.

Các đặc trưng tương đồng ngữ nghĩa: Nhĩm tác giả đã giới thiệu một mơ hình

ẩn để mơ hình các đại diện ngữ nghĩa của các từ trong các câu. Nhĩm tác giả đã sử dụng thừa số ma trận trọng số văn bản để mơ hình ngữ nghĩa của câu.

Các đặc trưng khác biệt về câu: Nhĩm tác giả cho rằng nhiều mối quan hệ kế

thừa giữa hai câu được xác định chỉ dựa trên một phần nhỏ của câu. Trên thực thế, mặc dù hai câu văn bản khơng kế thừa nhau nhưng độ tương đồng giữa hai câu cao (do việc sử dụng các độ đo tương đồng như đã đề cập ở trên) nên chúng vẫn được phán quyết là cĩ mối quan hệ kế thừa. Điều này dẫn đến kết quả phán quyết khơng chính xác. Vì vậy, nhĩm tác giả đã xây dựng các đặc trưng khác biệt về câu để phát hiện sự khác biệt giữa hai câu. Nếu hai câu cĩ độ đo tương đồng cao và độ đo khác biệt là thấp thì hai câu đĩ cĩ khả năng kế thừa cao.

Các đặc trưng về quan hệ ngữ pháp: Các đặc trưng này được sử dụng để tìm ra

mối quan hệ ngữ pháp giữa hai câu. Đầu tiên, nhĩm tác giả thay thế các từ trong câu bằng các nhãn từ loại của chúng (part of speech tags), sau đĩ áp dụng các độ đo tương đồng ngữ nghĩa trên các câu mới này.

Các đặc trưng bias: Các đặc trưng này được sử dụng để kiểm tra sự khác biệt

giữa hai câu trong một số khía cạnh đặc biệt, ví dụ, tính phân cực, các thực thể được đặt tên.

Jiang ZHAO và cộng sự [4] đã tiến hành thực nghiệm trên tập dữ liệu của hội nghị SemEval 2013. Tập dữ liêu bao gồm 1500 cặp câu văn bản (1000 cặp câu cho dữ liệu đào tạo, 500 cặp câu cho dữ liệu kiểm tra) cho bốn cặp ngơn ngữ khác nhau: Đức – Anh, Pháp – Anh, Tây Ban Nha – Anh, Ý – Anh. Độ chính xác trung bình qua các thực nghiệm của nhĩm tác giả là 0.43.

2.2.2 Hướng tiếp cận nâng cao

Ý tưởng của hướng tiếp cận này là tận dụng ưu điểm của việc tích hợp chặt chẽ dịch máy MT với các kỹ thuật, thuật tốn phát hiện kế thừa văn bản TE. Điều này giúp phát hiện kế thừa văn bản đa ngơn ngữmà khơng cần dịch văn bản với độ phức tạp thấp. Do đĩ, hướng tiếp cận này khơng bị phụ thuộc vào các thành phần dịch máy và nĩ cĩ thể kiểm sốt được tồn bộ hành vi của hệ thống. Khi xử lý với cụm từ dựa trên dịch máy thống kê, cĩ một hướng tiếp cận là trích chọn thơng tin từ bảng cụm từ để làm phong phú thêm các quy tắc suy luận và quy tắc kế thừa. Các quy tắc này cĩ thể được sử dụng trong hệ thống phát hiện kế thừa văn bản dựa trên khoảng cách.

Ví dụ: Mối quan hệ kế thừa giữa cụm từ “ordinateur portable” trong tiếng Pháp và cụm từ “laptop” trong tiếng Anh, hoặc cụm từ “ti vi” trong tiếng Việt và cụm từ “television” trong tiếng anh.

Hình vẽ dưới đây thể hiện kiến trúc của hệ thống phát hiện kế thừa văn bản đa ngơn ngữdựa theo hướng tiếp cận nâng cao:

Một phần của tài liệu (LUẬN văn THẠC sĩ) phát hiện kế thừa văn bản đa ngôn ngữ 04 (Trang 25 - 28)

Tải bản đầy đủ (PDF)

(50 trang)