Trong bài báo [29], Sonja NieBen and Hermann Ney dùng tri thức ngôn ngữ để biến đổi câu nguồn trong dịch từ tiếng Đức sang tiếng Anh. Dựa trên sự khác biệt giữa 2 ngôn ngữ, tác giả tách động từ về dạng nguyên mẫu và phụ tố và tách từ ghép ra theo từng thành phần của nó. Chẳng hạn, từ Fruchtetee được tách thành Fruchte và tee, trong đó từ được đánh nhãn từ loại để khử nhập nhằng nghĩa của từ. Ngoài ra, tác giả còn nối ngữ, nghĩa là các từ tạo thành một ngữ có vai trò cú pháp và ý nghĩa riêng biệt được nối với nhau.
Về vấn đề từ chưa gặp trong ngữ liệu huấn luyện, chẳng hạn như tên riêng, tác giả không đổi khi dịch, và những từ khác thì tách từ ghép và tách phụ tố của động từ làm giảm lượng từ chưa gặp. Giảm được 8,9% số từ chưa gặp. Các bước xử lý này cải tiến hệ dịch so với hệ cơ sở, tách từ ghép tỉ lệ lỗi giảm 4,5%, tách động từ và phụ tố cải tiến nhiều nhất, giảm tới 7,1% tỉ lệ lỗi. Tác giả không đưa ra kết quả của hệ dịch với ngữ liệu được gán nhãn từ loại, ngoài ra, theo tác giả, vì ngữ liệu huấn luyện nhỏ (~27000 cặp câu) và thiếu đồng nhất dẫn đến một số lỗi khi dịch.
[21] dùng thông tin hình thái và cú pháp vào factored translation model: kết hợp kiểm tra tích hợp nguyên mẫu, tách danh từ ghép tiếng Đức (decompounding German nominal compounds), chuyển đổi trật tự dựa trên hình thái và nhãn từ loại từ. Họ sử dụng những thông tin sau làm factor cho hệ dịch: từ, nguyên mẫu, từ loại, hậu tố. Kết quả thử nghiệm cho thấy hệ dịch dùng thông tin nguyên mẫu tốt hơn là từ loại. Tuy nhiên tác giả không đưa kết luận cuối cùng và không lý giải kết quả này.
3.2.2. Tích hợp thông tin cú pháp vào mô hình dịch
Nhóm nghiên cứu của [5] đề xuất mô hình phrase-based SMT tích hợp thông tin cú pháp nhằm kết hợp thế mạnh của cả mô hình phrase-based và cấu trúc cú pháp bằng cách sử dụng thông tin cú pháp nhãn văn phạm CCG (Combinatiorial Categorial Grammar) vào hệ dịch. Tác giả đưa supertag (nhãn thông tin cú pháp) như là một factor ở câu nguồn hoặc câu đích. Chất lượng dịch được cải tiến nhờ chuyển đổi trật tự từ.
Trong đó, văn phạm CCG chứa hầu hết các cấu trúc ngữ pháp. Vì vậy, thông tin supertag ở câu nguồn cho phép bộ giải mã quyết định chọn lựa dựa trên cấu trúc của đầu vào. Kết quả dịch từ tiếng Hà Lan – tiếng Anh: thêm POS tăng 0,14; supertag 0,45; cả POS và supertag tăng 0,46 BLEU. Supertag chứa nhiều thông tin hơn POS vì chứa cả ngữ cảnh cú pháp chứ không chỉ riêng thông tin của từ đó.
3.2.3. Tích hợp vào mô hình ngôn ngữ
Nhóm nghiên cứu của [9] đưa ra phương pháp mới về sử dụng thông tin cú pháp cho dịch máy thống kê. Họ sử dụng mô hình phân tích cú pháp thống kê như là mô hình ngôn ngữ trong SMT. Kết quả thử nghiệm cho thấy hệ này cải tiến điểm BLEU tăng thêm 25% so với hệ base-line syntax-based SMT.
Có thể bạn quan tâm!
- Mô Hình Dịch Máy Thống Kê Dựa Trên Ngữ
- Mô Hình Dịch Thống Kê Factored (Factored Smt)
- Các Hướng Tích Hợp Tri Thức Ngôn Ngữ Vào Dịch Máy Thống Kê
- Thêm Thông Tin Hình Thái Từ Cho Tiếng Anh Và Tiếng Việt
- Tích hợp thông tin hình thái từ vào hệ dịch máy thống kê Anh-Việt - 8
- Thêm Thông Tin Hình Thái Từ Cho Cả Tiếng Anh Và Tiếng Việt
Xem toàn bộ 104 trang tài liệu này.
Hướng tiếp cận này khai thác được tri thức ngôn ngữ khá hiệu quả, nhất là đối với các ngôn ngữ đích là ngôn ngữ giàu hình thái, cần nhiều thông tin để phát sinh ra dạng đúng của từ.
CHƯƠNG 4: MÔ HÌNH CỦA ĐỀ TÀI
Trong các hướng tiếp cận tích hợp tri thức ngôn ngữ vào hệ thống dịch máy thống kê, luận văn khảo sát ảnh hưởng của các tri thức hình thái và từ loại vào hệ thống dịch máy thống kê Anh - Việt dựa trên ngữ. Cách tích hợp bao gồm tiền xử lí câu đầu vào và chọn mô hình dịch. Chương này trình bày chi tiết về các cách tích hợp tri thức ngôn ngữ được đưa vào trong luận văn.
Hình 4.1 mô tả hệ dịch máy thống kê Anh - Việt dựa trên ngữ và công đoạn can thiệp để tích hợp tri thức ngôn ngữ vào hệ thống này của luận văn.
Mô hình dịch thống kê Anh – Việt
Tích hợp thông tin:
- Từ loại
- Hình thái từ
Ngữ liệu song ngữ
Mô hình dịch
Tích hợp thông tin:
- Ranh giới từ
- Từ loại
Mô hình ngôn ngữ
Tiếng Anh
Bộ giải mã
Câu tiếng Anh
Câu dịch tiếng Việt
Tiếng Việt
Hình 4.1. Mô hình chung của luận văn
Luận văn sẽ tích hợp tri thức ngôn ngữ gồm hình thái từ và từ loại. Ngoài ra luận văn còn khảo sát, đánh giá mức độ ảnh hưởng của các thông tin này vào hệ dịch thống kê Anh – Việt.
Phần thí nghiệm của đề tài thực hiện các hướng tiếp cận như sau:
- Tích hợp thông tin từ loại, tách từ tiếng Anh ra thành từ nguyên mẫu và phụ tố.
o Gán nhãn từ loại vào mỗi từ tiếng Anh
o Phân tích từ thành nguyên mẫu và phụ tố
o Sử dụng luật chuyển đổi trật tự dựa trên thông tin hình thái từ.
- Tích hợp thông tin ranh giới từ, từ loại tiếng Việt
o Tách từ tiếng Việt
o Gán nhãn từ loại tiếng Việt
- Sử dụng mô hình factored SMT cho hệ Anh – Việt
o Gán nhãn từ loại cho cả tiếng Anh và tiếng Việt
o Phân tích từ tiếng Anh thành nguyên mẫu và phụ tố, thêm từ loại cho tiếng Anh và tiếng Việt
4.1. Tích hợp thông tin hình thái từ tiếng Anh
4.1.1. Thông tin từ loại
Khi phân tích lỗi của hệ dịch thống kê dựa trên ngữ, ta nhận thấy, hệ thường mắc phải một số lỗi sau: dịch sai nghĩa hoặc không dịch được từ tiếng Anh sang tiếng Việt. Trường hợp dịch sai nghĩa nguyên nhân chính là do một từ thường có nhiều nghĩa, đôi khi do quá trình gióng hàng từ bị sai, dẫn đến các ngữ chứa trong bảng ngữ bị sai. Ngoài ra, nhiễu trong ngữ liệu cũng gây nên tình trạng này. Việc không dịch được từ tiếng Anh sang tiếng Việt xảy ra khi ngữ liệu không bao phủ được các câu kiểm tra.
Trường hợp từ bị dịch sai nghĩa do từ có nhiều nghĩa có thể xét ví dụ sau:
* I like reading book.
+ Tôi thích đọc sách.
* Book early if you want good seats.
+ Đặt chỗ sớm nếu bạn muốn có chỗ ngồi tốt.
Từ “book” trong câu đầu tiên được dịch đúng là “sách”. Tuy nhiên, từ “book” trong câu thứ hai bị dịch sai, hệ thống cho kết quả câu đầu ra là “Sách sớm nếu bạn muốn có chỗ ngồi tốt.”
Khi so sánh sự khác biệt về từ loại của tiếng Anh và tiếng Việt, [1, tr. 46] phân tích và kết luận rằng từ loại thực từ và mang tính phổ quát như danh từ, động từ, tính từ và đại từ của hai ngôn ngữ có tính tương đồng.
Xét trường hợp dịch sai ở trên, ta thấy đây là lỗi khi một từ có nhiều nghĩa. Để khắc phục lỗi này, luận văn sử dụng nhãn từ loại để khử nhập nhằng. Trong câu “I like reading book.” thì chữ “book” được gán nhãn là danh từ, khi dịch danh từ “book” ra tiếng Việt, chúng ta sẽ có được nghĩa đúng là “sách”. Trong câu “Book early if you want good seats.” thì chữ “book” được gán nhãn là động từ, khi dịch “book” động từ ra tiếng Việt, chúng ta sẽ có được nghĩa đúng là “đặt chỗ”.
Vì vậy, trong phần thí nghiệm, luận văn khảo sát sự ảnh hưởng của nhãn từ loại tiếng Anh vào hệ dịch thống kê.
4.1.2. Thông tin biến cách của từ
Do tiếng Anh thuộc ngôn ngữ biến hình và tiếng Việt thuộc ngôn ngữ đơn lập nên phương thức ngữ pháp dùng để biểu thị ý nghĩa ngữ pháp của hai ngôn ngữ cũng khác nhau [1, tr. 46]. Tiếng Anh dùng hình vị phụ tố, tiếng Việt dùng từ hư. Tuy nhiên hầu hết các trường hợp dẫn xuất và biến cách trong tiếng Anh đều có ánh xạ tương ứng sang tiếng Việt. [1] đưa ra danh sách đối chiếu hình thái từ cho các tiền tố, hậu tố của tiếng Anh và nghĩa tiếng Việt tương ứng.
Dựa vào đặc điểm trên, luận văn khai thác thông tin phụ tố để cải tiến hệ dịch. Trường hợp từ không dịch được do từ không có trong ngữ liệu có thể chia làm hai dạng, dạng một là từ hoàn toàn không có trong ngữ liệu, cách khắc phục dạng này là mở rộng ngữ liệu huấn luyện. Dạng thứ hai là từ không có trong ngữ liệu nhưng biến cách của nó lại nằm trong ngữ liệu, ví dụ như hệ thống có thể dịch được từ “house” thành “ngôi nhà” nhưng lại không thể dịch được từ “houses” thành “những ngôi nhà”. Vì từ “house” và “houses” được hệ thống xem như là hai từ khác biệt,
không có mối liên hệ nào với nhau. Để khắc phục khuyết điểm này, trong quá trình cài đặt, luận văn xem từ “houses” như là hai từ “house” và “s”. Như vậy, hệ thống có thể dịch được các từ dạng này mà không cần phải bổ sung mở rộng ngữ liệu song ngữ huấn luyện.
Trong khuôn khổ của đề tài, luận văn khảo sát sự biến đổi kết quả dịch khi chuyển từ tiếng Anh về dạng nguyên mẫu và thêm thông tin phụ tố biến cách.
Ngoài ra, luận văn còn thực thi thêm mô hình kết hợp chuyển về từ nguyên mẫu, thêm phụ tố và tích hợp nhãn từ loại vào câu tiếng Anh.
4.1.3. Sử dụng luật chuyển đổi trật tự
Sử dụng kết quả nghiên cứu của ngành ngôn ngữ học so sánh, đối chiếu điểm tương đồng và khác biệt giữa tiếng Anh và tiếng Việt về hình thái từ [1], trật tự từ [2], luận văn áp dụng tập luật thủ công nhằm tạo sự tương đồng cho cặp câu song ngữ.
Tiếng Anh có 5 loại ngữ chính là: danh ngữ (noun phrase), động ngữ (verb phrase), tính ngữ (adjective phrase), trạng ngữ (adverbial phrase) và ngữ giới từ (preposition phrase). Khi so sánh đối chiếu giữa hai ngôn ngữ, [2] chỉ ra các điểm khác biệt về trật tự từ giữa những từ trong ngữ.
4.1.3.1. Danh ngữ
Định từ (determiner)
Trong danh ngữ, một số định từ đứng trước danh từ khi dịch sang tiếng Việt sẽ chuyển về cuối.
Xét định từ “the”, thông thường từ này sẽ không được dịch. Ví dụ:
the book cuốn sách
the phone điện thoại
Với các định từ “this”, “that”, “these”, “those”, khi đứng trước danh từ khi dịch sang tiếng Việt sẽ được chuyển về cuối. Ví dụ:
This table cái bàn này
Those white rabbits những con thỏ trắng kia
Dựa vào đặc điểm này, chúng tôi rút luật như sau: Trong danh ngữ, nếu định từ “this”, “that”, “these”, “those” đứng đầu thì sẽ được chuyển về cuối.
Áp dụng luật chuyển đổi cho 2 ví dụ trên ta được:
This table table this
Those white rabbits white rabbits those
Tính từ bổ nghĩa trước danh từ chính (pre-modifier)
Trong tiếng Anh, tính từ bổ nghĩa luôn đứng trước danh từ, trong khi đối với tiếng Việt, tính từ đứng sau danh từ. Xét các ví dụ sau:
An interesting film Một bộ phim hay
The small blue house Căn nhà nhỏ màu xanh
Như vậy, luật được rút như sau: Trong danh ngữ, nếu tính từ hoặc tính ngữ đứng trước danh từ thì chuyển ra sau danh từ.
Áp dụng luật cho 2 ví dụ trên, ta được:
An interesting film An film interesting
The small blue house The house small blue
Tính từ sở hữu (possessive adjective)
Trong danh ngữ tiếng Anh, tính từ sở hữu đứng trước danh từ nhưng trong tiếng Việt, tính từ sở hữu đứng sau danh từ.
Xét 2 ví dụ:
My computer Máy tính của tôi Their children Con của họ
Luật được rút ra là: Nếu trong danh ngữ có chứa tính từ sở hữu thì chuyển từ này về cuối.
Áp dụng luật trên cho 2 ví dụ:
My computer computer my Their children children their
1.1.1.1. Sở hữu cách (possessive case)
Trong tiếng Anh, thứ tự của danh từ và sở hữu cách bị đảo ngược so với tiếng Việt:
Mary’s box Chiếc hộp của Mary book’s cover Bìa của quyển sách
Trong trường hợp, luật được rút ra là: Trong danh ngữ, nếu có sở hữu cách giữa hai danh từ thì sẽ đảo vị trí của hai danh từ.
Áp dụng luật trên, ta được:
Mary’s box box „s Mary Book ‟s cover cover „s book
Danh từ phụ (sub noun)
Trong tiếng Anh, danh từ phụ đứng trước bổ nghĩa cho danh từ chính. Trong khi thứ tự trong tiếng Việt thì ngược lại.
Nuclear weapons vũ khí hạt nhân Computer science khoa học máy tính
Luật được rút ra là: Trong danh ngữ, nếu hai danh từ đứng liền nhau thì sẽ được đảo vị trí.
Nếu áp dụng luật cho 2 ví dụ trên, ta được:
Nuclear weapons wepons nuclear Computer science science computer
4.1.3.2. Động ngữ
So sánh động ngữ của tiếng Anh và tiếng Việt, vị trí của các thành phần đa số là như nhau, trừ trường hợp phủ định của trợ động từ (modal verb) và một số trạng từ.