của đế quốc . |
Có thể bạn quan tâm!
- Tích Hợp Thông Tin Cú Pháp Vào Mô Hình Dịch
- Thêm Thông Tin Hình Thái Từ Cho Tiếng Anh Và Tiếng Việt
- Tích hợp thông tin hình thái từ vào hệ dịch máy thống kê Anh-Việt - 8
- Tích hợp thông tin hình thái từ vào hệ dịch máy thống kê Anh-Việt - 10
- Tích hợp thông tin hình thái từ vào hệ dịch máy thống kê Anh-Việt - 11
- Tích hợp thông tin hình thái từ vào hệ dịch máy thống kê Anh-Việt - 12
Xem toàn bộ 104 trang tài liệu này.
Tuy nhiên, không phải trường hợp áp dụng luật nào cũng cải thiện được hệ dịch. Vì không phải luật nào cũng bao quát được mọi trường hợp. Luật được áp dụng sai dẫn đến lượng gióng hàng chéo trong câu lại tăng lên, kéo theo kết quả dịch tệ hơn so với hệ dịch cơ sở.
In the plan toward the year 2010 , Vietnam National Administration of Tourism declares Van Phong as " the most important region for tourism development " . | |
Trong kế hoạch hướng tới năm 2010 , Tổng cục Du lịch Việt Nam công bố Văn Phong là khu phát triển du lịch quan trọng nhất . | |
Baseline | Trong các kế hoạch hướng đến năm 2010 , Việt Nam Tổng cục Du lịch tuyên bố Vân Phong là " quan trọng nhất của khu vực cho phát triển du lịch " . |
Chuyển đổi trật tự | In the plan toward the year 2010 , Vietnam National Administration of Tourism declares Van Phong as " the most region important for tourism development " . |
Trong các kế hoạch đến năm 2010 , Việt Nam Tổng cục Du lịch tuyên bố Vân Phong là " hầu hết các khu vực quan trọng cho phát triển du lịch " . |
5.1.1.1. Thêm thông tin hình thái từ trong câu tiếng Việt
Thông tin hình thái từ của tiếng Việt được khảo sát bao gồm ranh giới từ và từ loại.
i. Phân đoạn từ trong câu tiếng Việt Kết quả dịch của các mô hình tách từ cho tiếng Việt như sau:
BLEU | NIST | TER | |
Hệ cơ sở | 43,31 | 9,8269 | 37,914 |
Tách từ tiếng Việt | 44,19 | 9,9079 | 37,103 |
Đổi trật tự từ tiếng Anh | 45,88 | 9,9461 | 36,429 |
Đổi trật tự từ tiếng Anh + 46,49 | 10,0107 | 35,850 |
Bảng 5.4. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Việt
Tách từ tiếng Việt
Kết quả cho thấy hệ dịch được cải thiện nếu khi gán nhãn ranh giới từ cho câu tiếng Việt. Khi kết hợp chuyển đổi trật tự từ ở câu tiếng Anh và phân đoạn từ tiếng Việt, kết quả được cải tiến đáng kể.
Hiệu quả dịch được nâng cao do số liên kết gióng hàng từ 1 − 𝑛 (liên kết giữa 1 token với nhiều token) giảm đáng kể và từ trong các ngữ được rút ra không bị gián đoạn. Nhờ vậy, hệ dịch có thể thống kê các cặp ngữ chính xác hơn và tìm kiếm câu dịch tốt hơn.
Bảng 5.5. Số liên kết gióng hàng từ trong các mô hình
Số liên kết trung
bình trong câu | ||
Cơ sở | 771.492 | 37,74 |
Tách từ tiếng Việt | 616.846 | 30,18 |
Đổi trật tự tiếng Anh | 770.424 | 37,69 |
Tổng số liên kết
Đổi trật tự tiếng Anh + Tách từ tiếng Việt
616.589 30,16
Sau đây là một số ví dụ cho kết quả gióng hàng từ của hệ cơ sở và hệ dịch có câu tiếng Việt được tách từ:
Ví dụ 1:
All industrial and processing zones must have waste treatment systems .
Tất_cả các khu công_nghiệp và khu chế_xuất phải có các hệ_thống xử_lý chất_thải .
Kết quả gióng hàng từ hệ baseline:
0-0 0-1 4-2 4-3 1-4 1-5 2-6 3-7 4-7 3-8 3-9 5-10 6-11 9-13 9-14 8-15 8-16 7-17
7-18 10-19
All industrial and processing zones must have waste treatment systems .
Tất cả các khu công nghiệp và khu chế xuất phải có các hệ thống xử lý chất thải .
Kết quả gióng hàng từ của hệ dịch khi tách từ:
0-0 4-2 1-3 2-4 4-5 3-6 5-7 6-8 9-10 8-11 7-12 10-13
All industrial and processing zones must have waste treatment systems .
Tất_cả các khu công_nghiệp và khu chế_xuất phải có các hệ_thống xử_lý chất_thải .
Ví dụ 2:
On the way to the central provinces Thuan , tourists can catch a view of peaceful villages.
Trên đường đến các tỉnh miền trung
of Binh Thuan and Ninh
deserted sand dunes and
của tỉnh Bình Thuận và
Ninh Thuận , các du khách có thể bắt gặp cảnh một cồn cát
hoang vu và những ngôi làng yên bình .
Kết quả gióng hàng từ của hệ cơ sở:
0-0 2-1 3-2 4-3 6-4 5-5 5-6 7-7 6-8 8-9 9-10 10-11 11-12 12-13 13-14 14-15
14-16 14-17 15-18 15-19 16-20 16-21 18-22 17-23 22-24 21-25 20-26 20-27
23-28 22-29 25-30 25-31 24-32 24-33 26-34
On the way to the central provinces of Binh Thuan and Ninh Thuan , tourists
Trên đường đến các tỉnh miền trung của tỉnh Bình Thuận và Ninh Thuận , các du khách can catch a view of deserted sand dunes and peaceful villages .
có thể bắt gặp cảnh một cồn cát hoang vu và những ngôi làng yên bình .
Kết quả gióng hàng từ của hệ có tách từ tiếng Việt:
0-0 2-1 3-2 4-3 6-4 5-5 5-6 7-7 8-8 10-10 11-11 12-11 13-12 14-13 14-14 15-
15 16-16 18-17 17-18 22-19 21-20 20-21 23-22 25-24 25-25 24-26 26-27
On the way to the central provinces of Binh Thuan and Ninh Thuan , tourists
Trên đường đến các tỉnh miền trung của tỉnh Bình_Thuận và Ninh_Thuận , các du_khách can catch a view of deserted sand dunes and peaceful villages .
có_thể bắt_gặp cảnh một cồn cát hoang_vu và những ngôi làng yên_bình .
Sau đây là một số kết quả dịch của hệ dịch cơ sở và hệ dịch có tách từ tiếng Việt:
Each member of the Management Board shall have a single vote . | |
Mỗi thành viên của Hội đồng quản trị sẽ có một phiếu bầu duy nhất . | |
Cơ sở | Mỗi một thành viên của Hội đồng quản trị sẽ có duy nhất có một phiếu biểu quyết . |
Tách từ | Mỗi thành_viên của Hội_đồng_quản_trị sẽ có một phiếu bầu duy_nhất . |
Tasmania has long been a location for cloud seeding programs , following apparent success with the programs in the 1960 's and 1970 's when significant rainfall increases of more than 30 percent were measured and reported by CSIRO scientists . | |
Tasmania từ lâu đã là nơi cho các chương trình tạo mưa nhân tạo , sau thành công rực rỡ với các chương trình trong những năm 1960 và 1970 khi lượng mưa tăng lên đáng kể với hơn 30 phần trăm được đo và báo cáo bởi các nhà khoa học CSIRO . | |
Cơ sở | Tasmania từ lâu đã được một địa điểm cho các đám mây chương trình tạo mưa nhân tạo , sau đây rõ ràng thành công với các chương trình trong những năm 1960 của và 1970 của khi quan trọng lượng mưa tăng hơn 30 phần trăm đã được đo và báo cáo của cây trồng các nhà khoa học . |
Tách từ | Tasmania từ lâu đã được một địa_điểm cho chương_trình tạo mưa nhân_tạo , sau đây rõ_ràng thành_công với các chương_trình trong những năm 1960 của và 1970 của khi đáng_kể lượng mưa tăng hơn 30 phần_trăm đã được đo và báo_cáo của CSIRO các nhà khoa_học . |
BLEU | NIST | TER | |
Hệ cơ sở | 43,31 | 9,8269 | 37,914 |
Thêm từ loại tiếng Việt | 42,58 | 9,7837 | 38,072 |
Đổi trật tự từ tiếng Anh 45,88 | 9,9461 | 36,429 | |
Đổi trật tự từ tiếng Anh + 44,99 | 9,8972 | 36,864 |
ii. Tích hợp thông tin từ loại trong câu tiếng Việt Bảng 5.6 Kết quả dịch của hệ dịch tích hợp từ loại tiếng Việt
Thêm từ loại tiếng Việt
Kết quả cho thấy hệ dịch khi thêm thông tin từ loại vào phía tiếng Việt làm giảm hiệu quả so với hệ cơ sở.
Tiếng Anh
Tiếng Việt
Từ
Từ loại
Từ
Đối với mô hình này, hệ thống học mô hình dịch từ từ tiếng Anh sang từ tiếng Việt. Sau đó, hệ sẽ phát sinh từ loại cho từ tiếng Việt này. Bộ giải mã chọn câu tiếng Việt đã được gán nhãn từ loại có xác suất cao nhất dựa vào mô hình dịch, mô hình ngôn ngữ của từ và mô hình ngôn ngữ của từ loại.
Như vậy, hệ dịch này khác với hệ dịch cơ sở ở chỗ là chịu ảnh hưởng của mô hình ngôn ngữ của từ loại.
Khi khảo sát kết quả, chúng tôi nhận thấy kết quả phát sinh từ loại cho câu tiếng Việt không chính xác, dẫn đến kết quả dịch cũng tệ hơn so với hệ cơ sở.
Ví dụ:
From Belgium we got to know that : " it might be interesting for you to know that currently an application for a field trial with GM poplar trees is [ being ] considered . | |
Từ Bỉ , chúng_tôi đã cho_biết rằng : " có_thể rất thú_vị khi bạn biết rằng hiện_nay một ứng_dụng cho thử_nghiệm bên ngoài với GM cây dương là [ đang ] được xem_xét . | |
Tách từ tiếng Việt | Từ Bỉ , chúng_tôi nhận được biết rằng : " nó có_thể được thú_vị cho bạn biết rằng hiện đơn xin cho một thử_nghiệm bên ngoài với biến_đổi gen cây dương là [ được coi là ] . |
Thêm từ loại tiếng Việt | Từ|Cm Bỉ|Nr ,|PU chúng_tôi|Pp đã|R nhận|Vv được|M biết|Vv rằng|Cp :|PU "|PU nó|Pp có_thể|Aa được|Vv thú_vị|Aa cho|Cp |
bạn|Pp biết|Vv rằng|Cp hiện|Vv đơn|Nn xin|Vv cho|Cp một|Nq thử_nghiệm|Nn bên|Nn ngoài|Nn với|Cp biến_đổi|Nn gen|Nn cây|Nn dương|Aa là|Vc [|PU được|Vv ]|PU xem_xét|Vv .|PU |
Mặc khác, kết quả dịch bị chi phối rất nhiều bởi mô hình nhãn từ loại. Do xác suất n-gram của từ loại thường lớn hơn xác suất của chuỗi từ.
Xét câu dịch sau:
Earlier , Hung signed a decision to take legal action over the illegal transport and purchase of wild animals and handed over both of the suspects and the evidence to the Lac Duong district police for investigation . | |
Trước đó , Hưng đã ký một quyết_định để thực_hiện hành_động pháp_lý đối_với việc vận_tải và mua_bán bất_hợp_pháp động_vật hoang_dã và giao_nộp cả hai nghi_phạm và chứng_cứ cho công_an huyện Lạc_Dương để điều_tra . | |
Cơ sở | Trước đó , Hưng đã ký một quyết_định để thực_hiện hành_động pháp_lý trong việc vận_chuyển và mua các động_vật hoang_dã và bàn_giao cả các nghi_phạm và bằng_chứng đến Lạc_Dương huyện cảnh_sát để điều_tra . |
Thêm từ loại tiếng Việt | Trước|Nn đó|Pd ,|PU ông|Nn Hùng|Nr đã|R ký|Vv một|Nq quyết_định|Nn để|Cm thực_hiện|Vv các|Nq hành_động|Nn pháp_lý|Nn trong|Cm việc|Nc vận_chuyển|Vv và|Cp mua|Vv của|Cm các|Nq loài|Nn động_vật|Nn hoang_dã|Aa và|Cp bàn_giao|Vv cả|Pp của|Cm các|Nq nghi_phạm|Nn và|Cp bằng_chứng|Nn đến|Cm Lạc_Dương|Nr huyện|Nu cảnh_sát|Nn cho|Cp điều_tra|Vv .|PU |
Xác suất chuỗi nhãn từ loại trong mô hình ngôn ngữ:
-0.8658289 Vv Nq Nn Nn Aa
-0.5041147 Vv Cm Nq Nn Nn
Rõ ràng xác suất 5-gram của chuỗi từ loại sau cao hơn, dẫn đến hệ dịch chọn câu dịch tệ hơn. Sau đây là ví dụ khác cho thấy ảnh hưởng của mô hình ngôn ngữ từ loại.
Under the monoculture plantation approach , the rubber farmers must obey and follow the instructions given to them . | |
Theo phương_pháp đồn_điền độc_canh , nông_dân trồng cây cao_su phải tuân theo những hướng_dẫn được giao cho họ . | |
Cơ sở | Theo các đồn_điền độc_canh tiếp_cận , những người nông_dân trồng cây cao_su phải tuân theo và làm theo hướng_dẫn được trao cho họ . |
Thêm từ loại tiếng Việt | Theo|Vv các|Nq đồn_điền|Nn độc_canh|Vv tiếp_cận|Vv ,|PU cao_su|Nn nông_dân|Nn phải|Vv tuân|Nn theo|Vv và|Cp làm|Vv theo|Vv hướng_dẫn|Nn được|Vv trao|Vv cho|Cp họ|Pp .|PU |
5.1.1.2. Thêm thông tin hình thái từ cho cả tiếng Anh và tiếng Việt
BLEU | NIST | TER |
Hệ cơ sở 43,31 | 9,8269 | 37,914 |
Từ loại tiếng Anh, từ loại 40,08 | 9,781 | 38,728 |
Từ loại, tách nguyên mẫu tiếng Anh, từ loại tiếng 42,12 | 9,8169 | 38,254 |
Bảng 5.7. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Anh và tiếng Việt
tiếng Việt
Việt