Thêm Thông Tin Hình Thái Từ Cho Cả Tiếng Anh Và Tiếng Việt




của đế quốc .

Có thể bạn quan tâm!

Xem toàn bộ 104 trang tài liệu này.

Tích hợp thông tin hình thái từ vào hệ dịch máy thống kê Anh-Việt - 9


Tuy nhiên, không phải trường hợp áp dụng luật nào cũng cải thiện được hệ dịch. Vì không phải luật nào cũng bao quát được mọi trường hợp. Luật được áp dụng sai dẫn đến lượng gióng hàng chéo trong câu lại tăng lên, kéo theo kết quả dịch tệ hơn so với hệ dịch cơ sở.


Ngữ liệu

In the plan toward the year 2010 , Vietnam National

Administration of Tourism declares Van Phong as " the most important region for tourism development " .

Trong kế hoạch hướng tới năm 2010 , Tổng cục Du lịch Việt Nam công bố Văn Phong là khu phát triển du lịch quan trọng

nhất .


Baseline

Trong các kế hoạch hướng đến năm 2010 , Việt Nam Tổng cục Du lịch tuyên bố Vân Phong là " quan trọng nhất của khu vực

cho phát triển du lịch " .


Chuyển đổi trật tự

In the plan toward the year 2010 , Vietnam National Administration of Tourism declares Van Phong as " the most

region important for tourism development " .

Trong các kế hoạch đến năm 2010 , Việt Nam Tổng cục Du lịch

tuyên bố Vân Phong là " hầu hết các khu vực quan trọng cho phát triển du lịch " .


5.1.1.1. Thêm thông tin hình thái từ trong câu tiếng Việt


Thông tin hình thái từ của tiếng Việt được khảo sát bao gồm ranh giới từ và từ loại.

i. Phân đoạn từ trong câu tiếng Việt Kết quả dịch của các mô hình tách từ cho tiếng Việt như sau:



BLEU

NIST

TER

Hệ cơ sở

43,31

9,8269

37,914

Tách từ tiếng Việt

44,19

9,9079

37,103

Đổi trật tự từ tiếng Anh

45,88

9,9461

36,429

Đổi trật tự từ tiếng Anh + 46,49

10,0107

35,850

Bảng 5.4. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Việt


Tách từ tiếng Việt


Kết quả cho thấy hệ dịch được cải thiện nếu khi gán nhãn ranh giới từ cho câu tiếng Việt. Khi kết hợp chuyển đổi trật tự từ ở câu tiếng Anh và phân đoạn từ tiếng Việt, kết quả được cải tiến đáng kể.

Hiệu quả dịch được nâng cao do số liên kết gióng hàng từ 1 − 𝑛 (liên kết giữa 1 token với nhiều token) giảm đáng kể và từ trong các ngữ được rút ra không bị gián đoạn. Nhờ vậy, hệ dịch có thể thống kê các cặp ngữ chính xác hơn và tìm kiếm câu dịch tốt hơn.

Bảng 5.5. Số liên kết gióng hàng từ trong các mô hình


Số liên kết trung


bình trong câu

Cơ sở

771.492

37,74

Tách từ tiếng Việt

616.846

30,18

Đổi trật tự tiếng Anh

770.424

37,69

Tổng số liên kết


Đổi trật tự tiếng Anh + Tách từ tiếng Việt


616.589 30,16


Sau đây là một số ví dụ cho kết quả gióng hàng từ của hệ cơ sở và hệ dịch có câu tiếng Việt được tách từ:

Ví dụ 1:



All industrial and processing zones must have waste treatment systems .

Tất_cả các khu công_nghiệp và khu chế_xuất phải có các hệ_thống xử_lý chất_thải .

Kết quả gióng hàng từ hệ baseline:

0-0 0-1 4-2 4-3 1-4 1-5 2-6 3-7 4-7 3-8 3-9 5-10 6-11 9-13 9-14 8-15 8-16 7-17

7-18 10-19

All industrial and processing zones must have waste treatment systems .


Tất cả các khu công nghiệp và khu chế xuất phải có các hệ thống xử lý chất thải .

Kết quả gióng hàng từ của hệ dịch khi tách từ:

0-0 4-2 1-3 2-4 4-5 3-6 5-7 6-8 9-10 8-11 7-12 10-13

All industrial and processing zones must have waste treatment systems .


Tất_cả các khu công_nghiệp và khu chế_xuất phải có các hệ_thống xử_lý chất_thải .

Ví dụ 2:


On the way to the central provinces Thuan , tourists can catch a view of peaceful villages.

Trên đường đến các tỉnh miền trung

of Binh Thuan and Ninh

deserted sand dunes and

của tỉnh Bình Thuận và

Ninh Thuận , các du khách có thể bắt gặp cảnh một cồn cát

hoang vu và những ngôi làng yên bình .

Kết quả gióng hàng từ của hệ cơ sở:

0-0 2-1 3-2 4-3 6-4 5-5 5-6 7-7 6-8 8-9 9-10 10-11 11-12 12-13 13-14 14-15

14-16 14-17 15-18 15-19 16-20 16-21 18-22 17-23 22-24 21-25 20-26 20-27

23-28 22-29 25-30 25-31 24-32 24-33 26-34


On the way to the central provinces of Binh Thuan and Ninh Thuan , tourists


Trên đường đến các tỉnh miền trung của tỉnh Bình Thuận và Ninh Thuận , các du khách can catch a view of deserted sand dunes and peaceful villages .


có thể bắt gặp cảnh một cồn cát hoang vu và những ngôi làng yên bình .

Kết quả gióng hàng từ của hệ có tách từ tiếng Việt:

0-0 2-1 3-2 4-3 6-4 5-5 5-6 7-7 8-8 10-10 11-11 12-11 13-12 14-13 14-14 15-

15 16-16 18-17 17-18 22-19 21-20 20-21 23-22 25-24 25-25 24-26 26-27

On the way to the central provinces of Binh Thuan and Ninh Thuan , tourists


Trên đường đến các tỉnh miền trung của tỉnh Bình_Thuận và Ninh_Thuận , các du_khách can catch a view of deserted sand dunes and peaceful villages .


có_thể bắt_gặp cảnh một cồn cát hoang_vu và những ngôi làng yên_bình .

Sau đây là một số kết quả dịch của hệ dịch cơ sở và hệ dịch có tách từ tiếng Việt:



Ngữ liệu

Each member of the Management Board shall have a single vote .

Mỗi thành viên của Hội đồng quản trị sẽ có một phiếu bầu duy nhất .


Cơ sở

Mỗi một thành viên của Hội đồng quản trị sẽ có duy nhất có một phiếu biểu quyết .


Tách từ

Mỗi thành_viên của Hội_đồng_quản_trị sẽ có một phiếu bầu duy_nhất .




Ngữ liệu

Tasmania has long been a location for cloud seeding programs , following apparent success with the programs in the 1960 's and 1970 's when significant rainfall increases of more than 30 percent were measured and reported by CSIRO scientists .

Tasmania từ lâu đã là nơi cho các chương trình tạo mưa nhân tạo , sau thành công rực rỡ với các chương trình trong những năm 1960 và 1970 khi lượng mưa tăng lên đáng kể với hơn 30 phần trăm được đo và báo cáo bởi các nhà khoa học CSIRO .


Cơ sở

Tasmania từ lâu đã được một địa điểm cho các đám mây chương trình tạo mưa nhân tạo , sau đây rõ ràng thành công với các chương trình trong những năm 1960 của và 1970 của khi quan trọng lượng mưa tăng hơn 30 phần trăm đã được đo và báo cáo của cây trồng các nhà khoa học .


Tách từ

Tasmania từ lâu đã được một địa_điểm cho chương_trình tạo mưa nhân_tạo , sau đây rõ_ràng thành_công với các chương_trình trong những năm 1960 của và 1970 của khi đáng_kể lượng mưa tăng hơn 30 phần_trăm đã được đo và báo_cáo của CSIRO các nhà khoa_học .



BLEU

NIST

TER

Hệ cơ sở

43,31

9,8269

37,914

Thêm từ loại tiếng Việt

42,58

9,7837

38,072

Đổi trật tự từ tiếng Anh 45,88

9,9461

36,429

Đổi trật tự từ tiếng Anh + 44,99

9,8972

36,864

ii. Tích hợp thông tin từ loại trong câu tiếng Việt Bảng 5.6 Kết quả dịch của hệ dịch tích hợp từ loại tiếng Việt


Thêm từ loại tiếng Việt


Kết quả cho thấy hệ dịch khi thêm thông tin từ loại vào phía tiếng Việt làm giảm hiệu quả so với hệ cơ sở.



Tiếng Anh

Tiếng Việt


Từ


Từ loại

Từ



Đối với mô hình này, hệ thống học mô hình dịch từ từ tiếng Anh sang từ tiếng Việt. Sau đó, hệ sẽ phát sinh từ loại cho từ tiếng Việt này. Bộ giải mã chọn câu tiếng Việt đã được gán nhãn từ loại có xác suất cao nhất dựa vào mô hình dịch, mô hình ngôn ngữ của từ và mô hình ngôn ngữ của từ loại.

Như vậy, hệ dịch này khác với hệ dịch cơ sở ở chỗ là chịu ảnh hưởng của mô hình ngôn ngữ của từ loại.

Khi khảo sát kết quả, chúng tôi nhận thấy kết quả phát sinh từ loại cho câu tiếng Việt không chính xác, dẫn đến kết quả dịch cũng tệ hơn so với hệ cơ sở.

Ví dụ:



Ngữ liệu

From Belgium we got to know that : " it might be interesting for you to know that currently an application for a field trial with

GM poplar trees is [ being ] considered .

Từ Bỉ , chúng_tôi đã cho_biết rằng : " có_thể rất thú_vị khi bạn

biết rằng hiện_nay một ứng_dụng cho thử_nghiệm bên ngoài với GM cây dương là [ đang ] được xem_xét .


Tách từ tiếng Việt

Từ Bỉ , chúng_tôi nhận được biết rằng : " nó có_thể được thú_vị cho bạn biết rằng hiện đơn xin cho một thử_nghiệm bên ngoài

với biến_đổi gen cây dương là [ được coi là ] .

Thêm từ loại

tiếng Việt

Từ|Cm Bỉ|Nr ,|PU chúng_tôi|Pp đã|R nhận|Vv được|M biết|Vv

rằng|Cp :|PU "|PU nó|Pp có_thể|Aa được|Vv thú_vị|Aa cho|Cp




bạn|Pp biết|Vv rằng|Cp hiện|Vv đơn|Nn xin|Vv cho|Cp một|Nq thử_nghiệm|Nn bên|Nn ngoài|Nn với|Cp biến_đổi|Nn gen|Nn

cây|Nn dương|Aa là|Vc [|PU được|Vv ]|PU xem_xét|Vv .|PU


Mặc khác, kết quả dịch bị chi phối rất nhiều bởi mô hình nhãn từ loại. Do xác suất n-gram của từ loại thường lớn hơn xác suất của chuỗi từ.

Xét câu dịch sau:



Ngữ liệu

Earlier , Hung signed a decision to take legal action over the illegal transport and purchase of wild animals and handed over both of the suspects and the evidence to the Lac Duong district

police for investigation .

Trước đó , Hưng đã ký một quyết_định để thực_hiện hành_động pháp_lý đối_với việc vận_tải và mua_bán bất_hợp_pháp động_vật hoang_dã và giao_nộp cả hai nghi_phạm và chứng_cứ

cho công_an huyện Lạc_Dương để điều_tra .


Cơ sở

Trước đó , Hưng đã ký một quyết_định để thực_hiện hành_động pháp_lý trong việc vận_chuyển và mua các động_vật hoang_dã và bàn_giao cả các nghi_phạm và bằng_chứng đến Lạc_Dương

huyện cảnh_sát để điều_tra .


Thêm từ loại tiếng Việt

Trước|Nn đó|Pd ,|PU ông|Nn Hùng|Nr đã|R ký|Vv một|Nq quyết_định|Nn để|Cm thực_hiện|Vv các|Nq hành_động|Nn pháp_lý|Nn trong|Cm việc|Nc vận_chuyển|Vv và|Cp mua|Vv của|Cm các|Nq loài|Nn động_vật|Nn hoang_dã|Aa và|Cp bàn_giao|Vv cả|Pp của|Cm các|Nq nghi_phạm|Nn và|Cp bằng_chứng|Nn đến|Cm Lạc_Dương|Nr huyện|Nu cảnh_sát|Nn

cho|Cp điều_tra|Vv .|PU


Xác suất chuỗi nhãn từ loại trong mô hình ngôn ngữ:



-0.8658289 Vv Nq Nn Nn Aa

-0.5041147 Vv Cm Nq Nn Nn

Rõ ràng xác suất 5-gram của chuỗi từ loại sau cao hơn, dẫn đến hệ dịch chọn câu dịch tệ hơn. Sau đây là ví dụ khác cho thấy ảnh hưởng của mô hình ngôn ngữ từ loại.


Ngữ liệu

Under the monoculture plantation approach , the rubber

farmers must obey and follow the instructions given to them .

Theo phương_pháp đồn_điền độc_canh , nông_dân trồng cây

cao_su phải tuân theo những hướng_dẫn được giao cho họ .


Cơ sở

Theo các đồn_điền độc_canh tiếp_cận , những người nông_dân trồng cây cao_su phải tuân theo và làm theo hướng_dẫn được

trao cho họ .


Thêm từ loại tiếng Việt

Theo|Vv các|Nq đồn_điền|Nn độc_canh|Vv tiếp_cận|Vv ,|PU cao_su|Nn nông_dân|Nn phải|Vv tuân|Nn theo|Vv và|Cp làm|Vv theo|Vv hướng_dẫn|Nn được|Vv trao|Vv cho|Cp họ|Pp

.|PU


5.1.1.2. Thêm thông tin hình thái từ cho cả tiếng Anh và tiếng Việt


BLEU

NIST

TER

Hệ cơ sở 43,31

9,8269

37,914

Từ loại tiếng Anh, từ loại 40,08

9,781

38,728

Từ loại, tách nguyên mẫu

tiếng Anh, từ loại tiếng 42,12


9,8169


38,254

Bảng 5.7. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Anh và tiếng Việt


tiếng Việt


Việt

Xem tất cả 104 trang.

Ngày đăng: 13/06/2023
Trang chủ Tài liệu miễn phí