Tích hợp thông tin hình thái từ vào hệ dịch máy thống kê Anh-Việt - 10


Tiếng Anh

Tiếng Việt


Từ Từ loại

Từ

Từ loại

Trong mô hình này, hệ thống dịch từ sang từ và từ loại sang từ loại bằng hai mô hình dịch độc lập. Hiệu quả dịch của mô hình này giảm đáng kể so với hệ cơ sở. Nguyên nhân làm giảm hiệu quả dịch là do ảnh hưởng của mô hình ngôn ngữ từ loại, nếu chuỗi từ loại phát sinh sai dẫn đến kết quả dịch cũng sai.

Từ loại của câu đích sai do 2 nguyên nhân:

o Từ loại trong câu nguồn sai, dẫn đến hệ thống dịch sang câu đích cũng sai. Ví dụ:


Tiếng Anh

"|"|NN Even|even|RB with|with|IN a|a|DT strong|strong|JJ monsoon|monsoon|NN system|system|NN ,|,|, if|if|IN circulation|circulation|NN changes|change|NNS enough|enough|RB to|to|TO change|change|VB where|where|WRB and|and|CC when|when|WRB rain|rain|NN is|be|VBZ delivered|deliver|VBN ,|,|, then|then|RB that|that|WDT could|could|MD have|have|VB an|a|DT impact|impact|NN that|that|WDT has|have|VBZ not|not|RB been|be|VBN captured|capture|VBN in|in|IN the|the|DT large|large|JJ -|-|: scale|scale|NN evaluations|evaluation|NNS ,|,|, "|"|NN

Ashfaq|Ashfaq|NNP said|say|VBD .|.|.


Tiếng Việt

"|Nn Ngay_cả|Aa với|Cm một|Nq mạnh_mẽ|Nn gió_mùa|Nn hệ_thống|Nn ,|PU nếu|Cm lưu_thông|Nn thay_đổi|Nn đủ|Aa để|Cm thay_đổi|Vv nơi|Nt và|Cp khi|Nt mưa|Nn được|Vv giao|Vv

,|PU sau|Aa đó|Vc có_thể|R có|Vv một|Nq tác_động|Nn mà|Cp đã|R không|R được|Vv giữ|Vv trong|Cm quy_mô|Aa lớn|Nn

đánh_giá|Nn ,|PU "|Nn Ashfaq|Ashfaq|NNP|UNK nói|Vv .|PU

Có thể bạn quan tâm!

Xem toàn bộ 104 trang tài liệu này.

Tích hợp thông tin hình thái từ vào hệ dịch máy thống kê Anh-Việt - 10


o Mô hình dịch từ từ loại tiếng Anh sang từ loại tiếng Việt không chính xác. Do hai ngôn ngữ này khác biệt nhiều về đặc điểm hình thái từ.


Tiếng Anh

Matthew|matthew|NNP Huber|Huber|NNP ,|,|, assistant|assistant|JJ professor|professor|NN of|of|IN earth|earth|NN and|and|CC atmospheric|atmospheric|JJ sciences|science|NNS at|at|IN Purdue|Purdue|NNP University|university|NNP ,|,|, says|say|VBZ no|no|DT evidence|evidence|NN of|of|IN global|global|JJ cooling|cool|NN during|during|IN the|the|DT period|period|NN had|have|VBD

been|be|VBN found|find|VBN .|.|.


Tiếng Việt

Matthew|matthew|NNP|UNK Huber|Nr ,|PU trợ_lý|Nn giáo_sư|Aa của|Cm trái_đất|Nn và|Cp khí_quyển|Nn khoa_học|Nn tại|Cm Đại_học|Nn Purdue|Nr ,|PU nói|Vc không|Nq bằng_chứng|Nn của|Cm toàn_cầu|Aa mát|Nn

trong|Cm thời_kỳ|Nn này|Pd đã|R được|Vv tìm|Vv thấy|Vv .|PU



Tiếng Anh

Several|several|JJ other|other|JJ areas|area|NNS along|along|IN Phu|Phu|NNP Quoc|Quoc|NNP National|national|NNP Park|park|NNP 's|'s|POS border|border|NN with|with|IN Ham|Ham|NNP Ninh|Ninh|NNP Commune|Commune|NNP were|be|VBD found|find|VBN with|with|IN newly|newly|RB -|-|: cut|cut|NN stumps|stump|NNS and|and|CC cleared|clear|VBD

hillsides|hillside|NNS .|.|.


Tiếng Việt

Một_số|Aa các|Nq khu_vực|Nn khác|Aa dọc|Cm Vườn_quốc_gia|Nn Phú_Quốc|Nr của|Cm biên_giới|Nn với|Cm xã|Nn Hàm_Ninh|Nr được|R tìm|Vv thấy|Vv với|Cm vừa|Aa -

|PU cắt_giảm|Nn gốc|Nn và|Cp khai_hoang|Vv sườn|Nq đồi|Nn

.|PU



Tiếng Anh

Once|once|RB the|the|DT team|team|NN identified|identify|VBD the|the|DT global|global|JJ cooling|cool|NN ,|,|, the|the|DT next|next|JJ step|step|NN was|be|VBD to|to|TO find|find|VB

what|what|WP caused|cause|VBD it|it|PRP .|.|.


Tiếng Việt

Một_khi|R các|Nq nhóm|Nn xác_định|Vv toàn_cầu|Aa mát|Nn

,|PU tiếp_theo|Aa bước|Vv là|Vv để|Cm tìm|Vv những|Nq gì|Nn

đã|R gây|Vv ra|R nó|Pp .|PU


4.4. Tóm tắt kết quả thí nghiệm

Như vậy, kết quả khảo sát ảnh hưởng của thông tin hình thái từ vào hệ dịch thống kê Anh – Việt có thể tóm tắt lại như sau:

- Thông tin hình thái từ của tiếng Anh:

o Tích hợp trực tiếp từ loại và biến đổi hình thái từ: Hệ dịch có thể khử nhập nhằng nhờ thông tin từ loại và giảm số từ chưa gặp khi biến đổi về dạng nguyên mẫu. Tuy nhiên, do kết quả phụ thuộc vào độ chính xác của công cụ và độ bao phủ của ngữ liệu nên kết quả dịch vẫn chưa cải tiến được so với hệ cơ sở.

o Chuyển đổi trật tự từ dựa trên từ loại: Kết quả dịch được cải thiện đáng kể do câu nguồn được chuyển đổi trật tự nhằm tạo sự tương đương với câu đích.

- Thông tin hình thái từ của tiếng Việt:

o Gán nhãn ranh giới từ: Chất lượng dịch tăng lên so với hệ cơ sở do khi nối các tiếng trong từ của câu tiếng Việt, số liên kết gióng hàng từ 1 – nhiều giảm đáng kể và kết quả thống kê trong mô hình dịch cũng như mô hình ngôn ngữ chính xác hơn do từ không bị gián đoạn trong quá trình rút trích ngữ.

o Gán nhãn từ loại: Kết quả dịch giảm do hệ dịch phụ thuộc vào kết quả gán nhãn và mô hình ngôn ngữ của từ loại tiếng Việt.


- Thông tin hình thái từ cho cả tiếng Anh và tiếng Việt:

o Chất lượng dịch của mô hình factored SMT giảm đáng kể so với hệ cơ sở do quá trình dịch từ từ loại tiếng Anh sang từ loại tiếng Việt thiếu chính xác. Điều này dẫn đến hệ thống chọn ra câu dịch tệ hơn so với hệ cơ sở.

Ngoài ra, khảo sát kết quả của các mô hình khi tích hợp các thông tin hình thái từ, mô hình chuyển đổi trật tự cho câu tiếng Anh và gán nhãn từ loại cho tiếng Việt đạt kết quả dịch cao nhất, điểm BLEU tăng từ 43,31 lên 46,49.


CHƯƠNG 6: KẾT LUẬN


Trong đề tài này chúng tôi đã tích hợp các tri thức ngôn ngữ về hình thái từ vào trong dịch máy thống kê Anh - Việt.

Hệ thống đạt chất lượng dịch tốt nhất khi áp dụng luật chuyển đổi trật tự dựa trên thông tin từ loại cho câu tiếng Anh và gán nhãn từ loại cho câu tiếng Việt. Điểm BLUE từ 43,31 đến 45,88, điểm NIST tăng từ 9,8269 đến 10,01 và tỉ lệ lỗi TER giảm từ 37,914 xuống 35,850.

Tuy nhiên, khi các tri thức về từ loại lại không làm tăng chất lượng dịch. Điều này có thể lí giải do chất lượng của công cụ gán nhãn từ loại. Một phần nữa là do khi kết hợp với nhãn từ loại, độ phân tán của các từ sẽ tăng, dẫn đến việc hệ thống không dịch được các từ này.

Ngoài ra, việc áp dụng luật chuyển đổi trật tự cho câu nguồn đã có ảnh hưởng tốt đến chất lượng dịch, nhờ cải thiện kết quả gióng hàng từ. Luật chuyển đổi cũng cải tiến hệ dịch khi kết hợp với các thông tin hình thái từ. Như vậy, không chỉ trong hệ dịch thống kê của các cặp ngôn ngữ khác, đối với cặp tiếng Anh và tiếng Việt, việc biến đổi để tạo sự tương đồng giữa hai ngôn ngữ đã phát huy thế mạnh của hệ dịch máy thống kê, vừa học tự động trên ngữ liệu, vừa xử lý dựa trên những tri thức ngôn ngữ.

Tóm lại có hai điểm quan trọng được rút ra sau khi thực hiện đề tài:

- Các tri thức ngôn ngữ khác nhau đóng góp khác nhau vào chất lượng hệ dịch. Việc kết hợp các tri thức này hợp lí sẽ làm tăng đáng kể chất lượng dịch của hệ thống.

- Cách sử dụng khác nhau một tri thức ngôn ngữ để tích hợp vào hệ dịch máy thống kê cũng tạo ra các hiệu quả khác nhau đối với hệ dịch.


Trong tương lai, đề tài có thể mở rộng theo các hướng sau nâng cao hiệu quả của hệ dịch bằng cách tích hợp thêm một số tri thức khác vào hệ dịch như thông tin cú pháp để chuyển đổi trật tự từ hoặc thông tin ngữ nghĩa để chọn từ dịch chính xác.


TÀI LIỆU THAM KHẢO

Tiếng Việt

[1] Đinh Điền (2001), So sánh trật tự từ của định ngữ giữa tiếng Anh và tiếng Việt. Tạp chí Khoa học Xã hội và Nhân văn, Trường Đại học Khoa học Xã hội và Nhân văn Tp. Hồ Chí Minh.

[2] Hoàng Công Duy Vũ, Văn Chí Nam, Đinh Điền (2006), Dịch máy thống kê Anh – Việt, Việt – Anh kết hợp thông tin ngôn ngữ tiếng Việt. Hội nghị kỷ niệm 30 năm thành lập Viện CNTT, Hà Nội.

[3] Vũ Ngọc Tú (1996), Nghiên cứu đối chiếu trật tự từ Anh-Việt trên một số cấu trúc cú pháp cơ bản, Luận án phó tiến sĩ khoa học ngữ văn.

Tiếng Anh

[4] A. Stolcke, 2002, SRILM - An Extensible Language Modeling Toolkit, In Proceedings of Intl. Conf. Spoken Language Processing, Denver, Colorado, September 2002.

[5] Alexandra Birch, Miles Osborne, Philipp Koehn, 2007, CCG supertags in factored statistical machine translation. In Proceedings of the Second Workshop on Statistical Machine Translation (ACL), Prague, Czech Republic, page 9-16.

[6] Chao Wang, Michael Collins, and Phillip Koehn, 2007. Chinese Syntactic Reordering for Statistical Machine Translation, in Proceeding of EMNLP, 2007.

[7] Collins, M., Koehn, P. and Kucerova, I. (2005), Clause restructuring for statistical machine translation, Proceedings of the 43rd Annual Meeting of the Assoc. for Computational Linguistics (ACL), pp. 531-540.

[8] Doddington, G. (2002), Automatic Evaluation of Machine Translation Quality Using N-gram Co-Occurrence Statistics, Proceedings of the second international conference on Human Language Technology Research, pp. 138 – 145.


[9] Eugene Charniak, Kevin Knight, and Kenji Yamada, 2003. Syntax-based Language Models for Statistical Machine Translation. In Proceedings of the Ninth Machine Translation Summit of the International Association for Machine Translation, New Orleans, Louisiana, September 2003.

[10] F. J. Och and H. Ney, 2000, Improved statistical alignment models, In Proceedings of ACL 2000.

[11] F. Xia and M. McCord. 2004. Improving a statistical MT system with automatically learned rewrite pat-terns. In Proceedings of COLING 2004.

[12] Habash, Nizar. Syntactic Preprocessing for Statistical Machine Translation, In Proceedings of the Machine Translation Summit (MT-Summit), Copenhagen, Denmark, 2007.

[13] J. Giménez and L. Márquez, 2004, SVMTool: A general POS tagger generator based on Support Vector Machines, In Proceedings of the 4th International Conference on Language Resources and Evaluation, Lisbon, Portugal, 2004

[14] J. May and K. Knight, 2007. Syntactic Re-Alignment Models for Machine Translation. In Proceeding EMNLP-CoNLL.

[15] K. Rottmann and S. Vogel, 2008, Word reordering in statistical machine translation with a POS-based distortion model, In Proceedings of the 11th International Conference on Theoretical and Methodological Issues in Machine Translation, Skovde (Sweden), pp.171-180, 7-9 September 2007

[16] K. Toutanova, H.T. Ilhan, and C.D. Manning, 2002, Extensions to HMM- based statistical word alignment models, In Proceedings of Conf. on Empirical Methods for Natural Language Processing, pages 87-94, Philadelphia, PA,

July 2002

[17] Koehn, P., Och, F. J., and Marcu, D. (2003), Statistical phrase-based translation, Proceedings of the HLT-NAACL 2003 conference, pp. 127–133.

[18] Koehn, P. (2003), Lecture of Statistical Machine Translation.

[19] Libin Shen, Jinxi Xu, Bing Zhang, Spyros Matsoukas, Ralph Weischedel (2009). Effective Use of Linguistic and Contextual Information for Statistical

..... Xem trang tiếp theo?
⇦ Trang trước - Trang tiếp theo ⇨

Ngày đăng: 13/06/2023