Các Hướng Tích Hợp Tri Thức Ngôn Ngữ Vào Dịch Máy Thống Kê

2.2.1. BLEU (Bilingual Evaluation Understudy)

Điểm BLEU [28] là một trong những tiêu chuẩn đo hiệu quả dịch được sử dụng rộng rãi nhất hiện nay. Để đo BLEU, người ta tính dựa trên trung bình hình học (geometric mean) số lần đồng xuất hiện của các gram ở câu dịch tự động và câu dịch tham chiếu. Các n-gram gồm: 1-gram, 2-gram, 3-gram và 4-gram. Điểm BLEU có giá trị trong khoảng [0,1], theo tiêu chuẩn này thì sẽ có rất ít câu dịch đạt được điểm tối đa, ngoại trừ những câu thực sự khớp với câu dịch mà hệ thống đánh giá tham chiếu tới. Với tiêu chuẩn BLEU thì điểm càng cao có nghĩa là hệ thống dịch càng tốt.

2.2.2. NIST

NIST [8] là độ đo có cách đánh giá tương tự như BLEU nhưng sử dụng trung bình số học (arithmetic mean) thay vì (geometric mean) nhằm tăng tính chính xác khi đánh giá. Ngoài ra NIST còn đánh số điểm cao hơn cho các n-gram chứa nhiều thông tin hơn trong khi đối với BLEU là như nhau nếu cùng số từ. Với tiêu chuẩn này, số điểm cao thì hệ dịch được xem là tốt.

2.2.3. TER (Translation Error Rate)

TER [31] là tiêu chuẩn đánh giá dựa trên số lần chỉnh sửa để chuyển câu kết quả từ máy dịch thành câu tham chiếu. Đây là độ đo được đánh giá là gần với con người nhất. Tỉ lệ lỗi sẽ được tính theo công thức:

𝑇𝐸𝑅 = 𝑠ố 𝑏ướ𝑐 𝑐𝑕ỉ𝑛𝑕 𝑠ử𝑎

𝑠ố 𝑡ừ 𝑡𝑟𝑢𝑛𝑔 𝑏ì𝑛𝑕 𝑡𝑟𝑜𝑛𝑔 𝑐â𝑢 𝑡𝑕𝑎𝑚 𝑐𝑕𝑖ế𝑢

Các bước chỉnh sửa bao gồm thêm, xoá hoặc thay thế từ trong câu. Với độ đo này, tỉ lệ lỗi càng thấp đồng nghĩa với hệ dịch càng tốt.

Có thể bạn quan tâm!

Xem toàn bộ 104 trang tài liệu này.

CHƯƠNG 3: CÁC HƯỚNG TÍCH HỢP TRI THỨC NGÔN NGỮ VÀO DỊCH MÁY THỐNG KÊ

Hướng tiếp cận dịch máy dựa trên ngữ hiện được xem là state-of-the-art trong dịch máy thống kê. Tuy nhiên, cách tiếp cận này bị hạn chế khi không trực tiếp tích hợp các tri thức ngôn ngữ vào hệ thống, chẳng hạn như hình thái từ, ngữ pháp hoặc ngữ nghĩa. Những tri thức này đã được nghiên cứu tích hợp vào các hệ thống dịch máy dựa trên ngữ trong quá trình tiền xử lí hoặc hậu xử lí và đã đạt được một số kết quả nhất định. Cách tích hợp tri thức ngôn ngữ vào hệ dịch máy thống kê có thể chia làm hai hướng chính là sử dụng tri thức để tiền xử lý và đưa tri thức ngôn ngữ vào hệ dịch.

3.1. Sử dụng tri thức ngôn ngữ để tiền xử lý

Hướng tiếp cận thứ nhất được tập trung nghiên cứu rất nhiều và đạt được một số kết quả khả quan. Hướng này chủ yếu tập trung vào chuyển đổi trật tự từ hoặc phân tích từ pháp ở câu nguồn nhằm giảm bớt sự khác biệt giữa hai ngôn ngữ. Các tri thức để chuyển đổi bao gồm tri thức về hình thái từ, phân tích cây cú pháp và các luật chuyển đổi dựa trên sự khác biệt giữa hai ngôn ngữ. Thông thường, quá trình biến đổi này được thực hiện ở bước tiền xử lý trên câu nguồn hay câu đích, hoặc cả hai phía và kết quả thu được sẽ được đem làm đầu vào cho hệ dịch. Mặc dù áp dụng theo nhiều cách khác nhau, nhưng hầu hết các mô hình theo hướng này đều hiệu quả hơn so với mô hình baseline. Do mục tiêu chính của những phương pháp này là hướng đến sự tương đồng giữa hai ngôn ngữ nên đã khắc phục được khá nhiều lỗi khi thực thi hệ dịch thống kê, gồm những lỗi về gióng hàng từ, chọn từ dịch tương ứng hay chuyển đổi trật tự. Ngoài ra, việc phân tích hình thái từ còn làm giảm được số từ chưa có trong ngữ liệu huấn luyện.

3.1.1. Dùng thông tin cú pháp

Xia và McCord [11] sử dụng các luật đảo trật tự từ trong văn phạm phi ngữ cảnh. Trong quá trình huấn luyện, hệ thống sẽ tự động rút luật từ cây cú pháp của câu nguồn và câu đích cùng với kết quả gióng hàng từ. Khi thực thi, các luật này sẽ được sử dụng để sắp xếp lại trật tự câu nguồn nhằm tạo sự tương tự giữa hai ngôn ngữ. Mô hình này đã cải tiến được hệ dịch máy thống kê Anh – Pháp.

Nhóm nghiên cứu của Collins [7] đưa ra mô hình cũng áp dụng kết quả phân tích cú pháp vào hệ dịch thống kê. Tuy nhiên, tác giả chỉ lấy thông tin cú pháp của câu nguồn. Hệ thống sẽ tự động rút ra luật chuyển đổi từ cây cú pháp và câu đích, sau đó áp dụng các luật chuyển đổi trật tự cho mệnh đề tiếng Đức để tạo sự tương tự về mặt cú pháp với tiếng Anh, áp dụng ở giai đoạn tiền xử lý trong hệ dịch dựa trên ngữ. Kết quả thử nghiệm cho thấy hệ đã cải tiến được đáng kể, điểm BLEU từ 25,2% tăng lên 26,8%.

Nhóm nghiên cứu của Zhang [35] đưa ra mô hình tương tự như Xia và McCord [11]. Trước tiên, câu nguồn được gán nhãn từ loại, phân tích ranh giới ngữ. Sau đó tác giả lấy kết quả gióng hàng và câu đã được phân tích để tự động rút luật chuyển đổi trật tự trong dịch máy thống kê Hoa – Anh. Tuy nhiên, công trình này mới ở chỗ họ chỉ phân tích cú pháp ở câu nguồn và sử dụng mọi khả năng đảo trật tự đã học trong quá trình huấn luyện và biểu diễn ở dạng lưới. Kết quả tăng từ 0,5% đến 1,8% điểm BLEU, tốt hơn so với hệ dịch chỉ lấy thông tin POS.

[12] sử dụng kết quả gióng hàng trong ngữ liệu song ngữ để rút ra các luật chuyển đổi trật tự từ dựa trên cú pháp. Sau đó, các luật này được dùng để đảo cho ngôn ngữ nguồn trong cả hai quá trình huấn luyện và kiểm tra đánh giá.

Khi có align giữa câu nguồn S và câu đích T, thêm vào cây cú pháp của câu nguồn PS, với mỗi node N trong PS, Nizar Habash tìm những vị trí từ trên T mà N và tất cả các con của N có liên kết đến. Sau đó, dựa vào cây PS, tìm điều kiện (C) để đổi trật tự từ (R) tạo thành các luật chuyển đổi. Những luật có phân phối điều kiện cao nhất sẽ được chọn. Nizar Habash dịch từ tiếng Ả-rập sang tiếng Anh sử dụng ngữ

liệu NIST MTEval, sử dụng GIZA++ cho liên kết từ, sử dụng BLEU và NIST để đánh giá. Kết quả tốt nhất tăng 25% điểm BLEU.

Một hướng cải tiến gióng hàng từ do May và Knight [14] đề ra như sau: dùng những ràng buộc về cú pháp để gióng hàng lại ngữ liệu song ngữ đã được gióng bởi công cụ GIZA++. Từ cây cú pháp của câu đích và kết quả gióng hàng, họ rút ra luật biến đổi giữa câu và cây (string-to-tree). Với mỗi cặp string/tree (câu nguồn và cây cú pháp của câu đích) trong ngữ liệu, họ sử dụng các luật này để xây dựng rừng dẫn xuất string-to-tree có thể có. Sau đó, tác giả sử dụng mô hình EM để chọn cây dẫn xuất cho mỗi cặp. Kết quả là các cặp câu được align lại từ cây dẫn xuất Viterbi.

Sử dụng thuật toán trên, nhóm nghiên cứu của Victoria Fossum [33] đề xuất cải tiến gióng hàng từ bằng cách sử dụng hai đặc trưng của các luật được rút ra là kích thước của luật lớn nhất và số lượng luật để dò tìm tự động và xoá liên kết sai do GIZA++ gióng hàng. Sau khi xoá liên kết này, kết quả gióng hàng và chất lượng dịch đã được cải thiện rất nhiều trong dịch Hoa – Anh và Ả Rập – Anh. Điểm BLEU tăng từ 0,5 đến 1,4 và độ đo f-measure của gióng hàng từ tăng từ 1 đến 3%.

Thuật toán của các tác giả trên khác với May và Knight [14] ở chỗ tập các liên kết từ mới mà họ phát sinh ra được chỉ giới hạn trong các liên kết mà GIZA++ gán ban đầu trong ngữ liệu huấn luyện. Trong khi đó, thuật toán của Victoria Fossum [33] thì sẽ phát hiện được tất cả các gióng hàng bằng cách xoá đi một liên kết từ kết quả của GIZA++ ban đầu. Ngoài ra, nếu sử dụng thuật toán của May và Knight sẽ tốn nhiều thời gian trong quá trình huấn luyện vì phải tìm gióng hàng nào tốt nhất cho mỗi cặp câu. Đối với thuật toán của [33], họ sử dụng phương pháp tìm kiếm Greedy nên sẽ tìm ra liên kết cần xoá nhanh hơn, do đó thuật toán tiết kiệm được nhiều thời gian hơn.

Phương pháp này không những cải thiện được kết quả gióng hàng mà còn làm tăng độ chính xác của trật tự từ kết quả dịch. Việc sử dụng thông tin cây cú pháp giúp hệ dịch xử lý trường hợp những từ ở xa có ràng buộc với nhau về mặt ngữ pháp. Tuy nhiên, quá trình rút ra luật chuyển đổi phụ thuộc rất nhiều vào việc phân tích cây cú

pháp cho cả hai ngôn ngữ và kết quả gióng hàng từ. Nếu những thông tin này không chính xác, dẫn đến luật học cũng sai và ảnh hưởng đến kết quả hệ dịch. Và đó cũng là trở ngại khi đem mô hình này áp dụng cho những cặp ngôn ngữ khác.

3.1.2. Sử dụng thông tin từ loại

Bên cạnh đó, một số nhóm nghiên cứu khác tạo luật chuyển đổi trật tự dựa trên thông tin từ loại. Tác giả khảo sát sự khác biệt về trật tự của các cặp ngôn ngữ và rút ra các luật chuyển đổi.

Nhóm nghiên cứu của Hermann Ney [20] đưa ra hai cách chuyển đổi trật tự tuỳ thuộc vào cặp ngôn ngữ và chiều dịch: đổi trật tự nội bộ trong các danh từ và tính từ khi dịch từ Tây Ban Nha và dịch sang Tây Ban Nha, đổi trật tự cho động từ khi dịch sang tiếng Đức. Kết quả giảm được 2% WER và tăng 7% BLEU.

- Chuyển đổi cục bộ: Trong tiếng Tây Ban Nha, tính từ đặt sau danh từ, trong khi tiếng Anh và hầu hết những ngôn ngữ không thuộc dòng Roman thì trật tự ngược lại. Nếu dịch từ tiếng Tây Ban Nha thì danh từ sẽ được đảo ra sau. Nếu dịch sang tiếng Tây Ban Nha thì ở câu nguồn, tính từ chuyển ra sau danh từ.

- Chuyển đổi xa: Trong tiếng Đức, động từ thường được đặt ở cuối câu nếu ở dạng nguyên mẫu (infinitive) hay quá khứ phân từ (past participle). Do đó, khi dịch sang tiếng Đức, hệ dịch sẽ chuyển các động từ ở dạng nguyên mẫu hay quá khứ phân từ về cuối câu.

Một nghiên cứu khác cũng sử dụng luật chuyển đổi dựa trên sự khác biệt về trật tự từ giữa tiếng Hoa và tiếng Anh. Nhóm nghiên cứu của [6] đổi trật tự câu tiếng Hoa trước khi đưa vào hệ dịch. Họ đưa ra hệ luật chuyển đổi bằng cách khảo sát thành phần của các loại ngữ trong Penn Chinese Treebank guidelines. Những loại ngữ có thứ tự thành phần tương tự tiếng Anh thì sẽ được giữ nguyên, chẳng hạn như ngữ tính từ, ngữ trạng từ,… Tác giả rút luật chuyển đổi từ sự khác biệt trong các ngữ danh từ, ngữ động từ, ngữ định vị (tương ứng với ngữ giới từ trong tiếng Anh). Kết quả hệ được cải tiến từ 28,52 đến 30,86 điểm BLEU.

Ưu điểm của phương pháp này là có thể đưa ra luật chuyển đổi bằng tay dựa trên khảo sát sự khác biệt của cặp ngôn ngữ, đặc biệt là những cặp khác nhau nhiều về trật tự từ.

3.1.3. Sử dụng luật biến đổi hình thái từ

Ngoài thông tin từ loại, các nhà nghiên cứu còn sử dụng thông tin hình thái khác như dạng nguyên mẫu, phụ tố của từ. Các tác giả dùng những tri thức này để biến đổi từ sang dạng mới, nhằm tạo sự tương đương giữa hai ngôn ngữ, giảm bớt các trường hợp gióng hàng không phải 1-1.

Nicola Ueffing và Hermann Ney [23] đưa ra mô hình dịch từ ngôn ngữ ít biến đổi hình thái như tiếng Anh sang ngôn ngữ giàu hình thái. Các dạng từ trong tiếng Anh thường không chứa đủ các thông tin cần thiết để hoàn chỉnh từ trong ngôn ngữ đích. Tác giả đưa ra mô hình cải tiến chất lượng hệ dịch bằng cách sử dụng thông tin từ loại và mô hình maximum entropy. Kết quả dịch từ tiếng Anh sang Tây Ban Nha và Catalan trên ngữ liệu LC-STAR bao gồm thể loại đàm thoại về kế hoạch công việc và du lịch.

Tác giả đưa ra cách dịch chuỗi tiếng Anh bao gồm cả thông tin từ loại.

- Động từ: Trong tiếng Catalan và Tây Ban Nha, đại từ đứng trước động từ thường được bỏ qua và thay vào đó, người ta thể hiện thông qua đuôi của động từ. Phần cuối này cho biết động từ đang ở thì tương lai hay là các dạng trợ động từ như “should”, “would” trong tiếng Anh. Để giải quyết vấn đề này, tác giả đề ra phương pháp tạo dạng từ mới của tiếng Anh bằng cách nối động từ với đại từ và trợ động từ và thông tin từ loại sẽ hỗ trợ cho hệ thống dò tìm ra đại từ và trợ động từ. Vd: “you will have” được nối thành “you_will_have” tương ứng với “tendrás” tiếng Tây Ban Nha và “tindràs” trong Catalan.

- Đảo câu nghi vấn: Trong tiếng Anh, ngữ nghi vấn có trật tự từ khác với câu khẳng định: Trợ động từ được đảo ra trước đại từ và động từ chính chuyển về nguyên mẫu. Trật từ này khác so với tiếng Catalan và Tây Ban

Nha, tác giả đưa ra trật tự mới trong tiếng Anh để tạo ra sự giống nhau giữa các cặp ngôn ngữ này. Trong câu hỏi của tiếng Anh, thông tin trợ động từ “do” không có ích nên tác giả bỏ trợ động từ này đi và không gây ảnh hưởng đến kết quả dịch (như công bố của [27] khi dịch từ tiếng Đức sang Anh). Nhưng tác giả không bỏ trợ động từ ở thì quá khứ. Khi xử lý, hệ thống đảo trợ động từ ra sau đại từ. Vd: “how are you” được chuyển thành “how_you_are”

Kết quả, tỉ lệ lỗi dịch Anh – Catalan giảm ~ 2% (WER), 3% (BLEU) và Anh – Tây Ban Nha giảm ~0,5% (WER), ~0,7% (BLEU). Tuy nhiên, tỉ lệ lỗi của hệ dịch Anh

– Tây Ban Nha vẫn cao hơn Anh – Catalan. Nguyên nhân chính là do từ vựng của tiếng Tây Ban Nha chứa nhiều nội dung hơn. Hệ dịch này có thể cải tiến thêm bằng cách xử lý thêm các loại từ khác ngoài động từ.

Trong bài báo của Nguyễn Phương Thái và Akira Shimazu [32], tác giả sử dụng các luật chuẩn đổi hình thái bằng tay, về cú pháp, họ sử dụng mô hình chuyển đổi dựa trên công thức Bayes. Câu nguồn đã được chuyển đổi ở phần tiền xử lý. Kết quả thử nghiệm trên ngữ liệu Anh – Việt, cải tiến được 3,28% so với phrase-base SMT bằng Pharaoh.

Trong nghiên cứu này, tác giả đưa ra mô hình khác với [10] và [6] ở chỗ mô hình chuyển đổi dựa trên quyết định thống kê. Mặt khác, tác giả chỉ phân tích cú pháp cho một phía là ngôn ngữ nguồn. Một điểm khác nữa là tác giả ứng dụng trên cặp ngôn ngữ Anh – Việt (khác về đặc trưng ngôn ngữ) và kết hợp chuyển đổi cú pháp với chuyển đổi hình thái.

Tác giả đưa ra các luật chuyển đổi dựa trên những điểm khác biệt giữa hai ngôn ngữ. Tiếng Việt khác tiếng Anh ở chỗ tiếng Việt là ngôn ngữ đơn lập, không thể phân biệt ranh giới từ bằng khoảng trắng. Mặt khác, từ tiếng Việt không có biến tố như tiếng Anh. Tác giả phân tích từ tiếng Anh về nguyên mẫu và lấy thông tin các phụ tố và hình thái, từ đó chuyển thành chuỗi mới. Vd: “books” được chuyển thành “book_s”, “booking” chuyển thành “book_ing”.

Về chuyển đổi cú pháp, tác giả phân tích cú pháp câu nguồn và lấy kết quả gióng hàng từ đưa vào huấn luyện. Các luật chuyển đổi sẽ được rút ra khi cây cú pháp câu nguồn và chuỗi câu đích bị chéo nhau. Sau đó, hệ thống tính xác suất của những luật này. Khi thực thi, hệ thống sử dụng công thức Bayes để tìm luật chuyển đổi cú pháp cho cây cú pháp của câu nguồn. Sau khi chuyển đổi cú pháp và phân tích hình thái cho câu nguồn, chuỗi nhận được cùng với câu đích sẽ là đầu vào của hệ dịch.

Kết quả thử nghiệm trên ngữ liệu Anh – Việt, điểm BLEU tăng lên ~4% với chủ đề máy tính và ~3% chủ đề đàm thoại. Phương pháp này có thể áp dụng cho các cặp ngôn ngữ khác, đặc biệt là khi kích thước ngữ liệu nhỏ.

Do phân tích hình thái từ và chuyển về nguyên mẫu, mô hình này giảm được phần nào trường hợp từ chưa gặp trong ngữ liệu huấn luyện. Đồng thời, khi tách phụ tố và đảo trật tự theo tiếng Việt, mô hình tăng cường gióng hàng 1-1 nên kết quả gióng hàng chính xác hơn. Mô hình này khá hiệu quả đối với những cặp khác biệt nhau về mặt hình thái, mức độ biến hình của từ của hai ngôn ngữ.

3.2. Tích hợp tri thức vào hệ thống dịch máy

Tương tự hướng tiếp cận thứ nhất, những mô hình trong hướng này cũng sử dụng các thông tin ngôn ngữ như: từ loại, hình thái từ, cây cú pháp,... để cải tiến hệ dịch. Chỉ khác ở chỗ, những tri thức này được đính kèm vào trong các cặp câu và đưa vào mô hình dịch hoặc mô hình ngôn ngữ vào hệ factored SMT. Đây là mở rộng của hệ dịch dựa trên ngữ, cho phép người dùng đưa những thông tin khác đi kèm với từ. Những thông tin này có thể đưa vào mô hình dịch hoặc mô hình ngôn ngữ.

3.2.1. Tích hợp thông tin hình thái vào mô hình dịch

Đối với một số ngôn ngữ (Tây Ban Nha, Anh,…), động từ có thể chia ở nhiều dạng khác nhau, dẫn đến khó có một ngữ liệu nào có thể chứa hết các dẫn xuất của các động từ. [5] đưa ra mô hình phân lớp loại từ sẽ tạo một token tương ứng với tất cả các dẫn xuất của một động từ. Làm cách này, các dạng động từ sẽ xuất hiện nhiều hơn và dễ ước lượng hơn. Ngoài ra, có một mô hình tương tự đối với động từ của ngôn ngữ đích.

Gửi bình luận