Tích hợp thông tin hình thái từ vào hệ dịch máy thống kê Anh-Việt

hệ dịch này là các bảng thống kê về từ, ngữ và các qui luật chuyển đổi mà không cần đến tri thức ngôn ngữ. Với phương pháp này, ngữ liệu càng lớn và có chất lượng tốt thì hệ dịch sẽ càng hiệu quả.

Ưu điểm của hệ dịch này là do chỉ thuần tuý thống kê nên độc lập về ngôn ngữ, có thể áp dụng được trên bất kì cặp ngôn ngữ nào. Mặc khác, chúng ta có thể tiền xử lý trên dữ liệu đầu vào, miễn là thực hiện biến đổi đồng nhất trong cả quá trình huấn luyện và dịch. Ngoài ra, những người cũng có thể theo dõi hoặc can thiệp vào quá trình dịch thông qua các bảng thống kê trung gian. Chính vì những đặc điểm này mà mô hình dịch máy thống kê có tiềm năng rất lớn trong ứng dụng dịch máy. Rất nhiều nhóm nghiên cứu đang tập trung khai thác và phát triển hệ dịch máy trên mô hình này.

Do đó, chúng tôi hướng đến phát triển một hệ dịch sử dụng đồng thời tri thức thống kê từ kho ngữ liệu song ngữ và tri thức về phân tích ngôn ngữ. Luận văn sẽ tập trung khảo sát việc tích hợp thông tin hình thái từ vào dịch máy thống kê và phát triển một hệ thống dịch máy thống kê Anh - Việt sử dụng các tri thức ngôn ngữ này.

1.2. Hướng tiếp cận của đề tài

Đề tài sẽ tập trung vào khảo sát các hướng tích hợp trực tiếp tri thức ngôn ngữ vào trong hệ dịch máy thống kê dựa trên ngữ. Khảo sát các tri thức ngôn ngữ trong dịch máy thống kê Anh - Việt. Các tri thức được tập trung khảo sát bao gồm hình thái từ, từ loại và các cách kết hợp các thông tin này và tìm hiểu ảnh hưởng của các thông tin này lên hệ dịch.

Tiếng Anh và tiếng Việt rất khác biệt về loại hình ngôn ngữ. Tiếng Việt là ngôn ngữ đơn lập, quan hệ ngữ pháp chỉ được diễn đạt bằng trật tự trước sau của từ và bằng các hư từ. Trong tiếng Việt, từ không có hiện tượng biến hình, đơn vị cơ bản là hình tiết: đây là một đơn vị có nghĩa, có vỏ ngữ âm thường trùng với âm tiết, có khả năng vừa dùng như từ vừa dùng như hình vị. Ở loại hình này, người ta thường hay nói đến vấn đề khó xác định ranh giới từ, vấn đề khó phân biệt các yếu tố hư với yếu tố thực cũng như vấn đề mặt cấu tạo từ ít phát triển. Trong khi tiếng Anh là

ngôn ngữ hoà kết, từ tiếng Anh chính là những từ chính tả phân biệt bởi khoảng trắng. Từ vựng tiếng Anh có hai đặc điểm là biến cách và dẫn xuất. Biến cách là dạng mà trong đó có một hình vị ràng buộc kết hợp vào một từ để thể hiện những ý nghĩa ngữ pháp như: thì (tense), số (number), cách (case), v.v… Dẫn xuất là dạng từ mới được hình thành trên cơ sở từ gốc kết hợp với các phụ tố nhằm thể hiện những ý nghĩa từ vựng, như: lặp lại (re-), chống (anti-), người/vật thực hiện (-er/-or), ... Phụ tố của dẫn xuất bao gồm các hậu tố và tiền tố.

Nhiều nghiên cứu đã tiếp cận theo hướng tập trung vào giải quyết sự khác biệt về trật tự từ giữa tiếng Anh và tiếng Việt như nghiên cứu của nhóm Nguyễn Phương Thái [32], nhóm nghiên cứu của nhóm Nguyễn Thị Hồng Nhung [24], Duy Vũ [3] và đạt được một số kết quả khả quan. Tuy nhiên, sự khác nhau về hình thái từ giữa tiếng Anh và tiếng Việt vẫn chưa được quan tâm.

Do đó, đề tài sẽ tiếp cận theo hướng tích hợp tri thức ngôn ngữ vào hệ thống dịch máy thống kê Anh - Việt ở mức độ hình thái từ. Từ tiếng Anh sẽ được đưa về nguyên mẫu, tách các phụ tố và gán nhãn từ loại, từ tiếng Việt sẽ được phân đoạn từ và gán nhãn từ loại. Đề tài cũng sẽ phân tích các từ loại có ảnh hưởng tích cực đến chất lượng dịch của hệ thống.

1.3. Nội dung của luận văn

Phần còn lại của luận văn sẽ bao gồm các chương sau:

Chương 2 – TỔNG QUAN: Chương này sẽ trình bày hướng tiếp cận dịch máy thống kê dựa trên ngữ, các thành phần cấu thành hệ thống dịch máy thống kê này.

Chương 3 – CÁC HƯỚNG TÍCH HỢP TRI THỨC NGÔN NGỮ VÀO DỊCH

MÁY THỐNG KÊ: Chương này sẽ khảo sát các hướng tiếp cận để đưa tri thức ngôn ngữ vào trong hệ máy thống kê, phân tích ưu khuyết điểm của các hướng tiếp cận này.

Chương 4 – MÔ HÌNH CỦA ĐỀ TÀI: Chương này sẽ mô tả mô hình được sử dụng trong đề tài, các tri thức được đưa vào hệ thống dịch máy thống kê Anh - Việt dựa trên ngữ và lí do lựa chọn các tri thức này.

Chương 5 – THỰC NGHIỆM VÀ ĐÁNH GIÁ: Chương này sẽ mô tả chi tiết về các thí nghiệm đã thực hiện để đánh giá hiệu quả hướng tiếp cận của đề tài, đồng thời so sánh các tri thức ngôn ngữ khác nhau ảnh hưởng như thế nào trong dịch máy thống kê Anh - Việt.

Chương 6 – KẾT LUẬN: nêu lên những kết quả mà luận văn đã đạt được và hướng phát triển trong tương lai.

TÀI LIỆU THAM KHẢO VÀ PHỤ LỤC: trình bày các thông tin khác có liên quan và được sử dụng trong đề tài.

CÔNG TRÌNH ĐÃ CÔNG BỐ: liệt kê các bài báo khoa học, các công trình đã được công bố trong quá trình thực hiện đề tài.

CHƯƠNG 2: TỔNG QUAN

2.1. Dịch máy thống kê

Dịch máy thống kê (Statistical Machine Translation - SMT) được nghiên cứu từ những năm 1980 trong dự án Candide của IBM. Phương pháp được IBM sử dụng là dịch máy thống kê dựa trên từ (word based SMT), phương pháp này dịch từ một từ thuộc ngôn ngữ nguồn sang một hoặc nhiều từ thuộc ngôn ngữ đích và cho phép thêm, xoá các từ trên câu đích.

Sau này, nhiều nhóm nghiên cứu đã đạt được kết quả dịch tốt hơn nhờ phương pháp dịch máy thông kê dựa trên ngữ (phrase based SMT). Phương pháp này được đặt nền móng từ mô hình mẫu gióng hàng (alignment template model) của [10], mô hình này có thể chuyển đổi thành một hệ thống dịch máy thống kê dựa trên ngữ. Nhiều nhóm nghiên cứu sử dụng kết quả của dịch dựa trên ngữ để tích hợp vào hệ thống của mình, chẳng hạn [34] đã thành công khi sử dụng cách dịch dựa trên ngữ trong mô hình dịch máy dựa trên cú pháp (syntax-based) của mình.

Hầu hết các hệ thống dịch máy thống kê hiện nay đều sử dụng cách dịch dựa trên ngữ, một số hệ thống dịch máy nổi tiếng trong số này là CMU, IBM, ISI và Google. Các hệ thống dịch máy dựa trên ngữ đạt được những kết quả vượt trội trong các hội nghị đánh giá chất lượng dịch máy thời gian gần đây (DARPA TIDES Machine Translation Evaluation).

Ngoài phương pháp thống kê còn nhiều phương pháp khác được sử dụng trong dịch máy. Đa số các hệ thống dịch thương mại sử dụng các luật chuyển đổi và các bộ từ vựng phong phú. Cho tới gần đây, các nghiên cứu về dịch máy thường tập trung vào các hệ thống dựa trên tri thức (knowledge based) sử dụng interlingua làm ngôn ngữ trung gian trong quá trình dịch.

2.1.1. Dịch máy thống kê dựa trên từ

Mô hình dịch máy thống kê dựa trên từ [25] được đưa ra bởi Brown vào năm 1990. Mô hình này giả sử rằng câu 𝑒 ở ngôn ngữ nguồn có câu dịch là câu 𝑣 ở ngôn ngữ

đích. Một câu e có thể dịch sang được nhiều câu v. Trong dịch thống kê, ta chọn câu v có khả năng là câu dịch của e là nhiều nhất. Với mỗi cặp câu 𝑣 𝑒 ta gọi 𝑝 𝑣 𝑒 là xác suất mà 𝑒 có thể dịch thành 𝑣. Mục đích của dịch máy thống kê là tìm câu 𝑣 có xác suất 𝑝 𝑣 𝑒 là cao nhất.

Tuy nhiên, việc tính xác suất 𝑝 𝑣 𝑒 không khả thi vì câu đích được tạo ra bởi chuỗi các từ vựng của ngôn ngữ đích, có thể chuỗi này không phải là câu đúng ngữ pháp.

Do đó, công thức Bayes được dùng để triển khai cho xác suất 𝑝 𝑣 𝑒 :

𝑝𝑣𝑒= 𝑝 𝑣 . 𝑝 𝑒 𝑣

𝑝 𝑒

(2.1)

Vì câu tiếng Anh e không đổi nên 𝑝(𝑒) sẽ không ảnh hưởng đến việc chọn câu 𝑒, ta có thể bỏ qua 𝑝(𝑒). Khi đó, câu dịch 𝑣 được chọn sẽ là câu có 𝑝 𝑣 . 𝑝 𝑒 𝑣 lớn nhất.

𝑣 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑣 𝑝 𝑣 𝑒 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑣 𝑝 𝑣 . 𝑝 𝑒 𝑣

Hệ dịch máy thống kê gồm 3 phần:

(2.2)

- Mô hình ngôn ngữ 𝑝(𝑣) (language model): Phản ánh độ trôi chảy của câu dịch. Các câu v đúng ngữ pháp và gần với cách nói tự nhiên trong ngôn ngữ đích sẽ có giá trị xác suất 𝑝(𝑣) cao hơn. Mô hình này được huấn luyện dựa trên ngữ liệu đơn ngữ.

- Mô hình dịch 𝑝(𝑣) (translation model): Đưa ra sự tương ứng giữa các từ, ngữ trong các cặp ngôn ngữ. Với câu e cho trước, câu dịch v nào có xác suất 𝑝(𝑣) cao hơn thì sẽ là câu dịch hợp lý hơn. Mô hình này được huấn luyện dựa trên các cặp câu song ngữ.

- Bộ giải mã (Decoder): Tích hợp giữa mô hình dịch và mô hình ngôn ngữ để thực hiện quá trình dịch.

Ngữ liệu

song ngữ

Ngữ liệu

đơn ngữ

Thống kê

Mô hình dịch

Mô hình ngôn ngữ

Câu nguồn

Quá trình giải mã

Câu đích

Hình 2.1. Mô hình dịch máy thống kê

2.1.1.1.Mô hình ngôn ngữ

Mô hình ngôn ngữ giúp hệ dịch xác định độ chính xác của trật tự từ (có thể cả ngữ pháp) trong câu được phát sinh. Từ chuỗi từ được phát sinh ra, hệ dịch tính tần suất dãy các từ này cùng xuất hiện trong ngôn ngữ đích. Thông tin này sẽ được dùng trong quá trình giải mã để tìm ra câu dịch hay nhất. Các hệ thống hiện nay thường tính toán sử dụng mô hình ngôn ngữ n-gram, cụ thể là trigram.

Mô hình ngôn ngữ n-gram tính xác suất xuất hiện của một từ dựa trên 𝑛 − 1 từ đứng trước nó trong câu. Cho câu 𝑠 gồm chuỗi các từ 𝑤1, 𝑤2, … 𝑤𝑛 , ta tính các xác suất trong mô hình ngôn ngữ như sau:

Xác suất unigram:

Xác suất bigram:

𝑝 𝑤1

= 𝑆ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 𝑕𝑖ệ𝑛 𝑡ừ 𝑤1

𝑇ổ𝑛𝑔 𝑠ố 𝑡ừ

(2.3)

𝑝 𝑤1

|𝑤2

= 𝑆ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 𝑕𝑖ệ𝑛 𝑐ụ𝑚 𝑤1𝑤2

𝑆ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 𝑕𝑖ệ𝑛 𝑡ừ 𝑤1

(2.4)

Xác suất trigram:

𝑝 𝑤3

|𝑤1

𝑤2

= 𝑆ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 𝑕𝑖ệ𝑛 𝑐ụ𝑚 𝑤1𝑤2𝑤3

𝑆ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 𝑕𝑖ệ𝑛 𝑐ụ𝑚 𝑤1𝑤2

(2.5)

Xác suất xuất hiện của câu 𝑠 được tính bằng tích của tất cả các xác suất xuất hiện của từng từ có trong câu 𝑠. Dưới đây là ví dụ về cách tính xác suất xuất hiện của câu “I like bungee jumping off high bridges” theo mô hình ngôn ngữ trigram.

𝑝 𝐼 𝑙𝑖𝑘𝑒 𝑏𝑢𝑛𝑔𝑒𝑒 𝑗𝑢𝑚𝑝𝑖𝑛𝑔 𝑜𝑓𝑓 𝑕𝑖𝑔𝑕 𝑏𝑟𝑖𝑑𝑔𝑒𝑠

= 𝑝 𝐼 < 𝑠 >< 𝑠 > × 𝑝 𝑙𝑖𝑘𝑒 𝐼 < 𝑠 > × 𝑝 𝑏𝑢𝑛𝑔𝑒𝑒 𝐼 𝑙𝑖𝑘𝑒

× 𝑝 𝑗𝑢𝑚𝑝𝑖𝑛𝑔 𝑙𝑖𝑘𝑒 𝑏𝑢𝑛𝑔𝑒𝑒 × 𝑝 𝑜𝑓𝑓 𝑏𝑢𝑛𝑔𝑒𝑒 𝑗𝑢𝑚𝑝𝑖𝑛𝑔

× 𝑝 𝑕𝑖𝑔𝑕 𝑗𝑢𝑚𝑝𝑖𝑛𝑔 𝑜𝑓𝑓 × 𝑝 𝑏𝑟𝑖𝑑𝑔𝑒𝑠 𝑜𝑓𝑓 𝑕𝑖𝑔𝑕

× 𝑝(</𝑠 > |𝑕𝑖𝑔𝑕 𝑏𝑟𝑖𝑑𝑔𝑒𝑠) × 𝑝(</𝑠 > |𝑏𝑟𝑖𝑑𝑔𝑒𝑠 </𝑠 >)

Trong thực tế, ngữ liệu thường bị phân tán, nếu từ không tồn tại trong ngữ liệu thì xác suất xuất hiện của nó sẽ bằng 0. Điều này dẫn đến xác suất của chuỗi từ được tính bằng tích các xác suất của từng từ sẽ bằng 0. Để tránh xác suất 0, công thức tính xác suất xuất hiện của từ được điều chỉnh như sau:

0.8 × 𝑝 𝑤3𝑤1𝑤2+ 0.15 × 𝑝 𝑤3𝑤2+ 0.049 × 𝑝 𝑤3+ 0.001

Ngoài mô hình ngôn ngữ n-gram, còn có một số mô hình ngôn ngữ khác như: mô hình ngôn ngữ web n-gram và mô hình ngôn ngữ cú pháp.

2.1.1.2.Gióng hàng từ

Để ước lượng các tham số trong mô hình dịch, bảng dịch ngữ được tạo ra dựa trên gióng hàng từ. Gióng hàng là tạo liên kết giữa các cặp từ (ngữ) tương ứng bằng cách đánh dấu vị trí của những từ ở câu nguồn vào từ (ngữ) ở câu đích.

Ví dụ, gióng hàng từ giữa cặp câu song ngữ:

She takes a small green box.

Cô ấy lấy một chiếc hộp nhỏ màu xanh.

small

green

box

chiếc hộp

nhỏ

màu xanh

được biểu diễn như sau:

She

takes

Cô ấy

lấy

một

Hình 2.2. Biểu diễn gióng hàng từ dạng liên kết

Một cách khác để biểu diễn gióng hàng từ là sử dụng bảng như bảng 2.1.

Bảng 2.1. Bảng biểu diễn gióng hàng từ dạng bảng

She	takes	a	small	green	box	.
Cô
ấy
lấy
một
chiếc
hộp
nhỏ
màu
xanh
.

Tích hợp thông tin hình thái từ vào hệ dịch máy thống kê Anh-Việt - 2

Gửi bình luận