Thêm Thông Tin Hình Thái Từ Cho Tiếng Anh Và Tiếng Việt


Phủ định của trợ động từ

Trong câu tiếng Anh có trợ động từ ở thể phủ định, trạng từ “not” đứng sau trợ động từ. Khi dịch sang tiếng Việt câu sẽ dịch trạng từ phủ định trước trợ động từ.

Xét ví dụ sau:


Could not không thể Should not không nên

Từ nhận xét trên, chúng tôi rút ra luật: Trong động ngữ, nếu trợ động từ ở dạng phủ định thì sẽ đảo trạng từ phủ định lên trước trợ động từ.

Cụm từ ở trên sẽ thay đổi sau khi áp dụng luật:

Could not not could Should not not should

Trạng từ/ngữ

Trạng từ/ngữ của động ngữ tiếng Anh nếu đứng trước động từ thì khi dịch sang tiếng Việt sẽ được đảo ra sau.

Ví dụ:


greatly influence ảnh hưởng lớn

carefully design thiết kế một cách cẩn thận

Do đó, chúng tôi rút ra luật như sau: Trong động ngữ, nếu trạng từ/ ngữ đứng trước động từ thì sẽ được chuyển ra sau động từ.

Kết quả áp dụng luật cho ví dụ trên:

greatly influence influence greatly carefully design design carefully


4.1.3.2. Tính ng


Trạng từ so sánh (comparative adverb, superlative adverb)

Trong tiếng Anh có trạng từ so sánh hơn và trạng từ so sánh cực cấp. Khi có trạng từ này trong tính ngữ, câu được dịch sang tiếng Việt sẽ biểu thị mức so sánh sau cùng. Ví dụ:

The most expensive đắt nhất More complex phức tạp hơn

Luật được rút trích như sau: Nếu trong tính ngữ chứa trạng từ so sánh và tính từ thì trạng từ so sánh sẽ được chuyển ra sau cùng.

Sau khi áp dụng luật cho ví dụ trên, ta được:

The most expensive the expensive most More complex complex more

Động từ/ ngữ

Tương tự như trong động ngữ, nếu tính ngữ chứa trạng từ và động từ/ngữ thì tính trạng từ sẽ được đảo ra sau động từ/ngữ.

Danh ngữ

Nếu tính ngữ chứa danh ngữ bổ nghĩa cho tính từ thì sẽ được chuyển danh ngữ ra sau tính từ. Xét ví dụ sau:

(6 metters) long dài 6 mét Cụm tính ngữ sẽ được đảo như sau:

(6 metters) long long (6 metters)


4.1.3.3. Trng ng

Tương tự với tính ngữ, nếu trạng ngữ chứa trạng từ so sánh và trạng từ thì trạng từ so sánh sẽ được chuyển ra sau.

Ví dụ:


More importantly importantly more

The most specially the specially most


4.1.3.4. Trt tca các ngtrong câu

Trật tự của các ngữ trong câu tiếng Anh và tiếng Việt phần lớn là tương đồng với nhau. Câu ở dạng khẳng định thường có cấu trúc: S-V-O: Chủ ngữ - động từ - tân ngữ. Tuy nhiên tiếng Anh có dạng câu hỏi wh-question là những câu hỏi bắt đầu bằng đại từ nghi vấn: what, where, when, how, who, whom, which, whose. Trong khi câu nghi vấn tiếng Việt sẽ để những trợ từ này sau cùng. Dựa trên điểm khác biệt này, chúng tôi rút ra luật: Nếu có một trong những từ trên đứng đầu câu, tiếp theo sau là trợ động từ thì sẽ đảo vị trí trợ động từ và đại từ nghi vấn, sau đó chuyển nguyên cụm này ra cuối câu.

Xét ví dụ sau:

Câu input:

Where are his friend „s books ?

Câu sau khi được phân tích:

[Where] [are] [his friend „s books] ? Sau khi áp dụng luật chuyển đổi trật tự các ngữ, câu trở thành:

[his friend „s books] [are] [Where] ?

Tương ứng với câu dịch tiếng Việt là:

Mấy quyển sách của bạn anh ấy ở đâu ?

4.2. Thêm thông tin hình thái ttiếng Vit


4.2.1. Thông tin ranh gii t

Tiếng Việt là ngôn ngữ đơn lập, việc xác định ranh giới từ không chỉ đơn thuần dựa trên khoảng trắng mà phải dựa vào ngữ cảnh và nghĩa của từ.

Một ví dụ điển hình cho thấy nhập nhằng trong bài toán tách từ tiếng Việt: Học sinh học sinh học.

Câu trên có thể được gán nhãn ranh giới từ như sau:



Hoặc là:

Học_sinh học_sinh học.


Học_sinh học sinh_học.


Trong mô hình máy thống kê dựa trên ngữ, hệ dịch thống kê tần suất xuất hiện của các cặp ngữ trong mô hình dịch và tính xác suất chuỗi từ trong mô hình ngôn ngữ. Việc rút ngữ không dựa vào tri thức ngôn ngữ mà chỉ đơn thuần là một dãy các token. Thiếu thông tin ranh giới từ có thể khiến từ bị gián đoạn trong các ngữ được rút ra.

Do đó, chúng tôi khảo sát sự ảnh hưởng của thông tin ranh giới từ đến hệ dịch thống kê Anh – Việt. Câu tiếng Việt trong cặp câu song ngữ và câu tiếng Việt trong ngữ liệu đơn ngữ sẽ được tách từ.

Xét cặp câu sau:

* Conservation efforts to save the saola have faced numerous difficulties .

+ Những nỗ lực bảo tồn để cứu Sao la đã phải đối mặt với nhiều khó khăn .

Câu tiếng Việt trong cặp câu đầu vào này sẽ được tách từ:

* Conservation efforts to save the saola have faced numerous difficulties .

+ Những nỗ_lực bảo_tồn để cứu Sao_la đã phải đối_mặt với nhiều khó_khăn .


4.2.2. Thông tin từ loại

Một trong những thành phần quan trọng trong hệ dịch thống kê là mô hình ngôn ngữ. Mô hình này có vai trò xác định câu dịch tự nhiên trong ngôn ngữ đích. Mô hình ngôn ngữ sử dụng phương pháp thống kê n-gram, sử dụng xác suất để dự đoán từ tiếp theo trong chuỗi từ cho trước và không quan tâm đến yếu tố ngôn ngữ.

Mặc khác, mô hình dịch Factored SMT cho phép tích hợp thông tin khác trong mô hình ngôn ngữ được gọi là Factored language model (FLM). Một ưu điểm của FLM là có thể ước lượng xác suất của chuỗi từ chưa gặp trước đó.


Để khảo sát ảnh hưởng của thông tin từ loại tiếng Việt, chúng tôi gán nhãn từ loại cho ngữ liệu đơn ngữ. Ngữ liệu này sẽ được thống kê để tạo thành mô hình ngôn ngữ.

Xét ví dụ ở phần trên, câu tiếng Việt sẽ được gán nhãn như sau:

* Conservation efforts to save the saola have faced numerous difficulties .

+ Những|Nq nỗ_lực|Nn bảo_tồn|Vv để|Cm cứu|Vv Sao_la|Nn đã|R phải|Vv đối_mặt|Vv với|Cp nhiều|Aa khó_khăn|Nn .|PU

Khi đưa cặp câu này làm đầu vào cho hệ dịch Factored SMT, hệ thống sẽ học mô hình dịch từ từ tiếng Anh sang từ tiếng Việt cùng với nhãn từ loại của tiếng Việt. Ngoài ra, hệ thống sẽ học hai mô hình ngôn ngữ: mô hình ngôn ngữ thống kê chuỗi từ và mô hình ngôn ngữ thống kê chuỗi từ loại.


-0.4073871 đối_mặt với nhiều


-0.1396443 đối_mặt với

Hình 4.2. Mô hình ngôn ngữ từ vựng


-0.2439401 Vv Cp Aa


-0.5738485 Vv Cp Nn

Hình 4.3. Mô hình ngôn ngữ từ loại

Trong mô hình thứ hai, hệ thống học xác suất để dự đoán nhãn từ loại tiếp theo với chuỗi nhãn cho trước. Với các tham số này, hệ dịch có thể ước lượng cho các chuỗi từ mới chưa gặp trong ngữ liệu.

4.3. Thêm thông tin hình thái từ cho tiếng Anh và tiếng Việt

Trong mô hình này, chúng tôi đưa thông tin từ loại cho cả hai phía tiếng Anh và tiếng Việt và đưa vào hệ dịch Factored SMT.


Tiếng Anh

Tiếng Việt


Từ loại

Từ Từ

Từ loại


Hình 4.4. Mô hình factored SMT tích hợp từ loại

Trong quá trình huấn luyện, hệ thống học mô hình dịch từ sang từ (word-word), sau đó học mô hình dịch từ loại sang từ loại (POS-POS). Sau đó là quá trình kiểm tra chuỗi nhãn từ loại ở phía kết quả.

Như vậy, ngoài xác suất dịch chuỗi từ 𝑝 𝑒𝑤𝑜𝑟𝑑𝑣𝑤𝑜𝑟𝑑, hệ thống còn học xác suất dịch chuỗi từ loại 𝑝 𝑒𝑃𝑂𝑆𝑣𝑃𝑂𝑆. Thông qua các tham số này, hệ dịch học được các luật cú pháp đơn giản trong dịch Anh – Việt.


CHƯƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ


5.1. Ngữ liệu

Ngữ liệu được sử dụng để huấn luyện và kiểm chứng trong hệ thống của chúng tôi là ngữ liệu song ngữ Anh-Việt của nhóm VCL (Vietnamese Computation Linguistic). Ngữ liệu này thuộc nhiều chủ đề, bao gồm hơn 20.000 cặp câu và đã được chỉnh sửa bằng tay theo một số tiêu chuẩn sau:

- Đồng bộ về mặt nội dung.

- Đồng bộ về mặt hình thức (dấu câu, số liệu, tên riêng…).

- Kiểm lỗi chính tả.

- Giữ lại các dấu kí hiệu trong từ viết tắt.

- Loại bỏ câu trùng.

- Loại bỏ câu ngắn dưới 10 từ.

Bảng sau mô tả các thông tin chi tiết về ngữ liệu.

Bảng 5.1 Thông tin về ngữ liệu




Số cặp câu Số token

Chiều dài câu trung

Số token



bình

phân biệt

Tiếng Anh


542.328

23,58461

50.281

Tiếng Việt


745.449

32,41787

24.953

Tổng cộng

22.996

1.287.777

28,00124


Có thể bạn quan tâm!

Xem toàn bộ 104 trang tài liệu này.

Tích hợp thông tin hình thái từ vào hệ dịch máy thống kê Anh-Việt - 7

Để đánh giá các mô hình, chúng tôi chia ngẫu nhiên ngữ liệu thành 10 phần, 9 phần dùng để huấn luyện hệ dịch, 0,5 phần dùng để điều chỉnh tham số và 0,5 dùng để kiểm chứng.


5.2. Các công cụ

Để huấn luyện các hệ dịch, chúng tôi sử dụng công cụ Moses [21] huấn luyện mô hình dịch thống kê dựa trên ngữ, dùng GIZA++ để huấn luyện cho mô hình gióng hàng từ và SRILM [4] để tạo mô hình ngôn ngữ.

Để phân tích hình thái (phụ tố) từ tiếng Anh, chúng tôi sử dụng công cụ Morph.

Và sử dụng công cụ SVMTool [13] để gán nhãn từ loại tiếng Anh (độ chính xác

~97%). Công cụ này dựa trên mô hình SVM (support vector machines) và được huấn luyện trên tập ngữ liệu Wall Street Journal.

5.3. Thí nghiệm

Để so sánh hiệu quả của các mô hình, chúng tôi thực thi hệ dịch thống kê dựa trên ngữ làm cơ sở.

Kết quả thực nghiệm của các mô hình tích hợp thông tin hình thái từ vào hệ dịch như sau:

5.3.1. Tích hợp thông tin hình thái từ trong câu tiếng Anh


5.3.1.1. Thêm thông tin hình thái từ

Trong phần thí nghiệm, luận văn khảo sát thông tin hình thái từ của tiếng Anh bao gồm: từ loại, nguyên mẫu và phụ tố. Bảng 5.2 mô tả kết quả dịch của hệ Anh – Việt khi thêm các thông tin này vào câu nguồn.


BLEU

NIST

TER

Hệ cơ sở

43,31

9,8269

37,914

Thêm từ loại

42,68

9,7634

38,335

Tách thành nguyên mẫu 41,72

9,5169

39,754

Tách thành nguyên mẫu 42,48

9,6482

38,855

Bảng 5.2. Kết quả dịch khi tích hợp thông tin hình thái từ vào câu nguồn


và phụ tố


và phụ tố + Thêm từ loại

..... Xem trang tiếp theo?
⇦ Trang trước - Trang tiếp theo ⇨

Ngày đăng: 13/06/2023