Tích hợp thông tin hình thái từ vào hệ dịch máy thống kê Anh-Việt - 1



ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN


NGUYỄN THỊ NGỌC MAI


TÍCH HỢP THÔNG TIN HÌNH THÁI TỪ VÀO HỆ DỊCH MÁY THỐNG KÊ ANH - VIỆT


LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH

Có thể bạn quan tâm!

Xem toàn bộ 104 trang tài liệu này.


Thành phố Hồ Chí Minh - 2010

Tích hợp thông tin hình thái từ vào hệ dịch máy thống kê Anh-Việt - 1


MỤC LỤC

MỤC LỤC 1

DANH SÁCH CÁC BẢNG 4

DANH SÁCH CÁC HÌNH 5

CHƯƠNG 1: GIỚI THIỆU 6

1.1. Đặt vấn đề 6

1.2. Hướng tiếp cận của đề tài 8

1.3. Nội dung của luận văn 9

CHƯƠNG 2: TỔNG QUAN 11

2.1. Dịch máy thống kê 11

2.1.1. Dịch máy thống kê dựa trên từ 11

2.1.2. Mô hình dịch máy thống kê dựa trên ngữ 19

2.1.3. Mô hình dịch thống kê factored (Factored SMT) 26

2.1.4. Mô hình dịch máy thống kê dựa trên cú pháp 29

2.2. Các tiêu chuẩn đánh giá chất lượng dịch 31

2.2.1. BLEU (Bilingual Evaluation Understudy) 32

2.2.2. NIST 32

2.2.3. TER (Translation Error Rate) 32

CHƯƠNG 3: 33

CÁC HƯỚNG TÍCH HỢP TRI THỨC NGÔN NGỮ VÀO DỊCH MÁY THỐNG KÊ 33

3.1. Sử dụng tri thức ngôn ngữ để tiền xử lý 33

3.1.1. Dùng thông tin cú pháp 34

3.1.2. Sử dụng thông tin từ loại 36

3.1.3. Sử dụng luật biến đổi hình thái từ 37

3.2. Tích hợp tri thức vào hệ thống dịch máy 39

3.2.1. Tích hợp thông tin hình thái vào mô hình dịch 39

3.2.2. Tích hợp thông tin cú pháp vào mô hình dịch 40

3.2.3. Tích hợp vào mô hình ngôn ngữ 41

CHƯƠNG 4: MÔ HÌNH CỦA ĐỀ TÀI 42

4.1. Tích hợp thông tin hình thái từ tiếng Anh 43

4.1.1. Thông tin từ loại 43

4.1.2. Thông tin biến cách của từ 44

4.1.3. Sử dụng luật chuyển đổi trật tự 45

4.2. Thêm thông tin hình thái từ tiếng Việt 50

4.2.1. Thông tin ranh giới từ 50

4.2.2. Thông tin từ loại 51

4.3. Thêm thông tin hình thái từ cho tiếng Anh và tiếng Việt 52

CHƯƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ 54

5.1. Ngữ liệu 54

5.2. Các công cụ 55

5.3. Thí nghiệm 55

5.3.1. Tích hợp thông tin hình thái từ trong câu tiếng Anh 55

4.4. Tóm tắt kết quả thí nghiệm 74

CHƯƠNG 6: KẾT LUẬN 76

TÀI LIỆU THAM KHẢO 78

PHỤ LỤC 82

A. Đối chiếu hình thái từ Anh – Việt (biến cách) 82

B. Kết quả dịch của một số mô hình 82


DANH SÁCH CÁC BẢNG

Bảng 2.1. Bảng biểu diễn gióng hàng từ dạng bảng 15

Bảng 5.1 Thông tin về ngữ liệu 59

Bảng 5.2. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Anh

...................................................................................................................................60

Bảng 5.3. Kết quả dịch của các hệ chuyển đổi trật tự từ 63

Bảng 5.4. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Việt

...................................................................................................................................64

Bảng 5.5. Số liên kết gióng hàng từ trong các mô hình 65

Bảng 5.6 Kết quả dịch của hệ dịch tích hợp từ loại tiếng Việt 68

Bảng 5.7. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Anh và tiếng Việt 71


DANH SÁCH CÁC HÌNH

Hình 2.1. Mô hình dịch máy thống kê 12

Hình 2.2. Biểu diễn gióng hàng từ dạng liên kết 14

Hình 2.3. Hình minh hoạ quá trình cải tiến gióng hàng từ 19

Hình 2.4. Ví dụ về dịch thống kê dựa trên ngữ 20

Hình 2.5. Mô hình dịch factored SMT 27

Hình 4.1. Mô hình chung của luận văn 43

Hình 4.2. Mô hình ngôn ngữ từ vựng 49

Hình 4.3. Mô hình ngôn ngữ từ loại 49

Hình 4.4. Mô hình factored SMT tích hợp từ loại 50

Hình 4.5. Mô hình factored SMT tích hợp nguyên mẫu và từ loại 51

Hình 4.5. Mô hình factored SMT tích hợp các thông tin hình thái từ 51

CHƯƠNG 1: GIỚI THIỆU


1.1. Đặt vấn đề

Dịch máy hay còn gọi là dịch tự động đã và đang được con người quan tâm hiện nay. Các nhà nghiên cứu đưa tri thức nhằm khai thác sức mạnh xử lý tính toán của máy tính và tạo ra ứng dụng phục vụ con người trong thời đại công nghệ thông tin phát triển. Khi việc giao tiếp và việc nắm bắt thông tin nhanh chóng sẽ tạo nên nhiều cơ hội cho con người đi đến thành công, chương trình dịch tự động sẽ là công cụ giúp họ vượt qua rào cản ngôn ngữ, giúp họ chuyển đổi ngôn ngữ nhanh và tiết kiệm công sức. Dịch máy là một lĩnh vực rất thú vị, thu hút sự quan tâm của rất nhiều nhóm nghiên cứu trên thế giới. Tuy nhiên, bản thân từng ngôn ngữ đã rất phức tạp, thường hay có nhập nhằng. Mặc khác, giữa các ngôn ngữ luôn có sự khác biệt, từ từ vựng đến các cấu trúc để tạo thành câu. Việc xây dựng một hệ dịch máy có khả năng hiểu ngữ cảnh, khử nhập nhằng và dịch được gần với con người vẫn đang là một thách thức lớn.

Đối với tiếng Việt, hiện nay có rất nhiều nhóm đầu tư vào các hệ dịch theo nhiều hướng tiếp cận khác nhau:

- Nhóm nghiên cứu của PGS. TS. Đinh Điền (Đại học Khoa học Tự nhiên- Đại học Quốc gia Thành phố Hồ Chí Minh): Dự án nghiên cứu của nhóm dựa trên việc học luật chuyển đổi từ ngữ liệu song ngữ.

- Nhóm nghiên cứu của PGS. TS. Phan Thị Tươi (Đại học Bách Khoa Thành phố Hồ Chí Minh): Nhóm sử dụng phương pháp phân tích cú pháp có xác suất để dịch văn bản Anh-Việt và Việt-Anh.

- Nhóm nghiên cứu của TS. Lê Khánh Hùng Softex (Phòng Công nghệ Phần Mềm - Viện Ứng dụng công nghệ - Bộ Khoa học và Công nghệ Việt Nam): hệ dịch đã được đưa vào sử dụng trong thực tế và thương mại hoá sản phẩm (http://vdict.com). EVTRAN là một hệ dịch máy hoàn toàn dựa vào luật, sử


dụng các luật được xây dựng bằng tay để dịch văn bản từ Anh sang Việt. Từ năm 2006, bản EVTRAN 3.0 (được gọi là Ev-Shuttle) có thể dịch được văn bản hai chiều Anh-Việt và Việt-Anh. Do hệ dịch dựa trên luật nên kết quả của hệ dịch phụ thuộc nhiều vào câu đầu vào có phù hợp với các luật đã được thiết lập hay không.

- Nhóm dự án ERIM của Đại học Bách Khoa Đà Nẵng kết hợp với GETA – ĐHBK Grenoble, thử nghiệm dịch Anh-Việt, Pháp-Việt của Đoàn Nguyên Hải (http://www.latl.unige.ch/vietnamese/) tại LATL.

- Google Transle (www.translate.google.com): Hỗ trợ hơn 50 ngôn ngữ bao gồm cả tiếng Việt. Sử dụng phương pháp dịch máy thống kê dựa trên kho ngữ liệu song ngữ. Tốc độ dịch nhanh và có tính năng tương tác với người dùng nhằm tăng chất lượng dịch cho các lần sau.

- Dịch máy trên Xalo.vn (www.dich.xalo.vn): đưa ra dịch vụ dịch trực tuyến một chiều từ Anh sang Việt, do công ty Cổ phần Công nghệ Tinh Vân tự phát triển, hỗ trợ dịch theo từng lĩnh vực, đồng thời cho phép người dùng chỉnh sửa, góp ý về nội dung dịch nhằm nâng cao chất lượng dịch.

- Lạc Việt (công ty từng phát triển và đưa ra bộ từ điển Lạc Việt www.vietgle.vn/tratu/dich-tu-dong): chỉ hỗ trợ dịch từ Anh sang Việt có thêm phần dịch chuyên ngành (tin học, toán học, y học và kế toán) và hỗ trợ dịch tốt hơn bởi người dùng.

Do xây dựng trên các mô hình khác nhau, các hệ thống cho ra chất lượng dịch khác nhau, tuỳ thuộc vào dạng câu đầu vào.

Các hệ thống dựa trên luật do sử dụng tri thức ngôn ngữ như thông tin cú pháp, ngữ nghĩa nên dịch khá hiệu quả. Tuy nhiên, máy tính khó có thể phân tích cú pháp chính xác cho những câu có ngữ nghĩa phức tạp. Mặc khác, việc xây dựng tập luật cú pháp và luật chuyển đổi có thể bao quát được mọi trường hợp rất khó khăn, đòi hỏi người thực hiện phải có kiến thức sâu về ngôn ngữ.

Ngược lại, hệ dịch máy thống kê (Statistical Machine Translation – SMT) lại hoàn toàn dựa trên các kết quả thống kê từ kho ngữ liệu song ngữ. Kết quả trung gian của

Xem toàn bộ nội dung bài viết ᛨ

..... Xem trang tiếp theo?
⇦ Trang trước - Trang tiếp theo ⇨

Ngày đăng: 13/06/2023