Mô hình văn phạm liên kết tiếng Việt - 37

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

NGUYỄN THỊ THU HƯƠNG

MÔ HÌNH

VĂN PHẠM LIÊN KẾT TIẾNG VIỆT

Chuyên ngành: Khoa học máy tính

Mã số: 62.48.01.01

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

Người hướng dẫn khoa học:

GS. TS. NGUYỄN THÚC HẢI

Có thể bạn quan tâm!

Xem toàn bộ 305 trang tài liệu này.

GS.TS. NGUYỄN THANH THỦY

Hà Nội – Năm 2013

 

LỜI CẢM ƠN

Trước khi trình bày nội dung nghiên cứu của luận án, tôi xin bày tỏ sự biết ơn chân thành đến hai thầy hướng dẫn, GS.TS. Nguyễn Thúc Hải, GS.TS. Nguyễn Thanh Thủy, những người thầy kính mến đã không chỉ tận tình hướng dẫn giúp đỡ mà còn động viên tôi rất nhiều để tôi hoàn thành luận án này.

Xin chân thành cảm ơn các đồng nghiệp tại Bộ môn Khoa học Máy tính và Viện Công nghệ thông tin và Truyền thông, Đại học Bách khoa Hà Nội, đã hỗ trợ và chia sẻ cùng tôi trong công việc, giúp đỡ tôi rất nhiều trong những lúc khó khăn.

Tôi xin chân thành cảm ơn PGS.TS. Lương Chi Mai, PGS.TS. Lê Thanh Hương, PGS. TS. Nguyễn Thị Kim Anh, PGS. TS. Đặng Văn Chuyết, TS Nguyễn Văn Vinh, TS Nguyễn Thị Minh Huyền đã giúp đỡ và đóng góp rât nhiều ý kiến quý báu cho luận án.

Tôi xin chân thành cảm ơn các nhà ngôn ngữ học: PGS.TS Phạm Văn Tình, PGS.TS Nguyễn Chí Hòa, Vũ Xuân Lương, Đào Văn Hùng đã hỗ trợ tôi rất nhiệt tình khi tìm hiểu các đặc trưng của tiếng Việt.

Xin chân thành cảm ơn các cựu sinh viên Lê Văn Chương, Phạm Nguyễn Quang Anh, Luyện Thanh Đạt, Lê Ngọc Minh đã giúp đỡ tôi trong quá trình thử nghiệm mô hình liên kết. Xin chân thành cảm ơn nhóm nghiên cứu VLSP, đặc biệt là GS.TS Hồ Tú Bảo và TS.

Nguyễn Phương Thái đã cung cấp bộ ngữ liệu tiếng Việt để tôi thực hiện các thử nghiệm.

Xin bày tỏ lòng biết ơn sâu sắc đến chồng và các con yêu dấu cùng mọi người trong gia đình đã là nguồn động viên về tinh thần rất quan trọng để tôi hoàn thành công trình của mình.

Hà Nội ngày 20 tháng 3 năm 2012

Tác giả luận án

 

Nguyễn Thị Thu Hương

 

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả trong luận án là trung thực và chưa từng được công bố trong bất kỳ công trình nào khác.

Tác giả luận án

 

Nguyễn Thị Thu Hương

  MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT 4 DANH MỤC CÁC HÌNH VẼ 5 1

 

MỤC LỤC

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ……………………………………………….4

DANH MỤC CÁC HÌNH VẼ ………………………………………………………………………………5

DANH MỤC BẢNG BIỂU ………………………………………………………………………………….8

DANH MỤC CÁC KẾT NỐI QUAN TRỌNG ………………………………………………………9

MỞ ĐẦU ………………………………………………………………………………………………………… 11

CHƯƠNG 1 TỔNG QUAN VỀ CÁC MÔ HÌNH VĂN PHẠM CHO NGÔN NGỮ TỰ NHIÊN …………………………………………………………………………………………….. 20

1.1. Cách tiếp cận cấu trúc và văn phạm phi ngữ cảnh ………………………………… 20

1.1.1. Văn phạm phi ngữ cảnh biểu diễn ngôn ngữ tự nhiên …………………………. 20

1.1.2. Văn phạm phi ngữ cảnh xác suất ………………………………………………. 23

1.1.3.Văn phạm phi ngữ cảnh xác suất từ vựng hóa ………………………………. 26

1.1.4. Văn phạm kết nối cây ……………………………………………………………… 27

1.2. Tiếp cận qua cấu trúc nét và văn phạm hợp nhất ………………………………….. 28

1.3. Cách tiếp cận phụ thuộc …………………………………………………………………… 29

1.3.1. Một số khái niệm ……………………………………………………………………. 29

1.3.2.Tính chất của cây phụ thuộc ……………………………………………………… 32

1.4. Văn phạm liên kết …………………………………………………………………………… 34

1.4.1. Khái niệm văn phạm liên kết ……………………………………………………. 34

1.4.2. Các định nghĩa hình thức về văn phạm liên kết ……………………………. 38

1.5. Kết luận ………………………………………………………………………………………… 40

CHƯƠNG 2 MÔ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT……………………….. 43

2.1.Văn phạm liên kết cho tiếng Việt ……………………………………………………….. 43

2.1.1. Cấu trúc từ điển liên kết ………………………………………………………….. 43

2.1.2. Xây dựng liên kết cho danh từ ………………………………………………….. 47

2.1.3. Các liên kết cho động từ ………………………………………………………….. 55

2.1.4. Các liên kết cho tính từ ……………………………………………………………. 60

2.1.5. Liên kết các mệnh đề trong câu ghép đơn giản ……………………………. 61

2.2. Mở rộng từ điển văn phạm liên kết ……………………………………………………. 64

2.2.1. Giải thuật mở rộng từ điển ……………………………………………………….. 66

2.2.2. Ứng dụng giải thuật mở rộng từ điển tiếng Việt …………………………… 67

2.2. Kết luận ……………………………………………………………………………………… 68

CHƯƠNG 3 PHÂN TÍCH CÚ PHÁP TRÊN VĂN PHẠM LIÊN KẾT ………………. 70

3.1. Bộ phân tích cú pháp liên kết …………………………………………………………… 70

3.1.1. Giải thuật phân tích cú pháp …………………………………………………….. 70

3.1.2. Lược tỉa ………………………………………………………………………………… 72

3.1.3. Kết quả thử nghiệm phân tích câu đơn và câu ghép đơn giản …………. 74

3.2. Phân tích cú pháp cho câu ghép ………………………………………………………… 77

3.2.1. Xây dựng cây diễn ngôn ………………………………………………………….. 81

3.2.2. Giải thuật phân tích cú pháp câu ghép ……………………………………….. 90

3.2.3. Tìm từ để kết nối mệnh đề ……………………………………………………….. 91

3.2.4. Kết quả thử nghiệm phân tích câu ghép ……………………………………… 93

3.2.5. Độ phức tạp tính toán ……………………………………………………………… 96

3.3.Khử nhập nhằng ………………………………………………………………………………. 96

3.3.1. Khử nhập nhằng thành phần …………………………………………………….. 97

3.3.2. Khử nhập nhằng liên hợp ………………………………………………………. 103

3.4. Kết luận ………………………………………………………………………………………. 107

CHƯƠNG 4 HỆ THỐNG DỊCH MÁY SỬ DỤNG DẠNG TUYỂN CÓ CHÚ GIẢI

 ……………………………………………………………………………………………….. 109

4.1. Tổng quan về dịch máy ………………………………………………………………….. 109

4.1.1.Tình hình phát triển dịch máy ở Việt Nam …………………………………. 109

4.1.2. Phương pháp đánh giá chất lượng dịch máy ……………………………… 111

4.2. Khác biệt ngôn ngữ Việt – Anh ……………………………………………………….. 112

4.2.1. Khác biệt hình thái ……………………………………………………………….. 112

4.2.2. Khác biệt về trật tự từ ……………………………………………………………. 115

4.3. Hệ thống dịch máy sử dụng dạng tuyển có chú giải …………………………. 116

4.3.1.Tìm nghĩa từ trong từ điển ADJ ……………………………………………….. 118

4.3.2.Xây dựng bộ luật dịch ……………………………………………………………. 119

4.3.3.Hoàn thiện câu dịch ……………………………………………………………….. 125

4.3.4.Kết quả thử nghiệm với bộ dịch dựa trên dạng tuyển có chú giải …… 126

4.4. Kết luận ……………………………………………………………………………………… 130

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN …………………………………………………………. 133

Tóm tắt ……………………………………………………………………………………………… 133

Các đóng góp chính của luận án…………………………………………………………….. 133

Về mặt khoa học …………………………………………………………………………… 133

Về mặt thực tiễn ……………………………………………………………………………. 134

Hạn chế và hướng phát triển …………………………………………………………………. 135

CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ ……………………………………………………………….. 136

TÀI LIỆU THAM KHẢO ………………………………………………………………………………. 137

TIẾNG VIỆT ……………………………………………………………………………………… 137

TIẾNG ANH ……………………………………………………………………………………… 139

TIẾNG NGA ……………………………………………………………………………………… 147

CÁC WEBSITE …………………………………………………………………………………. 147

PHỤ LỤC 1: CHI TIẾT CÁC CÔNG THỨC CHỦ YẾU TRONG LIÊN KẾT TIẾNG VIỆT …………………………………………………………………………………………………………….. 148

PHỤ LỤC 2: KẾT QUẢ PHÂN TÍCH LIÊN KẾT CỦA MỘT SỐ CÂU ĐƠN VÀ CÂU GHÉP HAI MỆNH ĐỀ …………………………………………………………………………… 166

PHỤ LỤC 3: MỘT SỐ LUẬT DỊCH ĐIỂN HÌNH ……………………………………………. 174

1. Luật xác định thuộc tính …………………………………………………………………… 174

2. Luật dịch cụm từ ……………………………………………………………………………… 175

3. Luật chuyển đổi cấu trúc …………………………………………………………………… 178

PHỤ LỤC 4: SO SÁNH KẾT QUẢ DỊCH MỘT SỐ MẪU CÂU ………………………… 179

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

HMM Hidden Markov Model: Mô hình Markov ẩn

BNF Backus Naur Form: Công thức siêu ngữ Backus

ADJ Annotated Disjunct: Dạng tuyển có chú giải

RST Rhetorical Structure Tree: Cây cấu trúc diễn ngôn

CCR Chunks/Constituents/Relation

SVO Subject-Verb-Object: Trật tự câu theo kiểu chủ ngữ- động từ- bổ ngữ

SVM Support Vector Machine: Máy vectơ hỗ trợ

CRF Conditional Random Fields: Trường ngẫu nhiên có điều kiện

EDU Elementary Discourse Unit: Đơn vị diễn ngôn nguyên tố

HPSG Head driven Phrase Structure Grammar: Văn phạm cấu trúc đoạn hướng trung tâm

EBNF Extended Backus Naur Form: Công thức siêu ngữ Backus mở rộng

DANH MỤC CÁC HÌNH VẼ

Hình 1.1. Cây ngữ cấu của câu “Tôi thích chân gà”. ……………………………………… 21

Hình 1.2. Hai cây ngữ cấu của câu “Họ sẽ không chuyển hàng xuống thuyền vào

ngày mai”. ………………………………………………………………………………………………. 22

Hình 1.3. Văn phạm phi ngữ cảnh xác suất và cây ngữ cấu của câu “Last week IBM

bought Lotus” ………………………………………………………………………………………….. 27

Hình 1.4. Phân tích câu “John loves a woman” trong một mô hình văn phạm phụ

thuộc ………………………………………………………………………………………………………. 31

Hình 1.5. Đồ thị phụ thuộc của câu “Economic news had little effect on financial

market” ………………………………………………………………………………………………….. 32

Hình 1.6. Câu đúng ngữ pháp “Tại sao cậu không tới” …………………………………… 35

Hình 1.7. Kết nối lớn của từ “và” ………………………………………………………………. 37

Hình1.8. Chu trình trong phân tích câu ………………………………………………………… 38

Hình 1.9. Nút liên kết ……………………………………………………………………………….. 39

Hình 2.1. Cấu trúc danh ngữ với đầy đủ các thành tố …………………………………….. 48

Hình 2.2. Liên kết trong cụm từ “những cái bàn” ………………………………………….. 51

Hình 2.4. Liên kết trong cụm từ “cái bàn bằng gỗ” ……………………………………….. 53

Hình 2.3. Liên kết trong cụm từ “cái giường lò xo”. ……………………………………… 53

Hình 2.5. Liên kết trong cụm từ “cái bàn của tôi” …………………………………………. 54

Hình 2.6. Hai cách liên kết cho cụm từ “cái bàn bằng gỗ của tôi” ……………………. 54

Hình 2.7. Các liên kết xoay quanh danh từ trung tâm “ghế” …………………………… 55

Hình 2.8. Thành tố phụ đi trước mọi động từ ……………………………………………….. 56

Hình 2.9. Liên kết trong cụm từ “vẫn đang làm” ………………………………………….. 57

Hình 2.10. Liên kết trong cụm từ “không hay đọc sách này” ………………………….. 57

Hình 2.11. Liên kết trong cụm từ “đang rất sợ” ……………………………………………. 59

Hình 2.12. Liên kết trong cụm từ “ sâu hai ngàn mét”……………………………………. 61

Hình 2.13. Liên kết câu ghép hai mệnh đề với liên từ ở giữa …………………………… 62

Hình 2.14. Liên kết của câu ghép hai mệnh đề với liên từ ở đầu và dấu phảy …….. 63

Hình 2.15. Liên kết trong câu ghép với liên từ có mặt trong cả hai mệnh đề ………. 63

Hình 2.16. Một đoạn trong từ điển văn phạm liên kết …………………………………….. 64

Hình 2.17. Ánh xạ trực cảm ………………………………………………………………………. 67

Hình 2.18. Quy trình xây dựng từ điển văn phạm liên kết tiếng Việt ………………… 69

Hình 3.1. Giải thuật phân tích ……………………………………………………………………. 70

Hình 3.2. Lời giải cục bộ …………………………………………………………………………… 70

Hình 3.3. Giải thuật phân tích cú pháp liên kết ……………………………………………… 71

Hình 3.4.Hàm COUNT cho số phân tích của câu. ………………………………………… 71

Hình 3.5. Cây cho công thức (NN- &{NN+}) or ({PqNt-} & {NN+}) ……………… 73

Hình 3.6. Số lượng dạng tuyển sau lược tỉa và lược tỉa mạnh ………………………….. 74

Hình 3.7. Kêt quả phân tích liên kết của câu “Chúng tôi muốn giành các danh

hiệu” ……………………………………………………………………………………………………… 75

Hình 3.8. Kêt quả phân tích liên kết của câu “Mỗi một mùa trắng tay đều khó nuốt

trôi” ……………………………………………………………………………………………………….. 75

Hình 3.9. Kết quả phân tích liên kết của câu “Phần lớn bọ ngựa ăn côn trùng” … 76

Hình 3.10. Cây phân tích diễn ngôn của câu “[trời mưa rất to vàA1] [gió rất mạnh

nênB1] [tôi phải nghỉ học,C1] [mẹ tôi phải nghỉ làm.D1]” ………………………………….. 80

Hình 3.11. Giải thuật phân đoạn diễn ngôn (có khử nhập nhằng) …………………….. 85

Hình 3.12. Hàm isClause …………………………………………………………………………… 87

Hình 3.13. Các dạng cây cấu trúc diễn ngôn …………………………………………………. 89

Hình 3.14. Giải thuật phân tích cú pháp cho câu ghép ……………………………………. 90

Hình 3.15. Hàm Insert_Link_From_RST_Tree ……………………………………………… 91

Hình 3.16. Minh họa cách lưu trữ phân tích liên kết của câu “Tôi mua một bông

hoa” ……………………………………………………………………………………………………….. 92

Hình 3.17. Phân tích câu “Tôi mua một bông hoa” ………………………………………… 92

Hình 3.18. Phân tích cụm từ “một cái bút rất tốt”………………………………………….. 93

Hình 3.19. Kết quả phân tích câu “Trời mưa rất to và gió rất mạnh nên tôi phải

nghỉ học, mẹ tôi phải nghỉ làm” ………………………………………………………………….. 94

Hình 3.20. Hai phân tích của câu “Tôi mua một bông hoa” ……………………………. 98

Hình 3.21. Giải thuật kiểu Viterbi để dự đoán phân tích có xác suất cao nhất …….. 99

Hình 3.22. Mô tả cách tính xác suất PrO ⊲ left(L, W, l ⊳, ⊲ leftd) ………………… 101

Hình 3.23. Minh họa mối liên kết để tính O………………………………………. 102

Hình 3.24. Phân tích câu “Tôi thích bánh và kẹo, anh thích rượu và bia” ……….. 105

Hình 3.25. Một phân tích với kết nối F cho từ “và” ……………………………………… 106

Hình 3.26. Kết nối G nối nhiều dấu phảy và từ “và”…………………………………….. 107

Hình 4.1.Sắp xếp lại trật tự từ ………………………………………………………………….. 115

Hình 4.2. Kiến trúc của hệ dịch dựa trên dạng tuyển có chú giải ……………………. 118

Hình 4.3. Thay đổi trật tự từ cho bản dịch câu “Cô gái nhỏ rất xinh” ……………… 122

Hình 4.4. Quá trình dịch câu “Báo săn là loại động vật nhanh nhất thế giới” …… 128

Hình 4.5. So sánh điểm BLEU của các hệ thống ………………………………………. 129

DANH MỤC BẢNG BIỂU

Bảng 1.1. Ví dụ của một từ điển …………………………………………………………………. 34

Bảng 2.1.Các loại từ tiếng Việt …………………………………………………………………… 45

Bảng 2.2. Các tiểu loại từ tiếng Việt ……………………………………………………………. 45

Bảng 3.1. Chi tiết bộ ngữ liệu mẫu cho bộ phân tích cú pháp liên kết ……………….. 76

Bảng 3.2. Kết quả phân tích liên kết cho các tập mẫu …………………………………….. 76

Bảng 3.3. Kết quả thử nghiệm bộ phân tích diễn ngôn (chưa kết hợp phân tích cú

pháp) ……………………………………………………………………………………………………… 79

Bảng 3.4. Các biểu thức chính quy biểu diễn một số dấu hiệu diễn ngôn tiềm tàng81

Bảng 3.5. Hành động ứng với một số dấu hiệu diễn ngôn ……………………………….. 82

Bảng 3.6. Chi tiết tập mẫu câu ghép ……………………………………………………………. 94

Bảng 3.7. Kết quả phân tích các tập mẫu câu ghép ………………………………………… 95

Bảng 4.1. Những khác biệt quan trọng về hình thái giữa tiếng Việt và tiếng Anh 113

Bảng 4.2. Đại từ xưng hô tiếng Anh ………………………………………………………….. 114

Bảng 4.3. Đại từ xưng hô tiếng Việt ………………………………………………………….. 114

Bảng 4.4. So sánh kết quả các hệ thống dịch ………………………………………………. 129

DANH MỤC CÁC KẾT NỐI QUAN TRỌNG

CLI Kết nối chỉ chất liệu (ẩn giới từ).

DI Kết nối động từ “đi” với động từ khác.

DpN Kết nối định từ chỉ số nhiều với danh từ.

DpNt Kết nối định từ chỉ số nhiều với danh từ cụ thể.

DsN Kết nối định từ chỉ số ít với danh từ.

DT_LA Kết nối danh từ, đại từ xưng hô với động từ quan hệ “là”.

ĐT_XONG Kết nối một động từ và động từ “xong”.

EoPp Kết nối giới từ “của” với đại từ xưng hô.

EpNt Kết nối giới từ chỉ vị trí và danh từ cụ thể.

EsNt Kết nối danh từ cụ thể và giới từ phạm vi.

LA_DT Kết nối động từ “là” với danh từ.

McNu Kết nối số từ và danh từ chỉ đơn vị.

NcNt1 Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ người.

NcNt2 Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ động vật.

NcNt3 Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ thực vât.

NcNt4 Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ đồ dùng, vật dụng.

NcNt5 Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ hiện tượng.

NcNt6 Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ khái niệm.

NEo Kết nối danh từ và giới từ chỉ sở hữu.

NN Kết nối danh từ và danh từ, có thể thể hiện quan hệ về nội dung, địa điểm…

NtEm Kết nối danh từ cụ thể và giới từ chỉ chất liệu.

NtEs Kết nối giới từ phạm vi và danh từ cụ thể.

NtPd Kết nối danh từ cụ thể với đại từ chỉ định.

NuNt Kết nối danh từ chỉ đơn vị và danh từ cụ thể.

NHAT_DT Kết nối từ “nhất” với danh từ đứng sau.

O Kết nối động từ và bổ ngữ trực tiếp.

RcV Kết nối động từ với phụ từ so sánh.

RfA Kết nối phụ từ thời gian (tương lai) và tính từ.

RfVt Kết nối định từ chỉ thì tương lai và động từ.

RfVt Kết nối động từ với phụ từ thời gian (tương lai).

RhA Kết nối phụ từ thời gian (hiện tại hoàn thành) và tính từ.

RhV Kết nối phụ từ thời gian (hiện tại hoàn thành) và động từ.

RmV Kết nối động từ với phụ từ mệnh lệnh.

RnV Kết nối phủ định từ và động từ.

RnV1 Kết nối động từ với phụ từ phủ định.

RpA Kết nối phụ từ thời gian (quá khứ) và tính từ.

RpV Kết nối động từ với phụ từ thời gian (quá khứ).

RpVt Kết nối định từ chỉ thì quá khứ và động từ.

RtA Kết nối phụ từ thời gian (hiện tại) và tính từ.

RtV Kết nối động từ với phụ từ thời gian (hiện tại).

SA Kết nối danh từ, đại từ xưng hô với tính từ.

SA Kết nối danh từ và tính từ.

SH Kết nối giới từ sở hữu và danh từ chỉ chủ sở hữu.

SHA Kết nối hai danh từ chỉ quan hệ sở hữu ẩn.

SS_NHAT Kết nối tính từ với từ “nhất”.

SV Kết nối danh từ, đại từ xưng hô làm chủ ngữ với động từ.

THS Kết nối các từ để hỏi đứng sau động từ và động từ.

THT Kết nối các từ để hỏi đứng trước động từ và động từ.

VmVt Kết nối động từ tình thái và động từ cụ thể.

VtAp Kết nối ngoại động từ và tính từ chỉ tính chất.

VtEp Kết nối ngoại động từ và giới từ vị trí.

VtVs Kết nối động từ ngoại động và động từ trạng thái.

Xem tất cả 305 trang.

Ngày đăng: 31/10/2021
Trang chủ Tài liệu miễn phí