BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
NGUYỄN THỊ THU HƯƠNG
MÔ HÌNH
VĂN PHẠM LIÊN KẾT TIẾNG VIỆT
Chuyên ngành: Khoa học máy tính
Mã số: 62.48.01.01
LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
Người hướng dẫn khoa học:
GS. TS. NGUYỄN THÚC HẢI
Có thể bạn quan tâm!
- Kết Quả Phân Tích Liên Kết Của Một Số Câu Đơn Và Câu Ghép Hai Mệnh Đề
- Một Số Luật Dịch Điển Hình
- Mô hình văn phạm liên kết tiếng Việt - 36
Xem toàn bộ 305 trang tài liệu này.
GS.TS. NGUYỄN THANH THỦY
Hà Nội – Năm 2013
LỜI CẢM ƠN
Trước khi trình bày nội dung nghiên cứu của luận án, tôi xin bày tỏ sự biết ơn chân thành đến hai thầy hướng dẫn, GS.TS. Nguyễn Thúc Hải, GS.TS. Nguyễn Thanh Thủy, những người thầy kính mến đã không chỉ tận tình hướng dẫn giúp đỡ mà còn động viên tôi rất nhiều để tôi hoàn thành luận án này.
Xin chân thành cảm ơn các đồng nghiệp tại Bộ môn Khoa học Máy tính và Viện Công nghệ thông tin và Truyền thông, Đại học Bách khoa Hà Nội, đã hỗ trợ và chia sẻ cùng tôi trong công việc, giúp đỡ tôi rất nhiều trong những lúc khó khăn.
Tôi xin chân thành cảm ơn PGS.TS. Lương Chi Mai, PGS.TS. Lê Thanh Hương, PGS. TS. Nguyễn Thị Kim Anh, PGS. TS. Đặng Văn Chuyết, TS Nguyễn Văn Vinh, TS Nguyễn Thị Minh Huyền đã giúp đỡ và đóng góp rât nhiều ý kiến quý báu cho luận án.
Tôi xin chân thành cảm ơn các nhà ngôn ngữ học: PGS.TS Phạm Văn Tình, PGS.TS Nguyễn Chí Hòa, Vũ Xuân Lương, Đào Văn Hùng đã hỗ trợ tôi rất nhiệt tình khi tìm hiểu các đặc trưng của tiếng Việt.
Xin chân thành cảm ơn các cựu sinh viên Lê Văn Chương, Phạm Nguyễn Quang Anh, Luyện Thanh Đạt, Lê Ngọc Minh đã giúp đỡ tôi trong quá trình thử nghiệm mô hình liên kết. Xin chân thành cảm ơn nhóm nghiên cứu VLSP, đặc biệt là GS.TS Hồ Tú Bảo và TS.
Nguyễn Phương Thái đã cung cấp bộ ngữ liệu tiếng Việt để tôi thực hiện các thử nghiệm.
Xin bày tỏ lòng biết ơn sâu sắc đến chồng và các con yêu dấu cùng mọi người trong gia đình đã là nguồn động viên về tinh thần rất quan trọng để tôi hoàn thành công trình của mình.
Hà Nội ngày 20 tháng 3 năm 2012
Tác giả luận án
Nguyễn Thị Thu Hương
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả trong luận án là trung thực và chưa từng được công bố trong bất kỳ công trình nào khác.
Tác giả luận án
Nguyễn Thị Thu Hương
MỤC LỤC
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ……………………………………………….4
DANH MỤC CÁC HÌNH VẼ ………………………………………………………………………………5
DANH MỤC BẢNG BIỂU ………………………………………………………………………………….8
DANH MỤC CÁC KẾT NỐI QUAN TRỌNG ………………………………………………………9
MỞ ĐẦU ………………………………………………………………………………………………………… 11
CHƯƠNG 1 TỔNG QUAN VỀ CÁC MÔ HÌNH VĂN PHẠM CHO NGÔN NGỮ TỰ NHIÊN …………………………………………………………………………………………….. 20
1.1. Cách tiếp cận cấu trúc và văn phạm phi ngữ cảnh ………………………………… 20
1.1.1. Văn phạm phi ngữ cảnh biểu diễn ngôn ngữ tự nhiên …………………………. 20
1.1.2. Văn phạm phi ngữ cảnh xác suất ………………………………………………. 23
1.1.3.Văn phạm phi ngữ cảnh xác suất từ vựng hóa ………………………………. 26
1.1.4. Văn phạm kết nối cây ……………………………………………………………… 27
1.2. Tiếp cận qua cấu trúc nét và văn phạm hợp nhất ………………………………….. 28
1.3. Cách tiếp cận phụ thuộc …………………………………………………………………… 29
1.3.1. Một số khái niệm ……………………………………………………………………. 29
1.3.2.Tính chất của cây phụ thuộc ……………………………………………………… 32
1.4. Văn phạm liên kết …………………………………………………………………………… 34
1.4.1. Khái niệm văn phạm liên kết ……………………………………………………. 34
1.4.2. Các định nghĩa hình thức về văn phạm liên kết ……………………………. 38
1.5. Kết luận ………………………………………………………………………………………… 40
CHƯƠNG 2 MÔ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT……………………….. 43
2.1.Văn phạm liên kết cho tiếng Việt ……………………………………………………….. 43
2.1.1. Cấu trúc từ điển liên kết ………………………………………………………….. 43
2.1.2. Xây dựng liên kết cho danh từ ………………………………………………….. 47
2.1.3. Các liên kết cho động từ ………………………………………………………….. 55
2.1.4. Các liên kết cho tính từ ……………………………………………………………. 60
2.1.5. Liên kết các mệnh đề trong câu ghép đơn giản ……………………………. 61
2.2. Mở rộng từ điển văn phạm liên kết ……………………………………………………. 64
2.2.1. Giải thuật mở rộng từ điển ……………………………………………………….. 66
2.2.2. Ứng dụng giải thuật mở rộng từ điển tiếng Việt …………………………… 67
2.2. Kết luận ……………………………………………………………………………………… 68
CHƯƠNG 3 PHÂN TÍCH CÚ PHÁP TRÊN VĂN PHẠM LIÊN KẾT ………………. 70
3.1. Bộ phân tích cú pháp liên kết …………………………………………………………… 70
3.1.1. Giải thuật phân tích cú pháp …………………………………………………….. 70
3.1.2. Lược tỉa ………………………………………………………………………………… 72
3.1.3. Kết quả thử nghiệm phân tích câu đơn và câu ghép đơn giản …………. 74
3.2. Phân tích cú pháp cho câu ghép ………………………………………………………… 77
3.2.1. Xây dựng cây diễn ngôn ………………………………………………………….. 81
3.2.2. Giải thuật phân tích cú pháp câu ghép ……………………………………….. 90
3.2.3. Tìm từ để kết nối mệnh đề ……………………………………………………….. 91
3.2.4. Kết quả thử nghiệm phân tích câu ghép ……………………………………… 93
3.2.5. Độ phức tạp tính toán ……………………………………………………………… 96
3.3.Khử nhập nhằng ………………………………………………………………………………. 96
3.3.1. Khử nhập nhằng thành phần …………………………………………………….. 97
3.3.2. Khử nhập nhằng liên hợp ………………………………………………………. 103
3.4. Kết luận ………………………………………………………………………………………. 107
CHƯƠNG 4 HỆ THỐNG DỊCH MÁY SỬ DỤNG DẠNG TUYỂN CÓ CHÚ GIẢI
……………………………………………………………………………………………….. 109
4.1. Tổng quan về dịch máy ………………………………………………………………….. 109
4.1.1.Tình hình phát triển dịch máy ở Việt Nam …………………………………. 109
4.1.2. Phương pháp đánh giá chất lượng dịch máy ……………………………… 111
4.2. Khác biệt ngôn ngữ Việt – Anh ……………………………………………………….. 112
4.2.1. Khác biệt hình thái ……………………………………………………………….. 112
4.2.2. Khác biệt về trật tự từ ……………………………………………………………. 115
4.3. Hệ thống dịch máy sử dụng dạng tuyển có chú giải …………………………. 116
4.3.1.Tìm nghĩa từ trong từ điển ADJ ……………………………………………….. 118
4.3.2.Xây dựng bộ luật dịch ……………………………………………………………. 119
4.3.3.Hoàn thiện câu dịch ……………………………………………………………….. 125
4.3.4.Kết quả thử nghiệm với bộ dịch dựa trên dạng tuyển có chú giải …… 126
4.4. Kết luận ……………………………………………………………………………………… 130
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN …………………………………………………………. 133
Tóm tắt ……………………………………………………………………………………………… 133
Các đóng góp chính của luận án…………………………………………………………….. 133
Về mặt khoa học …………………………………………………………………………… 133
Về mặt thực tiễn ……………………………………………………………………………. 134
Hạn chế và hướng phát triển …………………………………………………………………. 135
CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ ……………………………………………………………….. 136
TÀI LIỆU THAM KHẢO ………………………………………………………………………………. 137
TIẾNG VIỆT ……………………………………………………………………………………… 137
TIẾNG ANH ……………………………………………………………………………………… 139
TIẾNG NGA ……………………………………………………………………………………… 147
CÁC WEBSITE …………………………………………………………………………………. 147
PHỤ LỤC 1: CHI TIẾT CÁC CÔNG THỨC CHỦ YẾU TRONG LIÊN KẾT TIẾNG VIỆT …………………………………………………………………………………………………………….. 148
PHỤ LỤC 2: KẾT QUẢ PHÂN TÍCH LIÊN KẾT CỦA MỘT SỐ CÂU ĐƠN VÀ CÂU GHÉP HAI MỆNH ĐỀ …………………………………………………………………………… 166
PHỤ LỤC 3: MỘT SỐ LUẬT DỊCH ĐIỂN HÌNH ……………………………………………. 174
1. Luật xác định thuộc tính …………………………………………………………………… 174
2. Luật dịch cụm từ ……………………………………………………………………………… 175
3. Luật chuyển đổi cấu trúc …………………………………………………………………… 178
PHỤ LỤC 4: SO SÁNH KẾT QUẢ DỊCH MỘT SỐ MẪU CÂU ………………………… 179
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
HMM Hidden Markov Model: Mô hình Markov ẩn
BNF Backus Naur Form: Công thức siêu ngữ Backus
ADJ Annotated Disjunct: Dạng tuyển có chú giải
RST Rhetorical Structure Tree: Cây cấu trúc diễn ngôn
CCR Chunks/Constituents/Relation
SVO Subject-Verb-Object: Trật tự câu theo kiểu chủ ngữ- động từ- bổ ngữ
SVM Support Vector Machine: Máy vectơ hỗ trợ
CRF Conditional Random Fields: Trường ngẫu nhiên có điều kiện
EDU Elementary Discourse Unit: Đơn vị diễn ngôn nguyên tố
HPSG Head driven Phrase Structure Grammar: Văn phạm cấu trúc đoạn hướng trung tâm
EBNF Extended Backus Naur Form: Công thức siêu ngữ Backus mở rộng
DANH MỤC CÁC HÌNH VẼ
Hình 1.1. Cây ngữ cấu của câu “Tôi thích chân gà”. ……………………………………… 21
Hình 1.2. Hai cây ngữ cấu của câu “Họ sẽ không chuyển hàng xuống thuyền vào
ngày mai”. ………………………………………………………………………………………………. 22
Hình 1.3. Văn phạm phi ngữ cảnh xác suất và cây ngữ cấu của câu “Last week IBM
bought Lotus” ………………………………………………………………………………………….. 27
Hình 1.4. Phân tích câu “John loves a woman” trong một mô hình văn phạm phụ
thuộc ………………………………………………………………………………………………………. 31
Hình 1.5. Đồ thị phụ thuộc của câu “Economic news had little effect on financial
market” ………………………………………………………………………………………………….. 32
Hình 1.6. Câu đúng ngữ pháp “Tại sao cậu không tới” …………………………………… 35
Hình 1.7. Kết nối lớn của từ “và” ………………………………………………………………. 37
Hình1.8. Chu trình trong phân tích câu ………………………………………………………… 38
Hình 1.9. Nút liên kết ……………………………………………………………………………….. 39
Hình 2.1. Cấu trúc danh ngữ với đầy đủ các thành tố …………………………………….. 48
Hình 2.2. Liên kết trong cụm từ “những cái bàn” ………………………………………….. 51
Hình 2.4. Liên kết trong cụm từ “cái bàn bằng gỗ” ……………………………………….. 53
Hình 2.3. Liên kết trong cụm từ “cái giường lò xo”. ……………………………………… 53
Hình 2.5. Liên kết trong cụm từ “cái bàn của tôi” …………………………………………. 54
Hình 2.6. Hai cách liên kết cho cụm từ “cái bàn bằng gỗ của tôi” ……………………. 54
Hình 2.7. Các liên kết xoay quanh danh từ trung tâm “ghế” …………………………… 55
Hình 2.8. Thành tố phụ đi trước mọi động từ ……………………………………………….. 56
Hình 2.9. Liên kết trong cụm từ “vẫn đang làm” ………………………………………….. 57
Hình 2.10. Liên kết trong cụm từ “không hay đọc sách này” ………………………….. 57
Hình 2.11. Liên kết trong cụm từ “đang rất sợ” ……………………………………………. 59
Hình 2.12. Liên kết trong cụm từ “ sâu hai ngàn mét”……………………………………. 61
Hình 2.13. Liên kết câu ghép hai mệnh đề với liên từ ở giữa …………………………… 62
Hình 2.14. Liên kết của câu ghép hai mệnh đề với liên từ ở đầu và dấu phảy …….. 63
Hình 2.15. Liên kết trong câu ghép với liên từ có mặt trong cả hai mệnh đề ………. 63
Hình 2.16. Một đoạn trong từ điển văn phạm liên kết …………………………………….. 64
Hình 2.17. Ánh xạ trực cảm ………………………………………………………………………. 67
Hình 2.18. Quy trình xây dựng từ điển văn phạm liên kết tiếng Việt ………………… 69
Hình 3.1. Giải thuật phân tích ……………………………………………………………………. 70
Hình 3.2. Lời giải cục bộ …………………………………………………………………………… 70
Hình 3.3. Giải thuật phân tích cú pháp liên kết ……………………………………………… 71
Hình 3.4.Hàm COUNT cho số phân tích của câu. ………………………………………… 71
Hình 3.5. Cây cho công thức (NN- &{NN+}) or ({PqNt-} & {NN+}) ……………… 73
Hình 3.6. Số lượng dạng tuyển sau lược tỉa và lược tỉa mạnh ………………………….. 74
Hình 3.7. Kêt quả phân tích liên kết của câu “Chúng tôi muốn giành các danh
hiệu” ……………………………………………………………………………………………………… 75
Hình 3.8. Kêt quả phân tích liên kết của câu “Mỗi một mùa trắng tay đều khó nuốt
trôi” ……………………………………………………………………………………………………….. 75
Hình 3.9. Kết quả phân tích liên kết của câu “Phần lớn bọ ngựa ăn côn trùng” … 76
Hình 3.10. Cây phân tích diễn ngôn của câu “[trời mưa rất to vàA1] [gió rất mạnh
nênB1] [tôi phải nghỉ học,C1] [mẹ tôi phải nghỉ làm.D1]” ………………………………….. 80
Hình 3.11. Giải thuật phân đoạn diễn ngôn (có khử nhập nhằng) …………………….. 85
Hình 3.12. Hàm isClause …………………………………………………………………………… 87
Hình 3.13. Các dạng cây cấu trúc diễn ngôn …………………………………………………. 89
Hình 3.14. Giải thuật phân tích cú pháp cho câu ghép ……………………………………. 90
Hình 3.15. Hàm Insert_Link_From_RST_Tree ……………………………………………… 91
Hình 3.16. Minh họa cách lưu trữ phân tích liên kết của câu “Tôi mua một bông
hoa” ……………………………………………………………………………………………………….. 92
Hình 3.17. Phân tích câu “Tôi mua một bông hoa” ………………………………………… 92
Hình 3.18. Phân tích cụm từ “một cái bút rất tốt”………………………………………….. 93
Hình 3.19. Kết quả phân tích câu “Trời mưa rất to và gió rất mạnh nên tôi phải
nghỉ học, mẹ tôi phải nghỉ làm” ………………………………………………………………….. 94
Hình 3.20. Hai phân tích của câu “Tôi mua một bông hoa” ……………………………. 98
Hình 3.21. Giải thuật kiểu Viterbi để dự đoán phân tích có xác suất cao nhất …….. 99
Hình 3.22. Mô tả cách tính xác suất PrO ⊲ left(L, W, l ⊳, ⊲ leftd) ………………… 101
Hình 3.23. Minh họa mối liên kết để tính O………………………………………. 102
Hình 3.24. Phân tích câu “Tôi thích bánh và kẹo, anh thích rượu và bia” ……….. 105
Hình 3.25. Một phân tích với kết nối F cho từ “và” ……………………………………… 106
Hình 3.26. Kết nối G nối nhiều dấu phảy và từ “và”…………………………………….. 107
Hình 4.1.Sắp xếp lại trật tự từ ………………………………………………………………….. 115
Hình 4.2. Kiến trúc của hệ dịch dựa trên dạng tuyển có chú giải ……………………. 118
Hình 4.3. Thay đổi trật tự từ cho bản dịch câu “Cô gái nhỏ rất xinh” ……………… 122
Hình 4.4. Quá trình dịch câu “Báo săn là loại động vật nhanh nhất thế giới” …… 128
Hình 4.5. So sánh điểm BLEU của các hệ thống ………………………………………. 129
DANH MỤC BẢNG BIỂU
Bảng 1.1. Ví dụ của một từ điển …………………………………………………………………. 34
Bảng 2.1.Các loại từ tiếng Việt …………………………………………………………………… 45
Bảng 2.2. Các tiểu loại từ tiếng Việt ……………………………………………………………. 45
Bảng 3.1. Chi tiết bộ ngữ liệu mẫu cho bộ phân tích cú pháp liên kết ……………….. 76
Bảng 3.2. Kết quả phân tích liên kết cho các tập mẫu …………………………………….. 76
Bảng 3.3. Kết quả thử nghiệm bộ phân tích diễn ngôn (chưa kết hợp phân tích cú
pháp) ……………………………………………………………………………………………………… 79
Bảng 3.4. Các biểu thức chính quy biểu diễn một số dấu hiệu diễn ngôn tiềm tàng81
Bảng 3.5. Hành động ứng với một số dấu hiệu diễn ngôn ……………………………….. 82
Bảng 3.6. Chi tiết tập mẫu câu ghép ……………………………………………………………. 94
Bảng 3.7. Kết quả phân tích các tập mẫu câu ghép ………………………………………… 95
Bảng 4.1. Những khác biệt quan trọng về hình thái giữa tiếng Việt và tiếng Anh 113
Bảng 4.2. Đại từ xưng hô tiếng Anh ………………………………………………………….. 114
Bảng 4.3. Đại từ xưng hô tiếng Việt ………………………………………………………….. 114
Bảng 4.4. So sánh kết quả các hệ thống dịch ………………………………………………. 129
DANH MỤC CÁC KẾT NỐI QUAN TRỌNG
CLI Kết nối chỉ chất liệu (ẩn giới từ).
DI Kết nối động từ “đi” với động từ khác.
DpN Kết nối định từ chỉ số nhiều với danh từ.
DpNt Kết nối định từ chỉ số nhiều với danh từ cụ thể.
DsN Kết nối định từ chỉ số ít với danh từ.
DT_LA Kết nối danh từ, đại từ xưng hô với động từ quan hệ “là”.
ĐT_XONG Kết nối một động từ và động từ “xong”.
EoPp Kết nối giới từ “của” với đại từ xưng hô.
EpNt Kết nối giới từ chỉ vị trí và danh từ cụ thể.
EsNt Kết nối danh từ cụ thể và giới từ phạm vi.
LA_DT Kết nối động từ “là” với danh từ.
McNu Kết nối số từ và danh từ chỉ đơn vị.
NcNt1 Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ người.
NcNt2 Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ động vật.
NcNt3 Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ thực vât.
NcNt4 Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ đồ dùng, vật dụng.
NcNt5 Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ hiện tượng.
NcNt6 Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ khái niệm.
NEo Kết nối danh từ và giới từ chỉ sở hữu.
NN Kết nối danh từ và danh từ, có thể thể hiện quan hệ về nội dung, địa điểm…
NtEm Kết nối danh từ cụ thể và giới từ chỉ chất liệu.
NtEs Kết nối giới từ phạm vi và danh từ cụ thể.
NtPd Kết nối danh từ cụ thể với đại từ chỉ định.
NuNt Kết nối danh từ chỉ đơn vị và danh từ cụ thể.
NHAT_DT Kết nối từ “nhất” với danh từ đứng sau.
O Kết nối động từ và bổ ngữ trực tiếp.
RcV Kết nối động từ với phụ từ so sánh.
RfA Kết nối phụ từ thời gian (tương lai) và tính từ.
RfVt Kết nối định từ chỉ thì tương lai và động từ.
RfVt Kết nối động từ với phụ từ thời gian (tương lai).
RhA Kết nối phụ từ thời gian (hiện tại hoàn thành) và tính từ.
RhV Kết nối phụ từ thời gian (hiện tại hoàn thành) và động từ.
RmV Kết nối động từ với phụ từ mệnh lệnh.
RnV Kết nối phủ định từ và động từ.
RnV1 Kết nối động từ với phụ từ phủ định.
RpA Kết nối phụ từ thời gian (quá khứ) và tính từ.
RpV Kết nối động từ với phụ từ thời gian (quá khứ).
RpVt Kết nối định từ chỉ thì quá khứ và động từ.
RtA Kết nối phụ từ thời gian (hiện tại) và tính từ.
RtV Kết nối động từ với phụ từ thời gian (hiện tại).
SA Kết nối danh từ, đại từ xưng hô với tính từ.
SA Kết nối danh từ và tính từ.
SH Kết nối giới từ sở hữu và danh từ chỉ chủ sở hữu.
SHA Kết nối hai danh từ chỉ quan hệ sở hữu ẩn.
SS_NHAT Kết nối tính từ với từ “nhất”.
SV Kết nối danh từ, đại từ xưng hô làm chủ ngữ với động từ.
THS Kết nối các từ để hỏi đứng sau động từ và động từ.
THT Kết nối các từ để hỏi đứng trước động từ và động từ.
VmVt Kết nối động từ tình thái và động từ cụ thể.
VtAp Kết nối ngoại động từ và tính từ chỉ tính chất.
VtEp Kết nối ngoại động từ và giới từ vị trí.
VtVs Kết nối động từ ngoại động và động từ trạng thái.