Hình 3.16 dưới đây thể hiện cấu trúc lưu trữ phân tích liên kết của câu “Tôi mua một bông hoa”. 1, 2…5 là số thứ tự của từ. Mỗi từ có một danh sách liên kết các kết nối với các từ nằm bên phải nó. Thông tin về mỗi kết nối bao gồm (kiểu, đích, bậc). Ví dụ (SV, 2, 0 ) chỉ liên kết của từ đầu tiên (“tôi”) và từ thứ hai (“mua”).
Các liên kết sau khi được vẽ lên trên của mỗi từ sẽ được gán một giá trị gọi là bậc của liên kết. Do yêu cầu của bài toán đặt ra từ được chọn phải đảm bảo khi ta thêm các liên kết khác của các liên từ với nó thì các liên kết cũ và liên kết mới không được giao nhau. Vì vậy từ được chọn ở đây là từ có bậc thấp nhất tương ứng với từ có liên kết được vẽ bên trên cùng.
Hình 3.16. Minh họa cách lưu trữ phân tích liên kết của câu “Tôi mua một bông hoa”
Bậc của liên kết được tính như sau:
Theo giải thuật phân tích cú pháp, liên kết được vẽ đầu tiên sẽ có bậc 0. Đó là liên kết SV và O. Sau đó, trong quá trình thực hiện giải thuật phân tích trong [111] một cách đệ quy với các từ bên trái và bên phải từ được xét, bậc của McN và McNt3 là 1. Nếu câu này đóng vai trò mệnh đề trong liên kết với mệnh đề khác, thì kết nối được chọn để liên kết sẽ là kết nối trên cùng, tức là kết nối bậc 0 (trong ví dụ ở hình 3.17. là SV hoặc O).
Hình 3.17. Phân tích câu “Tôi mua một bông hoa”
Một ví dụ khác, phân tích câu “Nếu tôi có nhiều thời gian, tôi đã ở Nghệ An và thành phố Hồ Chí Minh”. Khi chọn từ đại diện cho mệnh đề “tôi đã ở Nghệ An và thành phố Hồ Chí Minh”, liên kết có bậc cao nhất là liên kết SV giữa “tôi” và “ở”. Liên kết này có bậc 0 trong khi các liên kết khác có bậc 1, 2…
Từ được chọn có thể là “tôi” hoặc “ở”. Việc làm này sẽ đảm bảo được tính phẳng vì nếu vẽ liên kết từ mệnh đề trước với từ “đã” hay từ “Nghệ An” thì không có cách nào để vẽ các liên kết đó không giao nhau.
Chọn từ để liên kết
Sau khi tìm được kết nối thích hợp với các từ ứng viên nằm bên trái và bên phải của kết nối, vấn đề đặt ra chọn từ bên trái hay bên phải. Tiêu chí luận án đưa ra là chọn từ quan trọng hơn. Với những mối quan hệ như McNt, RlAp… từ được chọn là từ bên phải (danh từ), còn với kết nối SV, SA thì từ được chọn là từ bên trái (danh từ). Thông tin về từ bên trái hay bên phải được chọn sẽ được lưu trữ theo mỗi loại kết nối. Trong ví dụ ở hình 3.10. dưới đây chỉ ra phân tích cụm từ “một cái bút rất tốt”.
Hình 3.18. Phân tích cụm từ “một cái bút rất tốt”
Do liên kết giữa từ “một” và từ “bút” là McNt nên từ có mức độ ưu tiên cao hơn là từ “bút”.Từ được chọn phải là từ “bút”.
3.2.4. Kết quả thử nghiệm phân tích câu ghép
Bộ phân tích cú pháp câu ghép được phát triển từ bộ phân tích liên kết cho câu đơn và câu ghép hai mệnh đề, sử dụng ngôn ngữ Java làm việc trong môi trường Windows. Hình dưới đây mô tả kết quả phân tích cú pháp cho câu ghép “Trời mưa rất to và gió rất mạnh nên tôi phải nghỉ học, mẹ tôi phải nghỉ làm” gồm 4 mệnh đề với các quan hệ diễn ngôn đã được biểu diễn trong hình 3.19.
Hình 3.19. Kết quả phân tích câu “Trời mưa rất to và gió rất mạnh nên tôi phải nghỉ học, mẹ tôi phải nghỉ làm”
Để kiểm chứng cho giải thuật phân tích câu ghép, luận án đã tạo bộ mẫu gồm 100 câu ghép đã phân tích và chú giải, chi tiết như trong bảng 2. Nguồn dữ liệu được chọn từ các bài báo và tập mẫu câu trên mạng:
http://www.mediafire.com/?6ajt9btbrtxidr9
http://www.vietnamtourism.com/v_pages/tourist/destination.asp?mt=8420&uid=533
http://dantri.com.vn/c26/s26-484690/barcelona-mu-giac-mo-noi-thien-duong.htm
Bảng 3.6. Chi tiết tập mẫu câu ghép
STT | Tập mẫu | Số lượng câu | Số từ trung bình trong câu |
1 | Ngữ liệu tiếng Việt phổ quát (Hồ Quốc Bảo) | 50 | 9.7 |
2 | Thể thao | 25 | 11.5 |
3 | Du lịch | 25 | 12.5 |
Có thể bạn quan tâm!
- Mô hình văn phạm liên kết tiếng Việt - 16
- Mô hình văn phạm liên kết tiếng Việt - 17
- Giải Thuật Phân Tích Cú Pháp Câu Ghép
- Giải Thuật Kiểu Viterbi Để Tìm Phân Tích Tốt Nhất
- Mô hình văn phạm liên kết tiếng Việt - 21
- Mô hình văn phạm liên kết tiếng Việt - 22
Xem toàn bộ 305 trang tài liệu này.
Kết quả phân tích tập mẫu thể hiện ở bảng 3.6 cho thấy kết quả đạt được cao hơn hẳn so với bộ phân tích cũ:
Bảng 3.7. Kết quả phân tích các tập mẫu câu ghép (đã khử nhập nhằng)
Tập mẫu | Độ chính xác (bộ PT cũ) | Độ phủ (bộ PT cũ) | Độ chính xác (bộ PT mới) | Độ phủ (bộ PT mới) |
1 | 42.5% | 35.7% | 75.1% | 65.7% |
2 | 9.5% | 6.1% | 33.5% | 21.6% |
3 | 28.3% | 20.5% | 47.4% | 58.5% |
Trong số các bộ ngữ liệu được dùng trong giai đoạn này, bộ ngữ liệu tiếng Việt phổ quát (thật ra là phần tiếng Việt trong bộ ngữ liệu Anh – Việt tổng quát, chủ yếu chứa các câu ghép hai mệnh đề và khá giống nhau nên tỷ lệ câu phân tích diễn ngôn đúng là 100%, ngoài ra cấu trúc từng mệnh đề cũng khá đơn giản. Ngữ liệu về du lịch cũng gồm những câu trong các bài giới thiệu quảng bá du lịch, nhiều câu có trên 3 mệnh đề nhưng cấu trúc vẫn theo đúng luật cú pháp. Bộ ngữ liệu về thể thao với nhiều dạng thức đặc biệt của câu ghép vẫn đạt tỷ lệ thấp nhất.
Bộ phân tích cú pháp liên kết của luận án đã đạt được kết quả khá tốt trên những câu ghép gồm nhiều mệnh đề, không bao nhau, có thể xuất hiện những đoạn giải thích với cặp ngoặc hoặc dấu gạch ngang (-). Tuy nhiên, vẫn còn một số dạng câu ghép mà bộ phân tích của luận án chưa xử lý được. Dưới đây là ví dụ của những loại câu đó:
- Câu ghép thiếu liên từ, ví dụ ”Dù chết tao cũng không theo”. Câu này xuất hiện dưới dạng câu đơn nhưng thực ra lại là câu ghép, không có từ liên kết lại ẩn chủ ngữ “tao” ở mệnh đề đầu.
- Tồn tại những vị ngữ phức tạp, ví dụ “Để cho đỡ buồn tẻ, công chúa thường lấy một quả cầu bằng vàng tung lên để bắt chơi”, câu này không có dấu phảy trước động từ “tung” nên liên hệ giữa động từ “lấy” và động từ “tung” là không xác định được.
- Quá nhiều mệnh đề, nhiều thành phần liên hợp, trong đó một số mệnh đề ẩn chủ ngữ, ví dụ “Ta thường tới bữa quên ăn, nửa đêm vỗ gối, ruột đau như cắt, nước mắt đầm đìa; chỉ giận chưa thể xả thịt, lột da, ăn gan, uống máu quân thù; dẫu cho trăm thân ta phơi ngoài nội cỏ, nghìn thây ta bọc trong da ngựa, cũng nguyện xin làm”.