Mô hình văn phạm liên kết tiếng Việt - 22

3.3.2. Khử nhập nhằng liên hợp

Nhập nhằng liên hợp là hiện tượng nhập nhằng liên quan đến các cụm từ có vai trò tương đương trong câu. Như đã nêu trong [70], từ “và” đóng một vai trò đặc biệt khi phân tích một câu trên mô hình văn phạm liên kết vì nó có thể chứa kết nối thông thường cũng như kết nối lớn.

Theo lý thuyết cấu trúc diễn ngôn bản thân từ và cũng là một dấu 1

Theo lý thuyết cấu trúc diễn ngôn, bản thân từ “” cũng là một dấu hiệu diễn ngôn. Do vậy cần phân biệt trường hợp từ “” là dấu hiệu diễn ngôn và từ “” chỉ nối hai từ hoặc hai cụm từ đơn giản mà không phải hai mệnh đề.

Trong [66], Lê Thanh Hương cũng đề cập đến vấn đề nhập nhằng khi phân đoạn diễn ngôn, trong đó một từ có thể đóng vai trò dấu hiệu diễn ngôn cũng như vai trò khác, với ví dụ rõ ràng nhất là từ “and” trong tiếng Anh. Việc kiểm tra từ “and” có là dấu hiệu diễn ngôn hay không được thực hiện bằng cách kiểm tra xem câu có còn đúng cú pháp hay không khi loại bỏ từ đó. Ví dụ câu “Mary borrowed that book from our library, and she returned it this morning”. Nhận xét này có thể cho ra kết quả thuyết phục trong tiếng Anh, khi từ “and” là dấu hiệu diễn ngôn thường đi sau dấu phảy và các danh từ thường đi kèm với mạo từ. Từ “” trong tiếng Việt cũng có vai trò tương tự khi nó đóng vai trò liên từ. Tuy nhiên trong tiếng Việt, từ “” thường không đi kèm dấu phảy như “tôi học và anh ngủ”. Hơn nữa, khi loại bỏ từ “” trong cụm hai danh từ “nàng và công chúa” có thể dẫn đến một cụm từ hoàn toàn đúng “nàng công chúa”, không thể làm câu sai cú pháp.

Nếu một dấu hiệu diễn ngôn được tìm thấy ngay sau sự xuất hiện của “” và nếu biên trái của đơn vị nguyên tố được tìm thấy ở bên trái của “” thì một đơn vị nguyên tố mới được xác định mà biên phải của đơn vị nguyên tố đó ở ngay trước “”. Trong trường hợp như vậy, “” được xét có chức năng diễn ngôn.

Chẳng hạn với câu “Mặc dù trời mưa lớn và mặc dù mọi người đều ngăn cản, nó cứ đi”, kết quả phân đoạn diễn ngôn sẽ là [Mặc dù trời mưa lớn] [và mặc dù mọi người đều ngăn cản,] [nó cứ đi.]. Trong câu này từ “” có vai trò diễn ngôn vì đứng ngay trước từ “mặc dù” là dấu hiệu của quan hệ nhượng bộ

Ngoài trường hợp nói trên, bộ phân tích nông trong[89] và bỏ qua mọi từ “” khác với hành động NOTHING

Nhận thấy trong cú pháp tiếng Việt, chủ ngữ có thủa mệnh đề xuất hiện trong câu ghép chủ yếu là danh ngữ, vị ngữ chủ yếu là động ngữ hoặc tính ngữ. Có những loại nòng cốt khác, chẳng hạn chủ ngữ là một động từ, tuy nhiên Luận án đề xuất giải thuật xử lý theo ý tưởng sau:

Một cụm từ trong câu ghép là mệnh đề đúng nếu trong phân tích của nó bằng văn phạm liên kết tồn tại ít nhất một liên kết SV (liên kết giữa chủ ngữ và động từ), liên kết SA (liên kết chủ ngữ với tính từ) hoặc tổ hợp hai liên kết DT_LA và LA_DT (liên kết của từ “là”).

Luận án đã giải quyết vấn đề nhập nhằng bằng cách phân tích cú pháp cụm từ xuất hiện trước và sau từ “”. Nếu cả hai cụm từ đó đúng cú pháp thì từ “” đóng vai trò diễn ngôn. Ngược lại nó đóng vai trò liên hợp. Điều đó được thể hiện ở giải thuật trong hình 3.11 và kết quả thực hiện phân tích câu “Tôi thích bánh và kẹo, anh thích rượu và bia” trong hình 3.24.

Hình 3 24 Phân tích câu Tôi thích bánh và kẹo anh thích rượu và bia Khi 2

Hình 3.24. Phân tích câu “Tôi thích bánh và kẹo, anh thích rượu và bia

Khi phân tích cụm từ “Tôi đã ở Nghệ An và thành phố Hồ Chí Minh”, cụm từ “tôi đã ở Nghệ An” là một mệnh đề, tuy nhiên cụm từ “thành phố Hồ Chí Minh” không phải là mệnh đề nên từ “và” không là dấu hiệu diễn ngôn.

Với các bộ ngữ liệu mẫu được sử dụng cho bộ phân tích cú pháp câu ghép, việc khử nhập nhằng liên hợp cải thiện rõ rệt kết quả phân tích diễn ngôn. So sánh kết quả phân tích diễn ngôn có và không khử nhập nhằng được trình bày trong bảng 3.8 dưới đây.

Bảng 3.8. So sánh kết quả phân tích diễn ngôn

Bộ đầu vàoSố lượng câu ghépSố mệnh đềSố mệnh đề phân tích (không khử nhập nhằng)Số mệnh đề phân tích đúng (có khử nhập nhằng)
1508762 (71.26%)87 (100%)
2256227 (43.54%)36 (58.06%)
3255633 (58.92%)41(73.21%)

Có thể bạn quan tâm!

Xem toàn bộ 305 trang tài liệu này.

Tỷ lệ mệnh đề phân tích đúng sau khi khử nhập nhằng tăng lên nhiều hay ít phụ thuộc tần suất xuất hiện các từ gợi ý có thể gây nhập nhằng. Kết quả không đúng khi khử nhập nhằng liên quan đến từ “”, “hoặc”, dấu phảy chủ yếu do các mệnh đề chứa cụm danh từ – tính từ. Cụm danh từ – tính từ có thể là nòng cốt nhưng cũng có thể chỉ là một danh ngữ đóng vai trò chủ ngữ. Ví dụ trong câu “Sa Pa là “vương quốc” của hoa trái, đào hoa, đào vàng to, đào vàng nhỏ, mận hậu, mận tím, mận tam hoa, hoa lay dơn, hoa mận, hoa lê, hoa đào, hoa cúc, hoa hồng…đặc biệt là hoa bất tử sống mãi với thời gian”, dấu phảy gây nên sự nhập nhằng. Các cụm từ như “đào vàng to”, “đào vàng nhỏ, “mận tím” được phân tách thành những mệnh đề riêng biệt trong khi thực tế chúng chỉ là các danh ngữ đóng vai trò minh chứng cho khẳng định trước từ “như”.

Khi đóng vai trò liên hợp, từ “” sẽ có các kết nối sao cho nó đóng vai của từng phần tử trong danh sách của nó. Dạng tuyển của từ “” có kết nối lớn F. Kết nối F trỏ về hai phía của từ “”, ngoài ra, các kết nối của từ “” là dạng mở rộng của F , tức là các kết nối ban đầu của F. Điều này giúp từ “” kết nối hai phần từ trong danh sách “” lại với nhau, đồng thời đóng vai các phần tử đó trong câu như đã trình bày trong chương 1.

Khi ứng dụng trên bộ phân tích cú pháp liên kết, kết quả nhận được như trong hình 3.25.

Hình 3 25 Một phân tích với kết nối F cho từ và Tuy nhiên điều này 3

Hình 3.25. Một phân tích với kết nối F cho từ “

Tuy nhiên điều này lại có thể dẫn tới kết nối: anh — chị. Dù văn phạm liên kết cho phép chu trình, liên kết này không thể hiện mối liên hệ thực sự trong câu.

Để loại bỏ liên kết này, [111] thêm một số thông tin cho kết nối lớn và sửa lại điều kiện khớp nhau của các kết nối. Mỗi kết nối được gắn thêm một quyền ưu tiên là 0, 1 và 2. Các kết nối thông thường (không phải là kết nối lớn) có quyền ưu tiên là 0. Kết nối lớn trên từ có quyền ưu tiên là 1, và kết nối lớn trên từ “” có quyền ưu tiên là 2. Để hai kết nối khớp với nhau, trước tiên chúng phải khớp với nhau theo tiêu chí bình thường, và quyền ưu tiên của chúng phải tương thích: 0 tương thích với 0; 1 tương thích với 2; 2 tương thích với 1. Không có quyền ưu tiên nào tương thích nữa.

Phương pháp luận án áp dụng đã giải quyết khá hiệu quả một số trường hợp với từ “” trên thực tế. Tuy nhiên còn một số hiện tượng với từ “” và được xử lý theo [111].

Trường hợp hay gặp nhất là danh sách có nhiều hơn hai phần tử, khi đó các phần tử trong danh sách “” được ngăn cách bằng dấu phảy. Ví dụ “ông, bà, bố và mẹ”. Khi ấy , dấu phảy sẽ có dạng tuyển (( G2 ) ( G1 , G2 )). Ở đây, chỉ số dưới biểu thị quyền ưu tiên của kết nối.

Hình 3 26 Kết nối G nối nhiều dấu phảy và từ và Trong ví dụ ở hình 4

Hình 3.26. Kết nối G nối nhiều dấu phảy và từ “

Trong ví dụ ở hình 3.26, dấu phảy thứ hai đã dùng dạng tuyển đó để kết nối với dấu phảy thứ nhất qua kết nối G (ưu tiên 2, vì kết nối G của dấu phảy thứ nhất đã có ưu tiên 1), sau đó kết nối G với ưu tiên 1 được dùng để kết nối dấu phảy thứ hai với từ “bố”, và kết nối G với ưu tiên 2 được dùng để kết nối dấu phảy thứ hai với từ “” (Kết nối G với ưu tiên 1 đã dùng để kết nối từ “” với từ “mẹ”).

3.4. Kết luận

Bài toán phân tích cú pháp là bài toán cốt yếu cần giải quyết khi xây dựng một mô hình cú pháp mới. Với mô hình văn phạm liên kết được xây dựng cho tiếng Việt, bộ phân tích cú pháp liên kết của luận án đã giải quyết được các vấn đề sau:

  • Phân tích cú pháp cho câu đơn.
  • Phân tích cú pháp cho câu ghép với nhiều mệnh đề.
  • Giải quyết khá trọn vẹn vấn đề nhập nhằng liên hợp.
  • Thử nghiệm giải thuật khử nhập nhằng thành phần.

Kết quả thực nghiệm của các giải thuật phân tích cú pháp là chấp nhận được. Tuy nhiên, do sự phức tạp của ngôn ngữ tự nhiên cũng như hạn chế về thời gian, luận án chưa giải quyết các vấn đề sau:

  1. Phân tích cú pháp những loại câu mà một số thành phần có vị trí tùy ý. Bản chất của văn phạm liên kết là văn phạm kiểu phụ thuộc nên vấn đề này không quá khó khăn, tuy một số trường hợp có thể vi phạm tính phẳng.
  2. Phân tích cú pháp cho những loại câu ghép không có liên từ. Vấn đề này cũng có triển vọng giải quyết được. Khi kết luận một câu không đúng cú pháp, bộ phân tích đã đưa ra được tất cả phân tích có thể của mọi cụm từ trong câu. Việc vi phạm tính liên thông của phân tích có thể là dấu hiệu của liên từ còn thiếu. Để giải quyết trọn vẹn vấn đề này cần phải có nhưng nghiên cứu sâu sắc hơn về ngôn ngữ cũng như bộ ngữ liệu lớn.
  3. Phân tích cú pháp cho câu phức. Đây cũng là vấn đề rất khó với các ngôn ngữ khác và đỏi hỏi sử dụng các phương pháp thống kê để tìm ra giới hạn của mệnh đề. Hy vọng vấn đề này sẽ được giải quyêt trong tương lai, khi đã xây dựng được bộ ngữ liệu đủ lớn.

Một hướng phát triển khác cũng được quan tâm là tích hợp những mối liên kết về ngữ nghĩa trong văn phạm liên kết tiếng Việt. Điều này là khả thi với mô hình văn phạm liên kết cho phép biểu diễn phân tích câu bằng đồ thị liên kết có chu trình, tuy nhiên đây cũng là vấn đề lớn, đòi hỏi đầu tư nhiều thời gian.

Xem tất cả 305 trang.

Ngày đăng: 31/10/2021