Mô hình văn phạm liên kết tiếng Việt - 29

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Tóm tắt

Luận án hướng tới xây dựng một mô hình mới để biểu diễn cú pháp tiếng Việt. Mô hình này theo hướng tiếp cận phổ biến hiện nay: hướng tiếp cận phụ thuộc và từ vựng hóa.

Để xây dựng mô hình liên kết mà không có sự hỗ trợ của những nghiên cứu 1

Để xây dựng mô hình liên kết mà không có sự hỗ trợ của những nghiên cứu về ngôn ngữ học, luận án đã phải nghiên cứu và tổng hợp các kiến thức về cú pháp tiếng Việt, rút ra những đặc trưng về liên kết từ và các cấu trúc, tham khảo ý kiến của các nhà ngôn ngữ học để có một mô hình liên kết chấp nhận được cho tiếng Việt.

Nhằm thử nghiệm và minh chứng cho những ưu việt của mô hình biểu diễn cú pháp liên kết, luận án đã xây dựng bộ phân tích cú pháp liên kết. Kết quả đạt được với câu đơn và câu ghép là khả quan, không kém các mô hình truyền thống, tuy nhiên việc lưu trữ và tìm kiếm phân tích lại đơn giản hơn rất nhiều.

Tiếng Việt là ngôn ngữ châu Á, có những đặc điểm rất khác biệt so với các ngôn ngữ châu Âu, đặc biệt là về biến đổi hình thái. Tận dụng khả năng biểu diễn thông tin hình thái của văn phạm liên kết, luận án đã thử nghiệm hệ thống dịch với công cụ của văn phạm liên kết là dạng tuyển có chú giải. Kết quả thử nghiệm ban đầu là chấp nhận được cho tập ngữ liệu nhỏ.

Các đóng góp chính của luận án

Về mặt khoa học

Lần đầu tiên mô hình văn phạm liên kết được xây dựng cho tiếng Việt, một mô hình kiểu phụ thuộc, rất linh hoạt và có nhiều ứng dụng thực tế. Văn phạm liên kết đã biểu diễn được một cách linh hoạt rất nhiều hiện tương trong tiếng Việt mà theo hiểu biết của mình chúng tôi chưa thấy các mô hình khác xử lý.

Có thể bạn quan tâm!

Xem toàn bộ 305 trang tài liệu này.

Bộ phân tích cú pháp tiếng Việt cho một biểu diễn cú pháp rất nhỏ gọn, tạo thuận lợi cho việc xây dựng ngân hàng phân tích liên kết. Việc phân tích được các câu ghép ở nhiều dạng khác nhau cho khả năng ứng dụng tốt cho các công việc khác, chẳng hạn như tạo những bản dịch chất lượng cao.

Cụ thể, luận án đã có những đóng góp sau đây:

  1. Xây dựng một mô hình liên kết cho tiếng Việt ở mức cú pháp.
  2. Hoàn thành bộ từ điển liên kết với 40.000 mục từ, hơn 150 công thức và 77 loại kết nối.
  3. Xây dựng thử nghiệm bộ phân tích cú pháp tiếng Việt ở mức câu đơn.
  4. Đề xuất giải thuật kiểu Viterbi để khử nhập nhằng thành phần theo mô hình 3- gram.
  5. Cải tiến giải thuật phân tích diễn ngôn ở mức câu kết hợp với phân tích liên kết. Xây dựng giải thuật phân tích cú pháp cho câu ghép và giải quyết được các vấn đề sau:
    1. Phân tích cú pháp liên kết cho các câu ghép gồm nhiều mệnh đề với nhiều loại quan hệ diễn ngôn phức tạp.
    2. Phát triển việc giải quyết vấn đề nhập nhằng liên hợp: giải quyết nhập nhằng khi từ “và”, dấu phảy đóng vai trò dấu hiệu diễn ngôn và vai trò liên từ.
  6. Xây dựng mô hình dịch máy tự động Việt – Anh dựa trên dạng tuyển có chú giải.
  7. Xây dựng từ điển ADJ Việt – Anh với kích cỡ tương đương như từ điển văn phạm liên kết.
  8. Xây dựng tập luật dịch Việt – Anh với khoảng 300 luật dịch.
  9. Xây dựng và thử nghiệm hệ thống dịch máy Việt – Anh dựa trên dạng tuyển có chú giải. Hệ thống cho kết quả chấp nhận được với tập mẫu câu tiếng Việt cơ bản và nâng cao.

Đây hoàn toàn là những kết quả mới vì mô hình văn phạm liên kết chưa từng được xây dựng cho tiếng Việt. Việc phân tích câu ghép nhiều mệnh đề bằng văn phạm liên kết chưa được giải quyết trên ngôn ngữ nào. Mô hình dịch dựa trên dạng tuyển có chú giải dù đã được sử dụng dịch Anh – Indonesia nhưng khi ứng dụng cho hệ dịch Việt – Anh đã được xây dựng hoàn toàn mới, thể hiện những đặc trưng quan trọng của tiếng Việt và khắc phục được sự khác biệt lớn về cú pháp giữa hai ngôn ngữ.

Về mặt thực tiễn

  1. Mô hình văn phạm liên kết xây dựng cách phân tích cú pháp mới cho tiếng Việt.
  2. Hệ thống từ điển sẽ hỗ trợ tốt cho những người muốn tiếp cận vấn đề theo mô hình này.
  3. Ngân hàng phân tích liên kết tạo khả năng cho những nghiên cứu theo mô hình liên kết. với cách tiếp cận thống kê.
  4. Hỗ trợ việc quảng bá thông tin về du lịch, văn hóa xã hội ra thế giới.
  5. Hỗ trợ tốt cho việc giảng dạy tiếng Việt.
  6. Kết quả phân tích cú pháp rất dễ hiểu và gần gũi với ý tưởng của người học, đặc biệt là những người không theo chuyên ngành ngôn ngữ học.
  7. Bộ dịch cho chất lượng tốt trên tập mẫu câu nhỏ (Thích hợp với chương trình tiếng Việt cơ bản và nâng cao).

Hạn chế và hướng phát triển

Bộ phân tích cú pháp đã làm việc khá hiệu quả với lớp câu đơn và câu ghép. Tuy nhiên luận án chưa mô hình hóa được liên kết trong trường hợp câu phức, khi các mệnh đề có phần bao trùm lên nhau và giao nhau, ví dụ câu “Cái quạt mà cậu cho tôi hôm qua chạy rất tốt”. Luận án mới chỉ xử lý được trường hợp mệnh đề trạng ngữ ở đầu câu, chưa phân tích được với một số trường hợp mệnh đề trạng ngữ ở những vị trí khác.

Sau khi đã có bộ phân tích cú pháp, việc xây dựng cơ sở dữ liệu đa phương tiện các phân tích liên kết có thể trợ giúp một cách hữu hiệu cho người học tiếng Việt trong việc tìm hiểu những cấu trúc cú pháp của tiếng Việt.

Bộ ngữ liệu mẫu cũng như ngân hàng phân tích cần được mở rộng hơn để có những đánh giá chính xác và toàn diện hơn.

Nếu có được ngân hàng câu song ngữ Việt – Anh cũng như bộ từ điển Việt – Anh đầy đủ hơn, có thể chỉnh sửa từ điển ADJ để khử nhập nhằng nghĩa tốt hơn.

Hệ thống dịch với ADJ hoàn toàn trên luật đã hoạt động khá hiệu quả. Do hạn chế về thời gian, luận án mới thực hiện dịch trên các câu đơn và câu ghép hai mệnh đề. Với hệ thống phân tích câu ghép đã có, việc dịch câu ghép nhiều mệnh đề là hoàn toàn khả thi. Ngoài ra, nếu kết hợp được với một hệ thống dịch thống kê, hệ thống này sẽ tham gia quá trình tinh chỉnh bản dịch và chắc chắn sẽ cho những bản dịch có chất lượng tốt hơn nhiều. Luận án đã bước đầu thử nghiệm trên một hệ thống có tính chất tương tự là hệ thống dịch trên nền ví dụ, đạt được kết quả khả quan.

CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ

  1. Nguyễn Thị Thu Hương, Lê Văn Chương (2008) Phân tích diễn ngôn cho văn bản tiếng Việt. Kỷ yếu Hội thảo khoa học quốc gia lần thứ tư về nghiên cứu, phát triển và ứng dụng công nghệ thông tin và truyền thông ICT- rda 8/2008, trang 227-234.
  2. Nguyen Thi Thu Huong, Pham Nguyen Quang Anh (2011) A Link Grammar for Vietnamese. Journal on Information and Communicationn Technology, 8/2011, pp 27-38.
  3. Nguyễn Thị Thu Hương, Nguyễn Thúc Hải, Nguyễn Thanh Thủy (2012) Kết hợp phân đoạn diễn ngôn với bộ phân tích cú pháp liên kết để phân tích cú pháp câu ghép nhiều mệnh đề tiếng Việt. Tạp chí Tin học và Điều khiển học, Tập 28, Số 4, 2012, trang 297- 309.
  4. Nguyễn Thị Thu Hương, Lê Ngọc Minh (2012) Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh. Chuyên san Các Công trình Nghiên cứu, Phát triển và Ứng dụng Công nghệ Thông tin và Truyền thông, tạp chí Công nghệ Thông tin và Truyền thông tập V-1 số 8(28) 12/2012, trang 44 – 56.

Xem tất cả 305 trang.

Ngày đăng: 31/10/2021
Trang chủ Tài liệu miễn phí