Mô hình văn phạm liên kết tiếng Việt - 2

Vai trò quan trọng của mô hình phụ thuộc là rõ ràng. Tuy nhiên mô hình văn phạm phụ thuộc có những điểm khó về mặt ngôn ngữ học. Theo Nguyễn Tài Cẩn [2] còn nhiều tranh luận về sự phụ thuộc giữa các yếu tố trong câu tiếng Việt, chẳng hạn một số đối tượng có thể đóng vai trò phụ về cú pháp, nhưng lại đóng vai trò chính về từ pháp hay vai trò trung tâm của danh ngữ, động ngữ thuộc về đối tượng nào cũng còn nhiều quan điểm khác nhau. Do vậy, dù được nhắc đến trong một số tài liệu như [6], chưa có công trình nào về văn phạm phụ thuộc được công bố trong lĩnh vực ngôn ngữ học. Tiếng Việt có một bộ phân tích cú pháp phụ thuộc theo mô hình đồ thị [17] nhưng khó phát triển hơn nữa, do chưa có một hệ thống văn phạm phụ thuộc đầy đủ. Với mong muốn tiếp cận với mô hình văn phạm dạng phụ thuộc nhưng thiên về từ pháp, luận án đã chọn cho đề tài của mình một mô hình theo hướng phụ thuộc nhưng hoàn toàn từ vựng hóa: mô hình văn phạm liên kết.

Văn phạm liên kết là mô hình do D Sleator và D Temperley đưa ra 111 cho phép mỗi 1

Văn phạm liên kết là mô hình do D.Sleator và D. Temperley đưa ra [111], cho phép mỗi từ có một số mối liên hệ với các từ ở bên trái hoặc bên phải, thỏa mãn các yêu cầu về tính phẳng, tính liên thông, tính thỏa mãn, tính thứ tự và tính loại trừ. Văn phạm liên kết là văn phạm theo cách tiếp cận phụ thuộc, thể hiện ở những điểm sau:

  1. Phân tích liên kết không chứa ký hiệu không kết thúc, thậm chí cấu trúc còn đơn giản hơn cây phụ thuộc. Có thể coi phân tích liên kết như một danh sách tuyến tính với mỗi nút chứa không quá 3 mối liên hệ với nút khác. Ngân hàng phân tích vì thế đơn giản hơn ngân hàng cây ngữ cấu. Nhiều cơ sở dữ liệu được thiết lập từ các ngân hàng phân tích lớn như ngân hàng dữ liệu đa phương tiện [128]. Phân tích liên kết được sử dụng phổ biến cho những ứng dụng khác như trích chọn thông tin [84], [106], [110], dịch máy [35], hỏi đáp tự động [95], [105]… Nhiều bộ phân tích cú pháp cho các ngôn ngữ khác nhau được xây dựng trên mô hình văn phạm liên kết cho tiếng Anh[111], tiếng Nga [132], tiếng Đức [76], tiếng Thổ Nhĩ Kỳ [68]…
  2. Văn phạm liên kết cũng có khả năng biểu diễn trực tiếp mối liên hệ giữa các từ không nhất thiết liền kề. Do vậy, văn pham liên kết cũng cho phép một trật tự từ tương đối tự do, chẳng hạn tập các kết nối của câu “Tôi hôm nay rất mệt” và câu “Hôm nay tôi rất mệt” không khác nhau. Phân tích hai câu nói trên chỉ khác nhau ở thứ tự các liên kết. Tất nhiên, theo Schneider [109], do mô hình văn phạm liên kết đòi hỏi tính phẳng nên không linh hoạt như văn phạm phụ thuộc khi biểu diễn sự phụ thuộc giữa các thành phần không liền kề (long distance dependency) trong câu. Điều này có thể chấp nhận được với tiếng Việt, vì nói chung, câu tiếng Việt tuân theo trật tự SVO, cấu trúc danh ngữ, động ngữ, tính ngữ nói chung cố định, số thành phần có vị trí thay đổi tùy ý không nhiều.
  3. Văn phạm liên kết có thể biểu diễn mối liên hệ ngữ nghĩa. Việc biểu diễn liên hệ ngữ nghĩa dễ dàng hơn văn phạm phụ thuộc vì phân tích câu trong văn phạm liên kết có thể chứa chu trình.
  4. Việc phân biệt các thành phần chính – phụ trong câu trở nên phức tạp hơn vì liên kết không định hướng như phụ thuộc. Do vậy, với một số bài toán, chẳng hạn tóm tắt văn bản, mô hình văn phạm liên kết không thuận tiện bằng văn phạm phụ thuộc. Tuy nhiên trong nhiều lĩnh vực như biểu diễn tri thức, dịch máy…, văn phạm liên kết lại rất hiệu quả.
  5. Văn phạm liên kết không đòi hỏi quan hệ cai trị – phụ thuộc nên có thể dễ dàng gộp các phân tích các mệnh đề thành phần thành một phân tích lớn, làm cho việc phân tích câu ghép nhiều mệnh đề dễ dàng hơn.
  6. Văn phạm liên kết là một trong rất ít mô hình hoàn toàn từ vựng hóa, do vậy có thể biểu diễn mối liên hệ từ pháp, chi tiết hơn nhiều so với văn phạm phụ thuộc, văn phạm ngữ cấu (quan hệ chỉ định nghĩa đến loại từ). Đặc điểm này cho phép biểu diễn nhiều hiện tượng trong tiếng Việt. Ví dụ, những động từ chỉ động tác có phương hướng như “chạy”, “mang”, “mở”,”đậy” mới có thể kết hợp với các thành tố phụ chỉ hướng: “ra”, “vào”, “lên”, “xuống”. Liên kết DR được thiết lập giữa các loại từ nói trên mà không tồn tại với bất cứ loại từ nào khác.
  7. Liên kết có thể dùng để biểu diễn tri thức [53], liên kết cũng rất gần với đồ thị khái niệm nên có thể chuyển từ liên kết sang đồ thị khái niệm dễ dàng [131]. Phân tích liên kết cũng được sử dụng để trích chọn thông tin [50], [52], [90], [97], đặc biệt là thông tin ngữ nghĩa [82].
  8. Liên kết có nhãn nên biểu diễn trực tiếp mối liên hệ vị ngữ – bổ ngữ và các mối liên hệ khác, tạo thuận lợi cho việc dịch sang ngôn ngữ có biến đổi hình thái, tốt hơn những mô hình mà quan hệ phụ thuộc không được gán nhãn (theo Zamin [129]).

Qua khảo cứu và thử nghiệm bước đầu, luận án rút ra một số nhận xét:

  1. Từ trước đến nay, cách phổ biến nhất để biểu diễn cú pháp tiếng Việt là thông qua mô hình văn phạm ngữ cấu (phi ngữ cảnh) với cây ngữ cấu. Tuy nhiên tiếng Việt có những đặc điểm riêng mà cấu trúc này không dễ biểu diễn: ẩn giới từ sở hữu, chuyển loại từ, sự kết hợp số từ và các danh từ chỉ đơn vị… Những đặc điểm này có thể được biểu diễn một cách linh hoạt và đơn giản qua mô hình liên kết. Đặc biệt khi giải quyết bài toán dịch từ tiếng Việt sang ngôn ngữ khác, việc phát hiện được mối quan hệ trực tiếp giữa các từ cho khả năng chuyển đổi sang cấu trúc của ngôn ngữ đích với chất lượng cao.
  2. Phân tích câu theo mô hình liên kết rất gần với suy nghĩ của con người, do vậy có thể hỗ trợ hiệu quả cho những học viên tiếng Việt khi tìm hiểu cú pháp và đặt câu. Kết quả phân tích liên kết của câu lại đơn giản hơn nhiều so với cây ngữ cấu. Tuy là một đồ thị, nhưng phân tích liên kết gần như một danh sách tuyên tính của các từ, mỗi từ có mối liên hệ với không quá 3 từ khác. Điều đó cho phép tra cứu ngân hàng phân tích dễ dàng hơn treebank, tạo thuận lợi cho các hướng tiếp cận theo phương pháp thống kê.
  3. Do sự phức tạp của cấu trúc câu ghép và câu phức, không nhiều nghiên cứu về phân tích cú pháp tự động quan tâm đến loại câu này, đặc biệt là trong tiếng Việt. Mô hình văn phạm liên kết cho một cách liên kết các mệnh đề dựa trên kết nối lớn, tạo khả năng phân tích và xử lý câu ghép, câu phức một cách hiệu quả.
  4. Hiện nay do tiếng Việt chưa có nhiều tài nguyên phục vụ cho bài toán dịch máy, nên các hệ thống dịch máy chủ yếu theo hướng Anh – Việt và làm theo hướng tiếp cận dựa trên luật. Do mô hình văn phạm liên kết biểu diễn một cách mềm dẻo nhiều hiện tượng cú pháp của tiếng Việt và việc chuyển đổi liên kết cú pháp sang ngôn ngữ khác khá dễ dàng, có thể sử dụng nó để xây dựng một hệ thống dịch máy Việt – Anh dựa trên luật xử lý dễ dàng nhiều khác biệt giữa ngôn ngữ nguồn và ngôn ngữ đích, hỗ trợ tốt nhiều yêu cầu dịch thuật trong thực tế. Hệ thống này có thể tích hợp với những hệ thống theo các hướng tiếp cận khác như trên nền ví dụ, thống kê để tạo ra những bản dịch có chất lượng tốt: trôi chảy và đúng về cú pháp cũng như từ pháp.

Từ đó, luận án xác định mục tiêu tập trung vào việc nghiên cứu, xây dựng một mô hình văn phạm liên kết tiếng Việt với những đặc điểm sau:

  1. Dựa trên mô hình văn phạm liên kết được Sleator và Temperley đưa ra [111].
  2. Dựa trên các đặc điểm cú pháp và từ pháp tiếng Việt.
  3. Có thể sử dụng để phân tích cú pháp tiếng Việt theo phương pháp phân tích liên kết. Phạm vi của bộ phân tích cú pháp là câu đơn cũng như câu ghép bao gồm nhiều mệnh đề đẳng lập và phụ thuộc.
  4. Có thể ứng dụng để giải quyết bài toán dịch máy Việt – Anh.
  5. Tạo ra các sản phẩm phục vụ công việc nghiên cứu: từ điển liên kết, từ điển song ngữ với dạng tuyển có chú giải.

Để làm được điều đó, cần thiết phải thực hiện nhiều nội dung nghiên cứu cốt lõi như: Các hướng tiếp cận để biểu diễn cú pháp (đặc biệt là hướng tiếp cận phụ thuộc), mô hình văn phạm liên kết và mối liên hệ với mô hình văn phạm phụ thuộc, các mô hình văn phạm liên kết đã được xây dựng cho tiếng Anh, tiếng Nga và một số ngôn ngữ khác. Bộ phân tích cú pháp tiếng Anh và các giải thuật phân tách mệnh đề của câu ghép là những vấn đề mà luận án nghiên cứu để xây dựng bộ phân tích liên kết tiếng Việt. Để minh họa cho khả năng biểu diễn của mô hình văn phạm liên kết tiếng Việt, luận án đi vào tìm hiểu các hệ thống dịch để xây dựng bộ dịch máy sử dụng văn phạm liên kết.

Trong khuôn khổ của luận án, công việc sẽ được giới hạn trong phạm vi :

  1. Xây dựng mô hình liên kết để biểu diễn cú pháp tiếng Việt. Bộ từ điển liên kết của tiếng Việt được xây dựng có tính chất thử nghiệm, bao quát được những hiện tượng cú pháp cơ bản nhất và một số trường hợp cá biệt thường gặp trong thực tế.
  2. Bộ phân tích cú pháp liên kết tiếng Việt cũng phải qua những giai đoạn tiền xử lý như bất cứ bộ phân tích cú pháp nào khác. Theo cách tiếp cận này, bộ phân tích cú pháp không gán nhãn từ trước khi phân tích cú pháp, nhưng không thể bỏ qua giai đoạn tách từ. Luận án đã sử dụng bộ tách từ vnTokenizer của TS. Lê Hồng Phương, được cung cấp miễn phí trên mạng.
  3. Nghiên cứu mô hình văn phạm liên kết xác suất để khử nhập nhằng trong phân tích cú pháp.Luận án giới hạn phạm vi làm việc là thử nghiệm các giải thuật được đề xuất.
  4. Nghiên cứu lý thuyết cấu trúc diễn ngôn và giải thuật phân đoạn diễn ngôn mức câu để phân tách câu ghép thành các mệnh đề. Đề xuất các kết nối lớn cho các mệnh đề trên cơ sở các quan hệ diễn ngôn để cho ra phân tích tổng thể của câu ghép.
  5. Việc xây dựng hệ thống dịch Việt – Anh dựa trên dạng tuyển có chú giải là một minh họa cho việc ứng dụng mô hình văn phạm liên kết tiếng Việt. Hệ thống này được thử nghiệm trên bộ ngữ liệu gồm các mẫu câu trong chương trình tiếng Việt cơ bản và nâng cao để dạy cho người nước ngoài của khoa Việt nam học và tiếng Việt, Trường Đại học Khoa học Xã hội và Nhân văn, Đại học Quốc gia Hà Nội [18]

Luận án được chia làm 4 chương và 4 phụ lục như sau:

Chương 1: Tổng quan về các mô hình văn phạm cho ngôn ngữ tự nhiên giới thiệu các mô hình văn phạm để mô tả cú pháp của ngôn ngữ tự nhiên và mối quan hệ của mô hình văn phạm liên kết với các mô hình văn phạm khác.

Kết quả nghiên cứu của nghiên cứu sinh liên quan đến luận án được trình bày trong các chương 2,3,4.

Có thể bạn quan tâm!

Xem toàn bộ 305 trang tài liệu này.

Chương 2: Mô hình văn phạm liên kết tiếng Việt đưa ra chi tiết về hệ thống văn phạm liên kết tiếng Việt đã được nghiên cứu sinh xây dựng.

Chương 3: Phân tích cú pháp trên văn phạm liên kết mô tả bộ phân tích cú pháp liên kết, hướng giải quyết vấn đề phân tích cú pháp cho câu ghép, vấn đề nhập nhằng cú pháp và hướng giải quyết.

Chương 4: Hệ thống dịch dựa trên dạng tuyển có chú giải thể hiện việc thử nghiệm mô hình văn phạm liên kết trong bài toán dịch máy Việt – Anh.

Kết luận và hướng phát triển.

Phần phụ lục bao gồm 4 phụ lục:

Phụ lục 1: Công thức liên kết cho các tiểu loại từ tiếng Việt.

Phụ lục 2: Kết quả phân tích cú pháp một số mẫu câu đơn và câu ghép hai mệnh đề.

Phụ lục 3: Một số luật điển hình trong tập luật dịch Việt – Anh.

Phụ lục 4: So sánh kết quả dịch một số mẫu câu.

Xem toàn bộ nội dung bài viết ᛨ
Ngày đăng: 31/10/2021