Mô hình văn phạm liên kết tiếng Việt - 8

Sau khi nghiên cứu và rút ra những đặc điểm của mô hình ngôn ngữ này, luận án sẽ tập trung giải quyết các bài toán sau:

Bài toán phân tích cú pháp Đây là bài toán bắt buộc phải làm khi xây dựng 1

  • Bài toán phân tích cú pháp. Đây là bài toán bắt buộc phải làm khi xây dựng mô hình biểu diễn cú pháp mới.
  • Bài toán dịch máy. Mô hình văn phạm liên kết biểu diễn được nhiều đặc điểm khác biệt của tiếng Việt mà khi chuyển sang ngôn ngữ khác cần thực hiện nhiều biến đổi. Do vậy, luận án chọn bài toán dịch Việt – Anh nhằm tận dụng khả năng biểu diễn mối liên hệ trực tiếp giữa các từ của mô hình văn phạm liên kết.

CHƯƠNG 2

MÔ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT

2.1.Văn phạm liên kết cho tiếng Việt

Từ định nghĩa hình thức của văn phạm liên kết, có thể thấy công việc quan trọng nhất khi xây dựng văn pham chính là ánh xạ các từ với các nút liên kết.

Nếu đơn vị nguyên tố khi phân tích cú pháp của một số ngôn ngữ là hình vị thì đơn vị đó trong tiếng Việt lại là từ. Theo tài liệu của Ủy ban Khoa học Xã hội [28], mỗi từ trong tiếng Việt có thể gồm nhiều hình vị. Việc phát hiện giới hạn từ trong văn bản được thực hiện nhờ bộ tách từ tự động.

Tiếng Việt có những đặc điểm khác biệt với các ngôn ngữ khác, như trong ngữ nghĩa, không có các ý nghĩa thuộc phạm trù hình thái (giống, số, cách); trong hoạt động tạo câu, các mối liên hệ ngữ pháp không biểu hiện ở sự biến hình mà biểu hiện bằng trật tự từ [16]. Kết nối của văn phạm liên kết hoàn toàn có thể biểu diễn các mối liên hệ này.

Liên kết xuất hiện khi các từ được tổ hợp lại. Theo Nguyễn Tài Cẩn [2], có ba loại tổ hợp chính: liên hợp, mệnh đề và đoản ngữ. Liên hợp và mệnh đề sẽ được xét đến khi thực hiện những bước phân tích cú pháp phức tạp và sẽ được nhắc đến ở chương sau. Đoản ngữ (ngữ – phrase) là những tổ hợp gồm một trung tâm nối liền với các thành tố phụ bằng quan hệ chính phụ [2]. Tùy theo kiểu của trung tâm, đoản ngữ được chia thành danh ngữ, động ngữ hay tính ngữ. Các quan hệ liên kết sẽ được xây dựng căn cứ vào cấu trúc của các đoản ngữ. Ngoài ra một số quan hệ không được biểu diễn qua quan hệ từ, ví dụ “mẹ tôi”, “áo anh”, là các cụm hai danh từ đi cạnh nhau, danh từ thứ hai sẽ chỉ chủ sở hữu của danh từ thứ nhất. Đây là một trong nhiều hiện tượng đặc biệt của cú pháp tiếng Việt. Việc thể hiện được các mối liên hệ này sẽ hỗ trợ đắc lực cho hệ thống dịch máy với ngôn ngữ nguồn là tiếng Việt.

Toàn bộ các trường hợp liên kết sẽ được lưu trữ lại trong từ điển văn phạm liên kết.

2.1.1. Cấu trúc từ điển liên kết

Hệ thống từ điển văn phạm liên kết tiếng Anh được xây dựng bởi Sleator và Temperley, theo [111]. Năm 2003, Szolovits thêm vào hàng loạt các từ trong lĩnh vực y học [113]. Từ 2008 đến 2011, từ điển được cập nhật bởi Linas Vepstas, thêm các quan hệ cho mệnh đề, Mike Ross cũng mới thêm vào một số mục mới chủ yếu liên quan đến các mệnh đề phụ với các từ “than” và các từ liên kết dạng “wh”[137].

Hệ thống được chia làm 12 mục lớn với 7 mục dành cho các loại từ tiếng Anh: danh từ, từ hạn định, đại từ, động từ, tính từ, phó từ và giới từ. Ngoài ra có các mục:

  • Các dạng số.
  • Từ chỉ thời gian, địa danh.
  • Liên từ, từ để hỏi.
  • Từ so sánh.
  • Dấu câu, các từ khác.

Để tổ chức lưu trữ dễ dàng, [111] đã đưa ra ký pháp để tạo thành công thức biểu diễn các luật liên kết, đó là:

Chiều của liên kết:

Dấu “+” nằm sau tên kết nối chỉ liên kết với từ nằm bên phải,

Dấu “-” nằm sau tên kết nối chỉ liên kết với từ nằm bên trái,

Toán tử :

& xảy ra đồng thời cả hai liên kết thành phần.

or xảy ra một trong hai, hoặc cả hai liên kết thành phần.

xor chỉ chọn một trong hai liên kết thành phần. Toán tử này do luận án thêm vào bộ phân tích cú pháp tiếng Việt để xử lý trường hợp cho phép chọn chỉ một trong hai cách liên kết, ví dụ liên kết với từ “đẹp”có thể là “rất đẹp” hoặc “đẹp tuyệt vời” nhưng không thể là “rất đẹp tuyệt vời”.

{C}: C có thể xuất hiện hoặc không.

@C: Nhiều thể hiện của kết nối loại C có thể cùng xuất hiện, ví dụ trong đoản ngữ “the cute red hat”, hai tính từ “cute”, “red”, đều bổ nghĩa cho danh từ “hat”.

Macro: Cho phép định nghĩa một số “macro” để viết các công thức ngắn gọn và dễ hiểu hơn, ví dụ một macro định nghĩa mệnh đề:

: {({@COd-} & (C- or )) or ({@CO-} & (Wd- & {CC+})) or [Rn-]};

Trong những công thức tiếp sau, mọi xuất hiện của biểu thức ở vế phải được thay bằng .

Từ điển liên kết tiếng Việt cũng có cấu trúc tương tự như từ điển liên kết tiếng Anh nghĩa là mỗi công thức được thiết lập cho các từ cùng loại. Theo [16], từ tiếng Việt được chia thành các loại như trong bảng 2.1. dưới đây:

Bảng 2.1.Các loại từ tiếng Việt

                             STTMã loạiTên loại
1Ndanh từ
2Vđộng từ
3Atính từ
4Msố từ
5Pđại từ
6Rphụ từ
7Egiới từ
8Cliên từ
9Itrợ từ
10Ocảm từ
11Dđịnh từ
12Zyếu tố từ (bất, vô…)
13Xkhông xác định

Có thể bạn quan tâm!

Xem toàn bộ 305 trang tài liệu này.

Các loại từ lại được chia thành tiểu loại. Trong bảng 2.2 dưới đây là các tiểu loại dựa trên phân cấp của [16] có bổ sung số tiểu loại đáp ứng các yêu cầu phân biệt về liên kết khi dịch theo hệ thống dịch máy của luận án.

Bảng 2.2. Các tiểu loại từ tiếng Việt

STTKý hiệuMã loạiTên tiểu loại
1NpNdanh từ riêng
2NcNdanh từ đơn thể
3NgNdanh từ tổng thể
4NaNdanh từ trừu tượng
5NsNdanh từ chỉ loại
6NuNdanh từ đơn vị
7NlNdanh từ vị trí
8ViVđộng từ nội động
9VtVđộng từ ngoại động
10VsVđộng từ trạng thái
11VmVđộng từ tình thái
12VrVđộng từ quan hệ
13ApAtính từ tính chất
14ArAtính từ quan hệ
15AoAtính từ tượng thanh
16AiAtính từ tượng hình
17McMsố từ số lượng
18MoMsố từ thứ tự
19PpPđại từ xưng hô
20PdPđại từ chỉ định
21PqPđại từ số lượng
22PiPđại từ nghi vấn
23RtRphụ từ thời gian hiện tại
24RpRphụ từ thời gian quá khứ
25RfRphụ từ thời gian tương lai
26RlRphụ từ mức độ
27RcRphụ từ so sánh
28RaRphụ từ khẳng định
29RnRphụ từ phủ định
30RsRphụ từ chỉ phạm vi
31EsEgiới từ phạm vi
32EpEgiới từ vị trí
33EoEgiới từ sở hữu
34EmEgiới từ chất liệu
35EgEgiới từ mục đích
36CsCliên từ chính phụ
37CcCliên từ liên hợp
38IItrợ từ
39OOcảm từ
40DpDđịnh từ số lượng
41DpDđịnh từ chỉ số nhiều
42DsDđịnh từ chỉ số ít
43ZZyếu tố từ (bất, vô…)
44XXkhông xác định

..... Xem trang tiếp theo?
⇦ Trang trước - Trang tiếp theo ⇨

Ngày đăng: 31/10/2021