Sau khi nghiên cứu và rút ra những đặc điểm của mô hình ngôn ngữ này, luận án sẽ tập trung giải quyết các bài toán sau:
- Bài toán phân tích cú pháp. Đây là bài toán bắt buộc phải làm khi xây dựng mô hình biểu diễn cú pháp mới.
- Bài toán dịch máy. Mô hình văn phạm liên kết biểu diễn được nhiều đặc điểm khác biệt của tiếng Việt mà khi chuyển sang ngôn ngữ khác cần thực hiện nhiều biến đổi. Do vậy, luận án chọn bài toán dịch Việt – Anh nhằm tận dụng khả năng biểu diễn mối liên hệ trực tiếp giữa các từ của mô hình văn phạm liên kết.
CHƯƠNG 2
MÔ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT
2.1.Văn phạm liên kết cho tiếng Việt
Từ định nghĩa hình thức của văn phạm liên kết, có thể thấy công việc quan trọng nhất khi xây dựng văn pham chính là ánh xạ các từ với các nút liên kết.
Nếu đơn vị nguyên tố khi phân tích cú pháp của một số ngôn ngữ là hình vị thì đơn vị đó trong tiếng Việt lại là từ. Theo tài liệu của Ủy ban Khoa học Xã hội [28], mỗi từ trong tiếng Việt có thể gồm nhiều hình vị. Việc phát hiện giới hạn từ trong văn bản được thực hiện nhờ bộ tách từ tự động.
Tiếng Việt có những đặc điểm khác biệt với các ngôn ngữ khác, như trong ngữ nghĩa, không có các ý nghĩa thuộc phạm trù hình thái (giống, số, cách); trong hoạt động tạo câu, các mối liên hệ ngữ pháp không biểu hiện ở sự biến hình mà biểu hiện bằng trật tự từ [16]. Kết nối của văn phạm liên kết hoàn toàn có thể biểu diễn các mối liên hệ này.
Liên kết xuất hiện khi các từ được tổ hợp lại. Theo Nguyễn Tài Cẩn [2], có ba loại tổ hợp chính: liên hợp, mệnh đề và đoản ngữ. Liên hợp và mệnh đề sẽ được xét đến khi thực hiện những bước phân tích cú pháp phức tạp và sẽ được nhắc đến ở chương sau. Đoản ngữ (ngữ – phrase) là những tổ hợp gồm một trung tâm nối liền với các thành tố phụ bằng quan hệ chính phụ [2]. Tùy theo kiểu của trung tâm, đoản ngữ được chia thành danh ngữ, động ngữ hay tính ngữ. Các quan hệ liên kết sẽ được xây dựng căn cứ vào cấu trúc của các đoản ngữ. Ngoài ra một số quan hệ không được biểu diễn qua quan hệ từ, ví dụ “mẹ tôi”, “áo anh”, là các cụm hai danh từ đi cạnh nhau, danh từ thứ hai sẽ chỉ chủ sở hữu của danh từ thứ nhất. Đây là một trong nhiều hiện tượng đặc biệt của cú pháp tiếng Việt. Việc thể hiện được các mối liên hệ này sẽ hỗ trợ đắc lực cho hệ thống dịch máy với ngôn ngữ nguồn là tiếng Việt.
Toàn bộ các trường hợp liên kết sẽ được lưu trữ lại trong từ điển văn phạm liên kết.
2.1.1. Cấu trúc từ điển liên kết
Hệ thống từ điển văn phạm liên kết tiếng Anh được xây dựng bởi Sleator và Temperley, theo [111]. Năm 2003, Szolovits thêm vào hàng loạt các từ trong lĩnh vực y học [113]. Từ 2008 đến 2011, từ điển được cập nhật bởi Linas Vepstas, thêm các quan hệ cho mệnh đề, Mike Ross cũng mới thêm vào một số mục mới chủ yếu liên quan đến các mệnh đề phụ với các từ “than” và các từ liên kết dạng “wh”[137].
Hệ thống được chia làm 12 mục lớn với 7 mục dành cho các loại từ tiếng Anh: danh từ, từ hạn định, đại từ, động từ, tính từ, phó từ và giới từ. Ngoài ra có các mục:
- Các dạng số.
- Từ chỉ thời gian, địa danh.
- Liên từ, từ để hỏi.
- Từ so sánh.
- Dấu câu, các từ khác.
Để tổ chức lưu trữ dễ dàng, [111] đã đưa ra ký pháp để tạo thành công thức biểu diễn các luật liên kết, đó là:
Chiều của liên kết:
Dấu “+” nằm sau tên kết nối chỉ liên kết với từ nằm bên phải,
Dấu “-” nằm sau tên kết nối chỉ liên kết với từ nằm bên trái,
Toán tử :
& xảy ra đồng thời cả hai liên kết thành phần.
or xảy ra một trong hai, hoặc cả hai liên kết thành phần.
xor chỉ chọn một trong hai liên kết thành phần. Toán tử này do luận án thêm vào bộ phân tích cú pháp tiếng Việt để xử lý trường hợp cho phép chọn chỉ một trong hai cách liên kết, ví dụ liên kết với từ “đẹp”có thể là “rất đẹp” hoặc “đẹp tuyệt vời” nhưng không thể là “rất đẹp tuyệt vời”.
{C}: C có thể xuất hiện hoặc không.
@C: Nhiều thể hiện của kết nối loại C có thể cùng xuất hiện, ví dụ trong đoản ngữ “the cute red hat”, hai tính từ “cute”, “red”, đều bổ nghĩa cho danh từ “hat”.
Macro: Cho phép định nghĩa một số “macro” để viết các công thức ngắn gọn và dễ hiểu hơn, ví dụ một macro định nghĩa mệnh đề:
: {({@COd-} & (C- or )) or ({@CO-} & (Wd- & {CC+})) or [Rn-]};
Trong những công thức tiếp sau, mọi xuất hiện của biểu thức ở vế phải được thay bằng .
Từ điển liên kết tiếng Việt cũng có cấu trúc tương tự như từ điển liên kết tiếng Anh nghĩa là mỗi công thức được thiết lập cho các từ cùng loại. Theo [16], từ tiếng Việt được chia thành các loại như trong bảng 2.1. dưới đây:
Bảng 2.1.Các loại từ tiếng Việt
STT | Mã loại | Tên loại |
1 | N | danh từ |
2 | V | động từ |
3 | A | tính từ |
4 | M | số từ |
5 | P | đại từ |
6 | R | phụ từ |
7 | E | giới từ |
8 | C | liên từ |
9 | I | trợ từ |
10 | O | cảm từ |
11 | D | định từ |
12 | Z | yếu tố từ (bất, vô…) |
13 | X | không xác định |
Có thể bạn quan tâm!
- Tiếp Cận Qua Cấu Trúc Nét Và Văn Phạm Hợp Nhất
- Mô hình văn phạm liên kết tiếng Việt - 6
- Các Định Nghĩa Hình Thức Về Văn Phạm Liên Kết
- Liên Kết Của Danh Từ Đóng Vai Trò Chủ Ngữ, Bổ Ngữ
- Mô hình văn phạm liên kết tiếng Việt - 10
- Xây Dựng Liên Kết Dựa Trên Cấu Trúc Động Ngữ
Xem toàn bộ 305 trang tài liệu này.
Các loại từ lại được chia thành tiểu loại. Trong bảng 2.2 dưới đây là các tiểu loại dựa trên phân cấp của [16] có bổ sung số tiểu loại đáp ứng các yêu cầu phân biệt về liên kết khi dịch theo hệ thống dịch máy của luận án.
Bảng 2.2. Các tiểu loại từ tiếng Việt
STT | Ký hiệu | Mã loại | Tên tiểu loại |
1 | Np | N | danh từ riêng |
2 | Nc | N | danh từ đơn thể |
3 | Ng | N | danh từ tổng thể |
4 | Na | N | danh từ trừu tượng |
5 | Ns | N | danh từ chỉ loại |
6 | Nu | N | danh từ đơn vị |
7 | Nl | N | danh từ vị trí |
8 | Vi | V | động từ nội động |
9 | Vt | V | động từ ngoại động |
10 | Vs | V | động từ trạng thái |
11 | Vm | V | động từ tình thái |
12 | Vr | V | động từ quan hệ |
13 | Ap | A | tính từ tính chất |
14 | Ar | A | tính từ quan hệ |
15 | Ao | A | tính từ tượng thanh |
16 | Ai | A | tính từ tượng hình |
17 | Mc | M | số từ số lượng |
18 | Mo | M | số từ thứ tự |
19 | Pp | P | đại từ xưng hô |
20 | Pd | P | đại từ chỉ định |
21 | Pq | P | đại từ số lượng |
22 | Pi | P | đại từ nghi vấn |
23 | Rt | R | phụ từ thời gian hiện tại |
24 | Rp | R | phụ từ thời gian quá khứ |
25 | Rf | R | phụ từ thời gian tương lai |
26 | Rl | R | phụ từ mức độ |
27 | Rc | R | phụ từ so sánh |
28 | Ra | R | phụ từ khẳng định |
29 | Rn | R | phụ từ phủ định |
30 | Rs | R | phụ từ chỉ phạm vi |
31 | Es | E | giới từ phạm vi |
32 | Ep | E | giới từ vị trí |
33 | Eo | E | giới từ sở hữu |
34 | Em | E | giới từ chất liệu |
35 | Eg | E | giới từ mục đích |
36 | Cs | C | liên từ chính phụ |
37 | Cc | C | liên từ liên hợp |
38 | I | I | trợ từ |
39 | O | O | cảm từ |
40 | Dp | D | định từ số lượng |
41 | Dp | D | định từ chỉ số nhiều |
42 | Ds | D | định từ chỉ số ít |
43 | Z | Z | yếu tố từ (bất, vô…) |
44 | X | X | không xác định |