Mô hình văn phạm liên kết tiếng Việt - 8

Sau khi nghiên cứu và rút ra những đặc điểm của mô hình ngôn ngữ này, luận án sẽ tập trung giải quyết các bài toán sau:

Bài toán phân tích cú pháp . Đây là bài toán bắt buộc phải làm khi xây dựng 1

  • Bài toán phân tích cú pháp. Đây là bài toán bắt buộc phải làm khi xây dựng mô hình biểu diễn cú pháp mới.
  • Bài toán dịch máy. Mô hình văn phạm liên kết biểu diễn được nhiều đặc điểm khác biệt của tiếng Việt mà khi chuyển sang ngôn ngữ khác cần thực hiện nhiều biến đổi. Do vậy, luận án chọn bài toán dịch Việt – Anh nhằm tận dụng khả năng biểu diễn mối liên hệ trực tiếp giữa các từ của mô hình văn phạm liên kết.

CHƯƠNG 2

MÔ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT

2.1.Văn phạm liên kết cho tiếng Việt

Từ định nghĩa hình thức của văn phạm liên kết, có thể thấy công việc quan trọng nhất khi xây dựng văn pham chính là ánh xạ các từ với các nút liên kết.

Nếu đơn vị nguyên tố khi phân tích cú pháp của một số ngôn ngữ là hình vị thì đơn vị đó trong tiếng Việt lại là từ. Theo tài liệu của Ủy ban Khoa học Xã hội [28], mỗi từ trong tiếng Việt có thể gồm nhiều hình vị. Việc phát hiện giới hạn từ trong văn bản được thực hiện nhờ bộ tách từ tự động.

Tiếng Việt có những đặc điểm khác biệt với các ngôn ngữ khác, như trong ngữ nghĩa, không có các ý nghĩa thuộc phạm trù hình thái (giống, số, cách); trong hoạt động tạo câu, các mối liên hệ ngữ pháp không biểu hiện ở sự biến hình mà biểu hiện bằng trật tự từ [16]. Kết nối của văn phạm liên kết hoàn toàn có thể biểu diễn các mối liên hệ này.

Liên kết xuất hiện khi các từ được tổ hợp lại. Theo Nguyễn Tài Cẩn [2], có ba loại tổ hợp chính: liên hợp, mệnh đề và đoản ngữ. Liên hợp và mệnh đề sẽ được xét đến khi thực hiện những bước phân tích cú pháp phức tạp và sẽ được nhắc đến ở chương sau. Đoản ngữ (ngữ – phrase) là những tổ hợp gồm một trung tâm nối liền với các thành tố phụ bằng quan hệ chính phụ [2]. Tùy theo kiểu của trung tâm, đoản ngữ được chia thành danh ngữ, động ngữ hay tính ngữ. Các quan hệ liên kết sẽ được xây dựng căn cứ vào cấu trúc của các đoản ngữ. Ngoài ra một số quan hệ không được biểu diễn qua quan hệ từ, ví dụ “mẹ tôi”, “áo anh”, là các cụm hai danh từ đi cạnh nhau, danh từ thứ hai sẽ chỉ chủ sở hữu của danh từ thứ nhất. Đây là một trong nhiều hiện tượng đặc biệt của cú pháp tiếng Việt. Việc thể hiện được các mối liên hệ này sẽ hỗ trợ đắc lực cho hệ thống dịch máy với ngôn ngữ nguồn là tiếng Việt.

Toàn bộ các trường hợp liên kết sẽ được lưu trữ lại trong từ điển văn phạm liên kết.

2.1.1. Cấu trúc từ điển liên kết

Hệ thống từ điển văn phạm liên kết tiếng Anh được xây dựng bởi Sleator và Temperley, theo [111]. Năm 2003, Szolovits thêm vào hàng loạt các từ trong lĩnh vực y học [113]. Từ 2008 đến 2011, từ điển được cập nhật bởi Linas Vepstas, thêm các quan hệ cho mệnh đề, Mike Ross cũng mới thêm vào một số mục mới chủ yếu liên quan đến các mệnh đề phụ với các từ “than” và các từ liên kết dạng “wh”[137].

Hệ thống được chia làm 12 mục lớn với 7 mục dành cho các loại từ tiếng Anh: danh từ, từ hạn định, đại từ, động từ, tính từ, phó từ và giới từ. Ngoài ra có các mục:

  • Các dạng số.
  • Từ chỉ thời gian, địa danh.
  • Liên từ, từ để hỏi.
  • Từ so sánh.
  • Dấu câu, các từ khác.

Để tổ chức lưu trữ dễ dàng, [111] đã đưa ra ký pháp để tạo thành công thức biểu diễn các luật liên kết, đó là:

Chiều của liên kết:

Dấu “+” nằm sau tên kết nối chỉ liên kết với từ nằm bên phải,

Dấu “-” nằm sau tên kết nối chỉ liên kết với từ nằm bên trái,

Toán tử :

& xảy ra đồng thời cả hai liên kết thành phần.

or xảy ra một trong hai, hoặc cả hai liên kết thành phần.

xor chỉ chọn một trong hai liên kết thành phần. Toán tử này do luận án thêm vào bộ phân tích cú pháp tiếng Việt để xử lý trường hợp cho phép chọn chỉ một trong hai cách liên kết, ví dụ liên kết với từ “đẹp”có thể là “rất đẹp” hoặc “đẹp tuyệt vời” nhưng không thể là “rất đẹp tuyệt vời”.

{C}: C có thể xuất hiện hoặc không.

@C: Nhiều thể hiện của kết nối loại C có thể cùng xuất hiện, ví dụ trong đoản ngữ “the cute red hat”, hai tính từ “cute”, “red”, đều bổ nghĩa cho danh từ “hat”.

Macro: Cho phép định nghĩa một số “macro” để viết các công thức ngắn gọn và dễ hiểu hơn, ví dụ một macro định nghĩa mệnh đề:

: {({@COd-} & (C- or )) or ({@CO-} & (Wd- & {CC+})) or [Rn-]};

Trong những công thức tiếp sau, mọi xuất hiện của biểu thức ở vế phải được thay bằng .

Từ điển liên kết tiếng Việt cũng có cấu trúc tương tự như từ điển liên kết tiếng Anh nghĩa là mỗi công thức được thiết lập cho các từ cùng loại. Theo [16], từ tiếng Việt được chia thành các loại như trong bảng 2.1. dưới đây:

Bảng 2.1.Các loại từ tiếng Việt

                             STT Mã loại Tên loại
1 N danh từ
2 V động từ
3 A tính từ
4 M số từ
5 P đại từ
6 R phụ từ
7 E giới từ
8 C liên từ
9 I trợ từ
10 O cảm từ
11 D định từ
12 Z yếu tố từ (bất, vô…)
13 X không xác định

Có thể bạn quan tâm!

Xem toàn bộ 305 trang: Mô hình văn phạm liên kết tiếng Việt

Các loại từ lại được chia thành tiểu loại. Trong bảng 2.2 dưới đây là các tiểu loại dựa trên phân cấp của [16] có bổ sung số tiểu loại đáp ứng các yêu cầu phân biệt về liên kết khi dịch theo hệ thống dịch máy của luận án.

Bảng 2.2. Các tiểu loại từ tiếng Việt

STT Ký hiệu Mã loại Tên tiểu loại
1 Np N danh từ riêng
2 Nc N danh từ đơn thể
3 Ng N danh từ tổng thể
4 Na N danh từ trừu tượng
5 Ns N danh từ chỉ loại
6 Nu N danh từ đơn vị
7 Nl N danh từ vị trí
8 Vi V động từ nội động
9 Vt V động từ ngoại động
10 Vs V động từ trạng thái
11 Vm V động từ tình thái
12 Vr V động từ quan hệ
13 Ap A tính từ tính chất
14 Ar A tính từ quan hệ
15 Ao A tính từ tượng thanh
16 Ai A tính từ tượng hình
17 Mc M số từ số lượng
18 Mo M số từ thứ tự
19 Pp P đại từ xưng hô
20 Pd P đại từ chỉ định
21 Pq P đại từ số lượng
22 Pi P đại từ nghi vấn
23 Rt R phụ từ thời gian hiện tại
24 Rp R phụ từ thời gian quá khứ
25 Rf R phụ từ thời gian tương lai
26 Rl R phụ từ mức độ
27 Rc R phụ từ so sánh
28 Ra R phụ từ khẳng định
29 Rn R phụ từ phủ định
30 Rs R phụ từ chỉ phạm vi
31 Es E giới từ phạm vi
32 Ep E giới từ vị trí
33 Eo E giới từ sở hữu
34 Em E giới từ chất liệu
35 Eg E giới từ mục đích
36 Cs C liên từ chính phụ
37 Cc C liên từ liên hợp
38 I I trợ từ
39 O O cảm từ
40 Dp D định từ số lượng
41 Dp D định từ chỉ số nhiều
42 Ds D định từ chỉ số ít
43 Z Z yếu tố từ (bất, vô…)
44 X X không xác định

Download pdf, tải về file docx

Ngày đăng: 31/10/2021
Đánh giá:
4.7/5 (1 bình chọn)

Gửi tin nhắn


Đồng ý Chính sách bảo mật *

Trang chủ Tài liệu miễn phí Thư viện số