Mô hình văn phạm liên kết tiếng Việt - 8
Sau khi nghiên cứu và rút ra những đặc điểm của mô hình ngôn ngữ này, luận án sẽ tập trung giải quyết các bài toán sau:
- Bài toán phân tích cú pháp. Đây là bài toán bắt buộc phải làm khi xây dựng mô hình biểu diễn cú pháp mới.
- Bài toán dịch máy. Mô hình văn phạm liên kết biểu diễn được nhiều đặc điểm khác biệt của tiếng Việt mà khi chuyển sang ngôn ngữ khác cần thực hiện nhiều biến đổi. Do vậy, luận án chọn bài toán dịch Việt – Anh nhằm tận dụng khả năng biểu diễn mối liên hệ trực tiếp giữa các từ của mô hình văn phạm liên kết.
CHƯƠNG 2
MÔ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT
2.1.Văn phạm liên kết cho tiếng Việt
Từ định nghĩa hình thức của văn phạm liên kết, có thể thấy công việc quan trọng nhất khi xây dựng văn pham chính là ánh xạ các từ với các nút liên kết.
Nếu đơn vị nguyên tố khi phân tích cú pháp của một số ngôn ngữ là hình vị thì đơn vị đó trong tiếng Việt lại là từ. Theo tài liệu của Ủy ban Khoa học Xã hội [28], mỗi từ trong tiếng Việt có thể gồm nhiều hình vị. Việc phát hiện giới hạn từ trong văn bản được thực hiện nhờ bộ tách từ tự động.
Tiếng Việt có những đặc điểm khác biệt với các ngôn ngữ khác, như trong ngữ nghĩa, không có các ý nghĩa thuộc phạm trù hình thái (giống, số, cách); trong hoạt động tạo câu, các mối liên hệ ngữ pháp không biểu hiện ở sự biến hình mà biểu hiện bằng trật tự từ [16]. Kết nối của văn phạm liên kết hoàn toàn có thể biểu diễn các mối liên hệ này.
Liên kết xuất hiện khi các từ được tổ hợp lại. Theo Nguyễn Tài Cẩn [2], có ba loại tổ hợp chính: liên hợp, mệnh đề và đoản ngữ. Liên hợp và mệnh đề sẽ được xét đến khi thực hiện những bước phân tích cú pháp phức tạp và sẽ được nhắc đến ở chương sau. Đoản ngữ (ngữ – phrase) là những tổ hợp gồm một trung tâm nối liền với các thành tố phụ bằng quan hệ chính phụ [2]. Tùy theo kiểu của trung tâm, đoản ngữ được chia thành danh ngữ, động ngữ hay tính ngữ. Các quan hệ liên kết sẽ được xây dựng căn cứ vào cấu trúc của các đoản ngữ. Ngoài ra một số quan hệ không được biểu diễn qua quan hệ từ, ví dụ “mẹ tôi”, “áo anh”, là các cụm hai danh từ đi cạnh nhau, danh từ thứ hai sẽ chỉ chủ sở hữu của danh từ thứ nhất. Đây là một trong nhiều hiện tượng đặc biệt của cú pháp tiếng Việt. Việc thể hiện được các mối liên hệ này sẽ hỗ trợ đắc lực cho hệ thống dịch máy với ngôn ngữ nguồn là tiếng Việt.
Toàn bộ các trường hợp liên kết sẽ được lưu trữ lại trong từ điển văn phạm liên kết.
2.1.1. Cấu trúc từ điển liên kết
Hệ thống từ điển văn phạm liên kết tiếng Anh được xây dựng bởi Sleator và Temperley, theo [111]. Năm 2003, Szolovits thêm vào hàng loạt các từ trong lĩnh vực y học [113]. Từ 2008 đến 2011, từ điển được cập nhật bởi Linas Vepstas, thêm các quan hệ cho mệnh đề, Mike Ross cũng mới thêm vào một số mục mới chủ yếu liên quan đến các mệnh đề phụ với các từ “than” và các từ liên kết dạng “wh”[137].
Hệ thống được chia làm 12 mục lớn với 7 mục dành cho các loại từ tiếng Anh: danh từ, từ hạn định, đại từ, động từ, tính từ, phó từ và giới từ. Ngoài ra có các mục:
- Các dạng số.
- Từ chỉ thời gian, địa danh.
- Liên từ, từ để hỏi.
- Từ so sánh.
- Dấu câu, các từ khác.
Để tổ chức lưu trữ dễ dàng, [111] đã đưa ra ký pháp để tạo thành công thức biểu diễn các luật liên kết, đó là:
Chiều của liên kết:
Dấu “+” nằm sau tên kết nối chỉ liên kết với từ nằm bên phải,
Dấu “-” nằm sau tên kết nối chỉ liên kết với từ nằm bên trái,
Toán tử :
& xảy ra đồng thời cả hai liên kết thành phần.
or xảy ra một trong hai, hoặc cả hai liên kết thành phần.
xor chỉ chọn một trong hai liên kết thành phần. Toán tử này do luận án thêm vào bộ phân tích cú pháp tiếng Việt để xử lý trường hợp cho phép chọn chỉ một trong hai cách liên kết, ví dụ liên kết với từ “đẹp”có thể là “rất đẹp” hoặc “đẹp tuyệt vời” nhưng không thể là “rất đẹp tuyệt vời”.
{C}: C có thể xuất hiện hoặc không.
@C: Nhiều thể hiện của kết nối loại C có thể cùng xuất hiện, ví dụ trong đoản ngữ “the cute red hat”, hai tính từ “cute”, “red”, đều bổ nghĩa cho danh từ “hat”.
Macro: Cho phép định nghĩa một số “macro” để viết các công thức ngắn gọn và dễ hiểu hơn, ví dụ một macro định nghĩa mệnh đề:
: {({@COd-} & (C- or )) or ({@CO-} & (Wd- & {CC+})) or [Rn-]};
Trong những công thức tiếp sau, mọi xuất hiện của biểu thức ở vế phải được thay bằng .
Từ điển liên kết tiếng Việt cũng có cấu trúc tương tự như từ điển liên kết tiếng Anh nghĩa là mỗi công thức được thiết lập cho các từ cùng loại. Theo [16], từ tiếng Việt được chia thành các loại như trong bảng 2.1. dưới đây:
Bảng 2.1.Các loại từ tiếng Việt
STT | Mã loại | Tên loại |
1 | N | danh từ |
2 | V | động từ |
3 | A | tính từ |
4 | M | số từ |
5 | P | đại từ |
6 | R | phụ từ |
7 | E | giới từ |
8 | C | liên từ |
9 | I | trợ từ |
10 | O | cảm từ |
11 | D | định từ |
12 | Z | yếu tố từ (bất, vô…) |
13 | X | không xác định |
Có thể bạn quan tâm!
-
Mô hình văn phạm liên kết tiếng Việt - 5
-
Mô hình văn phạm liên kết tiếng Việt - 6
-
Mô hình văn phạm liên kết tiếng Việt - 7
-
Mô hình văn phạm liên kết tiếng Việt - 9
-
Mô hình văn phạm liên kết tiếng Việt - 10
-
Mô hình văn phạm liên kết tiếng Việt - 11
Xem toàn bộ 305 trang: Mô hình văn phạm liên kết tiếng Việt
Các loại từ lại được chia thành tiểu loại. Trong bảng 2.2 dưới đây là các tiểu loại dựa trên phân cấp của [16] có bổ sung số tiểu loại đáp ứng các yêu cầu phân biệt về liên kết khi dịch theo hệ thống dịch máy của luận án.
Bảng 2.2. Các tiểu loại từ tiếng Việt
STT | Ký hiệu | Mã loại | Tên tiểu loại |
1 | Np | N | danh từ riêng |
2 | Nc | N | danh từ đơn thể |
3 | Ng | N | danh từ tổng thể |
4 | Na | N | danh từ trừu tượng |
5 | Ns | N | danh từ chỉ loại |
6 | Nu | N | danh từ đơn vị |
7 | Nl | N | danh từ vị trí |
8 | Vi | V | động từ nội động |
9 | Vt | V | động từ ngoại động |
10 | Vs | V | động từ trạng thái |
11 | Vm | V | động từ tình thái |
12 | Vr | V | động từ quan hệ |
13 | Ap | A | tính từ tính chất |
14 | Ar | A | tính từ quan hệ |
15 | Ao | A | tính từ tượng thanh |
16 | Ai | A | tính từ tượng hình |
17 | Mc | M | số từ số lượng |
18 | Mo | M | số từ thứ tự |
19 | Pp | P | đại từ xưng hô |
20 | Pd | P | đại từ chỉ định |
21 | Pq | P | đại từ số lượng |
22 | Pi | P | đại từ nghi vấn |
23 | Rt | R | phụ từ thời gian hiện tại |
24 | Rp | R | phụ từ thời gian quá khứ |
25 | Rf | R | phụ từ thời gian tương lai |
26 | Rl | R | phụ từ mức độ |
27 | Rc | R | phụ từ so sánh |
28 | Ra | R | phụ từ khẳng định |
29 | Rn | R | phụ từ phủ định |
30 | Rs | R | phụ từ chỉ phạm vi |
31 | Es | E | giới từ phạm vi |
32 | Ep | E | giới từ vị trí |
33 | Eo | E | giới từ sở hữu |
34 | Em | E | giới từ chất liệu |
35 | Eg | E | giới từ mục đích |
36 | Cs | C | liên từ chính phụ |
37 | Cc | C | liên từ liên hợp |
38 | I | I | trợ từ |
39 | O | O | cảm từ |
40 | Dp | D | định từ số lượng |
41 | Dp | D | định từ chỉ số nhiều |
42 | Ds | D | định từ chỉ số ít |
43 | Z | Z | yếu tố từ (bất, vô…) |
44 | X | X | không xác định |

Bài viết tương tự
- Kinh doanh các dịch vụ liên quan đến rác thải mô hình tại Nhật Bản và bài học kinh nghiệm đối với Việt Nam
- Phân tách cụm danh từ cơ sở tiếng việt sử dụng mô hình crfs
- Nghiên cứu xây dựng mô hình nữ vận động viên chạy 100m cấp cao Việt Nam
- Mô hình tố tụng hình sự Việt Nam và vấn đề áp dụng tố tụng tranh tụng
- Tình hình song ngữ khmer-việt tại đồng bằng sông cửu long – một số vấn đề lý thuyết và thực tiễn
Gửi tin nhắn
Danh mục
Bài viết tương tự
-
Luận cứ khoa học về xác định mô hình quản lý rủi ro tín dụng tại hệ thống ngân hàng thương mại Việt Nam
-
KHẢO SÁT NHANH CÁC LOẠI HÌNH CHỨNG KHOÁN PHÁI SINH VÀ SẢN PHẨM GIAO DỊCH MỚI TRÊN THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM
-
Ảnh hưởng của văn hoá phương Đông đến hành vi tiêu dùng hàng thực phẩm của người Việt Nam
-
Dịch vụ phân phối và những vấn đề đặt ra trong việc thực hiện cam kết của Việt Nam khi gia nhập WTO
-
Mô hình chiến lược" Đại dương xanh" và thực tế áp dụng đối với các doanh nghiệp Việt Nam
-
Kinh nghiệm phát triển mô hình Keiretsu ở Nhật Bản, Chaebol ở Hàn Quốc và định hướng cho các tập đoàn kinh tế của Việt Nam
-
Mô hình bán lẻ chuyên biệt và triển vọng phát triển tại Việt Nam
-
Mô hình cửa hàng tiện lợi tại Việt Nam: Thực trạng và giải pháp
-
Mô hình kinh doanh Báo mạng tại Việt Nam: thực trạng và giải pháp
-
Mô hình quản lý kinh doanh rác thải phù hợp cho Việt Nam
-
Mô hình tập đoàn kinh tế - hoạt động của tập đoàn dầu khí Việt Nam giai đoạn 2006 - 2008 và xu hướng phát triển
-
Mô hình tập đoàn kinh tế Việt Nam - Hiện trạng và xu hướng phát triển trong thời gian tới
-
Mô hình và hoạt động của các công ty chứng khoán trên thị trường chứng khoán Việt Nam hiện nay
-
Nghiên cứu mô hình đấu giá trực tuyến của EBAY và những đề xuất cho Việt Nam
-
Nghiên cứu mô hình tập đoàn ở một số nước Đông Nam Á và bài học cho Việt Nam
-
Nghiên cứu mô hình xúc tiến và hỗ trợ thương mại điện tử cho doanh nghiệp - Kinh nghiệm trên thế giới và bài học đối với Việt Nam
-
Phân tích mô hình quản trị chuỗi cung ứng của Toyta và bài học kinh nghiệm cho các doanh nghiệp sản xuất ô tô của Việt Nam
-
Mô hình chủ sở hữu nhà nước tại doanh nghiệp có vốn nhà nước ở Việt Nam
-
Một số vấn đề cơ bản để giảm và tiến tới xóa bỏ hình phạt tử hình trong Luật hình sự Việt Nam
-
Tội tàng trữ, vận chuyển, mua bán trái phép chất ma túy trong luật hình sự Việt Nam
-
Các tình tiết tăng nặng trách nhiệm hình sự thuộc về nhân thân người phạm tội trong luật hình sự Việt Nam (trên cơ sở thực tiễn tại địa bàn tỉnh Hà Giang)
-
Văn hóa gia đình tại các khu đô thị mới ở Hà Nội với việc tiếp nhận truyền hình đa nền tảng ở Việt Nam
-
Nghiên cứu đặc điểm lâm sàng, giải phẫu bệnh và kết quả điều trị ung thư ống tiêu hóa không thuộc biểu mô tại bệnh viện Việt Đức
Tin nhắn