Mô hình văn phạm liên kết tiếng Việt - 27
Vế trái
Vế trái của luật gồm một số từ và các dạng tuyển để liên kết các từ đó với nhau. Có một chút khác biệt giữa dạng tuyển của các từ và dạng tuyển được mô tả trong luật. Dạng tuyển trong luật chỉ nêu những kết nối mà luật sẽ xử lý. Trước và sau các kết nối này trong dạng tuyển của từng từ có thể có các kết nối khác.Chẳng hạn, dạng tuyển ( )(SA, SA) xuất hiên trong luật nghĩa là luật sẽ xử lý hai kết nối liên tiếp có tên SA trong danh sách phải và không xử lý kết nối nào trong danh sách trái.
Ví dụ: Vế trái sau đây mô tả cụm từ “đi học”. Cụm này gồm từ “đi” và từ “học” Hai từ liên kết với nhau bằng liên kết DI
đi(SV)(DI) học(DI)()
Trong khi đó, vế trái
anh(O)(NtPd) *(NtPd)()
mô tả cụm từ bao gồm từ “anh” và một từ bất kỳ có liên kết NtPd về bên trái (“ấy”. “ta”,”đó”). Cụm này sẽ nằm ở vế trái của luật xác định nghĩa tiếng Anh là “him”
Vế phải
Vế phải liệt kê xâu sẽ được dùng để thay thế vào vế trái, có thể chứa những đối tượng sau:
Có thể bạn quan tâm!
-
Mô hình văn phạm liên kết tiếng Việt - 24
-
Mô hình văn phạm liên kết tiếng Việt - 25
-
Mô hình văn phạm liên kết tiếng Việt - 26
-
Mô hình văn phạm liên kết tiếng Việt - 28
-
Mô hình văn phạm liên kết tiếng Việt - 29
-
Mô hình văn phạm liên kết tiếng Việt - 30
Xem toàn bộ 305 trang: Mô hình văn phạm liên kết tiếng Việt
- $i (i = 1, 2, 3…) nghĩa của từ đứng thứ i ở vế trái.
- Lời gọi hàm với cấu trúc ().
Bốn hàm sau được sử dụng trong các luật:
set-string (word, new-string) Thay từ word bằng xâu mới new-string.
set-feature (word, name, value) Thiết lập giá trị value cho thuộc tính chỉ bởi name.
copy-feature(word, name, ref ) Chép giá trị thuộc tính chỉ bởi name của từ word sang thuộc tính name của từ chỉ bởi ref .
remove-feature (word, name) Xóa thuộc tính có tên name của từ chỉ bởi word.
Bộ luật xây dựng theo văn phạm nói trên được lưu trữ trong tệp XML với cấu trúc như sau:
< !−− luat trong nhom −−>
…
…
excludes=“ past,future”> …
…
Trong tập luật này,
- Ký hiệu … chỉ nội dung của luật, có thể viết trên nhiều dòng.
- Thuộc tính requires chứa tập các luật cần thực hiện trước luật đang xét
- Thuộc tính excludes ngăn cản việc thực hiện luật đang xét nếu một trong các luật trong danh sách sau từ khóa excludes đã được thực hiện
Luật được đọc từ tệp XML, phân tích và xử lý tự động theo văn phạm. Với cú pháp khá đơn giản, người sử dụng có thể dễ dàng thêm luật mới.
Các luật chính được liệt kê trong phụ lục 4.
4.3.3.Hoàn thiện câu dịch
Sau khi đã phát hiện thuộc tính, di chuyển vị trí, biến đổi hình thái thích hợp, còn một số vấn đề cần thực hiện để tạo ra bản dịch có chất lượng tốt. Đó là:
- Hiện tượng chuyển loại từ:
– Danh từ có vai trò tính từ. Khi dịch sang tiếng Anh cần chuyển thành tính từ, ví dụ “huy chương vàng” , vàng ở đây là từ chỉ chất liệu với liên kết CH, cần chuyển sang tính từ tương ứng.
– Tính từ hay động từ đi sau “sự”, “việc” làm chuyển loại cả cụm từ thành danh từ.
- Tính từ bổ nghĩa cho động từ: Tiếng Việt không có phó từ, nhưng sang tiếng Anh cần dịch thành phó từ.
- Loại bỏ danh từ chỉ loại.
Luận án đã xây dựng tập luật bao trùm được các hiện tượng này
Lựa chọn nghĩa từ: Dù đã qua nhiều công đoạn khử nhập nhằng trong quá trình phân tích cú pháp, đến đây ta vẫn có thể gặp hiện tượng nhập nhằng về nghĩa từ, đó là khi một từ tiếng Việt tương ứng với nhiều nghĩa tiếng Anh khác nhau. Chẳng hạn từ “làm” có thể mang nghĩa “make” hay “manufacture” (Lưu ý là từ “làm” với nghĩa tương ứng “work” gắn với một công thức khác so với từ “làm” mang hai nghĩa trên).
Như vậy, dù chỉ có một phân tích liên kết duy nhất được chọn, vẫn có thể có nhiều bản dịch tương ứng với nhiều tổ hợp nghĩa khác nhau của các từ. Vấn đề ở đây là chọn ra tổ hợp “trôi chảy” nhất, tức là cách thức hay được người bản ngữ sử dụng nhất. Luận án đã giải quyết bằng cách dùng bộ ngữ liệu tiếng Anh và tính xác suất để chọn bản dịch tốt nhất. Bộ ngữ liệu được chọn là COCA rút gọn (chỉ chứa những n-gram xuất hiện ba lần trở lên) [136].
Câu S với các từ w1, w2,. . .wnđược chọn dựa theo tiêu chí sau:
4.3.4.Kết quả thử nghiệm với bộ dịch dựa trên dạng tuyển có chú giải
Như đã giới hạn phạm vi quan tâm ngay từ đầu, việc thử nghiệm hệ thống dịch với ADJ là để minh họa khả năng biểu diễn của văn phạm liên kết tiếng Việt, còn phải hoàn thiện nhiều để trở thành một công cụ dịch phổ biến. Tuy nhiên, đề xây dựng bộ ngữ liệu thử nghiệm cũng là một khó khăn. Hiện chưa có bộ ngữ liệu chuẩn cho dịch Việt – Anh nên chúng tôi đã tự xây dựng bộ ngữ liệu riêng cho mình.
Hệ thống dịch được xây dựng bằng công cụ Java để tích hợp với các bộ phân tích cú pháp. Bộ ngữ liệu gồm 336 câu thu thập từ sách dạy tiếng Việt cho người nước ngoài trình độ nâng cao [18]. Ưu điểm của tập mẫu này là chúng được viết bởi các giáo sư về tiếng Việt và bản dịch tiếng Anh đã được hiệu đính cẩn thận. Dưới đây là ví dụ minh họa hoạt động của hệ thống dich xử lý một số mẫu câu:
1.”Mẹ tôi là một bác_sĩ giỏi”
Kết quả phân tích cú pháp:
Các dạng tuyển tìm được cho mỗi từ là:
mẹ: ()(SHA DT_LA)
tôi: (SHA)()
là: (DT_LA)(LA_DT)
một: ()(McN)
bác sĩ: (McN LA_DT)(SA)
giỏi: (SA)()
Để dịch câu này, các luật sau đã được áp dụng
- Luật xác định ngôi cho danh từ “mẹ”.
- Luật dịch quan hệ sở hữu ẩn.
- Luật chuyển đổi thứ tự giữa nghĩa của danh từ “bác sĩ” và tính từ “giỏi” .
Bản dịch được hệ thống của luận án và hệ thống Google đưa ra là giống nhau:
My mother is a good doctor
Kết quả dịch với VEtran:
My mother is a jurisprudent physician.
Kết quả dịch của ba hệ thống không có sự khác biệt lớn. Hệ thống của luận án và Google có sự đối chiếu với ngữ liệu mẫu khi chọn từ nên đưa ra bản dịch “good doctor” trong khi VEtran dùng cụm từ “jurisprudent physician” về nghĩa trong từ điển Việt – Anh không khác biệt nhưng không sát nghĩa thực tế.
2. “Báo_săn là loài động_vật nhanh nhất thế_giới”
Kết quả phân tích cú pháp
Các dạng tuyển nhận được:
báo săn: ()(DT_LA)
là: (DT_LA)(LA_DT)
loài: ()(ĐV)
động vật: (ĐV LA_DT)(SA)
nhanh: (SA)(TT_SS)
nhất: (TT_SS)(NHAT_DT)
thế giới: (NHAT_DTv)()
Quá trình dịch thông qua nhiều luật được mô tả trong hình 4.4 dưới đây:
Hình 4.4. Quá trình dịch câu “Báo săn là loại động vật nhanh nhất thế giới”
Kết quả thực hiện của hệ thống dịch ADJ
Cheetah is the quickest animal world
Kết quả thu được với VEtran:
Cheetah is world’ s fast animal the kind.
Kết quả do Google đưa ra:
Alert hunt is the world’s fastest animal

Bài viết tương tự
- Kinh doanh các dịch vụ liên quan đến rác thải mô hình tại Nhật Bản và bài học kinh nghiệm đối với Việt Nam
- Phân tách cụm danh từ cơ sở tiếng việt sử dụng mô hình crfs
- Nghiên cứu xây dựng mô hình nữ vận động viên chạy 100m cấp cao Việt Nam
- Mô hình tố tụng hình sự Việt Nam và vấn đề áp dụng tố tụng tranh tụng
- Tình hình song ngữ khmer-việt tại đồng bằng sông cửu long – một số vấn đề lý thuyết và thực tiễn
Gửi tin nhắn
Danh mục
Bài viết tương tự
-
Luận cứ khoa học về xác định mô hình quản lý rủi ro tín dụng tại hệ thống ngân hàng thương mại Việt Nam
-
KHẢO SÁT NHANH CÁC LOẠI HÌNH CHỨNG KHOÁN PHÁI SINH VÀ SẢN PHẨM GIAO DỊCH MỚI TRÊN THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM
-
Ảnh hưởng của văn hoá phương Đông đến hành vi tiêu dùng hàng thực phẩm của người Việt Nam
-
Dịch vụ phân phối và những vấn đề đặt ra trong việc thực hiện cam kết của Việt Nam khi gia nhập WTO
-
Mô hình chiến lược" Đại dương xanh" và thực tế áp dụng đối với các doanh nghiệp Việt Nam
-
Kinh nghiệm phát triển mô hình Keiretsu ở Nhật Bản, Chaebol ở Hàn Quốc và định hướng cho các tập đoàn kinh tế của Việt Nam
-
Mô hình bán lẻ chuyên biệt và triển vọng phát triển tại Việt Nam
-
Mô hình cửa hàng tiện lợi tại Việt Nam: Thực trạng và giải pháp
-
Mô hình kinh doanh Báo mạng tại Việt Nam: thực trạng và giải pháp
-
Mô hình quản lý kinh doanh rác thải phù hợp cho Việt Nam
-
Mô hình tập đoàn kinh tế - hoạt động của tập đoàn dầu khí Việt Nam giai đoạn 2006 - 2008 và xu hướng phát triển
-
Mô hình tập đoàn kinh tế Việt Nam - Hiện trạng và xu hướng phát triển trong thời gian tới
-
Mô hình và hoạt động của các công ty chứng khoán trên thị trường chứng khoán Việt Nam hiện nay
-
Nghiên cứu mô hình đấu giá trực tuyến của EBAY và những đề xuất cho Việt Nam
-
Nghiên cứu mô hình tập đoàn ở một số nước Đông Nam Á và bài học cho Việt Nam
-
Nghiên cứu mô hình xúc tiến và hỗ trợ thương mại điện tử cho doanh nghiệp - Kinh nghiệm trên thế giới và bài học đối với Việt Nam
-
Phân tích mô hình quản trị chuỗi cung ứng của Toyta và bài học kinh nghiệm cho các doanh nghiệp sản xuất ô tô của Việt Nam
-
Mô hình chủ sở hữu nhà nước tại doanh nghiệp có vốn nhà nước ở Việt Nam
-
Một số vấn đề cơ bản để giảm và tiến tới xóa bỏ hình phạt tử hình trong Luật hình sự Việt Nam
-
Tội tàng trữ, vận chuyển, mua bán trái phép chất ma túy trong luật hình sự Việt Nam
-
Các tình tiết tăng nặng trách nhiệm hình sự thuộc về nhân thân người phạm tội trong luật hình sự Việt Nam (trên cơ sở thực tiễn tại địa bàn tỉnh Hà Giang)
-
Văn hóa gia đình tại các khu đô thị mới ở Hà Nội với việc tiếp nhận truyền hình đa nền tảng ở Việt Nam
-
Nghiên cứu đặc điểm lâm sàng, giải phẫu bệnh và kết quả điều trị ung thư ống tiêu hóa không thuộc biểu mô tại bệnh viện Việt Đức
Tin nhắn