Phụ tố chỉ số lượng: liên quan đến đo lường, tính toán hay tiêu chuẩn đo lường tính toán do danh từ đảm nhiệm. Liên kết được xác lập giữa tính từ và danh từ chỉ đơn vị đo: ApNt.
Ví dụ, liên kết trong cụm từ “sâu hai ngàn mét” được thể hiện trong hình 2.12 dưới đây Phụ tố so sánh: Phụ tố này do tính từ so sánh đảm nhiệm. Ví dụ “đẹp hơn tiên”. Liên kết giữa “đẹp” và “hơn” là liên kết ApAr.
Phụ tố miêu tả. Khi ấy hai tính từ đi liền nhau: “đẹp lộng lẫy”, “rộng thênh thang”… Tính từ trước chỉ tính chất, tính từ sau thuộc tiểu loại quan hệ (tiểu tiểu loại so sánh)
Phụ tố này không xuất hiện cùng phụ tố chỉ mức độ ở bên trái hay phụ tố chỉ số lượng ở bên phải, ví dụ không thể nói “rất rộng thênh thang”, “cao lênh khênh hai mét”
Hình 2.12. Liên kết trong cụm từ “ sâu hai ngàn mét”
Do vậy công thức liên kết trong trường hợp này cho chính tố là:
(RlAp- xor ApRl+) or (RlAp- xor ApAr+) or (ApAr+ xor ApNt+)
Tương tự như vậy, loại phụ tố chỉ mức độ có thể đi sau tính từ như “hết sức”, “vô cùng”
Có thể bạn quan tâm!
- Mô hình văn phạm liên kết tiếng Việt - 10
- Xây Dựng Liên Kết Dựa Trên Cấu Trúc Động Ngữ
- Xây Dựng Liên Kết Dựa Trên Cấu Trúc Tính Ngữ
- Ứng Dụng Giải Thuật Mở Rộng Từ Điển Tiếng Việt
- Kết Quả Thử Nghiệm Phân Tích Câu Đơn Và Câu Ghép Đơn Giản
- Mô hình văn phạm liên kết tiếng Việt - 16
Xem toàn bộ 305 trang tài liệu này.
2.1.5. Liên kết các mệnh đề trong câu ghép đơn giản
Với những câu ghép gồm nhiều mệnh đề, cần phân tách để phân tích riêng từng mệnh đề rồi kết hợp lại. Tuy nhiên với loại câu ghép hai mệnh đề, có thể sử dụng liên kết cho chính các liên từ và các thành phần trong câu. Nòng cốt của câu ghép trong tiếng Việt được chia thành hai loại: chính phụ và song song [28]. Việc xây dựng liên kết cho nòng cốt ghép chính phụ đơn giản hơn. Các liên từ như: “bởi vì”, “nhưng”, “tuy nhiên” … đều có kết nối CL+ để nối đến mệnh đề đứng sau nó. Công thức liên kết của chúng như sau:
tuy nhiên, nhưng, nên, cho nên, bởi vì, vì: CL+
Kết nối CL được kết nối đến thành phần vị ngữ trong câu. Lý do để kết nối liên từ tới thành phần vị ngữ mà không phải là thành phần chủ ngữ vì các mệnh đề sau liên từ đôi khi không có chủ ngữ. Do đó các động từ và tính từ được thêm kết nối CL-.
Hầu hết các liên từ có thể đứng giữa hai mệnh đề. Để kết nối các liên từ này với mệnh đề đứng trước, luận án thêm kết nối EV- cho các liên từ này. Cũng như kết nối CL+, kết nối EV- sẽ kết nối với thành phần vị ngữ của mệnh đề đứng trước.
tuy nhiên, nhưng, nên, cho nên, bởi vì, vì: CL+ & EV
Hình 2.13 dưới đây cho thấy một câu ghép hai mệnh đề chỉ hứa một liên từ “nhưng” . Liên từ này liên kết với động từ “thích” của mệnh đề chính về bên trái với liên kết EV- và với tính từ “đắt” ở bên phải với liên kết CL+
Hình 2.13. Liên kết câu ghép hai mệnh đề với liên từ ở giữa
Một số liên từ (“bởi vì”, “vì”, “sau khi”,…) còn có thể đứng đầu mệnh đề thứ nhất. Lúc này ta dùng liên kết CO+ thay thế cho liên kết EV- để kết nối liên từ với mệnh đề thứ hai (ta vẫn giữ kết nối CL+ để kết nối tới mệnh đề ngay sau liên từ). Ngoài ra còn có thể có dấu phẩy đứng giữa hai mệnh đề. Để kết nối tới dấu phảy này các liên từ còn có thêm kết nối PH+ và kết nối này là tuỳ chọn.
bởi vì, vì, dù: CL+ & {PH+} & (EV- or CO+)
Trong hình 2.14 là ví dụ một câu với liên từ đưng đầu mệnh đề thứ nhất, dấu phảy phân cách hai mệnh đề. Phân tích cho thấy câu là đúng cú pháp. Ngoài những liên kết với danh từ, động từ, tính từ, còn có các liên kết với liên từ “vì” và dấu phảy. Đó là các liên kết CO, CL, PH, trong đó CO, CL liên kết liên từ “vì” với vị từ của hai mệnh đề, còn liên kết PH nối liên từ “vì” với dấu phảy
Hình 2.14. Liên kết của câu ghép hai mệnh đề với liên từ ở đầu và dấu phảy
Tương tự, với trường hợp câu ghép có cả liên từ ở đầu của hai mệnh đề (bởi vì … nên …, mặc dù … tuy nhiên …), là những cặp liên từ có mối quan hệ với nhau. Trường hợp này xử lý như sau: nối hai liên từ lại bằng liên kết QHT. Liên từ đứng đầu câu có kết nối QHT+, liên từ đứng đầu mệnh đề hai có kết nối QHT-. Các liên từ vẫn kết nối với mệnh đề sau nó bằng kết nối CL+.
Kết hợp với các kết nối đã xây dựng trên, ta có :
tuy nhiên, nhưng, nên, cho nên, bởi vì, vì: CL+ & (EV- or QHT-) bởi vì, vì, dù: CL+ & {PH+} & (EV- or (CO+ or QHT+))
Hình 2.15. Liên kết trong câu ghép với liên từ có mặt trong cả hai mệnh đề
Trong hình 2.15, câu chứa hai liên từ có quan hệ với nhau “bởi vì” và “nên”. Liên kết nối chúng là QHT.
Khi phân tích câu ghép theo giải thuật được nêu trong chương 3, bộ phân tích có thể lựa chọn có hoặc không phân tích riêng từng mệnh đề với loại câu này.
2.2. Mở rộng từ điển văn phạm liên kết
Khởi đầu, một bộ từ điển với hơn 150 công thức lớn và hơn 1000 mục từ đã được luận án xây dựng theo cách thủ công. Các từ xuất hiện trong từ điển được chia thành nhóm, mỗi nhóm chứa cùng một loại từ, với cùng yêu cầu liên kết như trong hình 2.16 dưới đây:
Hình 2.16. Một đoạn trong từ điển văn phạm liên kết
Vì mô hình văn phạm liên kết lần đầu tiên được áp dụng để phân tích cú pháp tiếng Việt, mọi công thức liên kết là do luận án đề xuất, bộ từ điển đầu tiên chỉ bó hẹp trong những đoạn văn bản thử nghiệm. Để bộ phân tích có thể làm việc hiệu quả trên văn bản tiếng Việt bất kỳ, luận án đã nghiên cứu mở rộng bộ từ điển văn phạm liên kết cho tiếng Việt.
Trong toàn bộ các tài liệu được công bố trên website về văn phạm liên kết chỉ có hai tài liệu đề cập đến xây dựng từ điển. Đó là bài báo của về xây dựng văn phạm liên kết tiếng Nga của Protassov [132] và bài báo của Szolovits [113]. Phương pháp của [132] cho phép tìm trong một bộ ngữ liệu lớn tiếng Nga để lọc ra những từ cần thiết cho một công thức nào đó. Ví dụ, tìm các động từ đòi hỏi tạo cách (cách 5) bằng cách tìm tất cả các động từ mà đi sau nó là một danh từ ở cách 5. Điều này dễ dàng hơn tiếng Việt rất nhiều vì động từ cũng như danh từ cách 5 trong tiếng Nga có thể phân biệt nhờ hậu tố. Do vậy luận án đã theo phương pháp của Szolovits sử dụng để thêm dần các từ lấy từ một hệ thống từ vựng của y khoa vào từ điển văn phạm liên kết. Hệ thống từ vựng đó là UMLS Specialist Lexicon chứa 235.197 mục từ (trong đó có 75.121 cụm từ ngắn – nói chung các cụm từ cũng được xử lý như từ).
Mỗi mục từ của Specialist gồm các thông tin sau:
- Từ loại (part of speech).
- Sự phù hợp / mã biến tố (agreement / inflection code). Đại từ nhân xưng ngôi thứ nhất, hai và ba, số ít và số nhiều, thì và phủ định (cho động từ, động từ khuyết thiếu và trợ động từ); danh từ đếm được và không đếm được và các từ hạn định (determiner).
- Bổ ngữ (complements). Một hệ thống phức tạp để mô tả các kiểu bổ ngữ cho động từ, danh từ và tính từ, bao gồm các kiểu mẫu khác nhau của bổ ngữ, giới từ …
- Vị trí và biến thể (position and modification types) cho các kiểu tính từ và phó từ.
- Đặc trưng khác.
Luận án đã sử dụng bộ từ điển gồm trên 40.000 từ tiếng Việt của đề tài KC 01.01/06-10 với thiết kế gồm các mô tả sau:
1. Hình thái (một hay nhiều hình vị)
2. Cú pháp
– Loại từ
– Loại con
– Mẫu của động từ
3. Ngữ nghĩa
– Ràng buộc logic
+ Ý nghĩa của loại
+ Từ đồng nghĩa
+ Từ trái nghĩa
– Ràng buộc ngữ nghĩa
+ Thành tố phụ
+ Bổ ngữ trực tiếp
4. Định nghĩa (mô tả nghĩa của từ)
5. Ví dụ (một hoặc một số câu ví dụ mẫu sử dụng từ được mô tả)