Mô hình văn phạm liên kết tiếng Việt - 6

Ký hiệu tập tất cả các đồ thị phụ thuộc đúng của câu S với tập quan hệ phụ thuộc R là GS. Có thể coi đây là mô hình phụ thuộc một tầng.

Các mô hình phụ thuộc theo trường phái Praha 109 cho phép phụ thuộc theo nhiều 1

Các mô hình phụ thuộc theo trường phái Praha [109] cho phép phụ thuộc theo nhiều tầng, do vậy có thể mô hình hóa các thông tin ngữ nghĩa hay hình thái mà vẫn đảm bảo tính chất của cây phụ thuộc.

1.3.2.Tính chất của cây phụ thuộc

Sau đây là các tính chất của cây phụ thuộc, kết quả phân tích câu theo mô hình phụ thuộc. Các tính chất này phản ánh đặc trưng của mô hình phụ thuộc nguyên bản của Tesnière [82].

Cây phụ thuộc G = (V, A) luôn thỏa các tính chất sau:

  1. Tính chất gốc: Nút gốc ROOT không phụ thuộc nút nào.
  2. Tính chất khung: Trên toàn bộ các từ của câu: V = VS.
  3. Liên thông: Cây phụ thuộc là đồ thị liên thông yếu.
  4. Một từ trung tâm (single head): mỗi từ phụ thuộc chỉ có một từ trung tâm duy nhất.
  5. Không chu trình: Đồ thị phu thuộc là liên thông.
  6. Tính chất về số cung: Đồ thị phụ thuộc G = (V, A) thỏa mãn tính chất:|A| = |V| – 1
  7. Tính xạ ảnh (projective).
  8. Mỗi cung trong cây là xạ ảnh nếu có một con đường từ từ trung tâm tới mọi từ nằm giữa hai điểm đầu của cung.
  9. Cây phụ thuộc G = (V, A) là cây phụ thuộc xạ ảnh nếu :
    1. Nó là cây phụ thuộc
    1. Mọi (wi , r, wj) ∈ A có tính xạ ảnh

Ngược lại G là cây phụ thuộc không xạ ảnh

  • Cây phụ thuộc xạ ảnh thỏa mãn tính phẳng nếu có thể vẽ tất cả các cung của cây ở phần không gian trên của câu mà không có cung nào cắt nhau.

So sánh văn phạm phụ thuộc và văn phạm phi ngữ cảnh.

Trong [57], [62] đã chứng minh rằng văn phạm phụ thuộc là tương đương yếu với văn phạm phi ngữ cảnh.

Khác biệt cơ bản giữa văn phạm phụ thuộc và văn phạm phi ngữ cảnh là cấu trúc phụ thuộc thể hiện mối quan hệ trung tâm – phụ thuộc giữa các từ, phân lớp bởi các lĩnh vực theo chức năng như là chủ ngữ hay bổ ngữ, trong khi biểu diễn kiểu phi ngữ cảnh nhóm từ thành các ngữ và phân lớp theo lĩnh vực cấu trúc như danh ngữ, động ngữ.

Tuy nhiên, với cùng một câu, cây phụ thuộc đơn giản hơn cây ngữ cấu rất nhiều do nó chỉ chứa số lượng nút bằng số từ trong câu +1.

Văn phạm phụ thuộc rất thích hợp cho các ngôn ngữ có trật tự từ tự do, vì nhiều mô hình phụ thuộc không đòi hỏi tính xạ ảnh. Việc văn phạm phụ thuộc biểu diễn được sự phụ thuộc về hình thái từ (giống, số, cách…) cũng là một lý do thuyết phục cho khẳng định trên.

Văn phạm phụ thuộc có thể biểu diễn các thông tin ngữ nghĩa nếu sử dụng các mô hình mở rộng. Theo Fox [55], mô hình phụ thuộc rất thuận lợi cho bài toán dịch máy do có độ đo crossing nhỏ.

Ngược lại mô hình phụ thuộc lại khó giải quyết bài toán sinh ngôn ngữ vì trong trường hợp tổng quát, khó có thể tổ hợp các cây phụ thuộc lại thành một cây phụ thuộc lớn hơn.

Mô hình phụ thuộc cổ điển không giải quyết được vấn đề liên hợp (coordination) do tính chất một từ trung tâm của các mối quan hệ phụ thuộc. Để giải quyết vấn đề này cần sử dụng một số dạng mở rộng của văn phạm phụ thuộc như văn phạm phạm trù phụ thuộc (Dependency Categorical Grammar) [103], hay sự phụ thuộc với nhiều từ trung tâm theo mô hình văn phạm từ (Word Grammar) của Hudson [65], [114].

1.4. Văn phạm liên kết

1.4.1. Khái niệm văn phạm liên kết

Mô hình văn phạm liên kết được Sleator và Temperley [111] đưa ra năm 1991. Đến nay mô hình này đã được phát triển và sử dụng trên nhiều lĩnh vực khác nhau vì nó đã đặc tả được nhiều hiện tượng của tiếng Anh cũng như nhiều ngôn ngữ khác. Bộ phân tích liên kết tiếng Anh cho phép phân tích nhiều câu dài, câu ghép. Kết quả phân tích liên kết được sử dụng phổ biến trong các hệ thống cho phép rút trích thông tin, dịch máy và sinh ngôn ngữ.

Một văn phạm liên kết bao gồm một tập các từ (có thể coi như tập các ký hiệu kết thúc của văn phạm), mỗi từ có một yêu cầu liên kết. Một dãy các từ là một câu đúng nếu tồn tại một cách để vẽ các cung (liên kết) giữa các từ sao cho thoả mãn các điều kiện sau:

  1. Tính phẳng (planarity): các liên kết không giao nhau (khi được vẽ phía trên các từ).
  2. Tính liên thông (connectivity): các liên kết có khả năng kết nối tất cả các từ trong câu với nhau.
  3. Tính thoả mãn (satisfaction): các liên kết thoả mãn các yêu cầu liên kết của mỗi từ trong câu
  4. Tính loại trừ: không có hai liên kết có thể kết nối cùng một cặp từ.

Các yêu cầu liên kết của mỗi từ được chứa trong một từ điển. Từ điển được biểu diễn dưới dạng máy tính có thể đọc được. Trong bảng 1.1 dưới đây là ví dụ của một từ điển liên kết mini:

Bảng 1.1. Ví dụ của một từ điển

TừCông thức
tại saoTHT+
cậuSV+
KhôngRnV+
tới(RnV- or()) &(SV-)&(THT- or ())

Có thể bạn quan tâm!

Xem toàn bộ 305 trang tài liệu này.

Trong từ điển, mỗi từ có với một công thức liên kết. Với dạng của công thức liên kết như vậy cần thêm yêu cầu thứ 5 như sau:

5.Tính thứ tự: Khi các kết nối của một công thức được duyệt từ trái qua phải, các từ mà nó kết nối tới tiến từ gần ra xa.

Đồ thị trong hình 1.6 chỉ ra các yêu cầu liên kết được thoả mãn trong câu hỏi “Tại sao cậu không tới?”.

Hình 1 6 Câu đúng ngữ pháp Tại sao cậu không tới Việc sử dụng các 2

Hình 1.6. Câu đúng ngữ pháp “Tại sao cậu không tới

Việc sử dụng các công thức để biểu diễn một từ điển văn phạm liên kết là gần gũi với các hiện tượng của ngôn ngữ tự nhiên, nhưng lại cồng kềnh cho việc mô tả giải thuật phân tích liên kết. Trong [111] đã giới thiệu một cách khác để biểu diễn văn phạm liên kết gọi là dạng tuyển (disjunct).

Mỗi từ của văn phạm có một tập các dạng tuyển liên hệ với nó. Mỗi dạng tuyển tương ứng với một cách thoả mãn các yêu cầu liên kết của một từ. Một dạng tuyển bao gồm hai danh sách có thứ tự của các tên kết nối: danh sách bên trái và danh sách bên phải. Danh sách bên trái bao gồm các kết nối mà nối về phía bên trái của từ hiện tại (các kết nối kết thúc bởi – trong công thức liên kết), và danh sách bên phải chứa các kết nối mà nối về phía bên phải của từ hiện tại (các kết nối kết thúc bởi + trong công thức liên kết). Một dạng tuyển được ký hiệu:

((L1, L2,…, Lm) (Rn, Rn-1,…, R1))

Trong đó L1, L2,…, Lm là các kết nối về phía trái và Rn, Rn-1,…, R1 là các kết nối về phía phải. Số lượng các kết nối trong từng danh sách có thể bằng 0. Dấu + hoặc dấu – theo sau có thể loại bỏ khỏi tên của kết nối khi sử dụng dạng tuyển, vì hướng được ngầm định trong dạng tuyển.

Để thoả mãn các yêu cầu liên kết của một từ, một trong các dạng tuyển của nó phải được thoả mãn. Để thoả mãn một dạng tuyển, tất cả các liên kết của nó phải được thoả mãn bởi các kết nối thích hợp. Các từ mà L1, L2, … liên kết tới đứng bên trái của từ hiện tại, và giảm đơn điệu về khoảng cách tính từ từ hiện tại. Các từ mà R1, R2, … liên kết tới đứng bên phải của từ hiện tại, và tăng đơn điệu về khoảng cách tính từ từ hiện tại.

Dạng tuyển là công cụ tương đương với công thức. Mỗi công thức tương ứng với một tập các dạng tuyển. Ví dụ, công thức (A- or ( )) & D- & (B+ or ( )) & (O- or S+) được nêu trong [111] tương ứng với 8 dạng tuyển sau:

((A,D) (S,B))

((A,D,O) (B))

((A,D) (S))

((A,D,O) ( ))

((D) (S,B))

((D,O) (B))

((D) (S))

((D,O) ( ))

Khi phân tích câu, bộ phân tích liên kết sẽ chuyển công thức trong từ điển thành các dạng tuyển tương ứng và tìm ra tổ hợp các dạng tuyển thỏa mãn các yêu cầu nói trên, nếu câu đúng cú pháp.

Dạng tuyển con của một dạng tuyển được xây dựng bằng cách xoá đi một hoặc nhiều kết nối ở đầu và cuối trong hai danh sách kết nối của dạng tuyển đó.

Ví dụ, Các dạng tuyển con khác rỗng của dạng tuyển ((O)(EoPp)) của danh từ cụ thể tiếng Việt (“anh”, “chị”, “bố”, “mẹ”…) là: ((O) (EoPp)), ((O) ( )), (( ) (EoPp)).

Kết nối lớn (fat connector) là một kết nối nhưng không chỉ liên kết các từ mà liên kết các cụm từ. Vì vậy, có thể hiểu dạng tuyển chứa kết nối lớn gồm hai danh sách trái và phải, mỗi danh sách chứa một dạng tuyển con.

Ví dụ, Kết nối <(O) (EoPp)>là kết nối lớn. Nó có thể là thành phần của dạng tuyển nào đó, chẳng hạn (( )(<(O) (EoPp)>))

Trong ví dụ ở hình 1.7, kết nối F = <(O) (EoPp)>nối tới cụm từ bao gồm từ “”, từ “anh” và từ “chị”. Hai từ “anh” và “chị” cùng có chung dạng tuyển là ((O) (EoPp)). Kết nối lớn được dùng để nối các thành phần có cùng chức năng trong câu, tránh làm các liên kết giao nhau. Dạng tuyển cho từ “” sẽ trở thành ((F, O)(EoPp, F)). Chú ý rằng, trong từ điển, từ “” không có dạng tuyển ((O)(EoPp)) mà dạng tuyển đó thuộc về từ “anh” và từ “chị”. Vì kết nối lớn F được xác lập giữa từ “” với các từ “anh”, “chị” nên từ “” đã đóng vai trò của cả từ “anh” và từ “chị”. Những vấn đề cụ thể về ứng dụng của kết nối lớn sẽ được nói đến ở mục 3.3.

Hình 1 7 Kết nối lớn của từ và Văn phạm liên kết được xếp vào 3

Hình 1.7. Kết nối lớn của từ “

Văn phạm liên kết được xếp vào dòng phụ thuộc [70], vì mô hình cũng biểu diễn mối liên hệ giữa các từ trong câu. Tuy nhiên văn phạm liên kết có nhiều điểm khác biệt.

Liên kết không định hướng: Văn phạm liên kết không có khái niệm “cai trị”, “phụ thuộc”. Các kết nối không định hướng, hai từ liên kết với nhau là bình đẳng. Mô hình này chỉ quan tâm đến hướng của liên kết là trái hay phải. Đây là điểm khác nhau cơ bản giữa văn phạm phụ thuộc và văn phạm liên kết.

Liên kết có nhãn: Nếu trong văn phạm phụ thuộc, các quan hệ phụ thuộc không nhất thiết có nhãn thì các liên kết trong văn phạm liên kết bắt buộc phải có nhãn.

Xem tất cả 305 trang.

Ngày đăng: 31/10/2021
Trang chủ Tài liệu miễn phí