Tiếp Cận Qua Cấu Trúc Nét Và Văn Phạm Hợp Nhất

Văn phạm kết nối cây cũng đã được xây dựng cho tiếng Việt trong [22] bằng cách rút trích từ treebank tiếng Việt. Về khả năng biểu diễn ngôn ngữ, văn phạm kết nối cây có khả năng biểu diễn ngôn ngữ cảm ngữ cảnh. Hướng tiếp cận này có hiệu quả khi treebank tiếng Việt đủ lớn.

1 2 Tiếp cận qua cấu trúc nét và văn phạm hợp nhất Văn phạm hợp nhất 1

1.2. Tiếp cận qua cấu trúc nét và văn phạm hợp nhất

Văn phạm hợp nhất được xây dựng trên cơ sở hợp nhất các cấu trúc nét (feature). Cấu trúc nét được biểu diễn thông qua ma trận giá trị thuộc tính (Attribute Value Matrix – AVM) có dạng:

 Nét 1 Giá trị1

Nét 2 Giá trị2

 … . . .

Nét n Giá trị n

Chẳng hạn một cấu trúc danh ngữ trong tiếng Anh mô tả các nét của một danh ngữ: Loại – danh ngữ, Số – Ít, Ngôi – 3 như sau:

CAT NP

Có thể bạn quan tâm!

Xem toàn bộ 305 trang tài liệu này.

NUMBER SG

PERSON 3

Cấu trúc nét được định nghĩa là ánh xạ F→ VF, F là tập nét , VF là tập giá trị có thể gán cho các nét.

Ví dụ nêu trên là một cấu trúc nét trên tập nét F = { CAT, NUMBER, PERSON }, tập giá trị VF = { NP, SG, 3 }.

Văn phạm gia tố chứa những luật gia tố dạng A → X1…Xn với A là tên cấu trúc nét cha, X1, …Xn là các cấu trúc nét con

Luật trong văn phạm gia tố được biểu diễn qua cấu trúc nét có chứa biến, nhờ đó có thể áp dụng luật cho nhiều tình huống khác nhau. Chẳng hạn luật gia tố cho cụm danh từ đơn giản:

(NP NUMBER ?n) → (ART NUMBER ?n) (N NUMBER ?n )

biểu diễn sự thống nhất về số của mạo từ và danh từ.

Nếu nét có thể biểu diễn dưới dạng đồ thị nét thì có thể hợp nhất các đồ thị nét thành một đồ thị lớn. Đó là thành phần chính của văn phạm hợp nhất.

Văn phạm hợp nhất là công cụ có thể biểu diễn lớp ngôn ngữ loại 0 là lớp ngôn ngữ lớn nhất theo phân cấp của Chomsky [63]. Theo nhóm Trần Ngọc Tuấn [26], sử dụng văn phạm hợp nhất có thể giải quyết một số hiện tượng trong tiếng Việt như hiện tượng liên kết của một số từ. Các từ chỉ có thể kết hợp với nhau khi có thể tạo ra một liên hợp hợp nhất các nét của chúng. Ví dụ, từ “quyển” với nét SHAPE: vuông/mỏng chỉ liên kết với những đối tượng có cùng mô tả nét SHAPE, chẳng hạn “sách”. Tuy nhiên, việc mô tả chi tiết cho hầu hết các hiện tượng của ngữ pháp tiếng Việt để xây dựng một bộ phân tích cụ thể là quá phức tạp. Các tác giả của [26] mới chỉ xử lý trên tập con các danh ngữ tiếng Việt.

1.3. Cách tiếp cận phụ thuộc

1.3.1. Một số khái niệm

Văn phạm phụ thuộc có khởi đầu từ ngôn ngữ Ấn độ cổ Panini, mô hình hiện đại được Lucien Tesnière giới thiệu [75]. Nghiên cứu về văn phạm phụ thuộc phát triển mạnh trên các ngôn ngữ Slavơ [92], Thổ Nhĩ Kỳ do thể hiện được đặc tính tự do của trật tự từ.

Điểm quan trọng trong mô hình văn phạm phụ thuộc là quan hệ bất đối xứng gọi là quan hệ phụ thuộc (hay phụ thuộc – dependency). Quan hệ phụ thuộc xảy ra giữa một từ phụ thuộc (dependent) và một từ khác mà nó phụ thuộc vào gọi là từ trung tâm (head).

Văn phạm phụ thuộc sử dụng hai bảng chữ: tập ký hiệu kết thúc và tập ký hiệu bổ trợ.

Mỗi phần tử của tập ký hiệu kết thúc là một đơn vị cú pháp nhỏ nhất (đơn vị nguyên tố), ví dụ hình vị (trong các ngôn ngữ có biến đổi hình thái), cách phát âm hay từ … Phát ngôn được coi như một xâu các nguyên tố của của tập ký hiệu kết thúc.

Tập ký hiệu bổ trợ là tập các tên kiểu xuất hiện của các ký hiệu kết thúc. Ký hiệu bổ trợ không được phép nhập nhằng; mỗi ký hiệu có những thuộc tính cú pháp cố định.

Có nhiều mô hình khác nhau của văn phạm phụ thuộc. Mô hình đầu tiên được mô tả hình thức bởi Hays [62] và Gaifman [57].

Định nghĩa 1.3. [57]

Văn phạm phụ thuộc là bộ bốn thành phần DG = ( L, C, F, R ), trong đó

L: Tập ký hiệu kết thúc (terminal alphabet).

C: Tập ký hiệu bổ trợ (auxiliary alphabet).

F: L → C hàm gán (assignment function).

R: Tập các luật phụ thuộc thuộc một trong ba dạng dưới đây:

  1. Xi(Xj1, Xj2,… ,*, …, Xjn),trong đó Xi là từ trung tâm, Xj1, Xj2,…, Xjn là các từ phụ thuộc, n là một số. Thứ tự của các từ trong luật 1 là thứ tự xuất hiện trong câu (có thể có từ xen giữa các từ được nói đến trong luật). Dấu * đánh dấu vị trí từ trung tâm khi đứng cùng các từ phụ thuộc của nó trong phát ngôn.
  2. Xi (*), chỉ ra rằng ký hiệu kết thúc ứng với Xi có thể xuất hiện mà không có từ phụ thuộc.
  3. *(Xi), chỉ ra rằng đơn vị ứng với Xi có thể xuất hiện mà không có từ trung tâm. Đối tượng này là trung tâm của phát ngôn mà nó xuất hiện.

Ví dụ:

Văn phạm DG = ( L, C, F, R )

L = { John, loves, a, woman }

C = { N, V, Det }

F: John → N, woman → N, loves → V, a → Det

R bao gồm các luật :

  1. *(V)
  2. V(N, *, N)
  3. N(Det, *)
  4. N(*)
  5. Det(*)

Thông thường, một từ ROOT được thêm vào để dễ dàng xử lý những đối tượng như V. Câu “John loves a woman” có thể được biểu diễn dưới dạng cây như trong hình 1.4 dưới đây:

Hình 1 4 Phân tích câu John loves a woman trong một mô hình văn phạm phụ 2

Hình 1.4. Phân tích câu “John loves a woman” trong một mô hình văn phạm phụ thuộc

Liên quan đến văn phạm phụ thuộc có một số khái niệm và tính chất quan trọng sẽ được trình bày dưới đây.

Các định nghĩa dưới đây được trích từ [75]

Định nghĩa 1.4.

Câu là dãy các từ tố (từ) biểu diễn bởi S = w0w1…wn

Để đơn giản, giả thiết dãy w1,…wn là dãy của các từ khác nhau,ví dụ trong câu “Mary saw John and Fred saw Susan”, hai thể hiện khác nhau của từ “saw” được coi là phân biệt.

Định nghĩa1.5.

Giả sử R = { r1, … , rm } là tập hữu hạn các kiểu quan hệ phụ thuộc có thể diễn ra giữa hai từ trong một câu. Kiểu quan hệ r ∈ R được gọi là nhãn của cung,

Định nghĩa 1.6.

Đồ thị phụ thuộc G = (V, A) là đồ thị định hướng bao gồm tập đỉnh V và tập cung A sao cho với câu S = w0w1…wn và tập nhãn R, những khẳng định sau là đúng:

  • V ⊆ { w0, w1, … wn }.
  • A ⊆ V× R × V.
  • Nếu (wi , r, wj) ∈ A thì (wi . r’,wj) ∉A với mọi r’≠ r.

Ví dụ: Đồ thị phụ thuộc của câu “Economic news had little effect on financial market” trong hình 1.5.

Hình 1 5 Đồ thị phụ thuộc của câu Economic news had little effect on financial 3

Hình 1.5. Đồ thị phụ thuộc của câu “Economic news had little effect on financial market

G = (V, A)

V = VS = { ROOT, Economic, news, had, little, effect, on , financial, markets }

A = { (ROOT, PRED, had), (had, SBJ, news), (had, OBJ, effect), (had, PU,.), (news, ATT, Economic), (effect, ATT, little), (effect, ATT, on), (on, PC, market), (market, ATT, financial) }

Định nghĩa phụ thuộc (wi , r, wj) không phải là duy nhất mà có sự khác biệt qua các hệ thống lý thuyết ngôn ngữ khác nhau.

Định nghĩa 1.7.

Đồ thị phụ thuộc đúng G = (V, A) của câu vào S và tập quan hệ phụ thuộc R là đồ thị phụ thuộc có dạng cây, có hướng xuất phát từ nút w0 và có tập nút khung.

V = VS. Ta gọi đồ thị phụ thuộc này là cây phụ thuộc.