Mô hình văn phạm liên kết tiếng Việt - 7

Trong văn phạm phụ thuộc, tính phụ thuộc là hiện hữu và từ trung tâm bắt buộc phải có. Điều đó giả thiết rằng từ sự tồn tại của từ phụ thuộc A có thể kết luận sự tồn tại của từ trung tâm B. Văn phạm liên kết cho phép liên kết có thể xuất hiện hoặc không. Điều đó cho khả năng phân biệt giữa thành phần bắt buộc và thành phần tùy chọn trong cú pháp của ngôn ngữ.

Mô hình văn phạm liên kết tiếng Việt - 7 55 1

Khái niệm từ trung tâm, khái niệm hết sức quan trọng của mô hình phụ thuộc và nhiều văn phạm ngữ cấu khác như HPSG [104] hay lý thuyết X-bar, vẫn còn có nhiều tranh cãi. Văn phạm liên kết không dùng khái niệm này và đã thành công ở mức độ cú pháp.Tuy nhiên, Schneider [109] cho rằng có thể gặp phải một số khó khăn khi phân tích ngữ nghĩa mà không đặc tả hướng phụ thuộc.

Các luật của văn phạm chứa thông tin về trật tự từ, tức là về việc các từ liên hệ xuất hiện trước hay sau từ được mô tả tại một lối vào trong từ vựng, phù hợp với xu hướng từ vựng hóa của phần lớn các văn phạm hiện nay, phù hợp với các ngôn ngữ mà trật tự từ là quan trọng. Đó cũng là lý do văn phạm liên kết có tính phẳng.

Không giống như trong văn phạm phụ thuộc, một đồ thị biểu diễn phân tích trong văn phạm liên kết có thể có chu trình, ví dụ khi phân tích câu với đại từ quan hệ như trong hình 1.8. dưới đây:

Mô hình văn phạm liên kết tiếng Việt - 7 55 2

Hình1.8. Chu trình trong phân tích câu

Trong hình 1.8, liên kết gây ra chu trình chính là Bp. Đây chính là một dạng liên kết ngữ nghĩa cho thấy từ được đại diện bởi “who” chính là “elephant”.

Nhờ cho phép chu trình, văn phạm liên kết có thể biểu diễn đồng thời thông tin cú pháp và ngữ nghĩa trong các liên kết, trong khi thông tin ngữ nghĩa trong văn phạm phụ thuộc thường được biểu diễn ở tầng khác so với tầng cú pháp (Văn phạm phụ thuộc đa tầng [109]).

Văn phạm phụ thuộc và văn phạm liên kết còn khác nhau ở mối liên hệ giữa các từ không liền kề. Tính phẳng của liên kết, tương tự tính phẳng trong văn phạm phụ thuộc, đòi hỏi các cung biểu diễn liên kết trong một câu không giao nhau khi vẽ trên các từ. Với yêu cầu tính phẳng, một số quan hệ từ không lân cận có thể không biểu diễn được trong mô hình văn phạm liên kết. Ví dụ, trong câu “Cái áo này, dù rất đắt, tôi vẫn mua”, sau khi vẽ liên kết giữa danh từ “áo” với tính từ “đắt” và động từ “mua”, sẽ không thể vẽ liên kết giữa từ “” với dấu phảy mà vẫn đảm bảo tính phẳng. Tồn tại những văn phạm phụ thuộc không có tính xạ ảnh, nhưng tính phẳng là bắt buộc trong văn phạm liên kết. Rất may, những câu như trong ví dụ trên không thường gặp trong thực tế.

Có thể bạn quan tâm!

Xem toàn bộ 305 trang: Mô hình văn phạm liên kết tiếng Việt

1.4.2. Các định nghĩa hình thức về văn phạm liên kết

Qua mô tả phi hình thức được nói đến ở phần trên, ta có thể đi đến mô tả văn phạm liên kết và các khái niệm liên quan một cách hình thức (theo [34]). Những khái niệm sau dẫn đến định nghĩa của văn phạm liên kết.

1.4.2.1.Mạng liên kết

Theo như mô tả ở trên, một mạng liên kết (link net) sẽ biểu diễn phân tích của một cụm từ nào đó theo văn phạm liên kết. Có thể hình dung mạng liên kết là một đồ thị với các đỉnh có nhãn là các từ, còn các cung có nhãn là các kiểu kết nối. Đồ thị của mạng liên kết là một đồ thị phẳng, liên thông, với tất cả các đỉnh được sắp thứ tự trên biên của đồ thị.

Quan hệ E là đối xứng nếu và chỉ nếu (x,y) ∈ E ⇔ (y, x) ∈ E

Quan hệ E là phản phản xạ nếu và chỉ nếu (x, x) ∉ E

Định nghĩa 1.8. [34]

Giả sử Σ là một bảng chữ và Pr là tập các kiểu nguyên thủy, (ν, ≤) là một tập sắp thứ tự hoàn toàn,

Mạng liên kết là một cấu trúc (V, w, E, t), trong đó:

  1. Tập đỉnhV ⊆ ν là tập con hữu hạn không rỗng của ν, ký hiệu là (v1,… vn), n = | V | và v1 < … < vn;
  2. w: V → Σ ánh xạ mỗi đỉnh với một từ;
  3. Tập cung E ⊆ V × V là tập con đối xứng và phản phản xạ của V×V;
  4. t: E → Pr ánh xạ mỗi cung tới một kiểu nguyên thủy;
  5. Các cung không giao nhau: nếu (a, b) ∈ E và (c, d) ∈ E sao cho a < b và c < d thì không xảy ra a < c < b < d hay c < a < d < b;
  6. Đồ thị (V, E) là liên thông.

Tập tất cả các mạng liên kết trên Σ được ký hiệu là NPr(Σ)

Định nghĩa 1.9. Kết quả (yield) của mạng liên kết [34]

Kết quả của một mạng liên kết N = ((v1,… .vn), w, E, t) là :

yield(N) = w(v1)… .w(vn) ∈ Σ+.

Kết quả của mạng liên kết chính là một cụm từ đúng cú pháp liên kết.

1.4.2.2. Nút liên kết

Nút liên kết là khái niệm hình thức của dạng tuyển.

Định nghĩa1.10. Tập các nút liên kết trên Pr, ký hiệu Tp là tập các cặp hai danh sách hữu hạn của Pr. Mỗi nút liên kết X có một danh sách trái các cổng ký hiệu là tn- … t1- và một danh sách phải các cổng ký hiệu là t1+ … tm+. [34]

Mô hình văn phạm liên kết tiếng Việt - 7 55 3

Hình 1.9. Nút liên kết

Với mỗi đỉnh v của mạng liên kết N = (V, w, E, t), tập các cung liên quan đến v có thể chia thành một danh sách trái (xn,v)… (x1,v) và một danh sách phải (v,y1)… (v,ym), trong đó xn < xn-1 < … < x1 < v < y1… < ym-1 < ym. Do vậy, v liên hệ với nút liên kết node(v) = t(xn,v)-… t(x1,v)- t(v,y1)+. .. t(v,ym)+

1.4.2.3.Văn phạm liên kết

Định nghĩa 1.11. [34]

Cho Σ là một bảng chữ. Văn phạm liên kết là cấu trúc G = (Σ, I) với I: Σ → Pf (Tp) (ký hiệu Pf (X) là tập tất cả các tập con của X).

Định nghĩa 1.12.

Mạng liên kết ((v1, … .vn), w, E, t) được sản sinh bởi G nếu và chỉ nếu G: w(vi) → t(vi) với mọi i, 0 ≤ i ≤ n.

Định nghĩa 1.13.

Câu c1…cn ∈ Σ + được sản sinh bởi văn phạm liên kết G nếu và chỉ nếu tồn tại mạng liên kết N sao cho c1, …, cn = yield (N) và N được sản sinh bởi G.

Định nghĩa 1.14.

Ngôn ngữ sản sinh bởi văn phạm liên kết G, ký hiệu LΣ+(G) là tập tất cả các câu sản sinh bởi G.

1.5. Kết luận

So sánh các mô hình văn pham nói trên, có thể thấy mô hình văn phạm phi ngữ cảnh cổ điển còn có một số hạn chế với cây ngữ cấu phức tạp, khó biểu diễn quan hệ giữa thành phần không liền kề cũng như nhiều hiện tượng cá biệt trong từng ngôn ngữ. Một dạng văn phạm dựa trên hướng tiếp cận phi ngữ cảnh là văn phạm kết nối cây lại đòi hỏi ngân hàng cây rất lớn, hiện nay chưa có điều kiện xây dựng ở Việt Nam. Cách tiếp cận qua nét có khả năng biểu diễn lớp ngôn ngữ rộng, nhưng xây dựng được hệ thống nét đòi hỏi rất nhiều công sức và kiến thức sâu rộng về tiếng Việt.

Như đã phân tích ở mục 1.3, phân tích câu theo mô hình phụ thuộc có nhiều lợi thế. Đó là lý do các bộ phân tích phụ thuộc đã được xây dựng cho nhiều ngôn ngữ. Đầu tiên là ngôn ngữ có trật tự từ tự do như tiếng Nga [98], tiếng Thổ Nhĩ Kỳ, tiếng Phần Lan [109]. Tuy nhiên, điều đó không có nghĩa là mô hình phụ thuộc chỉ thích hợp cho các ngôn ngữ có trật tự từ tự do. Phân tích cú pháp phụ thuộc cũng đã thành công trong tiếng Anh [44], Pháp [39], [40] và nhiều thứ tiếng châu Âu khác. Phân tích cú pháp phụ thuộc cũng được chú ý cho nhiều ngôn ngữ châu Á: Nhật [99], [125], Hàn [74], [78], Trung Quốc [118], Indonesia [72], Thái Lan[119], Philippines [85].

Mô hình văn phạm phụ thuộc rất khó xây dựng nếu chưa có những nghiên cứu cơ bản về ngôn ngữ học. Ví dụ, theo [2], còn có nhiều tranh cãi về thành phần trong danh ngữ: Trong tiếng Việt, có những trường hợp yếu tố chính về ngữ pháp thì lại đóng vai trò phụ về từ pháp trong khi yếu tố chính về từ pháp lại đóng vai trò phụ về ngữ pháp.

Ví dụ: Xét hai câu

  1. Lúc ấy thì nó mới 6 tuổi
  2. Lúc Cách mạng Tháng 8 bùng nổ thì nó mới 6 tuổi

Với cùng vị trí, cùng cấu trúc, danh từ “lúc” đóng vai trò chính ở câu trên nhưng lại đóng vai trò phụ ở câu dưới. Hơn nữa, trong cấu trúc danh ngữ chỉ có danh từ là thành phần chính hay thành phần chính có thể chứa từ khác ngoài danh từ? Như vậy vấn đề thành phần nào phụ thuộc thành phần nào còn chưa có câu trả lời chính xác.

Hiện nay mới có một bộ phân tích cú pháp phụ thuộc tiếng Việt được Nguyễn Lê Minh và các đồng nghiệp xây dựng [17]. Bộ phân tích cú pháp này được xây dựng bằng phương pháp MST, tức là chuyển bài toán tìm cây phụ thuộc về bài toán tìm cây khung lớn nhất trong một đồ thị, trên một kho ngữ liệu gồm 450 câu tiếng Việt được gán nhãn và phân tích bằng tay. Như vậy chưa có một văn phạm phụ thuộc thực sự được xây dựng cho tiếng Việt.

Luận án đã quyết định chọn mô hình văn phạm liên kết vì những lý do sau:

  1. Văn phạm liên kết cũng là một dạng của văn phạm phụ thuộc. Tuy nhiên do liên kết chỉ quan tâm đến hướng mà không xác định đối tượng nào phụ thuộc nên các mối liên kết có thể suy ra từ quy tắc ngữ pháp dễ dàng hơn.
  2. Có thể biểu diễn thông tin ngữ nghĩa thông qua những liên kết của văn phạm liên kết, do vậy có nhiều khả năng mở rộng nghiên cứu trên mô hình này.
  3. Về khả năng biểu diễn ngôn ngữ, Sleator và Temperley [111] đã chứng minh mọi văn phạm liên kết là đều có văn phạm phi ngữ cảnh tương đương và ngược lại, tức là hai mô hình lý thuyết này đều cùng biểu diễn lớp ngôn ngữ phi ngữ cảnh. Theo Jurafsky[70], những ngôn ngữ tự nhiên nằm ngoài lớp ngôn ngữ phi ngữ cảnh như ngôn ngữ sao chép (copying language) chứa những câu rất đặc biệt, hiếm gặp trong thực tế. Những ngôn ngữ này không thuộc phạm vi luận án quan tâm.
  4. Nói chung trật tự từ là quan trọng trong tiếng Việt. Ví dụ trong [2], Nguyễn Tài Cẩn đã viết “trong danh ngữ tiếng Việt không có loại định tố nào có trật tự tự do, khi thì ở trước, khi thì ở sau”, định tố ở đầu và định tố ở cuối danh ngữ có một số đặc điểm khác nhau một cách cơ bản. Cấu trúc của các loại đoản ngữ khác cũng tương tự như vậy. Chỉ số ít những thành phần trong câu có vị trí linh hoạt, chẳng hạn như các từ chỉ thời gian (“hôm qua”, “tối nay”… ). Như vậy mô hình liên kết đặc biệt nhấn mạnh vị trí trước sau của các thành tố trong câu là phù hợp cho tiếng Việt.
  5. Phần lớn các ngôn ngữ của vùng Đông Nam Á là các ngôn ngữ “nghèo tài nguyên”, bộ ngữ liệu mẫu của các ngôn ngữ này đều nhỏ, do vậy nhiều hệ thống dịch máy vẫn dùng phương pháp dịch trên luật, ngoài ra bộ luật cú pháp cũng rất hữu hiệu để nâng cao chất lượng dịch cho các phương pháp khác. Với đặc điểm hoàn toàn từ vựng hóa, mô hình liên kết cho phép chỉnh sửa, hoàn thiện bản dịch khá tốt.
  6. Tiếp tục liên quan đến bài toán dịch máy, trong tiếng Việt, khi chuyển sang thì quá khứ, tương lai… động từ chính không biến đổi hình thái mà được ghép thêm các phụ từ chỉ thì. Do vậy khi dịch câu tiếng Việt sang ngôn ngữ biến đổi hình thái mạnh mẽ, cần phát hiện thì thông qua các phụ từ này. Ví dụ câu “Tôi đang học”, khi dịch sang tiếng Anh, thì của động từ “học” là hiện tại tiếp diễn. Tuy nhiên nếu xét câu “Hôm qua, anh ấy đến khi tôi đang học” động từ “đến” phải chia ở thì quá khứ, động từ “học” phải chia ở thì quá khứ tiếp diễn. Những mối liên hệ này có thể biểu diễn trong mô hình dịch thông qua các liên kết giữa từ “hôm qua” với các động từ. Tương tự như vậy, cách xưng hô trong tiếng Việt rất phức tạp. Nhiều cụm từ như “anh ấy”, “bọn chúng”, “chúng tớ”, “các bạn ấy” đóng vai trò như đại từ xưng hô, khi chuyển sang ngôn ngữ khác thường phải dịch thành đại từ xưng hô. Các bộ từ điển của văn phạm liên kết chấp nhận các công thức cho cụm từ và công thức chỉ dành riêng cho một hoặc một số từ nên cho khả năng xử lý nhiều biệt lệ của tiếng Việt một cách linh hoạt.
Download pdf, tải về file docx

Bài viết tương tự

Gửi tin nhắn

Bimage 1

Danh mục

Bài viết tương tự

Bimage 2
Bimage 3

Home | Contact | About | Terms | Privacy policy
© 2022 Tailieuthamkhao.com | all rights reserved

Trang chủ Tài liệu miễn phí Thư viện số