Mô hình văn phạm liên kết tiếng Việt - 21

3.3.1.2. Giải thuật huấn luyện

Như đã trình bày ở chương 1 với văn phạm phi ngữ cảnh, các xác suất đóng vai trò tham số ban đầu có thể được sinh ngẫu nhiên, sau đó được cập nhật lại mỗi khi có một câu mới được phân tích và thêm vào bộ ngữ liệu. Giải thuật huấn luyện do [79] đưa ra nhằm tính lại giá trị tham số sau khi đã xử lý câu đưa vào. Cũng như văn phạm phi ngữ cảnh, giải thuật này dựa vào hai tham số là xác suất trong và xác suất ngoài.

Mô hình văn phạm liên kết tiếng Việt - 21 69 1

Xác suất trong PrI ( L, R, l, r ) là xác suất mà các từ từ L đến R có thể liên kết với nhau sao cho các kết nối l và r được thỏa mãn.

Xác suất ngoài Pro ( L, R, l, r ) là xác suất mà các từ ngoài phạm vi từ L đến R có thể liên kết với nhau sao cho các yêu cầu kết nối ngoài l và r được thỏa mãn.

Xác suất trong được tính một cách đệ quy theo các quan hệ:

Mô hình văn phạm liên kết tiếng Việt - 21 69 2

Theo giải thuật phân tích cú pháp ở hình 3.4, rõ ràng PI ( wi , wi+1, NIL, NIL ) = 1 với 0 ≤ i ≤ n-1.

Ví dụ, Với văn phạm liên kết và câu “Tôi mua một bông hoa” được nói ở trên,

PrI ( 1, 4, NIL, NcNt3 ) = Pr (3, (McN)(NcNt3),→ | 1, 4, NIL, NcNt3 ) ×
PrI ( 1, 3, NIL, McN ) × PrI ( 3, 4, NIL, NIL )

Có thể bạn quan tâm!

Xem toàn bộ 305 trang: Mô hình văn phạm liên kết tiếng Việt

với giá trị các xác suất được cho trong (3.1) :

PrI ( 1, 3, NIL, McN) = Pr (2, ( )(McN), → | 1, 3, NIL, McN) ×
PrI (1, 2, NIL,NIL) × PrI (2, 3, NIL, NIL)
= 0.06 × 1 × 1 = 0.06
Pr ( 3, (McN)(NcNt3),→ | 1, 4, NIL, NcNt3 ) = 0.05

do vậy, PrI ( mua, hoa, NIL, NcNt3) = 0.05 × 0.06 = 0.003 (3.5)

Xác suất ngoài PrO được tính một cách đệ quy: ban đầu, với mỗi d ∈ D(W0) có left[d] = NIL, đặt

Mô hình văn phạm liên kết tiếng Việt - 21 69 3

Xác suất được cộng dồn cho 4 trường hợp có thể xảy ra tại bước trước (khi ấy R và L còn đóng vai trò của W):

Mô hình văn phạm liên kết tiếng Việt - 21 69 4

Mô hình văn phạm liên kết tiếng Việt - 21 69 5

Hình 3.22. Mô tả cách tính xác suất Pr0 ⊲left(L, W, l ⊳, ⊲ left[D])

Mô hình văn phạm liên kết tiếng Việt - 21 69 6

Mô hình văn phạm liên kết tiếng Việt - 21 69 7

Theo [79], Các số đếm được tính trong các công thức từ (3.6) đến (3.9) dưới đây :

Mô hình văn phạm liên kết tiếng Việt - 21 69 8

Giá trị count(L, R, l, r) được tính trong giải thuật phân tích:

Mô hình văn phạm liên kết tiếng Việt - 21 69 9

với δ là hàm nhận giá trị 1 nếu l = NIL, 0 nếu ngược lại, match nhận giá trị 1 nếu hai kết nối khớp nhau, 0 nếu ngược lại. Chú ý match(c,NIL) = match(NIL,c) = 0.

 

Giá trị Pr (S) được nêu trong các công thức trên được tính theo công thức sau:

Mô hình văn phạm liên kết tiếng Việt - 21 69 10

Các giá trị Count (L, R, l, r), Count(W, l, r) và Count(d, l, r) được tính trực tiếp theo các kết nối và dạng tuyển xuất hiện trong bộ ngữ liệu.

Download pdf, tải về file docx

Bài viết tương tự

Gửi tin nhắn

Bimage 1

Danh mục

Bài viết tương tự

Bimage 2
Bimage 3

Home | Contact | About | Terms | Privacy policy
© 2022 Tailieuthamkhao.com | all rights reserved

Trang chủ Tài liệu miễn phí Thư viện số