Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kỹ thuật học sâu

Bảng 3.13. Giá trị các siêu tham số và thời gian huấn luyện các mô hình xây dựng

.................................................................................................................................. 76

Bảng 3.14. Kết quả thử nghiệm của các mô hình xây dựng 77

Bảng 3.15. Một mẫu tóm tắt trên bộ dữ liệu CNN 77

Bảng 3.16. Một mẫu tóm tắt trên bộ dữ liệu Baomoi 78

Bảng 3.17. So sánh và đánh giá kết quả các phương pháp 78

Bảng 3.18. So sánh đánh giá độ chính xác của 3 mô hình đề xuất 79

Bảng 3.19. So sánh đánh giá thời gian thực hiện của 3 mô hình đề xuất 80

Bảng 4.1. Kết quả thử nghiệm của các mô hình trên bộ dữ liệu CNN/Daily Mail. Ký hiệu ‘(*)’ là mô hình của See và cộng sự [43] 91

Bảng 4.2. Kết quả thử nghiệm của các mô hình trên bộ dữ liệu Baomoi. Ký hiệu ‘(*)’ là mô hình của See và cộng sự [43] 91

Bảng 4.3. Mẫu tóm tắt gồm bản tóm tắt tham chiếu, bản tóm tắt của mô hình trong

[43] và bản tóm tắt của mô hình đề xuất trên bộ dữ liệu CNN/Daily Mail 92

Bảng 4.4. Mẫu tóm tắt gồm bản tóm tắt tham chiếu, bản tóm tắt của mô hình trong

[43] và bản tóm tắt của mô hình đề xuất trên bộ dữ liệu Baomoi 93

Bảng 5.1. Giá trị của các tham số sử dụng khi thử nghiệm các mô hình. Ký hiệu ‘-‘ biểu diễn mô hình không sử dụng các tham số tương ứng 105

Bảng 5.2. Kết quả thử nghiệm các mô hình xây dựng trên hai bộ dữ liệu 106

Bảng 5.3. Kết quả thử nghiệm các phương pháp tóm tắt trên bộ dữ liệu DUC 2007

................................................................................................................................ 106

Bảng 5.4. So sánh và đánh giá kết quả của các phương pháp. Ký hiệu ‘-’ biểu diễn các phương pháp không được thử nghiệm trên bộ dữ liệu tương ứng 107

Bảng 5.5. Các mẫu tóm tắt của cụm D0716D trong bộ dữ liệu DUC 2007 của mô hình đề xuất và con người 109

Bảng 5.6. Các mẫu tóm tắt của cụm Cluster_2 trong bộ dữ liệu Corpus_TMV của mô hình đề xuất và con người 109

Bảng 5.6. Giá trị các siêu tham số và thời gian huấn luyện mô hình. Warmup là quá trình huấn luyện ban đầu với tỷ lệ học nhỏ để hiệu chỉnh cơ chế chú ý 118

Bảng 5.7. Kết quả thử nghiệm của các mô hình tóm tắt đơn văn bản hướng tóm lược PG_Feature_ASDS trên các bộ dữ liệu CNN và Baomoi 118

Bảng 5.8. Kết quả thử nghiệm mô hình PG_Feature_AMDS trên bộ DUC 2004 và Corpus_TMV sử dụng mô hình PG_Feature_ASDS chưa được huấn luyện tiếp trên bộ DUC 2007 và bộ ViMs tương ứng 118

Bảng 5.9. Kết quả thử nghiệm mô hình PG_Feature_AMDS trên bộ DUC 2004 và Corpus_TMV sử dụng mô hình PG_Feature_ASDS đã được huấn luyện tiếp trên bộ DUC 2007 và bộ ViMs tương ứng 119

Bảng 5.10. Một mẫu thử nghiệm trên bộ dữ liệu DUC 2004 119

Bảng 5.11. Một mẫu thử nghiệm trên bộ dữ liệu Corpus_TMV 120

Bảng 5.12. So sáng và đánh giá kết quả của các phương pháp. Ký hiệu ‘-’ biểu diễn các phương pháp không được thử nghiệm trên các bộ dữ liệu tương ứng 120

Bảng 5.13. Giá trị các siêu tham số và thời gian huấn luyện các mô hình 128

Bảng 5.14. Kết quả thử nghiệm của các mô hình tóm tắt đơn văn bản trên các bộ dữ liệu CNN/Daily Mail và Baomoi 129

Bảng 5.15. Kết quả thử nghiệm các mô hình xây dựng trên bộ dữ liệu DUC 2004 và Corpus_TMV 129

Bảng 5.16. Một mẫu thử nghiệm trên bộ dữ liệu DUC 2004 130

Bảng 5.17. Một mẫu thử nghiệm trên bộ dữ liệu Corpus_TMV 131

Bảng 5.18. So sáng và đánh giá kết quả của các phương pháp. Ký hiệu ‘-’ biểu diễn các phương pháp không được thử nghiệm trên các bộ dữ liệu tương ứng 131

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 1.1. Các bước thực hiện trong tóm tắt văn bản 13

Hình 1.2. Phương pháp xử lý tóm tắt từng đơn văn bản trong tóm tắt đa văn bản .. 19 Hình 2.1. Mô hình mạng MLP một lớp ẩn và nhiều lớp ẩn [79] 27

Hình 2.2. Một kiến trúc CNN cho bài toán phân loại ảnh [84] 28

Hình 2.3. Tính toán với phương thức Average Pooling và Max Pooling [82] 29

Hình 2.4. Mô hình mạng nơ ron hồi quy [87] 30

Hình 2.5. Kiến trúc tổng quan một tế bào nhớ LSTM (nguồn: [Internet]) 31

Hình 2.6. Chi tiết tế bào nhớ LSTM [91] 32

Hình 2.7. Kiến trúc tổng quan của mạng biLSTM [88] 33

Hình 2.8. Minh họa biLSTM ở 3 bước (t-1), t và (t+1) [91] 34

Hình 2.9. Chi tiết tế bào nhớ GRU [89] 35

Hình 2.10. Mô hình mạng chuỗi sang chuỗi [92] 36

Hình 2.11. Mô hình minh họa cơ chế chú ý sinh từ mục tiêu

yt từ câu nguồn

(x1, x2 ,....xT ) [93] 37

Hình 2.12. Mô hình Transformer [97] 40

Hình 2.13. Scaled Dot-Product Attention và Multi-Head Attention [97] 41

Hình 2.14. Mô hình CBoW với một từ làm ngữ cảnh để dự đoán từ tiếp theo [101]

.................................................................................................................................. 42

Hình 2.15. Mô hình CBoW với nhiều từ làm ngữ cảnh để dự đoán từ tiếp theo [101]

.................................................................................................................................. 43

Hình 2.16. Mô hình Skip-Gram [101] 43

Hình 2.17. Kiến trúc mô hình BERT [102] 44

Hình 2.18. Biểu diễn đầu vào của mô hình BERT [102] 45

Hình 2.19. Mô hình biểu diễn các bước chưng cất được huấn luyện trước của các mô hình BERT thu nhỏ [111] 49

Hình 2.20. Mô hình học tăng cường 49

Hình 3.1. Khung xử lý chung cho các mô hình tóm tắt đơn văn bản hướng trích rút đề xuất 55

Hình 3.2. Mô hình tóm tắt đơn văn bản hướng trích rút RoPhoBERT_MLP_ESDS

.................................................................................................................................. 57

Hình 3.3. Kiến trúc mạng MLP đề xuất của mô hình 58

Hình 3.4. Mô hình tóm tắt văn bản hướng trích rút mBERT_CNN_ESDS 64

Hình 3.5. Kiến trúc lớp Convolution với k-Max Pooling (k = 2) 66

Hình 3.6. Kiến trúc mô hình Encoder-Decoder đề xuất 66

Hình 3.7. Mô hình tóm tắt văn bản hướng trích rút mBERT- Tiny_seq2seq_DeepQL_ESDS 72

Hình 3.8. Mô hình huấn luyện với kỹ thuật học tăng cường Deep Q-Learning 75

Hình 4.1. Mô hình tóm tắt đơn văn bản hướng tóm lược cơ sở [128] 84

Hình 4.2. Mô hình tóm tắt đơn văn bản hướng tóm lược đề xuất PG_Feature_ASDS

.................................................................................................................................. 89

Hình 5.1. Mô hình sử dụng thuật toán phân cụm K-means kết hợp vị trí tương đối của câu 100

Hình 5.2. Mô hình sử dụng thuật toán phân cụm K-means kết hợp vị trí câu 101

Hình 5.3. Mô hình sử dụng thuật toán phân cụm K-means kết hợp MMR và vị trí câu 102

Hình 5.4. Mô hình sử dụng thuật toán phân cụm K-means kết hợp Centroid-based, MMR và vị trí câu 103

Hình 5.5. Mô hình tóm tắt đa văn bản hướng trích rút đề xuất Kmeans_Centroid_EMDS 104

Hình 5.6. Minh họa phương pháp PG-MMR (k=2) [147] 113

Hình 5.7. Mô hình tóm tắt đa văn bản hướng tóm lược đề xuất PG_Feature_AMDS

................................................................................................................................ 114

Hình 5.8. Các giai đoạn huấn luyện mô hình tóm tắt đa văn bản hướng tóm lược đề xuất PG_Feature_AMDS 116

Hình 5.9. Mô hình tóm tắt đơn văn bản hướng trích rút RoPhoBERT_CNN_ESDS

................................................................................................................................ 122

Hình 5.10. Mô hình tóm tắt đơn văn bản hướng tóm lược PG_TF-IDF_ASDS 123

Hình 5.11. Mô hình tóm tắt đơn văn bản hỗn hợp Ext_Abs_ASDS 124

Hình 5.12. Mô hình tóm tắt đa văn bản hướng tóm lược dựa trên mô hình pre- trained Ext_Abs_ASDS đề xuất (MMR áp dụng trên từng văn bản) 124

Hình 5.13. Mô hình tóm tắt đa văn bản hướng tóm lược dựa trên mô hình pre- trained Ext_Abs_ASDS với phương pháp MMR áp dụng trên tập đa văn bản 125

Hình 5.14. Các giai đoạn huấn luyện mô hình tóm tắt đa văn bản hướng tóm lược đề xuất Ext_Abs_AMDS-mds-mmr 126

DANH MỤC KÝ HIỆU TOÁN HỌC

Ký hiệu

Ý nghĩa
AT	Ma trận chuyển vị của ma trận A
A-1	Ma trận nghịch đảo của ma trận A
[A; B]	Ghép 2 ma trận A và ma trận B
exp(x)	Hàm ex
f x	Hàm số 1 biến f theo biến x
log(x)	logarit tự nhiên của số thực dương x
	Tập hợp các số thực
n	Không gian véc tơ n chiều
xi	Phần tử thứ i của véc tơ x
x	Chuẩn (norm) của véc tơ x
x 2	Chuẩn cấp 2 của véc tơ x
[x;y]	Ghép 2 véc tơ x và véc tơ y

Có thể bạn quan tâm!

Xem toàn bộ 185 trang tài liệu này.

MỞ ĐẦU

1. Bối cảnh nghiên cứu

Trong kỷ nguyên số và mạng Internet phát triển mạnh mẽ như hiện nay, các tài nguyên trên internet như các trang web, đánh giá của người dùng, tin tức, blog, mạng xã hội,... là những nguồn dữ liệu văn bản to lớn. Bên cạnh đó, có một khối lượng nội dung văn bản phong phú khác trên các kho lưu trữ như các bài báo tin tức, tiểu thuyết, sách, văn bản pháp luật, tài liệu y sinh, bài báo khoa học,... Các nội dung văn bản này tăng lên theo cấp số nhân hàng ngày. Do đó, người dùng mất rất nhiều thời gian để tìm kiếm thông tin mà mình mong muốn. Kết quả là người dùng thậm chí không thể đọc và hiểu hết được tất cả nội dung văn bản kết quả tìm kiếm. Có nhiều thông tin bị lặp lại hoặc không quan trọng trong các văn bản kết quả tìm kiếm. Do đó, việc tóm tắt và cô đọng các nguồn văn bản trở nên cấp thiết và quan trọng hơn rất nhiều. Tóm tắt văn bản thủ công là một nhiệm vụ tốn kém và tiêu tốn nhiều thời gian và công sức của con người. Trên thực tế, con người cũng rất khó tóm tắt thủ công với lượng dữ liệu văn bản khổng lồ này [1]. Để giải quyết các vấn đề này, các phương pháp tóm tắt văn bản tự động được quan tâm nghiên cứu để phát triển các hệ thống tóm tắt văn bản tự động.

Mục tiêu chính của các hệ thống tóm tắt văn bản tự động là tạo ra bản tóm tắt bao gồm các ý chính của một văn bản hoặc nhiều văn bản đầu vào và thông tin lặp lại ít nhất [2,3]. Các hệ thống tóm tắt văn bản tự động sinh ra các bản tóm tắt giúp người dùng nắm được những điểm chính của văn bản gốc mà không cần phải đọc toàn bộ văn bản. Người dùng sẽ được hưởng lợi từ các bản tóm tắt được sinh ra tự động, tiết kiệm được nhiều thời gian và công sức.

Các hệ thống tóm tắt văn bản tự động hiện nay có thể được chia thành hai loại là tóm tắt đơn văn bản và tóm tắt đa văn bản. Tóm tắt đơn văn bản sinh ra bản tóm tắt từ một văn bản đầu vào, trong khi tóm tắt đa văn bản sinh ra bản tóm tắt từ một tập các văn bản đầu vào. Các hệ thống tóm tắt văn bản tự động này được phát triển bằng việc áp dụng một trong các phương pháp tiếp cận chủ yếu là tóm tắt văn bản hướng trích rút và tóm tắt văn bản hướng tóm lược.

Tóm tắt văn bản hướng trích rút: Là phương pháp lựa chọn những câu quan trọng nhất trong một văn bản nguồn (hoặc một tập văn bản nguồn) và sử dụng các câu này để sinh bản tóm tắt. Phương pháp này bao gồm các nhiệm vụ xử lý chính như: Tạo một biểu diễn thích hợp cho văn bản đầu vào, cho điểm các câu, trích rút các câu có điểm cao. Các hệ thống tóm tắt văn bản hướng trích rút có thể chia thành các phương pháp chủ yếu sau:

 Phương pháp dựa trên thống kê: Trích rút các câu và các từ quan trọng từ văn bản nguồn dựa trên phân tích thống kê của tập các đặc trưng. Các hệ thống dựa trên phương pháp thống kê [4,5] thực hiện cho điểm câu bằng cách chọn và tính toán một số đặc trưng thống kê, sau đó gán các trọng số cho chúng và gán điểm cuối cùng cho mỗi câu trong văn bản được xác định bởi biểu thức trọng số - đặc trưng (nghĩa là tất cả điểm của các đặc trưng đã chọn được tính toán và tính tổng để thu

được điểm của mỗi câu). Bên cạnh đó, hệ thống Lead [6] chọn các câu đưa vào bản tóm tắt dựa vào trình tự thời gian đã cho kết quả khá cao.

 Phương pháp dựa trên khái niệm: Trích xuất các khái niệm từ một đoạn văn bản từ các cơ sở tri thức bên ngoài như WordNet [7], Wikipedia,... Sau đó, độ quan trọng của các câu được xác định dựa trên các khái niệm được lấy từ cơ sở tri thức bên ngoài thay vì các từ. Các hệ thống này thực hiện cho điểm các câu bằng cách trích xuất các khái niệm của một văn bản từ cơ sở tri thức bên ngoài, xây dựng một véc tơ khái niệm hoặc mô hình đồ thị để chỉ ra mối quan hệ giữa khái niệm và câu rồi áp dụng một thuật toán xếp hạng để cho điểm các câu như trong [8].

 Phương pháp dựa trên chủ đề: Phương pháp này dựa vào việc xác định chủ đề chính của văn bản. Có một số phương pháp biểu diễn chủ đề phổ biến là phương pháp dựa trên từ chủ đề, tần suất xuất hiện của từ (TF), trọng số thể hiện mức độ quan trọng của từ (TF-IDF), chuỗi từ vựng [9,10]. Các bước xử lý chung của các hệ thống tóm tắt trích rút dựa trên chủ đề bao gồm chuyển đổi văn bản đầu vào thành một biểu diễn trung gian, nắm bắt các chủ đề đã đề cập trong văn bản đầu vào và gán điểm mức độ quan trọng cho mỗi câu trong văn bản đầu vào theo biểu diễn của nó.

 Phương pháp dựa trên trọng tâm hay phân cụm câu: Trong phương pháp này, hệ thống tóm tắt trích rút đa văn bản xác định các câu trọng tâm và quan trọng nhất trong một cụm sao cho chúng chứa các thông tin quan trọng liên quan đến cụm chủ đề chính [11,12,13]. Trọng tâm của câu được xác định bằng cách sử dụng trọng tâm của các từ. Cách phổ biến để xác định trọng tâm của từ là tìm tâm của cụm văn bản trong không gian véc tơ. Trọng tâm của một cụm bao gồm các từ có điểm trọng số TF-IDF lớn hơn một giá trị ngưỡng xác định trước.

 Phương pháp dựa trên đồ thị: Phương pháp này sử dụng đồ thị dựa trên câu để biểu diễn một văn bản hoặc cụm văn bản. Phương pháp biểu diễn này đã được sử dụng phổ biến cho các hệ thống tóm tắt trích rút như: LexRank [11], TextRank [14]. Trong hệ thống LexRank [11], các câu được cho điểm bằng cách biểu diễn các câu của văn bản sử dụng một đồ thị vô hướng sao cho mỗi nút trong đồ thị biểu diễn một câu từ văn bản đầu vào, trọng số của cạnh kết nối là độ tương tự ngữ nghĩa giữa hai câu tương ứng (sử dụng độ tương tự cosine) và sử dụng một thuật toán xếp hạng để xác định độ quan trọng của từng câu. Các câu được xếp hạng dựa trên điểm LexRank giống như thuật toán PageRank [15] chỉ khác là đồ thị LexRank là đồ thị vô hướng.

 Phương pháp dựa trên ngữ nghĩa: Phân tích ngữ nghĩa tiềm ẩn (LSA - Latent Semantic Analysis) là kỹ thuật học không giám sát biểu diễn ngữ nghĩa của văn bản dựa trên sự đồng xuất hiện của các từ được quan sát. Các bước cho điểm câu của các hệ thống tóm tắt trích rút dựa trên LSA [16,17] bao gồm: tạo ma trận đầu vào (ma trận từ - câu) và áp dụng phương pháp phân tích giá trị suy biến (SVD - Singular Value Decomposition) cho ma trận đầu vào để xác định mối quan hệ giữa các từ và các câu.

 Phương pháp dựa trên học máy: Phương pháp này chuyển bài toán tóm tắt văn bản thành bài toán phân loại văn bản có giám sát. Hệ thống học bởi các mẫu học để phân loại một câu của văn bản đánh giá thuộc về lớp “được chọn” hoặc lớp “không được chọn” sử dụng một tập các văn bản huấn luyện (tập các văn bản và các bản tóm tắt tham chiếu tương ứng do con người tạo ra). Trong các hệ thống tóm tắt dựa

trên học máy [18,19,20], các bước thực hiện cho điểm câu bao gồm: trích xuất các đặc trưng từ văn bản đã tiền xử lý và đưa các đặc trưng đã trích xuất vào một mạng nơ ron để nhận được điểm đầu ra.

 Phương pháp dựa trên học sâu: Trong [21], Kobayashi và cộng sự đề xuất một hệ thống tóm tắt sử dụng độ tương tự mức văn bản dựa trên các mã hóa từ (nghĩa là các biểu diễn phân bố của từ). Mã hóa của một từ biểu diễn ý nghĩa của nó. Một văn bản được coi như một “túi câu” và một câu được coi như một “túi từ”. Nhiệm vụ được cụ thể hóa như bài toán tối đa hóa một hàm được xác định bởi tổng âm của các khoảng cách lân cận gần nhất trên các phân bố mã hóa (tức là một tập các mã hóa từ trong một văn bản). Kobayashi và cộng sự chỉ ra rằng độ tương tự mức văn bản có thể xác định những nghĩa phức tạp hơn độ tương tự mức câu. Chen và Nguyen [22] đã đề xuất một hệ thống tóm tắt văn bản tự động sử dụng kỹ thuật học tăng cường và mô hình chuỗi sang chuỗi với kiến trúc bộ mã hóa - giải mã sử dụng mạng nơ ron hồi quy. Các đặc trưng quan trọng được chọn bằng kỹ thuật mã hóa mức câu sau đó các câu tóm tắt được trích rút. Bên cạnh đó, phải kể đến một số hệ thống như [23,24,25,26,27], các hệ thống này đã sử dụng các kỹ thuật học sâu hiệu quả để tạo bản tóm tắt cuối cùng.

Các hệ thống tóm tắt hướng trích rút này có ưu điểm là thực thi đơn giản, nhanh và cho độ chính xác cao vì phương pháp này thực hiện trích rút trực tiếp các câu để người đọc có thể đọc bản tóm tắt với các thuật ngữ chính xác có trong văn bản gốc. Tuy nhiên, phương pháp cận này có những hạn chế cần cần quan tâm như: Vấn đề dư thừa thông tin trong một số câu tóm tắt, các câu được trích rút có thể dài hơn mức trung bình, vấn đề xung đột về thời gian trong bài toán tóm tắt đa văn bản vì các bản tóm tắt trích rút được chọn từ nhiều văn bản đầu vào khác nhau, thiếu ngữ nghĩa và tính liên kết trong các câu tóm tắt vì liên kết không chính xác giữa các câu.

Tóm tắt văn bản hướng tóm lược: Phương pháp tiếp cận này biểu diễn văn bản đầu vào ở dạng trung gian, sau đó sinh bản tóm tắt với các từ và câu khác với các câu trong văn bản nguồn [28]. Các hệ thống tóm tắt hướng tóm lược sinh ra bản tóm tắt bằng cách hiểu các khái niệm chính trong văn bản đầu vào sử dụng các phương pháp xử lý ngôn ngữ tự nhiên, sau đó diễn giải văn bản để diễn đạt các khái niệm đó với số từ ít hơn và sử dụng ngôn ngữ rò ràng [29,30]. Một hệ thống tóm tắt tóm lược có thể bao gồm các nhiệm vụ xử lý chính sau: Biểu diễn ngữ nghĩa văn bản và sử dụng các kỹ thuật sinh ngôn ngữ tự nhiên để sinh bản tóm tắt gần với các bản tóm tắt của con người tạo ra [31]. Các nghiên cứu theo phương pháp tiếp cận này có thể chia thành các loại chính sau:

 Phương pháp dựa trên cấu trúc: Phương pháp này sử dụng cấu trúc được xác định trước như đồ thị, cây, luật, mẫu,… để phát triển hệ thống tóm tắt tóm lược. Các hệ thống tóm tắt tóm lược sử dụng cấu trúc đồ thị được đề xuất như [32,33,34,35], trong các hệ thống này mỗi nút biểu diễn cho một từ và thông tin vị trí được liên kết với các nút. Các cung có hướng biểu diễn cấu trúc của câu. Các hệ thống dựa trên cấu trúc cây xác định các câu tương tự nhau, sau đó dựa trên các câu này để sinh bản tóm tắt tóm lược. Các câu được biểu diễn thành một cấu trúc giống như cấu trúc cây, sử dụng bộ phân tích cú pháp để xây dựng cây phụ thuộc là các biểu diễn dạng cây sử dụng nhiều cho văn bản. Sau đó, một số nhiệm vụ được thực hiện để xử lý cây như tỉa cây, chuyển đổi cây thành dạng chuỗi,... để sinh bản tóm tắt cuối cùng. Kurisinkel và cộng sự [36] đề xuất một hệ thống tóm tắt đa văn bản tóm lược dựa

Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kỹ thuật học sâu - 2

Gửi bình luận