Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kỹ thuật học sâu

LỜI CAM ĐOAN

Tôi tên là Lưu Minh Tuấn, xin cam đoan đây là công trình nghiên cứu của bản thân nghiên cứu sinh trong thời gian học tập và nghiên cứu dưới sự hướng dẫn của người hướng dẫn khoa học. Các kết quả nghiên cứu trình bày trong luận án là trung thực, chính xác và chưa từng được công bố trong bất kỳ công trình nào khác. Các kết quả nghiên cứu viết chung với các tác giả khác đều được sự đồng ý của đồng tác giả trước khi đưa vào luận án. Các kết quả sử dụng để tham khảo đều được trích dẫn đầy đủ và theo đúng quy định.

Hà Nội, ngày tháng năm 2022

Nghiên cứu sinh

Lưu Minh Tuấn

NGƯỜI HƯỚNG DẪN KHOA HỌC

LỜI CẢM ƠN

Trong quá trình học tập và nghiên cứu, nghiên cứu sinh đã nhận được nhiều sự giúp đỡ và ý kiến đóng góp quý báu của các thầy cô. Lời đầu tiên, nghiên cứu sinh xin được bày tỏ lòng kính trọng và biết ơn sâu sắc tới PGS. TS. Lê Thanh Hương - người hướng dẫn khoa học đã tận tình chỉ bảo, hướng dẫn để nghiên cứu sinh có thể hoàn thành được luận án này. Nghiên cứu sinh xin gửi lời cảm ơn chân thành tới PGS. TS. Nguyễn Bình Minh về những ý kiến đóng góp quý báu trong những buổi xê mi na khoa học nhiều gian nan trong suốt thời gian nghiên cứu và hoàn thành luận án. Nghiên cứu sinh xin gửi lời cảm ơn đến các thầy cô của Bộ môn Hệ thống thông tin, Viện Công nghệ thông tin và truyền thông, Phòng đào tạo, Trường Đại học Bách khoa Hà Nội, nơi nghiên cứu sinh học tập và nghiên cứu đã tạo điều kiện tốt nhất có thể cho nghiên cứu sinh trong suốt thời gian học tập và nghiên cứu để nghiên cứu sinh có thể hoàn thành luận án tiến sĩ một cách tốt nhất. Xin cảm ơn Ban giám hiệu Trường Đại học Kinh tế Quốc dân, Ban Lãnh đạo Viện Công nghệ thông tin và Kinh tế số, các thầy cô Bộ môn Công nghệ thông tin - nơi nghiên cứu sinh công tác và các đồng nghiệp đã luôn quan tâm giúp đỡ, tạo điều kiện tốt nhất để nghiên cứu sinh có thể hoàn thành tốt kế hoạch học tập và nghiên cứu của mình. Lời cuối, nghiên cứu sinh xin chân thành cảm ơn các thành viên trong gia đình, người thân, bạn bè đã dành cho nghiên cứu sinh những tình cảm tốt đẹp, luôn động viên, giúp đỡ nghiên cứu sinh vượt qua những khó khăn trong quá trình học tập và nghiên cứu để đạt được kết quả như ngày hôm nay. Đây cũng là món quà tinh thần mà nghiên cứu sinh trân trọng gửi tặng đến các thành viên trong gia đình và người thân.

Một lần nữa nghiên cứu sinh xin chân thành cảm ơn!

MỤC LỤC

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT iv

DANH MỤC CÁC BẢNG vi

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ix

DANH MỤC KÝ HIỆU TOÁN HỌC xi

MỞ ĐẦU 1

Chương 1. TỔNG QUAN VỀ TÓM TẮT VĂN BẢN 11

1.1. Giới thiệu về tóm tắt văn bản 11

1.1.1. Giới thiệu bài toán tóm tắt văn bản 11

1.1.2. Phân loại bài toán tóm tắt văn bản 12

1.1.3. Các bước thực hiện trong tóm tắt văn bản 13

1.1.4. Một số đặc trưng của văn bản 13

1.2. Một số phương pháp đánh giá văn bản tóm tắt tự động

1.2.1. Phương pháp dựa trên độ tương tự về nội dung 14

1.2.2. Phương pháp dựa trên độ tương quan phù hợp 14

1.2.3. Phương pháp ROUGE 15

1.3. Các phương pháp kết hợp văn bản trong tóm tắt đa văn bản 18

1.4. Các phương pháp tóm tắt văn bản hướng trích rút cơ sở 20

1.4.1. PageRank 20

1.4.2. TextRank 20

1.4.3. LexRank 20

1.4.4. Lead-Based 21

1.5. Các bộ dữ liệu thử nghiệm 21

1.5.1. Các bộ dữ liệu văn bản tiếng Anh 21

1.5.2. Các bộ dữ liệu văn bản tiếng Việt 24

1.6. Kết luận chương 1

Chương 2. CÁC KIẾN THỨC NỀN TẢNG 27

2.1. Các kỹ thuật học sâu cơ sở

2.1.1. Mạng Perceptron nhiều lớp 27

2.1.2. Mạng nơ ron tích chập 28

2.1.3. Mạng nơ ron hồi quy 30

2.1.4. Các biến thể của RNN 31

2.1.5. Mô hình chuỗi sang chuỗi cơ bản 35

2.1.6. Cơ chế chú ý 36

2.1.7. Cơ chế tự chú ý và mô hình Transformer 39

2.2. Các mô hình ngôn ngữ dựa trên học sâu được huấn luyện trước

2.2.1. Mã hóa từ 42

2.2.2. Phương pháp Word2Vec 42

2.2.3. Mô hình BERT 44

2.2.4. Các phiên bản chủ yếu của mô hình BERT 47

2.3. Kỹ thuật học tăng cường Q-Learning

2.3.1. Học tăng cường Q-Learning 49

2.3.2. Thuật toán học tăng cường Deep Q-Learning 50

2.4. Tìm kiếm Beam 51

2.5. Phương pháp độ liên quan cận biên tối đa 51

2.6. Kết luận chương 2

Chương 3. PHÁT TRIỂN CÁC PHƯƠNG PHÁP TÓM TẮT ĐƠN VĂN BẢN

HƯỚNG TRÍCH RÚT 54

3.1. Giới thiệu bài toán và hướng tiếp cận

3.2. Mô hình tóm tắt đơn văn bản hướng trích rút

RoPhoBERT_MLP_ESDS 56

3.2.1. Giới thiệu mô hình 56

3.2.2. Mô hình tóm tắt văn bản đề xuất 56

3.2.3. Thử nghiệm mô hình 59

3.2.4. Đánh giá và so sánh kết quả 63

3.3. Mô hình tóm tắt đơn văn bản hướng trích rút mBERT_CNN_ESDS

.............................................................................................................................. 64

3.3.1. Giới thiệu mô hình 64

3.3.2. Mô hình tóm tắt văn bản đề xuất 64

3.3.3. Thử nghiệm mô hình 67

3.3.4. Đánh giá và so sánh kết quả 71

3.4. Mô hình tóm tắt đơn văn bản hướng trích rút mBERT-Tiny_

seq2seq_DeepQL_ESDS 71

3.4.1. Giới thiệu mô hình 71

3.4.2. Mô hình tóm tắt văn bản đề xuất 72

3.4.3. Huấn luyện mô hình với kỹ thuật học tăng cường 74

3.4.4. Thử nghiệm mô hình 75

3.4.5. Đánh giá và so sánh kết quả 78

3.5. So sánh đánh giá ba mô hình tóm tắt đơn văn bản hướng trích rút

đề xuất 79

3.6. Kết luận chương 3

Chương 4. PHÁT TRIỂN PHƯƠNG PHÁP TÓM TẮT ĐƠN VĂN BẢN

HƯỚNG TÓM LƯỢC 82

4.1. Giới thiệu bài toán và hướng tiếp cận

4.2. Mô hình tóm tắt cơ sở 84

4.2.1. Mô hình seq2seq của mô hình 84

4.2.2. Cơ chế chú ý áp dụng trong mô hình 85

4.2.3. Mạng sao chép từ - sinh từ 86

4.2.4. Cơ chế bao phủ 87

4.3. Mô hình tóm tắt đơn văn bản hướng tóm lược PG_Feature_ASDS 87

4.3.1. Các đặc trưng đề xuất thêm mới cho mô hình 88

4.3.2. Mô hình tóm tắt đơn văn bản hướng tóm lược đề xuất 89

4.4. Thử nghiệm mô hình 89

4.4.1. Các bộ dữ liệu thử nghiệm 89

4.4.2. Tiền xử lý dữ liệu 90

4.4.3. Thiết kế thử nghiệm 90

4.5. Đánh giá và so sánh kết quả 91

4.6. Kết luận chương 4

Chương 5. PHÁT TRIỂN CÁC PHƯƠNG PHÁP TÓM TẮT ĐA VĂN BẢN 94

5.1. Giới thiệu bài toán tóm tắt đa văn bản và hướng tiếp cận 94

5.2. Mô hình tóm tắt đa văn bản hướng trích rút

Kmeans_Centroid_EMDS 95

5.2.1. Giới thiệu mô hình 95

5.2.2. Các thành phần chính của mô hình 96

5.2.3. Mô hình tóm tắt đa văn bản đề xuất 100

5.2.4. Thử nghiệm mô hình và kết quả 104

5.2.5. So sánh và đánh giá kết quả 107

5.3. Các mô hình tóm tắt đa văn bản hướng tóm lược dựa trên mô hình

tóm tắt đơn văn bản được huấn luyện trước 110

5.3.1. Đặt vấn đề 110

5.3.2. Mô hình tóm tắt đa văn bản hướng tóm lược dựa trên mô hình tóm tắt đơn văn bản hướng tóm lược được huấn luyện trước PG_Feature_AMDS

110

5.3.3. Mô hình tóm tắt đa văn bản hướng tóm lược dựa trên mô hình tóm tắt đơn văn bản hỗn hợp được huấn luyện trước Ext_Abs_AMDS-mds-mmr

121

5.4. Kết luận chương 5

132

KẾT LUẬN 133

DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ 136

TÀI LIỆU THAM KHẢO 137

PHỤ LỤC 1

Phụ lục A: Văn bản nguồn của các văn bản tóm tắt ví dụ

Phụ lục B: Biểu đồ phân bố của các bộ dữ liệu thử nghiệm 3

Phụ lục C: Văn bản nguồn của các mẫu tóm tắt thử nghiệm

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

Từ viết tắt

Tiếng Anh	Ý nghĩa tiếng Việt
AMDS	Abstractive Multi-Document Summarization	Tóm tắt đa văn bản hướng tóm lược
ASDS	Abstractive Single-Document Summarization	Tóm tắt đơn văn bản hướng tóm lược
Beam	Beam Search	Thuật toán tìm kiếm Beam
BERT	Bidirectional Encoder Representation from Transformers	Mô hình biểu diễn mã hóa hai chiều từ Transformer
BERT-Tiny		Mô hình BERT thu nhỏ
biGRU	Bidirectional Gated Recurrent Unit	Mạng GRU 2 chiều
biLSTM	Bidirectional Long Short Term Memory	Mạng LSTM 2 chiều
BPTT	Backpropagation Through Time	Thuật toán lan truyền ngược liên hồi
CNN	Covolutional Neural Network	Mạng nơ ron tích chập
DE	Document Embedding	Mã hóa văn bản
Decoder	Decoder	Bộ giải mã
DeepQL	Deep Q-Learning	Thuật toán học tăng cường dựa trên mạng nơ ron sâu
EMDS	Extractive Multi-Document Summarization	Tóm tắt đa văn bản hướng trích rút
Encoder	Encoder	Bộ mã hóa
ESDS	Extractive Single-Document Summarization	Tóm tắt đơn văn bản hướng trích rút
GLUE	General Language Understanding Evaluation	Đánh giá hiểu ngôn ngữ chung
GRU	Gated Recurrent Unit	Mô hình đơn vị hồi quy có kiểm soát 1 chiều
ILP	Interger Linear Programming	Quy hoạch tuyến tính nguyên
IR	Information Retrieval	Tìm kiếm thông tin
LCS	Longest Common Subsequence	Dãy con chung lớn nhất
LDA	Latent Dirichlet Allocation	Mô hình chủ đề ẩn
LSA	Latent Semantic Analysis	Phân tích ngữ nghĩa tiềm ẩn
LSTM	Long Short Term Memory	Mô hình mạng bộ nhớ ngắn hạn dài hạn 1 chiều
mBERT	BERT multilingual	Mô hình BERT đa ngôn ngữ
mds	multi-document summaryzation	Tóm tắt đa văn bản
MLP	Multi Layer Perceptron	Mạng Perceptron nhiều lớp
MMR	Maximal Marginal Relevance	Độ liên quan cận biên tối đa
NLP	Natural Language Processing	Xử lý ngôn ngữ tự nhiên

Có thể bạn quan tâm!

Xem toàn bộ 185 trang tài liệu này.

Out Of Vocabulary	Không có trong bộ từ vựng
PE	Position Embedding	Mã hóa vị trí
PG	Pointer – Generator	Mô hình mạng Pointer – Generator
PhoBERT		Mô hình tối ưu của BERT hỗ trợ cho tiếng Việt
PT	Pre-trained	Huấn luyện trước
RL	Reinforcement Learning	Học tăng cường
RNN	Recurent Neural Network	Mạng nơ ron hồi quy
RoBERTa		Mô hình tối ưu của BERT hỗ trợ cho tiếng Anh
ROUGE	Recall-Oriented Understudy for Gisting Evaluation	Độ đo Rouge
SE	Sentence Embedding	Mã hóa câu
seq2seq	Sequence to sequence	Mô hình chuỗi sang chuỗi
SQuAD	Stanford Question Answering Dataset	Bộ dữ liệu hỏi đáp của Stanford
SVM	Support Vector Machine	Mô hình máy véc tơ hỗ trợ
TF-IDF	Term Frequency – Inverse Document Frequency	Trọng số của từ (mức độ quan trọng của từ) trong văn bản của một tập văn bản
TTVB		Tóm tắt văn bản
warmup	warmup	Quá trình huấn luyện ban đầu (số bước) với tỉ lệ học nhỏ
WE	Word Embedding	Mã hóa từ

OOV

DANH MỤC CÁC BẢNG

Bảng 1.1. Ví dụ minh họa một văn bản tóm tắt của văn bản tiếng Anh 12

Bảng 1.2. Ví dụ minh họa một văn bản tóm tắt của văn bản tiếng Việt 12

Bảng 1.3. Phương pháp phân chia bộ dữ liệu CNN/Daily Mail 21

Bảng 1.4. Thống kê các thông tin của hai bộ dữ liệu CNN và Daily Mail 22

Bảng 1.5. Thống kê các thông tin tóm tắt của bộ dữ liệu DUC 2001 và DUC 2002 sử dụng cho tóm tắt đơn văn bản 22

Bảng 1.6. Thống kê các thông tin tóm tắt của bộ dữ liệu DUC 2004 23

Bảng 1.7. Thống kê các thông tin tóm tắt của tập dữ liệu Main task của bộ dữ liệu DUC 2007 23

Bảng 1.8. Thống kê các thông tin tóm tắt của bộ dữ liệu Baomoi 24

Bảng 1.9. Thống kê các thông tin tóm tắt của bộ dữ liệu Corpus_TMV 25

Bảng 1.10. Thống kê các thông tin tóm tắt của bộ dữ liệu ViMs 25

Bảng 3.1. Kết quả thử nghiệm một số phương pháp tóm tắt văn bản cơ sở. Ký hiệu ‘*’ thể hiện phương pháp được triển khai thử nghiệm trên các bộ dữ liệu tương ứng

.................................................................................................................................. 60

Bảng 3.2. Giá trị các siêu tham số và thời gian huấn luyện các mô hình xây dựng 61

Bảng 3.3. Kết quả thử nghiệm của các mô hình xây dựng. Ký hiệu ‘-’ biểu diễn mô hình mà luận án không thử nghiệm trên bộ dữ liệu tương ứng 61

Bảng 3.4. Một mẫu tóm tắt trên bộ dữ liệu CNN 62

Bảng 3.5. Một mẫu tóm tắt trên bộ dữ liệu Baomoi 63

Bảng 3.6. So sánh và đánh giá hiệu quả các phương pháp. Ký hiệu ‘*’,‘-’ biểu diễn các phương pháp được thử nghiệm, không được thử nghiệm trên các bộ dữ liệu tương ứng 63

Bảng 3.7. Các kết quả thử nghiệm của các mô hình xây dựng 69

Bảng 3.8. Kết quả thử nghiệm các phương pháp trên bộ dữ liệu DUC 2001 và DUC 2002. Ký hiệu ‘*’, ‘-’ biểu diễn các phương pháp được thử nghiệm, không được thử nghiệm trên các bộ dữ liệu tương ứng 69

Bảng 3.9. Một mẫu tóm tắt trên bộ dữ liệu CNN 70

Bảng 3.10. Một mẫu tóm tắt trên bộ dữ liệu Baomoi 70

Bảng 3.11. So sáng và đánh giá hiệu quả của các phương pháp. Ký hiệu ‘*’, ‘-’ biểu diễn các phương pháp được thử nghiệm, không được thử nghiệm trên các bộ dữ liệu tương ứng 71

Bảng 3.12. Bảng giá trị các siêu tham số cài đặt cho mô hình huấn luyện với kỹ thuật học tăng cường Deep Q-Learning 74

Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kỹ thuật học sâu - 1

Gửi bình luận