LỜI CAM ĐOAN
Tôi tên là Lưu Minh Tuấn, xin cam đoan đây là công trình nghiên cứu của bản thân nghiên cứu sinh trong thời gian học tập và nghiên cứu dưới sự hướng dẫn của người hướng dẫn khoa học. Các kết quả nghiên cứu trình bày trong luận án là trung thực, chính xác và chưa từng được công bố trong bất kỳ công trình nào khác. Các kết quả nghiên cứu viết chung với các tác giả khác đều được sự đồng ý của đồng tác giả trước khi đưa vào luận án. Các kết quả sử dụng để tham khảo đều được trích dẫn đầy đủ và theo đúng quy định.
Hà Nội, ngày tháng năm 2022
Nghiên cứu sinh
Lưu Minh Tuấn
NGƯỜI HƯỚNG DẪN KHOA HỌC
LỜI CẢM ƠN
Trong quá trình học tập và nghiên cứu, nghiên cứu sinh đã nhận được nhiều sự giúp đỡ và ý kiến đóng góp quý báu của các thầy cô. Lời đầu tiên, nghiên cứu sinh xin được bày tỏ lòng kính trọng và biết ơn sâu sắc tới PGS. TS. Lê Thanh Hương - người hướng dẫn khoa học đã tận tình chỉ bảo, hướng dẫn để nghiên cứu sinh có thể hoàn thành được luận án này. Nghiên cứu sinh xin gửi lời cảm ơn chân thành tới PGS. TS. Nguyễn Bình Minh về những ý kiến đóng góp quý báu trong những buổi xê mi na khoa học nhiều gian nan trong suốt thời gian nghiên cứu và hoàn thành luận án. Nghiên cứu sinh xin gửi lời cảm ơn đến các thầy cô của Bộ môn Hệ thống thông tin, Viện Công nghệ thông tin và truyền thông, Phòng đào tạo, Trường Đại học Bách khoa Hà Nội, nơi nghiên cứu sinh học tập và nghiên cứu đã tạo điều kiện tốt nhất có thể cho nghiên cứu sinh trong suốt thời gian học tập và nghiên cứu để nghiên cứu sinh có thể hoàn thành luận án tiến sĩ một cách tốt nhất. Xin cảm ơn Ban giám hiệu Trường Đại học Kinh tế Quốc dân, Ban Lãnh đạo Viện Công nghệ thông tin và Kinh tế số, các thầy cô Bộ môn Công nghệ thông tin - nơi nghiên cứu sinh công tác và các đồng nghiệp đã luôn quan tâm giúp đỡ, tạo điều kiện tốt nhất để nghiên cứu sinh có thể hoàn thành tốt kế hoạch học tập và nghiên cứu của mình. Lời cuối, nghiên cứu sinh xin chân thành cảm ơn các thành viên trong gia đình, người thân, bạn bè đã dành cho nghiên cứu sinh những tình cảm tốt đẹp, luôn động viên, giúp đỡ nghiên cứu sinh vượt qua những khó khăn trong quá trình học tập và nghiên cứu để đạt được kết quả như ngày hôm nay. Đây cũng là món quà tinh thần mà nghiên cứu sinh trân trọng gửi tặng đến các thành viên trong gia đình và người thân.
Một lần nữa nghiên cứu sinh xin chân thành cảm ơn!
MỤC LỤC
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT iv
DANH MỤC CÁC BẢNG vi
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ix
DANH MỤC KÝ HIỆU TOÁN HỌC xi
MỞ ĐẦU 1
Chương 1. TỔNG QUAN VỀ TÓM TẮT VĂN BẢN 11
1.1. Giới thiệu về tóm tắt văn bản 11
1.1.1. Giới thiệu bài toán tóm tắt văn bản 11
1.1.2. Phân loại bài toán tóm tắt văn bản 12
1.1.3. Các bước thực hiện trong tóm tắt văn bản 13
1.1.4. Một số đặc trưng của văn bản 13
1.2. Một số phương pháp đánh giá văn bản tóm tắt tự động
14
1.2.1. Phương pháp dựa trên độ tương tự về nội dung 14
1.2.2. Phương pháp dựa trên độ tương quan phù hợp 14
1.2.3. Phương pháp ROUGE 15
1.3. Các phương pháp kết hợp văn bản trong tóm tắt đa văn bản 18
1.4. Các phương pháp tóm tắt văn bản hướng trích rút cơ sở 20
1.4.1. PageRank 20
1.4.2. TextRank 20
1.4.3. LexRank 20
1.4.4. Lead-Based 21
1.5. Các bộ dữ liệu thử nghiệm 21
1.5.1. Các bộ dữ liệu văn bản tiếng Anh 21
1.5.2. Các bộ dữ liệu văn bản tiếng Việt 24
1.6. Kết luận chương 1
25
Chương 2. CÁC KIẾN THỨC NỀN TẢNG 27
2.1. Các kỹ thuật học sâu cơ sở
27
2.1.1. Mạng Perceptron nhiều lớp 27
2.1.2. Mạng nơ ron tích chập 28
2.1.3. Mạng nơ ron hồi quy 30
2.1.4. Các biến thể của RNN 31
2.1.5. Mô hình chuỗi sang chuỗi cơ bản 35
2.1.6. Cơ chế chú ý 36
2.1.7. Cơ chế tự chú ý và mô hình Transformer 39
2.2. Các mô hình ngôn ngữ dựa trên học sâu được huấn luyện trước
42
2.2.1. Mã hóa từ 42
2.2.2. Phương pháp Word2Vec 42
2.2.3. Mô hình BERT 44
2.2.4. Các phiên bản chủ yếu của mô hình BERT 47
2.3. Kỹ thuật học tăng cường Q-Learning
49
2.3.1. Học tăng cường Q-Learning 49
2.3.2. Thuật toán học tăng cường Deep Q-Learning 50
2.4. Tìm kiếm Beam 51
2.5. Phương pháp độ liên quan cận biên tối đa 51
2.6. Kết luận chương 2
53
Chương 3. PHÁT TRIỂN CÁC PHƯƠNG PHÁP TÓM TẮT ĐƠN VĂN BẢN
HƯỚNG TRÍCH RÚT 54
3.1. Giới thiệu bài toán và hướng tiếp cận
54
3.2. Mô hình tóm tắt đơn văn bản hướng trích rút
RoPhoBERT_MLP_ESDS 56
3.2.1. Giới thiệu mô hình 56
3.2.2. Mô hình tóm tắt văn bản đề xuất 56
3.2.3. Thử nghiệm mô hình 59
3.2.4. Đánh giá và so sánh kết quả 63
3.3. Mô hình tóm tắt đơn văn bản hướng trích rút mBERT_CNN_ESDS
.............................................................................................................................. 64
3.3.1. Giới thiệu mô hình 64
3.3.2. Mô hình tóm tắt văn bản đề xuất 64
3.3.3. Thử nghiệm mô hình 67
3.3.4. Đánh giá và so sánh kết quả 71
3.4. Mô hình tóm tắt đơn văn bản hướng trích rút mBERT-Tiny_
seq2seq_DeepQL_ESDS 71
3.4.1. Giới thiệu mô hình 71
3.4.2. Mô hình tóm tắt văn bản đề xuất 72
3.4.3. Huấn luyện mô hình với kỹ thuật học tăng cường 74
3.4.4. Thử nghiệm mô hình 75
3.4.5. Đánh giá và so sánh kết quả 78
3.5. So sánh đánh giá ba mô hình tóm tắt đơn văn bản hướng trích rút
đề xuất 79
3.6. Kết luận chương 3
80
Chương 4. PHÁT TRIỂN PHƯƠNG PHÁP TÓM TẮT ĐƠN VĂN BẢN
HƯỚNG TÓM LƯỢC 82
4.1. Giới thiệu bài toán và hướng tiếp cận
82
4.2. Mô hình tóm tắt cơ sở 84
4.2.1. Mô hình seq2seq của mô hình 84
4.2.2. Cơ chế chú ý áp dụng trong mô hình 85
4.2.3. Mạng sao chép từ - sinh từ 86
4.2.4. Cơ chế bao phủ 87
4.3. Mô hình tóm tắt đơn văn bản hướng tóm lược PG_Feature_ASDS 87
4.3.1. Các đặc trưng đề xuất thêm mới cho mô hình 88
4.3.2. Mô hình tóm tắt đơn văn bản hướng tóm lược đề xuất 89
4.4. Thử nghiệm mô hình 89
4.4.1. Các bộ dữ liệu thử nghiệm 89
4.4.2. Tiền xử lý dữ liệu 90
4.4.3. Thiết kế thử nghiệm 90
4.5. Đánh giá và so sánh kết quả 91
4.6. Kết luận chương 4
93
Chương 5. PHÁT TRIỂN CÁC PHƯƠNG PHÁP TÓM TẮT ĐA VĂN BẢN 94
5.1. Giới thiệu bài toán tóm tắt đa văn bản và hướng tiếp cận 94
5.2. Mô hình tóm tắt đa văn bản hướng trích rút
Kmeans_Centroid_EMDS 95
5.2.1. Giới thiệu mô hình 95
5.2.2. Các thành phần chính của mô hình 96
5.2.3. Mô hình tóm tắt đa văn bản đề xuất 100
5.2.4. Thử nghiệm mô hình và kết quả 104
5.2.5. So sánh và đánh giá kết quả 107
5.3. Các mô hình tóm tắt đa văn bản hướng tóm lược dựa trên mô hình
tóm tắt đơn văn bản được huấn luyện trước 110
5.3.1. Đặt vấn đề 110
5.3.2. Mô hình tóm tắt đa văn bản hướng tóm lược dựa trên mô hình tóm tắt đơn văn bản hướng tóm lược được huấn luyện trước PG_Feature_AMDS
110
5.3.3. Mô hình tóm tắt đa văn bản hướng tóm lược dựa trên mô hình tóm tắt đơn văn bản hỗn hợp được huấn luyện trước Ext_Abs_AMDS-mds-mmr
121
5.4. Kết luận chương 5
132
KẾT LUẬN 133
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ 136
TÀI LIỆU THAM KHẢO 137
PHỤ LỤC 1
Phụ lục A: Văn bản nguồn của các văn bản tóm tắt ví dụ
1
Phụ lục B: Biểu đồ phân bố của các bộ dữ liệu thử nghiệm 3
Phụ lục C: Văn bản nguồn của các mẫu tóm tắt thử nghiệm
9
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Tiếng Anh | Ý nghĩa tiếng Việt | |
AMDS | Abstractive Multi-Document Summarization | Tóm tắt đa văn bản hướng tóm lược |
ASDS | Abstractive Single-Document Summarization | Tóm tắt đơn văn bản hướng tóm lược |
Beam | Beam Search | Thuật toán tìm kiếm Beam |
BERT | Bidirectional Encoder Representation from Transformers | Mô hình biểu diễn mã hóa hai chiều từ Transformer |
BERT-Tiny | Mô hình BERT thu nhỏ | |
biGRU | Bidirectional Gated Recurrent Unit | Mạng GRU 2 chiều |
biLSTM | Bidirectional Long Short Term Memory | Mạng LSTM 2 chiều |
BPTT | Backpropagation Through Time | Thuật toán lan truyền ngược liên hồi |
CNN | Covolutional Neural Network | Mạng nơ ron tích chập |
DE | Document Embedding | Mã hóa văn bản |
Decoder | Decoder | Bộ giải mã |
DeepQL | Deep Q-Learning | Thuật toán học tăng cường dựa trên mạng nơ ron sâu |
EMDS | Extractive Multi-Document Summarization | Tóm tắt đa văn bản hướng trích rút |
Encoder | Encoder | Bộ mã hóa |
ESDS | Extractive Single-Document Summarization | Tóm tắt đơn văn bản hướng trích rút |
GLUE | General Language Understanding Evaluation | Đánh giá hiểu ngôn ngữ chung |
GRU | Gated Recurrent Unit | Mô hình đơn vị hồi quy có kiểm soát 1 chiều |
ILP | Interger Linear Programming | Quy hoạch tuyến tính nguyên |
IR | Information Retrieval | Tìm kiếm thông tin |
LCS | Longest Common Subsequence | Dãy con chung lớn nhất |
LDA | Latent Dirichlet Allocation | Mô hình chủ đề ẩn |
LSA | Latent Semantic Analysis | Phân tích ngữ nghĩa tiềm ẩn |
LSTM | Long Short Term Memory | Mô hình mạng bộ nhớ ngắn hạn dài hạn 1 chiều |
mBERT | BERT multilingual | Mô hình BERT đa ngôn ngữ |
mds | multi-document summaryzation | Tóm tắt đa văn bản |
MLP | Multi Layer Perceptron | Mạng Perceptron nhiều lớp |
MMR | Maximal Marginal Relevance | Độ liên quan cận biên tối đa |
NLP | Natural Language Processing | Xử lý ngôn ngữ tự nhiên |
Có thể bạn quan tâm!
- Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kỹ thuật học sâu - 2
- Ý Nghĩa Khoa Học Và Ý Nghĩa Thực Tiễn
- Ví Dụ Minh Họa Một Văn Bản Tóm Tắt Của Văn Bản Tiếng Anh
Xem toàn bộ 185 trang tài liệu này.
Out Of Vocabulary | Không có trong bộ từ vựng | |
PE | Position Embedding | Mã hóa vị trí |
PG | Pointer – Generator | Mô hình mạng Pointer – Generator |
PhoBERT | Mô hình tối ưu của BERT hỗ trợ cho tiếng Việt | |
PT | Pre-trained | Huấn luyện trước |
RL | Reinforcement Learning | Học tăng cường |
RNN | Recurent Neural Network | Mạng nơ ron hồi quy |
RoBERTa | Mô hình tối ưu của BERT hỗ trợ cho tiếng Anh | |
ROUGE | Recall-Oriented Understudy for Gisting Evaluation | Độ đo Rouge |
SE | Sentence Embedding | Mã hóa câu |
seq2seq | Sequence to sequence | Mô hình chuỗi sang chuỗi |
SQuAD | Stanford Question Answering Dataset | Bộ dữ liệu hỏi đáp của Stanford |
SVM | Support Vector Machine | Mô hình máy véc tơ hỗ trợ |
TF-IDF | Term Frequency – Inverse Document Frequency | Trọng số của từ (mức độ quan trọng của từ) trong văn bản của một tập văn bản |
TTVB | Tóm tắt văn bản | |
warmup | warmup | Quá trình huấn luyện ban đầu (số bước) với tỉ lệ học nhỏ |
WE | Word Embedding | Mã hóa từ |
OOV
DANH MỤC CÁC BẢNG
Bảng 1.1. Ví dụ minh họa một văn bản tóm tắt của văn bản tiếng Anh 12
Bảng 1.2. Ví dụ minh họa một văn bản tóm tắt của văn bản tiếng Việt 12
Bảng 1.3. Phương pháp phân chia bộ dữ liệu CNN/Daily Mail 21
Bảng 1.4. Thống kê các thông tin của hai bộ dữ liệu CNN và Daily Mail 22
Bảng 1.5. Thống kê các thông tin tóm tắt của bộ dữ liệu DUC 2001 và DUC 2002 sử dụng cho tóm tắt đơn văn bản 22
Bảng 1.6. Thống kê các thông tin tóm tắt của bộ dữ liệu DUC 2004 23
Bảng 1.7. Thống kê các thông tin tóm tắt của tập dữ liệu Main task của bộ dữ liệu DUC 2007 23
Bảng 1.8. Thống kê các thông tin tóm tắt của bộ dữ liệu Baomoi 24
Bảng 1.9. Thống kê các thông tin tóm tắt của bộ dữ liệu Corpus_TMV 25
Bảng 1.10. Thống kê các thông tin tóm tắt của bộ dữ liệu ViMs 25
Bảng 3.1. Kết quả thử nghiệm một số phương pháp tóm tắt văn bản cơ sở. Ký hiệu ‘*’ thể hiện phương pháp được triển khai thử nghiệm trên các bộ dữ liệu tương ứng
.................................................................................................................................. 60
Bảng 3.2. Giá trị các siêu tham số và thời gian huấn luyện các mô hình xây dựng 61
Bảng 3.3. Kết quả thử nghiệm của các mô hình xây dựng. Ký hiệu ‘-’ biểu diễn mô hình mà luận án không thử nghiệm trên bộ dữ liệu tương ứng 61
Bảng 3.4. Một mẫu tóm tắt trên bộ dữ liệu CNN 62
Bảng 3.5. Một mẫu tóm tắt trên bộ dữ liệu Baomoi 63
Bảng 3.6. So sánh và đánh giá hiệu quả các phương pháp. Ký hiệu ‘*’,‘-’ biểu diễn các phương pháp được thử nghiệm, không được thử nghiệm trên các bộ dữ liệu tương ứng 63
Bảng 3.7. Các kết quả thử nghiệm của các mô hình xây dựng 69
Bảng 3.8. Kết quả thử nghiệm các phương pháp trên bộ dữ liệu DUC 2001 và DUC 2002. Ký hiệu ‘*’, ‘-’ biểu diễn các phương pháp được thử nghiệm, không được thử nghiệm trên các bộ dữ liệu tương ứng 69
Bảng 3.9. Một mẫu tóm tắt trên bộ dữ liệu CNN 70
Bảng 3.10. Một mẫu tóm tắt trên bộ dữ liệu Baomoi 70
Bảng 3.11. So sáng và đánh giá hiệu quả của các phương pháp. Ký hiệu ‘*’, ‘-’ biểu diễn các phương pháp được thử nghiệm, không được thử nghiệm trên các bộ dữ liệu tương ứng 71
Bảng 3.12. Bảng giá trị các siêu tham số cài đặt cho mô hình huấn luyện với kỹ thuật học tăng cường Deep Q-Learning 74