Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kỹ thuật học sâu - 1

LỜI CAM ĐOAN


Tôi tên là Lưu Minh Tuấn, xin cam đoan đây là công trình nghiên cứu của bản thân nghiên cứu sinh trong thời gian học tập và nghiên cứu dưới sự hướng dẫn của người hướng dẫn khoa học. Các kết quả nghiên cứu trình bày trong luận án là trung thực, chính xác và chưa từng được công bố trong bất kỳ công trình nào khác. Các kết quả nghiên cứu viết chung với các tác giả khác đều được sự đồng ý của đồng tác giả trước khi đưa vào luận án. Các kết quả sử dụng để tham khảo đều được trích dẫn đầy đủ và theo đúng quy định.


Hà Nội, ngày tháng năm 2022

Nghiên cứu sinh


Lưu Minh Tuấn


NGƯỜI HƯỚNG DẪN KHOA HỌC

LỜI CẢM ƠN


Trong quá trình học tập và nghiên cứu, nghiên cứu sinh đã nhận được nhiều sự giúp đỡ và ý kiến đóng góp quý báu của các thầy cô. Lời đầu tiên, nghiên cứu sinh xin được bày tỏ lòng kính trọng và biết ơn sâu sắc tới PGS. TS. Lê Thanh Hương - người hướng dẫn khoa học đã tận tình chỉ bảo, hướng dẫn để nghiên cứu sinh có thể hoàn thành được luận án này. Nghiên cứu sinh xin gửi lời cảm ơn chân thành tới PGS. TS. Nguyễn Bình Minh về những ý kiến đóng góp quý báu trong những buổi xê mi na khoa học nhiều gian nan trong suốt thời gian nghiên cứu và hoàn thành luận án. Nghiên cứu sinh xin gửi lời cảm ơn đến các thầy cô của Bộ môn Hệ thống thông tin, Viện Công nghệ thông tin và truyền thông, Phòng đào tạo, Trường Đại học Bách khoa Hà Nội, nơi nghiên cứu sinh học tập và nghiên cứu đã tạo điều kiện tốt nhất có thể cho nghiên cứu sinh trong suốt thời gian học tập và nghiên cứu để nghiên cứu sinh có thể hoàn thành luận án tiến sĩ một cách tốt nhất. Xin cảm ơn Ban giám hiệu Trường Đại học Kinh tế Quốc dân, Ban Lãnh đạo Viện Công nghệ thông tin và Kinh tế số, các thầy cô Bộ môn Công nghệ thông tin - nơi nghiên cứu sinh công tác và các đồng nghiệp đã luôn quan tâm giúp đỡ, tạo điều kiện tốt nhất để nghiên cứu sinh có thể hoàn thành tốt kế hoạch học tập và nghiên cứu của mình. Lời cuối, nghiên cứu sinh xin chân thành cảm ơn các thành viên trong gia đình, người thân, bạn bè đã dành cho nghiên cứu sinh những tình cảm tốt đẹp, luôn động viên, giúp đỡ nghiên cứu sinh vượt qua những khó khăn trong quá trình học tập và nghiên cứu để đạt được kết quả như ngày hôm nay. Đây cũng là món quà tinh thần mà nghiên cứu sinh trân trọng gửi tặng đến các thành viên trong gia đình và người thân.

Một lần nữa nghiên cứu sinh xin chân thành cảm ơn!

MỤC LỤC

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT iv

DANH MỤC CÁC BẢNG vi

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ix

DANH MỤC KÝ HIỆU TOÁN HỌC xi

MỞ ĐẦU 1

Chương 1. TỔNG QUAN VỀ TÓM TẮT VĂN BẢN 11

1.1. Giới thiệu về tóm tắt văn bản 11

1.1.1. Giới thiệu bài toán tóm tắt văn bản 11

1.1.2. Phân loại bài toán tóm tắt văn bản 12

1.1.3. Các bước thực hiện trong tóm tắt văn bản 13

1.1.4. Một số đặc trưng của văn bản 13

1.2. Một số phương pháp đánh giá văn bản tóm tắt tự động

14

1.2.1. Phương pháp dựa trên độ tương tự về nội dung 14

1.2.2. Phương pháp dựa trên độ tương quan phù hợp 14

1.2.3. Phương pháp ROUGE 15

1.3. Các phương pháp kết hợp văn bản trong tóm tắt đa văn bản 18

1.4. Các phương pháp tóm tắt văn bản hướng trích rút cơ sở 20

1.4.1. PageRank 20

1.4.2. TextRank 20

1.4.3. LexRank 20

1.4.4. Lead-Based 21

1.5. Các bộ dữ liệu thử nghiệm 21

1.5.1. Các bộ dữ liệu văn bản tiếng Anh 21

1.5.2. Các bộ dữ liệu văn bản tiếng Việt 24

1.6. Kết luận chương 1

25

Chương 2. CÁC KIẾN THỨC NỀN TẢNG 27

2.1. Các kỹ thuật học sâu cơ sở

27

2.1.1. Mạng Perceptron nhiều lớp 27

2.1.2. Mạng nơ ron tích chập 28

2.1.3. Mạng nơ ron hồi quy 30

2.1.4. Các biến thể của RNN 31

2.1.5. Mô hình chuỗi sang chuỗi cơ bản 35

2.1.6. Cơ chế chú ý 36

2.1.7. Cơ chế tự chú ý và mô hình Transformer 39

2.2. Các mô hình ngôn ngữ dựa trên học sâu được huấn luyện trước

42

2.2.1. Mã hóa từ 42

2.2.2. Phương pháp Word2Vec 42

2.2.3. Mô hình BERT 44

2.2.4. Các phiên bản chủ yếu của mô hình BERT 47

2.3. Kỹ thuật học tăng cường Q-Learning

49

2.3.1. Học tăng cường Q-Learning 49

2.3.2. Thuật toán học tăng cường Deep Q-Learning 50

2.4. Tìm kiếm Beam 51

2.5. Phương pháp độ liên quan cận biên tối đa 51

2.6. Kết luận chương 2

53

Chương 3. PHÁT TRIỂN CÁC PHƯƠNG PHÁP TÓM TẮT ĐƠN VĂN BẢN

HƯỚNG TRÍCH RÚT 54

3.1. Giới thiệu bài toán và hướng tiếp cận

54

3.2. Mô hình tóm tắt đơn văn bản hướng trích rút

RoPhoBERT_MLP_ESDS 56

3.2.1. Giới thiệu mô hình 56

3.2.2. Mô hình tóm tắt văn bản đề xuất 56

3.2.3. Thử nghiệm mô hình 59

3.2.4. Đánh giá và so sánh kết quả 63

3.3. Mô hình tóm tắt đơn văn bản hướng trích rút mBERT_CNN_ESDS

.............................................................................................................................. 64

3.3.1. Giới thiệu mô hình 64

3.3.2. Mô hình tóm tắt văn bản đề xuất 64

3.3.3. Thử nghiệm mô hình 67

3.3.4. Đánh giá và so sánh kết quả 71

3.4. Mô hình tóm tắt đơn văn bản hướng trích rút mBERT-Tiny_

seq2seq_DeepQL_ESDS 71

3.4.1. Giới thiệu mô hình 71

3.4.2. Mô hình tóm tắt văn bản đề xuất 72

3.4.3. Huấn luyện mô hình với kỹ thuật học tăng cường 74

3.4.4. Thử nghiệm mô hình 75

3.4.5. Đánh giá và so sánh kết quả 78

3.5. So sánh đánh giá ba mô hình tóm tắt đơn văn bản hướng trích rút

đề xuất 79

3.6. Kết luận chương 3

80

Chương 4. PHÁT TRIỂN PHƯƠNG PHÁP TÓM TẮT ĐƠN VĂN BẢN

HƯỚNG TÓM LƯỢC 82

4.1. Giới thiệu bài toán và hướng tiếp cận

82

4.2. Mô hình tóm tắt cơ sở 84

4.2.1. Mô hình seq2seq của mô hình 84

4.2.2. Cơ chế chú ý áp dụng trong mô hình 85

4.2.3. Mạng sao chép từ - sinh từ 86

4.2.4. Cơ chế bao phủ 87

4.3. Mô hình tóm tắt đơn văn bản hướng tóm lược PG_Feature_ASDS 87

4.3.1. Các đặc trưng đề xuất thêm mới cho mô hình 88

4.3.2. Mô hình tóm tắt đơn văn bản hướng tóm lược đề xuất 89

4.4. Thử nghiệm mô hình 89

4.4.1. Các bộ dữ liệu thử nghiệm 89

4.4.2. Tiền xử lý dữ liệu 90

4.4.3. Thiết kế thử nghiệm 90

4.5. Đánh giá và so sánh kết quả 91

4.6. Kết luận chương 4

93

Chương 5. PHÁT TRIỂN CÁC PHƯƠNG PHÁP TÓM TẮT ĐA VĂN BẢN 94

5.1. Giới thiệu bài toán tóm tắt đa văn bản và hướng tiếp cận 94

5.2. Mô hình tóm tắt đa văn bản hướng trích rút

Kmeans_Centroid_EMDS 95

5.2.1. Giới thiệu mô hình 95

5.2.2. Các thành phần chính của mô hình 96

5.2.3. Mô hình tóm tắt đa văn bản đề xuất 100

5.2.4. Thử nghiệm mô hình và kết quả 104

5.2.5. So sánh và đánh giá kết quả 107

5.3. Các mô hình tóm tắt đa văn bản hướng tóm lược dựa trên mô hình

tóm tắt đơn văn bản được huấn luyện trước 110

5.3.1. Đặt vấn đề 110

5.3.2. Mô hình tóm tắt đa văn bản hướng tóm lược dựa trên mô hình tóm tắt đơn văn bản hướng tóm lược được huấn luyện trước PG_Feature_AMDS

110

5.3.3. Mô hình tóm tắt đa văn bản hướng tóm lược dựa trên mô hình tóm tắt đơn văn bản hỗn hợp được huấn luyện trước Ext_Abs_AMDS-mds-mmr

121

5.4. Kết luận chương 5

132

KẾT LUẬN 133

DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ 136

TÀI LIỆU THAM KHẢO 137

PHỤ LỤC 1

Phụ lục A: Văn bản nguồn của các văn bản tóm tắt ví dụ

1

Phụ lục B: Biểu đồ phân bố của các bộ dữ liệu thử nghiệm 3

Phụ lục C: Văn bản nguồn của các mẫu tóm tắt thử nghiệm

9

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT



Từ viết tắt

Tiếng Anh

Ý nghĩa tiếng Việt

AMDS

Abstractive Multi-Document

Summarization

Tóm tắt đa văn bản hướng

tóm lược

ASDS

Abstractive Single-Document

Summarization

Tóm tắt đơn văn bản hướng

tóm lược

Beam

Beam Search

Thuật toán tìm kiếm Beam

BERT

Bidirectional Encoder Representation

from Transformers

Mô hình biểu diễn mã hóa

hai chiều từ Transformer

BERT-Tiny


Mô hình BERT thu nhỏ

biGRU

Bidirectional Gated Recurrent Unit

Mạng GRU 2 chiều

biLSTM

Bidirectional Long Short Term

Memory

Mạng LSTM 2 chiều

BPTT

Backpropagation Through Time

Thuật toán lan truyền ngược

liên hồi

CNN

Covolutional Neural Network

Mạng nơ ron tích chập

DE

Document Embedding

Mã hóa văn bản

Decoder

Decoder

Bộ giải mã

DeepQL

Deep Q-Learning

Thuật toán học tăng cường

dựa trên mạng nơ ron sâu

EMDS

Extractive Multi-Document

Summarization

Tóm tắt đa văn bản hướng

trích rút

Encoder

Encoder

Bộ mã hóa

ESDS

Extractive Single-Document

Summarization

Tóm tắt đơn văn bản hướng

trích rút

GLUE

General Language Understanding

Evaluation

Đánh giá hiểu ngôn ngữ

chung

GRU

Gated Recurrent Unit

Mô hình đơn vị hồi quy có

kiểm soát 1 chiều

ILP

Interger Linear Programming

Quy hoạch tuyến tính

nguyên

IR

Information Retrieval

Tìm kiếm thông tin

LCS

Longest Common Subsequence

Dãy con chung lớn nhất

LDA

Latent Dirichlet Allocation

Mô hình chủ đề ẩn

LSA

Latent Semantic Analysis

Phân tích ngữ nghĩa tiềm ẩn

LSTM

Long Short Term Memory

Mô hình mạng bộ nhớ ngắn

hạn dài hạn 1 chiều

mBERT

BERT multilingual

Mô hình BERT đa ngôn ngữ

mds

multi-document summaryzation

Tóm tắt đa văn bản

MLP

Multi Layer Perceptron

Mạng Perceptron nhiều lớp

MMR

Maximal Marginal Relevance

Độ liên quan cận biên tối đa

NLP

Natural Language Processing

Xử lý ngôn ngữ tự nhiên

Có thể bạn quan tâm!

Xem toàn bộ 185 trang tài liệu này.

Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kỹ thuật học sâu - 1

Out Of Vocabulary

Không có trong bộ từ vựng

PE

Position Embedding

Mã hóa vị trí

PG

Pointer – Generator

Mô hình mạng Pointer –

Generator

PhoBERT


Mô hình tối ưu của BERT

hỗ trợ cho tiếng Việt

PT

Pre-trained

Huấn luyện trước

RL

Reinforcement Learning

Học tăng cường

RNN

Recurent Neural Network

Mạng nơ ron hồi quy

RoBERTa


Mô hình tối ưu của BERT

hỗ trợ cho tiếng Anh

ROUGE

Recall-Oriented Understudy for

Gisting Evaluation

Độ đo Rouge

SE

Sentence Embedding

Mã hóa câu

seq2seq

Sequence to sequence

Mô hình chuỗi sang chuỗi

SQuAD

Stanford Question Answering Dataset

Bộ dữ liệu hỏi đáp của

Stanford

SVM

Support Vector Machine

Mô hình máy véc tơ hỗ trợ

TF-IDF

Term Frequency – Inverse Document Frequency

Trọng số của từ (mức độ quan trọng của từ) trong văn

bản của một tập văn bản

TTVB


Tóm tắt văn bản

warmup

warmup

Quá trình huấn luyện ban

đầu (số bước) với tỉ lệ học nhỏ

WE

Word Embedding

Mã hóa từ

OOV

DANH MỤC CÁC BẢNG

Bảng 1.1. Ví dụ minh họa một văn bản tóm tắt của văn bản tiếng Anh 12

Bảng 1.2. Ví dụ minh họa một văn bản tóm tắt của văn bản tiếng Việt 12

Bảng 1.3. Phương pháp phân chia bộ dữ liệu CNN/Daily Mail 21

Bảng 1.4. Thống kê các thông tin của hai bộ dữ liệu CNN và Daily Mail 22

Bảng 1.5. Thống kê các thông tin tóm tắt của bộ dữ liệu DUC 2001 và DUC 2002 sử dụng cho tóm tắt đơn văn bản 22

Bảng 1.6. Thống kê các thông tin tóm tắt của bộ dữ liệu DUC 2004 23

Bảng 1.7. Thống kê các thông tin tóm tắt của tập dữ liệu Main task của bộ dữ liệu DUC 2007 23

Bảng 1.8. Thống kê các thông tin tóm tắt của bộ dữ liệu Baomoi 24

Bảng 1.9. Thống kê các thông tin tóm tắt của bộ dữ liệu Corpus_TMV 25

Bảng 1.10. Thống kê các thông tin tóm tắt của bộ dữ liệu ViMs 25

Bảng 3.1. Kết quả thử nghiệm một số phương pháp tóm tắt văn bản cơ sở. Ký hiệu ‘*’ thể hiện phương pháp được triển khai thử nghiệm trên các bộ dữ liệu tương ứng

.................................................................................................................................. 60

Bảng 3.2. Giá trị các siêu tham số và thời gian huấn luyện các mô hình xây dựng 61

Bảng 3.3. Kết quả thử nghiệm của các mô hình xây dựng. Ký hiệu ‘-’ biểu diễn mô hình mà luận án không thử nghiệm trên bộ dữ liệu tương ứng 61

Bảng 3.4. Một mẫu tóm tắt trên bộ dữ liệu CNN 62

Bảng 3.5. Một mẫu tóm tắt trên bộ dữ liệu Baomoi 63

Bảng 3.6. So sánh và đánh giá hiệu quả các phương pháp. Ký hiệu ‘*’,‘-’ biểu diễn các phương pháp được thử nghiệm, không được thử nghiệm trên các bộ dữ liệu tương ứng 63

Bảng 3.7. Các kết quả thử nghiệm của các mô hình xây dựng 69

Bảng 3.8. Kết quả thử nghiệm các phương pháp trên bộ dữ liệu DUC 2001 và DUC 2002. Ký hiệu ‘*’, ‘-’ biểu diễn các phương pháp được thử nghiệm, không được thử nghiệm trên các bộ dữ liệu tương ứng 69

Bảng 3.9. Một mẫu tóm tắt trên bộ dữ liệu CNN 70

Bảng 3.10. Một mẫu tóm tắt trên bộ dữ liệu Baomoi 70

Bảng 3.11. So sáng và đánh giá hiệu quả của các phương pháp. Ký hiệu ‘*’, ‘-’ biểu diễn các phương pháp được thử nghiệm, không được thử nghiệm trên các bộ dữ liệu tương ứng 71

Bảng 3.12. Bảng giá trị các siêu tham số cài đặt cho mô hình huấn luyện với kỹ thuật học tăng cường Deep Q-Learning 74

..... Xem trang tiếp theo?
⇦ Trang trước - Trang tiếp theo ⇨

Ngày đăng: 10/06/2022