trên phân tích cú pháp văn bản đầu vào để xây dựng một tập gồm tất cả các cây phụ thuộc cú pháp. Trong khi đó, hệ thống dựa trên luật [37] yêu cầu xác định các luật để phát hiện các khái niệm quan trọng trong văn bản đầu vào, sau đó sử dụng các khái niệm này để sinh ra bản tóm tắt.
Phương pháp dựa trên ngữ nghĩa: Biểu diễn văn bản đầu vào bằng các biểu diễn ngữ nghĩa như các mục thông tin, đồ thị ngữ nghĩa,..v...v..., rồi cung cấp các biểu diễn ngữ nghĩa này cho hệ thống sinh ngôn ngữ tự nhiên sử dụng các danh từ và động từ để sinh ra bản tóm tắt tóm lược cuối cùng [38].
Phương pháp dựa trên học sâu: Mô hình seq2seq đã tạo ra các mô hình tóm tắt hướng tóm lược hiệu quả trong tóm tắt văn bản [39]. Mô hình với bộ mã hóa - giải mã sử dụng mạng nơ ron hồi quy với cơ chế chú ý (attention) đã đạt được kết quả cao cho tóm tắt văn bản ngắn. Tuy nhiên, các phương pháp học sâu gặp phải một số vấn đề như: các từ hoặc cụm từ sinh ra bị lặp lại và không xử lý được vấn đề thiếu từ trong bộ từ vựng. Một số nghiên cứu khác cũng đã sử dụng kỹ thuật học sâu kết hợp với các kỹ thuật khác để tạo ra các hệ thống tóm tắt tóm lược hiệu quả như [40,41,42,43].
Ưu điểm của các phương pháp tóm tắt hướng tóm lược là sinh ra các bản tóm tắt tốt hơn với các từ có thể không có trong văn bản gốc bằng cách sử dụng các biểu diễn dựa trên diễn giải, nén. Bản tóm tắt được sinh ra gần với bản tóm tắt thủ công của con người hơn, có thể ngắn hơn so với các phương pháp trích rút vì câu sinh ra đã giảm được các thông tin dư thừa. Tuy nhiên, trong thực tế, việc sinh một bản tóm tắt tóm lược có chất lượng tốt là rất khó khăn. Các hệ thống tóm tắt tóm lược có chất lượng tốt rất khó phát triển vì các hệ thống này yêu cầu sử dụng kỹ thuật sinh ngôn ngữ tự nhiên mà kỹ thuật này vẫn là một lĩnh vực đang được nghiên cứu phát triển hiện nay. Hầu hết các bản tóm tắt tóm lược đều gặp phải vấn đề lặp từ và không xử lý được vấn đề thiếu từ trong bộ từ vựng một cách thích hợp.
Ngoài ra, một phương pháp tiếp cận khác là tóm tắt văn bản dựa trên kỹ thuật nén câu [44,45] cũng đã đạt được những kết quả nhất định. Phương pháp tiếp cận này thực hiện liên kết các câu được rút gọn để tạo ra một văn bản tóm tắt ngắn hơn, ngữ pháp chấp nhận được, đảm bảo được mức độ mạch lạc về nội dung và ý nghĩa của văn bản nguồn. Các phương pháp nén câu thường sử dụng các kỹ thuật học có giám sát, bộ từ vựng phù hợp, phân tích ngôn ngữ dựa trên cây cú pháp [46,47] và kỹ thuật học không giám sát như [45,48]. Các nghiên cứu về kỹ thuật nén câu cũng cho thấy vai trò của phương pháp tiếp cận này trong tóm tắt văn bản. Tuy nhiên, các phương pháp nén câu yêu cầu chi phí xây dựng kho dữ liệu huấn luyện lớn, các bộ dữ liệu liên quan đến bộ từ vựng phù hợp được thực thi bởi chuyên gia ngôn ngữ trong thời gian dài và độ phức tạp tính toán cao nên các mô hình tóm tắt văn bản sử dụng các kỹ thuật nén câu thường yêu cầu chi phí cao. Bên cạnh đó, chất lượng của bản tóm tắt tạo ra phụ thuộc rất nhiều vào chất lượng của các kỹ thuật nén câu được sử dụng.
Đối với tiếng Việt, do tính phức tạp và đặc thù riêng của ngôn ngữ nên các nghiên cứu về tóm tắt văn bản tiếng Việt còn hạn chế. Hầu hết các nghiên cứu là các đề tài tốt nghiệp đại học, luận văn thạc sĩ, tiến sĩ và đề tài nghiên cứu khoa học cấp trường, cấp bộ [49,50,51]. Các nghiên cứu được công bố dưới hình thức các bài báo khoa học cho tóm tắt văn bản tiếng Việt còn ít [52,53,54,55,56]. Các nghiên cứu này phần lớn dựa trên hướng trích rút cho bài toán tóm tắt đơn văn bản và chủ
yếu dựa vào các đặc trưng của câu như tần suất từ, vị trí câu, từ tiêu đề, độ tương tự,... để chọn ra các câu quan trọng theo tỉ lệ trích rút nên chất lượng văn bản tóm tắt chưa cao, có thể kể đến như: tóm tắt văn bản tiếng Việt sử dụng cấu trúc diễn ngôn [52], tóm tắt văn bản sử dụng các phương pháp truyền thống [53], sử dụng giải thuật di truyền để tóm tắt văn bản [54], trích rút câu sử dụng phương pháp máy véc tơ hỗ trợ để đưa vào bản tóm tắt [56]. Mô hình seq2seq kết hợp với cơ chế chú ý để thực hiện tóm tắt văn bản như trong [57]. Bên cạnh đó, do chưa có các kho ngữ liệu đủ lớn được công bố chính thức phục vụ cho tóm tắt văn bản tiếng Việt nên hầu hết các thử nghiệm đều dựa trên các kho ngữ liệu tự xây dựng nên việc đánh giá kết quả của các nghiên cứu cũng cần được xem xét kỹ lưỡng.
Như vậy, có thể nhận thấy các hệ thống tóm tắt văn bản tự động còn nhiều hạn chế, chính những hạn chế này làm phát sinh những thách thức cần giải quyết đồng thời mở ra các hướng nghiên cứu mới cho bài toán tóm tắt văn bản, đó là:
Thách thức liên quan đến tóm tắt đa văn bản: Tóm tắt đa văn bản là bài toán phức tạp với nhiều vấn đề cần giải quyết như dư thừa thông tin, trình tự thời gian và sắp xếp lại các câu.
Thách thức liên quan đến các ngôn ngữ được hỗ trợ tóm tắt: Hầu hết các hệ thống tóm tắt văn bản tự động đều tập trung vào tóm tắt văn bản tiếng Anh. Đối với các ngôn ngữ khác, các nghiên cứu còn hạn chế và chất lượng của các hệ thống tóm tắt văn bản tự động hiện có cũng cần được cải thiện. Do đó, cần phải phát triển và cải tiến các hệ thống tóm tắt cho các ngôn ngữ không phải tiếng Anh.
Có thể bạn quan tâm!
- Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kỹ thuật học sâu - 1
- Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kỹ thuật học sâu - 2
- Ví Dụ Minh Họa Một Văn Bản Tóm Tắt Của Văn Bản Tiếng Anh
- Các Phương Pháp Tóm Tắt Văn Bản Hướng Trích Rút Cơ Sở
- Một Kiến Trúc Cnn Cho Bài Toán Phân Loại Ảnh [84]
Xem toàn bộ 185 trang tài liệu này.
Thách thức liên quan đến phương pháp tóm tắt văn bản: Hầu hết các nghiên cứu hiện nay đều tập trung vào phương pháp tóm tắt hướng trích rút, do đó cần nghiên cứu đề xuất và cải thiện các hệ thống tóm tắt dựa trên phương pháp tóm tắt hướng tóm lược và phương pháp tóm tắt hỗn hợp.
Thách thức liên quan đến các đặc trưng thống kê và ngôn ngữ: Cần phát hiện thêm mới các đặc trưng thống kê và ngôn ngữ cho các từ, các câu cho các hệ thống để có thể trích xuất ngữ nghĩa các câu chính từ văn bản nguồn. Bên cạnh đó, vấn đề xử lý trọng số thích hợp cho các đặc trưng mới này cũng là một vấn đề quan trọng quyết định chất lượng của bản tóm tắt cuối cùng.
Thách thức liên quan đến việc sử dụng các kỹ thuật học sâu và vấn đề thiếu dữ liệu thử nghiệm cho các mô hình: Do các mô hình học sâu thường có kiến trúc phức tạp, khối lượng xử lý tính toán lớn nên các hệ thống tóm tắt cũng đòi hỏi tài nguyên lớn để thực thi. Bên cạnh đó, các mô hình học sâu yêu cầu lượng dữ liệu huấn luyện lớn để đảm bảo chất lượng của bản tóm tắt đầu ra nhưng thực tế hiện nay các dữ liệu này khan hiếm (hoặc nếu có thì cũng không đủ lớn) để huấn luyện các mô hình. Đây là một thách thức nghiên cứu quan trọng khi xây dựng các hệ thống tóm tắt văn bản tự động sử dụng các kỹ thuật hiện đại với một lượng dữ liệu huấn luyện nhỏ.
Thách thức liên quan đến chất lượng của bản tóm tắt sinh ra: Bản tóm tắt cần đạt được sự cân bằng giữa khả năng đọc, tỷ lệ nén và chất lượng tóm tắt tốt. Các hệ thống tóm tắt văn bản tự động hiện tại rất khó đạt được tỷ lệ nén cao để tóm tắt các văn bản dài như tiểu thuyết, sách,… nên cần phải cải thiện chất lượng bản tóm tắt về ngữ nghĩa do các từ không rò nghĩa, từ đồng nghĩa hoặc từ nhiều nghĩa gây ra.
Thách thức liên quan đến phương pháp đánh giá bản tóm tắt tạo ra: Đánh giá bản tóm tắt (tự động hoặc thủ công) là một nhiệm vụ khó khăn, đó là khó khăn trong việc xác định và sử dụng một độ đo tiêu chuẩn có độ tin cậy cao để đánh giá
các bản tóm tắt được sinh ra từ hệ thống tóm tắt văn bản tự động có đủ tốt hay không và rất khó khăn để tìm ra một bản tóm tắt lý tưởng vì hệ thống tóm tắt văn bản tự động có thể tạo ra các bản tóm tắt tốt khác với các bản tóm tắt do con người tạo ra. Con người và hệ thống có thể chọn các câu khác nhau cho các bản tóm tắt trích rút và có thể diễn giải các bản tóm tắt tóm lược theo một cách hoàn toàn khác nên các phương pháp đánh giá thủ công không phù hợp với các loại tóm tắt. Do đó, cần có các phương pháp đánh giá tự động các bản tóm tắt do các hệ thống tóm tắt sinh ra.
Hầu hết các nghiên cứu đã cố gắng phát triển mới và cải tiến các phương pháp tóm tắt văn bản hiện có nhằm tạo ra các hệ thống tóm tắt văn bản hiệu quả. Các phương pháp tóm tắt văn bản này thường là trích rút hoặc tóm lược áp dụng cho tóm tắt đơn văn bản và tóm tắt đa văn bản. Do đó, việc nghiên cứu, phát triển các mô hình tóm tắt văn bản hiệu quả là rất cần thiết và có ý nghĩa to lớn.
2. Động lực thúc đẩy
Từ bối cảnh nghiên cứu đã phân tích trên, nghiên cứu sinh nhận thấy bài toán tóm tắt văn bản tự động đóng một vai trò quan trọng trong xử lý ngôn ngữ tự nhiên cũng như khai phá dữ liệu văn bản và đặt ra nhiều thách thức cho việc phát triển các phương pháp tóm tắt văn bản hiệu quả. Mặc dù, hàng năm các nhà nghiên cứu đã đề xuất phát triển được một số giải pháp mới hoặc cải tiến các giải pháp hiện có để nâng cao hiệu quả và độ chính xác cho các mô hình tóm tắt văn bản nhưng các bản tóm tắt được sinh ra của các mô hình vẫn khác xa so với các bản tóm tắt do con người tạo ra. Một trong các nguyên nhân đó là dữ liệu thử nghiệm cho các mô hình tóm tắt của bài toán tóm tắt văn bản. Vấn đề thiếu dữ liệu hay dữ liệu bị nhiễu làm cho hiệu quả tóm tắt của các mô hình tóm tắt chưa cao. Bên cạnh đó, vấn đề biểu diễn dữ liệu văn bản đầu vào cũng đóng vai trò quan trọng quyết định hiệu quả của các mô hình tóm tắt. Một lý do khác có vai trò quan trọng không kém là phần lớn các nghiên cứu về tóm tắt văn bản hiện nay được thực hiện cho tóm tắt văn bản tiếng Anh, các nghiên cứu về bài toán tóm tắt văn bản tiếng Việt còn khiêm tốn. Do đó, việc nghiên cứu phát triển các mô hình tóm tắt văn bản hiệu quả áp dụng cho tóm tắt văn bản tiếng Anh và tiếng Việt càng có ý nghĩa to lớn, nhất là trong bối cảnh các kỹ thuật học máy, các mô hình học sâu và các kỹ thuật hiện đại khác đang được phát triển mạnh như hiện nay.
Chính vì những lý do đó, đề tài “Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu” được đặt ra hết sức cấp thiết và có tính ứng dụng cao trong thực tiễn.
3. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu:
Các đặc trưng của văn bản.
Các bộ dữ liệu thử nghiệm cho tóm tắt đơn văn bản, tóm tắt đa văn bản tiếng Anh và tiếng Việt.
Các mô hình tóm tắt đơn văn bản, tóm tắt đa văn bản tiếng Anh và tiếng Việt.
Các kỹ thuật áp dụng trong tóm tắt văn bản như: Các phương pháp véc tơ hóa văn bản, các kỹ thuật học máy, học sâu, các mô hình được huấn luyện trước, cơ chế chú ý, kỹ thuật tìm kiếm, phương pháp loại bỏ thông tin trùng lặp.
Các phương pháp đánh giá độ chính xác của văn bản tóm tắt.
Phạm vi nghiên cứu:
Đề xuất các mô hình tóm tắt đơn văn bản hướng trích rút.
Đề xuất mô hình tóm tắt đơn văn bản hướng tóm lược.
Đề xuất các mô hình tóm tắt đa văn bản hướng trích rút.
Đề xuất các mô hình tóm tắt đa văn bản hướng tóm lược.
Các mô hình tóm tắt văn bản đề xuất này đều được áp dụng cho tóm tắt văn bản tiếng Anh và tiếng Việt.
4. Mục tiêu nghiên cứu
Luận án nghiên cứu đề xuất các mô hình tóm tắt đơn văn bản, tóm tắt đa văn bản cho tóm tắt văn bản tiếng Anh và tiếng Việt. Cụ thể:
Nghiên cứu đề xuất các đặc trưng quan trọng sử dụng cho các mô hình tóm tắt văn bản.
Nghiên cứu các kỹ thuật học máy, học sâu, các mô hình được huấn luyện trước để véc tơ hóa văn bản cho các mô hình tóm tắt văn bản.
Đề xuất các mô hình tóm tắt đơn văn bản hướng trích rút, hướng tóm lược áp dụng tóm tắt cho tóm tắt văn bản tiếng Anh và tiếng Việt.
Đề xuất mô hình tóm tắt đa văn bản hướng trích rút cho tóm tắt văn bản tiếng Anh và tiếng Việt.
Đề xuất các mô hình tóm tắt đa văn bản hướng tóm lược cho tóm tắt văn bản tiếng Anh và tiếng Việt sử dụng các mô hình tóm tắt đơn văn bản được huấn luyện trước.
5. Phương pháp nghiên cứu
Thu thập, chuẩn bị dữ liệu thử nghiệm cho các mô hình tóm tắt văn bản tiếng Anh và tiếng Việt.
Nghiên cứu các hướng tiếp cận tóm tắt văn bản tiếng Anh và tiếng Việt liên quan, trong đó tập trung vào các hướng tiếp cận hiện đại.
Phân tích ưu điểm, nhược điểm của các phương pháp tóm tắt hiện tại để đề xuất các mô hình tóm tắt văn bản tiếng Anh và tiếng Việt hiệu quả.
Nghiên cứu lựa chọn phương pháp đánh giá hiệu quả của các mô hình tóm tắt văn bản.
Cài đặt thử nghiệm một số phương pháp tóm tắt văn bản hiện có, các mô hình tóm tắt đề xuất trên các bộ dữ liệu thử nghiệm.
Đánh giá và so sánh kết quả thử nghiệm của các mô hình để đề xuất các mô hình tóm tắt hiệu quả.
6. Nội dung nghiên cứu
Nghiên cứu các kỹ thuật học máy, học sâu sử dụng để phát triển các mô hình tóm tắt văn bản.
Nghiên cứu đề xuất thêm mới các đặc trưng quan trọng của văn bản cho mô hình tóm tắt văn bản.
Nghiên cứu đề xuất các mô hình tóm tắt đơn văn bản hướng trích rút, hướng tóm lược hiệu quả cho tóm tắt văn bản tiếng Anh và tiếng Việt.
Nghiên cứu đề xuất các mô hình tóm tắt đa văn bản hướng trích rút, hướng tóm lược hiệu quả cho tóm tắt văn bản tiếng Anh và tiếng Việt.
7. Ý nghĩa khoa học và ý nghĩa thực tiễn
Ý nghĩa khoa học: Nghiên cứu chuyên sâu về các kỹ thuật học máy, học sâu, các đặc trưng của văn bản để đề xuất phát triển các mô hình tóm tắt văn bản hiệu quả cho tiếng Anh và tiếng Việt.
Ý nghĩa thực tiễn: Đề xuất các đặc trưng quan trọng của văn bản sử dụng cho các mô hình tóm tắt văn bản. Đề xuất các mô hình tóm tắt văn bản hiệu quả cho tóm tắt văn bản tiếng Anh và tiếng Việt. Các mô hình đề xuất mới có thể sử dụng để xây dựng các hệ thống phần mềm tóm tắt hiệu quả đáp ứng tốt các yêu cầu trong thực tiễn. Ngoài ra, hướng tiếp cận tinh chỉnh mô hình tóm tắt đơn văn bản được huấn luyện trước bằng việc huấn luyện tiếp mô hình tóm tắt đơn văn bản trên các bộ dữ liệu thử nghiệm của tóm tắt đa văn bản do nghiên cứu sinh đề xuất có thể mở ra một hướng mới để phát triển các mô hình tóm tắt đa văn bản hiệu quả trong điều kiện thiếu dữ liệu thử nghiệm.
8. Những đóng góp chính của luận án
Với mục tiêu đặt ra, luận án đã đạt được một số kết quả đóng góp vào việc nghiên cứu phát triển mở rộng các hệ thống tóm tắt văn bản cho ngôn ngữ tiếng Anh và tiếng Việt. Các kết quả chính có thể khái quát là:
Đề xuất ba mô hình tóm tắt đơn văn bản hướng trích rút, đó là RoPhoBERT_MLP_ESDS, mBERT_CNN_ESDS và mBERT- Tiny_seq2seq_DeepQL_ESDS. Mô hình RoPhoBERT_MLP_ESDS sử dụng các mô hình tối ưu của mô hình biểu diễn mã hóa hai chiều từ Transformer (BERT - Bidirectional Encoder Representation from Transformers) được huấn luyện trước để véc tơ hóa văn bản, mô hình phân loại với mạng Perceptron nhiều lớp (MLP - Multi Layer Perceptron), kết hợp với đặc trưng vị trí câu và phương pháp độ liên quan cận biên tối đa (MMR - Maximal Marginal Relevance) để loại bỏ thông tin trùng lặp và lựa chọn câu đưa vào bản tóm tắt. Mô hình mBERT_CNN_ESDS sử dụng mô hình BERT đa ngôn ngữ, mạng nơ ron tích chập, mô hình chuỗi sang chuỗi (seq2seq), lớp mạng nơ ron kết nối đầy đủ (FC - Fully Connected) kết hợp đặc trưng trọng số của từ TF-IDF và phương pháp MMR để lựa chọn câu đưa vào bản tóm tắt. Mô hình mBERT-Tiny_seq2seq_DeepQL_ESDS sử dụng mô hình BERT thu nhỏ, BERT đa ngôn ngữ để véc tơ hóa văn bản đầu vào, mạng CNN, seq2seq, lớp FC, kết hợp kỹ thuật học tăng cường và phương pháp MMR để lựa chọn câu đưa vào bản tóm tắt.
Đề xuất một mô hình tóm tắt đơn văn bản hướng tóm lược PG_Feature_ASDS. Mô hình này sử dụng các kỹ thuật học sâu, cơ chế chú ý, kỹ thuật loại bỏ thông tin trùng lặp, kết hợp các đặc trưng tần suất xuất hiện của từ, vị trí câu trong văn bản để sinh bản tóm tắt tóm lược.
Đề xuất một mô hình tóm tắt đa văn bản hướng trích rút Kmeans_Centroid_EMDS. Mô hình này thực hiện phân cụm tập văn bản sử dụng các kỹ thuật học máy là phân cụm K-means, phương pháp dựa trên trung tâm (Centroid-based), MMR và đặc trưng vị trí câu để tạo văn bản tóm tắt cho tập đa văn bản.
Đề xuất hai mô hình tóm tắt đa văn bản hướng tóm lược, đó là PG_Feature_AMDS và Ext_Abs_AMDS-mds-mmr. Mô hình PG_Feature_AMDS sử dụng mô hình tóm tắt đơn văn bản hướng tóm lược PG_Feature_ASDS đã đề xuất là mô hình được huấn luyện trước, mô hình PG_Feature_ASDS được tinh chỉnh bằng việc huấn luyện tiếp trên các bộ dữ liệu thử nghiệm tóm tắt đa văn bản tương ứng. Mô hình Ext_Abs_AMDS-mds-mmr sử dụng mô hình hỗn hợp được huấn luyện trước được xây dựng dựa trên các mô hình tóm tắt đơn văn bản được tinh chỉnh từ các mô hình tóm tắt đơn văn bản đã đề xuất. Các mô hình tóm tắt đơn văn bản, mô hình hỗn hợp này được huấn luyện tiếp trên các bộ dữ liệu thử nghiệm tóm tắt đa văn bản tương ứng để xây dựng mô hình tóm tắt đa văn bản hướng tóm lược hiệu quả.
Các mô hình đề xuất phát triển của luận án đều được áp dụng hiệu quả cho tóm tắt văn bản tiếng Anh và tiếng Việt.
9. Bố cục của luận án
Với những đóng góp chính được trình bày ở trên, bố cục của luận án bao gồm: Phần mở đầu, năm chương, phần kết luận, tài liệu tham khảo và phần phụ lục. Cụ thể như sau:
Phần mở đầu: Trình bày những điểm quan trọng về bối cảnh nghiên cứu, động lực thúc đẩy, tổng quan về đối tượng nghiên cứu, phạm vi nghiên cứu, mục tiêu nghiên cứu, phương pháp nghiên cứu, nội dung nghiên cứu, ý nghĩa khoa học và ý nghĩa thực tiễn của luận án. Những tồn tại, thách thức và phương pháp giải quyết của luận án. Ngoài ra, phần này cũng trình bày những đóng góp chính và bố cục của luận án.
Chương 1. Tổng quan về tóm tắt văn bản: Chương này trình bày các vấn đề tổng quan về tóm tắt văn bản trong xử lý ngôn ngữ tự nhiên, một số phương pháp đánh giá văn bản tóm tắt tự động, các phương pháp kết hợp các văn bản của tập đa văn bản, các phương pháp tóm tắt văn bản hướng trích rút cơ sở, các bộ dữ liệu được sử dụng để thử nghiệm cho các mô hình tóm tắt văn bản đề xuất. Những kiến thức này là cơ sở để phát triển các nghiên cứu đề xuất của luận án.
Chương 2. Các kiến thức nền tảng: Chương này trình bày các kiến thức nền tảng về các kỹ thuật học sâu cơ sở bao gồm mạng Perceptron nhiều lớp, mạng nơ ron tích chập, mạng nơ ron hồi quy, các mô hình ngôn ngữ dựa trên học sâu được huấn luyện trước. Tiếp theo, chương này trình bày về kỹ thuật học tăng cường Deep Q-Learning, tìm kiếm Beam, phương pháp MMR loại bỏ thông tin trùng lặp trong
văn bản tóm tắt. Những kiến thức nền tảng này là cơ sở để phát triển các phương pháp tóm tắt văn bản đề xuất trong luận án.
Chương 3. Phát triển các phương pháp tóm tắt đơn văn bản hướng trích rút: Chương này trình bày về bài toán tóm tắt đơn văn bản hướng trích rút, đề xuất phát triển ba mô hình tóm tắt đơn văn bản hướng trích rút sử dụng kết hợp các kỹ thuật học sâu, các mô hình được huấn luyện trước, các đặc trưng của văn bản và phương pháp loại bỏ các thông tin trùng lặp để áp dụng tóm tắt hiệu quả cho tóm tắt văn bản tiếng Anh và tiếng Việt.
Chương 4. Phát triển phương pháp tóm tắt đơn văn bản hướng tóm lược: Chương này giới thiệu về bài toán tóm tắt đơn văn bản hướng tóm lược, đề xuất phát triển mô hình tóm tắt đơn văn bản hướng tóm lược sử dụng kết hợp các kỹ thuật học sâu, các cơ chế xử lý trùng lặp thông tin, các đặc trưng của văn bản để áp dụng hiệu quả trong tóm tắt hướng tóm lược. Mô hình đề xuất áp dụng hiệu quả cho tóm tắt văn bản tiếng Anh và tiếng Việt. Mô hình tóm tắt đơn văn bản này sẽ được sử dụng để phát triển các mô hình tóm tắt đa văn bản đề xuất của luận án.
Chương 5. Phát triển các phương pháp tóm tắt đa văn bản: Chương này giới thiệu về bài toán tóm tắt đa văn bản, đề xuất phát triển một mô hình tóm tắt đa văn bản hướng trích rút, hai mô hình tóm tắt đa văn bản hướng tóm lược sử dụng kết hợp các kỹ thuật học máy, học sâu và các đặc trưng của văn bản, các cơ chế xử lý trùng lặp thông tin áp dụng hiệu quả cho tóm tắt đa văn bản tiếng Anh và tiếng Việt. Hai mô hình tóm tắt đa văn bản hướng tóm lược được đề xuất phát triển dựa trên các mô hình tóm tắt đơn văn bản được huấn luyện trước đã đề xuất.
Phần kết luận: Trình bày các kết quả đạt được, những khó khăn tồn tại và hướng phát triển tiếp của các nghiên cứu trong luận án.
Phần phụ lục: Trình bày biểu đồ biểu diễn phân tích các bộ dữ liệu thử nghiệm và nội dung các văn bản nguồn của các mẫu tóm tắt thử nghiệm trên các bộ dữ liệu tương ứng của các mô hình tóm tắt đề xuất đã trình bày trong luận án.
Luận án trình bày các phương pháp tóm tắt đơn văn bản hướng trích rút, tóm tắt đơn văn bản hướng tóm lược, tóm tắt đa văn bản hướng trích rút và hướng tóm lược cho bài toán tóm tắt văn bản. Có thể nói, nội dung của luận án đã đạt được các mục tiêu đặt ra.
Chương 1. TỔNG QUAN VỀ TÓM TẮT VĂN BẢN
Chương này trình bày tổng quan về tóm tắt văn bản trong xử lý ngôn ngữ tự nhiên bao gồm giới thiệu về tóm tắt văn bản, các bước thực hiện trong tóm tắt văn bản, một số đặc trưng của văn bản, các phương pháp đánh giá văn bản tóm tắt phổ biến, các phương pháp kết hợp văn bản trong tóm tắt đa văn bản, các phương pháp tóm tắt văn bản hướng trích rút cơ sở. Ngoài ra, chương này cũng trình bày phân tích thống kê thông tin các bộ dữ liệu sử dụng để thử nghiệm cho các mô hình tóm tắt văn bản đề xuất. Những kiến thức trình bày trong chương này là cơ sở để triển khai phát triển các phương pháp tóm tắt văn bản đề xuất của luận án.
1.1. Giới thiệu về tóm tắt văn bản
1.1.1. Giới thiệu bài toán tóm tắt văn bản
Xử lý ngôn ngữ tự nhiên đang được phát triển một cách mạnh mẽ giúp con người có thể chọn lọc, tóm tắt được khối thông tin khổng lồ nhằm tiết kiệm thời gian tìm kiếm và tổng hợp các thông tin hữu ích. Có một số nhiệm vụ quan trọng trong xử lý ngôn ngữ tự nhiên như: Tìm kiếm thông tin, trích rút thông tin, nhận dạng tiếng nói, trả lời câu hỏi, dịch máy, tóm tắt văn bản tự động. Tóm tắt văn bản tự động (gọi tắt là tóm tắt văn bản) là một trong những nhiệm vụ được quan tâm nghiên cứu phát triển và đã đạt được những kết quả khả quan. Bài toán tóm tắt văn bản được ứng dụng thành công vào thực tế sẽ giúp tiết kiệm được thời gian đọc, cải thiện tốc độ, nâng cao độ chính xác của các thông tin được tổng hợp.
Tóm tắt văn bản (TTVB) là quá trình tạo ra một bản mô tả ngắn gọn, súc tích từ một hoặc nhiều văn bản nguồn ban đầu. Văn bản tóm tắt có độ dài ngắn hơn văn bản nguồn nhưng vẫn đảm bảo giữ lại được nội dung chính, quan trọng mà văn bản nguồn đề cập tới.
Vấn đề đặt ra là làm thế nào để nhận biết được đâu là nội dung chính của văn bản nguồn ban đầu vì đó là thành phần cốt lòi, bao hàm những thông tin quan trọng. Nếu biết được những thông tin này thì nhiệm vụ tóm tắt sẽ trở nên dễ dàng và văn bản tóm tắt có độ chính xác tốt hơn. Các thành phần này là những đơn vị dữ liệu nhỏ nhất có nghĩa trong văn bản nguồn để trích rút, tóm tắt như từ, câu,… Trong văn bản nguồn, nếu tần suất xuất hiện của các đơn vị dữ liệu càng lớn thì xác suất mang nội dung quan trọng, thông tin chính của đoạn văn, văn bản càng cao. Do đó, các đơn vị dữ liệu này được sử dụng để tóm tắt, biến đổi, hiển thị hoặc tạo ra dữ liệu mới có ý nghĩa phục vụ cho các nhiệm vụ hoặc các hệ thống khác.
Bảng 1.1 và Bảng 1.2 dưới đây là các ví dụ minh họa văn bản tóm tắt của văn bản tiếng Anh, tiếng Việt tương ứng. Các văn bản nguồn của các văn bản tóm tắt này được trình bày ở Phụ lục A trong phần Phụ lục.