(i) Mô hình 1 (BERT-Tiny/mBERT + CNN + seq2seq): Sử dụng mô hình BERT-Tiny (với bộ dữ liệu CNN), mBERT (với bộ dữ liệu Baomoi) kết hợp với mạng CNN và mạng seq2seq để huấn luyện mô hình tính xác suất được chọn của các câu đưa vào bản ...
3.3.3.2. Tiền xử lý dữ liệu Trước hết, các bộ dữ liệu CNN và Baomoi xử lý tách riêng phần tiêu đề, phần nội dung, phần tóm tắt và đánh số thứ tự cho các câu. Các bộ dữ liệu tiếng Anh (DUC 2001, DUC 2002 và CNN) được xử lý tách ...
Trained PhoBERT để tạo ra các véc tơ chỉ mục của các token của câu, sau đó các véc tơ chỉ mục này được đưa vào mô hình pre-trained PhoBERT để thu được các véc tơ mã hóa từ của các câu. Cuối cùng, các véc tơ mã hóa từ của mỗi câu ...
Thông tin (IR - Information Retrieval) để đo lường mức độ tương đồng giữa truy vấn người dùng Q và các câu trong văn bản. MMR được tính theo công thức: MMR arg max Sim D , Q 1 max Sim D , D ...
Trong mỗi bước huấn luyện, mô hình Skip-Gram chỉ nhận một từ đầu vào nhưng có nhiều đầu ra cho một từ đầu vào. Các thử nghiệm thực tế cho thấy mô hình Skip-Gram hoạt động tốt hơn đối với những từ ít gặp, còn mô hình CBoW ...
Hình 2.10. Mô hình mạng chuỗi sang chuỗi [92] Trong mô hình seq2seq, bộ mã hóa đọc vào một câu là một chuỗi véc tơ x ( x 1 , x 2 ,. x T ) . Với mỗi từ x t (với t 1, T ), mạng RNN mã hóa sẽ xử lý trả ra một véc tơ h t mang thông tin về ...
2.1.2. Mạng nơ ron tích chập 2.1.2.1. Giới thiệu mạng nơ ron tích chập Mạng nơ ron tích chập (CNN - Convolutional Neural Network) [81,82,83,84] là một trong những mô hình học sâu phổ biến hiện nay giúp chúng ta xây dựng được những ứng dụng ...
1.4. Các phương pháp tóm tắt văn bản hướng trích rút cơ sở 1.4.1. PageRank PageRank [15] là thuật toán được sử dụng trong công cụ tìm kiếm của Google (Google Search). Về bản chất PageRank là phân bố xác suất, được sử dụng để biểu ...
Văn bản tóm tắt A total of 47 bodies have been exhumed from two mass graves. Iraqis find mass graves inside presidential palace compound in Tikrit . ISIS claimed to have executed 1,700 Iraqi soldiers captured outside Camp Speicher . Bảng 1.1. Ví dụ minh họa một văn bản tóm tắt ...
Trên phân tích cú pháp văn bản đầu vào để xây dựng một tập gồm tất cả các cây phụ thuộc cú pháp. Trong khi đó, hệ thống dựa trên luật [37] yêu cầu xác định các luật để phát hiện các khái niệm quan trọng trong văn bản đầu ...
Bảng 3.13. Giá trị các siêu tham số và thời gian huấn luyện các mô hình xây dựng . 76 Bảng 3.14. Kết quả thử nghiệm của các mô hình xây dựng 77 Bảng 3.15. Một mẫu tóm tắt trên bộ dữ liệu CNN 77 Bảng 3.16. Một mẫu tóm tắt trên bộ ...
Lời Cam Đoan Tôi Tên Là Lưu Minh Tuấn, Xin Cam Đoan Đây Là Công Trình Nghiên Cứu Của Bản Thân Nghiên Cứu Sinh Trong Thời Gian Học Tập Và Nghiên Cứu Dưới Sự Hướng Dẫn Của Người Hướng Dẫn Khoa Học. Các Kết Quả Nghiên Cứu Trình Bày ...
Trang 3993, Trang 3994, Trang 3995, Trang 3996, Trang 3997, Trang 3998, Trang 3999, Trang 4000, Trang 4001, Trang 4002,