Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kỹ thuật học sâu - 21

Conference on International Conference on Machine Learning,Vol. 28, pp. 1310-1318.

[135] Duchi J., Hazan E., and Singer Y. (2011). Adaptive subgradient methods for online learning and stochastic optimization. Journal of Machine Learning Research, Vol. 12, pp. 2121-2159.

[136] Harshal J. J., Bewoor M. S., and Patil S. H. (2012). Context Sensitive Text Summarization Using K-Means Clustering Algorithm. In International Journal of Soft Computing and Engineering, Vol. 2, pp. 301-304. ISSN: 2231-2307.

[137] Prathima M. R., and Divakar H, R. (2018). Automatic Extractive Text Summarization Using K-Means Clustering. International Journal of Computer Sciences and Engineering, Vol. 6, No. 6, pp. 782-787. DOI: 10.26438/ijcse/v6i6.782787.

[138] Gaetano Rossiello, Pierpaolo Basile, and Giovanni Semeraro (2017). Centroid-based Text Summarization through Compositionality of Word Embeddings. In Proceedings of the MultiLing 2017 Workshop on Summarization and Summary Evaluation Across Source Types and Genres, pp. 12–21. Association for Computational Linguistics. DOI: 10.18653/v1/W17-1003.

[139] Dragomir R. Radev, Hongyan Jing, and Malgorzata Budzikowska (2000). Centroid-based summarization of multiple documents: sentence extraction, utility-based evaluation, and user studies. In NAACL-ANLP-AutoSum '00: Proceedings of the 2000 NAACL-ANLP Workshop on Automatic summarization, Vol. 4, pp. 21–30. DOI: 10.3115/1117575.1117578.

[140] Ayush Agarwal and Utsav Gupta (2014). Extraction based approach for text summarization using k-means clustering. International Journal of Scientific and Research Publications, Vol. 4, Issue 11, pp. 1-4.

[141] Rachit Arora and Balaraman Ravindran (2008). Latent Dirichlet Allocation Based MultiDocument Summarization. In AND '08: Proceedings of the second workshop on Analytics for noisy unstructured text dataJuly, pp. 91–97. DOI: 10.1145/1390749.1390764.

[142] Zhanying He, Chun Chen, Jiajun Bu, Can Wang, and Lijun Zhang (2012). Document summarization based on data reconstruction. In Proceedings of the Twenty-Sixth AAAI Conference on Artificial Intelligence, pp. 620–626.

[143] Kaustubh Mani, Ishan Verma, Hardik Meisheri, and Lipika Dey (2018). MultiDocument Summarization using Distributed Bag-of-Words Model. In Proceedings of the 2018 IEEE/WIC/ACM International Conference on Web Intelligence (WI), Vol. 1, pp. 672-675.

[144] Romain Paulus, Caiming Xiong, and Richard Socher (2015). A deep reinforced model for abstractive summarization”. In Proceedings of the 6th International Conference on Learning Representations (ICLR 2018).

[145] Tal Baumel, Matan Eyal, and Michael Elhadad (2018). Query focused abstractive summarization: Incorporating query relevance, multi-document coverage, and summary length constraints into seq2seq models. arXiv preprint arXiv:1801.07704.

[146] Jianmin Zhang, Jiwei Tan, and Xiaojun Wan (2018). Towards a neural network approach to abstractive multi-document summarization. arXiv preprint arXiv:1804.09010.

[147] Logan Lebanoff, Kaiqiang Song and Fei Liu (2018). Adapting the Neural Encoder-Decoder Framework from Single to Multi-Document Summarization. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pp. 4131-4141. Association for Computational Linguistics.

PHỤ LỤC


Phụ lục A: Văn bản nguồn của các văn bản tóm tắt ví dụ


A.1. Văn bản tiếng Anh


Văn bản nguồn

Tikrit , Iraq ( CNN ) Mass graves believed to hold Iraqi soldiers have been discovered in newly liberated Tikrit . Up to 1,700 bodies may be recovered . ISIS claimed to have executed that many soldiers captured in June outside Camp Speicher , a fortified Iraqi base near Tikrit . A total of

47 bodies have been exhumed from two of the 11 mass graves discovered in Tikrit , an Iraqi government official said Tuesday . Hundreds are believed to have been executed by ISIS in June 2014 Grieving Iraqis , apparently not related to the soldiers , gathered to pray over the bodies . When the first three bodies were found , 10 Iraqi soldiers saluted the dead by firing seven shots into the air . The national anthem was played while soldiers wept . All the bodies were decomposed . Some had their hands bound , Damon said . The remains will be sent back to Baghdad for DNA tests to establish identify , said Ali Tahir , a director in the Iraqi morgue who was supervising the digging and extraction . Damon said there may be eight mass graves inside the presidential palace complex , which contains the residences of former Iraqi President Saddam Hussein , and two other sites outside the city . The presidential palaces complex became ISIS headquarters after the militants occupied the city . Iraqi soldiers and Shiite militias retook Tikrit a few days ago after a fierce battle . Damon interviewed a soldier who said he survived the massacre by playing dead . The solider said ISIS captured the troops outside Camp Speicher and marched them to the presidential palace complex , telling them they would be safe until a prisoner swap was arranged . Once inside the compound , the soldiers were separated into smaller groups , executed and buried in mass graves , the survivor told Damon . He said he was tossed into a river and floated to an embankment . On Monday , Prime Minister Haider al - Abadi said revenge is not the way to deal with the discovery of the bodies . He said several people involved in the killings have been detained . Families of the missing soldiers had been demanding answers from the Iraqi government about what happened . As ISIS swept through northern Iraq in June ,

some military units were ordered to Camp Speicher . Their families claim the men received orders from their commanders to leave the base and move closer to Baghdad . They left unarmed and in civilian clothes , they say . Military commanders and the Iraqi Defense Ministry denied any such orders being issued and said the men deserted . ISIS released videos that showed what seemed to be an endless line of military recruits marched at gunpoint and later posted images showing cold - blooded mass killings . Damon said Iraqi officials told her it may take weeks or months to exhume all the bodies . Human Rights Watch described the " Speicher Massacre " -- as it has been dubbed in Iraq -- as the " largest reported incident " where " ISIS captured more than 1,000 soldiers fleeing Camp Speicher ... then summarily executed at least 800 of them . " Based on satellite imagery and witness testimony , Human Rights Watch last year was able to identity a number of mass grave sites inside Tikrit and the presidential palace complex . The families gave DNA samples to the Iraqi Ministry of Health last year so authorities would be able to match them to unidentified bodies the government may find . CNN 's Arwa Damon reported from Tikrit , and Ralph Ellis wrote in Atlanta . CNN 's Jomana Karadsheh contributed to this report .


A.2. Văn bản tiếng Việt


Văn bản nguồn

Tại xã Ái Quốc, nơi có hơn 2.000 nữ CNLĐ đang phải thuê ở trọ, trong đó có khoảng 500 người có con nhỏ ở cùng, các doanh nghiệp mà họ đang làm việc đều chưa có điều kiện xây dựng nhà trẻ, vì thế gửi con ở đâu, ai chăm sóc các cháu khi mình đi làm, chị em đều phải tự lo. Sau khi khảo sát, bà Nguyễn Thị Láng – Trưởng ban Tuyên giáo Liên đoàn lao động – đã cùng các cán bộ công đoàn làm việc với chính quyền địa phương và tổ chức hội nghị đối thoại với sự có mặt của cả đại diện doanh nghiệp và công nhân lao động. Từ cuộc đối thoại, vấn đề vướng nhất là tìm chỗ gửi con ổn định cho nữ công nhân lao động được giải quyết. Công ty TNHH may Tinh Lợi, có gần 1.000 nữ công nhân lao động đang ở trọ tại đây đã đồng ý mỗi tháng tài trợ thêm cho Trường Mầm non Hương Sen 3 triệu đồng để nâng cấp, mở thêm phòng học, tiếp nhận hơn 200 cháu là con công nhân lao động vào học. Nhiều công nhân rất vui và tỏ rò sự hài lòng khi gần 1 năm nay, con họ đã được đi học ở trường, ở lớp chứ không phải lang thang chơi tạm ở nhà người thân cả ngày, hay những khi họ phải tăng ca thì con cái đã có người giữ, chứ không buộc phải đón từ 17h”. Chị Vương Thị Oanh - Hiệu trưởng Trường Mầm non Hương Sen - cho biết, thực ra trường không có trách nhiệm phải nhận con công nhân lao động,

nhưng vì thông cảm với điều kiện của chị em, giúp họ yên tâm làm việc nên đã nhận nhiệm vụ này. Còn các Cán bộ công đoàn đã vui hơn rất nhiều và có cảm giác như vừa hoàn thành một trọng trách. Việc chủ động đứng ra thu xếp giúp nữ công nhân lao động của Liên đoàn lao động tỉnh Hải Dương có chỗ gửi con không chỉ khiến công nhân lao động, mà cả các chủ DN hết sức hài lòng. "Gánh nặng" mà cả doanh nghiệp và người lao động đang phải chịu đã được tổ chức Công đoàn giúp gỡ bỏ và họ có điều kiện toàn tâm, toàn ý tập trung vào công việc, phấn đấu vì sự tồn tại và phát triển của doanh nghiệp nói riêng và kinh tế - xã hội đất nước nói chung.


Phụ lục B: Biểu đồ phân bố của các bộ dữ liệu thử nghiệm


Thông tin về thời gian thu thập các bộ dữ liệu sử dụng để thử nghiệm cho các mô hình tóm tắt văn bản đề xuất được trình bày trong bảng dưới đây.


Bộ dữ liệu

Ngày được cập nhật lần cuối

Ngày thu thập các bộ dữ liệu

CNN/Daily Mail

07/12/2015

08/09/2017

DUC 2001

18/03/2014

19/02/2020

DUC 2002

18/03/2014

19/02/2020

DUC 2004

24/03/2011

21/07/2019

DUC 2007

24/03/2011

30/01/2019

Corpus_TMV

01/11/2013

14/02/2021

ViMs

18/11/2020

27/03/2021

Baomoi

28/07/2017

28/07/2017

Có thể bạn quan tâm!

Xem toàn bộ 185 trang tài liệu này.

B.1. Bộ dữ liệu CNN


Biểu đồ phân bố độ dài trung bình văn bản nguồn

Biểu đồ phân bố độ dài trung bình văn bản tóm tắt B 2 Bộ dữ liệu Daily 1Biểu đồ phân bố độ dài trung bình văn bản tóm tắt B 2 Bộ dữ liệu Daily 2

Biểu đồ phân bố độ dài trung bình văn bản tóm tắt

B.2. Bộ dữ liệu Daily Mail


Biểu đồ phân bố độ dài trung bình văn bản nguồn


Biểu đồ phân bố độ dài trung bình văn bản tóm tắt B 3 Bộ dữ liệu DUC 2001 3Biểu đồ phân bố độ dài trung bình văn bản tóm tắt B 3 Bộ dữ liệu DUC 2001 4

Biểu đồ phân bố độ dài trung bình văn bản tóm tắt

B.3. Bộ dữ liệu DUC 2001


Biểu đồ phân bố độ dài trung bình văn bản nguồn


Biểu đồ phân bố độ dài trung bình văn bản tóm tắt

B.4. Bộ dữ liệu DUC 2002


Biểu đồ phân bố độ dài trung bình văn bản nguồn

Biểu đồ phân bố độ dài trung bình văn bản tóm tắt

B.5. Bộ dữ liệu DUC 2004


Biểu đồ phân bố độ dài trung bình văn bản nguồn


Biểu đồ phân bố độ dài trung bình văn bản tóm tắt

Xem tất cả 185 trang.

Ngày đăng: 10/06/2022
Trang chủ Tài liệu miễn phí