Fine-tuning and multilingual pre-training for abstractive summarization task for the Arabic language

Kahla, Mram, Novák, Attila, Yang, Zijian Győző (2023) Fine-tuning and multilingual pre-training for abstractive summarization task for the Arabic language Annales Mathematicae et Informaticae. 57. pp. 24-35. ISSN 1787-6117 (Online)

[thumbnail of 24_35.pdf] pdf
24_35.pdf

Download (641kB) [error in script]
Hivatalos webcím (URL): https://doi.org/10.33039/ami.2022.11.002

Absztrakt (kivonat)

The main task of our research is to train various abstractive summarization models for the Arabic language. The work for abstractive Arabic text summarization has hardly begun so far due to the unavailability of the datasets needed for that. In our previous research, we created the first monolingual corpus in the Arabic language for abstractive text summarization. Based on this corpus, we fine-tuned various transformer models. We tested the PreSumm and multilingual BART models. We achieved a “state of the art” result in this area with the PreSumm method. The present study continues the same series of research. We extended our corpus “AraSum” and managed to reach up to 50 thousand items, each consisting of an article and its corresponding lead. In addition, we pretrained our own monolingual and trilingual BART models for the Arabic language and fine-tuned them in addition to the mT5 model for abstractive text summarization for the same language, using the AraSum corpus. While there is room for improvement in the resources and the infrastructure we possess, the results clearly demonstrate that most of our models surpassed the XL-Sum which is considered to be state of the art for abstractive Arabic text summarization so far. Our corpus “AraSum” will be released to facilitate future work on abstractive Arabic text summarization.

Mű típusa: Folyóiratcikk - Journal article
Szerző:
Szerző neve
Email
MTMT azonosító
ORCID azonosító
Közreműködés
Kahla, Mram
NEM RÉSZLETEZETT
NEM RÉSZLETEZETT
NEM RÉSZLETEZETT
Szerző
Novák, Attila
NEM RÉSZLETEZETT
NEM RÉSZLETEZETT
NEM RÉSZLETEZETT
Szerző
Yang, Zijian Győző
NEM RÉSZLETEZETT
NEM RÉSZLETEZETT
NEM RÉSZLETEZETT
Szerző
Kapcsolódó URL-ek:
Kulcsszavak: Arabic, mT5, BART, AraSum, Abstractive Summarization
Nyelv: angol
Kötetszám: 57.
DOI azonosító: 10.33039/ami.2022.11.002
ISSN: 1787-6117 (Online)
Felhasználó: Tibor Gál
Dátum: 08 Jan 2023 10:47
Utolsó módosítás: 11 Aug 2023 06:55
URI: http://publikacio.uni-eszterhazy.hu/id/eprint/7595
Műveletek (bejelentkezés szükséges)
Tétel nézet Tétel nézet