A pseudonymization tool for Hungarian

Hatvani, Péter, Laki, László János, Yang, Zijian Győző (2023) A pseudonymization tool for Hungarian Annales Mathematicae et Informaticae. 58. pp. 69-80. ISSN 1787-6117 (Online)

[thumbnail of AMI_58_from69to80.pdf] pdf
AMI_58_from69to80.pdf

Download (570kB) [error in script]
Hivatalos webcím (URL): https://doi.org/10.33039/ami.2023.08.009

Absztrakt (kivonat)

In today’s world, the volume of documents being generated is growing exponentially, making the protection of personal data an increasingly crucial task. Anonymization plays a vital role in various fields, but its implementation can be challenging. While advancements in natural language processing research have resulted in more accurate named entity recognition (NER) models, relying on an NER system to remove names from a text may compromise its fluency and coherence. In this paper, we introduce a novel approach to pseudonymization, specifically tailored for the Hungarian language, which addresses the challenges associated with maintaining text fluency and coherence. Our method employs a pipeline that integrates various NER models, morphological parsing, and generation modules. Instead of merely recognizing and removing named entities, as in conventional approaches, our pipeline utilizes a morphological generator to consistently replace names with alternative names throughout the document. This process ensures the preservation of both text coherence and anonymity. To assess the efficacy of our method, we conducted evaluations on multiple corpora, with results consistently indicating that our pipeline surpasses traditional approaches in performance. Our innovative approach paves the way for new pseudonymization possibilities across a diverse range of fields and applications.

Mű típusa: Folyóiratcikk - Journal article
Szerző:
Szerző neve
Email
MTMT azonosító
ORCID azonosító
Közreműködés
Hatvani, Péter
NEM RÉSZLETEZETT
NEM RÉSZLETEZETT
NEM RÉSZLETEZETT
Szerző
Laki, László János
NEM RÉSZLETEZETT
NEM RÉSZLETEZETT
NEM RÉSZLETEZETT
Szerző
Yang, Zijian Győző
NEM RÉSZLETEZETT
NEM RÉSZLETEZETT
NEM RÉSZLETEZETT
Szerző
Kapcsolódó URL-ek:
Kulcsszavak: Pseudonymization, Named entity recognition (NER), Morphological generation
Folyóirat alcíme: Selected papers of the 12th International Conference on Applied Informatics
Nyelv: angol
Kötetszám: 58.
DOI azonosító: 10.33039/ami.2023.08.009
ISSN: 1787-6117 (Online)
Felhasználó: Tibor Gál
Dátum: 21 Aug 2023 06:54
Utolsó módosítás: 10 Nov 2023 13:59
URI: http://publikacio.uni-eszterhazy.hu/id/eprint/7709
Műveletek (bejelentkezés szükséges)
Tétel nézet Tétel nézet