Abstract
we conducted a comparative analysis of keyword extraction methods based on statistical and neural network approaches, including YAKE and transformer-based language models such as BERT. We evaluated their accuracy, performance, and suitability for different text types. Our primary goal was to give recommendations for optimizing these methods to enhance text processing efficiency as data volumes increase. We performed experiments with real scientific texts.
References
Campos R., Mangaravite V., Pasquali A., Jorge A., Nunes C., Jatowt A. YAKE! Keyword Extraction from Single Documents Using Multiple Local Features. Information Sciences. 2020;509:257–289.
Ванюшкин А. С., Гращенко Л. А. Оценка алгоритмов извлечения ключевых слов: инструментарий и ресурсы. Новые информационные технологии в автоматизированных системах. 2017;20:95–102. Режим доступа: https://cyberleninka.ru/article/n/otsenka-algoritmov-izvlecheniya-klyuchevyh-slov-instrumentariy-i-resursy.
Ванюшкин А. С., Гращенко Л. А. Методы и алгоритмы извлечения ключевых слов. Новые информационные технологии в автоматизированных системах. 2016;19:85-93. Режим доступа: https://cyberleninka.ru/article/n/metody-i-algoritmy-izvlecheniya-klyuchevyh-slov.
Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805.
Горлевич Д. Алгоритмы для выделения ключевых слов: Rake, YAKE!, TextRank. NewTechAudit. Режим доступа: https://newtechaudit.ru/algoritmy-dlya-vydeleniya-klyuchevyh-slov-rake-yake-textrank.
Мутаиров Ш. И., Бушмелева К. И. Алгоритмы обработки и вычисления сходства текстовых данных пользователей социальных сетей. Успехи кибернетики. 2023;4(1):33–38.
Sharma P., Li Y. Self-Supervised Contextual Keyword and Keyphrase Retrieval with Self-Labelling. Preprints.org. Режим доступа: https://www.preprints.org/manuscript/201908.0073/v1.