Использование искусственного интеллекта для создания системы машинного перевода и образовательных ресурсов на тувинском языке
DOI:
https://doi.org/10.25178/nit.2024.1.1Ключевые слова:
тувинский язык; искусственный интеллект; машинный перевод; нейросеть; большая языковая модель; цифровое присутствие; машинное обучениеАннотация
Усовершенствование компьютерных технологий, применяемых в гуманитарных науках, прогресс в области развития больших языковых моделей, основанных на технологиях машинного обучения и нейросетей, вышел на высочайший уровень развития. Лингвистический потенциал больших языковых моделей вызывает закономерный интерес исследователей, что является обоснованным отражением актуальности и важности использования искусственного интеллекта для создания системы машинного перевода и образовательных ресурсов.
В статье рассматривается опыт создания большой языковой модели на тувинском языке с использованием машинного обучения и искусственного интеллекта. Авторами была предпринята попытка создания большой языковой модели, способной распознавать тувинский язык, осуществлять перевод фраз с тувинского языка на русский язык, или с русского на тувинский. Помимо этого, исследовались и тестировались возможности генерации текста на тувинском языке, что может быть использовано как в сфере преподавания языка, так и при проведении различных лингвистических исследований.
Актуальность исследования заключается в том, что в настоящее время тувинский язык не представлен ни в одной из известных систем машинного перевода. Важным результатом является анализ уровня цифрового присутствия тувинского языка в Интернете, а также предложенные рекомендации по выработке оптимального алгоритма построения подобных систем и веб-сервисов, основанных на машинном обучении.
Результаты исследования представляют практическую ценность не только применительно к тувинскому языку, но могут быть экстраполированы и на другие государственные языки Российской Федерации.
Библиографические ссылки
Боргоякова, Т. Г., Биткеева, А. Н. (2023) Тувинский компонент билингвального пространства или размышления о стратегии государственной поддержки тувинского языка // Новые исследования Тувы. № 4. С. 290–300. DOI: https://doi.org/10.25178/nit.2023.4.20
Дырхеева, Г. А., Цыбенова, Ч. С. (2020) Языковые установки и языковая лояльность носителей малых языков в условиях национально-русского двуязычия (на примере бурят и тувинцев) // Новые исследования Тувы. № 1. С. 62–74. DOI: https://doi.org/10.25178/nit.2020.1.5
Кужугет, Ш. Ю, Сувандии, Н. Д., Ламажаа, Ч. К. (2021) Проблемы перевода концептов культуры на другой язык (на примере тувинских концептов культуры // Полилингвиальность и транскультурные практики. Т. 18. № 4. С. 405–420. DOI: https://doi.org/10.22363/2618-897X-2021-18-4-405-420
Ондар, Ч. Г., Донгак, В. С., Монгуш, Д. Ш. (2023) Тувинский язык в Интернете: представленность, проблемы и перспективы // Новые исследования Тувы. № 1. С. 186–207. DOI: https://doi.org/10.25178/nit.2023.1.11
Папын, А. С (2010) Тувинская раскладка клавиатуры // Новые исследования Тувы. № 1. C. 19–25.
Тувинцы: родные люди (2022) / Ламажаа Ч. К., Сувандии Н. Д., Кужугет Ш. Ю., Майны Ш. Б., под ред. Ламажаа Ч. К., Сувандии Н. Д. СПб. : Нестор-История. 344 с.
Athaluri, S. A., Manthena, S. V., Kesapragada, V. K. M., Yarlagadda, V., Dave, T., Duddumpudi, R. T. S. (2023) Exploring the boundaries of reality: investigating the phenomenon of artificial intelligence hallucination in scientific writing through ChatGPT references // Cureus. № 15 (4). DOI: https://doi.org/10.7759/cureus.37432
Armstrong, L. E., Bergeron, M. F., Lee, E. C., Mershon, J. E., & Armstrong, E. M. (2022) Overtraining syndrome as a complex systems phenomenon // Frontiers in Network Physiology. № 1 (20). DOI: https://doi.org/10.3389/fnetp.2021.794392
Garcia, X. Bansal, Y, Cherry, C., Foster, G., Krikun, M., Feng, F., Johnson, M., First, O. (2023) The unreasonable effectiveness of few-shot learning for machine translation // International Conference on Machine Learning. PMLR. P. 10867–10878. DOI: https://doi.org/10.48550/arXiv.2302.01398
Le, T. N., Sadat, F. (2020) Revitalization of indigenous languages through pre-processing and neural machine translation: The case of Inuktitut // Proceedings of the 28th International Conference on Computational Linguistics. Р. 4661–4666. DOI: https://doi.org/10.18653/v1/2020.coling-main.410.
Sreelekha, S., Bhattacharyya, P., Jha, S. K., Malathi, D. (2016) A survey report on evolution of machine translation [Электронный ресурс] // IJCTA, 9 (33), pp. 233–240. URL: https://www.serialsjournals.com/abstract/65435_article-24.pdf (дата обращения: 12.11.2023).
Srinivasan, K., Raman, K., Chen, J., Bendersky, M., Najork, M. (2021) Wit: Wikipedia-based image text dataset for multimodal multilingual machine learning // Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. Р. 2443–2449. DOI: https://doi.org/10.48550/arXiv.2103.01913
Spennemann, D. H. R. (2023) ChatGPT and the generation of digitally born “knowledge”: How does a generative AI language model interpret cultural heritage values? // Knowledge. № 3. Р. 480–512. DOI: https://doi.org/10.3390/knowledge3030032
Zwischenberger, C. (2022) Online collaborative translation: its ethical, social, and conceptual conditions and consequences // Perspectives. № 30 (1). Р. 1–18. DOI: https://doi.org/10.1080/0907676X.2021.1872662
Опубликован
Как цитировать
For citation:
Novikova M. L. and Novikov Ph. N. Using artificial intelligence to develop a machine translation system and teaching resources in the Tuvan language. New Research of Tuva, 2024, no. 1, pp. 6-17. (In Russ.). DOI: https://doi.org/10.25178/nit.2024.1.1
Выпуск
Раздел
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.
Автор (лицензиар) произведения предоставляет простую (неисключительную) лицензию на использование редакцией (лицензиатом) произведения науки, который заключается в упрощённом порядке (открытая лицензия), согласно ст. 1286.1. «Открытая лицензия на использование произведения науки, литературы или искусства» Гражданского кодекса Российской Федерации.
В нашем издании публикуемые материалы доступны по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») — CC BY-NC.
Т. к. лицензия открытая, автор имеет право разместить статью после ее выхода на своем сайте, читатель может скопировать и разместить на своих персональных ресурсах, в том числе в виде выдержек, конспектов, но:
а) обязательно должно быть указано ФИО автора, неизмененное название статьи и гиперссылка на первоисточник (журнал «Новые исследования Тувы»),
б) размещающий не имеет права брать деньги за доступ к этому материалу или каким бы то ни было образом давать преимущество одним читателям над другими,
в) при перепечатке автором текста статьи без значительных изменений (если сохраняется 30% текста или более) должно быть указано, что первая редакция статьи вышла в журнале «Новые исследования Тувы» и сделана соответствующая ссылка.
Лицензия действует по всему миру, длится в течение срока авторских прав на произведение, является неотзывной.