Историко-поэтический подкорпус Национального корпуса казахского языка

Авторы

DOI:

https://doi.org/10.25178/nit.2025.2.19

Ключевые слова:

поэтический подкорпус; метатекстовая разметка; арабская графика; письменность; текстовая база; казахский язык; казахская поэзия; Национальный корпус казахского языка

Аннотация

В статье анализируются ключевые аспекты оцифровки образцов устного народного творчества казахского народа XV–XIX вв., написанных на арабской графике, и их интеграция в Национальный корпус казахского языка (НККЯ). Данная работа составляет первый этап создания историко-поэтического подкорпуса НККЯ. В ходе исследования проведён сравнительный анализ существующих поэтических подкорпусов на других языках (русский, чешский, башкирский и персидский), что позволило выявить наиболее эффективные методы и подходы для создания казахского подкорпуса.

Важным результатом работы стало создание модели метатекстовой разметки, включающей 28 параметров, с учётом специфики казахской поэзии. Были определены ключевые элементы казахского стиха: структура строф, количество слогов, рифмы и стопы. Разработанная разметка позволяет точно отражать поэтические особенности текстов и учитывать влияние восточной литературы и народных жанров на развитие казахской поэтической традиции. Одной из важных инноваций стала семантическая разметка устаревших слов.

Представлена разработка интерфейса подкорпуса, который даёт возможность пользователям исследовать поэтические произведения в арабской графике и их транскрибированные варианты на кириллице. Это делает подкорпус ценным инструментом для лингвистических и литературных исследований.

Библиографические ссылки

Ахметов, З. (1973) Өлең сөздің теориясы [Теория стихотворного слова]. Алматы : Мектеп. 212 с.

Базарбаева, З. М. (2008) Казахская интонация. Алматы : Дайк-Пресс, 281 c.

Базарбаева, З. (2022) Интонология : в 5 т. Алматы : Everest. Т. 1. 440 с.

Байтұрсынов, А. (2003) Әдебиет танытқыш [Литературовед]. Алматы : Атамұра. 208 c. (На каз. яз.).

Байтұрсынұлы, А. (1991) Ақ жол [Светлый путь]. Алматы : Жалын. 494 с. (На каз. яз.).

Валиханов, Ч. Ч. (1986) О формах казахской народной поэзии. М. : Наука. 416 c.

Гаспаров, М. Л. (1974) Современный русский стих. Метрика и ритмика. М. : Наука. 487 c.

Гаспаров, М. Л. (2002) Очерк истории русского стиха. Метрика. Ритмика. Рифма. Строфика. 2-е изд., доп. М. : Фортуна Лимитед. 319 c.

Гаспаров, М. Л. (2013) Метр и смысл. Об одном из механизмов культурной памяти. М. : Фортуна ЭЛ. 414 c.

Гришина, Е. А., Корчагин, К. М., Плунгян, В. А., Сичинава, Д. В. (2009) Поэтический корпус в рамках НКРЯ: общая структура и перспективы использования // Национальный корпус русского языка: 2006–2008. Новые результаты и перспективы / отв. ред. В. А. Плунгян. СПб. : Нестор-История. 502 с. С. 71–113.

Гумилев, Л. Н. (1999) Древние тюрки / сост. А. И. Куркчи. М. : Институт ДИ-ДИК. 480 c.

Жанабаев, К. (2014) Поэтическая система произведений жырау XV–XVIII веков. К начальным основаниям художественного перевода. Алматы : Қазақ университеті. 260 с.

Жанабаев, К., Ислямова, У., Сейітбекова, А. А. (2022) Частотный поэтический словарь языка жырау XV–XVIII вв. // Tiltanym. № 86 (2). С. 28–38. DOI: https://doi.org/10.55491/2411-6076-2022-2-26-36

Жанабекова, А. (2013) Роль лингвистической аннотации на опыте создания национального корпуса казахского языка // Проблемы современной прикладной лингвистики: сборник статей / отв. ред. А. В. Зубов. Минск : МГЛУ. 531 с. С. 212–216.

Жаңабекова, А. (2017) Қазақ тілінің ұлттық корпусына енгізілетін метабелгіленімдер әзірлемесі туралы [О разработке метаданных для включения в национальный корпус казахского языка] // «Ахмет Байтұрсынұлы мұрасы: зерттеу, жүйелеу және насихаттау» атты халықаралық ғылыми-теориялық конференция материалдары [Материалы международной научно-теоретической конференции «Наследие Ахмета Байтурсыновича: исследование, систематизация и популяризация»] / отв. ред. М. Малбақов. Алматы : Елтаным. 396 с. С. 229–234. (На каз. яз.).

Жаңабекова, А., Пірманова, К. Қ., Карбозова, Б. Д. (2020) Разработка лексико-семантической разметки в национальном корпусе казахского языка // Тюркология. № 4. С. 201–216.

Жаңабекова, А., Кожахметова, А. К. (2021) Обработка текстов, включенных в метаразметку, на специальном компьютерном программном обеспечении // Tiltanym. № 3. С. 37–52. DOI: http://doi.org/10.55491/2411-6076-2021-3-37-52

Жолдасбеков, М. (1990) Асыл арналар [Драгоценные истоки]. Алматы : Жазушы. 352 c. (На каз. яз.).

Жұбанов, А. (2010) Қазақ әдеби тілінің электрондық корпусын түзудің теориялық бастаулары [Теоретические истоки построения электронного корпуса казахского литературного языка] // Тіл және мәдениет: тілдің антропоөзектік парадигмасы. Профессор Ж. А. Манкееваның 60 жылдығына арналған республикалық ғылыми-теориялық конференцияның материалдары [Язык и культура: антропоцентрическая парадигма языка. Материалы республиканской научно-теоретической конференции, посвященной 60-летию профессора Ж. А. Манкеевой] / отв. ред. А. Хабиева, Г. Нұрымқызы. Алматы : А. Байтұрсынұлы атындағы Тіл білімі институты. 385 с. С. 191–197. (На каз. яз.).

Жұбанов, А. (2016) Самая ценная часть поискового аппарата в национальном корпусе казахского языка — метаразметка, которая характеризует текст в целом // Tiltanym. № 2. С. 3–9.

Жұбанов, А., Жаңабекова, А. (2017) Корпустық лингвистика [Корпусная лингвистика]. Алматы : «Қазақ тілі» баспасы. 336 c. (На каз. яз.).

Жумагулов, А. Б. (2012) Қазақ әдебиетін дәуірлеу тарихы [История периодизации казахской литературы]. Қарағанды : Академик Е. А. Букетов ат. ҚарМУ. 143 c. (На каз. яз.).

Келимбетов, Н. (1991) Ежелгі дәуір әдебиеті [Литература древности]. Алматы : Мектеп. 264 c. (На каз. яз.).

Кенжебаев, Б. (2004) Түрік қағанатынан бүгінге дейін [От турецкого каганата до наших дней]. Алматы : Ана тілі. 344 с. (На каз. яз.).

Корчагин, К. М. (2015) Поэзия ХХ века в поэтическом подкорпусе Национального корпуса русского языка: проблема репрезентативности // Труды Института русского языка им. В. В. Виноградова. № 3 (6). С. 235–256.

Кыраубаева, А. (1999) Ежелгі әдебиет [Древняя литература]. Алматы : Қазақ университеті. 138 c. (На каз. яз.).

Орехов, Б. В. (2015) Еще раз об исследовательском потенциале поэтического корпуса: метр, лексика, формула // Труды Института русского языка им. В. В. Виноградова. Вып. 6. С. 449–463.

Орехов, Б. В. (2019a) Башкирский стих XX века. Корпусное исследование. СПб. : Алетейя. 344 с.

Орехов, Б. В. (2019b) Метр отрезков длиннее строки в башкирском силлабическом стихе // Известия РАН. Серия Литературы и Языка. Т. 78. № 2. С. 41–50.

Орехов, Б. В., Степина, Д. С. (2022) Персидский поэтический корпус // Труды Института русского языка им. В. В. Виноградова. № 1. С. 65–72.

Өміралиев, Қ. (1976) XV–XIX ғасырлардағы қазақ поэзисының тілі [Язык казахской поэзии XV–XIX веков]. Алматы : Ғылым. 269 c. (На каз. яз.).

Өмірәлиев, Қ. (2010) Көне түркі әдеби ескерткіштері туралы зерттеулер [Исследования древнетюркских литературных памятников]. Алматы : Арыс. 650 c. (На каз. яз.).

Плунгян, В. А. (2014) Неклассический стих Лермонтова: некоторые детали // Ученые записки Петрозаводского государственного университета. Общественные и гуманитарные науки. №. 7 (144). С. 40–51.

Савчук, С. О., Архангельский, Т. А., Бонч-Осмоловская, А. А., Донина, О. В., Кузнецова, Ю. Н., Ляшевская, О. Н., Орехов, Б. В., Подрядчикова, М. В. (2024) Национальный корпус русского языка 2.0: новые возможности и перспективы развития // Вопросы языкознания. № 2. C. 7-34. DOI: http://doi.org/10.31857/0373-658X.2024.2.7-34

Сапарниязов, Н., Хожаниязов, У. (1959) Шарьяр [Шарьяр]. Нокис : Қарақалпақ мемлекет баспасы, 107 c.

Cейтбекова, А., Елесбай, Н. (2024) Исторический поэтический подкорпус: база староказахских поэтических текстов // Tiltanym. № 3. С. 140–150. DOI: http://doi.org/10.55491/2411-6076-2024-3-140-150

Сичинава, Д. В. (2012) Поэтический подкорпус Национального корпуса русского языка: несколько примеров поиска стиховедческой информации // Славянский стих. T. 9. С. 482–491.

Суворов, М. Н. (2015) Средневековая литература мусульманского мира. СПб. : Президентская библиотека. 151 с.

Суюншалиев, Х. (1983) Қазақ әдебиеті. XVII–XIX ғ.ғ. [Казахская литература. XVII–XIX вв.]. Алматы : Мектеп. 168 c. (На каз. яз.).

Сыздықова, Р. (1970) Абай өлеңдерінің синтаксистік құрылысы [Синтаксическое построение стихов Абая]. Алматы : Ғылым. 173 c.

Сыздықова, Р. (2000) Қазақ тілінің анықтағышы (емле, тыныс белгілері, сөз сазы) [Справочник казахского языка (правописание, знаки препинания, орфоэпия]. Астана : Елорда. 480 c. На каз. яз.).

Сыздықова, Р. (2009) Қазақ тіліндегі ескіліктер мен жаңалықтар [Архаизмы и неологизмы в казахском языке]. Алматы : Арыс. 182 c. На каз. яз.).

Фазылжан, А. М. (2023) Қазақ тілінің ұлттық корпусын әзірлеу тәжірибесі [Опыт разработки Национального корпуса казахского языка]. Алматы : ЖК Асыл. 446 с. На каз. яз.).

Lord, A. B. (1991). Epic Singers and Oral Tradition. Ithaca and London: Cornell University Press. 280 p.

Plecháč, P., Kolár, R. (2015) The corpus of Czech verse // Studia Metrica et Poetica. V. 2. № 1. P. 107–118.

Опубликован

02.06.2025

Как цитировать

Сейтбекова А. А., Фазылжан А. М., Сейдамат А. К., Абаева М. К., Мурсал А. Историко-поэтический подкорпус На­ционального корпуса казахского языка // Новые исследования Тувы. 2025. № 2. С. 312-338. DOI: https://doi.org/10.25178/nit.2025.2.19

For citation:
Seitbekova A. A., Fazylzhan A. M., Seydamat A. K., Abaeva M. K. and Mursal A. Historical and Poetic Subcorpus of the National Kazakh Language Corpus. New Research of Tuva, 2025, no. 2, pp. 312-338. (In Russ.). DOI: https://doi.org/10.25178/nit.2025.2.19

Выпуск

Раздел

Тюрко-монгольский мир

Биографии авторов

Айнур Аташбеккызы Сейтбекова, Институт языкознания имени А. Байтурсынулы

Кандидат филологических наук, заведующая отделом история языка и тюркологии Института языкознания имени А. Байтурсынулы.

Адрес: Республика Казахстан, г. Алма-Ата, ул. Курмангазы, д. 29.

Эл. адрес: ainurseit@mail.ru

Анар Мураткызы Фазылжан, Институт языкознания имени А. Байтурсынулы

Кандидат филологических наук, директор Института языкознания имени А. Байтурсынулы.

Адрес: Республика Казахстан, г. Алма-Ата, ул. Курмангазы, д. 29.

Эл. адрес: nar20@bk.ru

Асел Казбеккызы Сейдамат, Институт языкознания имени А. Байтурсынулы

Докторант, младший научный сотрудник отдела история языка и тюркологии Института языкознания им. А. Байтурсынулы.

Адрес: Республика Казахстан, г. Алма-Ата, ул. Курмангазы, д. 29.

Эл. адрес: assel.seidamat@gmail.com

Мадина Кабылкызы Абаева, Институт языкознания имени А. Байтурсынулы

Кандидат филологических наук, заведующая отделом психолингвистики Института языкознания имени А. Байтурсынулы.

Адрес: Республика Казахстан, г. Алма-Ата, ул. Курмангазы, д. 29.

Эл. адрес: madina-258@mail.ru

Айкерим Мурсал, Институт языкознания имени А. Байтурсынулы

Докторант, младший научный сотрудник отдела история языка и тюркологии Института языкознания имени А. Байтурсынулы.

Адрес: Республика Казахстан, г. Алма-Ата, ул. Курмангазы, д. 29.

Эл. адрес: aigerimmursal@mail.ru

Наиболее читаемые статьи этого автора (авторов)