Семантическая разметка имени для Электронного корпуса текстов тувинского языка
Ключевые слова:
тувинский язык, электронная база данных, автоматизированная система поиска, лексический фонд, лексико-семантические классы и подклассы, дескрипторы, тэги, имя существительное, имя прилагательное, лексическая сочетаемостьАннотация
В статье представлен ход работ над составлением семантической разметки Электронного корпуса текстов тувинского языка (ЭКТТЯ). Этот этап является продолжением работы коллектива авторов Тувинского государственного университета (Научно-образовательного центра «Тюркология» в сотрудничестве с кафедрой информатики) по включению текстов на тувинском языке в электронную базу и разработке разметки корпуса.
Семантическая разметка лексического фонда тувинского языка будет представлять собой справочно-поисковую систему, позволяющую находить в текстах ЭКТТЯ необходимые для целей пользователя фрагменты текстов с искомым значением.
Первым шагом данного этапа работы является создание баз данных лексем тувинского языка, основанной на распределении всех полнозначных лексем тувинского языка на основные семантические классы: человек, животное, предмет, природные объекты и явления, абстрактные понятия. Все имена существительные тувинского языка, называющие объекты, а также все прилагательные (качественные и относительные), указывающие на признаки, распределяются по выделенным лексико-семантическим классам. Лексико-семантическим классам, подклассам и дескрипторам присваиваются тэги на тувинском, русском и английском языках, при помощи которых будет производиться автоматизированный поиск.
Создаваемые базы данных полнозначных лексем тувинского языка будут служить для выявления также лексической сочетаемости лексем. Предполагается, что в автоматизированной системе будет содержаться информация о семантической сочетаемости имен прилагательных и имен существительных; наречий и глаголов; имен существительных и глаголов и о невозможности семантически недопустимых сочетаний.
Библиографические ссылки
Ооржак, Б. Ч., Хертек, А. Б. (2015) Разработка семантической разметки электронного корпуса тувинского языка // Материалы 3-ей Международной конференции по компьютерной обработке тюркских языков «TurkLang 2015». Казань, 17–19 сентября 2015. Казань : Изд-во АН Республики Татарстан. С. 351–362.
Cоздание базы данных лексического фонда тувинского языка (2016) / Ооржак, Б. Ч, Хертек, А. Б., Кужугет, М. А., Салчак, А. Я., Ондар, В. С., Чамзырын, Е. Т. // Труды Международной конференции по компьютерной и когнитивной лингвистике. TEL-2016. Казань, 21–24 апреля 2016. Казань : Изд-во Казанского госуниверситета. Вып. 17. 392 с. С. 278–281.
Загрузки
Опубликован
Выпуск
Раздел
Как цитировать
Поддерживающие организации
Лицензия

Автор (лицензиар) произведения предоставляет простую (неисключительную) лицензию на использование редакцией (лицензиатом) произведения науки, который заключается в упрощённом порядке (открытая лицензия), согласно ст. 1286.1. «Открытая лицензия на использование произведения науки, литературы или искусства» Гражданского кодекса Российской Федерации.
В нашем издании публикуемые материалы доступны по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») — CC BY-NC.
Т. к. лицензия открытая, автор имеет право разместить статью после ее выхода на своем сайте, читатель может скопировать и разместить на своих персональных ресурсах, в том числе в виде выдержек, конспектов, но:
а) обязательно должно быть указано ФИО автора, неизмененное название статьи и гиперссылка на первоисточник (журнал «Новые исследования Тувы»),
б) размещающий не имеет права брать деньги за доступ к этому материалу или каким бы то ни было образом давать преимущество одним читателям над другими,
в) при перепечатке автором текста статьи без значительных изменений (если сохраняется 30% текста или более) должно быть указано, что первая редакция статьи вышла в журнале «Новые исследования Тувы» и сделана соответствующая ссылка.
Лицензия действует по всему миру, длится в течение срока авторских прав на произведение, является неотзывной.



