Семантическая разметка имени для Электронного корпуса текстов тувинского языка
Ключевые слова:
тувинский язык; электронная база данных; автоматизированная система поиска; лексический фонд; лексико-семантические классы и подклассы; дескрипторы; тэги; имя существительное; имя прилагательное; лексическая сочетаемостьАннотация
В статье представлен ход работ над составлением семантической разметки Электронного корпуса текстов тувинского языка (ЭКТТЯ). Этот этап является продолжением работы коллектива авторов Тувинского государственного университета (Научно-образовательного центра «Тюркология» в сотрудничестве с кафедрой информатики) по включению текстов на тувинском языке в электронную базу и разработке разметки корпуса.
Семантическая разметка лексического фонда тувинского языка будет представлять собой справочно-поисковую систему, позволяющую находить в текстах ЭКТТЯ необходимые для целей пользователя фрагменты текстов с искомым значением.
Первым шагом данного этапа работы является создание баз данных лексем тувинского языка, основанной на распределении всех полнозначных лексем тувинского языка на основные семантические классы: человек, животное, предмет, природные объекты и явления, абстрактные понятия. Все имена существительные тувинского языка, называющие объекты, а также все прилагательные (качественные и относительные), указывающие на признаки, распределяются по выделенным лексико-семантическим классам. Лексико-семантическим классам, подклассам и дескрипторам присваиваются тэги на тувинском, русском и английском языках, при помощи которых будет производиться автоматизированный поиск.
Создаваемые базы данных полнозначных лексем тувинского языка будут служить для выявления также лексической сочетаемости лексем. Предполагается, что в автоматизированной системе будет содержаться информация о семантической сочетаемости имен прилагательных и имен существительных; наречий и глаголов; имен существительных и глаголов и о невозможности семантически недопустимых сочетаний.
Библиографические ссылки
Ооржак, Б. Ч., Хертек, А. Б. (2015) Разработка семантической разметки электронного корпуса тувинского языка // Материалы 3-ей Международной конференции по компьютерной обработке тюркских языков «TurkLang 2015». Казань, 17–19 сентября 2015. Казань : Изд-во АН Республики Татарстан. С. 351–362.
Cоздание базы данных лексического фонда тувинского языка (2016) / Ооржак, Б. Ч, Хертек, А. Б., Кужугет, М. А., Салчак, А. Я., Ондар, В. С., Чамзырын, Е. Т. // Труды Международной конференции по компьютерной и когнитивной лингвистике. TEL-2016. Казань, 21–24 апреля 2016. Казань : Изд-во Казанского госуниверситета. Вып. 17. 392 с. С. 278–281.
Опубликован
Как цитировать
Выпуск
Раздел
Автор (лицензиар) произведения предоставляет простую (неисключительную) лицензию на использование редакцией (лицензиатом) произведения науки, который заключается в упрощённом порядке (открытая лицензия), согласно ст. 1286.1. «Открытая лицензия на использование произведения науки, литературы или искусства» Гражданского кодекса Российской Федерации.
В нашем издании публикуемые материалы доступны по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») — CC BY-NC.
Т. к. лицензия открытая, автор имеет право разместить статью после ее выхода на своем сайте, читатель может скопировать и разместить на своих персональных ресурсах, в том числе в виде выдержек, конспектов, но:
а) обязательно должно быть указано ФИО автора, неизмененное название статьи и гиперссылка на первоисточник (журнал «Новые исследования Тувы»),
б) размещающий не имеет права брать деньги за доступ к этому материалу или каким бы то ни было образом давать преимущество одним читателям над другими,
в) при перепечатке автором текста статьи без значительных изменений (если сохраняется 30% текста или более) должно быть указано, что первая редакция статьи вышла в журнале «Новые исследования Тувы» и сделана соответствующая ссылка.
Лицензия действует по всему миру, длится в течение срока авторских прав на произведение, является неотзывной.