Семантическая разметка имени для Электронного корпуса текстов тувинского языка

Ооржак Байлак Чаш-ооловна, Хертек Аржаана Борисовна, Кужугет Мария Амын-ооловна, Ондар Валентина Сувановна

Аннотация


В статье представлен ход работ над составлением семантической разметки Электронного корпуса текстов тувинского языка (ЭКТТЯ). Этот этап является продолжением работы коллектива авторов Тувинского государственного университета (Научно-образовательного центра «Тюркология» в сотрудничестве с кафедрой информатики) по включению текстов на тувинском языке в электронную базу и разработке разметки корпуса.

Семантическая разметка лексического фонда тувинского языка будет представлять собой справочно-поисковую систему, позволяющую находить в текстах ЭКТТЯ необходимые для целей пользователя фрагменты текстов с искомым значением.

Первым шагом данного этапа работы является создание баз данных лексем тувинского языка, основанной на распределении всех полнозначных лексем тувинского языка на основные семантические классы: человек, животное, предмет, природные объекты и явления, абстрактные понятия. Все имена существительные тувинского языка, называющие объекты, а также все прилагательные (качественные и относительные), указывающие на признаки, распределяются по выделенным лексико-семантическим классам. Лексико-семантическим классам, подклассам и дескрипторам присваиваются тэги на тувинском, русском и английском языках, при помощи которых будет производиться автоматизированный поиск.

Создаваемые базы данных полнозначных лексем тувинского языка будут служить для выявления также лексической сочетаемости лексем. Предполагается, что в автоматизированной системе будет содержаться информация о семантической сочетаемости имен прилагательных и имен существительных; наречий и глаголов; имен существительных и глаголов и о невозможности семантически недопустимых сочетаний. 


Ключевые слова


тувинский язык; электронная база данных; автоматизированная система поиска; лексический фонд; лексико-семантические классы и подклассы; дескрипторы; тэги; имя существительное; имя прилагательное; лексическая сочетаемость

Полный текст:

Литература


Бавуу-Сюрюн, М. В., Далаа, С. М. Морфемно-орфографический словарь тувинского языка [Электронный ресурс] // Электронный корпус текстов тувинского языка. URL: http://www.tuvacorpus.ru/?q=content/slovari (дата обращения: 12.09.2016).

Ооржак, Б. Ч., Хертек, А. Б. (2015) Разработка семантической разметки электронного корпуса тувинского языка // Материалы 3-ей Международной конференции по компьютерной обработке тюркских языков «TurkLang 2015». Казань, 17–19 сентября 2015. Казань : Изд-во АН Республики Татарстан. С. 351–362.

Cоздание базы данных лексического фонда тувинского языка (2016) / Ооржак, Б. Ч, Хертек, А. Б., Кужугет, М. А., Салчак, А. Я., Ондар, В. С., Чамзырын, Е. Т. // Труды Международной конференции по компьютерной и когнитивной лингвистике. TEL-2016. Казань, 21–24 апреля 2016. Казань : Изд-во Казанского госуниверситета. Вып. 17. 392 с. С. 278–281.


Поддерживающие организации


Работа выполнена при поддержке РГНФ (проект «Создание базы данных лексического фонда тувинского языка», грант №16-04-12020).

Ссылки

  • На текущий момент ссылки отсутствуют.