Бурятский корпус

На настоящем ресурсе находится письменный корпус литературного бурятского языка объемом около 2,8 млн словоупотреблений. Доля автоматического разбора составляет 76%. Каждая разобранная словоформа включает лемму и грамматическую информацию.

О корпусе

Настоящий корпус является лингвистическим ресурсом современного литературного бурятского языка. Он доступен в режиме онлайн с ноября 2012 г. Разрабатываемый корпус адресован широкому кругу пользователей, в первую очередь — лингвистам, специалистам в области монгольского языкознания, профессиональная деятельность, которых относится к сфере науки и образования. Данный ресурс будет полезен и тем, род занятий которых связан с бурятским языком (писатели, работники СМИ, театра, кино, библиотек), а также всем, кто интересуется языком и культурой бурят.

Пополнения Корпуса производились в 2014 г., в 2016 г. База данных Бурятского корпуса (БК) включает тексты всех основных стилей бурятского языка. При обновлении в декабре 2021 г. объем корпуса достиг 2,8 млн словоупотреблений, зарегистрированных в письменных текстах. Метаописание текстов включает их основные библиографические и классификационные характеристики. Корпус обеспечен морфологической разметкой, входящих в него слов на основе словоизменительных характеристик.

Данный проект является долгосрочным (многолетним), как и принято в основном в корпусной лингвистике, работы по разработкам его лингвистических инструментариев (начиная с морфологического анализатора и метаописания), усовершенствованию грамматического словаря, пополнению текстовой базы и отладке программного обеспечения ведутся постоянно и поступательно.

Составление лингвистического корпуса бурятского языка осуществлялось при финансовой поддержке научных фондов и ведомств:

Материалы, тексты, проблемы разрабатываемого корпусного проекта стали рассматриваться и обрабатываться исполнителями раньше с опорой на результаты уже разработанных лингвистических корпусов по другим языкам мира. Данные работы ведутся сотрудниками Института монголоведения, буддологии и тибетологии Сибирского Отделения РАН (ИМБТ СО РАН, г. Улан-Удэ) — Л. Д. Бадмаевой, О. С. Ринчиновым, Г. Н. Чимитдоржиевой, Ю. Д. Абаевой. Разработчики БК искренне благодарны корпусным и компьютерным лингвистам М. А. Даниэлю (НИУ ВШЭ, Москва), Т. А. Архангельскому (Университет Гамбурга; ранее НИУ ВШЭ), С. А. Крылову (ИВ РАН, Москва) за их большую и постоянную поддержку.

Данный ресурс является основой для его дальнейшего развития на пути к Национальному корпусу бурятского языка (НКБЯ) и служит сохранению отдельной этноязыковой культуры.

Создатели сайта и корпуса открыты для сотрудничества и будут рады отзывам, внимательны к замечаниям и советам по их совершенствованию и дополнению. Они надеются на понимание пользователей корпуса, ввиду того, что в ресурсе в силу его масштабности, определенной сложности внутренней организации и новизны имеются погрешности, недочеты как в программной части, так и в лингвистических базах данных, отладка и корректирование которых, требуют координированных работ разных специалистов, что ведет порой к протяженности во времени.

Как пользоваться корпусом?

БК обеспечен виртуальной клавиатурой, позволяющей при необходимости набирать бурятские буквы. На сайте она обозначена мини-иконкой под номерами 1 и 2. А метод «тыка», или иначе, некоторая тренировка бесстрашного использования кнопок / полей «форма», «лемма», «искать», «очистить», «подкорпус», «настройка выдачи», «поиск в новом окне» и др. дадут пользователю возможность приобрести навыки и решать свои задачи по поиску нужного языкового материала.

Поле «форма» позволяет выдать все случаи употребления конкретной словоформы, которую надо набрать в небольшую поисковую строку под самой кнопкой, напр. багшын, досл. «учителя», т. е. родительный падеж имени существительного «учитель», или хэлэжэ, досл. «говоря», соединительное деепричастие от хэлэхэ «говорить, сказать».

Поле «лемма», под которой понимается словарная форма слова, позволяет найти все случаи употребления полной парадигмы указанного слова, напр. багша, досл. «учитель». Для этого требуется набрать слово багша снова в очищенную небольшую поисковую строку и, нажав вкладку «лемма», чтобы она закрасилась в оранжевый цвет (такой цвет говорит о ее активации), воспользоваться кнопкой «искать». Тогда система выдаст все случаи употребления слова багша во всех падежах и числах. Также при активации вкладки «лемма» могут быть выданы случаи употребления всей парадигмы спряжения того же глагола хэлэхэ, т. е. как личные (наклонения, время), так и неличные его формы (причастия, деепричастия).

Обеспеченность БК морфологической разметкой дает возможность при подведении курсора узнать грамматические характеристики того или иного слова как частеречная принадлежность и т. п. На данном этапе морфоразметка выполнена на наиболее частотных словоформах.