Корпуса лугового марийского языка


Вы находитесь на общей стартовой странице корпусов лугового марийского языка: основного корпуса литературного лугового марийского (в настоящий момент состоит в основном из прессы) и корпуса марийских соцсетей.

Подробнее К основному корпусу К корпусу соцсетей

Корпуса лугового марийского языка

Включить/выключить меню

Вы находитесь на стартовой странице сайта, на котором размещены лингвистические корпуса лугового марийского языка. В настоящий момент доступны два корпуса: корпус современного литературного лугового марийского («основной корпус») и корпус марийских соцсетей. Они отличаются представленным в них материалом, но имеют в целом одинаковую разметку и поисковые возможности. Вот их сравнительные характеристики:

Основной корпус Корпус соцсетей
Язык луговой марийский луговой марийский и русский
Размер 2,63 миллионов словоупотреблений 3,59 миллионов словоупотреблений (марийская часть)
15,11 миллионов словоупотреблений (русская часть)
Тексты современная пресса, Википедия (до мая 2019 г.) открытые посты и комментарии пользователей Вконтакте на луговом марийском языке (до мая 2019 г.)
Регистр языка в большинстве случаев нормативный письменный литературный луговой марийский или близкий к нему язык электронной коммуникации: ближе к разговорному, с влиянием диалектов и русского языка, часто содержит переключение кодов
Разметка
  • автоматическая морфологическая разметка (лемматизация, часть речи, все словоизменительные категории), 90,7% словоформ имеют хотя бы один разборучитываются слова, не содержащие цифр и латинских символов
  • омонимия не снималась
  • разметка русских заимствований
  • разметка нескольких лексико-семантических классов и словообразования: одушевлённость/личность, части тела, транспорт, разные классы имён собственных, несколько словообразовательных суффиксов
  • глоссирование
  • переводы лемм на русский язык
  • автоматическая морфологическая разметка (лемматизация, часть речи, все словоизменительные категории), 86,4% словоформ имеют хотя бы один разборучитываются слова, не содержащие цифр и латинских символов
  • омонимия не снималась
  • разметка русских заимствований
  • разметка нескольких лексико-семантических классов и словообразования: одушевлённость/личность, части тела, транспорт, разные классы имён собственных, несколько словообразовательных суффиксов
  • глоссирование
  • переводы лемм на русский язык
Метаданные
  • название текста
  • автор или название издания
  • год создания (точная дата в случае газет)
  • жанр
  • название группы (для групп)
  • открытые характеристики автора, доступные на личной странице: пол (для всех авторов); если эта информация открыта, то год рождения (с точностью до 5 лет); имена и ники пользователей скрыты
  • год написания
  • тип записи (пост/комментарий)
  • язык (определяется автоматически отдельно для каждого предложения)

Кроме представленных здесь корпусов, существуют также корпуса и другие ресурсы для марийских языков, созданные Джереми Брэдли.

Более подробную информацию о содержании марийского корпуса соцсетей и его разработке Вы можете найти в этой статье. Пожалуйста, сошлитесь на неё, если Ваше исследование будет основано на материале этого корпуса:

Timofey Arkhangelskiy. 2019. Corpora of social media in minority Uralic languages. Proceedings of the fifth Workshop on Computational Linguistics for Uralic Languages, pages 125–140, Tartu, Estonia, January 7 - January 8, 2019.

Что такое корпус?

Корпусом языка называется коллекция текстов на этом языке, снабжённая дополнительной лингвистической информацией (разметкой, или аннотацией) и поисковым механизмом. Краткое введение в языковые корпуса и корпусную лингвистику можно посмотреть в интервью академика В. А. Плунгяна на ПостНауке. Ниже я привожу несколько частых вопросов о представленных здесь корпусах лугового марийского языка.

— Кому нужны корпуса?

В первую очередь, корпуса нужны лингвистам — исследователям, изучающим конкретные языки или язык в целом. Поисковая система и разметка корпусов сконструированы таким образом, чтобы в них можно было задавать лингвистические запросы вроде «найти все существительные в родительном падеже» или «найти все формы слова пырыс перед глаголами». Кроме того, корпуса могут пригодиться преподавателям языка (в корпусах, например, можно находить примеры для упражнений), а также изучающим язык и самим носителям языка.

— Можно ли использовать корпус как библиотеку?

Нет, корпус для этого не предназначен. Работа с корпусом состоит в том, что пользователь задаёт запрос — ищет какое-либо слово, фразу или конструкцию, — а корпус выдаёт в ответ все предложения, в которых встречаются искомые слова. По умолчанию предложения выдаются в перемешанном порядке. При желании у каждого предложения можно расширить контекст, т. е. показать соседние с ним предложения. Однако для каждого предложения эту операцию можно совершить ограниченное число раз. Таким образом, пользователь не может увидеть текст целиком. Это необходимо, в частности, для защиты авторских прав.

— Можно ли использовать корпус как словарь?

У каждого марийского слова в корпусе есть перевод на русский. Однако это всего лишь вспомогательная информация для тех, кто недостаточно хорошо владеет марийским языком. Переводы слов в корпусе специально укорочены, не отражают всех оттенков значения и не содержат примеров употреблений. Если Вы хотите узнать перевод слова, намного лучше будет воспользоваться для этого специализированным словарём, например, здесь.

— Что такое морфологическая разметка и как она сделана?

В представленных здесь корпусах имеется лемматизация и морфологическая разметка. Лемматизация означает, что при каждой словоформе указана её лемма, то есть начальная форма. Морфологическая разметка означает, что для каждой словоформы указаны её грамматические характеристики: часть речи, число, падеж, время и т. п. Поскольку эти корпуса слишком большие, чтобы размечать их вручную, разметка делалась автоматически при помощи специальной программы — морфологического анализатора. Анализатор, в свою очередь, использует составленный вручную грамматический словарь и формализованное описание марийского словоизменения. Анализатор вместе со словарём свободно распространяется и доступен у меня на битбакете. Использование автоматической разметки, к сожалению, означает, что, во-первых, отсутствующие в словаре слова останутся неразобранными, а во-вторых, что в некоторых случаях возникнет омонимия. Русские предложения в корпусе соцсетей были размечены автоматически с помощью анализатора mystem.

Марийский язык

Луговой (лугово-восточный) марийский — один из нескольких марийских языков, которые составляют отдельную группу уральских языков. Число его носителей, согласно последней переписи, составляет около 365 тыс. человек. Марийские языки используют орфографию, основанную на кириллице, с несколькими дополнительными символами. В марийских языках имеется разноместное ударение и сингармонизм (в ограниченной степени). Почти все морфологические категории выражаются суффиксально и в основном агглютинативно. Именные грамматические категории включают число, падеж и посессивность. Прямое дополнение маркируется номинативом или аккузативом (дифференциальное маркирование). Порядок слов в предложении по умолчанию — SOV (подлежащее – прямое дополнение – глагол).

Грамматические тэги

Грамматические значения при каждом слове указываются с помощью специальных помет — тэгов. Ниже приводится полный список используемых тэгов для лугового марийского языка в алфавитном порядке с расшифровкой. Набор тэгов в обоих корпусах одинаков.

  • A — прилагательное
  • ADV — наречие
  • CONJ — союз
  • IMIT — идеофон (изобразительное слово)
  • INTRJ — междометие
  • N — существительное
  • NUM — числительное
  • PARENTH — вводное слово
  • PART — частица
  • PN — имя собственное (подтип существительного)
  • POST — послелог
  • PREDIC — предикатив
  • PRO — местоимение
  • V — глагол
  • 1 — 1 лицо
  • 1pl — притяжательный суффикс 1 л. мн. ч.
  • 1sg — притяжательный суффикс 1 л. ед. ч.
  • 2 — 2 лицо
  • 2pl — притяжательный суффикс 2 л. мн. ч.
  • 2sg — притяжательный суффикс 2 л. ед. ч.
  • 3 — 3 лицо
  • 3pl — притяжательный суффикс 3 л. мн. ч.
  • 3sg — притяжательный суффикс 3 л. ед. ч.
  • abbr — аббревиатура
  • acc — аккузатив
  • add — аддитивная частица
  • anim — одушевлённое существительное
  • attr — любой атрибутив
  • attr_an — общий атрибутив на -ан
  • attr_le — атрибутив на -ле
  • attr_loc — местный атрибутив на -се
  • attr_neg — отрицательный атрибутив на -дыме
  • body — часть тела
  • case_comp — двойное падежное маркирование
  • caus — каузатив (-ыкт-)
  • com — комитатив
  • comp — компаратив (-рак)
  • cvb — любое деепричастие
  • cvb.consec — последовательное деепричастие
  • cvb.gen — общее деепричастие
  • cvb.neg — отрицательное деепричастие
  • cvb.prec — деепричастие предшествования
  • cvb.sim — деепричастие одновременности
  • dat — датив
  • dem — указательное местоимение
  • emph — усилительная частица
  • famn — фамилия
  • gen — генитив
  • hort — гортативная частица
  • hum — существительное, означающее человека
  • ill — иллатив
  • imp — императив
  • indef — неопределённое местоимение
  • inf — инфинитив
  • lat — латив
  • loc — локатив/инэссив
  • missp — опечатка или ошибка в орфографии
  • neg — отрицательная форма
  • nmlz — номинализация
  • nom — номинатив
  • nonposs — непритяжательная форма
  • npst — непрошедшее время
  • opt — желательное наклонение
  • ord — порядковое числительное
  • pass — пассив
  • patrn — отчество
  • pers — личное местоимение
  • persn — личное имя
  • pl — множественное число
  • pl.assoc — ассоциативное множественное
  • plen — полная форма прилагательного/числительного
  • pst — первое прошедшее время
  • pst2 — второе прошедшее время
  • ptcp — любое причастие
  • ptcp.act — действительное причастие
  • ptcp.neg — отрицательное причастие
  • ptcp.pass — страдательное причастие
  • ptcp.prosp — проспективное причастиe
  • refl — возвратное местоимение
  • rus — заимствование из русского или через русский
  • rus_afx — русский аффикс при незаимствованном корне
  • sg — единственное число
  • short — краткая форма прилагательного/числительного
  • supernat — сущесвтительное, означающее сверхъестественное существоТакая категория неизбежно возникает при классификации по одушевлённости/личности. Поскольку непонятно, классифицировать ли такие случаи как существительные, обозначающие людей, мы вводим для них отдельную категорию, оставляя таким образом пользователю возможность выбора.
  • sim — симилитив (падеж на -ла)
  • topn — топоним
  • transport — транспорт

Набор тэгов для русского языка (в русских предложениях корпуса соцсетей) можно посмотреть на сайте Национального корпуса русского языка.

Авторы

Разработкой этих корпусов занимается Тимофей Архангельский в рамках проекта, поддержанного стипендией фонда Александра фон Гумбольдта. Первая версия корпуса была создана весной 2019 года, работа над над ним продолжается. Фотография для фона была любезно предоставлена Айгуль Закировой. Корпуса используют техническую инфраструктуру Школы лингвистики ВШЭ.

Контакты


Если у Вас есть вопросы, Вы хотели бы предложить сотрудничество или Вы заметили ошибку в корпусене считая опечаток в блогах и соцсетях: эти тексты специально оставляются в исходном виде, пожалуйста, напишите об этом Тимофею Архангельскому. Кроме того, Вы можете использовать по своему усмотрению свободно распространяемые луговой марийский морфологический анализатор и корпусную платформу tsakorpus.