Труды КарНЦ РАН :: Публикации
Труды КарНЦ РАН :: Публикации

Труды КарНЦ РАН :: Публикации
Карельский научный центр РАН
ISSN (печатн.): 1997-3217
ISSN (онлайн): 2312-4504
Труды КарНЦ РАН :: Публикации
История Редакционный совет Редакция Положения Авторам Рецензентам English version
Труды КарНЦ РАН :: Публикации

Электронный журнал OJS



Серии

Биогеография

Экспериментальная биология

Математическое моделирование и информационные технологии

Геология докембрия

Экологические исследования

Лимнология и океанология

Гуманитарные исследования (2010-2015)

Регион: экономика и управление (2012-2015)



Выпуски

2023 год

2022 год

2021 год

2020 год

2019 год

2018 год

2017 год

2016 год

2015 год

2014 год

2013 год

2012 год

2011 год

2010 год

2009 год

1999-2008 годы

1947-1964 годы


ПУБЛИКАЦИИ
Т.П. Бойко, Н.Г. Зайцева, Н.Б. Крижановская, А.А. Крижановский, И.П. Новак, Н.А. Пеллинен, А.П. Родионова, Е.Д. Трубина.
Лингвистический корпус ВепКар – «заповедник» прибалтийско-финских языков Карелии
Ключевые слова: карельский язык; вепсский язык; корпусная лингвистика; Открытый корпус вепсского и карельского языков; корпусный менеджер; словоизменительная парадигма
Целью создания природных заповедников является охрана исчезающих видов флоры и фауны. Для сохранения и последующего изучения языков такими «заповедниками» становятся большие, размеченные, разножанровые лингвистические корпуса. В статье описаны история, структура, возможности и перспективы развития Открытого корпуса вепсского и карельского языков, являющегося одновременно как результатом многолетней междисциплинарной работы лингвистов и программистов Карельского научного центра РАН, так и уникальной источниковой базой для новых исследований. Электронный ресурс ведет свою историю с 2009 года, когда под руководством Зайцевой Н. Г. был создан «Корпус вепсского языка». С 2016 года в корпус входят три карельских подкорпуса: собственно карельский, ливвиковский и людиковский. Объединённая лингвистическая платформа получила название «Открытый корпус вепсского и карельского языков» (ВепКар). Корпус включает в себя тексты и словари, хранящиеся в базе данных, и компьютерную программу, обеспечивающую поиск и обработку текстов. Эта программа называется «корпусным менеджером», она написана на языке программирования PHP в системе разработки веб-сайтов Laravel. Данные хранятся в базе данных MySQL. Словари и тексты корпуса вместе с поисковой системой доступны онлайн (dictorpus.krc.karelia.ru). Авторы проекта уделяют внимание популяризации корпуса ВепКар с помощью сайтов YouTube и Википедия.

Особенностью базы данных и самого корпуса ВепКар является тесная взаимосвязь словарей и текстов. Многофункциональные словари вепсского и карельского языков содержат толкование, перевод, диалектные пометы, семантические отношения (синонимы, антонимы и др.), примеры словоупотреблений со ссылкой на тексты, а также полные словоизменительные парадигмы. Все тексты автоматически размечаются и от слов в тексте идут отсылки на соответствующие значения в словарных статьях.

Разработчики добавляют в корпусный менеджер новые полезные функции, призванные облегчить работу редакторов. Например, за последние три года были сформулированы и запрограммированы правила именного и глагольного словоизменения для всех диалектов вепсского языка и его младописьменного варианта, а также для ливвиковского, севернокарельского и тверского новописьменных вариантов карельского языка. Благодаря этому в системе ВепКар в полуавтоматическом режиме было сгенерировано 2.1 млн словоформ. Кроме семантической разметки, представленной в корпусе (2.1 млн связей между словами из текста и значениями лемм в словаре), была добавлена грамматическая разметка, позволившая автоматически установить 1.1 млн связей между словами из текста и грамматическими характеристиками словоформ из словаря.

Многоязычный корпус ВепКар делится на подкорпуса по языкам и наречиям, также есть стилевая и жанровая классификация текстов. В корпусе организована развитая система поиска с фильтрацией текстов по языковой, стилистической и диалектной принадлежности, по информанту, собирателю или автору, году записи или году публикации. Поиск лемм возможен по диалектам, частям речи, грамматическим признакам и даже по лексико-семантическим категориям. Эти категории появились благодаря интеграции выдающегося «Сопоставительно-ономасиологического словаря диалектов карельского, вепсского, саамского языков» в словарную часть ВепКар.

На базе ВепКар в 2021 году был создан электронный словарь Sanahelmi для телефонов с операционной системой Android. Разработка мобильных приложений на основе данных корпуса будет продолжена.
Индексируется в РИНЦ, Google Scholar


  Последние изменения: 12 июня 2022