А.Н. Кириллов, А.А. Крижановский.
Модель геометрической структуры синсета
Ключевые слова: синоним; синсет; нейронная сеть; корпусная лингвистика; word2vec; RusVectores; gensim; Русский Викисловарь
В статье поставлен вопрос формализации понятия синонимии. На основе векторного представления слов в работе предлагается геометрический подход для математического моделирования наборов синонимов (синсетов). Определен такой вычислимый атрибут синсетов как "внутренность синсета" (IntS). Введены понятия "ранг" и "центральность" слов в синсете, позволяющие определить более значимые, "центральные" слова в синсете. Для ранга и центральности даны математическая формулировка и предложена процедура их вычисления. Для вычислений использованы нейронные модели (Skip-gram, CBOW), созданные программой Т. Миколова word2vec. На примере синсетов Русского Викисловаря построены IntS по нейронным моделям корпусов проекта RusVectores. Результаты, полученные по двум корпусам (Национальный корпус русского языка и новостной корпус), в значительной степени совпадают. Это говорит о некоторой универсальности предлагаемой математической модели.
Индексируется в РИНЦ