22 ноября родился Владимир Даль, составитель «Толкового словаря живого великорусского языка», — в день его рождения в России празднуют День словаря.
К этому дню Яндекс приготовил подарок для всех, кому интересен русский язык и его развитие. В фокусе исследования — изменения в лексике в период с первой половины XX века до наших дней.
Материалом для изучения стали статьи и комментарии на Яндекс.Дзене и тексты из собрания центра Прожито Европейского Университета в Санкт-Петербурге — дневниковых записей, сделанных с 1900 по 1940 год.
Аналитики компании вместе с лингвистами нашли такие слова, частотность или контекст употребления которых в двух корпусах сильно различались.
«Слова не только уходят, язык постоянно пополняется новыми словами. И дело не только в том, что появляются вещи, которые надо как-то называть (парковка, кроссовки, чипсы). Есть и такие слова, к которым мы давно привыкли, но которых всего сто лет назад ещё не было в русском языке — во всяком случае, они не встречаются в текстах из корпуса Прожито, — комментирует Борис Иомдин, заведующий сектором Института русского языка им. В. В. Виноградова РАН. — Бывают и другие изменения: слово не уходит, но сильно меняет своё основное значение. Чтобы найти такие примеры, аналитики Яндекса сравнивали лексические окружения каждого слова в двух корпусах — то есть проверяли, насколько изменился контекст его употребления».
Борис Иомдин приводит примеры:
«Часто заменяются глагольные приставки: проконспектировать > законспектировать, выкупаться > искупаться, срепетировать > отрепетировать, вздорожать > подорожать, расцеловаться > поцеловаться (приставка по- вообще используется теперь существенно чаще). Уходят многие слова с суффиксами, выражающими абстрактное значение свойства или процесса: дрянность, талантливость, весёлость, отобрание, напечатание. Как ни странно, уходят некоторые феминитивы: делегатка, консерваторка, музыкантша, домовладелица, жилица».
Вместе с исследованием Яндекс публикует датасет, который содержит информацию, как менялся русский язык с первой половины XX века. Эти данные можно использовать в научной работе.
Списки датасета можно скачать:
- 1000 уходящих и ушедших слов (https://yastatic.net/s3/milab/2021/old-words/data/RussianOldWordsDataset.zip)
- 1000 слов — недавних приобретений (https://yastatic.net/s3/milab/2021/old-words/data/RussianNewWordsDataset.zip)
Вам может быть интересно:
«Почему нельзя сказать то же по-русски?», или О мифе порчи языка заимствованиями.