Вариативность (наличие нескольких вариантов чего-либо) – очень распространенное явление в русском языке. Она имеет место в различных областях языка, в том числе и в морфологии. Интересно изучить то, что именно влияет на выбор того или иного варианта из нескольких возможных, а также выявить тенденции этого выбора.
Для более подробного изучения взяты конструкции типа Фермер продал три овцы // трех овец. Целью данной работы является выявление тенденций выбора падежной формы в этих конструкциях и определение факторов, влияющих на этот выбор.
Для изучения были взяты числительные оба, два, три, четыре. Подбор материала осуществлялся с помощью НКРЯ и корпуса SketchEngine. Я использовала лексико-грамматический поиск и вводили следующий запрос: оба/два/три/четыре (в именительном или винительном падеже) + существительное (женского рода, во множественном числе, одушевленное, семантический класс - животное), расстояние между словоформами от 1 до 3. При таком запросе также находятся и диминутивы существительных.
В данных конструкциях может быть использована одушевленная или неодушевленная форма винительного падежа. Формы обе/две/три/четыре будем называть “неодушевленными”, а формы обеих/двух/трех/четырех – “одушевленными”:
Завтракал Орлов (деж.). Долго гулял, убил три вороны. Занимался и писал, а после обеда читал Аликс вслух. [Николай II. Дневники 1904-1907 (1904-1907)]
Гейден. Погулял еще и убил трех ворон. Занимался с успехом. [Николай II. Дневники 1904-1907 (1904-1907)]
Из найденных примеров не рассматривались те, в которых использовались существительные пиявка, креветка (для данных существительных в Грамматическом словаре русского языка А.А.Зализняка указаны колебания по одушевленности):
А теперь припустил себе к носу две пиявки да воображает, что у него усы! [М. Н. Загоскин. Москва и москвичи (1842-1850)]
Сергей выбрал еще три креветки, стараясь найти среди них самые крепкие и привлекательные, наживил каждую из них, тщательно продев крючок сквозь всетуловище, и осторожно опустил за борт свою снасть. [Фазиль Искандер. Морской скорпион (1977)]
Необходимые библиотеки.
library('languageR')
library('Hmisc')
library(party)
library(lattice)
library(rms)
library(ggplot2)
Файлы с данными.
nk = read.csv('/Users/angelinaprisyazhnaya/Desktop/ovtsy_ruscorpora.csv', sep=';')
se = read.csv('/Users/angelinaprisyazhnaya/Desktop/ovtsy_sketch.csv', sep=';')
ovtsy_all = read.csv('/Users/angelinaprisyazhnaya/Desktop/ovtsy_all.csv', sep=';')
В НКРЯ было найдено 729 подходящих примеров. На графике показано количество вхождений для различных форм и числительных.
summary(nk)
## numeral form year century homogenious_parts
## chetyre: 63 anim :607 Min. :1709 XIX :197 no :575
## dva :481 inanim:122 1st Qu.:1892 XVIII: 13 yes_anim :117
## oba : 19 Median :1932 XX :429 yes_inanim: 37
## tri :166 Mean :1929 XXI : 90
## 3rd Qu.:1977
## Max. :2011
## pair_numerals definiteness adjectives
## no :711 high :586 no :577
## yes: 18 low : 15 yes:152
## medium:128
##
##
##
head(nk)
## numeral form year century homogenious_parts pair_numerals definiteness
## 1 dva inanim 2011 XXI no no high
## 2 dva inanim 2003 XXI no yes low
## 3 dva inanim 2003 XXI no no medium
## 4 dva inanim 2001 XXI no no high
## 5 dva inanim 2001 XXI yes_anim no medium
## 6 dva inanim 2001 XXI no yes low
## adjectives
## 1 no
## 2 yes
## 3 no
## 4 no
## 5 yes
## 6 no
ggplot(nk, aes(numeral)) + geom_bar(aes(fill = form), position="dodge") + geom_text(stat='count',aes(label=..count.., hjust=0.5, vjust=-0.5, group=form), position=position_dodge(width = 1)) + xlab("Числительное") + ylab("Количество вхождений") + ggtitle("Количество вхождений на основе НКРЯ")
В SketchEngine было найдено 784 подходящих примера. На графике показано количество вхождений для различных форм и числительных.
summary(se)
## numeral form homogenious_parts pair_numerals definiteness
## chetyre: 69 anim :643 no :669 no :720 high :528
## dva :508 inanim:141 yes_anim : 86 yes: 64 low : 64
## oba : 23 yes_inanim: 29 medium:192
## tri :184
## adjectives
## no :633
## yes:151
##
##
head(se)
## numeral form homogenious_parts pair_numerals definiteness adjectives
## 1 dva inanim no no high no
## 2 dva inanim no no high no
## 3 dva inanim no no high yes
## 4 dva inanim no no high no
## 5 dva inanim no no high yes
## 6 dva inanim no no high no
ggplot(se, aes(numeral)) + geom_bar(aes(fill = form), position="dodge") + geom_text(stat='count',aes(label=..count.., hjust=0.5, vjust=-0.5, group=form), position=position_dodge(width = 1)) + xlab("Числительное") + ylab("Количество вхождений") + ggtitle("Количество вхождений на основе SketchEngine")
Я предположила, что выбор формы может зависеть от следующих факторов:
Возможны три варианта для данного фактора:
Гипотеза: если в предложении содержатся однородные члены в “неодушевленной” форме, то название животного подвергается их влиянию и употребляется в “неодушевленной” форме (и наоборот).
Возможны два варианта для данного фактора:
Гипотеза: двойные числительные чаще употребляются в “неодушевленной” форме, чем в “одушевленной”.
Возможны три варианта для данного фактора:
Гипотеза: с повышением определенности чаще употребляются “одушевленные” формы.
Возможны два варианта для данного фактора:
Гипотеза: при наличии определений чаще употребляются “одушевленные” формы.
Возможные варианты для данного фактора: XVIII, XIX, XX, XXI века.
Цель - проверить, есть ли временная тенденция.
Для того, чтобы выяснить, зависит ли выбор падежной формы от каких-либо рассматриваемых факторов, я решила использовать дерево решений.
nk.ctree=ctree(form ~ definiteness + homogenious_parts + adjectives, nk)
plot(nk.ctree, main="Дерево решений на основе данных из НКРЯ")
se.ctree=ctree(form ~ definiteness + homogenious_parts + adjectives, se)
plot(se.ctree, main="Дерево решений на основе данных из SketchEngine")
Результаты показывают, что на выбор падежной формы действительно влияют следующие факторы:
Также я построила дерево для агрегированных данных - и из НКРЯ, и из SketchEngine. Но в этом случае анализ неточный, поскольку некоторые примеры могут встречаться в обеих выборках (дублироваться) - и в НКРЯ, и в SketchEngine. При этом, если это пересечение есть, то оно неравномерно, так как SketchEngine содержит только современные тексты.
ovtsy_all.ctree=ctree(form ~ definiteness + homogenious_parts + adjectives, ovtsy_all)
plot(ovtsy_all.ctree)
nk.lrm=lrm(form ~ definiteness + homogenious_parts + adjectives, data=nk, x=T, y=T, linear.predictors=T)
nk.lrm
## Logistic Regression Model
##
## lrm(formula = form ~ definiteness + homogenious_parts + adjectives,
## data = nk, x = T, y = T, linear.predictors = T)
##
## Model Likelihood Discrimination Rank Discrim.
## Ratio Test Indexes Indexes
## Obs 729 LR chi2 49.63 R2 0.111 C 0.675
## anim 607 d.f. 5 g 0.657 Dxy 0.351
## inanim 122 Pr(> chi2) <0.0001 gr 1.929 gamma 0.456
## max |deriv| 8e-09 gp 0.095 tau-a 0.098
## Brier 0.128
##
## Coef S.E. Wald Z Pr(>|Z|)
## Intercept -1.9518 0.1511 -12.91 <0.0001
## definiteness=low 2.7519 0.5721 4.81 <0.0001
## definiteness=medium 0.7344 0.2424 3.03 0.0025
## homogenious_parts=yes_anim 0.6643 0.2580 2.57 0.0100
## homogenious_parts=yes_inanim 1.3023 0.3731 3.49 0.0005
## adjectives=yes -0.6693 0.3051 -2.19 0.0283
##
Определенность и наличие однородных членов оказывают значимое влияние на выбор падежной формы.
se.lrm=lrm(form ~ definiteness + homogenious_parts + adjectives, data=se, x=T, y=T, linear.predictors=T)
se.lrm
## Logistic Regression Model
##
## lrm(formula = form ~ definiteness + homogenious_parts + adjectives,
## data = se, x = T, y = T, linear.predictors = T)
##
## Model Likelihood Discrimination Rank Discrim.
## Ratio Test Indexes Indexes
## Obs 784 LR chi2 41.02 R2 0.084 C 0.651
## anim 643 d.f. 5 g 0.543 Dxy 0.302
## inanim 141 Pr(> chi2) <0.0001 gr 1.721 gamma 0.380
## max |deriv| 1e-09 gp 0.087 tau-a 0.089
## Brier 0.139
##
## Coef S.E. Wald Z Pr(>|Z|)
## Intercept -1.9205 0.1490 -12.89 <0.0001
## definiteness=low 1.3780 0.2921 4.72 <0.0001
## definiteness=medium 0.6691 0.2165 3.09 0.0020
## homogenious_parts=yes_anim 0.1673 0.3029 0.55 0.5807
## homogenious_parts=yes_inanim 1.6137 0.3962 4.07 <0.0001
## adjectives=yes -0.2155 0.2655 -0.81 0.4169
##
Результаты очень близки к результатам на основе НКРЯ.
Регрессию я также применила и к агрегированным данным (но здесь та же проблема - данные могут дублироваться).
ovtsy_all.lrm=lrm(form ~ definiteness + homogenious_parts + adjectives, data=ovtsy_all, x=T, y=T, linear.predictors=T)
ovtsy_all.lrm
## Logistic Regression Model
##
## lrm(formula = form ~ definiteness + homogenious_parts + adjectives,
## data = ovtsy_all, x = T, y = T, linear.predictors = T)
##
## Model Likelihood Discrimination Rank Discrim.
## Ratio Test Indexes Indexes
## Obs 1513 LR chi2 82.58 R2 0.088 C 0.659
## anim 1250 d.f. 5 g 0.585 Dxy 0.319
## inanim 263 Pr(> chi2) <0.0001 gr 1.795 gamma 0.405
## max |deriv| 8e-09 gp 0.090 tau-a 0.092
## Brier 0.135
##
## Coef S.E. Wald Z Pr(>|Z|)
## Intercept -1.9298 0.1056 -18.27 <0.0001
## definiteness=low 1.6473 0.2475 6.66 <0.0001
## definiteness=medium 0.6915 0.1603 4.31 <0.0001
## homogenious_parts=yes_anim 0.4403 0.1940 2.27 0.0233
## homogenious_parts=yes_inanim 1.4107 0.2685 5.25 <0.0001
## adjectives=yes -0.4187 0.1986 -2.11 0.0350
##
Отдельно от всех рассмотренных факторов рассмотрим дату, чтобы выяснить, существует ли какая-либо зависимость употребления падежной формы от времени. В данном случае будут рассматриваться только данные НКРЯ, так как в датасете из SketchEngine нет информации о годе написания текста.
ggplot(nk, aes(form, year)) + geom_violin(scale = "count", draw_quantiles = c(0.25, 0.5, 0.75)) + xlab("Форма") + ylab("Год написания текста") + ggtitle("Временная тендеция выбора падежной формы")
График показывает, что “неодушевленные” формы употребляются на всем временном промежутке. “Одушевленные” формы начинают употребляться значительно позже.
Рассмотрим также зависимость от времени для различных числительных.
ggplot(nk, aes(form, year)) + geom_violin(scale = "count") + xlab("Форма") + ylab("Год написания текста") + ggtitle("Временная тендеция для различных числительных") + facet_wrap(~numeral)
Для числительного оба в НКРЯ вообще не нашлось неодушевленных форм. Для всех остальных числительных видна четкая временная тенденция - чаще начинают употребляться одушевленные формы.
Удалось выяснить, что: