Корпус – это массив текстов, в котором можно искать примеры языковых явлений.
Конечно, совокупность текстов интернета или любая их часть тоже является корпусом. Таким образом, исследование
языка через поиск слова, словосочетания или предложения с помощью поисковой системы, например, через Яндекс, также является корпусным исследованием. Но корпусы, созданные лингвистами, отличаются от естественных наличием следующих свойств (всех или некоторых):
- специализированным поиском с очень широкими возможностями (см. Раздел 4. Создание запроса), опирающимися на специально созданную разметку каждой словоформы и недоступными в естественных корпусах;
- удобным оформлением информации об источнике для каждого найденного примера, которую можно сразу же скопировать в статью (см. 2.9. Правила цитирования примеров из Национального корпуса);
- удобным оформлением информации об объеме текстов, по которым велся поиск, что позволяет получать статистические данные (см. 2.7. Объем корпуса и подкорпуса);
- сбалансированностью, то есть научно обоснованным соотношением между текстами разных типов, что также
увеличивает достоверность статистических данных (см. 2.8. Сбалансированность корпуса); - возможностью вести поиск в массиве текстов, сформированных пользователем лично для себя в соответствии с интересующими его периодами, жанрами, темами и др. (см. Раздел 3. Выбор корпуса и Раздел 5. Создание пользовательского подкорпуса).
Национальный корпус русского языка, в отличие от многих других специализированных корпусов, объединяет все перечисленные возможности и по праву считается одним из лучших.
Ссылки на другие специальные корпусы (как для русского, так и для иностранных языков) можно найти на странице Другие корпуса (http://ruscorpora.ru/corpora-other.html) Национального корпуса.
Национальный корпус представляет собой объединение Основного корпуса и специализированных корпусов, тексты которых не пересекаются друг с другом. Например, все поэтические тексты содержатся исключительно в Поэтическом корпусе, а в Основном корпусе стихотворений нет (если они не процитированы в каком-то прозаическом тексте). Количество специализированных корпусов пополняется из года в год; в 2011 году их было десять, включая Основной, в мае 2012 открылся одиннадцатый – церковнославянский (в разделе «исторические»), в 2013 планируется открыть новые корпусы в разделе «исторические».
Чтобы правильно принять решение о том, в каком корпусе следует искать материал для выполнения конкретной задачи, надо представлять себе содержание каждого из них. См. список и характеристики в разделе 3.1. Состав специализированных корпусов.
О том, как войти в выбранный корпус или как поменять корпус, см. раздел 3.2. Вход в корпусы и смена корпуса.
Пользовательский подкорпус – это набор текстов для поиска, приспособленный под нужды конкретного пользователя. Создать для себя такой подкорпус несложно. Это необходимо сделать, если есть потребность:
- осуществлять поиск в текстах за определенный временной период;
- осуществлять поиск в текстах конкретного автора или в конкретном тексте;
- осуществлять поиск в текстах определенных жанров или тематики;
- осуществлять поиск в текстах, появившихся в Корпусе недавно (или, наоборот, давно) (введено в 2012 году, кнопка «Версии», см. 2.7).
Существуют и более экзотические возможности: например, можно искать в текстах, автор которых именно женщина, а не мужчина (и наоборот); или можно искать в текстах, отобранных по месту и времени описываемых событий (например, три произведения будут отобраны по параметру «тема: доисторический период»). Чтобы получить информацию обо всех подобных возможностях Корпуса, надо детально изучить страницу установления подкорпуса (Рис. 1).
Создание пользовательского подкорпуса начинается с нажатия кнопки «задать подкорпус» в правом верхнем углу страницы «Поиск в корпусе» (см. Рис. 2.2).
Есть возможность перейти к созданию подкорпуса и со страницы с уже выданными результатами поиска (в верхнем меню страницы «Результаты поиска», Рис. 3), но тогда запрос придется создавать заново.
Более подробно о создании подкорпуса см. 3.3.
Когда примеры уже получены, Корпус предоставляет возможность «сбросить подкорпус», то есть нажатием одной клавиши (в верхнем меню страницы «Результаты поиска», Рис. 3.) отказаться от ограничения в наборе текстов для поиска и увидеть примеры, извлеченные сразу из всех текстов данного корпуса. Сброс подкорпуса происходит без потери запроса, то есть без необходимости вновь создавать запрос, при этом при возвращении на поисковую страницу сохраняются параметры пользовательского подкорпуса.
Сбросить подкорпус, если он уже не нужен, можно и со страницы поиска (правая сторона верхнего меню).
В русском языке многие словоформы являются грамматическими омонимами. Например, форма печь – это одновременно и глагол в инфинитиве (печь пироги), и существительное в именительном падеже (русская печь). Чтобы определить, какой из омонимов представлен в конкретном примере, нужен анализ контекста. Грамматическая разметка словоформ Корпуса производится автоматически, с помощью программы, которая не может различать грамматическую омонимию. Формы типа печь характеризуются программой как омонимичные, то есть им присваивается сразу несколько грамматических характеристик. Любое употребление формы печь будет рассмотрено в таком корпусе и как глагол, и как существительное и окажется помещено в выдачу и при том запросе, и при другом. Таким образом, при работе в корпусе, размеченном автоматически, нет возможности получить список примеров со словом печь, содержащий только инфинитивы, даже если задать грамматическую характеристику «глагол». Пользователю придется вручную отбирать из массива примеров нужные ему контексты с инфинитивом.
Кроме того, в корпусе с неснятой омонимией грамматические гипотезы для слов, отсутствующих в словаре, порождены автоматически. Например, форма колбасили, три раза встречающаяся в Корпусе, расценена им как омоним – то ли форма прошедшего времени от глагола колбасить, то ли форма множественного числа от существительного колбасиль.
Поэтому в НКРЯ предусмотрена возможность искать примеры в текстах со снятой омонимией. В этой части основного корпуса для каждой омонимичной формы лингвистом вручную была выбрана лишь одна из набора характеристик, приписанных при программном анализе, – правильная для данного контекста. Конечно, эта часть корпуса по объему сильно уступает части основного корпуса, не обработанной вручную. Так, в 2011 году объем текстов со снятой омонимией – 5 944 190 слов, тогда как с неснятой – 186 896 714 слов. Но и такого объема «снятника» (примерно в 5 раз большего, чем объем романа «Мастер и Маргарита», см. 2.7. Объем Корпуса и подкорпусов) вполне хватает для решения определенных задач. В 2013–2014 годах предполагается увеличить объем текстов со снятой омонимией.
Отметим, что понятие «снятая омонимия» в Корпусе подразумевает только грамматическую омонимию. Лексическая (семантическая) омонимия в Корпусе на данном этапе нигде не различается (см. о семантических возможностях Корпуса 4.9.).
Основной корпус объединяет тексты со снятой и неснятой омонимией; Обучающий корпус включает тексты исключительно со снятой омонимией; в остальных корпусах омонимия не снята. На странице выдачи рядом с названием текста, а также рядом с разметкой примера всегда указывается, снята в данном тексте омонимия или нет. «По умолчанию», то есть без изменения настроек (см. 5.4), выданные примеры упорядочиваются так: список начинается с тех, которые извлечены из текстов со снятой омонимией. Так, для слова печь сначала будут выданы примеры из 63 текстов со снятой омонимией, а потом из 1 388 с неснятой.
Можно создать пользовательский подкорпус, состоящий из текстов только со снятой омонимией (или только с
неснятой). Для этого надо «поставить галочку» в верхней части страницы создания пользовательского подкорпуса. Более подробно о пользовательских подкорпусах см. 2.3, 3.3. и также Рис. 1.1.
Самый простой вид поиска – это поиск конкретной формы или конкретного сочетания форм. Если искать точную форму слова сон, то будут выдаваться только формы им. и вин. п. ед.ч. Если искать точную форму словосочетания попить чаю, то будут найдены 44 примера ровно с этим сочетанием.
Для поиска точной формы надо использовать верхнюю строку на странице «Поиск в корпусе» (см. Рис. 2.5).
Можно запросить точную форму и в основном «лексико-грамматическом» запросе, но для этого нужно использовать оператор «кавычки» (см. 4.6. Фиксация формы: оператор «кавычки» (» «)).
Если же нужно найти слово не в фиксированной форме, а в разных, например, нужны все варианты словосочетания попить чаю (такие, как попей чаю или попил чай и др.), то нужно воспользоваться лексико-грамматическим поиском, при помощи которого будет найдено 216 примеров в разных формах — см. 2.6. Лексико-грамматический поиск.
Лексико-грамматический поиск – это поиск с учетом грамматической или семантической характеристики слова. Национальный корпус предоставляет множество возможностей специализированного поиска. Эти возможности и способы составления сложных запросов описаны в Разделе 4. Создание запроса. Здесь же приведем несколько примеров сложных запросов, чтобы дать представление о том, что можно искать при помощи Корпуса.
Пример 1. Поиск словосочетания заданной конструкции. Допустим, исследователя интересуют описания формы предмета через сравнение. Тогда можно использовать, например, такой запрос: «прилагательное в любой грамматической форме, обозначающее форму» + «как» + «существительное в именительном падеже на расстоянии от 1 до 3 от слова “как”». Формальный вид запроса: «A t:physq:form; на расстоянии 1 от как; на расстоянии от 1 до 3 от S,nom», см. Рис. 2.11.
Такой запрос позволит найти в Основном корпусе 2 843 примера описания формы через сравнение, см. Рис 3. В том числе такие примеры: «круглому, как бутылочное горло», «прямоугольный, как пенал», «прямая, как струна», «угловат, как внезапно вымахавший ребёнок».
Пример 2. Поиск с исключением ненужного элемента. Допустим, исследователя интересует, какие в языке используются наречия и деепричастия с суффиксом –учи. Чтобы найти их в текстах с неснятой омонимией (см. 2.4. Снятая омонимия), приходится составлять запрос, в котором избавляешься от «шума» — существительных и глаголов, оканчивающихся на тот же сегмент. Запрос получается такой: «формы, кончающиеся на сегмент –учи, но не форма «поручи»; не форма, заканчивающаяся на «обручи», не форма, заканчивающаяся на «лучи», не форма «наручи»». При этом просто отклонить «обручи» или «лучи» недостаточно, так как в Корпусе есть слово «полуобручи» и «космолучи» и т.п. (об отклонении ненужного см. 4.7). Сегмент «*учи» надо запрашивать с использованием кавычек, иначе будут искаться только такие формы, которые оканчиваются на –учи в начальной форме и деепричастия типа будучи (начальная форма быть) найдены не будут (об операторе «кавычки» см. 4.6.). Формальный вид запроса: ««*учи» —поручи -*обручи -*лучи –наручи». После такого запроса оказываются найдены примеры с ищучи, пляшучи, движучи и др.
При поиске слов на сегмент –ючи очень частотные наречия играючи и припеваючи, а также умеючи и неумеючи затрудняют поиск других подобных слов. Если их исключить, удается быстро найти пытаючи, таскаючи, зеваючи, презираючи, шагаючи и др. Формальный вид запроса: «*ючи -играючи -припеваючи -*умеючи».
Объем корпуса имеет три характеристики:
- количество включенных в него документов;
- количество входящих в него предложений;
- количество входящих в него словоупотреблений.
«Документом» называется сегмент текста, выбранный в качестве технической формы хранения данного произведения. Для не очень больших по объему произведений (статей, рассказов, повестей, необъемных романов) «документ» включает один текст целиком. Но большие тексты разбиты на несколько документов, например, роман «Война и мир» представлен в Корпусе как четыре документа – по томам, «Мастер и Маргарита» – как два, по частям. Более мелкими оказываются документы в Поэтическом корпусе, так как в нем документ доступен пользователю со страницы результатов целиком (см. о длине выданного текста 5.2), поэтому «Евгений Онегин» разбит на 13 документов (например, первая глава представлена как целый документ, а третья разбита на три документа).
Осенью 2012 года объем Основного корпуса составляет 76 881 документов, 17 574 647 предложений, 209 203; 107; слов.
Наиболее удобный из показателей объема – последний: слова. Для того чтобы наглядно представить, каков объем Основного корпуса, сравним его с объемом, например, романа М.А. Булгакова «Мастер и Маргарита», который составляет примерно 113 000 слов: получается, что в 2012 году объем Основного корпуса приблизительно аналогичен 1850-ти подобным томам.
При желании точно оценить количество слов в Корпусе или подкорпусе, сформированном для определенного временного периода, следует учитывать наличие текстов с размытой датой, см. 2.9 и 5.9.3.
Самый большой из остальных корпусов, составляющих Национальный корпус, это Газетный: 173 521 766 слов. Приведем еще несколько чисел на 2012 год: объем Акцентологического корпуса – 11 133 142 слова, Устного – 10 153 287 слов, Поэтического – 6 738 517, Обучающего – 664 751 слов, Мультимедийного – 2 728 767.
Объем Национального корпуса и входящих в него корпусов постоянно увеличивается, также постоянно улучшается сервис. Изменения в Корпусе происходят каждый год. Так, в 2011 году все вышеперечисленные корпусы, кроме Обучающего, выросли в объеме (Основной примерно на 17 миллионов слов, Газетный на 60 миллионов, Акцентологический на 1 миллион). Особенно активно в ближайшие годы будут расти Поэтический и Мультимедийный корпусы.
Описывая какие-либо подсчеты в научных исследованиях, следует указывать, из корпуса или подкорпуса какого объема они извлечены. Объем и название исследуемого корпуса, а также объем пользовательского подкорпуса, обозначены в верхней строке страницы с выданными примерами (см. Рис. 3.4).
Исследователь, проанализировавший какое-либо языковое явление, например, в 2010 году, может, вернувшись к изучению этого явления в 2012 году, нуждаться в том, чтобы повторить свой запрос на базе только новых, добавленных за два года текстов или, напротив, только тех текстов, которые уже существовали в Корпусе 2 года назад. Поэтому с 2012 года предусмотрена возможность задавать пользовательский подкорпус (см. 2.3. и 3.3) лишь по добавленным текстам или по более ранним, чем актуальная, версиям Корпуса. Для этого надо использовать кнопку «Версия» на странице создания подкорпуса (Рис. 1.3).
Отработка новых возможностей производится на закрытом для широкого пользователя варианте Корпуса, который называется «Бета-версия». Иногда из основной версии Корпуса появляется доступ к экспериментальному сервису, к пилотному варианту какой-либо части корпуса, тогда это помечается знаком (β). Так, новый сервис «графики» (5.9) в 2012 году только отлаживается и поэтому работает с Беты.
Национальный корпус характеризуется представительностью, или сбалансированным составом текстов. Это означает, что создатели стремятся включить в Корпус все типы письменных текстов, представленные в русском языке (художественные разных жанров, публицистические, учебные, научные, деловые, эпистолярные и т.п.), и что все эти тексты входят в корпус пропорционально их доле в языке соответствующего периода. Так, среди текстов XIX века преобладают художественные, а среди современных – публицистические и, во вторую очередь, научные, при этом в Основной корпус включены и эпистолярные тексты, и тексты, представляющие различные жанры современного интернет-общения. Конечно, идеальное подобие реальному языку создать невозможно, но все же при принятии решений о количественном соотношении жанров в Корпусе для каждого временного периода решающим фактором становится стремление максимально приблизиться к естественному существованию языка. Соотношение разнотипных текстов, входящих в Основной корпус, описано на странице «статистика» (http://www.ruscorpora.ru/corpora-stat.html).
Метаразметка текстов – это та информация, которая приписана в Корпусе каждому включенному в нее тексту, точнее, «документу» (о понятии «документ» см. 2.7). Для разных корпусов метаразметка несколько различается. Она содержит информацию об авторе текста, названии текста, датах создания. В некоторых корпусах она более подробна, в синтаксическом, напротив, иногда менее подробна.
Метаразметкой определяется библиографическая информация, помещенная в конце каждого выданного примера, например: [Рецепты национальных кухонь: Скандинавская кухня (2000-2005)] или [В. Г. Белинский. Общая риторика Н.Ф.Кошанского (1844)]. Но подобная информация, как правило, менее содержательна, чем полная метаразметка. Увидеть полную метаразметку можно просто нажав на название текста на странице «Результаты поиска» (Рис 3.8) или на странице списка выбранных текстов при создании пользовательского подкорпуса.
Таким образом можно, например, узнать выходные данные текста (правда, без номеров томов и страниц), такие как «В.Г.Белинский. Полное собрание сочинений в 13 т. М.: Изд-во Акад. наук СССР, 1953».
Метаразметка в конце каждого примера содержит дату создания, но иногда эта дата размыта или из-за того, что произведение создавалось в течение нескольких, изредка даже многих лет (например, [Ю. К. Олеша. Книга прощания (1930-1959)]), или из-за того, что дата не известна, а известен лишь период (например, [Коллекция анекдотов: Хрущёв (1956-1970)]). Разумеется, для неавторских произведений даты достаточно условны (например, Коллекция анекдотов: тёща (1970-2000)), но все же разработчики убеждены, что удобнее, когда есть примерная дата, чем когда нет никакой. При создании пользовательского подкорпуса предусмотрена возможность исключить те тексты с размытой датой, которые не входят в заданный пользователем временной интервал, см. 3.3.
См. о метаразметке страницу «параметры текстов» (http://www.ruscorpora.ru/corpora-parameter.html).
Копируя пример для публикации, можно регулировать наличие / отсутствие знаков ударения, нажав в верхней панели страницы «Результаты поиска» кнопку «версия с ударениями / без ударений» (Рис.3.1). Не рекомендуется оставлять знаки ударения в случаях, когда они не нужны, так как они заметно затрудняют восприятие примера.
При цитировании примеров, полученных с помощью данного Корпуса, в тех или иных публикациях, не сложно соблюсти авторские права и по отношению к Корпусу, и по отношению к авторам выбранных текстов. Для этого создатели корпуса просят пользователей соблюдать следующие два требования (см. страницу Корпуса «Использование корпуса» (http://ruscorpora.ru/corpora-usage.html)):
- ссылаться на Национальный корпус русского языка как источник примеров;
- указывать имя автора и название произведения, из которого заимствован пример.
Так, оформляя научную статью, можно в ссылке при первом же примере написать: «Многие использованные здесь примеры найдены с помощью Национального корпуса русского языка и отмечены аббревиатурой НКРЯ», – и далее вставлять эту аббревиатуру в конец ссылки каждого найденного через Корпус примера. Сами примеры можно оставлять ровно с той ссылкой, которой они снабжены в Корпусе (Рис.3.10), добавив в нее аббревиатуру НКРЯ.
Можно же сократить эту ссылку, сохранив лишь часть информации, но обязательно каким-то образом указав на НКРЯ как на средство поиска и обязательно сохранив имя автора и название произведения. Указание страницы для примеров, найденных через НКРЯ, не требуется. Сокращать найденный в НКРЯ пример можно до любого нужного пользователю объема, заменяя опущенные части многоточием. Ключевые части примера можно выделять шрифтом. Пример оформления с полным сохранением разметки НКРЯ:
(3) …Панова решила сама сделать пьесу и не дала согласие на мою инсценировку (не читав ее). [Катанян Василий. Прикосновение к идолам (1998), НКРЯ]
Пример оформления с частичным сохранением разметки НКРЯ:
(3) …Панова решила сама сделать пьесу и не дала согласие на мою инсценировку (не читав ее). (Катанян В. Прикосновение к идолам. НКРЯ)
При наличии у издательства подобного требования, можно переносить ссылку из основного текста в подстраничную или концевую сноску.
Для очень многих текстов можно выяснить подробности, касающиеся источника, вплоть до полной библиографической ссылки (кроме номера страницы), если посмотреть метаразметку, нажав на название произведения на странице «Результаты поиска». Более подробно о метаразметке см. раздел 2.9.
При перечислении найденных в НКРЯ лексем или словосочетаний ссылку на текст можно не давать, ср. вариант описания результатов корпусного поиска в научной статье: «Удивительно, но в 583 современных текстах, включающих положив, нет ни одного, в котором эта форма входит во фразеологизм, аналогичный положа руку на сердце. Примеров с положив руку на сердце в Корпусе всего семь: из Шолохова (1928-1940), Аверченко (1921) и Арцыбашева (1912) и из Григоровича (1889), Лескова (1864), Булгарина (1846), Карамзина (1823)».
Еще одна удобная часть Национального корпуса – это ресурс «Корпусной словарь неоднословных лексических единиц (оборотов)». Вход в него через кнопку «обороты» (http://www.ruscorpora.ru/obgrams.html) (Рис.2.15).
В словаре перечислены устойчивые обороты, выполняющие функции предлогов (например, в качестве, по мере, через посредство), наречных и предикативных сочетаний (например, без утайки, безо всяких, битый час, бог весть где, чин по чину), союзов и союзных слов (например, добро б еще, как ни, ну а, чем-чем а), частиц (например, вряд ли, никак нет, поди ж ты), а также вводных оборотов (например, а то нет, паче чаяния, стало быть, шутка ли).
Если нужно найти слова или словосочетания с расставленным ударением, то следует пользоваться теми частями Корпуса, в которых это сделано. А именно:
- Тексты со снятой омонимией из Основного корпуса (см. 2.4. Снятая омонимия). Здесь ударение расставлено «искусственно», то есть автоматически в соответствии с нормами, отраженными в справочниках.
- Обучающий корпус (см. о нем 3.1.5 и на странице Корпуса «состав и структура» (http://www.ruscorpora.ru/corpora-structure.html)). Здесь ударение также расставлено «искусственно».
- Поэтический корпус (см. о нем 3.1.7 и на странице Корпуса «состав и структура» (http://www.ruscorpora.ru/corpora-structure.html)); здесь ударение расставлено в соответствии с ритмикой стиха.
- Акцентологический корпус (см. о нем 3.1.9 и на странице Корпуса «состав и структура» (http://www.ruscorpora.ru/corpora-structure.html)). Здесь ударение расставлено либо в стихотворных текстах — в соответствии с ритмикой стиха, либо в текстах, представляющих собой письменную запись устной речи — в соответствии с реальным произношением говорящих. Но следует учитывать, что записи устных текстов взяты из разнородных источников и фиксация произносительных особенностей в разных текста в разной степени адекватна. В этом корпусе при точном поиске необходимо указывать ударение.
- Устный корпус (см. о нем 3.1.8 и на странице Корпуса «состав и структура» (http://www.ruscorpora.ru/corpora-structure.html)). Здесь ударение дано в соответствии с произношением информантов.
- Мультимедийный корпус. Ударение также соответствует произношению информантов. Возможен поиск по «вокалической структуре» – то есть с учетом места ударения в слове и ударного, предударного и заударного гласного. «Поиск точных форм» (см. 2.5) в этом корпусе также работает, только если указано ударение.
Разметка ударений в тексте на странице «Результаты поиска» может быть включена или выключена. Для этого надо нажать клавишу «версия с ударениями» и «версия без ударений» наверху страницы (см. Рис. 3.1).
Что касается буквы «ё», то ее отличие от «е» в Корпусе не учитывается. То есть запрос можно задавать и через «ё» и через «е», результат будет одинаковый, так, и при поиске слова ёжик и при поиске слова ежик будут найдены одни и те же 1413 вхождений. При поиске точной формы лён будет найдены и примеры с лён, то есть им.-вин. от лён, и примеры с Лен, то есть мн.род. и звательная форма от Лена. В выдаче результатов в некоторых текстах буква «ё» есть, в некоторых она заменена на «е» — это зависит от того, в какой форме был опубликован данный текст.
Если возникают какое-то проблемы или потребность задать вопрос разработчикам Корпуса, то надо пользоваться форумом Студиорума (образовательный портал при Корпусе). На этот же форум есть вход с боковой панели главной страницы Корпуса. При вопросах о сложных моментах лучше сразу сообщать html-адрес проблемной страницы выдачи или непонятного графика. Не стесняйтесь задавать вопросы, разработчики рады сотрудничеству с пользователями.
Изредка бывает, что Корпус или его части не работают. Обычно это происходит из-за того, что в этот момент ведутся технические работы с Корпусом, и все восстанавливается в течение нескольких часов. Сообщать о срочных проблемах надо по адресу info@ruscorpora.ru.
Иногда у начинающих пользователей создается ложное впечатление о «зависании» Корпуса. Дело в том, что если при работе с Корпусом открыть какое-либо меню (например, «Жанр текста» при установке пользовательского подкорпуса), а потом щелкнуть мышкой вне этого меню, то меню исчезает с экрана, но на самом деле не закрывается, а сохраняется свернутым или закрытым другим окном. При наличии на экране такого незакрытого меню невозможно открыть его повторно со страницы Корпуса. Поэтому при возникновении проблем с работой в Корпусе следует проверить, нет ли внизу страницы свернутого окна с названием типа «Параметры текста».
К сожалению, система зависает, если попросить выдать на одной странице очень большое количество примеров, см. 5.4.3.
Ошибки в Корпусе, безусловно, есть, и в текстах (связанные с проблемами сканирования), и в пометах (связанные с автоматической разметкой), но их немного и с каждым годом становится все меньше. Например, в феврале 2012 года корпус считал, что слова ванна и колонна – это краткие прилагательные от ванный и колонный. Не правда ли, это вполне разумная гипотеза? К августу 2012, благодаря пользователю, сообщившему об ошибке, Корпус разобрался в том, что это исключительно существительные. Поэтому о замеченных в Корпусе ошибках любого типа составители просят сообщать – или по адресу info@ruscorpora.ru, или на форум, или через предусмотренную (в табличке информации о слове найденного примера, см. 5.3) автоматическую опцию «Сообщить об ошибке». См. раздел «ошибки»: http://www.ruscorpora.ru/corpora-errors.html.
Замеченные ошибки устраняются не моментально, а при перевывеске Корпуса, которая, как правило, происходит один-два раза в год (обычно в мае и декабре).
Из соображений авторского права Корпус не предоставляет пользователям оффлайновых версий текстов ни в текстовом (о размере найденного примера см. 5.2), ни в размеченном грамматическими пометами вариантах. На этой странице изложение условия использования Корпуса. На странице «Скачиваемые корпуса» перечислены предоставляемые Корпусом офлайновые версии подкорпусов.
2.15. Корпусная статистика
При статистических подсчетах, производимых пользователем на основе материалов Корпуса, в первую очередь следует обращать внимание на объем Корпуса или Подкорпуса, в котором делался запрос. Об объеме см. 2.7. Поэтому при подсчетах, сделанных в разные моменты времени, важно проследить, не была ли сменена версия Корпуса (см. 2.7).
Для Основного корпуса действует сервис по подсчету некоторых статистических данных для отобранных по запросу пользователя примеров. Вход в него по кнопке «Статистика», расположенной вверху страницы выдачи результатов. Для всех примеров выдачи приводятся статистические таблицы по следующим метаатрибутам:
- Автор
- Пол автора
- Сфера функционирования
- Тип текста
- Тематика текста
- Жанр
Также можно автоматически построить графики распределения употреблений языковой единицы по годам (см. 5.9).
На сайте ИРЯ РАН им. Виноградова помещен частотный словарь, созданный О.Н. Ляшевской и С.А. Шаровым на основе материалов Корпуса: http://dict.ruslang.ru/
Статистические параметры Корпуса описаны на странице «статистика» (http://www.ruscorpora.ru/corpora-stat.html).
На сайте Студиорум размещены обучающие видеоролики по проблемам подсчета статистики в Корпусе.
- Созданные разработчиками корпуса словари (http://dict.ruslang.ru/):
- Е.А. Гришина, О.Н. Ляшевская. Грамматический словарь новых слов русского языка.
- О.Н. Ляшевская, С. А. Шаров. Новый частотный словарь русской лексики.
- Г.И. Кустова. Словарь русской идиоматики. Сочетания слов со значением высокой степени.
- О. Л. Бирюк, В. Ю. Гусев, Е. Ю. Калинина. Словарь глагольной сочетаемости непредметных имен русского языка.
- Созданный разработчиками Корпуса портал по проблемам корпусой лингвистики – Студиорум (/).
- Создаваемое группой лингвистов корпусное описание русской грамматики – Русграм (http://rusgram.ru).
Как следует произносить формы множественного числа слова корпус – с окончанием -ы или -а в им. падеже (корпусы или корпуса) и с ударением на основе или на окончании в других формах мн. числа (корпусов или корпусов). Вопрос этот весьма часто возникает у пользователей, далеких от проблем формообразования.
А.А. Зализняк (см., например, А.А. Зализняк. От праславянской акцентуации к русской. М. 1985, стр. 22-24, 376) описал устойчивую акцентную тенденцию современного русского языка, зародившуюся, возможно, еще в XVII веке: на основе «прагматического фактора» неосвоенные слова обнаруживают тенденцию к тривиальному ударению (для существительных – на основе), а освоенные – к нетривиальному.
Подчиняясь этой тенденции вкупе с тенденцией акцентного противопоставления субпарадигм единственного и множественного чисел, некоторые существительные мужского рода ведут себя в современном русском языке следующим образом. В литературной нейтральной речи в основных значениях они имеют безударное окончание -ы в им.п. мн.ч. и ударение на основе во всех формах (бухгалтеры, корпусы, серверы), что описывается как правильное формообразование в словарях, фиксирующих литературную норму. Между тем в разговорной речи тех, для кого обозначенное словом понятие относится к сфере профессиональной или иной специализированной компетенции, они начинают произноситься с ударным окончанием -а во мн.ч. им.п. и с ударением на окончаниях в формах мн. числа (бухгалтера, корпуса, сервера) (см. об этом, например, Князев С.В., Пожарицкая С.К. Современный русский литературный язык. Фонетика. Графика. Орфография. Орфоэпия. М., 2005, стр. 245-247). Так, литературное векторы, векторов многие математики произносят вектора, векторов; административный работник высшего учебного заведения скажет ректора вместо нейтрального ректоры, а бухгалтер – табеля вместо табели; профессиональный музыкант с большой вероятностью произнесет тенора вместо теноры, а церковные работники способны использовать форму дьякона, которую невозможно вообразить в секулярной речи.
Таким образом, форма корпуса, регулярно используемая на сайте Национального корпуса, является допустимым профессионализмом; так, в словарях считается нормативным (см., например, Орфоэпический словарь под редакцией Р.И. Аванесова) подобное формообразование слова корпус в профессиональном военном значении. Тем не менее, некоторая (меньшая) часть создателей корпуса придерживается литературной нейтральной непрофессиональной формы корпусы. Примерно так же обстоит дело с вариативностью форм прилагательного корпусный (нейтральная форма) и корпусной (профессиональный вариант).