Выбор корпуса

Национальный корпус состоит из набора отдельных корпусов, каждый из которых имеет свое назначение. См. об этом Раздел 2.2. Специализированные корпусы в составе Национального корпуса

Краткое описание всех корпусов см. на странице «состав и структура» (http://www.ruscorpora.ru/corpora-structure.html).

Соотношение объемов корпусов описано на странице «статистика» (http://www.ruscorpora.ru/corpora-stat.html).

В настоящее время в состав Национального Корпуса входят следующие Корпусы (объемы указаны на осень 2012 года):

Объем 209 203 107 слов. Состоит из текстов самых разных жанров (художественные, научные, эпистолярные, рекламные, из спонтанной интернет-переписки и др.), но исключительно прозаических. Включает тексты XVIII века и один еще более ранний (И. А. Желябужский. Дневные записки (1682-1709)), которые, возможно, будут исключены из него в момент открытия соответствующих Исторических корпусов (см. ниже). Этот корпус постоянно пополняется.

Этот корпус, иначе называемый «Глубоко аннотированный корпус», является весьма специализированной частью Национального корпуса. Он содержит тексты объемом 757 794 слова, снабженные морфо-синтаксической разметкой, выверенной лингвистами вручную: для каждого предложения задана его синтаксическая структура. Эта структура представляет собой дерево зависимостей, в узлах которого стоят слова, входящие в предложение, а ветви помечены именами синтаксических отношений. Такое представление о синтаксической структуре предложения восходит к лингвистической модели «Смысл ↔ Текст» И.А. Мельчука и А.К. Жолковского. Синтаксический корпус был разработан в Лаборатории компьютерной лингвистики ИППИ РАН. Подробнее см. Апресян Ю. Д., Богуславский И. М., Иомдин Б. Л. и др. Синтаксически и семантически аннотированный корпус русского языка: современное состояние и перспективы // Национальный корпус русского языка: 2003—2005. М.:Индрик, 2005, 193-214. http://ruscorpora.ru/sbornik2005/12apresyan.pdf

Объем 173 521 766 слов. Это корпус материалов СМИ 2000-х годов. Он велик по объему и тем самым очень удобен для статистических наблюдений над языком XXI века, но не может быть присоединен к Основному корпусу без нарушения сбалансированности (2.8). Представлены следующие издания: Известия, Комсомольская правда, Новый регион 2, РБК Daily, РИА Новости, Советский спорт, Труд-7. Составителями выбраны именно эти издания, так как они довольно достоверно отражают разнообразие основных газетных жанров. Также в целях сбалансированности (см. 2.8) тексты равномерно распределены в периоде с 2000 по 2010 годы.

Объем 24 022 437 слов. Параллельный корпус – это корпус, содержащий русские тексты, сопоставленные с их переводами на другие языки. В результате запроса о какой-либо единице в русско-английском варианте Параллельного корпуса будут получены не только контексты с этой единицей на русском языке, но их переводы на английский язык. На данный момент имеются следующие языки:

  • английский,
  • немецкий,
  • украинский,
  • белорусский.

Выбирать язык оригинала и язык (языки) перевода следует через создание подкорпуса (см. 3.3). Так, для запроса «авось» при языке оригинала русском, а языке перевода любом будет получен 31 пример, из них 6 русско-украинских, а остальные русско-английские. Например:

А с двадцатью рублями мы сейчас же сможем сесть на пароход,―как раз» Карл Либкнехт «сверху пришел,―спокойно ехать в Сталинград и ждать там приезда театра. Авось там удастся вскрыть стулья. Тогда мы―богачи, и все принадлежит нам. [И. А. Ильф, Е. П. Петров. Двенадцать стульев (1927)]

With twenty roubles we can now buy tickets for the ship-the Karl Liebknecht has just come in-travel quietly to Stalingrad and wait for the theatre to arrive. We can probably open the chairs there. Then we’ll be rich and the world will belong to us.» [Ilya Ilf, Evgeny Petrov. The Twelve Chairs]

А з двадцятьма карбованцями ми зараз же зможемо сісти на пароплав,―якраз «Карл Лібкнехт» згори прийшов,―спокійно їхати до Сталінграда і дожидати там приїзду театру. Може, там пощастить розшити стільці. Тоді ми―багатії, і все належить нам. [Ілля Ільф, Євген Петров. Дванадцять стільців]

Помимо перечисленных языков действует мультиязычный поиск. В нем много языков, но пока всего лишь семь произведений («Код Да Винчи» Д. Брауна, «Алиса в Стране чудес» и «Алиса в Зазеркалье» Л. Кэрролла, «Алхимик» П. Коэльо, «Пиноккио» К. Коллоди, «Собака Баскервиллей» А. Конан Дойла, «Вини Пух» А. Милна, «Маленький принц» А. Сент-Экзюпери и «Мастер и Маргарита» М. А. Булгакова). Вот один пример, найденный по слову зверь (для английского языка включены два разных перевода):

· Кот оказался не только платежеспособным, но и дисциплинированным зверем. [Михаил Булгаков. Мастер и Маргарита]
Uk · Кіт виявився не лише платоспроможною, але й дисциплінованою твариною.
Be · Кот аказаўся не толькі здольны аплаціць, але і дысцыплінаваны.
Pl · Kot okazał się zwierzakiem nie tylko wypłacalnym, ale także zdyscyplinowanym..
Cs · Kocour se projevil nejen jako zvíře placení schopné, ale i disciplinované.
Sk · Ukázalo sa, že kocúr je nielen zver platbyschopný, ale aj disciplinovaný.
Sl · Izkazalo se je, da je maček ne samo plačila zmožna, temveč tudi disciplinirana žival.
Hr · Mačak se pokazao ne samo kao platežno sposobna nego i kao disciplinirana životinja.
Sr · Мачак не само што је био платежно способан, већ је, исто тако, био и дисциплинована животиња.
Mk · Мачорот се покажа не само како способен да си купи билет, туку и како многу дисциплинирано животно.
Bg · Котаракът се оказа не само платежоспособно, но и дисциплинирано животно.
En · The cat proved to be not only a fare-paying but a law-abiding animal.
en_2 · The cat turned out to be not only a solvent but also a disciplined animal.
Nl · De kater bleek niet alleen een kredietwaardig, maar ook gedisciplineerd beest.
Fr · Et non seulement le chat se montra capable de payer, mais encore il agit en bête disciplinée.
It · Il gatto si dimostrò animale non soltanto solvibile, ma anche disciplinato.

Параллельный корпус в ближайшие годы должен заметно пополниться и языками, и текстами.

Объем 664 751 слово. Обучающий корпус специально ориентирован на преподавание словесности в средней школе как по отбору текстов, так и по морфологической разметке. Это корпус со снятой омонимией (см. 2.4), грамматическая информация в котором соответствует современной школьной программе. Помимо стандартной для Национального корпуса грамматической разметки, Обучающий корпус предоставляет возможность поиска по следующим параметрам:

  • склонение существительных;
  • спряжение глаголов;
  • разряды существительных;
  • разряды прилагательных;
  • разряды местоимений;
  • разряды наречий.

Чтобы задать поиск по «обучающим» параметрам, нужно войти в «грамматические признаки» (см. 4.8) и выбрать «Признаки 2». «Признаки 1» содержат стандартную для всего Корпуса разметку. Задать поиск по параметрам из окошек «Признаки 1» и «Признаки 2» одновременно невозможно.

В основном корпусе разряды местоимений, прилагательных и существительных включены в семантический поиск.

Объем 194 283 слова. Включает записи диалектной речи (не в транскрипции, но в орфографии, приближенной к стандартной) из различных регионов России. Полностью сохранена морфологическая, синтаксическая и лексическая специфика текстов. В дальнейшем предполагается расширить как объем корпуса, так и возможности поиска, в частности, ввести поиск по особенностям диалектной грамматики. Но на данном этапе (осень 2012 года) эта опция не работает, несмотря на то, что в таблице «Грамматические признаки» есть соответствующие пункты. Зато работает интересная опция поиска лексики, отличной от литературной, также задаваемая через меню «Грамматические признаки».

Объем 6 738 517 слов. Помимо семантической и морфологической разметки, корпус содержит специальную стиховедческую разметку. Так, возможен поиск текстов, написанных амфибрахием, тоническими размерами, пятистишиями, вольной рифмовкой, твёрдыми формами и т. п. Корпус делает возможным следующие виды стиховедческого поиска:

  • отбор текстов по жанру;
  • отбор текстов по метру;
  • отбор текстов по стопности;
  • отбор текстов по клаузуле (т.е. по количеству слогов после последнего ударного слога в строке);
  • отбор текстов по типу строфы;
  • отбор текстов по типу рифмы.

Все перечисленные виды поиска можно использовать одновременно.

В отличие от других корпусов, Поэтический дает возможность видеть найденное стихотворение целиком (см. 5.2).

Планируется в течение нескольких лет поместить в Поэтический корпус большую часть русскоязычной поэтической классики. Поэзия добавляется хронологически, по дате рождения автора; в данный момент (осень 2012) Корпус включает творчество поэтов, родившихся не позже 1900 года.

В помощь пользователю на странице Поэтического корпуса помещен терминологический указатель и список авторов.

Объем 10 153 287 слов. Корпус живой русской речи содержит следующие подразделы:

  • Устная публичная речь (можно выбрать речевые жанры, например, беседа, дискуссия, лекция, интервью, репортаж и др.).
  • Устная непубличная речь (можно выбрать речевые жанры: беседа, микродиалог, разговор, пересказ, рассказ, спор, и в рамках этих жанров ситуацию коммуникации: «в аптеке», «в кассе», «в лифте», «с детьми» и др.).
  • Речь кино (можно выбрать киножанры, например, вестерн, детское кино, кинокомедия, киносказка и др.).

Объем 11 133 142 слова. Это корпус истории русского ударения, включающий тексты, несущие информацию об ударении, а именно поэтические, где в силлабо-тонических, а отчасти и в чисто тонических, текстах содержится информация (требующая дополнительной интерпретации) о месте ударения в слове, и современные записи устной речи, акцентуированные в соответствии с реальным произношением.

Запросить слово с определенным ударением можно в точных формах. Можно набрать такой запрос с обычной клавиатуры, использовав знак «апостроф»: зво’нит. Можно же при помощи виртуальной клавиатуры (4.2) набрать после нужного гласного знак «’», расположенный в ней на четвертой нижней кнопке в нижнем регистре.

В Акцентном корпусе несколько иначе, чем в Основном, устроены «дополнительные признаки» (4.12): можно запрашивать искаженные формы, слово в зоне рифмовки и слово без ударения.

Следует учитывать, что разметка в стихотворных текстах автоматическая (по размеру), поэтому возможны ошибки, ср. сбой разметки ударения в предложении «Скрипнет снег…»:

Лежа̀т холо̀дныѐ тума̀ны,

Горя̀т багро̀выѐ костры̀.

Душа̀ моро̀зная̀ Светла̀ны

В мечта̀х таѝнственно̀й игры̀.

Скрипнѐт снег ― сѐрдца за̀ймутся̀ ―

Снова̀ тиха̀я лу̀на.

За во̀рота̀ми смѐются̀,

Дальшѐ ― улѝца тѐмна. [А. А. Блок. Ночь на новый год : «Лежат холодные туманы…» (1901.12.31)]

Этот корпус снабжен своей собственной подробной инструкцией, открывающейся с верхней строки страницы поиска.

Объем 2 728 767 слов. Этот уникальный корпус включает фрагменты кинофильмов, выступлений известных людей, лекций, проповедей, записей бытовых диалогов. Результатом поиска становится не только текст, но и аудио-видеозапись, доступная для просмотра и прослушивания, при этом любую найденную аудиозапись можно легко использовать, например, скопировав на свой компьютер, вставить в презентацию или прослушать в замедленном режиме, чтобы лучше разобраться в произношении.

Возможен поиск не только по произносимому тексту, но и по жестам (кивание головой, похлопывание по плечу и т. п.) и типу речевого действия (согласие, ирония и т. п.). В ближайшие годы должен активно пополняться видеозаписями самых разных типов. Корпус сопровождается собственной инструкцией, открывающейся со страницы поиска в нем.

Обратите внимание на то, что в «точном поиске» нужно обязательно указывать ударение, иначе запрос не срабатывает.

Этот корпус также снабжен своей собственной подробной инструкцией.

Планируется в течение нескольких лет открыть следующие корпусы, связанные с историей русского языка:

  • церковнославянский;
  • XVIII века;
  • среднерусский;
  • древнерусский;
  • берестяные грамоты.

В данный момент в этом разделе открыт лишь один корпус – церковнославянский, включающий тексты, созданные в XVII-XX веках. Помещение его в раздел исторических может показаться сомнительным, если исходить из того, что церковнославянский – это язык современный, живой, активно используемый определенной группой современных носителей языка, отличающийся от современного русского в первую очередь не историчностью, но сакральностью и сферой применения. Полностью разделяя эту позицию, создатели все же помещают его в раздел исторических потому, что, благодаря тщательно хранимой традиции, церковнославянский язык, несомненно, гораздо ближе к языку XVII-XVIII века, чем к современному.

Объем 4 700 406 слов. Открыт в мае 2012 года в пробной версии и в течение двух лет должен быть заметно усовершенствован и снабжен собственной инструкцией.

Особенностью корпуса является наличие трех вариантов орфографии запроса: точного, упрощенного и модернизированного. Это удобно потому, что пользователь сможет найти нужное ему слово, даже если не уверен в его орфографии. Различия в типах орфографии можно увидеть, просто вызвав виртуальные клавиатуры упрощенного и модернизированного типов запросов и изучив надписи на клавишах, совмещающих буквы. Впрочем, для успешного пользования корпусом нет необходимости в этом разбираться. Варианты орфографии нужны исключительно для упрощения составления запроса. Результаты поиска всегда будут выданы в одном орфографическом варианте – классическом церковнославянском.

Чтобы сделать запрос в Церковнославянском корпусе, надо выбрать один из трех вариантов орфографии запроса (по умолчанию ставится промежуточный вариант — «упрощенный») — в зависимости от того, насколько хорошо известно правописание нужного слова. Так, если есть неуверенность, например, в выборе между «Е» и «ЯТЬ», то лучше выбрать самый простой вариант — модернизированный. В модернизированном варианте можно, например, искать слово «Бог», даже не указав «ер» на конце. Но в двух более приближенных к реальным вариантах орфографии это слово, записанное без «ера», искаться не будет. Так, слово «вѣ́тръ» в модернизированной орфографии будет искаться по запросам «ветр», «ветръ», «вѣ́тр» и «вѣ́тръ», а в упрощенной и точной только по «вѣ́тръ».

Если есть желание разобраться в том, какие буквы не различаются в «упрощенном» и «модернизированном» запросах, то следует изучить набор кнопок в виртуальной клавиатуре соответствующего режима. При точной орфографии различается 46 букв (плюс титло, которое условно трактуется как буква), в упрощенной – 39 (плюс титло), а в модернизированной – 33. В модернизированной, например, совмещены на одной кнопке буквы «еєѣ», которым в упрощенной соответствуют две кнопки – «еє» и «ѣ», а в точной – три.

Набор слова в поисковой графе проще осуществлять в виртуальной клавиатуре (см. 4.2).

Выбор корпуса осуществляется нажатием соответствующей иконки на верхней панели страницы «Поиск в корпусе» (см. Рис. 2.2).

Кроме того, уже получив ответ на запрос на материале выбранного корпуса, можно получить ответ на тот же запрос на материале другого корпуса, нажав соответствующую клавишу наверху страницы «Результаты поиска» (см. Рис. 3.7).

Смена корпусов на странице «Результаты поиска» – это удобный способ быстро просмотреть весь Национальный корпус с точки зрения наличия в нем искомой единицы. (Но при этом следует учитывать, что разметка в Синтаксическом корпусе устроена несколько иначе, поэтому иногда поиск в нем по тому же запросу, что в Основном, может искать другое явление).

Одна из самых необходимых возможностей, предоставляемых Корпусом, – это возможность осуществлять поиск не сразу во всех текстах, а только в тех, которые интересуют пользователя. Набор текстов для поиска, заданный пользователем по выбранным им параметрам (автору, названию, дате, жанру и др.), называется пользовательским подкорпусом (см. 2.3).

При исследовательской работе особенно часто используют подкорпус для работы с текстами определенного временного периода. Временной период можно задать любой по желанию пользователя. Например, можно последовательно посмотреть, что происходило с определенным языковым явлением в каждые 50 лет XIX-го и XX-го веков, проанализировав результаты поиска в четырех подкорпусах (с 1900 по 1849; 1850-1899; 1900-1949; 1950-1999) (можно добавить пятый для XXI века: 2000-). Кнопка «Точное вхождение» при установлении параметров «Год рождения» или «Год создания» дает возможность исключить из создаваемого подкорпуса те тексты с размытой датой, которые не входят в затребованный интервал точно (см. о размытой дате в разделе 2.9); так, если задать интервал 1950–1990 с точным вхождением, то коллекция анекдотов про Хрущева, датированная «(1956-1970)», попадет в поиск, а коллекция анекдотов про тещу, датированная «(1970-2000)», – нет.

При составлении упражнений бывает удобно отбирать авторов или тип текста. Например, используя Корпус, чтобы составить упражнение для школьников младших классов, можно выбрать подкорпус по параметрам художественные тексты, жанр — детские, а составляя упражнения для старшеклассников, можно выбрать конкретные произведения, которые входят в школьную программу.

Чтобы осуществить поиск в текстах по выбору пользователя, надо войти по ссылке «задать подкорпус», расположенной в верхнем правом углу страницы поиска (Рис. 2.2).

Оказавшись на странице создания подкорпуса (Рис. 1), следует выбрать нужные параметры, а затем нажать внизу кнопку «Далее» (Рис. 1.2), чтобы перейти к списку (часто многостраничному) текстов, выбранных по заданному параметру.

Если этот список удовлетворяет пользователя, то после нажатия кнопки «Сохранить подкорпус и перейти к странице поиска», расположенной и в начале, и в конце страниц списка, следует перейти к странице поиска, который будет вестись в выбранных текстах. Появившаяся после этого страница поиска будет содержать вверху справа кнопку «сбросить подкорпус». Результаты поиска будут содержать вверху строчку «Поиск ведётся по пользовательскому подкорпусу объемом столько-то документов, столько-то предложений, столько-то слов». Чтобы узнать объем выбранного подкорпуса, следует посмотреть число либо вверху страницы с перечнем отобранных текстов, либо на странице результатов поиска.

При выборе жанров и тематики возможен инвертированный выбор: если нужны все признаки, кроме какого-то одного, то надо пометить «ненужный» признак и нажать расположенную над списком кнопку «инвертировать выбор».

При выборе текста по названию надо учитывать, что будут выбраны все тексты, в название которых входят заданные слова. То есть при запросе «Война и мир», если не указывать автора, появятся не только тома романа Л.Толстого (роман хранится в корпусе по томам, то есть разбит на четыре сегмента), но и тексты с названиями Обсуждение фильма «Война и Мир» (2007-2011) и А. Е. Лукьянов. Война и мир цивилизаций (2002).

В течение 2012-2013 годов планируется ввести опцию выбора из списка отобранных по заданным параметрам текстов нескольких, нужных пользователю. Тогда будет возможно, например, получив по параметрам «Война и мир» и «Толстой» список из четырех томов романа, заказать поиск только по второму и третьему томам. Но на данный момент такая опция еще не создана, поэтому поиск возможен только по всем текстам, отобранным на основе заданных пользователем параметров. Сейчас можно искать по всем четырем сегментам романа Толстого, но нет возможности ограничиться двумя или тремя из них. Чтобы искать по одному сегменту, надо, задавая подкорпус, указать точное название сегмента, например «Война и мир. Том второй».