Работа с найденными примерами

Страница «Результаты поиска» имеет много возможностей для работы с найденными примерами. Это следующие возможности (см. Рис. 3):

  • Информация об объеме корпуса, по которому велся поиск (2.7) (Рис. 3.4)
  • Информация о запросе, по которому велся поиск (4.1) (Рис. 3.5).
  • Информация о количестве найденных примеров (5.8, Рис. 3.6)
  • Сброс подкорпуса (2.3).
  • Смена корпуса (3.2) (Рис. 3.7).
  • Установка или удаление версии с ударениями (2.12) (Рис. 3.1).
  • Увеличение длины примера (5.2) (Рис. 3.11).
  • Просмотр метаразметки к найденному тексту (2.9) (Рис. 3.8).
  • Просмотр характеристики каждого слова в примерах с возможностью перехода к словарной информации по этому слову (5.3).
  • Изменение порядка расположения примеров (5.4.2) (Рис. 3.2).
  • Изменение количества примеров на одной странице (5.4.3) (Рис. 3.2).
  • Просмотр примеров в формате KWIC (5.5) (Рис. 3.3).
  • Выдача примеров в формате Excel, OpenOffice Calc, XML (5.8).
  • Постраничные таблицы частот (5.6) (Рис. 4.2).
  • Просмотр информации о любом слове примера в словарях (5.3)
  • Сообщение разработчикам об ошибке в написании слова или его разметке (5.3; 2.13).

Из недавно появившихся возможностей стоит обратить внимание на формат KWIC (5.5), так как он очень помогает при необходимости быстро сориентироваться в большом массиве материала.

Найденные примеры на странице результатов выделяются цветом, но при копировании это выделение не сохраняется.

Длина заинтересовавшего примера может быть увеличена нажатием кнопки «стрелочки» в конце примера (Рис. 3.11).

Полученный после этого текст объемом в пять предложений является максимальным, который можно получить при помощи Корпуса. Корпус предназначен не для чтения текстов, но лишь для поиска примеров, что продиктовано, в частности, принципом соблюдения авторских прав. Только Поэтический корпус предоставляет возможность увидеть найденный текст, точнее – документ (см. 2.7), целиком. Если нужен текст в большем объеме, следует искать его в иных источниках. Впрочем, иногда удается еще немного расширить контекст, задав в «поиске точных форм» (Рис. 2.5) запрос о поиске начального или конечного сегмента расширенного примера.

Возвращаться от расширенного контекста на общую страницу проще всего через расположенную в верхнем левом углу кнопку «Результаты поиска».

После щелчка мышкой на любом слове найденного примера появляется его характеристика, то есть та информация, которая приписана в Корпусе данному слову. При неснятой омонимии (см. 2.4) часто предлагается несколько вариантов трактовки словоформы. Например:

заготовляя
Лемма заготовлять (см. в словарях)
Грамматика глаг, перех, нсв, деепр, действ, наст, словарн
Лемма заготавливать (см. в словарях)
Грамматика глаг, перех, нсв, деепр, действ, наст, словарн
Семантика основная d:impf, d:pref, der:v
Доп. признаки acomma, amark, null

               Сообщить об ошибке...

Расшифровку сокращений, которыми закодированы характеристики, таких, как der:v («отглагольные
имена»)
и др., можно найти по закладкам на страницах корпуса «Семантика» и «Морфология».

Табличка с характеристикой слова включает еще две опции: «см. в словарях» и «сообщить об ошибке».

Первая опция может оказаться очень полезной при использовании Корпуса изучающими и преподающими русский язык. Можно одним нажатием этой кнопки получить информацию, которую дают о данном слове следующие словари, хранящиеся в сервисе «Яндекс. Словари»: Толковый словарь Д.Н. Ушакова (1935-1940); Толковый словарь Т. Ф. Ефремовой (2000); Большой толковый словарь русского языка. (1-е изд-е: СПб.: Норинт. С. А. Кузнецов. 1998); Абрамов Н. Словарь русских синонимов и сходных по смыслу выражений. — 7-е изд., стереотип. — Москва: Русские словари, 1999, а также в этимологических, фразеологических, орфографическом, морфемно-орфографическом, акцентологическом словарях. Набор словарей может слегка меняться для разных слов. Также «Яндекс-словари» предоставляет перевод на разные языки (пять европейских, украинский, казахский) и отсылку к словарям «Wiktionary» и «Грамота.ру».

Кроме того, внизу словарной страницы есть отсылка к Национальному корпусу, по которой можно сразу перейти к странице выдачи результатов по поиску данной лексемы в Основном корпусе. Это удобно, если пользователя на странице выданных примеров заинтересовало не то слово, которое было в его запросе, а какое-то еще.

Опцию «Сообщить об ошибке» разработчики просят использовать, если замечена ошибка в написании слова или в его разметке, см. 2.13.

По умолчанию, то есть без ручного изменения настроек, примеры в Основном корпусе выдаются в следующем порядке: сначала все примеры из текстов со снятой омонимией (2.4), отсортированные по дате написания, начиная от самых новых; затем все примеры с неснятой омонимией, отсортированные также с самых новых. Примеры в других корпусах, для которых не существует текстов со снятой омонимией, отсортированы также начиная с самых новых.

Пользователь может изменить порядок выдачи примеров, изменив настройки. Для этого надо нажать соответствующую клавишу на верхней панели (Рис. 3.2).

Можно менять, во-первых, порядок следования примеров (5.4.2), во-вторых, количество примеров на странице (5.4.3) и количество примеров в документе.

Возможны четыре типа упорядочения:

  • по автору
  • разные варианты упорядочения по датам:
    • по дате создания
    • по дате создания в обратном порядке
    • по дате рождения автора
    • по дате рождения автора в обратном порядке
  • случайно
  • разные варианты упорядочения по контексту:
    • по левому контексту
    • по левому контексту, учитывая форму исходного слова
    • по правому контексту
    • по правому контексту, учитывая форму исходного слова

По умолчанию выбирается режим «по дате создания в обратном порядке».

Режим «случайно» очень удобен, когда пользователю надо получить статистику или сделать какие-то иные выводы на основе случайной (рандомизированной) выборки. При этом режиме примеры из одного теста идут подряд, не перемешиваясь с другими, так что в этом смысле рандомизация не полная.

Под контекстом подразумевается ближайшее к искомому слово, при равенстве ближайших слов – второе слово и т.д., упорядочение происходит в прямом алфавитном порядке. Поясним, как работает упорядочение по левому контексту на примере поиска слова еж. Вот отрывок из списка так упорядоченных примеров в формате KWIC:

________круглый панцирь морского ежа. В первом
______________В панцире морского ежа под почти прозрачной
____в России не покупают морского ежа, волосатого краба
_браконьерский промысел морского ежа,―сообщил заместитель

При режиме «по левому контексту» все сочетания морского ежа стоят рядом, при этом перед ними будет группа морские ежи, а за ними группа морской еж, потому что алфавитный порядок таков: морские, морского, морской. Внутри группы морского ежа подряд будут стоять панцире морского ежа, панцирь морского ежа, покупают морского ежа, промысел морского ежа, потому что алфавитный порядок: панцире, панцирь, покупают, промысел. После морской еж последует мышей, ежей, потому что из найденных слов мышей ближайшее по алфавиту к морской.

Режим «по левому контексту, учитывая форму исходного слова» дает упорядочение по форме исходного слова:

_______________ощетинивается, как еж, и дает
_______с названиями зверушек (крот, еж, белка… ) и еще две клеточки
________________________А морской еж, гребешок и краб там вообще на вес золота
красный тунец, угорь, мурена, морской еж… Отдельную полку.

То есть для слова еж сначала будут показаны все контексты с формой еж, потом – с ежа, потом – с ежам, потом – с ежами и т.д. При этом все примеры с морской еж будут также помещены рядом, но будут оторваны от морского ежа совсем другими контекстами с еж.

Увеличить количество примеров на странице можно изменением цифр в нижней части таблички «настройки». Большое количество примеров на странице – например, такое, чтобы поместились все примеры, – бывает особенно удобно при просмотре в формате KWIC (5.5) и при использовании корпусного подсчета статистики (5.6). Если заказать очень большое количество примеров на странице, то система может зависнуть. Но сказать, когда именно она зависает, сложно – наверное, это зависит еще и от сложности запроса. По нашему опыту, 100 примеров проходит всегда, 500 примеров проходит часто.

Режим KWIC (Key Word in Context – ключевое слово в контексте) устанавливается на верхней панели страницы выдачи (Рис. 3.3).

Тогда от каждого найденного примера показывается лишь одна строчка, и первое искомое слово (первое из нескольких искомых) помещается в ее середину (Рис. 4.1).

Это очень удобно, если нужно быстро сориентироваться в большом массиве материала. При такой задаче имеет смысл установить настройки (5.4.2) по тому из четырех вариантов сортировки «по контексту», который подходит для вашей задачи, и на большое количество примеров на странице (5.4.3).

Внизу страницы выдачи для однословных запросов помещаются таблицы частот встречаемости каждой искомой словоформы и каждой искомой леммы на данной странице (Рис. 4.2).

Чтобы использовать эти таблицы, как правило, удобно установить большое количество примеров на странице (5.4.3), лучше такое, чтобы все примеры поместились на одну страницу. Но следует учитывать, что при неснятой омонимии статистика учитывает только первую из гипотез, построенных для омонимичных с точки зрения автоматического анализа словоформ (см. 2.4). Упорядочение словоформ происходит по алфавиту. Так, для формы колбасили, встречающейся в Корпусе три раза, таблица покажет три леммы колбасиль, потому что первая из выстроенных анализатором гипотез трактует колбасили как форму множественного числа существительного. Когда кто-нибудь сообщит об ошибке (см. 2.13), то гипотеза о том, что это – существительное, будет удалена разработчиками вручную и тогда будет выдаваться правильное сообщение о леммах колбасить.

Настоящая версия Корпуса предусматривает возможность скачивать результаты поиска в иных форматах, нежели основной. Для этого надо воспользоваться кнопкой «Скачать несколько первых результатов выдачи в формате Excel, OpenOffice Calc, XML». Следует учитывать, что формулировка «несколько первых» не совсем точна: реально скачивается несколько тысяч примеров, но конкретное число непредсказуемо. Эта опция очень удобна, если пользователь собирается работать с большим массивом примеров – скажем, классифицировать их, размечать какими-то признаками. Тогда можно не копировать примеры по одному в Ворд или Эксель, а сразу перекинуть большой массив.

Наверху страницы выдачи содержится информация о количестве выданных примеров (Рис. 3.6):

сообщается количество найденных документов и количество вхождений. «Документом» называется текст, в котором найден пример (см. о понятии «документ» 2.7), «вхождением» – каждое конкретное употребление искомого. Так, для слова мелкоскоп должно находиться 6 документов и 22 вхождения, потому что в четырех произведениях слово встречается по одному разу, в одном – два раза и в одном («Левша» Н.С. Лескова) – 16 раз.

Но следует учитывать, что когда много примеров относится к одному документу, то на странице выдачи «по умолчанию» видны только первые 10. Чтобы увидеть остальные, надо нажать на кнопку «Все примеры». Поэтому для слова мелкоскоп в результатах видны 10 из 16 предложений из повести «Левша», содержащих искомое слово, а заголовок к этим примерам выглядит так:

5. Н. С. Лесков. Левша (1881) [омонимия не снята] Все примеры(16)

Слово пример в выдаче обозначает одно предложение, вне зависимости от того, сколько раз в него входит нужная единица. Поэтому число примеров может быть меньше числа вхождений. Так, при поиске глаголов в формах изъявительного наклонения представляющая собой одно предложение строка … И сыплется меж пальцами песок, Скользят, уходят легкие мгновенья… [Вс. А. Рождественский. «…И сыплется меж пальцами песок…» (1977)] считается как один пример, хотя имеет три вхождения.

Если искомое слово встречается в одном коротком сегменте несколько раз в разных предложениях, то в выдаче такие предложения повторяются несколько раз. Так, если мы ищем форму жираф, то текст

Пришла домой. Побежала сразу в комнату распаковывать…:))) один, два, три слоя обёрточной бумаги! А оттуда рога. вынимаю.. Жираф! :)) Да какой жираф! Всем жирафам жираф… :))) [Запись LiveJournal (2004)]

будет на странице выдачи примеров повторен три раза, так в нем жираф содержится в трех предложениях:

Запись LiveJournal (2004) [омонимия снята] Все примеры (3)
• А оттуда рога. вынимаю.. Жираф! :)) Да какой жираф! [Запись LiveJournal (2004)] [
Жираф! :)) Да какой жираф! Всем жирафам жираф… [Запись LiveJournal (2004)]
• :)) Да какой жираф! Всем жирафам жираф… :))) Прыг-скок! [Запись LiveJournal (2004)]

При подсчете выданных форм об этом следует помнить, чтобы не учесть одну и ту же форму несколько раз, то есть не насчитать в вышеприведенных примерах семь жирафов вместо трех.

С 2012 года введен новый сервис – автоматическое составление графика распределения найденных примеров по годам. Пока такой сервис есть только для Основного корпуса.

Войти в этот сервис можно двумя способами:

  • либо с главной страницы по боковой ссылке «графики» (http://www.ruscorpora.ru/ngram.html),
  • либо со страницы выдачи примеров по кнопке «Распределение по годам», расположенной сверху слева под строкой с количеством документов и вхождений.

При входе через ссылку «графики» пользователь получает возможность построить график для слова или словосочетания в неизменном виде – ровно в одной форме, как при «Поиске точных форм» (см. 4.1), для Основного корпуса. В этом сервисе можно на одной картинке построить графики к нескольким единицам (к сожалению, максимум 5). Например, по запросу «мужчина, женщина» строится два графика, по которым видно, что хотя слово женщина частотно «побеждает» с большим отрывом, но колебания его частоты нередко соответствуют колебаниям для слова мужчина. То есть при разной частотности подъемы и спады регулярно происходят примерно в одни и те же годы, так, на 1818 год для обоих слов приходится небольшое падение, а на 1836-1837 подъем. По запросу «Владимир Ильич Ленин, Иосиф Виссарионович Сталин, Никита Сергеевич Хрущев, Леонид Ильич Брежнев, Михаил Сергеевич Горбачев» получается пять графиков. При построении графиков для точных форм есть дополнительная очень удобная возможность: перейти к примерам каждого года (см. об этом ниже 5.9.3).

При входе в сервис со страницы результатов к какому-либо запросу («Распределение по годам»), график строится к тем примерам, которые найдены по этому запросу, причем не для одной страницы, а для всех страниц этой выдачи. Если со страницы такого графика нажать кнопку «построить», то появится строка для такого же запроса, какой возможен из раздела «графики» и описан выше.

Таким образом, можно либо строить от одного до пяти графиков с возможностью перейти к примерам каждого года, но только для точных форм, либо строить один график без перехода к примерам, зато на основе лексико-семантического поиска.

При заказе графика можно выбрать период. По умолчанию выбирается период с 1800 г. по 2010, но можно строить и для более ранних текстов, если установить другие даты. При этом даже при датировке по умолчанию учитываются примеры вплоть до самого позднего из имеющихся в корпусе (2011 год). В таблицы при датировке по умолчанию примеры 2011 года включаются автоматически.

Также можно устанавливать сглаживание, по умолчанию устанавливается коэффициент сглаживания 3. Сглаживание означает усреднение по какому-то количеству значений. Более точное определение: сглаживание – это замена каждого результата на среднее арифметическое k (коэффициент сглаживания) своих соседей. Таким образом, сглаживание «0» – это взгляд с позиции каждого года отдельно, сглаживание «3» – это усреднение по каждым четырем годам, «10» по 11 и т.д. С небольшим усреднением хорошо видно, что происходит в каждый конкретный период, с большим же лучше видна общая тенденция. См. ниже пример для графика с пятью фамилиями (Рис. 5).

По горизонтали на графике годы. Хотя на оси числами обозначены только десятилетия, при подводе курсора к графику годы видны точно.

По вертикали на графике отображено отношение количества употреблений запрошенной языковой единицы к количеству текстов, то есть относительное число найденных примеров: частота на миллион словоформ, называемая ipm. Более четкое определение параметра ipm: ipm – это число употреблений за этот год деленное на абсолютное число найденных за данный год слов в текстах и умноженное на миллион. Точная величина ipm также видна только при подводе мышки к графику. Об усреднении количества слов на год см. ниже в 5.9.3.

Чтобы стало понятнее, как устроен график, обсудим, почему одинаковому количеству употреблений в разные периоды может соответствовать пик разной высоты. Например, форма преосуществление (это ошибочный вариант христианского термина пресуществление) употреблена в Корпусе всего два раза, в 1929 и в 2003 году, но пик 1929 года много (практически в 10 раз) выше (при разрешении «0» – 0,63574), чем пик 2003 (0.06598). Причина этого в том, что в основном корпусе на 1929 год количество текстов (1572973.6304) буквально на порядок меньше, чем на 2003 (15156126.3129). Получается, что одно употребление для 1929 года – это в 10 раз больше (чаще), чем одно употребление для 2003-го.

Итак, при подводе курсора к графику видна запрошенная единица, дата и ее частота (ipm). Например, на запрос о форме Ленин в точке 2010 года видна запись «Ленин 2010: 28,2562».

Чтобы можно было проследить, как меняется ipm при разных сглаживаниях, приведем для запроса «Ленин, Сталин, Брежнев, Горбачев, Путин» данные для 2010 года при трех разных коэффициентах:

Коэффициент
сглаживания

Ленин Сталин Брежнев Горбачев Путин
0 88.8999 17.9431 1.63119 2.03899 49.03899
3 64.8534 25.2785 2.57908 3.66268 28.2562
10 34.8679 36.6612 6.28042 14.9430 42.0699

Ниже графика можно открыть таблицу, состоящую из двух колонок (для одного графика; для нескольких же число колонок первого типа соответствует числу графиков).

В первой колонке перечислены все годы и все размытые даты (см. об этом понятии 2.9), для которых нашлось употребление слова, и при каждой дате указано количество употреблений. Если графиков на одном рисунке было несколько, то каждому будет соответствовать собственная подобная колонка.Вот верхние три строки таких табличек для двух из пяти форм обсуждаемого примера:

Ленин

2011

3

2010-2011

1

2010

54

2009

138

2008

42

Путин
2011

32

2010

30

2009

30

2008

28

2007-2010

1

Из этих таблиц мы видим, что на 2011 год имеется 54 упоминания фамилии Ленин (в именительном падеже – напоминаю, что при нескольких графиках возможно описание словоформ, но не лемм) и 30 – фамилии Путин (в именительном падеже). Также видно, что для формы Ленин имеется документ с размытой датой 2010-2011, а для Путин 2007-2010.

Здесь (пока только при поиске по точному вхождению) появляется замечательная возможность прямо из таблички перейти к документам. Например, если нажать на 2011 год в табличке к форме Путин, то перейдем на страницу выдачи примеров, соответствующую запросу Путин (точное вхождение) в Основном корпусе в 2011 году. Например, увидев внизу таблички Ленин 3 употребления 1878 года, невозможно было не заинтересоваться: после нажатия на дату обнаружилось, что это опечатки в фамилии Левин из «Анны Карениной». Думаю, что эти опечатки вот-вот будет исправлены (см. 2.13). Формами путин 1922, 1929 и 1927 года оказались родительные падежи мн. числа слова путина. Это издержки работы с точными вхождениями. Таким образом, таблица позволяет сразу проверить подозрительные для определенных дат формы.

Вторая колонка содержит все года заданного интервала с сопоставленным усредненным количеством слов во всех текстах, датируемых этим годом. Эта колонка одинакова (в рамках одной версии Корпуса, см. 2.7) для любых запросов.

Всего:
2011 271913.09697
2010 613048.64697
2009 1479137.64697
2008 746890.64697
2007 1649129.41364

Число слов в год оказывается дробным из-за усреднения – из-за учета текстов с размытой датой (см. 2.9). При точном вхождении (см. 3.3) в подкорпусе 2011 года 179 788 слов, при неточном, то есть с включением текстов с размытой датой, 352 616. Число 271913.09697 также учитывает размытые даты. Каждый текст, датированный интервалом, делится на все года интервала. Таким образом, текст 2010-2011 года при усредненном подсчете будет наполовину отнесен к 2010, наполовину к 2011 году. Тем самым, если учесть размытые даты, то количество употреблений Ленин в 2010 году не 54, а 54.5, а Путин не 30, а 30.25.