Создание запроса

Запрос создают на странице «поиск в корпусе». Прежде чем создать запрос, следует выбрать Корпус – об этом см. Раздел 3. Выбор корпуса. Выбрав корпус, можно создать собственный подкорпус, если в этом есть необходимость — об этом см. 2.3. При работе с историческими подкорпусами нужно сначала выбрать тип орфографии, об этом см. 3.1.11.1.

Страница «поиск в корпусе» содержит две таблички для запросов, см. Рис. 2.

Первая предназначена для «поиска точных форм» (см. 2.5) и состоит из одной строки, куда можно вписывать слова или тексты любой длины.

Вторая предназначена для «лексико-грамматического поиска» (см. 2.6 и 4.4) и состоит из нескольких строк. По умолчанию видны две, но это количество пользователь может нажатием клавиши «стрелочка» увеличивать настолько, насколько нужно. Количество строк должно быть равно количеству опорных элементов искомой конструкции (см. пример 1 из раздела 2.6 и Рис. 2).

В каждую из этих строк можно вписать ровно одно слово или словоформу (см. 4.6. Фиксация формы) либо не указывать конкретное слово, а задать тип слова через грамматическую (см. 4.8) или семантическую характеристику (см. 4.9).

Итак, чтобы сделать запрос, надо вписать искомую единицу в строку «поиск точных форм» или «лексико-грамматический поиск». При этом можно пользоваться виртуальной клавиатурой (см. 4.2.). Запрос в табличке «лексико-грамматический поиск» может быть достаточно сложным, о разнообразных возможностях поиска см. разделы 4.4 – 4.13, примеры сложных запросов см. в 2.6.

Создав запрос, надо нажать клавишу «искать» и дождаться, когда будет открыта страница «Результаты поиска». Наверху этой страницы справа выписан поисковый запрос в удобной для чтения и копирования форме (см. Рис. 3.5).

О дальнейших возможностях работы с этой страницей см. Раздел 5. Работа с найденными примерами.

Перед введением нового запроса можно воспользоваться возможностью автоматического очищения таблички запроса (кнопка «очистить» внизу таблички запроса).

Виртуальная клавиатура расположена над строкой запроса, чтобы ее открыть, надо нажать клавишу «АБВ» (Рис. 2.4).

Виртуальная клавиатура предназначена для того, чтобы можно было создавать запрос, используя только мышку, но не пользуясь клавиатурой. Это бывает удобно в трех основных случаях:

  • если на клавиатуре пользователя нет раскладки нужного шрифта, например, есть только раскладка латиницы, но не кириллицы;
  • если пользователь затрудняется найти на своей клавиатуре нужный знак, например, знак «|», нужный для запроса одновременно нескольких слов;
  • если на компьютере пользователя не установлен или труднодоступен нужный шрифт – например для ввода буквы «ять» при работе с Церковнославянским корпусом.

В момент набора через виртуальную клавиатуру набираемый текст появляется в верхней строке, а при нажатии клавиши «ок» перемещается в строку запроса. На виртуальной клавиатуре набирается весь запрос и потом переносится кнопкой «ОК» в строку запроса готовым. Можно внутри виртуальной клавиатуры набирать некоторые знаки с помощью виртуальной клавиатуры, а некоторые – реальной.

Многие разделы страниц «поиск в корпусе», «мой корпус» и др. снабжены справочной информацией, для получения которой надо нажать кнопку «вопросительный знак («?»)» (см. Рис. 2.3).

Закрываются открытые справки в верхнем правом углу, несколько выше собственно странички со справкой: если об этом не знать, то знак закрытия можно не разглядеть, так как он плохо виден на фоне другого текста.

В верхней строке страницы «поиск в корпусе» можно создать запрос для поиска точной формы (см. 2.5. Поиск точных форм). Во всех остальных случаях надо пользоваться второй табличкой этой страницы – «лексико-грамматический поиск».

Чтобы найти изменяемое слово во всех формах, следует написать его в начальной форме. Начальная форма – это им. п. ед. ч. для существительных (кроме слов, не имеющих форму ед.ч., типа очки, сливки, прятки или шахматы), им. п. м. р. ед. ч. полная форма для прилагательных и инфинитив для глаголов (о виде см. ниже). (Некоторые слова не имеют названных форм, например парадигма себя и щец начинается с родительного падежа, через который и надо делать запрос, а рад имеет только краткую форму.) Если вписать в поисковую строку слово не в начальной форме, то ничего не будет найдено. Например, ничего не будет выдано при попытке искать по форме карты или женственная, так как необходимо задать начальные формы: карта и женственный.

Что касается вида, то в Основном корпусе он рассматривается как словоклассифицирующая категория, то есть глагол будет искаться в том виде, в каком стоит в запросе. Так, по запросу «найти» будут найдены 94 068 форм, а по запросу «найти ipf» (найти в несовершенном виде) только одна церковнославянская форма: «… внезапу найде на меня страшный час смертный. [Ю. О. Домбровский. Факультет ненужных вещей, часть 5 (1978)]. По запросу «рисовать» будут найдены 7 451 бесприставочная форма, по запросу «нарисовать» 5 509 форм с приставкой на-. По запросу «рисовать pf» будет найдена одна неправильная форма. имитирующая речь иностранца: Ошень рада / я вас немножечко видать… / Ес! Вы не рисовать парада. / Вы рисовает бога мать [Владимир Лапенков. Форматирование андеграунда // «Звезда», 2002]. А по запросу «рисовать ipf» – две формы из детской речи: Нарисовай мне барбоса. [К. И. Чуковский. От двух до пяти (1933)]. …спей, нарисовай, причесай. [К. И. Чуковский. От двух до пяти (1933)].

В Синтаксическом корпусе вид рассматривается как формообразовательный, при этом начальной формой у парного по виду глагола является форма несовершенного вида. Поэтому по запросу «рисовать» будет найдено 67 форм, объединяющих рисовать и нарисовать, по запросу «рисовать несов» будет найдено 35 форм от рисовать, по запросу «нарисовать сов» — 32 формы от нарисовать.

Корпус предоставляет возможность искать одновременно несколько слов. Для этого надо в запросе написать нужные слова через знак с пробелами с двух сторон: «мама | папа». Подобный запрос удобно набирать при помощи виртуальной клавиатуры (см. 3.2), так как именно этот знак на разных клавиатурах может помещаться в разных местах и не все пользователи знают, где его отыскать.

Этот оператор, как и «минус» (см. 4.7), можно вручную вставить в графы дополнительных, грамматических или семантических признаков. Например, по запросу «конечно -bmark| -amark» будет искаться слово конечно, стоящее либо не после знака препинания (после пробела внутри предложения) (С учётом их природных данных и склонностей конечно.), либо не перед знаком препинания (перед пробелом) (Конечно же,), либо и то и другое одновременно (между пробелами внутри предложения) (И конечно же). Об установке таких запросов см. в 4.7.

Слово, вписанное в строку запроса в лексико-грамматическом поиске, будет искаться во всех формах. Можно зафиксировать форму искомого слова при помощи кавычек. Это бывает нужно при сложных запросах, например, при запросах словосочетаний и при использовании оператора «минус» (–) (4.7). Так, чтобы выяснить, какие глаголы сочетаются с единицей «под мышкой», проще всего построить запрос, зафиксировав форму мышкой кавычками: V; на расстоянии 1 от под; на расстоянии от 1 до 3 от «мышкой». (Введение расстояния дает возможность найти примеры типа под левой мышкой, о расстоянии см. 4.10.) См. также пример 2 в разделе 2.6.

Корпус предоставляет возможность исключить ненужные формы. Для этого надо в запросе после начальной формы слова поставить знак минус и затем без пробела ненужную форму в кавычках (о назначении кавычек см. 4.6). Например, при поиске форм глагола прочить в основном корпусе с неснятой омонимией (см. 2.4. Снятая омонимия) очень часто попадается ненужная форма прочь, так как предикатив прочь омонимичен форме повелительного наклонения (ср. Прочь отсюда! и Не прочь меня в начальники). Чтобы избавиться от мешающего слова, надо задать запрос «прочить -«прочь»» (но следует учитывать, что при этом будет также потеряна настоящая форма императива).

Количество убираемых форм может быть любым. Например, разбираясь с к глаголом прочить, помимо формы прочь, придется убрать также форму прочен, которая тоже воспринимается анализатором как омонимичная: он считает, что это может быть не только прилагательное, но и краткое причастие от глагола прочить: «прочить -«прочь» -«прочен»».

Чтобы избавиться от «шума» при поиске слов по грамматической или семантической характеристике или по сегменту, иногда удобно устранять те или иные формы (то есть использовать кавычки), а иногда целые лексемы. См. пример 2 из раздела 2.6.

Также оператор минус можно использовать при грамматических характеристиках или дополнительных признаках. В этих случаях надо разобраться в том, как обозначается, характеристика, которую надо исключить, что можно сделать либо посмотрев список условных обозначений, либо задав нужную характеристику через меню и посмотрев форму запроса. Затем надо вписать исключаемую характеристику в соответствующую ей строку запроса, поставив перед ней минус. Например, чтобы узнать, какую функцию может выполнять единица а, кроме того, чтобы быть союзом или инициалом, можно задать запрос «а -CONJ, -INIT» («-CONJ, -INIT» — запись в грамматических признаках) и тогда в текстах со снятой омонимией будут найдены все остальные типы а. Окажется, что часто встречается а как первый пункт нумерации, обозначаемое «nonlex», то есть «не в качестве лексической единицы». Тогда можно задать запрос «а -CONJ, -INIT, -nonlex» и получить а в оставшихся функциях – а именно, в качестве частицы, междометия и существительного (название буквы). Для текстов с неснятой омонимией при таком поиске не будет найдено ничего, так как при неснятой омонимии любое а рассматриваться как омоним и содержит характеристику CONJ.

Примером на использование оператора «минус» для дополнительных признаков может быть запрос «конечно -bcomma, -acomma» («-bcomma, -acomma» запись в дополнительных признаках), означающий «конечно не после запятой и не перед запятой». По такому запросу будут найдены примеры типа Торг города Риги заслуживает с сей стороны конечно поправления. [А. Н. Радищев. [Примечания на доклад лифляндского генерал-губернатора графа Броуна о рижском торге] (1790)]. Чтобы создать запрос такого типа, проще всего сначала через меню дополнительных признаков создать запрос ненужной единицы (конечно между двумя запятыми: «конечно bcomma,acomma»), а затем вставить минусы, не забыв пробел (см. ниже).

Внимание! Между предыдущим знаком и минусом должен стоять пробел, иначе запрос не сработает. Работающие запросы: «прочить -«прочь» -«прочен»», «-CONJ, -INIT, -nonlex», «-bcomma, -acomma». Неработающие запросы: «прочить -«прочь»-«прочен»», «-CONJ,-INIT, -nonlex», «-bcomma,-acomma». См. также пример в 4.5.

Грамматические признаки для поиска устанавливаются в середине строки запроса таблички «лексико-грамматический поиск» (Рис. 2.8).

В Обучающем корпусе есть возможность запрашивать признаки, не существующие в запросах остальных корпусов, такие как тип склонения или спряжения или тип существительного по значению (конкретные, вещественные, собирательные).

Грамматический поиск можно производить для определенной лексемы. То есть можно выбрать некоторые грамматические свойства для заданного слова; например, запрос «*нести partcp» поможет найти все причастия от глагола «нести» и приставочных глаголов с этой основой и отсеет все остальные, не причастные, формы этого глагола.

Грамматический поиск также можно производить безотносительно к конкретной лексеме. Например, запрос «imper2» поможет найти все формы в повелительном наклонении совместного действия на –мте, такие как пойдемте, пройдемте и др. Можно усложнить запрос, например, убрать формы с частыми глаголами, чтобы проще было увидеть, какие еще глаголы используются в форме на –мте. Ср. запрос: «-идти -пойти -пройти imper2», по которому сразу станут видны более редкие формы уйдемте, споемте, будемте и др.

Грамматические признаки можно устанавливать через меню, а можно вручную, если знать обозначение нужного признака. Список обозначений см. на странице Корпуса «морфология»). О трактовке грамматической характеристики «вид» см. 4.4.

Система грамматических признаков и их обозначений в Синтаксическом корпусе отличается от Основного и других.

Семантические признаки для поиска устанавливаются в правой части строки запроса таблички «лексико-грамматический поиск» (Рис. 2.9).

См. о них страницу Корпуса «Семантика» http://www.ruscorpora.ru/corpora-sem.html.

Приведем пример поиска словосочетания из двух слов с заданными грамматическими и семантическими характеристиками. Допустим, нужно найти примеры метонимического использования названий посуды в значении «содержимое». Зададим запрос: «V,imper & V & V t:physiol t:physiol на расстоянии от 1 до 3 от S r:concr & t:tool:dish r:concr & t:tool:dish» – «Глагол в форме повелительного наклонения со значением физиологического действия; на расстоянии от 1 до 3 существительное со значением «посуда». Таким образом будут найдены сочетания выпьем по рюмке; Выпей, Ростик, чашечку! и др.

Семантический поиск снабжен дополнительными возможностями, а именно «1-ое значение» и «другое значение», позволяющими регулировать наличие / отсутствие поиска по переносным значениям. (Рис. 2.9б).

За счет этих возможностей можно ограничить количество найденных по определенному семантическому параметру слов только теми, для которых это значение является прямым. То есть можно создать, например, такой запрос: «Качества человека; только слова, для которых это прямое значение». По этому запросу будут найдены слова умный и добрый, но отсечены мягкий и холодный. Более подробно см. об этом справочную информацию непосредственно на странице (кнопка «?» рядом с 9б с Рис. 2).

Что касается опций «фильтр 1» и «фильтр 2», также описанных в справке, то они в данный момент не работают из-за отсутствия представительного набора текстов со снятой лексико-семантической омонимией. В ближайшее время запускать эти опции не планируется.

Семантические признаки можно устанавливать через меню, а можно вручную, если знать обозначение нужного признака. Список обозначений см. на странице Корпуса «семантика» (http://ruscorpora.ru/corpora-sem.html).

Корпус позволяет искать словосочетания любой длины. Каждый характеризуемый элемент словосочетания должен быть вписан в отдельную строку. По умолчанию на экране открыты две строки, но нажатием клавиши «стрелочка вниз» открывается любое количество строк.

Поиск сочетаний единиц ведется в рамках одного предложения: через границу предложения поиск в Корпусе не осуществляется.

При поиске словосочетаний можно по собственному усмотрению выбрать расстояние между словами, а можно оставить устанавливаемое по умолчанию расстояние «1». Для этого предназначено поле Расстояние: от до . Если в этом поле стоят единицы, то искомые слова будут идти строго подряд друг за другом. Первое число – это минимальное допустимое расстояние, второе – максимальное, при этом число один означает, что слова идут подряд. Так, если заполнить это поле числами 1 и 3, то можно будет найти искомые слова как непосредственно друг за другом, так и отделенные друг от друга одним или двумя словами. При установлении, например, чисел 3 и 3 будут искаться слова, между которыми стоят ровно два других слова, а чисел 3 и 5 – между которыми стоят от двух до четырех слов.

При поиске словосочетания с неединичным расстоянием из пересекающихся результатов берется только первый, т.е. по запросу «глагол + форма в винительном падеже на расстоянии в 1 или 2 слова» (V на расстоянии от 1 до 2 от acc) из сочетания пишу этот комментарий будет попадать только пишу этот.

Чтобы искать второй элемент не справа (после), а слева (перед) первым элементом, возможно установить отрицательное расстояние. Так, если, изучая частицу было, в первом запросе мы искали «глагол в прошедшем времени + «было» на расстоянии 1», чтобы найти примеры типа собрался было, то, изменив во втором запросе расстояние на -1, можно искать примеры типа Совсем было подошёл он к дому. При запросе «папа + мама» с расстоянием от – 2 до 2 (папа на расстоянии от -2 до 2 от мама) будут искаться сочетания типа мама с папой, папа с мамой, папу или маму, мамы и папы и др.

Знак * позволяет искать по начальному или конечному сегменту слова. Запрос для поиска по сегменту слова надо вводить в табличку «лексико-грамматический поиск». Иногда в таком запросе надо использовать кавычки, иногда нет (см. 4.6.). Например, по запросу «*ский» будут найдены все варианты слов, начальная форма которых оканчивается на –ский, т. е. найдутся скандинавская, туристское, шведский и др. А по запросу «»*ский»» будут найдены все словоформы, заканчивающиеся на –ский, то есть из перечисленных выше словоформ будет найдена только шведский.

Возможен поиск по начальному и конечному сегментам, например, по запросу «»раз*» «*ся»» найдутся формы развалился, разместился и др.

Запрос с двумя звездочками типа *лив* или *каз* не работает, но в 2012-2013 годах должен быть введен
словообразовательный поиск, который позволит искать по морфемам, например, по корням лив- и каз-.

Опция «Доп. признаки» помещена под строкой запроса в лексико-грамматическом поиске.

Дополнительные признаки дают возможность:

  • поиска с учетом повтора предыдущего слова или его характеристик
  • поиска по типу оборота
  • поиска по пунктуационному оформлению
  • поиска по наличию заглавной буквы
  • поиска по местонахождению в начале или конце предложения
  • поиска слов в позиции рифмы (конец строки в рифмованных произведениях) – только в Акцентном и Поэтическом корпусе (3.1.7)
  • поиска слова без ударения – только в Акцентологическом корпусе (3.1.9)
  • поиска искаженных форм – только в Акцентологическом корпусе (3.1.9).

Поиск по типу оборота – это поиск неоднословных сочетаний на основе Словаря оборотов (2.11). Таким образом можно найти примеры на все обороты данного типа, например, при запросе «mw:place» – «обороты со значением “место”» будут найдены примеры с такими оборотами, как под ногами, у ног, к ногам, у стен, в стенах, в том числе с прилагательными в середине оборота у родных стен. Расшифровку сокращений (mw:ADV, mw:time и др.) можно найти на страницах «Семантика» и «Морфология». В скором времени должна появиться справочная информация по этому виду поиска.

См. также примеры на исключение дополнительных признаков в 4.7.

Поиск слов, включающих конкретную морфему, будет возможен по опции Словообразование, которая вскоре должна быть открыта для пользователей. Сейчас такой поиск невозможен, но в некоторых случаях его можно отчасти заменить поиском по сегменту слова (см. 4.11 и пример 2 в 2.6.).

В настоящий момент опция Словообразование разрабатывается, поэтому некоторые запросы могут выполняться,
некоторые – нет. Когда она будет подключена, об этом можно будет узнать по публикации новости на главной странице Корпуса. Планируется, что в графе «Текст» можно будет записать нужную морфему, в графе «Тип морфемы» установить ее тип, в графе «Позиция» указать место морфемы по порядку от начала слова. За счет опции «С учетом чередования» можно выбрать поиск морфемы в виде конкретного заданного в графе «Текст» алломорфа или во всех возможных алломорфах. Так, при запросе ««Текст»: раз; «Тип морфемы»: префикс; «Позиция»: 2; «С учетом чередования»: да» будут искаться слова типа порасспрашивать, пораздавать переразогнуть и др.