На страницах Интернета можно найти ссылки и описания для многих электронных языковых ресурсов, включая корпуса для разных языков, словари и т.п. (см., например, ссылки на другие корпуса на сайте Национального корпуса русского языка http://ruscorpora.ru/corpora-other.html). Однако часто мы сталкиваемся с тем, что список ресурсов слишком велик и требуется очень много времени, чтобы его изучить. Нередко приводятся только ссылки, по которым сложно понять, какие возможности предоставляет нам тот или иной ресурс. Иногда мы теряемся в море ссылок, и хотелось бы, чтобы кто-то нам дал краткий и дельный совет, к какому ресурсу обратиться с нашей конкретной задачей. Ведь вполне возможно, что кто-то уже сталкивался с подобным вопросом и знает ответ на него.
Эта страница предназначена
- для тех, кто хотел бы для своих исследований воспользоваться каким-то специальным электронным языковым ресурсом или программой, но не знает, где и как такой ресурс можно найти, какой из ресурсов мог бы лучше подойти для его задачи;
- для тех, кто хотел бы поделиться такой информацией. Надеемся, что совместными усилиями участников форума вопросы такого рода можно будет разрешить.
Приведенные ниже краткие комментарии к ссылкам на некоторые корпуса текстов по разным языкам и на словари – шаг к тому, чтобы совместными усилиями создать коллективный “путеводитель” по «дебрям» лингвистических ресурсов и программ в Интернете.
- Национальный корпус русского языка
- Хельсинкский аннотированный корпус русских текстов ХАНКО
- Компьютерный корпус текстов русских газет конца ХХ века
- Национальный корпус русского литературного языка
- Регенсбургский диахронический корпус русского языка (древнерусские тексты)
- Параллельный корпус переводов «Слова о полку Игореве»
- Рукописные памятники Древней Руси: берестяные грамоты, летописи, рукописная книга
- Машинный фонд русского языка
- Тюбингенский и Упсальский корпуса
Эта страница предназначена:
- для тех, кто хотел бы для своих исследований воспользоваться каким-то специальным электронным языковым ресурсом или программой, но не знает, где и как такой ресурс можно найти, какой из ресурсов мог бы лучше подойти для его задачи;
- для тех, кто хотел бы поделиться такой информацией. Надеемся, что совместными усилиями участников форума вопросы такого рода можно будет разрешить.
Приведенные ниже краткие комментарии к ссылкам на некоторые корпуса текстов по разным языкам и на словари — шаг к тому, чтобы совместными усилиями создать коллективный «путеводитель» по «дебрям» лингвистических ресурсов и программ в Интернете.
Корпуса, созданные Марком Дэвисом
Ряд корпусов английского языка, а также испанский и португальский корпус созданы профессором корпусной лингвистики Марком Дэвисом. Интерфейс к ним позволяет осуществлять удобный поиск по корпусам очень большого объема. Все они снабжены морфологической аннотацией. Возможен поиск с использованием специальных символов для неточного поиска. Искать можно по слову, словосочетанию из 2-х слов, грамматической конструкции, сравнивать синонимы. Эти корпуса также имеют некоторые интересные и уникальные возможности поиска. Во-первых, в них можно запрашивать информацию о синонимических группах слов, а также искать по спискам, задаваемым самим пользователем. Во-вторых, в них предоставляется информация о распределении частоты употребления искомого языкового выражения по жанрам и по годам. Подробнее о корпусах Марка Дэвиса смотри ниже.
Корпуса проекта VISL
Проект VISL Института языка и коммуникации (Institute of Language and Communication (ISK)) Университета южной Дании представляет собой исследования в области машинных ресурсов для обучения и анализа языков, разработку различных программ автоматической обработки текстов. В рамках этого проекта разрабатывается инструментарий для обучения языку и для лингвистических исследований, включая морфологические и синтаксические анализаторы, системы машинного перевода для большого количества языков. Для этих целей используются корпуса анализируемых в рамках проекта языков, размеченные морфологически, некоторые из них имеют и синтаксическую разметку. Это корпуса английского, немецкого, французского, датского, эсперанто, эстонского, португальского языков. Поскольку фокус исследований в рамках данного проекта — разработка инструментария, то авторы корпусов не ставят целью обеспечить сбалансированные представительные корпуса для анализируемых языков. Для многих языков корпуса представляют собой тексты Википедии либо соответствующую часть мультиязычного корпуса текстов документов Европарламента.
Корпуса, доступные с сайта университета Лидс
С сайта университета Лидс доступно большое количество корпусов. Это коллекции корпусов английского языка, корпусов русских текстов, корпусов китайского языка, Интернет-корпуса для многих других языков. Полный список корпусов можно найти по адресу http://corpus.leeds.ac.uk/list.html.
Поисковый интерфейс предоставляет интересные возможности. Он позволяет вести очень точный поиск, поскольку дает возможность использовать специальный язык запросов. Кроме того, результаты легко копируются в таблицу Excel. Можно также получить информацию о коллокациях, в которые входят интересующие пользователя языковые выражения (слова и словосочетания).
Существует достаточно много корпусов английского языка. Некоторые из них упоминаются
почти в каждом учебнике по корпусной лингвистике и на любом сайте, посвященном корпусам.
Однако многие из них платные, и доступ к ним затруднен. Есть и доступные корпуса с
удобным поисковым интерфейсом. Целая серия общедоступных английских корпусов — это
корпуса, созданные Марком Дэвисом. Со списком этих корпусов можно ознакомиться по
адресу, приведенному выше. Все они имеют одинаковый поисковый интерфейс, обеспечивающий
поиск по разнообразным параметрам. Следует также отметить собрание корпусов, доступных с
сайта университета Лидс.
Corpus of Contemporary American
English (COCA)
Общая характеристика, состав
Самый большой, свободно распространяемый, сбалансированный корпус
английского языка и на данный момент единственный большой корпус
американского английского объемом 445 миллионов словоупотреблений.
Корпус содержит в одинаковых пропорциях устную речь, художественную
литературу, журнальные статьи, газеты, научные тексты. Каждый год
периода с 1990 по 2009 г. представлен текстами объемом 20 миллионами
слов. Корпус обновляется один или два раза в год.
Доступ к корпусу
Доступ к корпусу бесплатный. Требуется регистрация.
Разметка и возможности поиска
Поисковый интерфейс позволяет искать как слова, так и словосочетания,
леммы, а также осуществлять грамматический поиск, поиск синонимических
рядов, осуществлять поиск по спискам пользователя. Можно получить как
все контексты, в которых встречается интересующее пользователя поисковое
выражение, так и информацию о распределении частоты употребления этого
языкового выражения по жанрам и по годам. Для автоматической разметки
корпуса использовалась одна из версий программы CLAWS, специально
предназначенной для разметки английских текстов. Аналогичные возможности
поиска предоставляются и для других корпусов Марка Дэвиса.
Corpus of Historical American English (COHA)
Общая характеристика, состав
Corpus of Historical American English (COHA) – исторический корпус,
содержащий 400 миллионов слов, включающий тексты с 1810 по 2009 гг.
Корпус Марка Дэвиса.
TIME Magazine Corpus of American English
Общая характеристика, состав
TIME Magazine Corpus of American English – 100 миллионов слов, включает
тексты журнала TIME за 1923-2006гг. Корпус Марка Дэвиса.
BYU-BNC: British National Corpus
Общая характеристика, состав
BYU-BNC: British National Corpus – версия Британского национального
корпуса (архитектура и интерфейс Марка Дэвиса).
Корпуса английского языка, доступные с сайта университета Лидс
Общая характеристика, состав
На сайте университета Лидс существует отдельная страничка с корпусами
английского языка, включая корпус текстов Интернета с 2005 года на 160
миллионов слов, составленный автоматически, коллекцию газетных текстов
Reuters, коллекцию текстов самых крупных британских газет, таких как
Гардиан, Телеграф, Таймс и т.п., объемом 200 миллионов, начиная с 2004
года.
Поисковый интерфейс предоставляет интересные возможности. Он позволяет
вести очень точный поиск, поскольку дает возможность использовать
специальный язык запросов. Кроме того, результаты легко копируются в
таблицу Excel. Можно также получить информацию о коллокациях, в которые
входят интересующие пользователя языковые выражения (слова и
словосочетания).
Британский национальный корпус
Общая характеристика, состав
Британский национальный корпус (BNC – British National Corpus) – один из
наиболее известных корпусов английского языка. Один из первых
национальных корпусов, по образцу которого создавались многие
современные корпуса различных языков. Объем корпуса 100 млн слов. Корпус
включает метатекстовую и морфологическую разметку. Корпус сбалансирован
по жанрам. В нем представлены письменная речь — 90%, включая самые
разнообразные по жанру, стилю и тематике тексты, например, газетные,
журнальные тексты, письма, школьные эссе и т.п., и устная — 10%, Корпус
характеризуется использованием полных текстов. Это синхронный корпус
общего назначения. Он отражает состояние британского английского конца
ХХ — начала ХХI веков.
Доступ к корпусу
Полный доступ к корпусу в режиме онлайн отсутствует, хотя некоторые
возможности такого поиска предоставляются. В этом режиме доступны далеко
не все возможности поискового интерфейса, поставляемого вместе с полной
версией корпуса, выдача ограничивается 50 случайными примерами.
Существует доступ к версии корпуса, разработанной Марком Дэвисом по
адресу http://corpus.byu.edu/bnc.
BNC – платный корпус. Он предоставляется пользователю на DVD. Существует
3 варианта:
- Полный корпус.
- BNC baby — 4 подкорпуса определенных жанров: художественная литература,
газеты, академическая письменная речь и устная речь, каждый по 1 млн
слов. - BNC Sampler — включает подкорпуса письменной и устной речи, каждый по 1
млн слов.
>
Разметка и возможности поиска
С помощью корпусного менеджера XAIRA можно искать конкретную словоформу;
все формы одной лексемы по лемме (по исходной форме слова);
словосочетания, включая разрывные; выбранные грамматические формы
лексемы (например, clean – только как прилагательное, но не как глагол);
осуществлять более сложный поиск с использованием специального языка
(CQL – язык запроса к корпусу); искать более сложные конструкции с
использованием специального конструктора запросов; получать информацию
об источниках примеров, информацию об относительной частоте, информацию
о частоте коллокаций.
Bank of English
Общая характеристика, состав
Bank of English — постоянно пополняемый корпус английского языка. Объем
корпуса на данный момент 650 млн. слов, в том числе 65-70% — британский
англ., 25-30% — американский, 5% — прочие. Этот корпус является
подкорпусом одной из крупнейших языковых баз Collins Corpus, которая
используется для создания современных словарей. Корпус служил основой
создания словаря Collins COBUILD (Sinclair, 1991). База ежемесячно
обновляется (сейчас в ней 2.5 биллиона слов) за счет непрерывного
мониторинга веб-сайтов, газет, журналов, книг, радио и телепередач. В
общедоступной версии корпуса существует возможность выбора подкорпуса:
британские книги, газеты, журналы, радиопередачи и др. (36 млн.
словоупотреблений); американские книги, радиопередачи и др. (10 млн.
словоупотреблений); британская устная речь (10 млн. словоупотреблений).
Письменные тексты включают неопубликованные материалы: письма,
неопубликованные рукописи. Этот корпус ориентирован на отслеживание
изменений в словоупотреблении (monitor corpus) путем регулярного
пополнения новыми текстами и сравнения частотных параметров, например,
изменение частоты слов и грамматических конструкций, появление новых
слов и т.п.
Доступ к корпусу
Доступ к полной версии корпуса платный. Возможна пробная бесплатная
подписка на один месяц для получения доступа в Collins Wordbanks Online
(550 млн слов).
Разметка и возможности поиска
Корпус включает метатекстовую разметку, а также частеречную с элементами
морфологической разметки. Можно искать по словоформе, лемме, разрывному
словосочетанию из двух слов, с учетом частеречной разметки. Есть
возможность ограничивать поиск определенным жанром, тематикой, временным
периодом и т.п. Можно также получить полную информацию о частотных
характеристиках слов, об их сочетаемости, включая статистическую
информацию о сочетаемости запрашиваемого слова с другими, сравнивать 2
слова по сочетаемости и т.п., получать группы слов, близкие к данному по
контексту, в котором они встречаются, использовать для запроса
специальный язык запросов CQL.
National American Corpus
Общая характеристика, состав
Национальный корпус американского английского (ANC) – создается как
национальный корпус, аналогичный Британскому Национальному корпусу
(BNC). Планируется как сбалансированный корпус современного языка,
включающий тексты, созданные начиная с 1990 г. На данный момент
существует версия, содержащая 22 миллиона слов.
Доступ к корпусу
Корпус доступен для некоммерческого использования платно,
распространяется через Linguistic Data Consortium (LDC). Часть его, 15
млн слов, — доступна для свободного скачивания с сайта. При этом
поисковый интерфейс к корпусу не прилагается. Поиск в корпусе можно
осуществлять, воспользовавшись специальными программами – корпусными
менеджерами, т.е. программами, не ориентированными на поиск в конкретном
корпусе, а представляющими собой универсальный инструментарий для поиска
в различных корпусах (удовлетворяющих соответствующим стандартам
разметки).
Разметка и возможности поиска
Корпус снабжен метатекстовой, частеречной разметкой. Подкорпус, 11 млн
слов, имеет частичную синтаксическую разметку. Есть также разметка
именованных сущностей (Named Entities, имен собственных для людей,
организаций и географических объектов).
Международный корпус английского языка (International Corpus of English,
ICE
Общая характеристика, состав
Корпус отражает словоупотребление в различных вариантах английского
языка (Австралия, Великобритания, Гонконг, Индия, Ирландия, Канада,
Кения, Малайзия, Новая Зеландия, Сингапур, США, Танзания, Филиппины,
Шри-Ланка, Южная Африка, Ямайка). Каждый подкорпус включает письменные
тексты разных типов и записи устной речи. В настоящее время полностью
подготовлен Британский компонент корпуса (ICE-GB), его тексты снабжены
морфологической и синтаксической разметкой. Объем каждого национального
подкорпуса – 1 млн. словоупотреблений.
Доступ к корпусу
Британский компонент корпуса ICE распространяется на диске на платной
основе, в свободном доступе находится его маленький фрагмент (20 тыс.
словоупотреблений).
Разметка и возможности поиска
Тексты британской части корпуса снабжены морфологической и
синтаксической разметкой. Инструмент, программа по менеджменту и анализу
корпуса называется ICE CUP – International Corpus of English. Corpus
Utility Programme.
Синтаксически размеченный корпус – банк деревьев (Penn TreeBank) [АРХИВ САЙТА]
Общая характеристика, состав
Cинтаксически аннотированный корпус – каждому предложению поставлено в
соответствие синтаксическое дерево. Основную часть корпуса образуют
тексты из Wall Street Journal за 1989 г., корпус также включает
синтаксически размеченный Брауновский корпус (Brown corpus).
Доступ к корпусу
Бесплатный доступ к корпусу предоставляется через LDC (Linguistic Data
Consortium). Доступ возможен через гостевой аккаунт.
Разметка и возможности поиска
Корпус включает морфологическую и синтаксическую разметку.
Brown Corpus
Общая характеристика, состав
Первый в истории представительный корпус, создан в 1960-е гг. Корпус
состоит из 500 прозаических фрагментов в 2000 слов, взятых из текстов,
опубликованных в США в 1961 г. В конце 1970-х гг. корпус был дополнен
разметкой частей речи и морфологических признаков слов. Объем корпуса 1
млн. словоупотреблений.
Доступ к корпусу
Свободный доступ к корпусу возможен с https://the.sketchengine.co.uk/corpus/first_form?corpname=preloaded/brown_1;.
Кроме того, Брауновский корпус распространяется на платной основе
Международным компьютерным архивом современного английского языка
(ICAME) (Берген, Норвегия). Скачать корпус можно здесь.
Разметка и возможности поиска
Корпус включает морфологическую и синтаксическую разметку.
Саарбрюкенский корпус разговорного английского языка (The Saarbrücken
Corpus of Spoken English (SCoSE))
Общая характеристика, состав
Саарбрюкенский корпус разговорного английского языка состоит из трех
подкорпусов:
- Беседы, записанные на магнитофон (большей частью с ведома информантов, в
некоторых случаях тайно) профессором Н. Норриком и студентами
Университета Северного Иллинойса; это, как правило, разговоры в кругу
семьи, среди друзей, коллег и т. п. - Интервью с людьми старше 80 лет в Индианаполисе, записанные проф. Н.
Норриком. - Анекдоты, записанные профессором Н. Норриком и студентами Университета
Северного Иллинойса и Университета Саарланда.
Доступ к корпусу
Тексты корпуса можно скачать в формате pdf с сайта
http://www.uni-saarland.de/fak4/norrick/scose.html
Мангеймские корпуса немецкого языка (COSMAS corpora или DoReKo)
Общая характеристика, состав
Коллекция корпусов, поддерживаемая Институтом немецкого языка в городе Маннгейм (Германия), представляет собой самое большое в мире электронное собрание современных немецкоязычных текстов. Корпуса также известны под именем IDS corpora, а также DeReCo. Первоначально название DeReCo относилось только к части существующих архивов – к коллекции текстов, собранных с 1999 по 2004 гг. Проект создания электронного корпуса текстов немецкого языка возник в шестидесятых годах. Хотя коллекция нацелена на охват максимально возможного объема текстов, а не на сбалансированность их состава, в ней представлены различные типы текстов: художественная проза, научная и научно-популярная литература, периодика и др. Имеется также подкорпус устной речи (разговорная речь, записи речи носителей различных диалектов и др.). Ресурс включает созданную на основе корпуса базу данных по сочетаемости слов немецкого языка. Объем корпуса с 28 миллионов словоупотреблений в 1992 году возрос до более 1,9 миллиардов к 2002 году. Данный корпус содержит 6 основных подкорпусов:
- Корпус письменной речи 1.370.766.704 словоупотребления
- Корпус новых поступлений 181.319.744 словоупотребления
- Archiv der phasengegliederten Wendecorpora 3.813.688 словоупотреблений
- Картотека общества немецкого языка
- Исторический корпус 6.296.361 словоупотребление
- Морфосинтаксически размеченный корпус 29.695.096 словоупотреблений
В свою очередь корпус письменной речи включает в себя 3 собственно Мангеймских корпуса, а также множество других (беллетристика, исторические корпуса, публицистика, собрание сочинений Карла Маркса и Фридрих Энгельса, корпус Томаса Манна, корпус интервью и т.д.).
Доступ к корпусу
Корпус довольно сложен в использовании, требует установки специальной программы (оболочки COSMAS II) и регистрации, в открытом бесплатном доступе выложены далеко не все подкорпуса. Возможен тестовый очень ограниченный онлайн поиск.
Разметка и возможности поиска
Лемматизация и морфологическая разметка есть, но не во всех корпусах. С помощью специальной программы COSMAS, устанавливаемой на компьютере пользователя, обеспечиваются достаточно большие возможности поиска: можно искать слова, словосочетания, в том числе разрывные, грамматические конструкции, информацию о коллокациях. Для поиска используется свой собственный язык запросов.
LIMAS-корпус
Общая характеристика, состав
Корпус создавался в рамках проекта создания немецко-английского машинного перевода и состоит из 500 текстовых фрагментов 1970 г. по 2000 словоупотреблений. Общий объем корпуса 1 млн словоупотреблений. Тематика текстов включает 33 предметные области.
Корпус немецкого языка DWDS
Общая характеристика, состав
Корпус был создан Берлинско-Бранденбургской Академией наук.Он включает несколько подкорпусов:
- художественная литература (26%);
- газета Zeitung (27%);
- научная литература (22%);
- нехудожественные тексты (20%);
- устные тексты (5%).
В газетный корпус вошли все издания газеты «Zeit» с 1996 года по 2007 год, а также 22 издания 1946-1988 гг. В итоге корпус включает 106 миллионов слов и более 200.000 статей.
Синтаксически аннотированный корпус немецкого языка NEGRA
Общая характеристика, состав
Синтаксически аннотированный корпус немецких газетных текстов. Корпус содержит около 20000 предложений (350 миллионов слов). Корпус бесплатно доступен для исследовательских целей после подписания специальной лицензии.
К сожалению, на данный момент нам неизвестны доступные лингвистически аннотированные корпуса французского языка, сопоставимые по объему, составу и типам лингвистической разметки, например, с Национальным британским корпусом. Французский язык представлен в многочисленных параллельных и многоязычных корпусах. Также обычно упоминается текстовая база ARTFL.
ARTFL-FRANTEXT
Общая характеристика, состав
ARTFL-FRANTEXT – библиотека текстов, включающая более чем 2900 текстов на французском языке с 12 по 20 века. Она содержит 168 миллионов словоупотреблений. Возможен поиск по отдельным текстам. Можно искать слова, словосочетания. Морфологическая разметка отсутствует.
Lexiqum
Общая характеристика, состав
Это корпус, созданный совместно Secrétariat à la politique linguistique du gouvernement du Québec и Монреальским Университетом для лингвистических исследований, особенно для изучения совместной лексической встречаемости и синтаксической сочетаемости различных выражений. Объём корпуса – около 229 млн. слов. Этот корпус позволяет искать в разных корпусах (франко-канадской прессы, Interface, Lemйac, La Presse, Университета Монреаля и журнала о работе Национальной Ассамблеи), в которые в свою очередь входят статьи из франкоязычных журналов и газет, научные, художественные, тексты, дебаты. Эти корпуса включают в себя статьи, опубликованные в газетах или периодических французских изданиях: Le Devoir, La Presse, Le Soleil, Le Droit, Voir et L’Actualité, тексты журнала Interface (Découvrir), литературные тексты от издателя Leméac, тексты Университета Монреаля, работы Национальной Ассамблеи. Всего насчитывается около 229 миллионов слов.
Доступ к корпусу
Поиск доступен по адресу: http://retour.iro.umontreal.ca/cgi-bin/lexiqum.
Разметка и возможности поиска
Возможен поиск по различным подкорпусам. Выдача ограничена до 500 предложений. Длина выдаваемого контекста до 200 символов. Какая-либо разметка, кроме метатекстовой, отсутствует. Поиск по лемме отсутствует, возможен только поиск по точной форме. Можно использовать подстановочные знаки для «неточного поиска» (например, на запрос “bon+” получить следующие формы bon, bons, bonne, bonnes).
Корпуса французского языка, доступные в проекте VISL
Общая характеристика, состав
С сайта доступны корпуса текстов документов Европарламента (французская часть мультиязычного корпуса) и тексты Википедии (часть корпуса текстов Википедии на 9-ти языках). Это часть проекта VISL Института языка и коммуникации (Institute of Language and Communication (ISK)) Университета южной Дании. Объем корпуса текстов Википедии около 38 миллионов слов.
Доступ к корпусу
Свободный доступ к открытой части французских корпусов (тексты Европарламента и тексты Википедии) возможен по адресу: http://corp.hum.sdu.dk/cqp.fr.html.
Разметка и возможности поиска
Есть лемматизация и морфологическая разметка. Тексты Европарламента имеют синтаксическую разметку, т.е. для французского языка в рамках проекта VISL представлен банк синтаксических деревьев. Поиск осуществляется поисковым интерфейсом, разработанным в рамках данного проекта с использованием специального языка запросов. Поиск возможен по словам, словосочетаниям, морфологическим и синтаксическим характеристикам.
Исторический корпус испанского языка CORPUS DEL ESPAСOL
Общая характеристика, состав
Исторический корпус испанского языка, в котором представлены тексты с 13 по 20 века. Один из корпусов, созданных профессором Марком Дэвисом (см. выше). В корпусе содержится 100 миллионов слов из более чем 20000 испанских текстов (20 миллионов слов из текстов 1900-х, 20 миллионов из 1800-х, 40 миллионов из 1500-1700-х и 20 миллионов из 1200-1400-х годов).
Доступ к корпусу
Корпус находится в свободном доступе. Требуется регистрация.
Разметка и возможности корпуса
Как и в остальных корпусах Марка Дэвиса, в корпусе есть лемматизация и морфологическая разметка. Возможен поиск по словоформе, лемме, словосочетанию из двух слов, синонимическому ряду, списку слов, заданному пользователем, сравнение синонимов по сочетаемости, предоставляется информация о частоте употребления языкового выражения по векам, что особенно важно для исторического корпуса.
Корпус испанского языка Corpus de Referencia del Español Actual (CREA)
Общая характеристика, состав
Представительный корпус испанского языка, отражающий язык во всех его национальных вариантах за период с 1975 по 1999 гг. 50% корпуса образуют европейские тексты, 50% — латиноамериканские тексты. 90% объема корпуса занимают письменные тексты, 10% приходится на долю записей устной речи. Корпус является проектом Испанской Королевской Академии. Корпус характеризуется использованием целых текстов. Тексты снабжены метаразметкой.
Доступ к корпусу
Корпус имеет свободный доступ онлайн.
Разметка и возможности корпуса
Корпус имеет только метаразметку. То есть поиск может осуществляться в различных подкорпусах, задаваемых по жанру, времени создания текста, стране и т.п. Искать можно по словоформе или группе словоформ. Планируемый объем корпуса 125 миллионов словоупотреблений.
Диахронический корпус испанского языка Corpus Diacrуnico del Espaсol (CORDE)
Общая характеристика, состав
Диахронический корпус испанского языка (Испанская Королевская Академия) включает тексты различных типов (художественные (проза, поэзия, драматургия), дидактические, религиозные, общественные, научные, документально-исторические, юридические), отражающие различные исторические эпохи: 21% объема приходится на тексты, написанные до 1492 г., 28% — на тексты, написанные с 1493 по 1713 гг., 51% — на тексты, написанные с 1714 по 1974 гг. По географическому признаку тексты разделены следующим образом: 74% образуют тексты, созданные в Испании, 26% — тексты, созданные в других регионах.
Доступ к корпусу
Корпус имеет свободный доступ онлайн.
Корпус итальянских текстов Болонского университета CORIS
Общая характеристика, состав
CORIS — корпус письменного итальянского языка стал доступным в сентябре 2001 года. Этот проект, разработанный и скоординированный профессором Россини Фавретти, был начат еще в 1998 году с целью создать общий корпус письменных итальянских текстов в университете Альма Матер Студиорум в Болонии. Этот корпус доступный и удобный в использовании. Первоначальный объем корпуса 100 миллионов слов, на данный момент его объем составляет 110 миллионов слов. Корпус периодически обновляется. Корпус состоит из макроотделов, подкорпусов, которые потом разложимы на секции и подсекции. Корпус состоит на 40 % из прессы (журнальные и газетные статьи), 25 % художественных текстов, а именно прозы, примерно 13 % академической прозы, 9% юридических и административных текстов, 9% «литературной смеси» (то есть всего понемногу) и 5 % печатной продукции одноразового использования (листовки, рекламки и т.п.))
Вместе с корпусом CORIS предусмотрен также корпус CODIS – динамический корпус письменного итальянского языка.
Доступ к корпусу
Корпус имеет свободный доступ online. Необходима регистрация.
Разметка и возможности корпуса
Возможности поиска в корпусе ограничены. Поиск возможен по словам. С использованием специальных символов в запросе можно искать словосочетания и различные формы одной лексемы, но поиск по исходной форме слова не осуществляется. Грамматическая разметка отсутствует.
Корпус португальского языка Corpus do Português (один из корпусов, разработанных Марком Дэвисом)
Общая характеристика, состав
Корпус португальского языка, в котором представлены тексты с 13 по 20 века. Это один из корпусов, созданных профессором Марком Дэвисом (см. выше). Корпус был создан совместно с Михаэлем Феррейра (Michael Ferreira). В корпусе содержится 45 миллионов слов из почти 57 тысяч текстов. Тексты 20 века составляют 20 миллионов слов, 19 века – 10 миллионов слов, оставшиеся 15 миллионов слов приходятся на тексты с 13 по 18 век. Подкорпус 20 века включает в себя художественную литературу (6 миллионов), газетные и журнальные тексты (6 миллионов), тексты, относящиеся к академическому дискурсу (6 миллионов), а также устные тексты (2 миллиона). В подкорпусе 20 в. представлен также бразильский вариант португальского языка.
Доступ к корпусу
Корпус имеет свободный доступ online.
Разметка и возможности корпуса
Корпус, как и остальные корпуса, использующие интерфейс, разработанный Марком Дэвисом, имеет широкие возможности поиска. Возможны поиск и сравнение употребления некоторой языковой единицы по подкорпусам в соответствии с заданным жанром, периодом времени, вариантом языка. Возможны поиск по словоформам, леммам, морфологическим характеристикам, поиск коллокаций, синонимов, создание собственных пользовательских списков, по которым осуществляется поиск и сравнение. Можно получить информацию о частотном распределении языковых единиц по векам, жанрам, вариантам португальского.
Корпус португальского языка PAROLE Portuguese Corpus
Общая характеристика, состав
Корпус является одним из ресурсов Европейской ассоциации языковых ресурсов (ELRA). Объем корпуса 3 миллиона слов. Из них газетные тексты за период 1996-1997 гг. составляют 65%, книги — 20%, 5% составляет подкорпус 7 недельных выпусков одного периодического издания за 1996г., 10% — прочее. Корпус включает также подкорпус объемом 250 тыс. слов с грамматической разметкой.
Доступ к корпусу
Корпус распространяется платно на CD по лицензии Ассоциации.
Разметка и возможности корпуса
Корпус размечен в соответствии с современными стандартами разметки в формате SGML. Подкорпус (250 тыс. слов) имеет морфологическую и синтаксическую разметку со снятой омонимией, проверенной вручную.
Национальный корпус чешского языка
Общая характеристика, состав
Национальный корпус чешского языка создан в Карловом университете Праги и представляет собой сбалансированный представительный корпус. Создан в середине 1990-х годов. Проект чешских корпусов включает несколько независимых корпусов. SYN2000 — синхронный корпус чешского языка 1990—1999 гг. (пресса — 60%, массовая беллетристика — 15%, специализированные тексты — 25%) — 100 млн. слов. Доступен в Интернете, платный. SYNEK — подкорпус SYN2000 с сохранением баланса текстов — 10 млн. слов. С 2002 года распространяется в оффлайновой версии на CD. PUBLIC — подкорпус SYN2000 с сохранением баланса текстов — 20 млн. слов.
Доступ к корпусу
Доступ к наиболее полному корпусу платный. Есть бесплатный доступ к подкорпусу SYN2000 в Интернете с сохранением баланса текстов — 20 млн. слов.
Разметка и возможности корпуса
Корпус имеет метаразметку, что позволяет получать информацию об употреблении языковых единиц по отдельным жанрам, периодам и т.п. Также есть морфологическая разметка. Возможен поиск как по словоформе, так и по лемме, а также по грамматической информации. Доступна информация о частотном распределении языковых единиц (о плотности распределения), а также информация о коллокациях.
The Prague Dependency Treebank 2.0
Общая характеристика, состав
Синтаксически аннотированный корпус чешского языка (PDT) – это проект лингвистического (морфологического, синтаксического, семантического, прагматического и др.) аннотирования текстов, разрабатываемый в настоящее время в Институте формальной и прикладной лингвистики физико-математического факультета Карлова университета в Праге. Последняя версия проекта, PDT 2.0, содержит большое количество чешских текстов (2 млн. словоупотреблений) с аннотацией (взаимосвязанной) на трех уровнях – морфологическом (2 млн. слов), поверхностно-синтаксическом (1.5 млн. слов) и глубинно-синтаксическом (0.8 млн. слов).
Доступ к корпусу
Доступ к корпусу возможен через LDC (Linguistic Data Consorcium). Полная версия распространяется на CD. Возможен доступ к небольшой части корпуса непосредственно с сайта корпуса. Доступ предоставляется после регистрации.
Разметка и возможности корпуса
Корпус имеет морфологическую и синтаксическую разметку. Используются самые современные способы аннотации (раздельная аннотация уровней с использованием XML, RelaxNG). К корпусу также прилагается отдельная поисковая программа Netgraph, позволяющая производить сложный поиск по многим параметрам и собирать материал и статистические данные для лингвистических исследований.
Polish and English Language Corpora for Research and Applications (PELCRA) — Korpus referencyjny języka polskiego
Общая характеристика, состав
Корпус разрабатывается исследовательской группой Кафедры английского языка университета г. Лодзь. Основная цель — создание большого справочного сбалансированного корпуса польского языка. Долгосрочной целью работ над этим корпусом является разработка Польского Национального Корпуса. Объем корпуса 100 000 000 словоупотреблений (точнее, 93 129 588). Состав корпуса: 90% — письменный язык (беллетристика, техническая литература, статьи из прессы, в т.ч. из молодежных журналов, научные статьи, а также неопубликованные письма, рекламные листовки, работы студентов). При этом 95% — тексты 1992–2003 годов. 10% — устный язык (163 записи разговоров людей разного возраста, образования и пола, 58:40 часов). На данный момент в корпусе только 600000 слов. Кроме бытовых диалогов, есть и формальный регистр: публичные выступления, переговоры, радиодебаты и т.п.
Доступ к корпусу
Доступ к корпусу свободный в режиме online.
Разметка и возможности корпуса
Представлена метаразметка. Есть лемматизация. Грамматическая разметка отсутствует. Поиск осуществляется с помощью специального языка запросов.
PWN Corpus of Polish (Korpus Języka Polskiego Wydawnictwa Naukowego)
Общая характеристика, состав
Корпус представляет собой текстовую базу для создания словарей польского языка. Полная версия корпуса содержит 40 миллионов словоупотреблений. Он включает тексты 386 книг, тексты 977 периодических изданий, 84 транскрибированных устных текста, 207 Веб-страниц и несколько сотен текстов рекламы.
Доступ к корпусу
Корпус платный. Существует бесплатная демонстрационная версия объемом 7,5 миллионов слов.
Разметка и возможности корпуса
Грамматическая разметка отсутствует. Возможен поиск по слову или словосочетанию.
Корпус польского языка Korpusu IPI PAN
Общая характеристика, состав
Корпус содержит около 250 миллионов словоупотреблений. Он разрабатывается группой Linguistic Engineering Group в Институте компьютерных наук Польской академии наук (Institute of Computer Science, Polish Academy of Sciences (ICS PAS)).
Доступ к корпусу
Корпус доступен для скачивания вместе с корпусным менеджером для поиска в корпусе (Poliqarp). Также возможен онлайн поиск по адресу http://korpus.pl/poliqarp/poliqarp.php.
Разметка и возможности корпуса
Корпус имеет лемматизацию и морфологическую разметку. Возможен поиск по словоформам, леммам и грамматическим характеристикам.
- Сборник статей по русскому языку, написанных с применением корпусных методов
- Библиография публикаций по НКРЯ
- Словари, созданные на основе Национального корпуса русского языка
- Сайт со ссылками на корпусные ресурсы
- Библиография англоязычных работ по корпусу и корпусным методикам преподавания
- Книга J.M. Sinclair «How to use corpora in language teaching”
- Статья об использовании корпуса в преподавании английского языка с библиографией
- Сайт со ссылками на различные статьи по корпусам
- Сайт Санкт-Петербургского государственного университета, посвященный корпусной лингвистике
- Лекция В.А. Плунгяна о корпусах и корпусной лингвистике