Список корпусов текстов

Текстовые корпуса (единственное число: текстовый корпус ) представляют собой большие и структурированные наборы текстов, которые систематически собираются. Текстовые корпуса используются корпусными лингвистами и в других отраслях лингвистики для статистического анализа, проверки гипотез, поиска закономерностей использования языка, исследования языковых изменений и вариаций, а также обучения владению языком. ^[1]

английский язык

Американский национальный корпус
Банк английского языка
КнигаКорпус
Британский национальный корпус
Бергенский корпус лондонского языка подростков (COLT)
Brown Corpus , входящий в «Brown Family» корпусов вместе с LOB , Frown и F-LOB.
Корпус современного американского английского языка (COCA) 425 миллионов слов, 1990–2011 гг. Свободный поиск в Интернете
База данных ресурсов корпуса (CoRD), более 80 корпусов английского языка. ^[2]
Coruña Corpus, корпус поздней современной английской научной литературы, охватывающий период 1700–1900 годов, разработанный исследовательской группой Muste в Университете Ла-Коруньи.
DBLP Discovery Dataset (D3), набор публикаций по информатике с разумными метаданными. ^[3]
Корпус GUM, многослойный корпус Джорджтаунского университета с открытым исходным кодом, с очень большим количеством слоев аннотаций.
Корпус Ngram Google Книг ^[4]^[5]
Международный корпус английского языка
Оксфордский корпус английского языка
RE3D (набор данных для оценки извлечения связей и сущностей)
Корпус разговорного американского английского в Санта-Барбаре
Шотландский корпус текстов и речи
Страти Корпус канадского английского языка

Европейские языки

CETENFолья
Баскский: ^[6]
Корпус электронных текстов
Corpus Inscriptionum Insularum Celticarum (CIIC), охватывающий примитивные ирландские надписи на огаме.
Корпус Нграмм Google Книги
Корпус грузинского языка
Тезаурус Linguae Graecae (древнегреческий)
Восточноармянский национальный корпус (ВАНК) 110 миллионов слов. Свободный поиск в Интернете.
Корпус испанских текстов Молино де Идеи, содержащий 660 миллионов слов. ^[7]
CorALit: Корпус академических литовских академических текстов, опубликованных в 1999–2009 гг. (около 9 миллионов слов). Составлено в Вильнюсском университете, Литва ^[8]
Справочный корпус современного португальского языка (CRPC)
Турецкий национальный корпус ^[9]
CoRoLa - Справочный корпус современного румынского языка (Corpus reprezentativ al immbii române contemporane)
TS Corpus — большой набор турецких корпусов. TS Corpus — это бесплатный и независимый проект, целью которого является создание турецких корпусов, инструментов НЛП и наборов лингвистических данных...
MacMorpho - аннотированный корпус бразильско-португальского текста.

славянский

Восточнославянский

Белорусский Н-корпус
Русский национальный корпус
Общий интернет-корпус русского языка
Общий регионально аннотированный корпус украинского языка
Корпус украинского языка на лингвистическом портале Mova.info
Корпус украинского языка
Аранеум Руссикум
Русский корпус биографических текстов ^[10]
РуТвитКорп ^[11]
RusAge: Корпус возрастной классификации текстов

Южнославянский

Болгарский национальный корпус ^[12]
Македонский электронный корпус ^[13]
Корпус хорватского языка
Хорватский национальный корпус
Словенский национальный корпус

Западнославянский

Немецкий

Справочный корпус немецкого языка (DeReKo) Более 4 миллиардов слов современного письменного немецкого языка.
Бесплатный корпус немецких ошибок от людей с дислексией

Ближневосточные языки

Корпус Inscriptionum Semiticarum
Канаанские и арамейские книги
Корпус Хамшахри ( персидский )
Персидский в корпусе MULTEXT-EAST (персидский) ^[15]
Буквы Амарны ( аккадские , египетские, шумерограммы и т. д.)
TEP: Тегеранский англо-персидский параллельный корпус ^[16]
TMC: Тегеранский одноязычный корпус , Стандартный корпус для моделирования персидского языка ^[16]
PTC: Корпус персидского языка сегодня: наиболее часто встречающиеся слова современного персидского языка, основанный на корпусе из миллиона слов (на персидском языке: Vāže-hā-ye Porkārbord-e Fārsi-ye Emrūz ), Хамид Хассани , Тегеран, Иранский языковой институт ( ИЛИ), 2005, 322 стр. ISBN 964-8699-32-1 .
Kurdish-corpus.uok.ac.ir (диалект курдского корпуса сорани) Университет Курдистана, факультет английского языка и лингвистики
Корпус Биджанхана. Современный персидский корпус исследований НЛП, Тегеранский университет , 2012 г.
Проект неоассирийского текстового корпуса
Коранический арабский корпус (классический арабский язык)
Электронный текстовый корпус шумерской литературы
Открытый богато аннотированный клинописный корпус
Текстовый корпус Asosoft ^[17] - Центрально-курдский (Сорани)
Thesaurus Linguae Aegyptiae (древнеегипетский, афро-азиатский)

Деванагари

Корпус непальских текстов (более 90 миллионов слов/6,5+ миллионов предложений)

Восточноазиатские языки

Корпус японского языка Котоноха ^[18]
Синхронный корпус LIVAC (китайский)

Южноазиатские языки

Хинди : ^[19]
Набор данных SinMin ^[20] ( сингальский )

африканские языки

Амхарский : ^[21]
Креольский (Гвинейский залив) : ^[22]
Хауса : ^[23]
Игбо : ^[24]
Оромо : ^[25]
Йоруба : ^[26]
Зулу : ^[27]

Параллельные корпуса разных языков

Корпус политического устного перевода на китайский/английский язык (CEPIC) ^[28]^[29] состоит из стенограмм речей ведущих политических деятелей из Гонконга, Пекина, Вашингтона и Лондона, а также их переведенных/интерпретированных текстов. Разработано Джун Паном и библиотекой HKBU.
Europarl Corpus - протоколы Европейского парламента с 1996 по 2012 год.
Корпус EUR-Lex - коллекция всех официальных языков Европейского Союза, созданная на основе базы данных EUR-Lex ^[30]
OPUS: Параллельный корпус с открытым исходным кодом на многих языках ^[31]
Татоэба Параллельный корпус, содержащий более 8,9 миллионов предложений на нескольких языках; В 107 языках более 1000 предложений каждый; еще в 81 языке содержится от 100 до 1000 предложений каждый. ^[32]
NTU-Multilingual Corpus на 7 языках (ara, eng, ind, jpn, kor, mcn, vie) ^[33] (устаревший репозиторий)
Корпус SeedLing — исходный корпус для проекта человеческого языка, включающий более 1000 языков из различных источников. ^[34]
Параллельные тексты GRALIS для различных славянских языков, составленные Институтом славянских языков Университета Граца (Бранко Тошович и др.).
Параллельный корпус ACTRES (P-ACTRES 2.0) — это двунаправленный англо-испанский корпус, состоящий из оригинальных текстов на одном языке и их переводов на другой. P-ACTRES 2.0 содержит более 6 миллионов слов, рассматривающих оба направления вместе. ^[35]
Многоязычный параллельный корпус JRC-Acquis, содержащий полный свод законов Европейского Союза (ЕС): Acquis Communautaire с 231 языковой парой. ^[36]
Параллельный корпус заседаний Европейского парламента, 1996–2011 гг.
Целью проекта Opus является сбор параллельных корпусов в свободном доступе.
Японско-английский двуязычный корпус статей о Киото в Википедии, заархивированный 22 августа 2012 г. в Wayback Machine.
COMPARA – параллельные португальско-английские корпуса
TERMSEARCH – параллельные корпуса на английском/русском/французском языках (основные международные договоры, конвенции, соглашения и т. д.).
TradooIT – английский/французский/испанский – бесплатные онлайн-инструменты
Нунавут Хансард - параллельный корпус английского и инуктитутского языков
ПараСоль – параллельный корпус славянских и других языков.
Glosbe: Многоязычные параллельные корпуса. Архивировано 27 мая 2013 г. в Wayback Machine с интерфейсом онлайн-поиска.
InterCorp: многоязычный параллельный корпус из 40 языков, согласованный с чешским, интерфейс онлайн-поиска.
myCAT – Olanto, concordancer (AGPL с открытым исходным кодом) с онлайн-поиском в корпусе JCR и UNO
TAUS, с интерфейсом онлайн-поиска.
linguatools многоязычные параллельные корпуса, интерфейс онлайн-поиска.
EUR-Lex Corpus - корпус, созданный на основе базы данных EUR-Lex, состоит из законов Европейского Союза и других официальных документов Европейского Союза.
Language Grid – многоязычная сервисная платформа, включающая параллельные текстовые сервисы.

Сопоставимая корпорация

Корпус политических речей содержит четыре сборника политических речей на английском и китайском языках из «Корпуса президентских речей США (1789–2015 гг.), «Корпуса политических выступлений губернаторов Гонконга (1984–1996 гг.)» и руководителей Гонконга (1997–2014 гг.). ), Корпус речей президентов Тайваня в новогодние дни и двойные десятые дни (1978–2014 гг.) И Корпус докладов о работе правительства премьер-министров Китайской Народной Республики (1984–2013 гг.). Разработано Библиотекой ХКБУ.
WaCky - The Web-As-Corpus Kool Yinitiative Веб как корпус (англ, fre, deu, ita)
Коллекция корпусов устранения неоднозначности на похожих языках (DSLCC) ^[37] (боснийский, хорватский, сербский, индонезийский, малайский, чешский, словацкий, бразильский португальский, европейский португальский, полуостровный испанский, аргентинский испанский)
Wikipedia Comparable Corpora ( требуется регистрация ), когда (41 миллион согласованных статей Википедии для 253 языковых пар)
Семейство TenTen Corpus — сопоставимые веб-корпусы целевого размера в 10 миллиардов слов. Эти корпуса доступны в системе управления корпусами Sketch Engine , на данный момент существуют корпуса TenTen для более чем 30 языков (например, английский корпус TenTen, ^[38] арабский корпус TenTen, ^[39] испанский корпус TenTen, ^[40] русский корпус TenTen. , ^[41]^[42] ). Обзор существующих корпораций TenTen можно найти по адресу https://www.sketchengine.co.uk/documentation/tenten-corpora/.
Веб-корпуса JSI с отметкой времени – веб-корпуса новостных статей, сканированные из списка RSS-каналов. Корпуса новостных лент готовятся в рамках проекта, реализуемого Институтом Йожефа Стефана при словенском научно-исследовательском институте. ^[43] и опубликовано в Sketch Engine. Более подробная информация о проекте размещена на сайтах проекта.

L2 (английский) Corpora

Кембриджский учебный корпус ^[44]
Корпус академического письменного и разговорного английского языка (CAWSE), ^[45] сборник образцов английского языка китайских студентов в академических условиях. Бесплатное скачивание в Интернете.
Английский как лингва-франка в академической среде (ELFA), ^[46] академический корпус ELF. ^[47]^[48]
Международный корпус изучающего английский язык (ICLE), ^[49] корпус изучаемого письменного английского языка.
Международная база данных межъязыкового разговорного английского языка Лувена (LINDSEI), ^[50] совокупность разговорного английского языка учащихся.
Trinity Lancaster Corpus, один из крупнейших корпусов разговорного английского языка L2. ^[51]^[52]
Корпус Института английского языка Питтсбургского университета (PELIC) ^[53]
Венско-Оксфордский международный корпус английского языка (VOICE), ^[54] корпус ELF. ^[47]

Смотрите также

Корпуса древних текстов