Обзор наборов данных языков
Текстовые корпуса (единственное число: текстовый корпус ) представляют собой большие и структурированные наборы текстов, которые систематически собираются. Текстовые корпуса используются корпусными лингвистами и в других отраслях лингвистики для статистического анализа, проверки гипотез, поиска закономерностей использования языка, исследования языковых изменений и вариаций, а также обучения владению языком. [1]
английский язык
- Американский национальный корпус
- Банк английского языка
- КнигаКорпус
- Британский национальный корпус
- Бергенский корпус лондонского языка подростков (COLT)
- Brown Corpus , входящий в «Brown Family» корпусов вместе с LOB , Frown и F-LOB.
- Корпус современного американского английского языка (COCA) 425 миллионов слов, 1990–2011 гг. Свободный поиск в Интернете
- База данных ресурсов корпуса (CoRD), более 80 корпусов английского языка. [2]
- Coruña Corpus, корпус поздней современной английской научной литературы, охватывающий период 1700–1900 годов, разработанный исследовательской группой Muste в Университете Ла-Коруньи.
- DBLP Discovery Dataset (D3), набор публикаций по информатике с разумными метаданными. [3]
- Корпус GUM, многослойный корпус Джорджтаунского университета с открытым исходным кодом, с очень большим количеством слоев аннотаций.
- Корпус Ngram Google Книг [4] [5]
- Международный корпус английского языка
- Оксфордский корпус английского языка
- RE3D (набор данных для оценки извлечения связей и сущностей)
- Корпус разговорного американского английского в Санта-Барбаре
- Шотландский корпус текстов и речи
- Страти Корпус канадского английского языка
Европейские языки
- CETENFолья
- Баскский: [6]
- Корпус электронных текстов
- Corpus Inscriptionum Insularum Celticarum (CIIC), охватывающий примитивные ирландские надписи на огаме.
- Корпус Нграмм Google Книги
- Корпус грузинского языка
- Тезаурус Linguae Graecae (древнегреческий)
- Восточноармянский национальный корпус (ВАНК) 110 миллионов слов. Свободный поиск в Интернете.
- Корпус испанских текстов Молино де Идеи, содержащий 660 миллионов слов. [7]
- CorALit: Корпус академических литовских академических текстов, опубликованных в 1999–2009 гг. (около 9 миллионов слов). Составлено в Вильнюсском университете, Литва [8]
- Справочный корпус современного португальского языка (CRPC)
- Турецкий национальный корпус [9]
- CoRoLa - Справочный корпус современного румынского языка (Corpus reprezentativ al immbii române contemporane)
- TS Corpus — большой набор турецких корпусов. TS Corpus — это бесплатный и независимый проект, целью которого является создание турецких корпусов, инструментов НЛП и наборов лингвистических данных...
- MacMorpho - аннотированный корпус бразильско-португальского текста.
славянский
Восточнославянский
- Белорусский Н-корпус
- Русский национальный корпус
- Общий интернет-корпус русского языка
- Общий регионально аннотированный корпус украинского языка
- Корпус украинского языка на лингвистическом портале Mova.info
- Корпус украинского языка
- Аранеум Руссикум
- Русский корпус биографических текстов [10]
- РуТвитКорп [11]
- RusAge: Корпус возрастной классификации текстов
Южнославянский
Западнославянский
Немецкий
Ближневосточные языки
- Корпус Inscriptionum Semiticarum
- Канаанские и арамейские книги
- Корпус Хамшахри ( персидский )
- Персидский в корпусе MULTEXT-EAST (персидский) [15]
- Буквы Амарны ( аккадские , египетские, шумерограммы и т. д.)
- TEP: Тегеранский англо-персидский параллельный корпус [16]
- TMC: Тегеранский одноязычный корпус , Стандартный корпус для моделирования персидского языка [16]
- PTC: Корпус персидского языка сегодня: наиболее часто встречающиеся слова современного персидского языка, основанный на корпусе из миллиона слов (на персидском языке: Vāže-hā-ye Porkārbord-e Fārsi-ye Emrūz ), Хамид Хассани , Тегеран, Иранский языковой институт ( ИЛИ), 2005, 322 стр. ISBN 964-8699-32-1 .
- Kurdish-corpus.uok.ac.ir (диалект курдского корпуса сорани) Университет Курдистана, факультет английского языка и лингвистики
- Корпус Биджанхана. Современный персидский корпус исследований НЛП, Тегеранский университет , 2012 г.
- Проект неоассирийского текстового корпуса
- Коранический арабский корпус (классический арабский язык)
- Электронный текстовый корпус шумерской литературы
- Открытый богато аннотированный клинописный корпус
- Текстовый корпус Asosoft [17] - Центрально-курдский (Сорани)
- Thesaurus Linguae Aegyptiae (древнеегипетский, афро-азиатский)
Деванагари
- Корпус непальских текстов (более 90 миллионов слов/6,5+ миллионов предложений)
Восточноазиатские языки
Южноазиатские языки
африканские языки
Параллельные корпуса разных языков
- Корпус политического устного перевода на китайский/английский язык (CEPIC) [28] [29] состоит из стенограмм речей ведущих политических деятелей из Гонконга, Пекина, Вашингтона и Лондона, а также их переведенных/интерпретированных текстов. Разработано Джун Паном и библиотекой HKBU.
- Europarl Corpus - протоколы Европейского парламента с 1996 по 2012 год.
- Корпус EUR-Lex - коллекция всех официальных языков Европейского Союза, созданная на основе базы данных EUR-Lex [30]
- OPUS: Параллельный корпус с открытым исходным кодом на многих языках [31]
- Татоэба Параллельный корпус, содержащий более 8,9 миллионов предложений на нескольких языках; В 107 языках более 1000 предложений каждый; еще в 81 языке содержится от 100 до 1000 предложений каждый. [32]
- NTU-Multilingual Corpus на 7 языках (ara, eng, ind, jpn, kor, mcn, vie) [33] (устаревший репозиторий)
- Корпус SeedLing — исходный корпус для проекта человеческого языка, включающий более 1000 языков из различных источников. [34]
- Параллельные тексты GRALIS для различных славянских языков, составленные Институтом славянских языков Университета Граца (Бранко Тошович и др.).
- Параллельный корпус ACTRES (P-ACTRES 2.0) — это двунаправленный англо-испанский корпус, состоящий из оригинальных текстов на одном языке и их переводов на другой. P-ACTRES 2.0 содержит более 6 миллионов слов, рассматривающих оба направления вместе. [35]
- Многоязычный параллельный корпус JRC-Acquis, содержащий полный свод законов Европейского Союза (ЕС): Acquis Communautaire с 231 языковой парой. [36]
- Параллельный корпус заседаний Европейского парламента, 1996–2011 гг.
- Целью проекта Opus является сбор параллельных корпусов в свободном доступе.
- Японско-английский двуязычный корпус статей о Киото в Википедии, заархивированный 22 августа 2012 г. в Wayback Machine.
- COMPARA – параллельные португальско-английские корпуса
- TERMSEARCH – параллельные корпуса на английском/русском/французском языках (основные международные договоры, конвенции, соглашения и т. д.).
- TradooIT – английский/французский/испанский – бесплатные онлайн-инструменты
- Нунавут Хансард - параллельный корпус английского и инуктитутского языков
- ПараСоль – параллельный корпус славянских и других языков.
- Glosbe: Многоязычные параллельные корпуса. Архивировано 27 мая 2013 г. в Wayback Machine с интерфейсом онлайн-поиска.
- InterCorp: многоязычный параллельный корпус из 40 языков, согласованный с чешским, интерфейс онлайн-поиска.
- myCAT – Olanto, concordancer (AGPL с открытым исходным кодом) с онлайн-поиском в корпусе JCR и UNO
- TAUS, с интерфейсом онлайн-поиска.
- linguatools многоязычные параллельные корпуса, интерфейс онлайн-поиска.
- EUR-Lex Corpus - корпус, созданный на основе базы данных EUR-Lex, состоит из законов Европейского Союза и других официальных документов Европейского Союза.
- Language Grid – многоязычная сервисная платформа, включающая параллельные текстовые сервисы.
Сопоставимая корпорация
- Корпус политических речей содержит четыре сборника политических речей на английском и китайском языках из «Корпуса президентских речей США (1789–2015 гг.), «Корпуса политических выступлений губернаторов Гонконга (1984–1996 гг.)» и руководителей Гонконга (1997–2014 гг.). ), Корпус речей президентов Тайваня в новогодние дни и двойные десятые дни (1978–2014 гг.) И Корпус докладов о работе правительства премьер-министров Китайской Народной Республики (1984–2013 гг.). Разработано Библиотекой ХКБУ.
- WaCky - The Web-As-Corpus Kool Yinitiative Веб как корпус (англ, fre, deu, ita)
- Коллекция корпусов устранения неоднозначности на похожих языках (DSLCC) [37] (боснийский, хорватский, сербский, индонезийский, малайский, чешский, словацкий, бразильский португальский, европейский португальский, полуостровный испанский, аргентинский испанский)
- Wikipedia Comparable Corpora ( требуется регистрация ), когда (41 миллион согласованных статей Википедии для 253 языковых пар)
- Семейство TenTen Corpus — сопоставимые веб-корпусы целевого размера в 10 миллиардов слов. Эти корпуса доступны в системе управления корпусами Sketch Engine , на данный момент существуют корпуса TenTen для более чем 30 языков (например, английский корпус TenTen, [38] арабский корпус TenTen, [39] испанский корпус TenTen, [40] русский корпус TenTen. , [41] [42] ). Обзор существующих корпораций TenTen можно найти по адресу https://www.sketchengine.co.uk/documentation/tenten-corpora/.
- Веб-корпуса JSI с отметкой времени – веб-корпуса новостных статей, сканированные из списка RSS-каналов. Корпуса новостных лент готовятся в рамках проекта, реализуемого Институтом Йожефа Стефана при словенском научно-исследовательском институте. [43] и опубликовано в Sketch Engine. Более подробная информация о проекте размещена на сайтах проекта.
L2 (английский) Corpora
- Кембриджский учебный корпус [44]
- Корпус академического письменного и разговорного английского языка (CAWSE), [45] сборник образцов английского языка китайских студентов в академических условиях. Бесплатное скачивание в Интернете.
- Английский как лингва-франка в академической среде (ELFA), [46] академический корпус ELF. [47] [48]
- Международный корпус изучающего английский язык (ICLE), [49] корпус изучаемого письменного английского языка.
- Международная база данных межъязыкового разговорного английского языка Лувена (LINDSEI), [50] совокупность разговорного английского языка учащихся.
- Trinity Lancaster Corpus, один из крупнейших корпусов разговорного английского языка L2. [51] [52]
- Корпус Института английского языка Питтсбургского университета (PELIC) [53]
- Венско-Оксфордский международный корпус английского языка (VOICE), [54] корпус ELF. [47]
Рекомендации
- ^ Пиявка, Джеффри (2007). «Обучение и языковые корпуса: конвергенция». В Вихманн, А.; и другие. (ред.). Учебно-языковой корпус . Лондон: Лонгман. п. 9.
- ^ «База данных корпусных ресурсов (CoRD)» . Кафедра английского языка Хельсинкского университета.
- ^ Вале, Ян Филип; Руас, Терри; Мохаммед, Саиф; Гипп, Бела (2022). «D3: Массивный набор научных метаданных для анализа состояния исследований в области компьютерных наук». Материалы тринадцатой конференции по языковым ресурсам и оценке . Марсель, Франция: Европейская ассоциация языковых ресурсов: 2642–2651. arXiv : 2204.13384 .
- ^ Профессор Марк Дэвис из BYU создал онлайн-инструмент для поиска в корпусе английского языка Google, взятом из Google Books, по адресу http://googlebooks.byu.edu/x.asp.
- ^ "Поиск фраз".Поисковая система для Google Books Ngram Corpus, которая поддерживает запросы с подстановочными знаками и предлагает API.
- ^ [1], Баскский корпус
- ^ (на испанском языке) «Molinolabs - корпус». molinolabs.com . Проверено 12 января 2014 г.
- ^ "CorALit - CorALit - Lietuvių mokslo kalbos tekstynas" . coralit.lt . Проверено 12 января 2014 г.
- ^ "Турецкий национальный корпус - Türkçe Ulusal Derlemi - Домашняя страница" . tnc.org.tr. Проверено 12 января 2014 г.
- ^ Глазкова, А (2020). «Тематическая классификация фрагментов текста с учетом их ближайшего контекста». Автоматизация и дистанционное управление . 81 (12): 2262–2276. дои : 10.1134/S0005117920120097. S2CID 231929892.
- ^ Рубцова, Ю (2015). «Построение корпуса для обучения классификации настроений». Программное обеспечение и системы . 1 : 72–78. дои : 10.15827/0236-235X.109.072-078.
- ^ «В стадии обновления». search.dcl.bas.bg . Проверено 12 января 2014 г.
- ^ "Электронный корпус македонских книжных текстов" .
- ^ "Портал | Чешский народный корпус" .
- ^ Здравкова, Катрина; Туфиш, Дэн; Симов Кирилл; Радзишевский, Адам; Касемизаде, Беранг; Прист-Дорман, Грег; Петкевич, Владимир; Оравец, Чаба; Крстев, Цветана; Коцыба, Наталья; Каалеп, Хейки-Яан; Иде, Нэнси; Гарабик, Радован; Димитрова, Людмила; Держанский Иван; Барбу, Ана-Мария; Эрьявец, Томаж (14 мая 2010 г.). «Доступно в CLARIN». http://nl.ijs.si/me/v4/ .
- ^ ab «Лаборатория НЛП Тегеранского университета». ece.ut.ac.ir. Архивировано из оригинала 28 января 2014 года . Проверено 12 января 2014 г.
- ^ Хади Вейси, Мохаммад МохаммадАмини, Хавр Хоссейни; На пути к обработке курдского языка: эксперименты по сбору и обработке текстового корпуса AsoSoft, Цифровая стипендия в области гуманитарных наук, fqy074, https://doi.org/10.1093/llc/fqy074
- ^ "КОТОНОХА「現代日本語書き言葉均衡コーパス」 少納言" . kotonoha.gr.jp . Проверено 12 января 2014 г.
- ^ "Скачать Corpora Hindi" .
- ^ Д. Упекша, К. Виджаяратна, М. Сиривардена, Л. Ласандун, К. Вималасурия, Н. де Силва и Г. Диас. 2015. Внедрение корпуса сингальского языка. На симпозиуме по языковым технологиям для Южной Азии .
- ^ Глосса (uio.no)
- ^ "Креольская корпорация Гвинейского залива". Май 2014. С. 523–529.
- ^ https://arxiv.org/pdf/2102.06991.pdf, https://wortschatz.uni-leipzig.de/en/download/Hausa
- ^ «IgTenTen - корпус игбо из Интернета | Sketch Engine» . 20 июня 2022 г.
- ^ "Текстовые корпуса Oromo | Sketch Engine" . 15 января 2019 г.
- ^ https://www.researchgate.net/publication/336274457_Digital_Yoruba_Corpus, https://www.sketchengine.eu/corpora-and-languages/yoruba-text-corpora/
- ^ "Скачать Corpora Zulu" .
- ^ Пан, июнь (2019). «Китайско-английский корпус политических интерпретаторов (CEPIC). Библиотека баптистского университета Гонконга» . Проверено 3 января 2022 г.
- ^ Пан, июнь (30 октября 2019 г.). «Китайско-английский корпус политических устных переводов (CEPIC): новый электронный ресурс для письменных и устных переводчиков». Материалы второго семинара «Человеческо-информированные технологии письменного и устного перевода, связанные с RANLP 2019» . ООО «Инкома», Шумен, Болгария: 82–88. дои : 10.26615/issn.2683-0078.2019_010 . S2CID 211257773.
- ^ "Корпус EUR-Lex". http://sketchengine.co.uk. 2 июня 2016 г. Проверено 27 октября 2016 г.
- ^ «OPUS - параллельный корпус с открытым исходным кодом» . opus.lingfil.uu.se . Проверено 12 января 2014 г.
- ^ «Татоэба - Количество предложений на языке» . tatoeba.org . Проверено 23 ноября 2020 г.
- ↑ Лилинг Тан и Фрэнсис Бонд (14 мая 2012 г.). «Создание и аннотирование лингвистически разнообразного NTU-MC (NTU — многоязычный корпус)» (PDF) . Международный журнал обработки азиатских языков . 22 (4): 161–174. Архивировано из оригинала (PDF) 16 января 2014 года . Проверено 12 января 2014 г.
- ^ Гай Эмерсон, Лилинг Тан, Сюзанна Фертманн, Алексис Палмер и Микаэла Регнери. 2014. SeedLing: Создание и использование исходного корпуса для проекта «Человеческий язык». В материалах семинара по использованию вычислительных методов при изучении языков, находящихся под угрозой исчезновения (ComputEL). Балтимор, США.
- ^ Х. Санхурхо-Гонсалес и М. Искьердо. 2019. P-ACTRES 2.0: Параллельный корпус для межлингвистических исследований. В «Параллельном корпусе исследований контрастности и перевода: новые ресурсы и приложения» (стр. 215–231). Издательство Джона Бенджамина.
- ^ Ральф, Ральф Штайнбергер; Пуликен, Брюно; Видигер, Анна; Игнат, Камелия; Эрьявец, Томаж; Туфиш, Дэн; Варга, Даниэль (2006). JRC-Acquis: многоязычный параллельный корпус, содержащий более 20 языков . Материалы 5-й Международной конференции по языковым ресурсам и оценке (LREC'2006). Генуя, Италия, 24–26 мая 2006 г.
- ^ Лилинг Тан, Маркос Зампьери, Никола Любешич и Йорг Тидеманн. Объединение сопоставимых источников данных для распознавания схожих языков: коллекция корпуса DSL. В материалах 7-го семинара по созданию и использованию сопоставимых корпораций (BUCC). 2014.
- ^ Килгаррифф, Адам (2012). «Знакомство со своим корпусом». Текст, речь и диалог . Конспекты лекций по информатике. Том. 7499. стр. 3–15. CiteSeerX 10.1.1.452.8074 . дои : 10.1007/978-3-642-32790-2_1. ISBN 978-3-642-32789-6.
- ^ Белинков Ю., Хабаш Н., Килгаррифф А., Ордан Н., Рот Р. и Сухомель В. (2013). arTen-Ten: новый обширный корпус арабского языка. Труды ВАКЛ .
- ^ Килгаррифф А. и Ренау И. (2013). esTenTen, обширный веб-корпус полуостровного и американского испанского языка. Procedia – Социальные и поведенческие науки , 95, 12-19.
- ^ Хохлова, М. В. (2016). Обзор больших русскоязычных корпусов текстов. В материалах научной конференции «Интернет и современное общество» (с. 74-77).
- ^ Хохлова, М. (2016). Сравнение часто встречающихся существительных с точки зрения крупной корпорации. РАСЛАН 2016 Последние достижения в обработке славянского естественного языка , 9.
- ^ Трампуш М. и Новак Б. (октябрь 2012 г.). Внутреннее устройство агрегированной ленты веб-новостей. В материалах Пятнадцатой Международной конференции по информатике IS SiKDD 2012 (стр. 431-434).
- ^ "Кембриджский корпус английского языка", Википедия , 27 сентября 2019 г. , получено 7 января 2020 г.
- ^ "Корпус CAWSE - Ноттингемский университет в Нинбо, Китай - 宁波诺丁汉大学" . nottingham.edu.cn . Проверено 7 января 2020 г.
- ^ «Английский как лингва-франка в академической среде». Университет Хельсинки . 23 марта 2018 г. Проверено 7 января 2020 г.
- ^ ab «Английский как лингва-франка», Википедия , 14 декабря 2019 г. , получено 7 января 2020 г.
- ^ Мауранен, А (2010). «Английский язык как академический лингва-франка: проект ELFA». Английский для специальных целей . 29 (3): 183–190. дои : 10.1016/j.esp.2009.10.001.
- ^ "ИКЛ". У.К.Лувен . Проверено 7 января 2020 г.
- ^ "ЛИНДСЕЙ". ЮКЛувен (на французском языке) . Проверено 7 января 2020 г.
- ^ «Корпус Тринити Ланкастер | Центр корпусных подходов к социальным наукам ESRC (CASS)» . Проверено 7 января 2020 г.
- ^ Габласова, Д (2019). «Тринити-Ланкастерский корпус: развитие, описание и применение». Международный журнал исследований корпуса учащихся . 5 (2): 126–158. doi : 10.1075/ijlcr.19001.gab .
- ^ Джаффс А., Хан Н.Р. и Нейсмит Б. (2020). Корпус английского языка Питтсбургского университета (PELIC) [набор данных]. дои : 10.5281/zenodo.3991977
- ^ «Проект». univie.ac.at . Проверено 7 января 2020 г.
Смотрите также