stringtranslate.com

Список корпусов текстов

Текстовые корпуса (единственное число: текстовый корпус ) представляют собой большие и структурированные наборы текстов, которые систематически собираются. Текстовые корпуса используются корпусными лингвистами и в других отраслях лингвистики для статистического анализа, проверки гипотез, поиска закономерностей использования языка, исследования языковых изменений и вариаций, а также обучения владению языком. [1]

английский язык

Европейские языки

славянский

Восточнославянский

Южнославянский

Западнославянский

Немецкий

Ближневосточные языки

Деванагари

Восточноазиатские языки

Южноазиатские языки

африканские языки

Параллельные корпуса разных языков

Сопоставимая корпорация

L2 (английский) Corpora

Рекомендации

  1. ^ Пиявка, Джеффри (2007). «Обучение и языковые корпуса: конвергенция». В Вихманн, А.; и другие. (ред.). Учебно-языковой корпус . Лондон: Лонгман. п. 9.
  2. ^ «База данных корпусных ресурсов (CoRD)» . Кафедра английского языка Хельсинкского университета.
  3. ^ Вале, Ян Филип; Руас, Терри; Мохаммед, Саиф; Гипп, Бела (2022). «D3: Массивный набор научных метаданных для анализа состояния исследований в области компьютерных наук». Материалы тринадцатой конференции по языковым ресурсам и оценке . Марсель, Франция: Европейская ассоциация языковых ресурсов: 2642–2651. arXiv : 2204.13384 .
  4. ^ Профессор Марк Дэвис из BYU создал онлайн-инструмент для поиска в корпусе английского языка Google, взятом из Google Books, по адресу http://googlebooks.byu.edu/x.asp.
  5. ^ "Поиск фраз".Поисковая система для Google Books Ngram Corpus, которая поддерживает запросы с подстановочными знаками и предлагает API.
  6. ^ [1], Баскский корпус
  7. ^ (на испанском языке) «Molinolabs - корпус». molinolabs.com . Проверено 12 января 2014 г.
  8. ^ "CorALit - CorALit - Lietuvių mokslo kalbos tekstynas" . coralit.lt . Проверено 12 января 2014 г.
  9. ^ "Турецкий национальный корпус - Türkçe Ulusal Derlemi - Домашняя страница" . tnc.org.tr. ​Проверено 12 января 2014 г.
  10. ^ Глазкова, А (2020). «Тематическая классификация фрагментов текста с учетом их ближайшего контекста». Автоматизация и дистанционное управление . 81 (12): 2262–2276. дои : 10.1134/S0005117920120097. S2CID  231929892.
  11. ^ Рубцова, Ю (2015). «Построение корпуса для обучения классификации настроений». Программное обеспечение и системы . 1 : 72–78. дои : 10.15827/0236-235X.109.072-078.
  12. ^ «В стадии обновления». search.dcl.bas.bg . Проверено 12 января 2014 г.
  13. ^ "Электронный корпус македонских книжных текстов" .
  14. ^ "Портал | Чешский народный корпус" .
  15. ^ Здравкова, Катрина; Туфиш, Дэн; Симов Кирилл; Радзишевский, Адам; Касемизаде, Беранг; Прист-Дорман, Грег; Петкевич, Владимир; Оравец, Чаба; Крстев, Цветана; Коцыба, Наталья; Каалеп, Хейки-Яан; Иде, Нэнси; Гарабик, Радован; Димитрова, Людмила; Держанский Иван; Барбу, Ана-Мария; Эрьявец, Томаж (14 мая 2010 г.). «Доступно в CLARIN». http://nl.ijs.si/me/v4/ . {{cite journal}}: Внешняя ссылка |journal=( помощь )
  16. ^ ab «Лаборатория НЛП Тегеранского университета». ece.ut.ac.ir. Архивировано из оригинала 28 января 2014 года . Проверено 12 января 2014 г.
  17. ^ Хади Вейси, Мохаммад МохаммадАмини, Хавр Хоссейни; На пути к обработке курдского языка: эксперименты по сбору и обработке текстового корпуса AsoSoft, Цифровая стипендия в области гуманитарных наук, fqy074, https://doi.org/10.1093/llc/fqy074
  18. ^ "КОТОНОХА「現代日本語書き言葉均衡コーパス」 少納言" . kotonoha.gr.jp . Проверено 12 января 2014 г.
  19. ^ "Скачать Corpora Hindi" .
  20. ^ Д. Упекша, К. Виджаяратна, М. Сиривардена, Л. Ласандун, К. Вималасурия, Н. де Силва и Г. Диас. 2015. Внедрение корпуса сингальского языка. На симпозиуме по языковым технологиям для Южной Азии .
  21. ^ Глосса (uio.no)
  22. ^ "Креольская корпорация Гвинейского залива". Май 2014. С. 523–529.
  23. ^ https://arxiv.org/pdf/2102.06991.pdf, https://wortschatz.uni-leipzig.de/en/download/Hausa
  24. ^ «IgTenTen - корпус игбо из Интернета | Sketch Engine» . 20 июня 2022 г.
  25. ^ "Текстовые корпуса Oromo | Sketch Engine" . 15 января 2019 г.
  26. ^ https://www.researchgate.net/publication/336274457_Digital_Yoruba_Corpus, https://www.sketchengine.eu/corpora-and-languages/yoruba-text-corpora/
  27. ^ "Скачать Corpora Zulu" .
  28. ^ Пан, июнь (2019). «Китайско-английский корпус политических интерпретаторов (CEPIC). Библиотека баптистского университета Гонконга» . Проверено 3 января 2022 г.
  29. ^ Пан, июнь (30 октября 2019 г.). «Китайско-английский корпус политических устных переводов (CEPIC): новый электронный ресурс для письменных и устных переводчиков». Материалы второго семинара «Человеческо-информированные технологии письменного и устного перевода, связанные с RANLP 2019» . ООО «Инкома», Шумен, Болгария: 82–88. дои : 10.26615/issn.2683-0078.2019_010 . S2CID  211257773.
  30. ^ "Корпус EUR-Lex". http://sketchengine.co.uk. 2 июня 2016 г. Проверено 27 октября 2016 г.
  31. ^ «OPUS - параллельный корпус с открытым исходным кодом» . opus.lingfil.uu.se . Проверено 12 января 2014 г.
  32. ^ «Татоэба - Количество предложений на языке» . tatoeba.org . Проверено 23 ноября 2020 г.
  33. Лилинг Тан и Фрэнсис Бонд (14 мая 2012 г.). «Создание и аннотирование лингвистически разнообразного NTU-MC (NTU — многоязычный корпус)» (PDF) . Международный журнал обработки азиатских языков . 22 (4): 161–174. Архивировано из оригинала (PDF) 16 января 2014 года . Проверено 12 января 2014 г.
  34. ^ Гай Эмерсон, Лилинг Тан, Сюзанна Фертманн, Алексис Палмер и Микаэла Регнери. 2014. SeedLing: Создание и использование исходного корпуса для проекта «Человеческий язык». В материалах семинара по использованию вычислительных методов при изучении языков, находящихся под угрозой исчезновения (ComputEL). Балтимор, США.
  35. ^ Х. Санхурхо-Гонсалес и М. Искьердо. 2019. P-ACTRES 2.0: Параллельный корпус для межлингвистических исследований. В «Параллельном корпусе исследований контрастности и перевода: новые ресурсы и приложения» (стр. 215–231). Издательство Джона Бенджамина.
  36. ^ Ральф, Ральф Штайнбергер; Пуликен, Брюно; Видигер, Анна; Игнат, Камелия; Эрьявец, Томаж; Туфиш, Дэн; Варга, Даниэль (2006). JRC-Acquis: многоязычный параллельный корпус, содержащий более 20 языков . Материалы 5-й Международной конференции по языковым ресурсам и оценке (LREC'2006). Генуя, Италия, 24–26 мая 2006 г.
  37. ^ Лилинг Тан, Маркос Зампьери, Никола Любешич и Йорг Тидеманн. Объединение сопоставимых источников данных для распознавания схожих языков: коллекция корпуса DSL. В материалах 7-го семинара по созданию и использованию сопоставимых корпораций (BUCC). 2014.
  38. ^ Килгаррифф, Адам (2012). «Знакомство со своим корпусом». Текст, речь и диалог . Конспекты лекций по информатике. Том. 7499. стр. 3–15. CiteSeerX 10.1.1.452.8074 . дои : 10.1007/978-3-642-32790-2_1. ISBN  978-3-642-32789-6.
  39. ^ Белинков Ю., Хабаш Н., Килгаррифф А., Ордан Н., Рот Р. и Сухомель В. (2013). arTen-Ten: новый обширный корпус арабского языка. Труды ВАКЛ .
  40. ^ Килгаррифф А. и Ренау И. (2013). esTenTen, обширный веб-корпус полуостровного и американского испанского языка. Procedia – Социальные и поведенческие науки , 95, 12-19.
  41. ^ Хохлова, М. В. (2016). Обзор больших русскоязычных корпусов текстов. В материалах научной конференции «Интернет и современное общество» (с. 74-77).
  42. ^ Хохлова, М. (2016). Сравнение часто встречающихся существительных с точки зрения крупной корпорации. РАСЛАН 2016 Последние достижения в обработке славянского естественного языка , 9.
  43. ^ Трампуш М. и Новак Б. (октябрь 2012 г.). Внутреннее устройство агрегированной ленты веб-новостей. В материалах Пятнадцатой Международной конференции по информатике IS SiKDD 2012 (стр. 431-434).
  44. ^ "Кембриджский корпус английского языка", Википедия , 27 сентября 2019 г. , получено 7 января 2020 г.
  45. ^ "Корпус CAWSE - Ноттингемский университет в Нинбо, Китай - 宁波诺丁汉大学" . nottingham.edu.cn . Проверено 7 января 2020 г.
  46. ^ «Английский как лингва-франка в академической среде». Университет Хельсинки . 23 марта 2018 г. Проверено 7 января 2020 г.
  47. ^ ab «Английский как лингва-франка», Википедия , 14 декабря 2019 г. , получено 7 января 2020 г.
  48. ^ Мауранен, А (2010). «Английский язык как академический лингва-франка: проект ELFA». Английский для специальных целей . 29 (3): 183–190. дои : 10.1016/j.esp.2009.10.001.
  49. ^ "ИКЛ". У.К.Лувен . Проверено 7 января 2020 г.
  50. ^ "ЛИНДСЕЙ". ЮКЛувен (на французском языке) . Проверено 7 января 2020 г.
  51. ^ «Корпус Тринити Ланкастер | Центр корпусных подходов к социальным наукам ESRC (CASS)» . Проверено 7 января 2020 г.
  52. ^ Габласова, Д (2019). «Тринити-Ланкастерский корпус: развитие, описание и применение». Международный журнал исследований корпуса учащихся . 5 (2): 126–158. doi : 10.1075/ijlcr.19001.gab .
  53. ^ Джаффс А., Хан Н.Р. и Нейсмит Б. (2020). Корпус английского языка Питтсбургского университета (PELIC) [набор данных]. дои : 10.5281/zenodo.3991977
  54. ^ «Проект». univie.ac.at . Проверено 7 января 2020 г.

Смотрите также