Корпус текста

В лингвистике и обработке естественного языка корпус ( мн. ч .: corpora ) или текстовый корпус — это набор данных, состоящий из изначально цифровых и более старых, оцифрованных языковых ресурсов , как аннотированных , так и неаннотированных.

Аннотированные, они использовались в корпусной лингвистике для статистической проверки гипотез , проверки вхождений или подтверждения языковых правил в пределах определенной языковой территории.

Обзор

Корпус может содержать тексты на одном языке ( моноязычный корпус ) или текстовые данные на нескольких языках ( многоязычный корпус ).

Чтобы сделать корпусы более полезными для проведения лингвистических исследований, их часто подвергают процессу, известному как аннотирование . Примером аннотирования корпуса является разметка частей речи или POS-разметка , при которой информация о части речи каждого слова (глагол, существительное, прилагательное и т. д.) добавляется к корпусу в виде тегов . Другим примером является указание леммы (базовой) формы каждого слова. Когда язык корпуса не является рабочим языком исследователей, которые его используют, используется межстрочное глоссирование , чтобы сделать аннотацию двуязычной.

Некоторые корпуса имеют дополнительные структурированные уровни анализа. В частности, меньшие корпуса могут быть полностью проанализированы . Такие корпуса обычно называются Treebanks или Parsed Corpora . Сложность обеспечения того, чтобы весь корпус был полностью и последовательно аннотирован, означает, что эти корпуса обычно меньше, содержат около одного-трех миллионов слов. Возможны другие уровни лингвистического структурированного анализа, включая аннотации для морфологии , семантики и прагматики .

Приложения

Корпуса являются основной базой знаний в корпусной лингвистике . Другие известные области применения включают:

Языковые технологии , обработка естественного языка , компьютерная лингвистика
- Анализ и обработка различных типов корпусов также являются предметом многих работ в области компьютерной лингвистики , распознавания речи и машинного перевода , где они часто используются для создания скрытых марковских моделей для разметки частей речи и других целей. Корпуса и списки частот, полученные из них, полезны для обучения языку . Корпуса можно рассматривать как тип помощи в письме на иностранном языке , поскольку контекстуализированные грамматические знания, полученные пользователями неродного языка посредством ознакомления с аутентичными текстами в корпусах, позволяют учащимся понять способ формирования предложений на целевом языке, что обеспечивает эффективное письмо. ^[1]

Машинный перевод
- Многоязычные корпуса, которые были специально отформатированы для сравнения бок о бок, называются выровненными параллельными корпусами . Существует два основных типа параллельных корпусов , которые содержат тексты на двух языках. В корпусе перевода тексты на одном языке являются переводами текстов на другом языке. В сопоставимом корпусе тексты одного типа и охватывают одно и то же содержание, но они не являются переводами друг друга. ^[2] Для использования параллельного текста предпосылкой для анализа является некое выравнивание текста, идентифицирующее эквивалентные текстовые сегменты (фразы или предложения). Алгоритмы машинного перевода для перевода между двумя языками часто обучаются с использованием параллельных фрагментов, включающих корпус на первом языке и корпус на втором языке, который является поэлементным переводом корпуса на первом языке. ^[3]

Филологии
- Корпуса текстов также используются при изучении исторических документов , например, при попытках расшифровать древние письмена или в библейской науке . Некоторые археологические корпуса могут быть настолько кратковременными, что они дают моментальный снимок во времени. Одним из самых коротких по времени корпусов могут быть тексты писем Амарны продолжительностью 15–30 лет ( 1350 г. до н. э. ). Корпус древнего города (например, « Тексты Кюльтепе » в Турции) может проходить через серию корпусов, определяемых датами их находок.

Некоторые примечательные текстовые корпуса

Смотрите также

Ссылки

^ Юн, Х. и Хирвела, А. (2004). Отношение студентов ESL к использованию корпуса в письме на втором языке. Журнал письма на втором языке, 13 (4), 257–283. Получено 21 марта 2012 г.
^ Wołk, K.; Marasek, K. (7 апреля 2014 г.). "Статистический речевой перевод в реальном времени". Новые перспективы в информационных системах и технологиях, том 1. Достижения в области интеллектуальных систем и вычислений. Том 275. Springer. С. 107–114. arXiv : 1509.09090 . doi :10.1007/978-3-319-05951-8_11. ISBN 978-3-319-05950-1. ISSN 2194-5357. S2CID 15361632.
^ Волк, Кшиштоф; Марасек, Кшиштоф (2015). «Настроенный и ускоренный на GPU параллельный интеллектуальный анализ данных из сопоставимых корпусов». В Крал, Павел; Матоусек, Вацлав (ред.). Текст, речь и диалог – 18-я международная конференция, TSD 2015, Пльзень, Чешская Республика, 14–17 сентября 2015 г., Труды . Конспект лекций по информатике. Том 9302. Springer. стр. 32–40. arXiv : 1509.08639 . doi :10.1007/978-3-319-24033-6_4. ISBN 978-3-319-24032-9.

Внешние ссылки

Ссылки на ресурсы ACL SIGLEX: Текстовые корпуса Архивировано 13 августа 2013 г. на Wayback Machine
Разработка лингвистических корпусов: руководство по передовой практике
Бесплатные образцы (платные), веб-корпуса (45–425 миллионов слов каждый): американские (COCA, COHA, TIME), британские (BNC), испанские, португальские
Intercorp Создание синхронных параллельных корпусов языков, преподаваемых на факультете искусств Карлова университета.
Sketch Engine: открытые корпуса со свободным доступом
TS Corpus – корпус турецкого языка, находящийся в свободном доступе для академических исследований.
Турецкий национальный корпус – универсальный корпус современного турецкого языка
Корпус политических речей, бесплатный доступ к политическим речам американских и китайских политиков, разработанный библиотекой Гонконгского баптистского университета
Национальный корпус русского языка