Корпус текста

В лингвистике и обработке естественного языка корпус ( мн. ч.: corpora ) или текстовый корпус — это набор данных, состоящий из изначально цифровых и более старых, оцифрованных языковых ресурсов , как аннотированных, так и неаннотированных.

Аннотированные, они использовались в корпусной лингвистике для статистической проверки гипотез , проверки вхождений или подтверждения языковых правил в пределах определенной языковой территории.

Обзор

Корпус может содержать тексты на одном языке ( моноязычный корпус ) или текстовые данные на нескольких языках ( многоязычный корпус ).

Чтобы сделать корпусы более полезными для проведения лингвистических исследований, их часто подвергают процессу, известному как аннотирование . Примером аннотирования корпуса является разметка частей речи или POS-разметка , при которой информация о части речи каждого слова (глагол, существительное, прилагательное и т. д.) добавляется к корпусу в виде тегов . Другим примером является указание леммы (базовой) формы каждого слова. Когда язык корпуса не является рабочим языком исследователей, которые его используют, используется межстрочное глоссирование, чтобы сделать аннотацию двуязычной.

Некоторые корпуса имеют дополнительные структурированные уровни анализа. В частности, меньшие корпуса могут быть полностью проанализированы . Такие корпуса обычно называются Treebanks или Parsed Corpora . Сложность обеспечения того, чтобы весь корпус был полностью и последовательно аннотирован, означает, что эти корпуса обычно меньше, содержат около одного-трех миллионов слов. Возможны другие уровни лингвистического структурированного анализа, включая аннотации для морфологии , семантики и прагматики .

Приложения

Корпуса являются основной базой знаний в корпусной лингвистике . Другие известные области применения включают:

Языковые технологии , обработка естественного языка , компьютерная лингвистика
- Анализ и обработка различных типов корпусов также являются предметом многих работ в области компьютерной лингвистики , распознавания речи и машинного перевода , где они часто используются для создания скрытых марковских моделей для разметки частей речи и других целей. Корпуса и списки частот , полученные из них, полезны для обучения языку . Корпуса можно рассматривать как тип помощи в письме на иностранном языке, поскольку контекстуализированные грамматические знания, полученные пользователями неродного языка посредством ознакомления с аутентичными текстами в корпусах, позволяют учащимся понять способ формирования предложений на целевом языке, что обеспечивает эффективное письмо. ^[1]

Машинный перевод
- Многоязычные корпуса, которые были специально отформатированы для сравнения бок о бок, называются выровненными параллельными корпусами . Существует два основных типа параллельных корпусов , которые содержат тексты на двух языках. В корпусе перевода тексты на одном языке являются переводами текстов на другом языке. В сопоставимом корпусе тексты одного типа и охватывают одно и то же содержание, но они не являются переводами друг друга. ^[2] Для использования параллельного текста предпосылкой для анализа является некое выравнивание текста, идентифицирующее эквивалентные текстовые сегменты (фразы или предложения). Алгоритмы машинного перевода для перевода между двумя языками часто обучаются с использованием параллельных фрагментов, включающих корпус первого языка и корпус второго языка, который является поэлементным переводом корпуса первого языка. ^[3]

Филологии
- Корпуса текстов также используются при изучении исторических документов , например, при попытках расшифровать древние письмена или в библейской науке . Некоторые археологические корпуса могут быть настолько кратковременными, что они дают моментальный снимок во времени. Одним из самых коротких по времени корпусов могут быть тексты писем Амарны продолжительностью 15–30 лет ( 1350 г. до н. э. ). Корпус древнего города (например, « Тексты Кюльтепе » в Турции) может проходить через серию корпусов, определяемых датами их находок.

Некоторые примечательные текстовые корпуса

Смотрите также

Ссылки

^ Юн, Х. и Хирвела, А. (2004). Отношение студентов ESL к использованию корпуса в письме на втором языке. Журнал письма на втором языке, 13 (4), 257–283. Получено 21 марта 2012 г.
^ Wołk, K.; Marasek, K. (7 апреля 2014 г.). "Статистический речевой перевод в реальном времени". Новые перспективы в информационных системах и технологиях, том 1. Достижения в области интеллектуальных систем и вычислений. Том 275. Springer. С. 107–114. arXiv : 1509.09090 . doi :10.1007/978-3-319-05951-8_11. ISBN 978-3-319-05950-1. ISSN 2194-5357. S2CID 15361632.
^ Wolk, Krzysztof; Marasek, Krzysztof (2015). «Настроенный и ускоренный на GPU параллельный интеллектуальный анализ данных из сопоставимых корпусов». В Král, Pavel; Matousek, Václav (ред.). Text, Speech, and Dialogue – 18th International Conference, TSD 2015, Pilsen, Czech Republic, September 14–17, 2015, Proceedings . Lecture Notes in Computer Science. Vol. 9302. Springer. pp. 32–40. arXiv : 1509.08639 . doi :10.1007/978-3-319-24033-6_4. ISBN 978-3-319-24032-9.

Внешние ссылки

Ссылки на ресурсы ACL SIGLEX: Текстовые корпуса Архивировано 13 августа 2013 г. на Wayback Machine
Разработка лингвистических корпусов: руководство по передовой практике
Бесплатные образцы (платные), веб-корпуса (45–425 миллионов слов каждый): американские (COCA, COHA, TIME), британские (BNC), испанские, португальские
Intercorp Создание синхронных параллельных корпусов языков, преподаваемых на факультете искусств Карлова университета.
Sketch Engine: открытые корпуса со свободным доступом
TS Corpus – корпус турецкого языка, находящийся в свободном доступе для академических исследований.
Турецкий национальный корпус – универсальный корпус современного турецкого языка
Корпус политических речей, бесплатный доступ к политическим речам американских и китайских политиков, разработанный библиотекой Гонконгского баптистского университета
Национальный корпус русского языка