Цифровые коллекции данных на естественном языке
В лингвистике и обработке естественного языка корпус ( мн. ч .: corpora ) или текстовый корпус — это набор данных, состоящий из изначально цифровых и более старых, оцифрованных языковых ресурсов , как аннотированных , так и неаннотированных.
Аннотированные, они использовались в корпусной лингвистике для статистической проверки гипотез , проверки вхождений или подтверждения языковых правил в пределах определенной языковой территории.
Обзор
Корпус может содержать тексты на одном языке ( моноязычный корпус ) или текстовые данные на нескольких языках ( многоязычный корпус ).
Чтобы сделать корпусы более полезными для проведения лингвистических исследований, их часто подвергают процессу, известному как аннотирование . Примером аннотирования корпуса является разметка частей речи или POS-разметка , при которой информация о части речи каждого слова (глагол, существительное, прилагательное и т. д.) добавляется к корпусу в виде тегов . Другим примером является указание леммы (базовой) формы каждого слова. Когда язык корпуса не является рабочим языком исследователей, которые его используют, используется межстрочное глоссирование , чтобы сделать аннотацию двуязычной.
Некоторые корпуса имеют дополнительные структурированные уровни анализа. В частности, меньшие корпуса могут быть полностью проанализированы . Такие корпуса обычно называются Treebanks или Parsed Corpora . Сложность обеспечения того, чтобы весь корпус был полностью и последовательно аннотирован, означает, что эти корпуса обычно меньше, содержат около одного-трех миллионов слов. Возможны другие уровни лингвистического структурированного анализа, включая аннотации для морфологии , семантики и прагматики .
Приложения
Корпуса являются основной базой знаний в корпусной лингвистике . Другие известные области применения включают:
- Машинный перевод
- Многоязычные корпуса, которые были специально отформатированы для сравнения бок о бок, называются выровненными параллельными корпусами . Существует два основных типа параллельных корпусов , которые содержат тексты на двух языках. В корпусе перевода тексты на одном языке являются переводами текстов на другом языке. В сопоставимом корпусе тексты одного типа и охватывают одно и то же содержание, но они не являются переводами друг друга. [2] Для использования параллельного текста предпосылкой для анализа является некое выравнивание текста, идентифицирующее эквивалентные текстовые сегменты (фразы или предложения). Алгоритмы машинного перевода для перевода между двумя языками часто обучаются с использованием параллельных фрагментов, включающих корпус на первом языке и корпус на втором языке, который является поэлементным переводом корпуса на первом языке. [3]
- Филологии
- Корпуса текстов также используются при изучении исторических документов , например, при попытках расшифровать древние письмена или в библейской науке . Некоторые археологические корпуса могут быть настолько кратковременными, что они дают моментальный снимок во времени. Одним из самых коротких по времени корпусов могут быть тексты писем Амарны продолжительностью 15–30 лет ( 1350 г. до н. э. ). Корпус древнего города (например, « Тексты Кюльтепе » в Турции) может проходить через серию корпусов, определяемых датами их находок.
Некоторые примечательные текстовые корпуса
Смотрите также
Ссылки
- ^ Юн, Х. и Хирвела, А. (2004). Отношение студентов ESL к использованию корпуса в письме на втором языке. Журнал письма на втором языке, 13 (4), 257–283. Получено 21 марта 2012 г.
- ^ Wołk, K.; Marasek, K. (7 апреля 2014 г.). "Статистический речевой перевод в реальном времени". Новые перспективы в информационных системах и технологиях, том 1. Достижения в области интеллектуальных систем и вычислений. Том 275. Springer. С. 107–114. arXiv : 1509.09090 . doi :10.1007/978-3-319-05951-8_11. ISBN 978-3-319-05950-1. ISSN 2194-5357. S2CID 15361632.
- ^ Волк, Кшиштоф; Марасек, Кшиштоф (2015). «Настроенный и ускоренный на GPU параллельный интеллектуальный анализ данных из сопоставимых корпусов». В Крал, Павел; Матоусек, Вацлав (ред.). Текст, речь и диалог – 18-я международная конференция, TSD 2015, Пльзень, Чешская Республика, 14–17 сентября 2015 г., Труды . Конспект лекций по информатике. Том 9302. Springer. стр. 32–40. arXiv : 1509.08639 . doi :10.1007/978-3-319-24033-6_4. ISBN 978-3-319-24032-9.
Внешние ссылки
- Ссылки на ресурсы ACL SIGLEX: Текстовые корпуса Архивировано 13 августа 2013 г. на Wayback Machine
- Разработка лингвистических корпусов: руководство по передовой практике
- Бесплатные образцы (платные), веб-корпуса (45–425 миллионов слов каждый): американские (COCA, COHA, TIME), британские (BNC), испанские, португальские
- Intercorp Создание синхронных параллельных корпусов языков, преподаваемых на факультете искусств Карлова университета.
- Sketch Engine: открытые корпуса со свободным доступом
- TS Corpus – корпус турецкого языка, находящийся в свободном доступе для академических исследований.
- Турецкий национальный корпус – универсальный корпус современного турецкого языка
- Корпус политических речей, бесплатный доступ к политическим речам американских и китайских политиков, разработанный библиотекой Гонконгского баптистского университета
- Национальный корпус русского языка