stringtranslate.com

Текстовый корпус

В лингвистике и обработке естественного языка корпус ( мн.: corpora ) или текстовый корпус — это набор данных, состоящий из изначально цифровых и старых, оцифрованных языковых ресурсов , аннотированных или неаннотированных.

Аннотированные, они использовались в корпусной лингвистике для проверки статистических гипотез , проверки совпадений или проверки лингвистических правил на определенной языковой территории.

В технологии поиска корпус — это совокупность документов, по которым ведется поиск.

Обзор

Корпус может содержать тексты на одном языке ( одноязычный корпус ) или текстовые данные на нескольких языках ( многоязычный корпус ).

Чтобы сделать корпуса более полезными для проведения лингвистических исследований, их часто подвергают процессу, известному как аннотация . Примером аннотирования корпуса является тегирование частей речи , или POS-тегирование , при котором информация о части речи каждого слова (глагол, существительное, прилагательное и т. д.) добавляется в корпус в виде тегов . Другой пример — указание леммической (основной) формы каждого слова. Когда язык корпуса не является рабочим языком использующих его исследователей, для придания аннотации двуязычной применяется подстрочное глоссирование .

В некоторых корпусах применяются дополнительные структурированные уровни анализа. В частности, можно полностью проанализировать небольшие корпуса . Такие корпорации обычно называют Treebanks или Parsed Corpora . Сложность обеспечения того, чтобы весь корпус был полностью и последовательно аннотирован, означает, что эти корпуса обычно меньше по размеру и содержат от одного до трех миллионов слов. Возможны и другие уровни лингвистического структурированного анализа, включая аннотации по морфологии , семантике и прагматике .

Приложения

Корпуса являются основной базой знаний в корпусной лингвистике . Другие известные области применения включают в себя:

Некоторые известные текстовые корпуса

Смотрите также

Рекомендации

  1. ^ Юн, Х., и Хирвела, А. (2004). Отношение студентов ESL к использованию корпуса при написании L2. Журнал письма на втором языке, 13 (4), 257–283. Проверено 21 марта 2012 г.
  2. ^ Волк, К.; Марасек, К. (7 апреля 2014 г.). «Статистический перевод речи в реальном времени». Новые перспективы в информационных системах и технологиях, Том 1 . Достижения в области интеллектуальных систем и вычислений. Том. 275. Спрингер. стр. 107–114. arXiv : 1509.09090 . дои : 10.1007/978-3-319-05951-8_11. ISBN 978-3-319-05950-1. ISSN  2194-5357. S2CID  15361632.
  3. ^ Волк, Кшиштоф; Марасек, Кшиштоф (2015). «Настроенный и параллельный анализ данных с ускорением на графическом процессоре из сопоставимых корпусов». Ин Краль, Павел; Матоусек, Вацлав (ред.). Текст, речь и диалог – 18-я Международная конференция TSD 2015, Пльзень, Чехия, 14–17 сентября 2015 г., Труды . Конспекты лекций по информатике. Том. 9302. Спрингер. стр. 32–40. arXiv : 1509.08639 . дои : 10.1007/978-3-319-24033-6_4.

Внешние ссылки