stringtranslate.com

Корпус текста

В лингвистике и обработке естественного языка корпус ( мн. ч .: corpora ) или текстовый корпус — это набор данных, состоящий из изначально цифровых и более старых, оцифрованных языковых ресурсов , как аннотированных , так и неаннотированных.

Аннотированные, они использовались в корпусной лингвистике для статистической проверки гипотез , проверки вхождений или подтверждения языковых правил в пределах определенной языковой территории.

Обзор

Корпус может содержать тексты на одном языке ( моноязычный корпус ) или текстовые данные на нескольких языках ( многоязычный корпус ).

Чтобы сделать корпусы более полезными для проведения лингвистических исследований, их часто подвергают процессу, известному как аннотирование . Примером аннотирования корпуса является разметка частей речи или POS-разметка , при которой информация о части речи каждого слова (глагол, существительное, прилагательное и т. д.) добавляется к корпусу в виде тегов . Другим примером является указание леммы (базовой) формы каждого слова. Когда язык корпуса не является рабочим языком исследователей, которые его используют, используется межстрочное глоссирование , чтобы сделать аннотацию двуязычной.

Некоторые корпуса имеют дополнительные структурированные уровни анализа. В частности, меньшие корпуса могут быть полностью проанализированы . Такие корпуса обычно называются Treebanks или Parsed Corpora . Сложность обеспечения того, чтобы весь корпус был полностью и последовательно аннотирован, означает, что эти корпуса обычно меньше, содержат около одного-трех миллионов слов. Возможны другие уровни лингвистического структурированного анализа, включая аннотации для морфологии , семантики и прагматики .

Приложения

Корпуса являются основной базой знаний в корпусной лингвистике . Другие известные области применения включают:

Некоторые примечательные текстовые корпуса

Смотрите также

Ссылки

  1. ^ Юн, Х. и Хирвела, А. (2004). Отношение студентов ESL к использованию корпуса в письме на втором языке. Журнал письма на втором языке, 13 (4), 257–283. Получено 21 марта 2012 г.
  2. ^ Wołk, K.; Marasek, K. (7 апреля 2014 г.). "Статистический речевой перевод в реальном времени". Новые перспективы в информационных системах и технологиях, том 1. Достижения в области интеллектуальных систем и вычислений. Том 275. Springer. С. 107–114. arXiv : 1509.09090 . doi :10.1007/978-3-319-05951-8_11. ISBN 978-3-319-05950-1. ISSN  2194-5357. S2CID  15361632.
  3. ^ Волк, Кшиштоф; Марасек, Кшиштоф (2015). «Настроенный и ускоренный на GPU параллельный интеллектуальный анализ данных из сопоставимых корпусов». В Крал, Павел; Матоусек, Вацлав (ред.). Текст, речь и диалог – 18-я международная конференция, TSD 2015, Пльзень, Чешская Республика, 14–17 сентября 2015 г., Труды . Конспект лекций по информатике. Том 9302. Springer. стр. 32–40. arXiv : 1509.08639 . doi :10.1007/978-3-319-24033-6_4. ISBN 978-3-319-24032-9.

Внешние ссылки