stringtranslate.com

Корпус текста

В лингвистике и обработке естественного языка корпус ( мн. ч.: corpora ) или текстовый корпус это набор данных, состоящий из изначально цифровых и более старых, оцифрованных языковых ресурсов , как аннотированных, так и неаннотированных.

Аннотированные, они использовались в корпусной лингвистике для статистической проверки гипотез , проверки вхождений или подтверждения языковых правил в пределах определенной языковой территории.

Обзор

Корпус может содержать тексты на одном языке ( моноязычный корпус ) или текстовые данные на нескольких языках ( многоязычный корпус ).

Чтобы сделать корпусы более полезными для проведения лингвистических исследований, их часто подвергают процессу, известному как аннотирование . Примером аннотирования корпуса является разметка частей речи или POS-разметка , при которой информация о части речи каждого слова (глагол, существительное, прилагательное и т. д.) добавляется к корпусу в виде тегов . Другим примером является указание леммы (базовой) формы каждого слова. Когда язык корпуса не является рабочим языком исследователей, которые его используют, используется межстрочное глоссирование, чтобы сделать аннотацию двуязычной.

Некоторые корпуса имеют дополнительные структурированные уровни анализа. В частности, меньшие корпуса могут быть полностью проанализированы . Такие корпуса обычно называются Treebanks или Parsed Corpora . Сложность обеспечения того, чтобы весь корпус был полностью и последовательно аннотирован, означает, что эти корпуса обычно меньше, содержат около одного-трех миллионов слов. Возможны другие уровни лингвистического структурированного анализа, включая аннотации для морфологии , семантики и прагматики .

Приложения

Корпуса являются основной базой знаний в корпусной лингвистике . Другие известные области применения включают:

Некоторые примечательные текстовые корпуса

Смотрите также

Ссылки

  1. ^ Юн, Х. и Хирвела, А. (2004). Отношение студентов ESL к использованию корпуса в письме на втором языке. Журнал письма на втором языке, 13 (4), 257–283. Получено 21 марта 2012 г.
  2. ^ Wołk, K.; Marasek, K. (7 апреля 2014 г.). "Статистический речевой перевод в реальном времени". Новые перспективы в информационных системах и технологиях, том 1. Достижения в области интеллектуальных систем и вычислений. Том 275. Springer. С. 107–114. arXiv : 1509.09090 . doi :10.1007/978-3-319-05951-8_11. ISBN 978-3-319-05950-1. ISSN  2194-5357. S2CID  15361632.
  3. ^ Wolk, Krzysztof; Marasek, Krzysztof (2015). «Настроенный и ускоренный на GPU параллельный интеллектуальный анализ данных из сопоставимых корпусов». В Král, Pavel; Matousek, Václav (ред.). Text, Speech, and Dialogue – 18th International Conference, TSD 2015, Pilsen, Czech Republic, September 14–17, 2015, Proceedings . Lecture Notes in Computer Science. Vol. 9302. Springer. pp. 32–40. arXiv : 1509.08639 . doi :10.1007/978-3-319-24033-6_4. ISBN 978-3-319-24032-9.

Внешние ссылки