Комплект письменных текстов в электронном виде на чешском языке
Чешский национальный корпус (ЧНК) (чеш. Český národní korpus) — большой электронный корпус письменного и устного чешского языка , разработанный Институтом Чешского национального корпуса (ICNC) на факультете искусств Карлова университета в Праге . Коллекция используется для обучения и исследований в области корпусной лингвистики . [1] ICNC сотрудничает с более чем 200 исследователями и студентами (в основном для получения устных и параллельных данных), 270 издательствами (в качестве поставщиков текстов) и другими подобными исследовательскими проектами.
Области внимания
Чешский национальный корпус систематически фокусируется на следующих областях: [2]
- Синхронные письменные корпуса : корпуса серии SYN отображают чешский язык 20-го и 21-го века (особенно последние двадцать лет) и составляют ядро проекта. Тексты обогащаются метаданными , лемматизацией и морфологической разметкой. [3]
- Современный спонтанный разговорный чешский язык : Корпуса серии ORAL содержат современный спонтанный разговорный язык, используемый в неформальных ситуациях по всей Чешской Республике (в отличие от подготовленных, транслируемых или записанных текстов, которые обычно встречаются в разговорных корпусах). [4]
- Многоязычный параллельный корпус : InterCorp — большой корпус чешских текстов, выровненных на уровне предложений с переводами на или с более чем 30 языков. Ядро корпуса состоит из вручную выровненных и вычитанных художественных текстов. [5]
- Диахронический корпус чешского языка : корпус исторического чешского языка DIAKORP включает тексты с 14-го века и далее. В настоящее время DIAKORP фокусируется на 19-м веке. Долгосрочная цель DIAKORP — создать корпус, охватывающий период с 1850 года по настоящее время и связывающий данные с серией SYN. [6]
- Специализированные лингвистические данные : ICNC также занимается сбором языковых данных для конкретных исследовательских целей, включая DIALEKT (диалектная речь), CzeSL (тексты, написанные лицами, для которых чешский язык не является родным), DEAF (чешские тексты, написанные глухими) или Jerome (переведенный и непереведенный чешский язык).
Ссылки
- ^ "Институт чешского национального корпуса". Институт чешского национального корпуса . Архивировано из оригинала 9 января 2019 года . Получено 8 января 2019 года .
- ^ Кржен, Михал. "Последние события в чешском национальном корпусе" (PDF) . Сервер публикаций Института немецкого языка . Получено 8 января 2019 г.
- ^ М. Гнаткова, М. Кржен, П. Прохазка и Х. Скумалова. (2014). «Корпуса письменного чешского языка серии SYN». Материалы LREC2014 : 160–164. S2CID 2586912.
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Л. Валкова, М. Вацлавичова и М. Кржен. (2012). «Сбалансированное хранилище данных спонтанного разговорного чешского языка» (PDF) . Материалы LREC2012 : 3345–3349 . Проверено 9 января 2019 г.
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ F. Čermák и A. Rosen (2012). «Случай InterCorp, многоязычного параллельного корпуса» (PDF) . International Journal of Corpus Linguistics . 13 (3): 411–427. doi :10.1075/ijcl.17.3.05cer . Получено 9 января 2019 г. .
- ^ К. Кучера и М. Стлука. (2014). «Корпус чешских текстов XIX века: проблемы и решения» (PDF) . Труды LREC2014 : 165–168 . Получено 9 января 2019 г.
Внешние ссылки
- Чешский народный корпус
- Институт чешского национального корпуса