Речевой корпус (или разговорный корпус ) — это база данных речевых аудиофайлов и текстовых транскрипций . В речевых технологиях речевые корпуса используются, помимо прочего, для создания акустических моделей (которые затем могут использоваться с механизмом распознавания речи или идентификации говорящего ). [1]
В лингвистике разговорные корпуса используются для проведения исследований в области фонетики , анализа разговора , диалектологии и других областях. [2] [3]
Корпус — это одна из таких баз данных. Corpora — это множественное число от corpus (т.е. это множество таких баз данных).
Существует два типа речевых корпусов:
- Прочитайте речь, которая включает в себя:
- Отрывки из книг
- Трансляция новостей
- Списки слов
- Последовательности чисел
- Спонтанная речь, которая включает в себя:
- Диалоги – между двумя или более людьми (включая встречи; одним из таких корпусов является KEC);
- Повествования – человек, рассказывающий историю (одним из таких корпусов является Buckeye Corpus );
- Задания по карте – один человек объясняет другому маршрут по карте;
- Задачи по назначению встреч — два человека пытаются найти общее время для встречи, основываясь на индивидуальных графиках.
Особым видом речевых корпусов являются базы данных неродной речи , содержащие речь с иностранным акцентом.
Смотрите также
Ссылки
- ^ Саранги, Сусанта; Сахидулла, Мэриленд; Саха, Гаутам (сентябрь 2020 г.). «Оптимизация банка фильтров на основе данных для автоматической проверки говорящего». Цифровая обработка сигналов . 104 : 102795. arXiv : 2007.10729 . Bibcode : 2020DSP...10402795S. doi : 10.1016/j.dsp.2020.102795. S2CID 220665533.
- ^ Рис, Эндрю; Куни, Гас; Булл, Питер; Чунг, Кристин; Доусон, Брин; Фицпатрик, Кейси; Глейзер, Тамара; Нокс, Дин; Либшер, Алекс; Марин, Себастьян (01.03.2022). «Развитие междисциплинарной науки о разговоре: выводы из большого мультимодального корпуса человеческой речи». arXiv : 2203.00674 [cs.CL].
- ^ "Корпус разговорного американского английского языка Санта-Барбары | Отделение лингвистики - Калифорнийский университет в Санта-Барбаре". www.linguistics.ucsb.edu . Получено 26.04.2023 .
- Эдвардс, Джейн / Ламперт, Мартин (ред.) (1992): Talking Data – Transcription and Coding in Discourse Research. Hillsdale: Erlbaum.
- Лич, Джеффри / Майерс, Грег / Томас, Дженни (ред.) (1995): Разговорный английский на компьютере: транскрипция, разметка и применение. Harlow: Longman.
Внешние ссылки
- Корпус разговорного американского английского языка Санта-Барбары
- Корпус разговорной речи Buckeye Корпус разговорной речи Buckeye
- KEC — Корпус спонтанно звучащей южнонемецкой речи в диалогах Карла Эберхарда — аудиозаписи и артикуляционные записи
- Корпуса устной речи в Исследовательском центре многоязычия
- Корпус разговорного турецкого языка в METU Ankara
- Клиент разговорного корпуса с корпусом Corp-Oral в ILTEC Лиссабон
- VoxForge – речевые корпуса с открытым исходным кодом
- OLAC: Сообщество открытых языковых архивов
- BAS Баварский архив речевых сигналов
- Корпус распознавания речи Simmortel для индийского английского и хинди
- ELRA: Европейская ассоциация языковых ресурсов
- Корпус разговорного польского языка PELCRA
- Корпус арабской речи
- Корпус политических речей: бесплатный доступ к политическим речам американских и китайских политиков, разработанный библиотекой Гонконгского баптистского университета.
- Большой мультимодальный корпус человеческой речи