Корпус арабской речи

Корпус арабской речи — это современный стандартный арабский (MSA) речевой корпус для синтеза речи . Корпус содержит фонетические и орфографические транскрипции более 3,7 часов речи MSA, согласованные с записанной речью на уровне фонем. Аннотации включают в себя ударения в словах на отдельных фонемах. ^[1]

Корпус арабской речи был создан в рамках докторского проекта Навара Халаби в Университете Саутгемптона , финансируемого MicroLinkPC, владеющей исключительной лицензией на коммерциализацию корпуса, но корпус доступен для строго некоммерческих целей через официальный веб-сайт Корпуса арабской речи. Он распространяется по лицензии Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International. ^[2]

Цель

Корпус был в основном создан для целей синтеза речи, в частности, синтеза речи , но корпус использовался для создания голосов на основе HMM в арабском языке. Он также использовался для автоматического выравнивания других речевых корпусов с их фонетической транскрипцией и мог использоваться как часть большего корпуса для обучения систем распознавания речи. ^[1]

Содержание

В комплект поставки входит следующее:

1813 .wav-файлов, содержащих устные высказывания.
1813 .lab-файлов, содержащих текстовые высказывания.
1813 файлов .TextGrid, содержащих метки фонем с временными метками границ, где они встречаются в файлах .wav.
phonetic-transcript.txt, который имеет вид "[wav_filename]" "[Phoneme Sequence]" в каждой строке.
orthographic-transcript.txt, который имеет вид "[wav_filename]" "[Orthographic Transcript]" в каждой строке. Орфография в формате Buckwalter, который более удобен там, где есть программное обеспечение, не читающее арабский алфавит. Его можно легко преобразовать обратно в арабский.
Имеется еще 18 минут полностью аннотированного корпуса (отдельно от приведенного выше, но с той же структурой, что и выше), которые использовались для оценки корпуса (см. докторскую диссертацию).

Корпус также использовался для доказательства того, что использование автоматически извлеченных знаков ударения на основе орфографии ^[3] улучшает качество синтеза речи в MSA.

Смотрите также

Сравнение наборов данных в машинном обучении

Ссылки

^ ab Halabi, Nawar (2016). Современная стандартная арабская фонетика для синтеза речи (PDF) (докторская диссертация). Университет Саутгемптона , Школа электроники и компьютерных наук.
^ Халаби, Навар (2016), Корпус арабской речи (веб-страница), Оксфордский университет
^ Халперн, Джек (2009). Ударение в словах и нейтрализация гласных в современном стандартном арабском языке (PDF) . 2-я Международная конференция по ресурсам и инструментам арабского языка. Каир.

Внешние ссылки

Официальный сайт Корпуса арабской речи
Лицензия Creative Commons Attribution-NonCommercial-ShareAlike 4.0 Международная