Корпус арабской речи — это современный стандартный арабский (MSA) речевой корпус для синтеза речи . Корпус содержит фонетические и орфографические транскрипции более 3,7 часов речи MSA, согласованные с записанной речью на уровне фонем. Аннотации включают в себя ударения в словах на отдельных фонемах. [1]
Корпус арабской речи был создан в рамках докторского проекта Навара Халаби в Университете Саутгемптона , финансируемого MicroLinkPC, владеющей исключительной лицензией на коммерциализацию корпуса, но корпус доступен для строго некоммерческих целей через официальный веб-сайт Корпуса арабской речи. Он распространяется по лицензии Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International. [2]
Цель
Корпус был в основном создан для целей синтеза речи, в частности, синтеза речи , но корпус использовался для создания голосов на основе HMM в арабском языке. Он также использовался для автоматического выравнивания других речевых корпусов с их фонетической транскрипцией и мог использоваться как часть большего корпуса для обучения систем распознавания речи. [1]
Содержание
В комплект поставки входит следующее:
- 1813 .wav-файлов, содержащих устные высказывания.
- 1813 .lab-файлов, содержащих текстовые высказывания.
- 1813 файлов .TextGrid, содержащих метки фонем с временными метками границ, где они встречаются в файлах .wav.
- phonetic-transcript.txt, который имеет вид "[wav_filename]" "[Phoneme Sequence]" в каждой строке.
- orthographic-transcript.txt, который имеет вид "[wav_filename]" "[Orthographic Transcript]" в каждой строке. Орфография в формате Buckwalter, который более удобен там, где есть программное обеспечение, не читающее арабский алфавит. Его можно легко преобразовать обратно в арабский.
- Имеется еще 18 минут полностью аннотированного корпуса (отдельно от приведенного выше, но с той же структурой, что и выше), которые использовались для оценки корпуса (см. докторскую диссертацию).
Корпус также использовался для доказательства того, что использование автоматически извлеченных знаков ударения на основе орфографии [3] улучшает качество синтеза речи в MSA.
Смотрите также
Ссылки
- ^ ab Halabi, Nawar (2016). Современная стандартная арабская фонетика для синтеза речи (PDF) (докторская диссертация). Университет Саутгемптона , Школа электроники и компьютерных наук.
- ^ Халаби, Навар (2016), Корпус арабской речи (веб-страница), Оксфордский университет
- ^ Халперн, Джек (2009). Ударение в словах и нейтрализация гласных в современном стандартном арабском языке (PDF) . 2-я Международная конференция по ресурсам и инструментам арабского языка. Каир.
Внешние ссылки
- Официальный сайт Корпуса арабской речи
- Лицензия Creative Commons Attribution-NonCommercial-ShareAlike 4.0 Международная