В лингвистике , синтезе речи и музыке контур высоты тона звука — это функция или кривая, которая отслеживает воспринимаемую высоту звука с течением времени. Контур высоты тона может включать несколько звуков, использующих много высот, и может связывать частотную функцию в одной точке времени с частотной функцией в более поздней точке.
Это фундаментально для лингвистической концепции тона , где высота или изменение высоты тона речевой единицы с течением времени влияет на семантическое значение звука. Это также указывает на интонацию в языках с тональным акцентом .
Одной из основных задач в технологии синтеза речи , особенно для нетональных языков, является создание естественно звучащего контура высоты тона для высказывания в целом. Неестественные контуры высоты тона приводят к синтезу, который звучит «безжизненно» или «безэмоционально» для слушателей-людей, что стало стереотипом синтеза речи в популярной культуре.
В музыке контур высоты тона фокусируется на относительном изменении высоты тона с течением времени первичной последовательности сыгранных нот. Тот же контур может быть транспонирован без потери его основных относительных качеств, таких как внезапные изменения высоты тона или высота тона, которая повышается или понижается с течением времени. Методология Майкла Фридмана [1] для анализа контура высоты тона, часто используемая при анализе посттональной музыки, присваивает числовые значения нотам, где каждая высота тона падает по отношению к другим в пределах музыкальной строки; самой низкой высоте тона присваивается «0», а самой высокой высоте тона присваивается значение n-1, где n = количество высот в пределах сегментации. Таким образом, контур, который следует последовательности низкий, средний, высокий, будет помечен как классы контуров 0, 1 и 2.
Чистые тона имеют четкую высоту тона, но сложные звуки, такие как речь и музыка, обычно имеют интенсивные пики на многих различных частотах. Тем не менее, установив фиксированную точку отсчета в частотной функции сложного звука, а затем наблюдая за движением этой точки отсчета по мере преобразования функции, можно сгенерировать значимый контур высоты тона, соответствующий человеческому опыту.
Например, гласный [e] имеет две основные форманты , одна из которых достигает пика между 280 и 530 Гц, а другая между 1760 и 3500 Гц. Когда человек произносит предложение, включающее несколько звуков [e] , пики будут смещаться в пределах этих диапазонов, а перемещение пиков между двумя примерами устанавливает разницу в их значениях на контуре высоты тона.