В науке о речи и фонетике форманта — это широкий спектральный максимум, который возникает в результате акустического резонанса человеческого голосового тракта . [1] [2] В акустике форманта обычно определяется как широкий пик или локальный максимум в спектре. [3] [4] Для гармонических звуков, с этим определением, частота форманты иногда принимается как частота гармоники, которая больше всего усиливается резонансом. Разница между этими двумя определениями заключается в том, характеризуют ли «форманты» механизмы производства звука или сам произведенный звук. На практике частота спектрального пика немного отличается от связанной с ним резонансной частоты, за исключением случаев, когда, по счастливой случайности, гармоники совпадают с резонансной частотой или когда источник звука в основном негармонический, как при шепоте и вокальном щебетании .
Можно сказать, что комната имеет форманты, характерные для этой конкретной комнаты, из-за ее резонансов, т. е. способа, которым звук отражается от ее стен и предметов. Форманты комнаты такого рода усиливают себя, подчеркивая определенные частоты и поглощая другие, как это использовал, например, Элвин Люсьер в своей пьесе «Я сижу в комнате » . В акустической цифровой обработке сигналов способ, которым набор формант (например, комната) влияет на сигнал, может быть представлен импульсной характеристикой .
Как в речи, так и в помещениях форманты являются характерными чертами резонансов пространства. Говорят, что они возбуждаются акустическими источниками, такими как голос, и формируют (фильтруют) звуки источников, но сами по себе не являются источниками.
С акустической точки зрения фонетика столкнулась с серьезной проблемой, связанной с идеей о том, что эффективная длина голосового тракта изменяет гласные. [5] Действительно, когда изменяется длина голосового тракта, все акустические резонаторы, образованные ротовыми полостями, масштабируются, как и их резонансные частоты. Поэтому было неясно, как гласные могут зависеть от частот, когда говорящие с разной длиной голосового тракта, например, певцы баса и сопрано , могут производить звуки, которые воспринимаются как принадлежащие к одной и той же фонетической категории. Должен был быть какой-то способ нормализовать спектральную информацию, лежащую в основе идентичности гласных. Германн предложил решение этой проблемы в 1894 году, введя термин «форманта». Гласный, по его мнению, является особым акустическим явлением, зависящим от прерывистого производства особой частичной, или «формантной», или «характерной» черты. Частота «форманты» может немного меняться, не меняя характера гласного. Например, для «долгого е» ( ee или iy ) самая низкая частотная «форманта» может варьироваться от 350 до 440 Гц даже у одного и того же человека. [6]
Форманты — это отличительные частотные компоненты акустического сигнала, производимого речью, музыкальными инструментами [8] или пением . Информация, необходимая людям для различения звуков речи, может быть представлена чисто количественно путем указания пиков в частотном спектре. Большинство этих формант производятся резонансом труб и камер , но несколько свистящих тонов возникают в результате периодического коллапса зон низкого давления эффекта Вентури . [9]
Форманта с самой низкой частотой называется F 1 , вторая — F 2 , третья — F 3 и так далее. Основная частота или высота голоса иногда обозначается как F 0 , но это не форманта. Чаще всего двух первых формант, F 1 и F 2 , достаточно для идентификации гласной. Связь между воспринимаемым качеством гласной и первыми двумя частотами формант можно оценить, слушая «искусственные гласные», которые генерируются путем пропускания последовательности щелчков (для имитации последовательности голосовых импульсов) через пару полосовых фильтров (для имитации резонансов голосового тракта). Передние гласные имеют более высокую F 2 , в то время как низкие гласные имеют более высокую F 1 . Округление губ имеет тенденцию к понижению F 1 и F 2 в задних гласных и F 2 и F 3 в передних гласных. [10]
Носовые согласные обычно имеют дополнительную форманту около 2500 Гц. Плавный [l] обычно имеет дополнительную форманту на частоте 1500 Гц, тогда как английский звук "r" ( [ɹ] ) отличается очень низкой третьей формантой (значительно ниже 2000 Гц).
Взрывные (и, в некоторой степени, фрикативные ) изменяют расположение формант в окружающих гласных. Губно-губные звуки (такие как /b/ и /p/ в "ball" или "sap") вызывают понижение формант; на спектрограммах велярные звуки ( /k/ и /ɡ/ в английском языке) почти всегда показывают, что F 2 и F 3 сходятся вместе в "велярном щипке" перед велярным и отделяются от того же "щипка", когда велярный освобождается; альвеолярные звуки (английские /t/ и /d/ ) вызывают меньше систематических изменений в соседних гласных формантах, частично в зависимости от того, какой именно гласный присутствует. Временной ход этих изменений в частотах гласных формант называется "формантными переходами".
В нормальной звонкой речи основная вибрация, производимая голосовыми связками, напоминает пилообразную волну , богатую гармоническими обертонами. Если основная частота или (чаще) один из обертонов выше резонансной частоты системы, то резонанс будет возбуждаться лишь слабо, а форманта, обычно передаваемая этим резонансом, будет в основном потеряна. Это наиболее очевидно в случае оперных певиц- сопрано , которые поют на достаточно высоких тонах, так что их гласные становятся очень трудноразличимыми.
Контроль резонансов является важнейшим компонентом вокальной техники, известной как обертонное пение , при котором исполнитель поет низкий основной тон и создает резкие резонансы для выбора верхних гармоник , создавая впечатление одновременного исполнения нескольких тонов.
Спектрограммы могут использоваться для визуализации формант. В спектрограммах может быть трудно отличить форманты от естественных гармоник, когда поешь. Однако можно услышать естественные форманты в форме гласных с помощью атональных техник, таких как вокальное фрай .
Форманты, независимо от того, рассматриваются ли они как акустические резонансы речевого тракта или как локальные максимумы в спектре речи, подобно полосовым фильтрам , определяются своей частотой и спектральной шириной ( полосой пропускания ).
Существуют различные методы получения этой информации. Частоты формант, в их акустическом определении, можно оценить из частотного спектра звука, используя спектрограмму (на рисунке) или анализатор спектра. Однако для оценки акустических резонансов речевого тракта (т. е. речевого определения формант) из записи речи можно использовать линейное предсказательное кодирование . Промежуточный подход состоит в извлечении спектральной огибающей путем нейтрализации основной частоты [11] и только затем в поиске локальных максимумов в спектральной огибающей.
Первые две форманты важны для определения качества гласных, и часто говорят, что они соответствуют открытому/закрытому (или низкому/высокому) и передне/заднему измерениям (которые традиционно связаны с формой и положением языка ) . Таким образом, первая форманта F 1 имеет более высокую частоту для открытого или низкого гласного, такого как [a] , и более низкую частоту для закрытого или высокого гласного, такого как [i] или [u] ; а вторая форманта F 2 имеет более высокую частоту для переднего гласного, такого как [i], и более низкую частоту для заднего гласного, такого как [u] . [12] [13]
Гласные почти всегда будут иметь четыре или более различимых формантов, а иногда и больше шести. Однако первые две форманты являются наиболее важными для определения качества гласных и часто наносятся друг на друга на диаграммах гласных, [14] хотя это упрощение не может охватить некоторые аспекты качества гласных, такие как округление. [15]
Многие авторы обращались к проблеме поиска оптимального выравнивания позиций гласных на графиках формант с позициями на обычном четырехугольнике гласных. В новаторской работе Ладефогеда [16] использовалась шкала Мела , поскольку утверждалось, что эта шкала более точно соответствует слуховой шкале высоты тона, чем акустической мере основной частоты, выраженной в герцах. Двумя альтернативами шкалы Мела являются шкала Барка и шкала ERB-rate . [17] Другая широко принятая стратегия — нанесение разницы между F 1 и F 2, а не F 2 на горизонтальную ось. [ требуется ссылка ]
Исследования частотного спектра обученных ораторов и классических певцов , особенно мужчин, указывают на четкую форманту около 3000 Гц (между 2800 и 3400 Гц), которая отсутствует в речи или в спектрах неподготовленных ораторов или певцов. Считается, что она связана с одним или несколькими более высокими резонансами голосового тракта. [18] [19] Именно это увеличение энергии на частоте 3000 Гц позволяет певцам быть услышанными и понятыми в оркестре . Эта форманта активно развивается посредством вокальной тренировки , например, с помощью так называемых упражнений voce di strega или «голоса ведьмы» [20] , и вызывается частью голосового тракта, действующей как резонатор . [21] В классической музыке и вокальной педагогике это явление также известно как squillo .