Растяжение по времени — это процесс изменения скорости или длительности аудиосигнала без влияния на его высоту тона . Масштабирование высоты тона — это противоположность: процесс изменения высоты тона без влияния на скорость. Сдвиг высоты тона — это масштабирование высоты тона, реализованное в блоке эффектов и предназначенное для живого исполнения. Управление высотой тона — это более простой процесс, который одновременно влияет на высоту тона и скорость, замедляя или ускоряя запись.
Эти процессы часто используются для согласования высоты тона и темпа двух предварительно записанных клипов для микширования, когда клипы не могут быть воспроизведены повторно или передискретизированы. Растягивание времени часто используется для корректировки радиорекламы [1] и аудио телевизионной рекламы [2], чтобы они точно вписывались в доступные 30 или 60 секунд. Его можно использовать для согласования более длинного материала с назначенным временным интервалом, например, 1-часовой трансляцией.
Самый простой способ изменить длительность или высоту тона аудиозаписи — изменить скорость воспроизведения. Для цифровой аудиозаписи это можно сделать с помощью преобразования частоты дискретизации . При использовании этого метода частоты в записи всегда масштабируются в том же соотношении, что и скорость, транспонируя ее воспринимаемую высоту тона вверх или вниз в процессе. Замедление записи для увеличения длительности также понижает высоту тона, в то время как ее ускорение на более короткую продолжительность соответственно повышает высоту тона, создавая так называемый эффект бурундука . При передискретизации звука до заметно более низкой высоты тона может быть предпочтительнее, чтобы исходный звук имел более высокую частоту дискретизации, поскольку замедление скорости воспроизведения будет воспроизводить аудиосигнал с более низким разрешением и, следовательно, снизит воспринимаемую четкость звука. Напротив, при передискретизации звука до значительно более высокой тональности может быть предпочтительнее включить интерполяционный фильтр, поскольку частоты, превышающие частоту Найквиста (определяемую частотой дискретизации программного обеспечения или устройства воспроизведения звука), обычно создают нежелательные искажения звука — явление, также известное как наложение спектров.
Одним из способов увеличения длительности сигнала без изменения высоты тона является создание фазового вокодера по образцу Фланагана, Голдена и Портноффа.
Основные шаги:
Фазовый вокодер хорошо обрабатывает синусоидальные компоненты, но ранние реализации вносили значительное размытие в переходные ("биения") формы волн при всех нецелочисленных скоростях сжатия/расширения, что делало результаты фазовыми и размытыми. Недавние усовершенствования позволяют получать результаты лучшего качества при всех скоростях сжатия/расширения, но остаточный эффект размытия все еще сохраняется.
Метод фазового вокодера также может использоваться для изменения высоты тона, хоруса, тембровой манипуляции, гармонизации и других необычных модификаций, все из которых могут изменяться в зависимости от времени.
Другой метод растяжения времени основан на спектральной модели сигнала. В этом методе пики определяются в кадрах с использованием STFT сигнала, а синусоидальные «треки» создаются путем соединения пиков в соседних кадрах. Затем треки повторно синтезируются в новой временной шкале. Этот метод может дать хорошие результаты как на полифоническом, так и на ударном материале, особенно когда сигнал разделен на поддиапазоны. Однако этот метод более требователен к вычислениям, чем другие методы. [ необходима цитата ]
В 1978 году Рабинер и Шефер предложили альтернативное решение, которое работает во временной области : попытаться найти период (или, что эквивалентно, основную частоту ) заданного участка волны, используя некий алгоритм определения высоты тона (обычно пик автокорреляции сигнала или иногда кепстральную обработку), и плавно переходить из одного периода в другой.
Это называется гармоническим масштабированием во временной области [5] или методом синхронизированного перекрытия-сложения (SOLA), и работает несколько быстрее, чем фазовый вокодер на более медленных машинах, но дает сбой, когда автокорреляция неверно оценивает период сигнала со сложными гармониками (например, оркестровые произведения).
Adobe Audition (ранее Cool Edit Pro), по-видимому, решает эту проблему, находя период, ближайший к центральному периоду, указанному пользователем, который должен быть целым кратным темпу и находиться в диапазоне от 30 Гц до самой низкой басовой частоты.
Это гораздо более ограничено в области применения, чем обработка на основе фазового вокодера, но может быть сделано гораздо менее интенсивным для процессора, для приложений в реальном времени. Это обеспечивает наиболее согласованные результаты [ необходима цитата ] для однотонных звуков, таких как голос или записи музыкально монофонических инструментов.
Высококачественные коммерческие пакеты обработки звука либо объединяют эти два метода (например, разделяя сигнал на синусоидальную и переходную формы волны), либо используют другие методы, основанные на вейвлет -преобразовании или обработке искусственными нейронными сетями [ необходима ссылка ] , обеспечивая максимально качественное растяжение во времени.
Чтобы сохранить высоту аудиосигнала при растяжении или сжатии его длительности, многие процедуры изменения шкалы времени (TSM) следуют подходу на основе кадров. [6] При наличии исходного дискретного по времени аудиосигнала первым шагом этой стратегии является разбиение сигнала на короткие кадры анализа фиксированной длины. Кадры анализа разнесены на фиксированное количество выборок, называемое размером скачка анализа . Чтобы добиться фактического изменения шкалы времени, кадры анализа затем временно перемещаются, чтобы иметь размер скачка синтеза . Это перемещение кадра приводит к изменению длительности сигнала с коэффициентом растяжения . Однако простое наложение немодифицированных кадров анализа обычно приводит к нежелательным артефактам, таким как разрывы фазы или флуктуации амплитуды. Чтобы предотвратить подобные артефакты, кадры анализа адаптируются для формирования кадров синтеза до реконструкции измененного по шкале времени выходного сигнала.
Стратегия получения кадров синтеза из кадров анализа является ключевым отличием различных процедур TSM.
Для конкретного случая речи растяжение времени можно выполнить с помощью PSOLA .
Сжатая по времени речь — это представление вербального текста в сжатом времени. Хотя можно было бы ожидать, что ускорение уменьшит понимание, Херб Фридман говорит, что «эксперименты показали, что мозг работает наиболее эффективно, если скорость информации через уши — через речь — является «средней» скоростью чтения, которая составляет около 200–300 слов в минуту (слов в минуту), в то время как средняя скорость речи находится в районе 100–150 слов в минуту». [7]
Прослушивание сжатой по времени речи рассматривается как эквивалент скорочтения . [ кем? ] [8] [9]
Эти методы также могут быть использованы для транспонирования аудиосэмпла, сохраняя скорость или длительность постоянными. Это может быть достигнуто путем растяжения времени и последующей повторной выборки обратно к исходной длине. В качестве альтернативы частота синусоид в синусоидальной модели может быть изменена напрямую, а сигнал реконструирован в соответствующем масштабе времени.
Транспонирование можно назвать масштабированием частоты или смещением высоты тона , в зависимости от точки зрения.
Например, можно сместить высоту каждой ноты на чистую квинту, сохраняя темп тем же. Можно рассматривать эту транспозицию как «сдвиг высоты тона», «сдвиг» каждой ноты на 7 клавиш вверх на клавиатуре пианино или добавление фиксированной величины на шкале Mel , или добавление фиксированной величины в линейном пространстве высоты тона . Можно рассматривать ту же транспозицию как «масштабирование частоты», «масштабирование» (умножение) частоты каждой ноты на 3/2.
Музыкальная транспозиция сохраняет соотношения гармонических частот, которые определяют тембр звука , в отличие от сдвига частоты, выполняемого амплитудной модуляцией , которая добавляет фиксированное смещение частоты к частоте каждой ноты. (Теоретически можно выполнить буквальное масштабирование высоты тона , при котором масштабируется положение музыкального пространства высоты тона [более высокая нота будет смещена на больший интервал в линейном пространстве высоты тона, чем более низкая нота], но это крайне необычно и не музыкально. [ требуется ссылка ] )
Обработка во временной области здесь работает намного лучше, так как размывание менее заметно, но масштабирование вокальных сэмплов искажает форманты в своего рода эффект типа «Элвин и бурундуки» , что может быть как желательным, так и нежелательным. Процесс, который сохраняет форманты и характер голоса, включает анализ сигнала с помощью канального вокодера или вокодера LPC плюс любой из нескольких алгоритмов обнаружения высоты тона , а затем его повторный синтез на другой основной частоте.
Подробное описание старых аналоговых методов записи для изменения высоты тона можно найти в книге Элвин и бурундуки § Методы записи .
Временное растяжение звука с коррекцией высоты тона встречается в каждом современном веб-браузере как часть стандарта HTML для воспроизведения мультимедиа. [10] Аналогичные элементы управления повсеместно используются в медиа-приложениях и фреймворках, таких как GStreamer и Unity .
{{cite magazine}}
: Cite журнал требует |magazine=
( помощь )