Задержка относится к короткому периоду задержки (обычно измеряемому в миллисекундах ) между тем, когда аудиосигнал входит в систему, и когда он выходит. Потенциальные факторы, способствующие задержке в аудиосистеме, включают аналого-цифровое преобразование , буферизацию , цифровую обработку сигнала , время передачи , цифро-аналоговое преобразование и скорость звука в среде передачи .
Задержка может быть критически важным показателем производительности в профессиональном аудио , включая системы звукоусиления , системы foldback (особенно те, которые используют внутриушные мониторы ) , радио и телевидение в прямом эфире . Чрезмерная задержка звука может привести к ухудшению качества вызовов в телекоммуникационных приложениях. Низкая задержка звука в компьютерах важна для интерактивности .
Можно сказать, что во всех системах задержка состоит из трех элементов: задержки кодека , задержки воспроизведения и сетевой задержки.
Задержку в телефонных звонках иногда называютзадержка «рот-ухо» ; телекоммуникационная отрасль также использует термин «качество восприятия»(QoE). Качество голоса измеряется в соответствии сITU; измеримое качество вызова быстро ухудшается, когда задержка «рот-ухо» превышает 200 миллисекунд. Среднийбалл мнения(MOS) также сопоставим почти линейно со шкалой качества ITU, определенной в стандартах G.107,[1] : 800 G.108[2]и G.109[3]— с фактором качестваRв диапазоне от 0 до 100. MOS 4 («хорошо») будет иметьR80 или выше; для достижения 100R требуется MOS, превышающий 4,5.
МСЭ и 3GPP группируют услуги конечных пользователей по классам на основе чувствительности к задержке: [4]
Аналогично, рекомендация G.114 относительно задержки «рот-ухо» указывает, что большинство пользователей «очень довольны», пока задержка не превышает 200 мс, с соответствующим R 90+. Выбор кодека также играет важную роль; кодеки самого высокого качества (и с самой высокой пропускной способностью), такие как G.711, обычно настраиваются на минимальную задержку кодирования-декодирования, поэтому в сети с достаточной пропускной способностью можно достичь задержек менее 100 мс . G.711 с битрейтом 64 кбит/с является методом кодирования, который в основном используется в коммутируемой телефонной сети общего пользования .
Узкополосный кодек AMR , используемый в сетях GSM и UMTS , вносит задержку в процессы кодирования и декодирования.
Поскольку операторы мобильной связи модернизируют существующие сети с максимальным уровнем эффективности для поддержки одновременного предоставления нескольких типов услуг в сетях, полностью основанных на IP, такие услуги, как иерархическое качество обслуживания ( H-QoS ), позволяют применять политики QoS для каждого пользователя и каждой услуги, чтобы отдавать приоритет чувствительным ко времени протоколам, таким как голосовые вызовы и другой трафик беспроводных обратных соединений. [5] [6] [7]
Другим аспектом задержки в мобильной связи является межсетевая передача обслуживания: когда клиент в сети A звонит клиенту в сети B, вызов должен пройти через две отдельные сети радиодоступа , две основные сети и связующий шлюзовой центр коммутации мобильной связи (GMSC), который выполняет физическое соединение между двумя провайдерами. [8]
С управляемым сквозным QoS и гарантированной скоростью соединения задержка может быть снижена до аналоговых уровней PSTN/POTS. При стабильном соединении с достаточной пропускной способностью и минимальной задержкой системы VoIP обычно имеют минимальную собственную задержку 20 мс. В менее идеальных сетевых условиях максимальная задержка 150 мс требуется для общего использования потребителями. [9] [10] Многие популярные системы видеоконференций полагаются на буферизацию данных и избыточность данных, чтобы справиться с сетевым джиттером и потерей пакетов. Измерения показали, что задержка от рта до уха составляет от 160 до 300 мс на расстоянии 500 миль в средних сетевых условиях США. [ требуется ссылка ] Задержка является более существенным фактором, когда присутствует эхо, и системы должны выполнять подавление и ликвидацию эха . [11]
Задержка может быть особой проблемой в аудиоплатформах на компьютерах. Поддерживаемые оптимизации интерфейса сокращают задержку до времени, которое слишком мало для восприятия человеческим ухом. Уменьшая размеры буфера, можно сократить задержку. [12] Популярным решением для оптимизации является ASIO от Steinberg , который обходит аудиоплатформу и подключает аудиосигналы напрямую к оборудованию звуковой карты. Многие профессиональные и полупрофессиональные аудиоприложения используют драйвер ASIO, что позволяет пользователям работать со звуком в реальном времени. [13] Pro Tools HD предлагает систему с низкой задержкой, похожую на ASIO. Pro Tools 10 и 11 также совместимы с драйверами интерфейса ASIO.
Ядро реального времени Linux [14] — это модифицированное ядро, которое изменяет стандартную частоту таймера, используемую ядром Linux, и дает всем процессам или потокам возможность иметь приоритет реального времени. Это означает, что критичный по времени процесс, такой как аудиопоток, может получить приоритет над другим, менее критичным процессом, таким как сетевая активность. Это также настраивается для каждого пользователя (например, процессы пользователя «tux» могут иметь приоритет над процессами пользователя «nobody» или над процессами нескольких системных демонов ).
Многие современные цифровые телевизионные приемники, телевизионные приставки и AV-ресиверы используют сложную обработку звука, которая может создавать задержку между временем приема аудиосигнала и временем его прослушивания на динамиках. Поскольку телевизоры также вносят задержки в обработку видеосигнала, это может привести к тому, что два сигнала будут достаточно синхронизированы, чтобы быть незаметными для зрителя. Однако, если разница между задержкой звука и видео значительна, эффект может быть обескураживающим. Некоторые системы имеют настройку синхронизации губ , которая позволяет регулировать задержку звука для синхронизации с видео, а другие могут иметь расширенные настройки, в которых некоторые этапы обработки звука могут быть отключены.
Задержка звука также является существенным недостатком в ритм-играх , где для успеха требуется точный тайминг. Большинство этих игр имеют настройку калибровки задержки, после чего игра будет корректировать временные окна на определенное количество миллисекунд для компенсации. В этих случаях ноты песни будут отправлены на динамики еще до того, как игра получит требуемый ввод от игрока, чтобы сохранить иллюзию ритма. Игры, которые полагаются на музыкальную импровизацию , такие как барабаны Rock Band или DJ Hero , все еще могут сильно пострадать, так как игра не может предсказать, что игрок ударит в этих случаях, и чрезмерная задержка все равно будет создавать заметную задержку между ударом нот и их воспроизведением.
Задержка звука может возникнуть в системах вещания, где кто-то вносит вклад в прямую трансляцию через спутник или аналогичную связь с высокой задержкой. Человек в главной студии должен ждать, пока участник на другом конце связи отреагирует на вопросы. Задержка в этом контексте может составлять от нескольких сотен миллисекунд до нескольких секунд. Работа с такими высокими задержками звука требует специальной подготовки, чтобы сделать полученный комбинированный аудиовыход приемлемым для слушателей. Где это возможно, важно стараться поддерживать низкую задержку звука живого производства, чтобы реакции и взаимодействие участников были максимально естественными. Задержка в 10 миллисекунд или лучше является целью для аудиосхем в профессиональных производственных структурах. [15]
Задержка в живом исполнении возникает естественным образом из-за скорости звука . Звуку требуется около 3 миллисекунд, чтобы пройти 1 метр. Небольшие задержки возникают между исполнителями в зависимости от того, как они расположены друг от друга и от сценических мониторов , если они используются. Это создает практический предел того, насколько далеко артисты в группе могут находиться друг от друга. Сценический мониторинг расширяет этот предел, поскольку звук распространяется со скоростью, близкой к скорости света , по кабелям, соединяющим сценические мониторы.
Исполнители, особенно в больших помещениях, также будут слышать реверберацию или эхо своей музыки, поскольку звук, исходящий со сцены, отражается от стен и конструкций и возвращается с задержкой и искажением. Основная цель мониторинга сцены — предоставить артистам более первичный звук, чтобы их не смущала задержка этих ревербераций.
В то время как аналоговое аудиооборудование не имеет заметной задержки, у цифрового аудиооборудования есть задержка, связанная с двумя общими процессами: преобразованием из одного формата в другой и задачами цифровой обработки сигнала (ЦОС), такими как эквализация, сжатие и маршрутизация.
Процессы цифрового преобразования включают в себя аналого-цифровые преобразователи (АЦП), цифро-аналоговые преобразователи (ЦАП) и различные изменения из одного цифрового формата в другой, такие как AES3 , который переносит электрические сигналы низкого напряжения в ADAT , оптический транспорт. Любой такой процесс занимает небольшое количество времени для выполнения; типичные задержки находятся в диапазоне от 0,2 до 1,5 миллисекунд, в зависимости от частоты дискретизации, разработки программного обеспечения и аппаратной архитектуры. [16]
Различные операции обработки аудиосигнала, такие как фильтры с конечной импульсной характеристикой (FIR) и бесконечной импульсной характеристикой (IIR), используют различные математические подходы к одному и тому же результату и могут иметь разные задержки. Кроме того, буферизация входных и выходных выборок добавляет задержку. Типичные задержки варьируются от 0,5 до десяти миллисекунд, а некоторые конструкции имеют задержку до 30 миллисекунд. [17]
Задержка в цифровом аудиооборудовании наиболее заметна, когда голос певца передается через микрофон, через цифровые пути микширования, обработки и маршрутизации звука, а затем отправляется в его собственные уши через внутриушные мониторы или наушники. В этом случае вокальный звук певца передается в его собственное ухо через кости головы, а затем через цифровой путь в его уши через несколько миллисекунд. В одном исследовании слушатели обнаружили, что задержка более 15 мс является заметной. Задержка для других музыкальных видов деятельности, таких как игра на гитаре, не имеет такого же критического значения. Десять миллисекунд задержки не так заметны для слушателя, который не слышит свой собственный голос. [18]
При звукоусилении для музыкальных или речевых представлений на больших площадках оптимально подавать достаточную громкость звука в заднюю часть помещения, не прибегая к чрезмерной громкости звука вблизи передней части. Одним из способов для звукорежиссеров добиться этого является использование дополнительных громкоговорителей, размещенных на расстоянии от сцены, но ближе к задней части аудитории. Звук распространяется по воздуху со скоростью звука (около 343 метров (1125 футов) в секунду в зависимости от температуры и влажности воздуха). Измеряя или оценивая разницу в задержке между громкоговорителями вблизи сцены и громкоговорителями ближе к аудитории, звукорежиссер может ввести соответствующую задержку в звуковой сигнал, идущий к последним громкоговорителям, так что волновые фронты от ближних и дальних громкоговорителей прибудут одновременно. Из -за эффекта Хааса можно добавить еще 15 миллисекунд к задержке громкоговорителей, расположенных ближе к аудитории, так что волновой фронт сцены достигает их первыми, чтобы сосредоточить внимание аудитории на сцене, а не на локальном громкоговорителе. Немного более поздний звук от задержанных громкоговорителей просто увеличивает воспринимаемый уровень звука, не оказывая отрицательного влияния на локализацию.
{{cite web}}
: CS1 maint: числовые имена: список авторов ( ссылка ){{cite web}}
: CS1 maint: числовые имена: список авторов ( ссылка )