stringtranslate.com

Передаточная функция, связанная с головой

Эффект фильтрации HRTF

Передаточная функция , связанная с головой ( HRTF ) — это реакция, характеризующая то, как ухо получает звук из точки пространства. Когда звук поражает слушателя, размер и форма головы, ушей, ушного канала, плотность головы, размер и форма носовой и ротовой полостей — все это трансформирует звук и влияет на его восприятие, усиливая одни частоты и ослабляя другие. . Вообще говоря, HRTF повышает частоты от 2 до 5 кГц с первичным резонансом +17 дБ на частоте 2700 Гц. Но кривая реакции более сложна, чем одиночный удар, влияет на широкий частотный спектр и значительно варьируется от человека к человеку.

Пара HRTF для двух ушей может использоваться для синтеза бинаурального звука, который, кажется, исходит из определенной точки пространства. Это передаточная функция , описывающая, как звук из определенной точки достигнет уха (обычно на внешнем конце слухового прохода ). Некоторые потребительские домашние развлекательные продукты, предназначенные для воспроизведения объемного звука из стереонаушников (с двумя динамиками), используют HRTF. Некоторые формы обработки HRTF также были включены в компьютерное программное обеспечение для имитации воспроизведения объемного звука из громкоговорителей.

Звуковая локализация

У человека всего два уха , но он может определять звуки в трех измерениях: по дальности (расстоянию), по направлению вверх и вниз (возвышение), спереди и сзади, а также в обе стороны (азимут). Это возможно, потому что мозг, внутреннее ухо и наружное ухо ( ушная раковина ) работают вместе, делая выводы о местоположении. Эта способность локализовать источники звука, возможно, развилась у людей и предков как эволюционная необходимость, поскольку глаза могут видеть только часть мира вокруг зрителя, а зрение затрудняется в темноте, в то время как способность локализовать источник звука работает во всех случаях. направлениях с различной точностью [1] независимо от окружающего освещения.

Люди оценивают местоположение источника, принимая сигналы, поступающие из одного уха ( монауральные сигналы ), и сравнивая сигналы, полученные в обоих ушах ( сигналы различия или бинауральные сигналы ). Среди сигналов различия - разница во времени прибытия и разница в интенсивности. Монауральные сигналы возникают в результате взаимодействия между источником звука и анатомией человека, при котором исходный исходный звук модифицируется перед тем, как он попадает в ушной канал для обработки слуховой системой. Эти модификации кодируют местоположение источника и могут быть зафиксированы с помощью импульсной характеристики , которая связывает местоположение источника и местоположение уха. Эта импульсная реакция называется импульсной реакцией, связанной с головой (HRIR). Свертка произвольного исходного звука с помощью HRIR преобразует звук в тот, который был бы услышан слушателем, если бы он воспроизводился в источнике, а ухо слушателя - в месте приемника. HRIR использовались для создания виртуального объемного звука. [2] [3] [ нужен пример ]

HRTF — это преобразование Фурье HRIR.

HRTF для левого и правого уха (выраженные выше как HRIR) описывают фильтрацию источника звука ( x ( t )) до того, как он будет восприниматься левым и правым ухом как x L ( t ) и x R ( t ) соответственно.

HRTF также можно описать как изменение направления звука в свободном воздухе на звук, достигающий барабанной перепонки . Эти модификации включают форму внешнего уха слушателя, форму головы и тела слушателя, акустические характеристики пространства, в котором воспроизводится звук, и так далее. Все эти характеристики будут влиять на то, как (и сможет ли) слушатель точно определить, в каком направлении доносится звук.

В стандарте AES69-2015 [4] Общество аудиоинженеров (AES) определило формат файла SOFA для хранения пространственно-ориентированных акустических данных, таких как передаточные функции, связанные с головой (HRTF). Библиотеки и файлы программного обеспечения SOFA собраны на веб-сайте Sofa Conventions. [5]

Как работает HRTF

Связанный с этим механизм варьируется у разных людей, поскольку у них различаются формы головы и ушей.

HRTF описывает, как данный входной звуковой сигнал (параметрированный как частота и местоположение источника) фильтруется дифракционными и отражательными свойствами головы , ушной раковины и туловища , прежде чем звук достигнет преобразовательного механизма барабанной перепонки и внутреннего уха (см. Слуховая система) . ). С биологической точки зрения эффекты предварительной фильтрации этих внешних структур, специфичные для местоположения источника, помогают нейронам определять местоположение источника , в частности, определять высоту источника . [6]

Техническое происхождение

Анализ линейных систем определяет передаточную функцию как комплексное соотношение между спектром выходного сигнала и спектром входного сигнала как функцию частоты. Блауерт (1974; цитируется по Blauert, 1981) первоначально определил передаточную функцию как передаточную функцию свободного поля (FFTF). Другие термины включают функцию передачи от свободного поля к барабанной перепонке и преобразование давления из свободного поля в барабанную перепонку. Менее конкретные описания включают передаточную функцию ушной раковины, передаточную функцию наружного уха , реакцию ушной раковины или функцию направленной передачи (DTF).

Передаточная функция H ( f ) любой линейной стационарной системы на частоте f равна:

Ч ( ж ) = Выход ( ж ) / Вход ( ж )

Таким образом, одним из методов, используемых для получения HRTF из заданного местоположения источника, является измерение импульсной реакции, связанной с головой (HRIR), h ( t ), на барабанной перепонке для импульса Δ ( t ), помещенного в источник. HRTF H ( f ) является преобразованием Фурье HRIR h ( t ).

Даже при измерении для «фиктивной головы» идеализированной геометрии HRTF представляет собой сложную функцию частоты и трех пространственных переменных . Однако на расстояниях более 1 м от головы можно сказать, что HRTF затухает обратно пропорционально дальности. Именно этот HRTF в дальнем поле , H ( f , θ , φ ), чаще всего измеряется. На более близком расстоянии разница уровней, наблюдаемая между ушами, может вырасти весьма большой, даже в низкочастотной области, в пределах которой в дальнем поле наблюдаются незначительные различия уровней.

HRTF обычно измеряются в безэховой камере, чтобы минимизировать влияние ранних отражений и реверберации на измеряемый отклик. HRTF измеряются с небольшими приращениями θ, например 15° или 30° в горизонтальной плоскости, с интерполяцией , используемой для синтеза HRTF для произвольных положений θ . Однако даже при небольших приращениях интерполяция может привести к путанице спереди и сзади, и оптимизация процедуры интерполяции является активной областью исследований.

Чтобы максимизировать отношение сигнал/шум (SNR) в измеряемом HRTF, важно, чтобы генерируемый импульс был большой громкости. На практике, однако, может быть сложно генерировать импульсы большой громкости, и, если они генерируются, они могут повредить человеческие уши, поэтому чаще всего HRTF рассчитываются непосредственно в частотной области с использованием синусоидальной волны с разверткой по частоте. или используя последовательности максимальной длины . Однако усталость пользователей по-прежнему остается проблемой, что подчеркивает необходимость возможности интерполяции на основе меньшего количества измерений.

Передаточная функция, связанная с головой, участвует в разрешении конуса замешательства — серии точек, в которых ITD и ILD идентичны для источников звука из многих мест вокруг нулевой части конуса. Когда звук принимается ухом, он может либо идти прямо по уху в ушной канал, либо отражаться от ушной раковины в ушной канал долю секунды спустя. Звук будет содержать много частот, поэтому в ухо будет проходить множество копий этого сигнала в разное время в зависимости от их частоты (в зависимости от отражения, дифракции, их взаимодействия с высокими и низкими частотами и размера структур слухового аппарата). ухо.) Эти копии перекрывают друг друга, при этом одни сигналы усиливаются (когда фазы сигналов совпадают), а другие копии гасятся (когда фазы сигнала не совпадают). По сути, мозг ищет в сигнале частотные провалы, соответствующие определенным известным направлениям звука. [ нужна цитата ]

Если бы уши другого человека были заменены, человек не смог бы сразу локализовать звук, поскольку закономерности усиления и подавления были бы отличными от тех закономерностей, к которым привыкла слуховая система человека. Однако через несколько недель слуховая система адаптировалась к новой передаточной функции, связанной с головой. [7] Межсубъектная изменчивость спектров HRTF изучалась посредством кластерного анализа. [8]

Оценивая изменения в ушах человека, мы можем ограничить нашу перспективу степенями свободы головы и ее связью с пространственной областью. Благодаря этому мы устраняем наклон и другие параметры координат, которые добавляют сложности. Для целей калибровки нас интересует только уровень направления к нашим ушам, следовательно, определенная степень свободы. Вот некоторые способы, с помощью которых мы можем вывести выражение для калибровки HRTF:

  1. Локализация звука в виртуальном слуховом пространстве [9]
  2. Синтез фаз HRTF [10]
  3. Синтез величин HRTF [11]

Локализация звука в виртуальном слуховом пространстве.

Основное предположение при создании виртуального слухового пространства заключается в том, что если формы акустических волн, присутствующие в барабанных перепонках слушателя, такие же, как в наушниках, так и в свободном пространстве, то и ощущения слушателя также должны быть одинаковыми.

Обычно звуки, генерируемые в наушниках, воспринимаются как исходящие изнутри головы. В виртуальном слуховом пространстве наушники должны иметь возможность «экстернализировать» звук. Используя HRTF, звуки можно пространственно позиционировать с помощью метода, описанного ниже. [9]

Пусть x 1 ( t ) представляет электрический сигнал, возбуждающий громкоговоритель, а y 1 ( t ) представляет сигнал, полученный микрофоном внутри барабанной перепонки слушателя. Аналогично, пусть x 2 ( t ) представляет электрический сигнал, возбуждающий наушники, а y 2 ( t ) представляет реакцию микрофона на сигнал. Цель виртуального слухового пространства — выбрать x 2 ( t ) такой, что y 2 ( t ) = y 1 ( t ). Применяя преобразование Фурье к этим сигналам, мы приходим к следующим двум уравнениям:

Y 1 = X 1 ЛФМ, и
Y 2 = X 2 ХМ,

где L — передаточная функция громкоговорителя в свободном поле, F — HRTF, M — передаточная функция микрофона, H — передаточная функция наушников к барабанной перепонке. Полагая Y 1 = Y 2 и находя X 2 , получаем

Х 2 = Х 1 ЛФ/Ч.

По наблюдениям, желаемая передаточная функция равна

Т = ЛФ / ЧАС .

Следовательно, теоретически, если x 1 ( t ) пропускается через этот фильтр и полученный x 2 ( t ) воспроизводится в наушниках, он должен производить тот же сигнал на барабанной перепонке. Поскольку фильтр применяется только к одному уху, для другого уха необходимо создать еще один фильтр. Этот процесс повторяется для многих мест в виртуальной среде, чтобы создать массив передаточных функций, связанных с головой, для каждой воссоздаваемой позиции, гарантируя при этом, что условия выборки установлены критериями Найквиста .

Фазовый синтез HRTF

В самой нижней части полосы частот оценка фазы менее надежна, а на верхних частотах на фазовую характеристику влияют особенности ушной раковины. Более ранние исследования также показывают, что фазовая характеристика HRTF в основном линейна и что слушатели нечувствительны к деталям интераурального фазового спектра, пока сохраняется межушная временная задержка (ITD) объединенной низкочастотной части сигнала. Это смоделированная фазовая характеристика исследуемого HRTF как временная задержка, зависящая от направления и угла места. [10]

Коэффициент масштабирования является функцией антропометрических особенностей. Например, обучающий набор из N субъектов будет рассматривать каждую фазу HRTF и описывать один коэффициент масштабирования ITD как среднюю задержку группы. Этот вычисленный коэффициент масштабирования позволяет оценить временную задержку как функцию направления и высоты для любого конкретного человека. Преобразование временной задержки в фазовую характеристику для левого и правого уха тривиально.

Фазу HRTF можно описать масштабным коэффициентом ITD . Это, в свою очередь, количественно определяется антропометрическими данными данного человека, взятыми в качестве источника информации. В общем случае мы рассматриваем β как разреженный вектор

которая представляет антропометрические характеристики субъекта как линейную суперпозицию антропометрических характеристик из обучающих данных (y ' = β T X), а затем применяет тот же разреженный вектор непосредственно к вектору масштабирования H. Мы можем записать эту задачу как задачу минимизации , для неотрицательного параметра сжатия λ :

Исходя из этого, значение масштабного коэффициента ITD H ' оценивается как:

где Коэффициенты масштабирования ITD для всех людей в наборе данных складываются в вектор HRN , поэтому значение H n соответствует коэффициенту масштабирования n-го человека.

Синтез величин HRTF

Мы решаем описанную выше задачу минимизации, используя оператор наименьшего абсолютного сжатия и выбора (LASSO). Мы предполагаем, что HRTF представлены тем же соотношением, что и антропометрические признаки. [11] Поэтому, как только мы узнаем разреженный вектор β по антропометрическим характеристикам, мы напрямую применим его к данным тензора HRTF и значениям HRTF субъекта H ' , определяемым формулой:

где HRTF для каждого субъекта описываются тензором размера D  ×  K , где D — количество направлений HRTF, а K — количество элементов разрешения по частоте. Все H n , d , k соответствуют всем HRTF обучающего набора, уложены в новый тензор H RN × D × K , поэтому значение H n,d,k соответствует k -му интервалу частоты для d -е направление HRTF n -го человека. Также H'd , k соответствует k -й частоте для каждого d - го направления HRTF синтезированного HRTF.

HRTF из геометрии

Накопление данных HRTF позволило компьютерной программе определить приблизительную HRTF на основе геометрии головы. Известно, что это делают две программы, обе с открытым исходным кодом: Mesh2HRTF [12] , которая запускает физическое моделирование на полной 3D-сетке головы, и EAC, которая использует нейронную сеть, обученную на существующих HRTF, и работает с фотографиями и другими данными. грубые измерения. [13]

Технология записи и воспроизведения

Записи, обработанные с помощью HRTF, например, в компьютерной игровой среде (см. A3D , EAX и OpenAL ), который приблизительно соответствует HRTF слушателя, можно услышать через стереонаушники или динамики и интерпретировать так, как если бы они содержали звуки, исходящие со всех направлений. , а не просто две точки по обе стороны головы. Воспринимаемая точность результата зависит от того, насколько точно набор данных HRTF соответствует характеристикам собственных ушей, хотя общий HRTF может быть предпочтительнее точного, измеренного по одному уху. [14] Некоторые поставщики, такие как Apple и Sony, предлагают различные модели HRTF, которые можно выбрать в зависимости от формы ушей пользователя. [15]

Windows 10 и более поздние версии поставляются с включенным Microsoft Spatial Sound — той же структурой пространственного звука, которая используется в Xbox One и Hololens 2 . На ПК с Windows или Xbox One платформа может использовать несколько различных последующих аудиопроцессоров, включая Windows Sonic для наушников, Dolby Atmos и DTS Headphone:X , для применения HRTF. Платформа может отображать как источники объемного звука с фиксированным положением , так и динамические «объектные» источники, которые могут перемещаться в пространстве. [16]

Apple также использует пространственный звук для своих устройств, используемых с наушниками Apple или Beats. Для воспроизведения музыки в наушниках можно включить Dolby Atmos и применить HRTF. [17] HRTF (точнее, положение объекта) может меняться в зависимости от отслеживания движения головы , чтобы сохранить иллюзию направления. [18] Qualcomm Snapdragon имеет аналогичную пространственную аудиосистему с отслеживанием головы, которая используется в некоторых марках телефонов Android. [19] YouTube использует HRTF с отслеживанием головы для просмотра 360-градусных и VR-видео. [20]

Linux в настоящее время не может напрямую обрабатывать ни один из проприетарных форматов пространственного звука (объемный звук плюс динамические объекты). SoundScape Renderer предлагает направленный синтез. [21] PulseAudio и PipeWire могут обеспечивать виртуальное объемное звучание (каналы с фиксированным местоположением) с использованием HRTF. Последние версии PipeWire также способны обеспечивать динамическую пространственную визуализацию с использованием HRTF, [22] однако интеграция с приложениями все еще находится в стадии разработки. Пользователи могут настраивать свои собственные позиционные и динамические источники звука, а также моделировать настройку динамиков объемного звучания, используя существующие конфигурации.

Кросс-платформенный OpenAL Soft, реализация OpenAL , использует HRTF для улучшения локализации. [23]

Системы пространственного звука Windows и Linux поддерживают любую модель стереонаушников, в то время как Apple позволяет использовать пространственный звук только с Bluetooth-гарнитурами Apple или Beats . [ нужна цитата ]

Смотрите также

Рекомендации

  1. ^ Дэниел Старч (1908). Периметрия локализации звука. Государственный университет Айовы. п. 35 и далее.
  2. ^ Бего, Д.Р. (1994) 3D-звук для виртуальной реальности и мультимедиа. АП Профессионал.
  3. ^ Итак, RHY, Люнг, Н.М., Брааш, Дж. и Люнг, К.Л. (2006) Недорогая неиндивидуализированная система объемного звучания, основанная на функциях передачи, связанных с головой. Исследование эргономики и разработка прототипа. Прикладная эргономика, 37, стр. 695–707.
  4. ^ «Стандарт AES AES69-2015: стандарт AES для обмена файлами — формат файлов пространственных акустических данных» . www.aes.org . Проверено 30 декабря 2016 г.
  5. ^ "Веб-сайт диванных конвенций" . Научно-исследовательский институт акустики — научно-исследовательский институт Австрийской академии наук.
  6. ^ Блауэрт, Дж. (1997) Пространственный слух: психофизика локализации звука человека. МТИ Пресс.
  7. ^ Хофман, Пол М.; Ван Рисвик, JG; Ван Опстал, AJ (сентябрь 1998 г.). «Повторное обучение локализации звука новыми ушами» (PDF) . Природная неврология . 1 (5): 417–421. дои : 10.1038/1633. PMID  10196533. S2CID  10088534.
  8. ^ Итак, RHY, Нган, Б., Хорнер, А., Люнг, К.Л., Брааш, Дж. и Блауерт, Дж. (2010) На пути к ортогональным неиндивидуализированным передаточным функциям, связанным с головой, для звука, направленного вперед и назад: кластерный анализ и экспериментальное исследование. Эргономика, 53(6), стр.767-781.
  9. ^ аб Карлайл, С. (1996). Виртуальное слуховое пространство: поколение и применение (1-е изд.). Берлин, Гейдельберг: Springer. ISBN 9783662225967.
  10. ^ Аб Ташев, Иван (2014). «Синтез фаз HRTF посредством разреженного представления антропометрических особенностей». 2014 Семинар по теории информации и приложениям (ITA) . стр. 1–5. дои : 10.1109/ITA.2014.6804239. ISBN 978-1-4799-3589-5. S2CID  13232557.
  11. ^ аб Билински, Петр; Аренс, Йенс; Томас, Марк Р.П.; Ташев Иван; Платт, Джон С. (2014). «Синтез величин HRTF посредством разреженного представления антропометрических особенностей» (PDF) . Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP) , 2014 г. IEEE ICASSP, Флоренция, Италия. стр. 4468–4472. дои : 10.1109/ICASSP.2014.6854447. ISBN 978-1-4799-2893-4. S2CID  5619011.
  12. ^ Цигельвангер Х. и Кройцер В., Майдак П. (2015). «Mesh2HRTF: пакет программного обеспечения с открытым исходным кодом для численного расчета передаточных функций, связанных с головой», в материалах 22-го Международного конгресса по звуку и вибрации, Флоренция, Италия.
  13. Карвальо, Дави (17 апреля 2023 г.). «EAC - Индивидуализированный синтез HRTF». Гитхаб .
  14. ^ Армстронг, Кэл; Треш, Льюис; Мерфи, Дамиан; Кирни, Гэвин (23 октября 2018 г.). «Перцептивная оценка индивидуальных и неиндивидуальных HRTF: пример базы данных SADIE II». Прикладные науки . 8 (11): 2029. doi : 10.3390/app8112029 .
  15. ^ «Пространственное аудио: Часть 1 — Текущие форматы и развитие HRTF — Мост вещания — Подключение ИТ к вещанию» . Радиовещательный мост . 7 декабря 2022 г.
  16. ^ «Пространственный звук для разработчиков приложений для Windows, Xbox и Hololens 2 — приложения Win32» . Learn.microsoft.com . 27 апреля 2023 г.
  17. ^ «О пространственном звуке с Dolby Atmos в Apple Music» . Поддержка Apple . 27 марта 2023 г.
  18. ^ «Слушайте пространственный звук для AirPods и Beats» . Поддержка Apple . 19 июля 2023 г.
  19. ^ «Пространственное аудио». www.qualcomm.com .
  20. ^ «Используйте пространственный звук в 360-градусных и VR-видео — Справка YouTube» . support.google.com .
  21. ^ "Средство рендеринга SoundScape" . www.spaceaudio.net . 9 января 2013 г.
  22. ^ «Цепочка фильтров». gitlab.freedesktop.org/pipewire/pipewire . 14 апреля 2023 г.
  23. ^ «OpenAL Soft — Программное обеспечение 3D-аудио» . openal-soft.org .

Внешние ссылки