Визуальное представление спектра частот сигнала, изменяющегося со временем.
Спектрограмма — это визуальное представление спектра частот сигнала , изменяющегося со временем. Применительно к аудиосигналу спектрограммы иногда называют сонографами , голосовыми отпечатками или голосовыми диаграммами . Когда данные представлены в виде трехмерного графика, их можно назвать каскадными дисплеями .
Спектрограмма обычно изображается в виде тепловой карты , т. е. в виде изображения, интенсивность которого отображается путем изменения цвета или яркости .
Формат
Распространенным форматом является график с двумя геометрическими измерениями: одна ось представляет время , а другая ось представляет частоту ; третье измерение, указывающее амплитуду определенной частоты в определенное время, представлено интенсивностью или цветом каждой точки на изображении.
Существует множество вариаций формата: иногда вертикальная и горизонтальная оси меняются местами, так что время идет вверх и вниз; иногда в виде водопадного графика , где амплитуда представлена высотой трехмерной поверхности вместо цвета или интенсивности. Оси частоты и амплитуды могут быть как линейными , так и логарифмическими , в зависимости от того, для чего используется график. Аудио обычно представляется логарифмической осью амплитуды (вероятно, в децибелах или дБ), а частота будет линейной, чтобы подчеркнуть гармонические отношения, или логарифмической, чтобы подчеркнуть музыкальные, тональные отношения.
Спектрограмма этой записи игры на скрипке. Обратите внимание на гармоники, возникающие в целых числах, кратных основной частоте.
Трехмерная спектрограмма поверхности фрагмента музыкального произведения.
Спектрограмма мужского голоса, произносящего «та та та».
Спектрограмма вокализации дельфинов; щебетание, щелчки и гармонизация видны в виде перевернутых букв V, вертикальных линий и горизонтальных полос соответственно.
Спектрограммы света можно создавать непосредственно с помощью оптического спектрометра с течением времени.
Спектрограммы могут быть созданы из сигнала во временной области одним из двух способов: аппроксимированы как банк фильтров, который получается из серии полосовых фильтров (это был единственный способ до появления современной цифровой обработки сигналов), или рассчитаны из временного сигнала с использованием преобразования Фурье . Эти два метода фактически формируют два различных представления времени-частоты , но эквивалентны при некоторых условиях.
Метод полосовых фильтров обычно использует аналоговую обработку для разделения входного сигнала на полосы частот; величина выходного сигнала каждого фильтра управляет преобразователем, который записывает спектрограмму в виде изображения на бумаге. [3]
Создание спектрограммы с использованием БПФ — это цифровой процесс . Цифровые данные, полученные во временной области , разбиваются на фрагменты, которые обычно перекрываются, и преобразуются Фурье для вычисления величины частотного спектра для каждого фрагмента. Затем каждый фрагмент соответствует вертикальной линии на изображении; измерение величины в зависимости от частоты для определенного момента времени (средняя точка фрагмента). Затем эти спектры или временные графики «накладываются бок о бок», чтобы сформировать изображение или трехмерную поверхность, [4] или слегка перекрываются различными способами, т. е. оконирование . Этот процесс по сути соответствует вычислению квадрата величины кратковременного преобразования Фурье (STFT) сигнала — то есть для ширины окна , . [5]
Ограничения и ресинтез
Из приведенной выше формулы следует, что спектрограмма не содержит информации о точной или даже приблизительной фазе сигнала, который она представляет. По этой причине невозможно обратить процесс и сгенерировать копию исходного сигнала из спектрограммы, хотя в ситуациях, когда точная начальная фаза не важна, может быть возможно сгенерировать полезное приближение исходного сигнала. Анализ и ресинтез звукового спектрографа [6] является примером компьютерной программы, которая пытается это сделать. Pattern playback был ранним речевым синтезатором, разработанным в Haskins Laboratories в конце 1940-х годов, который преобразовывал изображения акустических моделей речи (спектрограмм) обратно в звук.
На самом деле, в спектрограмме присутствует некоторая фазовая информация, но она появляется в другой форме, как временная задержка (или групповая задержка ), которая является двойственной величиной мгновенной частоты . [7]
Размер и форму окна анализа можно изменять. Меньшее (более короткое) окно даст более точные результаты по времени за счет точности представления частоты. Большее (более длинное) окно обеспечит более точное представление частоты за счет точности представления времени. Это пример принципа неопределенности Гейзенберга , согласно которому произведение точности двух сопряженных переменных больше или равно константе (B*T>=1 в обычной записи). [8]
Приложения
Ранние аналоговые спектрограммы применялись в широком спектре областей, включая изучение птичьих криков (например, большой синицы ), а текущие исследования продолжаются с использованием современного цифрового оборудования [9] и применяются ко всем звукам животных. Современное использование цифровой спектрограммы особенно полезно для изучения частотной модуляции (ЧМ) в криках животных. В частности, отличительные характеристики ЧМ-щебетаний, широкополосных щелчков и социальной гармонизации легче всего визуализировать с помощью спектрограммы.
Спектрограммы полезны для преодоления речевых нарушений и обучения речи для той части населения, которая страдает глубокой глухотой . [10]
Исследования фонетики и синтеза речи часто облегчаются с помощью использования спектрограмм. [11] [12]
При синтезе речи с использованием глубокого обучения спектрограмма (или спектрограмма в шкале mel ) сначала прогнозируется моделью seq2seq, затем спектрограмма подается на нейронный вокодер для получения синтезированной необработанной формы сигнала.
Обратным процессом создания спектрограммы можно создать сигнал, спектрограмма которого представляет собой произвольное изображение. Этот метод может быть использован для сокрытия изображения в аудиофайле и использовался несколькими исполнителями электронной музыки . [13] См. также Steganography .
Некоторая современная музыка создается с использованием спектрограмм в качестве промежуточного носителя; изменение интенсивности различных частот с течением времени или даже создание новых, путем их рисования и последующего обратного преобразования. См. Модификация аудиошкалы времени-высоты тона и Фазовый вокодер .
Спектрограммы можно использовать для анализа результатов прохождения тестового сигнала через процессор сигналов, такой как фильтр, с целью проверки его производительности. [14]
Спектрограммы высокой четкости используются при разработке радиочастотных и микроволновых систем. [15]
Спектрограммы теперь используются для отображения параметров рассеяния , измеренных с помощью векторных сетевых анализаторов. [16]
Геологическая служба США и консорциум IRIS предоставляют спектрограммы в режиме, близком к реальному времени, для мониторинга сейсмических станций [17] [18]
Для сигнала вибрации цветовая шкала спектрограммы определяет частоты пиков амплитуды формы волны с течением времени. В отличие от графика времени или частоты, спектрограмма соотносит пиковые значения со временем и частотой. Инженеры по виброиспытаниям используют спектрограммы для анализа частотного содержания непрерывной формы волны, локализации сильных сигналов и определения того, как поведение вибрации изменяется с течением времени. [22]
Спектрограммы можно использовать для анализа речи в двух различных приложениях: автоматическое обнаружение дефицита речи у пользователей кохлеарных имплантов и распознавание классов фонем для извлечения признаков телефонных атрибутов. [23]
Чтобы получить характеристики произношения говорящего, некоторые исследователи предложили метод, основанный на идее из бионики, который использует статистику спектрограмм для получения характерной спектрограммы, дающей стабильное представление произношения говорящего из линейной суперпозиции кратковременных спектрограмм. [24]
Исследователи изучают новый подход к анализу сигнала ЭКГ, используя методы спектрограмм, возможно, для улучшения визуализации и понимания. Интеграция MFCC для извлечения признаков предполагает междисциплинарное применение, заимствуя методы из обработки звука для извлечения соответствующей информации из биомедицинских сигналов. [25]
Точная интерпретация краски, указывающей температуру (TIP), имеет большое значение в авиации и других промышленных применениях. Двумерная спектрограмма TIP может использоваться для интерпретации температуры. [26]
Спектрограмма может быть использована для обработки сигнала скорости изменения грудной клетки человека. Визуализируя респираторные сигналы с помощью спектрограммы, исследователи предложили подход к классификации состояний дыхания на основе модели нейронной сети. [27]
^ Дж. Л. Фланаган, Анализ речи, синтез и восприятие, Springer-Verlag, Нью-Йорк, 1972
^ Sejdic, E.; Djurovic, I.; Stankovic, L. (август 2008 г.). «Количественный анализ производительности скалограммы как мгновенного оценщика частоты». IEEE Transactions on Signal Processing . 56 (8): 3837–3845. Bibcode : 2008ITSP...56.3837S. doi : 10.1109/TSP.2008.924856. ISSN 1053-587X. S2CID 16396084.
^ "Спектрограф". www.sfu.ca . Получено 7 апреля 2018 г. .
^ "Спектрограммы". ccrma.stanford.edu . Получено 7 апреля 2018 г. .
^ "STFT Spectrograms VI – NI LabVIEW 8.6 Help". zone.ni.com . Получено 7 апреля 2018 г. .
^ "Анализ и ресинтез звукового спектрографа". arss.sourceforge.net . Получено 7 апреля 2018 г. .
^ Боашаш, Б. (1992). «Оценка и интерпретация мгновенной частоты сигнала. I. Основы». Труды IEEE . 80 (4). Институт инженеров по электротехнике и электронике (IEEE): 520–538. doi :10.1109/5.135376. ISSN 0018-9219.
^ "ПЕСНИ И ЗВОНКИ ПТИЦ СО СПЕКТРОГРАММАМИ (СОНОГРАММАМИ) ЮЖНОЙ ТОСКАНЫ (Тоскана – Италия)". www.birdsongs.it . Получено 7 апреля 2018 г.
^ Сондерс, Фрэнк А.; Хилл, Уильям А.; Франклин, Барбара (1 декабря 1981 г.). «Носимое тактильное сенсорное устройство для детей с глубокой глухотой». Журнал медицинских систем . 5 (4): 265–270. doi :10.1007/BF02222144. PMID 7320662. S2CID 26620843.
^ "Спектрограмма чтения". ogi.edu . Архивировано из оригинала 27 апреля 1999 . Получено 7 апреля 2018 .
^ "Praat: doing Phonetics by Computer". www.fon.hum.uva.nl . Получено 7 апреля 2018 г.
^ "The Aphex Face – bastwood". www.bastwood.com . Получено 7 апреля 2018 г. .
^ "SRC Comparisons". src.infinitewave.ca . Получено 7 апреля 2018 г. .
^ "constantwave.com – Ресурсы и информация constantwave". www.constantwave.com . Получено 7 апреля 2018 г. .
^ "Спектрограммы для векторных сетевых анализаторов". Архивировано из оригинала 2012-08-10.
^ "Отображение спектрограмм в реальном времени". earthquake.usgs.gov . Получено 7 апреля 2018 г. .
^ "IRIS: MUSTANG: Шумовая спектрограмма: Документы: v. 1: Помощь".
^ Гейтгей, Адам (24.12.2016). «Машинное обучение — это весело. Часть 6: Как распознавать речь с помощью глубокого обучения». Medium . Получено 21.03.2018 .
^ "Огромное государство наблюдения в Китае продолжает расти" . The Economist . 23 ноября 2023 г. ISSN 0013-0613 . Получено 25 ноября 2023 г.
^ "Что такое спектрограмма?" . Получено 2023-12-18 .
^ T., Arias-Vergara; P., Klumpp; JC, Vasquez-Correa; E., Nöth; JR, Orozco-Arroyave; M., Schuster (2021). «Многоканальные спектрограммы для приложений обработки речи с использованием методов глубокого обучения». Pattern Analysis and Applications . 24 (2): 423–431. doi : 10.1007/s10044-020-00921-5 .
^ Цзя, Яньцзе; Чен, Си; Ю, Цзецюн; Ван, Ляньмин; Сюй, Юаньчжэ; Лю, Шаоджин; Ван, Юнхуэй (2021). «Распознавание говорящего на основе характеристических спектрограмм и улучшенной самоорганизующейся нейронной сети карты функций». Сложные и интеллектуальные системы . 7 (4): 1749–1757. дои : 10.1007/s40747-020-00172-1 .
^ Яламанчили, Арпита; Мадхумати, ГЛ; Баладжи, Н. (2022). «Анализ спектрограммы сигнала ЭКГ и эффективность классификации с использованием метода извлечения признаков MFCC». Журнал Ambient Intelligence and Humanized Computing . 13 (2): 757–767. doi :10.1007/s12652-021-02926-2. S2CID 233657057.
^ Ge, Junfeng; Wang, Li; Gui, Kang; Ye, Lin (30 сентября 2023 г.). "Метод интерпретации температуры для краски, указывающей температуру, на основе спектрограммы". Измерение . 219 . Bibcode :2023Meas..21913317G. doi :10.1016/j.measurement.2023.113317. S2CID 259871198.
^ Пак, Чолхён; Ли, Деокву (11 февраля 2022 г.). «Классификация респираторных состояний с использованием спектрограммы со сверточной нейронной сетью». Прикладные науки . 12 (4): 1895. doi : 10.3390/app12041895 .
Внешние ссылки
На Викискладе есть медиафайлы по теме Спектрограмма .
Найдите слово «спектрограмма» в Викисловаре, бесплатном словаре.
Просматривайте онлайн-спектрограмму речи или других звуков, записанных микрофоном вашего компьютера.
Генерация последовательности тонов, спектрограмма которой соответствует произвольному тексту, онлайн
Дополнительная информация о создании сигнала, спектрограмма которого представляет собой произвольное изображение
Статья, описывающая разработку программного обеспечения спектрограммы
История спектрограмм и развития приборов
Как распознать слова в спектрограмме из ежемесячной публикации профессора-лингвиста « Mystery Spectrogram» .
Sonogram Visible Speech Лицензированное бесплатное программное обеспечение GPL для генерации спектрограмм из файлов сигналов.