Визуальное представление спектра частот сигнала, изменяющегося со временем.
Спектрограмма произнесенных слов «девятнадцатый век». Частоты показаны возрастающими по вертикальной оси, а время по горизонтальной оси. Легенда справа показывает, что интенсивность цвета увеличивается с увеличением плотности.3D-спектрограмма: РЧ-спектр зарядного устройства показан с течением времени.
Спектрограмма — это визуальное представление спектра частот сигнала , изменяющегося со временем . Применительно к аудиосигналу спектрограммы иногда называют сонографами , голосовыми отпечатками или голосовограммами . Когда данные представлены в виде 3D-графика, их можно назвать водопадными отображениями .
Спектрограмму обычно изображают в виде тепловой карты , т. е. в виде изображения, интенсивность которого проявляется путем изменения цвета или яркости .
Формат
Распространенный формат — это график с двумя геометрическими измерениями: одна ось представляет время , а другая ось представляет частоту ; третье измерение, указывающее амплитуду определенной частоты в определенное время, представлено интенсивностью или цветом каждой точки изображения.
Вариаций формата много: иногда вертикальная и горизонтальная оси меняются местами, поэтому время течет вверх и вниз; иногда в виде водопадного графика , где амплитуда представлена высотой трехмерной поверхности, а не цветом или интенсивностью. Оси частоты и амплитуды могут быть линейными или логарифмическими , в зависимости от того, для чего используется график. Звук обычно представляется с помощью логарифмической оси амплитуды (вероятно, в децибелах или дБ), а частота будет линейной, чтобы подчеркнуть гармонические отношения, или логарифмической, чтобы подчеркнуть музыкальные, тональные отношения.
Спектрограмма этой записи игры на скрипке. Обратите внимание на гармоники, возникающие в целых числах, кратных основной частоте.
Трехмерная спектрограмма поверхности детали музыкального произведения.
Спектрограмма мужского голоса, говорящего «та та та».
Спектрограмма вокализаций дельфинов; щебетание, щелчки и гармонизация отображаются в виде перевернутой буквы V, вертикальных линий и горизонтальных полос соответственно.
Спектрограмма FM - сигнала. В этом случае частота сигнала модулируется синусоидальной зависимостью частоты от времени.
Спектр вверху и водопад (спектрограмма) внизу телевизионного сигнала PAL -I шириной 8 МГц.
Спектрограммы света можно создавать непосредственно с помощью оптического спектрометра с течением времени.
Спектрограммы могут быть созданы из сигнала во временной области одним из двух способов: аппроксимироваться в виде банка фильтров, который получается из серии полосовых фильтров (это был единственный способ до появления современной цифровой обработки сигналов), или рассчитываться на основе сигнал времени с помощью преобразования Фурье . Эти два метода на самом деле образуют два разных частотно-временных представления , но при некоторых условиях они эквивалентны.
Метод полосовых фильтров обычно использует аналоговую обработку для разделения входного сигнала на полосы частот; величина выходного сигнала каждого фильтра управляет преобразователем, который записывает спектрограмму в виде изображения на бумаге. [3]
Создание спектрограммы с использованием БПФ — это цифровой процесс . Данные, полученные в цифровой форме во временной области , разбиваются на фрагменты, которые обычно перекрываются, и преобразуются Фурье для расчета величины частотного спектра для каждого фрагмента. Каждый фрагмент соответствует вертикальной линии на изображении; измерение величины в зависимости от частоты для определенного момента времени (середина фрагмента). Эти спектры или временные графики затем «накладываются рядом» для формирования изображения или трехмерной поверхности [4] или слегка перекрываются различными способами, т.е. с использованием окон . Этот процесс по существу соответствует вычислению квадрата величины кратковременного преобразования Фурье (STFT) сигнала — то есть для ширины окна , . [5]
Ограничения и ресинтез
Из приведенной выше формулы видно, что спектрограмма не содержит информации о точной или даже приблизительной фазе сигнала, который она представляет. По этой причине невозможно повернуть процесс вспять и создать копию исходного сигнала из спектрограммы, хотя в ситуациях, когда точная начальная фаза не важна, можно создать полезную аппроксимацию исходного сигнала. Звуковой спектрограф для анализа и ресинтеза [6] является примером компьютерной программы, которая пытается сделать это. Pattern Playback был одним из первых синтезаторов речи, разработанным в Haskins Laboratories в конце 1940-х годов и преобразовывавшим изображения акустических паттернов речи (спектрограммы) обратно в звук.
На самом деле, в спектрограмме есть некоторая фазовая информация, но она проявляется в другой форме, как временная задержка (или групповая задержка ), которая является двойственной мгновенной частоте . [7]
Размер и форма окна анализа могут быть разнообразными. Меньшее (более короткое) окно даст более точные результаты по времени за счет точности представления частоты. Более крупное (более длинное) окно обеспечит более точное представление частоты за счет точности представления времени. Это пример принципа неопределенности Гейзенберга , согласно которому произведение точности двух сопряженных переменных больше или равно константе (B*T>=1 в обычных обозначениях). [8]
Приложения
Ранние аналоговые спектрограммы применялись в широком спектре областей, включая изучение криков птиц (например, большой синицы ), а текущие исследования продолжаются с использованием современного цифрового оборудования [9] и применяются ко всем звукам животных. Современное использование цифровой спектрограммы особенно полезно для изучения частотной модуляции (ЧМ) криков животных. В частности, отличительные характеристики FM-чириканий, широкополосных щелчков и социальной гармонизации легче всего визуализировать с помощью спектрограммы.
Спектрограммы полезны для помощи в преодолении речевого дефицита и в речевом обучении той части населения, которая имеет глубокую глухоту [10].
Изучение фонетики и синтеза речи часто облегчается с помощью спектрограмм. [11] [12]
При синтезе речи с глубоким обучением спектрограмма (или спектрограмма в масштабе mel ) сначала прогнозируется с помощью модели seq2seq, затем спектрограмма передается в нейронный вокодер для получения синтезированной необработанной формы сигнала.
Обратив процесс создания спектрограммы, можно создать сигнал, спектрограмма которого представляет собой произвольное изображение. Эту технику можно использовать, чтобы скрыть изображение в аудиофайле, и ее использовали несколько исполнителей электронной музыки . [13] См. также стеганографию .
Некоторая современная музыка создается с использованием спектрограмм в качестве промежуточного носителя; изменяя интенсивность разных частот с течением времени или даже создавая новые, рисуя их и затем осуществляя обратное преобразование. См. Модификацию высоты звука шкалы времени и Фазовый вокодер .
Спектрограммы можно использовать для анализа результатов прохождения тестового сигнала через процессор сигналов, например фильтр, с целью проверки его производительности. [14]
Спектрограммы высокого разрешения используются при разработке радиочастотных и микроволновых систем [15].
Спектрограммы теперь используются для отображения параметров рассеяния , измеренных с помощью векторных анализаторов цепей [16].
Геологическая служба США и Консорциум IRIS обеспечивают отображение спектрограмм практически в реальном времени для мониторинга сейсмических станций [17] [18]
Для сигнала вибрации цветовая шкала спектрограммы определяет частоты пиков амплитуды сигнала с течением времени. В отличие от графика времени или частоты, спектрограмма коррелирует пиковые значения со временем и частотой. Инженеры по вибрационным испытаниям используют спектрограммы для анализа частотного содержания непрерывного сигнала, обнаружения сильных сигналов и определения того, как поведение вибрации меняется с течением времени. [22]
Спектрограммы можно использовать для анализа речи в двух различных приложениях: автоматическое обнаружение речевых нарушений у пользователей кохлеарных имплантатов и распознавание классов фонем для извлечения характеристик атрибутов телефона. [23]
Чтобы получить характеристики произношения говорящего, некоторые исследователи предложили метод, основанный на идее бионики, который использует статистику спектрограмм для получения характеристической спектрограммы, дающей стабильное представление произношения говорящих из линейной суперпозиции кратковременных спектрограмм. [24]
Исследователи исследуют новый подход к анализу сигналов ЭКГ, используя методы спектрограмм, возможно, для улучшения визуализации и понимания. Интеграция MFCC для извлечения признаков предполагает междисциплинарное применение, заимствующее методы обработки звука для извлечения соответствующей информации из биомедицинских сигналов. [25]
Точная интерпретация показаний краски, указывающей температуру (TIP), имеет большое значение в авиации и других отраслях промышленности. 2D-спектрограмма TIP может использоваться для интерпретации температуры. [26]
Спектрограмму можно использовать для обработки сигнала скорости изменения грудной клетки человека. Визуализируя дыхательные сигналы с помощью спектрограммы, исследователи предложили подход к классификации состояний дыхания, основанный на модели нейронной сети. [27]
^ Дж. Л. Фланаган, Анализ речи, синтез и восприятие, Springer-Verlag, Нью-Йорк, 1972.
^ Сейдич, Э.; Джурович И.; Станкович, Л. (август 2008 г.). «Количественный анализ производительности скалограммы как мгновенной оценки частоты». Транзакции IEEE по обработке сигналов . 56 (8): 3837–3845. Бибкод : 2008ITSP...56.3837S. дои :10.1109/TSP.2008.924856. ISSN 1053-587X. S2CID 16396084.
^ "Спектрограф". www.sfu.ca. _ Проверено 7 апреля 2018 г.
^ «Спектрограммы». ccrma.stanford.edu . Проверено 7 апреля 2018 г.
^ "Спектрограммы STFT VI - Справка NI LabVIEW 8.6" . Zone.ni.com . Проверено 7 апреля 2018 г.
^ "Звуковой спектрограф для анализа и ресинтеза" . arss.sourceforge.net . Проверено 7 апреля 2018 г.
^ Боашаш, Б. (1992). «Оценка и интерпретация мгновенной частоты сигнала. I. Основы». Труды IEEE . Институт инженеров по электротехнике и электронике (IEEE). 80 (4): 520–538. дои : 10.1109/5.135376. ISSN 0018-9219.
^ «Принцип неопределенности Гейзенберга». Архивировано из оригинала 25 января 2019 г. Проверено 5 февраля 2019 г.
^ "ПЕСНИ И ЗВОНКИ ПТИЦ СО СПЕКТРОГРАММАМИ (СОНОГРАММАМИ) ЮЖНОЙ ТОСКАНЫ (Тоскана - Италия)" . www.birdsongs.it . Проверено 7 апреля 2018 г.
^ Сондерс, Фрэнк А.; Хилл, Уильям А.; Франклин, Барбара (1 декабря 1981 г.). «Носимый тактильно-сенсорный аппарат для глубоко глухих детей». Журнал медицинских систем . 5 (4): 265–270. дои : 10.1007/BF02222144. PMID 7320662. S2CID 26620843.
^ «Чтение спектрограммы». ogi.edu . Архивировано из оригинала 27 апреля 1999 года . Проверено 7 апреля 2018 г.
^ «Праат: занимаемся фонетикой на компьютере» . www.fon.hum.uva.nl. _ Проверено 7 апреля 2018 г.
^ "Лицо Афекса - коряга" . www.bastwood.com . Проверено 7 апреля 2018 г.
^ "Сравнение SRC" . src.infinitewave.ca . Проверено 7 апреля 2018 г.
^ "constantwave.com - ресурсы и информация Constantwave" . www.constantwave.com . Проверено 7 апреля 2018 г.
^ «Спектрограммы для векторных анализаторов цепей» . Архивировано из оригинала 10 августа 2012 г.
^ «Отображение спектрограммы в реальном времени». землетрясение.usgs.gov . Проверено 7 апреля 2018 г.
^ «ИРИС: МУСТАНГ: Шумовая спектрограмма: Документы: версия 1: Помощь» .
^ Гейтгей, Адам (24 декабря 2016 г.). «Машинное обучение — это весело. Часть 6: Как распознавать речь с помощью глубокого обучения». Середина . Проверено 21 марта 2018 г.
^ «Огромное государство слежки в Китае все еще растет» . Экономист . 23 ноября 2023 г. ISSN 0013-0613 . Проверено 25 ноября 2023 г.
^ "Что такое спектрограмма?" . Проверено 18 декабря 2023 г.
^ Т., Ариас-Вергара; П., Кламп; Х.К., Васкес-Корреа; Э., Нёт; JR, Ороско-Аррояве; М., Шустер (2021). «Многоканальные спектрограммы для приложений обработки речи с использованием методов глубокого обучения». Анализ шаблонов и приложения . 24 (2): 423–431. дои : 10.1007/s10044-020-00921-5 .
^ Цзя, Яньцзе; Чен, Си; Ю, Цзецюн; Ван, Ляньмин; Сюй, Юаньчжэ; Лю, Шаоджин; Ван, Юнхуэй (2021). «Распознавание говорящего на основе характеристических спектрограмм и улучшенной самоорганизующейся нейронной сети карты функций». Сложные и интеллектуальные системы . 7 (4): 1749–1757. дои : 10.1007/s40747-020-00172-1 .
^ Яламанчили, Арпита; Мадхумати, GL; Баладжи, Н. (2022). «Спектрограммный анализ сигнала ЭКГ и эффективность классификации с использованием метода извлечения признаков MFCC». Журнал окружающего интеллекта и гуманизированных вычислений . 13 (2): 757–767. дои : 10.1007/s12652-021-02926-2. S2CID 233657057.
^ Ге, Цзюньфэн; Ван, Ли; Гуй, Канг; Йе, Лин (30 сентября 2023 г.). «Метод интерпретации температуры краски, указывающей температуру, на основе спектрограммы». Измерение . 219 . Бибкод : 2023Meas..21913317G. doi :10.1016/j.measurement.2023.113317. S2CID 259871198.
^ Пак, Чольхён; Ли, Току (11 февраля 2022 г.). «Классификация респираторных состояний с использованием спектрограммы со сверточной нейронной сетью». Прикладные науки . 12 (4): 1895. doi : 10.3390/app12041895 .
Внешние ссылки
Викискладе есть медиафайлы по теме Spectrogram .
Найдите спектрограмму в Викисловаре, бесплатном словаре.
Посмотрите онлайн-спектрограмму речи или других звуков, записанную микрофоном вашего компьютера.
Генерация тональной последовательности, спектрограмма которой соответствует произвольному тексту, онлайн
Дополнительная информация о создании сигнала, спектрограмма которого представляет собой произвольное изображение.
Статья, описывающая разработку программной спектрограммы.
История спектрограмм и развитие приборов
Как идентифицировать слова в спектрограмме из публикации Monthly Mystery Spectrogram профессора лингвистики .
Sonogram Visible Speech Лицензия GPL Бесплатное программное обеспечение для создания спектрограмм сигнальных файлов.