stringtranslate.com

Спектрограмма

Спектрограмма произнесенных слов «девятнадцатый век». Частоты показаны возрастающими по вертикальной оси, а время по горизонтальной оси. Легенда справа показывает, что интенсивность цвета увеличивается с увеличением плотности.
3D-спектрограмма: РЧ-спектр зарядного устройства показан с течением времени.

Спектрограмма это визуальное представление спектра частот сигнала , изменяющегося со временем . Применительно к аудиосигналу спектрограммы иногда называют сонографами , голосовыми отпечатками или голосовограммами . Когда данные представлены в виде 3D-графика, их можно назвать водопадными отображениями .

Спектрограммы широко используются в областях музыки , лингвистики , гидролокации , радара , обработки речи , [1] сейсмологии , орнитологии и других. Спектрограммы звука можно использовать для фонетической идентификации произносимых слов и для анализа различных криков животных .

Спектрограмма может быть сгенерирована оптическим спектрометром , банком полосовых фильтров , преобразованием Фурье или вейвлет-преобразованием (в этом случае она также известна как скалограмма или скалограмма ). [2]

Скалеограммы от DWT и CWT для аудиосэмпла

Спектрограмму обычно изображают в виде тепловой карты , т. е. в виде изображения, интенсивность которого проявляется путем изменения цвета или яркости .

Формат

Распространенный формат — это график с двумя геометрическими измерениями: одна ось представляет время , а другая ось представляет частоту ; третье измерение, указывающее амплитуду определенной частоты в определенное время, представлено интенсивностью или цветом каждой точки изображения.

Вариаций формата много: иногда вертикальная и горизонтальная оси меняются местами, поэтому время течет вверх и вниз; иногда в виде водопадного графика , где амплитуда представлена ​​высотой трехмерной поверхности, а не цветом или интенсивностью. Оси частоты и амплитуды могут быть линейными или логарифмическими , в зависимости от того, для чего используется график. Звук обычно представляется с помощью логарифмической оси амплитуды (вероятно, в децибелах или дБ), а частота будет линейной, чтобы подчеркнуть гармонические отношения, или логарифмической, чтобы подчеркнуть музыкальные, тональные отношения.

Звуковая спектрография инфразвуковой записи 30301

Поколение

Спектрограммы света можно создавать непосредственно с помощью оптического спектрометра с течением времени.

Спектрограммы могут быть созданы из сигнала во временной области одним из двух способов: аппроксимироваться в виде банка фильтров, который получается из серии полосовых фильтров (это был единственный способ до появления современной цифровой обработки сигналов), или рассчитываться на основе сигнал времени с помощью преобразования Фурье . Эти два метода на самом деле образуют два разных частотно-временных представления , но при некоторых условиях они эквивалентны.

Метод полосовых фильтров обычно использует аналоговую обработку для разделения входного сигнала на полосы частот; величина выходного сигнала каждого фильтра управляет преобразователем, который записывает спектрограмму в виде изображения на бумаге. [3]

Создание спектрограммы с использованием БПФ — это цифровой процесс . Данные, полученные в цифровой форме во временной области , разбиваются на фрагменты, которые обычно перекрываются, и преобразуются Фурье для расчета величины частотного спектра для каждого фрагмента. Каждый фрагмент соответствует вертикальной линии на изображении; измерение величины в зависимости от частоты для определенного момента времени (середина фрагмента). Эти спектры или временные графики затем «накладываются рядом» для формирования изображения или трехмерной поверхности [4] или слегка перекрываются различными способами, т.е. с использованием окон . Этот процесс по существу соответствует вычислению квадрата величины кратковременного преобразования Фурье (STFT) сигнала — то есть для ширины окна , . [5]

Ограничения и ресинтез

Из приведенной выше формулы видно, что спектрограмма не содержит информации о точной или даже приблизительной фазе сигнала, который она представляет. По этой причине невозможно повернуть процесс вспять и создать копию исходного сигнала из спектрограммы, хотя в ситуациях, когда точная начальная фаза не важна, можно создать полезную аппроксимацию исходного сигнала. Звуковой спектрограф для анализа и ресинтеза [6] является примером компьютерной программы, которая пытается сделать это. Pattern Playback был одним из первых синтезаторов речи, разработанным в Haskins Laboratories в конце 1940-х годов и преобразовывавшим изображения акустических паттернов речи (спектрограммы) обратно в звук.

На самом деле, в спектрограмме есть некоторая фазовая информация, но она проявляется в другой форме, как временная задержка (или групповая задержка ), которая является двойственной мгновенной частоте . [7]

Размер и форма окна анализа могут быть разнообразными. Меньшее (более короткое) окно даст более точные результаты по времени за счет точности представления частоты. Более крупное (более длинное) окно обеспечит более точное представление частоты за счет точности представления времени. Это пример принципа неопределенности Гейзенберга , согласно которому произведение точности двух сопряженных переменных больше или равно константе (B*T>=1 в обычных обозначениях). [8]

Приложения

Смотрите также

Рекомендации

  1. ^ Дж. Л. Фланаган, Анализ речи, синтез и восприятие, Springer-Verlag, Нью-Йорк, 1972.
  2. ^ Сейдич, Э.; Джурович И.; Станкович, Л. (август 2008 г.). «Количественный анализ производительности скалограммы как мгновенной оценки частоты». Транзакции IEEE по обработке сигналов . 56 (8): 3837–3845. Бибкод : 2008ITSP...56.3837S. дои :10.1109/TSP.2008.924856. ISSN  1053-587X. S2CID  16396084.
  3. ^ "Спектрограф". www.sfu.ca. _ Проверено 7 апреля 2018 г.
  4. ^ «Спектрограммы». ccrma.stanford.edu . Проверено 7 апреля 2018 г.
  5. ^ "Спектрограммы STFT VI - Справка NI LabVIEW 8.6" . Zone.ni.com . Проверено 7 апреля 2018 г.
  6. ^ "Звуковой спектрограф для анализа и ресинтеза" . arss.sourceforge.net . Проверено 7 апреля 2018 г.
  7. ^ Боашаш, Б. (1992). «Оценка и интерпретация мгновенной частоты сигнала. I. Основы». Труды IEEE . Институт инженеров по электротехнике и электронике (IEEE). 80 (4): 520–538. дои : 10.1109/5.135376. ISSN  0018-9219.
  8. ^ «Принцип неопределенности Гейзенберга». Архивировано из оригинала 25 января 2019 г. Проверено 5 февраля 2019 г.
  9. ^ "ПЕСНИ И ЗВОНКИ ПТИЦ СО СПЕКТРОГРАММАМИ (СОНОГРАММАМИ) ЮЖНОЙ ТОСКАНЫ (Тоскана - Италия)" . www.birdsongs.it . Проверено 7 апреля 2018 г.
  10. ^ Сондерс, Фрэнк А.; Хилл, Уильям А.; Франклин, Барбара (1 декабря 1981 г.). «Носимый тактильно-сенсорный аппарат для глубоко глухих детей». Журнал медицинских систем . 5 (4): 265–270. дои : 10.1007/BF02222144. PMID  7320662. S2CID  26620843.
  11. ^ «Чтение спектрограммы». ogi.edu . Архивировано из оригинала 27 апреля 1999 года . Проверено 7 апреля 2018 г.
  12. ^ «Праат: занимаемся фонетикой на компьютере» . www.fon.hum.uva.nl. _ Проверено 7 апреля 2018 г.
  13. ^ "Лицо Афекса - коряга" . www.bastwood.com . Проверено 7 апреля 2018 г.
  14. ^ "Сравнение SRC" . src.infinitewave.ca . Проверено 7 апреля 2018 г.
  15. ^ "constantwave.com - ресурсы и информация Constantwave" . www.constantwave.com . Проверено 7 апреля 2018 г.
  16. ^ «Спектрограммы для векторных анализаторов цепей» . Архивировано из оригинала 10 августа 2012 г.
  17. ^ «Отображение спектрограммы в реальном времени». землетрясение.usgs.gov . Проверено 7 апреля 2018 г.
  18. ^ «ИРИС: МУСТАНГ: Шумовая спектрограмма: Документы: версия 1: Помощь» .
  19. ^ Гейтгей, Адам (24 декабря 2016 г.). «Машинное обучение — это весело. Часть 6: Как распознавать речь с помощью глубокого обучения». Середина . Проверено 21 марта 2018 г.
  20. ^ См. также Праат .
  21. ^ «Огромное государство слежки в Китае все еще растет» . Экономист . 23 ноября 2023 г. ISSN  0013-0613 . Проверено 25 ноября 2023 г.
  22. ^ "Что такое спектрограмма?" . Проверено 18 декабря 2023 г.
  23. ^ Т., Ариас-Вергара; П., Кламп; Х.К., Васкес-Корреа; Э., Нёт; JR, Ороско-Аррояве; М., Шустер (2021). «Многоканальные спектрограммы для приложений обработки речи с использованием методов глубокого обучения». Анализ шаблонов и приложения . 24 (2): 423–431. дои : 10.1007/s10044-020-00921-5 .
  24. ^ Цзя, Яньцзе; Чен, Си; Ю, Цзецюн; Ван, Ляньмин; Сюй, Юаньчжэ; Лю, Шаоджин; Ван, Юнхуэй (2021). «Распознавание говорящего на основе характеристических спектрограмм и улучшенной самоорганизующейся нейронной сети карты функций». Сложные и интеллектуальные системы . 7 (4): 1749–1757. дои : 10.1007/s40747-020-00172-1 .
  25. ^ Яламанчили, Арпита; Мадхумати, GL; Баладжи, Н. (2022). «Спектрограммный анализ сигнала ЭКГ и эффективность классификации с использованием метода извлечения признаков MFCC». Журнал окружающего интеллекта и гуманизированных вычислений . 13 (2): 757–767. дои : 10.1007/s12652-021-02926-2. S2CID  233657057.
  26. ^ Ге, Цзюньфэн; Ван, Ли; Гуй, Канг; Йе, Лин (30 сентября 2023 г.). «Метод интерпретации температуры краски, указывающей температуру, на основе спектрограммы». Измерение . 219 . Бибкод : 2023Meas..21913317G. doi :10.1016/j.measurement.2023.113317. S2CID  259871198.
  27. ^ Пак, Чольхён; Ли, Току (11 февраля 2022 г.). «Классификация респираторных состояний с использованием спектрограммы со сверточной нейронной сетью». Прикладные науки . 12 (4): 1895. doi : 10.3390/app12041895 .

Внешние ссылки