stringtranslate.com

Спектрограмма

Спектрограмма произнесенных слов "девятнадцатый век". Частоты показаны увеличивающимися по вертикальной оси, а время - по горизонтальной оси. Легенда справа показывает, что интенсивность цвета увеличивается с плотностью.
Трехмерная спектрограмма: спектр радиочастот зарядного устройства отображается с течением времени.

Спектрограмма это визуальное представление спектра частот сигнала , изменяющегося со временем. Применительно к аудиосигналу спектрограммы иногда называют сонографами , голосовыми отпечатками или голосовыми диаграммами . Когда данные представлены в виде трехмерного графика, их можно назвать каскадными дисплеями .

Спектрограммы широко используются в области музыки , лингвистики , сонара , радара , обработки речи , [1] сейсмологии , орнитологии и др. Спектрограммы аудио могут использоваться для фонетической идентификации произнесенных слов и для анализа различных звуков животных .

Спектрограмма может быть создана с помощью оптического спектрометра , набора полосовых фильтров , преобразования Фурье или вейвлет-преобразования (в этом случае она также известна как скейлограмм или скалограмма ). [2]

Скалограммы из DWT и CWT для аудиофрагмента

Спектрограмма обычно изображается в виде тепловой карты , т. е. в виде изображения, интенсивность которого отображается путем изменения цвета или яркости .

Формат

Распространенным форматом является график с двумя геометрическими измерениями: одна ось представляет время , а другая ось представляет частоту ; третье измерение, указывающее амплитуду определенной частоты в определенное время, представлено интенсивностью или цветом каждой точки на изображении.

Существует множество вариаций формата: иногда вертикальная и горизонтальная оси меняются местами, так что время идет вверх и вниз; иногда в виде водопадного графика , где амплитуда представлена ​​высотой трехмерной поверхности вместо цвета или интенсивности. Оси частоты и амплитуды могут быть как линейными , так и логарифмическими , в зависимости от того, для чего используется график. Аудио обычно представляется логарифмической осью амплитуды (вероятно, в децибелах или дБ), а частота будет линейной, чтобы подчеркнуть гармонические отношения, или логарифмической, чтобы подчеркнуть музыкальные, тональные отношения.

Звуковая спектрография инфразвуковой записи 30301

Поколение

Спектрограммы света можно создавать непосредственно с помощью оптического спектрометра с течением времени.

Спектрограммы могут быть созданы из сигнала во временной области одним из двух способов: аппроксимированы как банк фильтров, который получается из серии полосовых фильтров (это был единственный способ до появления современной цифровой обработки сигналов), или рассчитаны из временного сигнала с использованием преобразования Фурье . Эти два метода фактически формируют два различных представления времени-частоты , но эквивалентны при некоторых условиях.

Метод полосовых фильтров обычно использует аналоговую обработку для разделения входного сигнала на полосы частот; величина выходного сигнала каждого фильтра управляет преобразователем, который записывает спектрограмму в виде изображения на бумаге. [3]

Создание спектрограммы с использованием БПФ — это цифровой процесс . Цифровые данные, полученные во временной области , разбиваются на фрагменты, которые обычно перекрываются, и преобразуются Фурье для вычисления величины частотного спектра для каждого фрагмента. Затем каждый фрагмент соответствует вертикальной линии на изображении; измерение величины в зависимости от частоты для определенного момента времени (средняя точка фрагмента). Затем эти спектры или временные графики «накладываются бок о бок», чтобы сформировать изображение или трехмерную поверхность, [4] или слегка перекрываются различными способами, т. е. оконирование . Этот процесс по сути соответствует вычислению квадрата величины кратковременного преобразования Фурье (STFT) сигнала — то есть для ширины окна , . [5]

Ограничения и ресинтез

Из приведенной выше формулы следует, что спектрограмма не содержит информации о точной или даже приблизительной фазе сигнала, который она представляет. По этой причине невозможно обратить процесс и сгенерировать копию исходного сигнала из спектрограммы, хотя в ситуациях, когда точная начальная фаза не важна, может быть возможно сгенерировать полезное приближение исходного сигнала. Анализ и ресинтез звукового спектрографа [6] является примером компьютерной программы, которая пытается это сделать. Pattern playback был ранним речевым синтезатором, разработанным в Haskins Laboratories в конце 1940-х годов, который преобразовывал изображения акустических моделей речи (спектрограмм) обратно в звук.

На самом деле, в спектрограмме присутствует некоторая фазовая информация, но она появляется в другой форме, как временная задержка (или групповая задержка ), которая является двойственной величиной мгновенной частоты . [7]

Размер и форму окна анализа можно изменять. Меньшее (более короткое) окно даст более точные результаты по времени за счет точности представления частоты. Большее (более длинное) окно обеспечит более точное представление частоты за счет точности представления времени. Это пример принципа неопределенности Гейзенберга , согласно которому произведение точности двух сопряженных переменных больше или равно константе (B*T>=1 в обычной записи). [8]

Приложения

Смотрите также

Ссылки

  1. ^ Дж. Л. Фланаган, Анализ речи, синтез и восприятие, Springer-Verlag, Нью-Йорк, 1972
  2. ^ Sejdic, E.; Djurovic, I.; Stankovic, L. (август 2008 г.). «Количественный анализ производительности скалограммы как мгновенного оценщика частоты». IEEE Transactions on Signal Processing . 56 (8): 3837–3845. Bibcode : 2008ITSP...56.3837S. doi : 10.1109/TSP.2008.924856. ISSN  1053-587X. S2CID  16396084.
  3. ^ "Спектрограф". www.sfu.ca . Получено 7 апреля 2018 г. .
  4. ^ "Спектрограммы". ccrma.stanford.edu . Получено 7 апреля 2018 г. .
  5. ^ "STFT Spectrograms VI – NI LabVIEW 8.6 Help". zone.ni.com . Получено 7 апреля 2018 г. .
  6. ^ "Анализ и ресинтез звукового спектрографа". arss.sourceforge.net . Получено 7 апреля 2018 г. .
  7. ^ Боашаш, Б. (1992). «Оценка и интерпретация мгновенной частоты сигнала. I. Основы». Труды IEEE . 80 (4). Институт инженеров по электротехнике и электронике (IEEE): 520–538. doi :10.1109/5.135376. ISSN  0018-9219.
  8. ^ "Принцип неопределенности Гейзенберга". Архивировано из оригинала 2019-01-25 . Получено 2019-02-05 .
  9. ^ "ПЕСНИ И ЗВОНКИ ПТИЦ СО СПЕКТРОГРАММАМИ (СОНОГРАММАМИ) ЮЖНОЙ ТОСКАНЫ (Тоскана – Италия)". www.birdsongs.it . Получено 7 апреля 2018 г.
  10. ^ Сондерс, Фрэнк А.; Хилл, Уильям А.; Франклин, Барбара (1 декабря 1981 г.). «Носимое тактильное сенсорное устройство для детей с глубокой глухотой». Журнал медицинских систем . 5 (4): 265–270. doi :10.1007/BF02222144. PMID  7320662. S2CID  26620843.
  11. ^ "Спектрограмма чтения". ogi.edu . Архивировано из оригинала 27 апреля 1999 . Получено 7 апреля 2018 .
  12. ^ "Praat: doing Phonetics by Computer". www.fon.hum.uva.nl . Получено 7 апреля 2018 г.
  13. ^ "The Aphex Face – bastwood". www.bastwood.com . Получено 7 апреля 2018 г. .
  14. ^ "SRC Comparisons". src.infinitewave.ca . Получено 7 апреля 2018 г. .
  15. ^ "constantwave.com – Ресурсы и информация constantwave". www.constantwave.com . Получено 7 апреля 2018 г. .
  16. ^ "Спектрограммы для векторных сетевых анализаторов". Архивировано из оригинала 2012-08-10.
  17. ^ "Отображение спектрограмм в реальном времени". earthquake.usgs.gov . Получено 7 апреля 2018 г. .
  18. ^ "IRIS: MUSTANG: Шумовая спектрограмма: Документы: v. 1: Помощь".
  19. ^ Гейтгей, Адам (24.12.2016). «Машинное обучение — это весело. Часть 6: Как распознавать речь с помощью глубокого обучения». Medium . Получено 21.03.2018 .
  20. ^ См. также Праат .
  21. ^ "Огромное государство наблюдения в Китае продолжает расти" . The Economist . 23 ноября 2023 г. ISSN  0013-0613 . Получено 25 ноября 2023 г.
  22. ^ "Что такое спектрограмма?" . Получено 2023-12-18 .
  23. ^ T., Arias-Vergara; P., Klumpp; JC, Vasquez-Correa; E., Nöth; JR, Orozco-Arroyave; M., Schuster (2021). «Многоканальные спектрограммы для приложений обработки речи с использованием методов глубокого обучения». Pattern Analysis and Applications . 24 (2): 423–431. doi : 10.1007/s10044-020-00921-5 .
  24. ^ Цзя, Яньцзе; Чен, Си; Ю, Цзецюн; Ван, Ляньмин; Сюй, Юаньчжэ; Лю, Шаоджин; Ван, Юнхуэй (2021). «Распознавание говорящего на основе характеристических спектрограмм и улучшенной самоорганизующейся нейронной сети карты функций». Сложные и интеллектуальные системы . 7 (4): 1749–1757. дои : 10.1007/s40747-020-00172-1 .
  25. ^ Яламанчили, Арпита; Мадхумати, ГЛ; Баладжи, Н. (2022). «Анализ спектрограммы сигнала ЭКГ и эффективность классификации с использованием метода извлечения признаков MFCC». Журнал Ambient Intelligence and Humanized Computing . 13 (2): 757–767. doi :10.1007/s12652-021-02926-2. S2CID  233657057.
  26. ^ Ge, Junfeng; Wang, Li; Gui, Kang; Ye, Lin (30 сентября 2023 г.). "Метод интерпретации температуры для краски, указывающей температуру, на основе спектрограммы". Измерение . 219 . Bibcode :2023Meas..21913317G. doi :10.1016/j.measurement.2023.113317. S2CID  259871198.
  27. ^ Пак, Чолхён; Ли, Деокву (11 февраля 2022 г.). «Классификация респираторных состояний с использованием спектрограммы со сверточной нейронной сетью». Прикладные науки . 12 (4): 1895. doi : 10.3390/app12041895 .

Внешние ссылки