stringtranslate.com

Приблизительная энтропия

В статистике приближенная энтропия ( ApEn ) — это метод, используемый для количественной оценки степени регулярности и непредсказуемости колебаний в данных временного ряда . [1] Например, рассмотрим два ряда данных:

Серия A: (0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, ...), в которой попеременно 0 и 1.
Серия B: (0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, ...), которая имеет либо значение 0, либо 1, выбранное случайным образом, каждое с вероятностью 1/2.

Статистика моментов , такая как среднее значение и дисперсия , не различает эти два ряда. Статистика рангов также не различает эти ряды. Тем не менее, ряд A совершенно регулярен: знание того, что член имеет значение 1, позволяет с уверенностью предсказать, что следующий член будет иметь значение 0. Напротив, ряд B имеет случайные значения: знание того, что член имеет значение 1, не дает никакого представления о том, какое значение будет иметь следующий член.

Регулярность изначально измерялась точной статистикой регулярности, которая в основном была сосредоточена на различных мерах энтропии. [1] Однако точный расчет энтропии требует огромных объемов данных, и на результаты будет сильно влиять системный шум, [2] поэтому нецелесообразно применять эти методы к экспериментальным данным. ApEn был разработан Стивом М. Пинкусом для обработки этих ограничений путем модификации точной статистики регулярности, энтропии Колмогорова-Синая . ApEn изначально был разработан для анализа медицинских данных, таких как частота сердечных сокращений, [1] а затем распространил свои приложения в финансах , [3] физиологии , [4] инженерии человеческого фактора , [5] и климатических науках. [6]

Алгоритм

Доступно подробное пошаговое руководство с объяснением теоретических основ приближенной энтропии. [7] Алгоритм таков:

Шаг 1
Предположим, что есть временной ряд данных . Это необработанные значения данных из измерений, равномерно распределенных во времени.
Шаг 2
Пусть будет положительным целым числом , с , которое представляет длину серии данных (по сути, окно ). Пусть будет положительным действительным числом , которое определяет уровень фильтрации. Пусть .

Шаг 3
Определим для каждого, где . Другими словами, -мерный вектор , содержащий ряд данных, начиная с . Определим расстояние между двумя векторами и как максимальное из расстояний между их соответствующими компонентами, заданное формулой
для .
Шаг 4
Определить количество как
для каждого, где . Обратите внимание, что поскольку принимает все значения от 1 до , совпадение будет засчитано, когда (т. е. когда тестовая подпоследовательность, , сопоставляется сама с собой, ).
Шаг 5
Определять
где — натуральный логарифм , а для фиксированного , и как установлено в Шаге 2.
Шаг 6
Определим приблизительную энтропию ( ) как
Выбор параметров
Обычно выбирают или , тогда как во многом это зависит от области применения.

Реализация на Physionet [8] , основанная на Pincus [2] , использует вместо на шаге 4. Хотя это и вызывает беспокойство в случае искусственно созданных примеров, на практике это обычно не вызывает беспокойства.

Пример

Иллюстрация последовательности сердечного ритма

Рассмотрим последовательность выборок частоты сердечных сокращений, равномерно распределенных во времени:

Обратите внимание, что последовательность является периодической с периодом 3. Давайте выберем и (значения и можно изменять, не влияя на результат).

Сформируем последовательность векторов:

Расстояние вычисляется повторно следующим образом. В первом расчете,

что меньше, чем .

Во втором расчете обратите внимание, что , поэтому

что больше, чем .

Сходным образом,

Результатом является всего 17 терминов , таких что . К ним относятся . В этих случаях это

Обратите внимание на шаг 4, для . Таким образом, члены, такие что включают , и общее число равно 16.

В конце этих расчетов мы имеем

Затем повторяем вышеописанные шаги для . Сначала формируем последовательность векторов:

Вычисляя расстояния между векторами , мы находим, что векторы, удовлетворяющие уровню фильтрации, имеют следующую характеристику:

Поэтому,

В конце этих расчетов мы имеем

Окончательно,

Значение очень мало, поэтому это означает, что последовательность регулярна и предсказуема, что согласуется с наблюдением.

Реализация Python

импорт  математикиdef  approx_entropy ( time_series ,  run_length ,  filter_level )  ->  float : """  Приблизительная энтропия  >>> импорт случайных  >>> регулярно = [85, 80, 89] * 17  >>> print(f"{approx_entropy(regularly, 2, 3):e}")  1.099654e-05  >>> случайно = [random.choice([85, 80, 89]) for _ in range(17*3)]  >>> 0.8 < approx_entropy(randomly, 2, 3) < 1  True  """ def  _maxdist ( x_i ,  x_j ):  возвращает  max ( abs ( ua  -  va )  для  ua ,  va  в  zip ( x_i ,  x_j )) def  _phi ( m ):  n  =  time_series_length  -  m  +  1  x  =  [  [ time_series [ j ]  для  j  в  диапазоне ( i ,  i  +  m  -  1  +  1 )]  для  i  в  диапазоне ( time_series_length  -  m  +  1 )  ]  counts  =  [  sum ( 1  для  x_j  в  x  if  _maxdist ( x_i ,  x_j )  <=  filter_level )  /  n  для  x_i  в  x  ]  return  sum ( math . log ( c )  для  c  в  counts )  /  n длина_временной_серии  =  len ( временная_серия ) вернуть  abs ( _phi ( длина_запуска  +  1 )  -  _phi ( длина_запуска ))если  __name__  ==  "__main__" :  импортировать  doctest doctest . testmod ()

Реализация MATLAB

Интерпретация

Наличие повторяющихся моделей колебаний во временном ряду делает его более предсказуемым, чем временной ряд, в котором такие модели отсутствуют. ApEn отражает вероятность того, что за аналогичными моделями наблюдений не последуют дополнительные аналогичные наблюдения. [9] Временной ряд, содержащий много повторяющихся моделей, имеет относительно небольшое значение ApEn; менее предсказуемый процесс имеет более высокое значение ApEn.

Преимущества

Преимущества ApEn включают в себя: [2]

Ограничения

Алгоритм ApEn считает каждую последовательность соответствующей самой себе, чтобы избежать появления в расчетах. Этот шаг может внести смещение в ApEn, что приводит к тому, что ApEn на практике имеет два плохих свойства: [10]

  1. ApEn сильно зависит от длины записи и для коротких записей всегда ниже ожидаемого.
  2. Ему не хватает относительной согласованности. То есть, если ApEn одного набора данных выше, чем у другого, он должен оставаться выше для всех протестированных условий, но не остается.

Приложения

ApEn применялся для классификации электроэнцефалографии (ЭЭГ) при психиатрических заболеваниях, таких как шизофрения, [11] эпилепсия, [12] и наркомания. [13]

Смотрите также

Ссылки

  1. ^ abc Pincus, SM; Gladstone, IM; Ehrenkranz, RA (1991). «Статистика регулярности для анализа медицинских данных». Journal of Clinical Monitoring and Computing . 7 (4): 335–345. doi :10.1007/BF01619355. PMID  1744678. S2CID  23455856.
  2. ^ abc Pincus, SM (1991). «Приблизительная энтропия как мера сложности системы». Труды Национальной академии наук . 88 (6): 2297–2301. Bibcode :1991PNAS...88.2297P. doi : 10.1073/pnas.88.6.2297 . PMC 51218 . PMID  11607165. 
  3. ^ Пинкус, SM; Калман, EK (2004). «Нерегулярность, волатильность, риск и временные ряды финансового рынка». Труды Национальной академии наук . 101 (38): 13709–13714. Bibcode : 2004PNAS..10113709P. doi : 10.1073/pnas.0405168101 . PMC 518821. PMID  15358860 . 
  4. ^ Пинкус, SM; Голдбергер, AL (1994). «Физиологический анализ временных рядов: что количественно определяет регулярность?». Американский журнал физиологии . 266 (4): 1643–1656. doi :10.1152/ajpheart.1994.266.4.H1643. PMID  8184944. S2CID  362684.
  5. ^ МакКинли, РА; МакИнтайр, ЛК; Шмидт, Р; Реппергер, ДВ; Колдуэлл, ДЖ (2011). «Оценка показателей зрения как детектора усталости». Человеческий фактор . 53 (4): 403–414. doi :10.1177/0018720811411297. PMID  21901937. S2CID  109251681.
  6. ^ Дельгадо-Бонал, Альфонсо; Маршак, Александр; Ян, Юэкуй; Холдавей, Дэниел (2020-01-22). «Анализ изменений в сложности климата за последние четыре десятилетия с использованием данных о радиации MERRA-2». Scientific Reports . 10 (1): 922. Bibcode :2020NatSR..10..922D. doi : 10.1038/s41598-020-57917-8 . ISSN  2045-2322. PMC 6976651 . PMID  31969616. 
  7. ^ Дельгадо-Бонал, Альфонсо; Маршак, Александр (июнь 2019 г.). «Приблизительная энтропия и выборочная энтропия: всеобъемлющее руководство». Энтропия . 21 (6): 541. Bibcode :2019Entrp..21..541D. doi : 10.3390/e21060541 . PMC 7515030 . PMID  33267255. 
  8. ^ "PhysioNet". Архивировано из оригинала 2012-06-18 . Получено 2012-07-04 .
  9. ^ Хо, КК; Муди, ГБ; Пэн, КК; Миетус, ДЖЕ; Ларсон, МГ; Леви, Д; Голдбергер, АЛ (1997). «Прогнозирование выживаемости у пациентов с сердечной недостаточностью и контрольных субъектов с использованием полностью автоматизированных методов получения нелинейных и обычных индексов динамики сердечного ритма». Circulation . 96 (3): 842–848. doi :10.1161/01.cir.96.3.842. PMID  9264491.
  10. ^ Richman, JS; Moorman, JR (2000). «Физиологический анализ временных рядов с использованием приближенной энтропии и выборочной энтропии». American Journal of Physiology. Heart and Circulatory Physiology . 278 (6): 2039–2049. doi :10.1152/ajpheart.2000.278.6.H2039. PMID  10843903. S2CID  2389971.
  11. ^ Сабети, Малихе (2009). «Меры энтропии и сложности для классификации сигналов ЭЭГ шизофреников и контрольных участников». Искусственный интеллект в медицине . 47 (3): 263–274. doi :10.1016/j.artmed.2009.03.003. PMID  19403281.
  12. ^ Юань, Ци (2011). «Классификация эпилептической ЭЭГ на основе экстремальной обучающей машины и нелинейных признаков». Epilepsy Research . 96 (1–2): 29–38. doi :10.1016/j.eplepsyres.2011.04.013. PMID  21616643. S2CID  41730913.
  13. ^ Юн, Кёнсик (2012). «Снижение сложности коры у лиц, злоупотребляющих метамфетамином». Psychiatry Research: Neuroimaging . 201 (3): 226–32. doi :10.1016/j.pscychresns.2011.07.009. PMID  22445216. S2CID  30670300.