Приблизительная энтропия

В статистике приближенная энтропия ( ApEn ) — это метод, используемый для количественной оценки степени регулярности и непредсказуемости колебаний в данных временного ряда . ^[1] Например, рассмотрим два ряда данных:

Серия A: (0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, ...), в которой попеременно 0 и 1.

Серия B: (0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, ...), которая имеет либо значение 0, либо 1, выбранное случайным образом, каждое с вероятностью 1/2.

Статистика моментов , такая как среднее значение и дисперсия , не различает эти два ряда. Статистика рангов также не различает эти ряды. Тем не менее, ряд A совершенно регулярен: знание того, что член имеет значение 1, позволяет с уверенностью предсказать, что следующий член будет иметь значение 0. Напротив, ряд B имеет случайные значения: знание того, что член имеет значение 1, не дает никакого представления о том, какое значение будет иметь следующий член.

Регулярность изначально измерялась точной статистикой регулярности, которая в основном была сосредоточена на различных мерах энтропии. ^[1] Однако точный расчет энтропии требует огромных объемов данных, и на результаты будет сильно влиять системный шум, ^[2] поэтому нецелесообразно применять эти методы к экспериментальным данным. ApEn был разработан Стивом М. Пинкусом для обработки этих ограничений путем модификации точной статистики регулярности, энтропии Колмогорова-Синая . ApEn изначально был разработан для анализа медицинских данных, таких как частота сердечных сокращений, ^[1] а затем распространил свои приложения в финансах , ^[3] физиологии , ^[4] инженерии человеческого фактора , ^[5] и климатических науках. ^[6]

Алгоритм

Доступно подробное пошаговое руководство с объяснением теоретических основ приближенной энтропии. ^[7] Алгоритм таков:

Шаг 1

Предположим, что есть временной ряд данных . Это необработанные значения данных из измерений, равномерно распределенных во времени.

u(1),u(2),\ldots ,u(N)

N

Шаг 2

Пусть будет положительным целым числом , с , которое представляет длину серии данных (по сути, окно ). Пусть будет положительным действительным числом , которое определяет уровень фильтрации. Пусть .

m\in \mathbb {Z} ^{+}

m\leq N

r\in \mathbb {R} ^{+}

n=N-m+1

Шаг 3

Определим для каждого, где . Другими словами, -мерный вектор , содержащий ряд данных, начиная с . Определим расстояние между двумя векторами и как максимальное из расстояний между их соответствующими компонентами, заданное формулой

\mathbf {x} (i)={\big [}u(i),u(i+1),\ldots ,u(i+m-1){\big ]}

я

1\leq i\leq n

\mathbf {x} (я)

м

u(я)

\mathbf {x} (я)

\mathbf {x} (j)

{\begin{aligned}d[\mathbf {x} (i),\mathbf {x} (j)]&=\max _{k}{\big (}|\mathbf {x} (i)_{k}-\mathbf {x} (j)_{k}|{\big )}\\&=\max _{k}{\big (}|u(i+k-1)-u(j+k-1)|{\big )}\\\end{aligned}}

для .

1\leq k\leq m

Шаг 4

Определить количество как

C_{i}^{m}

C_{i}^{m}(r)={({\text{number of }}j{\text{ such that }}d[\mathbf {x} (i),\mathbf {x} (j)]\leq r) \over n}

для каждого, где . Обратите внимание, что поскольку принимает все значения от 1 до , совпадение будет засчитано, когда (т. е. когда тестовая подпоследовательность, , сопоставляется сама с собой, ).

i

1\leq i,j\leq n

j

n

j=i

\mathbf {x} (j)

\mathbf {x} (i)

Шаг 5

Определять

\phi ^{m}(r)={1 \over n}\sum _{i=1}^{n}\log(C_{i}^{m}(r))

где — натуральный логарифм , а для фиксированного , и как установлено в Шаге 2.

\log

m

r

n

Шаг 6

Определим приблизительную энтропию ( ) как

\mathrm {ApEn}

\mathrm {ApEn} (m,r,N)(u)=\phi ^{m}(r)-\phi ^{m+1}(r)

Выбор параметров: Обычно выбирают или , тогда как во многом это зависит от области применения. $m=2$ $m=3$ $r$

Реализация на Physionet ^[8] , основанная на Pincus ^[2] , использует вместо на шаге 4. Хотя это и вызывает беспокойство в случае искусственно созданных примеров, на практике это обычно не вызывает беспокойства. $d[\mathbf {x} (i),\mathbf {x} (j)]<r$ $d[\mathbf {x} (i),\mathbf {x} (j)]\leq r$

Пример

Иллюстрация последовательности сердечного ритма

Рассмотрим последовательность выборок частоты сердечных сокращений, равномерно распределенных во времени: $N=51$

\ S_{N}=\{85,80,89,85,80,89,\ldots \}

Обратите внимание, что последовательность является периодической с периодом 3. Давайте выберем и (значения и можно изменять, не влияя на результат). $m=2$ $r=3$ $m$ $r$

Сформируем последовательность векторов:

{\begin{aligned}\mathbf {x} (1)&=[u(1)\ u(2)]=[85\ 80]\\\mathbf {x} (2)&=[u(2)\ u(3)]=[80\ 89]\\\mathbf {x} (3)&=[u(3)\ u(4)]=[89\ 85]\\\mathbf {x} (4)&=[u(4)\ u(5)]=[85\ 80]\\&\ \ \vdots \end{aligned}}

Расстояние вычисляется повторно следующим образом. В первом расчете,

\ d[\mathbf {x} (1),\mathbf {x} (1)]=\max _{k}|\mathbf {x} (1)_{k}-\mathbf {x} (1)_{k}|=0

что меньше, чем .

r

Во втором расчете обратите внимание, что , поэтому $|u(2)-u(3)|>|u(1)-u(2)|$

\ d[\mathbf {x} (1),\mathbf {x} (2)]=\max _{k}|\mathbf {x} (1)_{k}-\mathbf {x} (2)_{k}|=|u(2)-u(3)|=9

что больше, чем .

r

Сходным образом,

{\begin{aligned}d[\mathbf {x} (1)&,\mathbf {x} (3)]=|u(2)-u(4)|=5>r\\d[\mathbf {x} (1)&,\mathbf {x} (4)]=|u(1)-u(4)|=|u(2)-u(5)|=0<r\\&\vdots \\d[\mathbf {x} (1)&,\mathbf {x} (j)]=\cdots \\&\vdots \\\end{aligned}}

Результатом является всего 17 терминов , таких что . К ним относятся . В этих случаях это $\mathbf {x} (j)$ $d[\mathbf {x} (1),\mathbf {x} (j)]\leq r$ $\mathbf {x} (1),\mathbf {x} (4),\mathbf {x} (7),\ldots ,\mathbf {x} (49)$ $C_{i}^{m}(r)$

\ C_{1}^{2}(3)={\frac {17}{50}}

\ C_{2}^{2}(3)={\frac {17}{50}}

\ C_{3}^{2}(3)={\frac {16}{50}}

\ C_{4}^{2}(3)={\frac {17}{50}}\ \cdots

Обратите внимание на шаг 4, для . Таким образом, члены, такие что включают , и общее число равно 16. $1\leq i\leq n$ $\mathbf {x} (i)$ $\mathbf {x} (j)$ $d[\mathbf {x} (3),\mathbf {x} (j)]\leq r$ $\mathbf {x} (3),\mathbf {x} (6),\mathbf {x} (9),\ldots ,\mathbf {x} (48)$

В конце этих расчетов мы имеем

\phi ^{2}(3)={1 \over 50}\sum _{i=1}^{50}\log(C_{i}^{2}(3))\approx -1.0982

Затем повторяем вышеописанные шаги для . Сначала формируем последовательность векторов: $m=3$

{\begin{aligned}\mathbf {x} (1)&=[u(1)\ u(2)\ u(3)]=[85\ 80\ 89]\\\mathbf {x} (2)&=[u(2)\ u(3)\ u(4)]=[80\ 89\ 85]\\\mathbf {x} (3)&=[u(3)\ u(4)\ u(5)]=[89\ 85\ 80]\\\mathbf {x} (4)&=[u(4)\ u(5)\ u(6)]=[85\ 80\ 89]\\&\ \ \vdots \end{aligned}}

Вычисляя расстояния между векторами , мы находим, что векторы, удовлетворяющие уровню фильтрации, имеют следующую характеристику: $\mathbf {x} (i),\mathbf {x} (j),1\leq i\leq 49$

d[\mathbf {x} (i),\mathbf {x} (i+3)]=0<r

Поэтому,

\ C_{1}^{3}(3)={\frac {17}{49}}

\ C_{2}^{3}(3)={\frac {16}{49}}

\ C_{3}^{3}(3)={\frac {16}{49}}

\ C_{4}^{3}(3)={\frac {17}{49}}\ \cdots

В конце этих расчетов мы имеем

\phi ^{3}(3)={1 \over 49}\sum _{i=1}^{49}\log(C_{i}^{3}(3))\approx -1.0982

Окончательно,

\mathrm {ApEn} =\phi ^{2}(3)-\phi ^{3}(3)\approx 0.000010997

Значение очень мало, поэтому это означает, что последовательность регулярна и предсказуема, что согласуется с наблюдением.

Реализация Python

импорт  математикиdef  approx_entropy ( time_series ,  run_length ,  filter_level )  ->  float : """  Приблизительная энтропия  >>> импорт случайных  >>> регулярно = [85, 80, 89] * 17  >>> print(f"{approx_entropy(regularly, 2, 3):e}")  1.099654e-05  >>> случайно = [random.choice([85, 80, 89]) for _ in range(17*3)]  >>> 0.8 < approx_entropy(randomly, 2, 3) < 1  True  """ def  _maxdist ( x_i ,  x_j ):  возвращает  max ( abs ( ua  -  va )  для  ua ,  va  в  zip ( x_i ,  x_j )) def  _phi ( m ):  n  =  time_series_length  -  m  +  1  x  =  [  [ time_series [ j ]  для  j  в  диапазоне ( i ,  i  +  m  -  1  +  1 )]  для  i  в  диапазоне ( time_series_length  -  m  +  1 )  ]  counts  =  [  sum ( 1  для  x_j  в  x  if  _maxdist ( x_i ,  x_j )  <=  filter_level )  /  n  для  x_i  в  x  ]  return  sum ( math . log ( c )  для  c  в  counts )  /  n длина_временной_серии  =  len ( временная_серия ) вернуть  abs ( _phi ( длина_запуска  +  1 )  -  _phi ( длина_запуска ))если  __name__  ==  "__main__" :  импортировать  doctest doctest . testmod ()

Реализация MATLAB

Быстрая аппроксимационная энтропия от MatLab Central
приблизительнаяЭнтропия

Интерпретация

Наличие повторяющихся моделей колебаний во временном ряду делает его более предсказуемым, чем временной ряд, в котором такие модели отсутствуют. ApEn отражает вероятность того, что за аналогичными моделями наблюдений не последуют дополнительные аналогичные наблюдения. ^[9] Временной ряд, содержащий много повторяющихся моделей, имеет относительно небольшое значение ApEn; менее предсказуемый процесс имеет более высокое значение ApEn.

Преимущества

Преимущества ApEn включают в себя: ^[2]

Снижение вычислительных требований. ApEn может быть разработан для работы с небольшими выборками данных ( точками) и может применяться в режиме реального времени. $N<50$
Меньше влияния шума. Если данные зашумлены, показатель ApEn можно сравнить с уровнем шума в данных, чтобы определить, какое качество истинной информации может присутствовать в данных.

Ограничения

Алгоритм ApEn считает каждую последовательность соответствующей самой себе, чтобы избежать появления в расчетах. Этот шаг может внести смещение в ApEn, что приводит к тому, что ApEn на практике имеет два плохих свойства: ^[10] $\log(0)$

ApEn сильно зависит от длины записи и для коротких записей всегда ниже ожидаемого.
Ему не хватает относительной согласованности. То есть, если ApEn одного набора данных выше, чем у другого, он должен оставаться выше для всех протестированных условий, но не остается.

Приложения

ApEn применялся для классификации электроэнцефалографии (ЭЭГ) при психиатрических заболеваниях, таких как шизофрения, ^[11] эпилепсия, ^[12] и наркомания. ^[13]

Смотрите также

Ссылки

^ abc Pincus, SM; Gladstone, IM; Ehrenkranz, RA (1991). «Статистика регулярности для анализа медицинских данных». Journal of Clinical Monitoring and Computing . 7 (4): 335–345. doi :10.1007/BF01619355. PMID 1744678. S2CID 23455856.
^ abc Pincus, SM (1991). «Приблизительная энтропия как мера сложности системы». Труды Национальной академии наук . 88 (6): 2297–2301. Bibcode :1991PNAS...88.2297P. doi : 10.1073/pnas.88.6.2297 . PMC 51218 . PMID 11607165.
^ Пинкус, SM; Калман, EK (2004). «Нерегулярность, волатильность, риск и временные ряды финансового рынка». Труды Национальной академии наук . 101 (38): 13709–13714. Bibcode : 2004PNAS..10113709P. doi : 10.1073/pnas.0405168101 . PMC 518821. PMID 15358860 .
^ Пинкус, SM; Голдбергер, AL (1994). «Физиологический анализ временных рядов: что количественно определяет регулярность?». Американский журнал физиологии . 266 (4): 1643–1656. doi :10.1152/ajpheart.1994.266.4.H1643. PMID 8184944. S2CID 362684.
^ МакКинли, РА; МакИнтайр, ЛК; Шмидт, Р; Реппергер, ДВ; Колдуэлл, ДЖ (2011). «Оценка показателей зрения как детектора усталости». Человеческий фактор . 53 (4): 403–414. doi :10.1177/0018720811411297. PMID 21901937. S2CID 109251681.
^ Дельгадо-Бонал, Альфонсо; Маршак, Александр; Ян, Юэкуй; Холдавей, Дэниел (2020-01-22). «Анализ изменений в сложности климата за последние четыре десятилетия с использованием данных о радиации MERRA-2». Scientific Reports . 10 (1): 922. Bibcode :2020NatSR..10..922D. doi : 10.1038/s41598-020-57917-8 . ISSN 2045-2322. PMC 6976651 . PMID 31969616.
^ Дельгадо-Бонал, Альфонсо; Маршак, Александр (июнь 2019 г.). «Приблизительная энтропия и выборочная энтропия: всеобъемлющее руководство». Энтропия . 21 (6): 541. Bibcode :2019Entrp..21..541D. doi : 10.3390/e21060541 . PMC 7515030 . PMID 33267255.
^ "PhysioNet". Архивировано из оригинала 2012-06-18 . Получено 2012-07-04 .
^ Хо, КК; Муди, ГБ; Пэн, КК; Миетус, ДЖЕ; Ларсон, МГ; Леви, Д; Голдбергер, АЛ (1997). «Прогнозирование выживаемости у пациентов с сердечной недостаточностью и контрольных субъектов с использованием полностью автоматизированных методов получения нелинейных и обычных индексов динамики сердечного ритма». Circulation . 96 (3): 842–848. doi :10.1161/01.cir.96.3.842. PMID 9264491.
^ Richman, JS; Moorman, JR (2000). «Физиологический анализ временных рядов с использованием приближенной энтропии и выборочной энтропии». American Journal of Physiology. Heart and Circulatory Physiology . 278 (6): 2039–2049. doi :10.1152/ajpheart.2000.278.6.H2039. PMID 10843903. S2CID 2389971.
^ Сабети, Малихе (2009). «Меры энтропии и сложности для классификации сигналов ЭЭГ шизофреников и контрольных участников». Искусственный интеллект в медицине . 47 (3): 263–274. doi :10.1016/j.artmed.2009.03.003. PMID 19403281.
^ Юань, Ци (2011). «Классификация эпилептической ЭЭГ на основе экстремальной обучающей машины и нелинейных признаков». Epilepsy Research . 96 (1–2): 29–38. doi :10.1016/j.eplepsyres.2011.04.013. PMID 21616643. S2CID 41730913.
^ Юн, Кёнсик (2012). «Снижение сложности коры у лиц, злоупотребляющих метамфетамином». Psychiatry Research: Neuroimaging . 201 (3): 226–32. doi :10.1016/j.pscychresns.2011.07.009. PMID 22445216. S2CID 30670300.