В статистике приближенная энтропия ( ApEn ) — это метод, используемый для количественной оценки степени регулярности и непредсказуемости колебаний в данных временного ряда . [1] Например, рассмотрим два ряда данных:
Серия A: (0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, ...), в которой попеременно 0 и 1.
Серия B: (0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, ...), которая имеет либо значение 0, либо 1, выбранное случайным образом, каждое с вероятностью 1/2.
Статистика моментов , такая как среднее значение и дисперсия , не различает эти два ряда. Статистика рангов также не различает эти ряды. Тем не менее, ряд A совершенно регулярен: знание того, что член имеет значение 1, позволяет с уверенностью предсказать, что следующий член будет иметь значение 0. Напротив, ряд B имеет случайные значения: знание того, что член имеет значение 1, не дает никакого представления о том, какое значение будет иметь следующий член.
Регулярность изначально измерялась точной статистикой регулярности, которая в основном была сосредоточена на различных мерах энтропии. [1]
Однако точный расчет энтропии требует огромных объемов данных, и на результаты будет сильно влиять системный шум, [2] поэтому нецелесообразно применять эти методы к экспериментальным данным. ApEn был разработан Стивом М. Пинкусом для обработки этих ограничений путем модификации точной статистики регулярности, энтропии Колмогорова-Синая . ApEn изначально был разработан для анализа медицинских данных, таких как частота сердечных сокращений, [1] а затем распространил свои приложения в финансах , [3] физиологии , [4] инженерии человеческого фактора , [5] и климатических науках. [6]
Алгоритм
Доступно подробное пошаговое руководство с объяснением теоретических основ приближенной энтропии. [7] Алгоритм таков:
Шаг 1
Предположим, что есть временной ряд данных . Это необработанные значения данных из измерений, равномерно распределенных во времени.
Шаг 2
Пусть будет положительным целым числом , с , которое представляет длину серии данных (по сути, окно ). Пусть будет положительным действительным числом , которое определяет уровень фильтрации. Пусть .
Шаг 3
Определим для каждого, где . Другими словами, -мерный вектор , содержащий ряд данных, начиная с . Определим расстояние между двумя векторами и как максимальное из расстояний между их соответствующими компонентами, заданное формулой
для .
Шаг 4
Определить количество как
для каждого, где . Обратите внимание, что поскольку принимает все значения от 1 до , совпадение будет засчитано, когда (т. е. когда тестовая подпоследовательность, , сопоставляется сама с собой, ).
Обычно выбирают или , тогда как во многом это зависит от области применения.
Реализация на Physionet [8] , основанная на Pincus [2] , использует вместо на шаге 4. Хотя это и вызывает беспокойство в случае искусственно созданных примеров, на практике это обычно не вызывает беспокойства.
Пример
Рассмотрим последовательность выборок частоты сердечных сокращений, равномерно распределенных во времени:
Обратите внимание, что последовательность является периодической с периодом 3. Давайте выберем и (значения и можно изменять, не влияя на результат).
Сформируем последовательность векторов:
Расстояние вычисляется повторно следующим образом. В первом расчете,
что меньше, чем .
Во втором расчете обратите внимание, что , поэтому
что больше, чем .
Сходным образом,
Результатом является всего 17 терминов , таких что . К ним относятся . В этих случаях это
Обратите внимание на шаг 4, для . Таким образом, члены, такие что включают , и общее число равно 16.
В конце этих расчетов мы имеем
Затем повторяем вышеописанные шаги для . Сначала формируем последовательность векторов:
Вычисляя расстояния между векторами , мы находим, что векторы, удовлетворяющие уровню фильтрации, имеют следующую характеристику:
Поэтому,
В конце этих расчетов мы имеем
Окончательно,
Значение очень мало, поэтому это означает, что последовательность регулярна и предсказуема, что согласуется с наблюдением.
Реализация Python
импорт математикиdef approx_entropy ( time_series , run_length , filter_level ) -> float : """ Приблизительная энтропия >>> импорт случайных >>> регулярно = [85, 80, 89] * 17 >>> print(f"{approx_entropy(regularly, 2, 3):e}") 1.099654e-05 >>> случайно = [random.choice([85, 80, 89]) for _ in range(17*3)] >>> 0.8 < approx_entropy(randomly, 2, 3) < 1 True """def _maxdist ( x_i , x_j ): возвращает max ( abs ( ua - va ) для ua , va в zip ( x_i , x_j ))def _phi ( m ): n = time_series_length - m + 1 x = [ [ time_series [ j ] для j в диапазоне ( i , i + m - 1 + 1 )] для i в диапазоне ( time_series_length - m + 1 ) ] counts = [ sum ( 1 для x_j в x if _maxdist ( x_i , x_j ) <= filter_level ) / n для x_i в x ] return sum ( math . log ( c ) для c в counts ) / nдлина_временной_серии = len ( временная_серия )вернуть abs ( _phi ( длина_запуска + 1 ) - _phi ( длина_запуска ))если __name__ == "__main__" : импортировать doctestdoctest . testmod ()
Реализация MATLAB
Быстрая аппроксимационная энтропия от MatLab Central
приблизительнаяЭнтропия
Интерпретация
Наличие повторяющихся моделей колебаний во временном ряду делает его более предсказуемым, чем временной ряд, в котором такие модели отсутствуют. ApEn отражает вероятность того, что за аналогичными моделями наблюдений не последуют дополнительные аналогичные наблюдения. [9] Временной ряд, содержащий много повторяющихся моделей, имеет относительно небольшое значение ApEn; менее предсказуемый процесс имеет более высокое значение ApEn.
Преимущества
Преимущества ApEn включают в себя: [2]
Снижение вычислительных требований. ApEn может быть разработан для работы с небольшими выборками данных ( точками) и может применяться в режиме реального времени.
Меньше влияния шума. Если данные зашумлены, показатель ApEn можно сравнить с уровнем шума в данных, чтобы определить, какое качество истинной информации может присутствовать в данных.
Ограничения
Алгоритм ApEn считает каждую последовательность соответствующей самой себе, чтобы избежать появления в расчетах. Этот шаг может внести смещение в ApEn, что приводит к тому, что ApEn на практике имеет два плохих свойства: [10]
ApEn сильно зависит от длины записи и для коротких записей всегда ниже ожидаемого.
Ему не хватает относительной согласованности. То есть, если ApEn одного набора данных выше, чем у другого, он должен оставаться выше для всех протестированных условий, но не остается.
Приложения
ApEn применялся для классификации электроэнцефалографии (ЭЭГ) при психиатрических заболеваниях, таких как шизофрения, [11] эпилепсия, [12] и наркомания. [13]
^ abc Pincus, SM; Gladstone, IM; Ehrenkranz, RA (1991). «Статистика регулярности для анализа медицинских данных». Journal of Clinical Monitoring and Computing . 7 (4): 335–345. doi :10.1007/BF01619355. PMID 1744678. S2CID 23455856.
^ abc Pincus, SM (1991). «Приблизительная энтропия как мера сложности системы». Труды Национальной академии наук . 88 (6): 2297–2301. Bibcode :1991PNAS...88.2297P. doi : 10.1073/pnas.88.6.2297 . PMC 51218 . PMID 11607165.
^ Пинкус, SM; Калман, EK (2004). «Нерегулярность, волатильность, риск и временные ряды финансового рынка». Труды Национальной академии наук . 101 (38): 13709–13714. Bibcode : 2004PNAS..10113709P. doi : 10.1073/pnas.0405168101 . PMC 518821. PMID 15358860 .
^ Пинкус, SM; Голдбергер, AL (1994). «Физиологический анализ временных рядов: что количественно определяет регулярность?». Американский журнал физиологии . 266 (4): 1643–1656. doi :10.1152/ajpheart.1994.266.4.H1643. PMID 8184944. S2CID 362684.
^ МакКинли, РА; МакИнтайр, ЛК; Шмидт, Р; Реппергер, ДВ; Колдуэлл, ДЖ (2011). «Оценка показателей зрения как детектора усталости». Человеческий фактор . 53 (4): 403–414. doi :10.1177/0018720811411297. PMID 21901937. S2CID 109251681.
^ Дельгадо-Бонал, Альфонсо; Маршак, Александр; Ян, Юэкуй; Холдавей, Дэниел (2020-01-22). «Анализ изменений в сложности климата за последние четыре десятилетия с использованием данных о радиации MERRA-2». Scientific Reports . 10 (1): 922. Bibcode :2020NatSR..10..922D. doi : 10.1038/s41598-020-57917-8 . ISSN 2045-2322. PMC 6976651 . PMID 31969616.
^ Дельгадо-Бонал, Альфонсо; Маршак, Александр (июнь 2019 г.). «Приблизительная энтропия и выборочная энтропия: всеобъемлющее руководство». Энтропия . 21 (6): 541. Bibcode :2019Entrp..21..541D. doi : 10.3390/e21060541 . PMC 7515030 . PMID 33267255.
^ "PhysioNet". Архивировано из оригинала 2012-06-18 . Получено 2012-07-04 .
^ Хо, КК; Муди, ГБ; Пэн, КК; Миетус, ДЖЕ; Ларсон, МГ; Леви, Д; Голдбергер, АЛ (1997). «Прогнозирование выживаемости у пациентов с сердечной недостаточностью и контрольных субъектов с использованием полностью автоматизированных методов получения нелинейных и обычных индексов динамики сердечного ритма». Circulation . 96 (3): 842–848. doi :10.1161/01.cir.96.3.842. PMID 9264491.
^ Richman, JS; Moorman, JR (2000). «Физиологический анализ временных рядов с использованием приближенной энтропии и выборочной энтропии». American Journal of Physiology. Heart and Circulatory Physiology . 278 (6): 2039–2049. doi :10.1152/ajpheart.2000.278.6.H2039. PMID 10843903. S2CID 2389971.
^ Сабети, Малихе (2009). «Меры энтропии и сложности для классификации сигналов ЭЭГ шизофреников и контрольных участников». Искусственный интеллект в медицине . 47 (3): 263–274. doi :10.1016/j.artmed.2009.03.003. PMID 19403281.
^ Юань, Ци (2011). «Классификация эпилептической ЭЭГ на основе экстремальной обучающей машины и нелинейных признаков». Epilepsy Research . 96 (1–2): 29–38. doi :10.1016/j.eplepsyres.2011.04.013. PMID 21616643. S2CID 41730913.
^ Юн, Кёнсик (2012). «Снижение сложности коры у лиц, злоупотребляющих метамфетамином». Psychiatry Research: Neuroimaging . 201 (3): 226–32. doi :10.1016/j.pscychresns.2011.07.009. PMID 22445216. S2CID 30670300.