stringtranslate.com

Функциональный анализ данных

Функциональный анализ данных (FDA) — это раздел статистики , который анализирует данные, предоставляя информацию о кривых, поверхностях или чем-либо еще, изменяющемся в континууме. В своей наиболее общей форме, в рамках FDA, каждый элемент выборки функциональных данных считается случайной функцией. Физический континуум, по которому определяются эти функции, часто является временем, но может также быть пространственным местоположением, длиной волны, вероятностью и т. д. По сути, функциональные данные являются бесконечномерными. Высокая внутренняя размерность этих данных создает проблемы для теории, а также для вычислений, где эти проблемы различаются в зависимости от того, как были отобраны функциональные данные. Однако высоко- или бесконечномерная структура данных является богатым источником информации, и существует много интересных проблем для исследований и анализа данных.

История

Функциональный анализ данных берет свое начало в работах Гренадера и Карунена 1940-х и 1950-х годов. [1] [2] [3] [4] Они рассмотрели разложение квадратично-интегрируемого непрерывного во времени стохастического процесса на собственные компоненты, теперь известное как разложение Карунена-Лоэва . Строгий анализ функционального анализа главных компонент был проведен в 1970-х годах Клеффе, Доксуа и Пуссе, включая результаты об асимптотическом распределении собственных значений. [5] [6] Совсем недавно, в 1990-х и 2000-х годах, эта область больше сосредоточилась на приложениях и понимании эффектов плотных и разреженных схем наблюдений. Термин «функциональный анализ данных» был придуман Джеймсом О. Рамсеем . [7]

Математический формализм

Случайные функции можно рассматривать как случайные элементы, принимающие значения в гильбертовом пространстве , или как стохастический процесс . Первый вариант удобен с математической точки зрения, тогда как второй несколько более пригоден с прикладной точки зрения. Эти два подхода совпадают, если случайные функции непрерывны и выполняется условие, называемое среднеквадратичной непрерывностью . [8]

Гильбертовские случайные величины

С точки зрения гильбертова пространства рассматривается -значный случайный элемент , где - сепарабельное гильбертово пространство, такое как пространство квадратично-интегрируемых функций . При условии интегрируемости , можно определить среднее значение как единственный элемент, удовлетворяющий

Эта формулировка является интегралом Петтиса, но среднее значение может быть также определено как интеграл Бохнера . При условии интегрируемости, которое является конечным, ковариационный оператор является линейным оператором , который однозначно определяется соотношением

или, в тензорной форме, . Спектральная теорема позволяет разложить как разложение Карунена-Лоэва

где — собственные векторы , соответствующие неотрицательным собственным значениям , в невозрастающем порядке. Усечение этого бесконечного ряда до конечного порядка лежит в основе функционального анализа главных компонент .

Стохастические процессы

Гильбертовская точка зрения математически удобна, но абстрактна; приведенные выше соображения не обязательно вообще рассматривают как функцию, поскольку общие выборы подобных и соболевских пространств состоят из классов эквивалентности, а не функций. Перспектива стохастического процесса рассматривает как набор случайных величин

индексируется единичным интервалом (или, в более общем смысле, интервалом ). Функции среднего и ковариации определяются поточечно как

(если для всех ).

При среднеквадратичной непрерывности и являются непрерывными функциями, а тогда ковариационная функция определяет ковариационный оператор, заданный как

Спектральная теорема применима к , давая собственные пары , так что в записи тензорного произведения записывается

Более того, поскольку является непрерывным для всех , все являются непрерывными. Теорема Мерсера тогда утверждает, что

Наконец, при дополнительном предположении, что траектории выборки непрерывны, а именно, что с вероятностью единица случайная функция непрерывна, приведенное выше разложение Карунена-Лоэва справедливо для и впоследствии может быть применена машина Гильберта пространства. Непрерывность траекторий выборки может быть показана с помощью теоремы Колмогорова о непрерывности .

Функциональные разработки данных

Функциональные данные рассматриваются как реализации стохастического процесса , который является процессом на ограниченном и замкнутом интервале со средней функцией и функцией ковариации . Реализации процесса для i-го субъекта равны , и предполагается, что выборка состоит из независимых субъектов. График выборки может различаться для разных субъектов, обозначается как для i-го субъекта. Соответствующее i-е наблюдение обозначается как , где . Кроме того, предполагается, что измерение имеет случайный шум с и , которые независимы для и .

1. Полностью наблюдаемые функции без шума на произвольно плотной сетке

Измерения доступны для всех

Часто нереалистично, но математически удобно.

Пример из реальной жизни: спектральные данные Tecator. [7]

2. Плотно выбранные функции с зашумленными измерениями (плотный дизайн)

Измерения , где записаны на регулярной сетке,

, и применяется к типичным функциональным данным.

Пример из реальной жизни: данные исследования роста в Беркли и данные по акциям

3. Редко выбранные функции с зашумленными измерениями (продольные данные)

Измерения , где — случайные моменты времени, а их количество на одного субъекта случайно и конечно.

Пример из реальной жизни: данные о количестве CD4 у больных СПИДом. [9]

Функциональный анализ главных компонент

Функциональный главный компонентный анализ (FPCA) является наиболее распространенным инструментом в FDA, отчасти потому, что FPCA облегчает сокращение размерности изначально бесконечномерных функциональных данных до конечномерного случайного вектора оценок. Более конкретно, сокращение размерности достигается путем расширения базовых наблюдаемых случайных траекторий в функциональном базисе, состоящем из собственных функций оператора ковариации на . Рассмотрим оператор ковариации , как в ( 1 ), который является компактным оператором в гильбертовом пространстве .

По теореме Мерсера , функция ядра , т. е. функция ковариации , имеет спектральное разложение , где сходимость ряда абсолютна и равномерна, и являются действительными неотрицательными собственными значениями в порядке убывания с соответствующими ортонормированными собственными функциями . По теореме Карунена–Лоэва , FPCA-расширение базовой случайной траектории равно , где — функциональные главные компоненты (FPC), иногда называемые оценками. Разложение Карунена–Лоэва облегчает уменьшение размерности в том смысле, что частичная сумма сходится равномерно, т. е. как и, таким образом, частичная сумма с достаточно большим дает хорошее приближение к бесконечной сумме. Таким образом, информация в уменьшается от бесконечномерного до -мерного вектора с помощью аппроксимированного процесса:

Другие популярные базы включают сплайны , ряды Фурье и вейвлеты. Важные приложения FPCA включают режимы вариации и функциональную регрессию главных компонентов.

Функциональные модели линейной регрессии

Функциональные линейные модели можно рассматривать как расширение традиционных многомерных линейных моделей , которые связывают векторные отклики с векторными ковариатами. Традиционная линейная модель со скалярным откликом и векторным ковариатом может быть выражена как

где обозначает внутренний продукт в евклидовом пространстве , а обозначает коэффициенты регрессии, а — случайная ошибка (шум) с нулевой средней конечной дисперсией . Функциональные линейные модели можно разделить на два типа на основе откликов.

Функциональные регрессионные модели со скалярным откликом

Заменяя векторную ковариату и вектор коэффициентов в модели ( 3 ) центрированной функциональной ковариатой и функцией коэффициентов для и заменяя скалярное произведение в евклидовом пространстве на скалярное произведение в гильбертовом пространстве , приходим к функциональной линейной модели

Простая функциональная линейная модель ( 4 ) может быть расширена до нескольких функциональных ковариатов, включая также дополнительные векторные ковариаты , где , по

где — коэффициент регрессии для , область определения — , — центрированная функциональная ковариата, заданная выражением , и — функция коэффициента регрессии для , для . Модели ( 4 ) и ( 5 ) были подробно изучены. [10] [11] [12]

Функциональные регрессионные модели с функциональным откликом

Рассмотрим функциональный отклик на и несколько функциональных ковариатов , , . В этой настройке были рассмотрены две основные модели. [13] [7] Одна из этих двух моделей, обычно называемая функциональной линейной моделью (FLM), может быть записана как:

где — функциональный отсекаемый элемент, для , — центрированная функциональная ковариата на , — соответствующие функциональные наклоны с той же областью определения, соответственно, и — обычно случайный процесс с нулевым средним и конечной дисперсией. [13] В этом случае в любой момент времени значение , т. е. , зависит от всех траекторий . Модель ( 6 ) была тщательно изучена. [14] [15] [16] [17] [18]

Функция-на-скалярной регрессии

В частности, принятие в качестве постоянной функции дает частный случай модели ( 6 ) , которая представляет собой функциональную линейную модель с функциональными откликами и скалярными ковариатами.

Модели параллельной регрессии

Эта модель имеет вид:

где — функциональные ковариаты на , — коэффициентные функции, определенные на том же интервале, и обычно предполагается, что это случайный процесс с нулевым средним и конечной дисперсией. [13] Эта модель предполагает, что значение зависит только от текущего значения , а не от истории или будущего значения. Следовательно, это «модель параллельной регрессии», которая также называется моделью «переменных коэффициентов». Кроме того, были предложены различные методы оценки. [19] [20] [21] [22] [23] [24]

Функциональные нелинейные регрессионные модели

Прямые нелинейные расширения классических функциональных линейных регрессионных моделей (FLM) по-прежнему включают линейный предиктор, но объединяют его с нелинейной функцией связи, аналогично идее обобщенной линейной модели из обычной линейной модели. Разработки в направлении полностью непараметрических регрессионных моделей для функциональных данных сталкиваются с такими проблемами, как проклятие размерности . Чтобы обойти «проклятие» и проблему выбора метрики, мы мотивированы рассматривать нелинейные функциональные регрессионные модели, которые подвержены некоторым структурным ограничениям, но не слишком нарушают гибкость. Желательны модели, которые сохраняют полиномиальные скорости сходимости, будучи при этом более гибкими, чем, скажем, функциональные линейные модели. Такие модели особенно полезны, когда диагностика для функциональной линейной модели указывает на отсутствие соответствия, что часто встречается в реальных жизненных ситуациях. В частности, функциональные полиномиальные модели, функциональные одно- и многоиндексные модели и функциональные аддитивные модели являются тремя особыми случаями функциональных нелинейных регрессионных моделей.

Модели функциональной полиномиальной регрессии

Функциональные полиномиальные регрессионные модели можно рассматривать как естественное расширение функциональных линейных моделей (FLM) со скалярными откликами, аналогично расширению линейной регрессионной модели до полиномиальной регрессионной модели. Для скалярного отклика и функциональной ковариаты с доменом и соответствующими центрированными предикторными процессами самым простым и наиболее заметным членом в семействе функциональных полиномиальных регрессионных моделей является квадратичная функциональная регрессия [25], заданная следующим образом, где — центрированная функциональная ковариата, — скалярный коэффициент, а — коэффициентные функции с доменами и , соответственно. В дополнение к параметрической функции β, которую указанная выше функциональная квадратичная регрессионная модель разделяет с FLM, она также имеет параметрическую поверхность γ. По аналогии с FLM со скалярными откликами оценка функциональных полиномиальных моделей может быть получена путем расширения как центрированной ковариаты , так и коэффициентных функций и в ортонормированном базисе. [25] [26]

Функциональные модели с одним и несколькими индексами

Функциональная модель множественного индекса представлена ​​ниже, символы имеют свои обычные значения, как описано ранее. Здесь g представляет собой (неизвестную) общую гладкую функцию, определенную в p-мерной области. Случай дает функциональную модель с одним индексом, в то время как модели множественного индекса соответствуют случаю . Однако для эта модель проблематична из-за проклятия размерности . При и относительно небольших размерах выборки оценка, заданная этой моделью, часто имеет большую дисперсию. [27] [28]

Функциональные аддитивные модели (FAM)

Для заданного ортонормированного базиса на мы можем расширить область определения .

Функциональная линейная модель со скалярными откликами (см. ( 3 )) может быть записана следующим образом: Одна из форм FAM получается путем замены линейной функции в приведенном выше выражении (т.е. ) на общую гладкую функцию , аналогичную расширению моделей множественной линейной регрессии до аддитивных моделей и выражается как, где удовлетворяет для . [13] [7] Это ограничение на общие гладкие функции обеспечивает идентифицируемость в том смысле, что оценки этих аддитивных компонентных функций не мешают оценкам отсекаемого члена . Другая форма FAM — непрерывно аддитивная модель, [29] выражается как, для двумерной гладкой аддитивной поверхности , которая должна удовлетворять для всех , чтобы обеспечить идентифицируемость.

Обобщенная функциональная линейная модель

Очевидное и прямое расширение FLM со скалярными ответами (см. ( 3 )) заключается в добавлении функции связи, приводящей к обобщенной функциональной линейной модели (GFLM) [30] по аналогии с обобщенной линейной моделью (GLM). Три компонента GFLM:

  1. Линейный предиктор ; [систематический компонент]
  2. Функция дисперсии , где — условное среднее ; [случайная составляющая]
  3. Функция связи, соединяющая условное среднее значение и линейный предиктор через . [систематический компонент]

Кластеризация и классификация функциональных данных

Для векторных многомерных данных методы разбиения k-средних и иерархическая кластеризация являются двумя основными подходами. Эти классические концепции кластеризации для векторных многомерных данных были распространены на функциональные данные. Для кластеризации функциональных данных методы кластеризации k-средних более популярны, чем методы иерархической кластеризации. Для кластеризации k-средних на функциональных данных средние функции обычно рассматриваются как центры кластера. Ковариационные структуры также принимаются во внимание. [31] Помимо кластеризации типа k-средних, функциональная кластеризация [32], основанная на моделях смесей , также широко используется в кластеризации векторных многомерных данных и была распространена на функциональную кластеризацию данных. [33] [34] [35] [36] [37] Кроме того, байесовская иерархическая кластеризация также играет важную роль в разработке функциональной кластеризации на основе моделей. [38] [39] [40] [41]

Функциональная классификация назначает групповую принадлежность новому объекту данных либо на основе функциональной регрессии, либо функционального дискриминантного анализа. Методы функциональной классификации данных, основанные на моделях функциональной регрессии, используют уровни классов в качестве ответов, а наблюдаемые функциональные данные и другие ковариаты в качестве предикторов. Для моделей функциональной классификации, основанных на регрессии, обычно используются функциональные обобщенные линейные модели или, более конкретно, функциональная бинарная регрессия, такая как функциональная логистическая регрессия для бинарных ответов. В более общем смысле используется обобщенная функциональная линейная регрессионная модель, основанная на подходе FPCA . [42] Функциональный линейный дискриминантный анализ (FLDA) также рассматривался как метод классификации для функциональных данных. [43] [44] [45] [46] [47] Также была предложена функциональная классификация данных, включающая коэффициенты плотности. [48] Исследование асимптотического поведения предлагаемых классификаторов в пределе большой выборки показывает, что при определенных условиях скорость ошибочной классификации сходится к нулю, явление, которое было названо «идеальной классификацией». [49]

Искривление времени

Мотивации

Иллюстрация мотивации деформации времени в смысле получения поперечного среднего значения.
Структуры в поперечном среднем разрушаются, если игнорировать изменение во времени. Напротив, структуры в поперечном среднем хорошо улавливаются после восстановления изменения во времени.

В дополнение к амплитудной вариации [50] можно также предположить, что в функциональных данных присутствует временная вариация. Временная вариация возникает, когда специфическое для субъекта время определенных событий, представляющих интерес, различается среди субъектов. Одним из классических примеров являются данные исследования роста в Беркли [51] , где амплитудная вариация является скоростью роста, а временная вариация объясняет разницу в биологическом возрасте детей, в котором произошел пубертатный и предпубертатный скачок роста. При наличии временной вариации средняя функция поперечного сечения может быть неэффективной оценкой, поскольку пики и спады расположены случайным образом, и, таким образом, значимые сигналы могут быть искажены или скрыты.

Временная деформация, также известная как регистрация кривой, [52] выравнивание кривой или временная синхронизация, направлена ​​на выявление и разделение амплитудной вариации и временной вариации. Если присутствуют как временная, так и амплитудная вариация, то наблюдаемые функциональные данные можно смоделировать как , где — скрытая функция амплитуды, а — скрытая функция временной деформации, которая соответствует кумулятивной функции распределения. Предполагается, что функции временной деформации обратимы и удовлетворяют .

Простейшим случаем семейства функций деформации для задания изменения фазы является линейное преобразование, то есть , которое деформирует время базовой шаблонной функции посредством специфичного для субъекта сдвига и масштаба. Более общий класс функций деформации включает диффеоморфизмы области в себя, то есть, грубо говоря, класс обратимых функций, которые отображают компактную область в себя таким образом, что и функция, и ее обратная функция являются гладкими. Набор линейных преобразований содержится в наборе диффеоморфизмов . [53] Одной из проблем при деформации времени является идентифицируемость изменения амплитуды и фазы. Для нарушения этой неидентифицируемости требуются определенные предположения.

Методы

Более ранние подходы включают динамическую временную деформацию (DTW), используемую для таких приложений, как распознавание речи . [54] Другим традиционным методом временной деформации является регистрация ориентиров, [55] [56] , которая выравнивает особые характеристики, такие как пиковые местоположения, со средним местоположением. Другие соответствующие методы деформации включают парную деформацию, [57] регистрацию с использованием расстояния [53] и эластичную деформацию. [58]

Динамическое искривление времени

Функция шаблона определяется с помощью итерационного процесса, начиная с поперечного среднего, выполняя регистрацию и пересчитывая поперечное среднее для искривленных кривых, ожидая сходимости после нескольких итераций. DTW минимизирует функцию стоимости с помощью динамического программирования. Проблемы негладких дифференцируемых искривлений или жадных вычислений в DTW могут быть решены путем добавления члена регуляризации к функции стоимости.

Регистрация достопримечательностей

Регистрация ориентиров (или выравнивание признаков) предполагает, что хорошо выраженные признаки присутствуют во всех выборочных кривых, и использует местоположение таких признаков в качестве золотого стандарта. Специальные признаки, такие как пиковые или впадинные положения в функциях или производных, выравниваются по их средним положениям на шаблонной функции. [53] Затем вводится функция деформации посредством плавного преобразования из среднего положения в положения, специфичные для субъекта. Проблема регистрации ориентиров заключается в том, что признаки могут отсутствовать или их трудно идентифицировать из-за шума в данных.

Расширения

До сих пор мы рассматривали скалярный стохастический процесс, определенный в одномерной временной области.

Многомерная область X ( ⋅ ) {\displaystyle X(\cdot )}

Область может быть в , например, данные могут быть выборкой случайных поверхностей. [59] [60]

Многомерный стохастический процесс

Диапазон значений стохастического процесса может быть расширен от [ 61] [62] [63] и далее до нелинейных многообразий, [64] гильбертовых пространств [65] и, в конечном итоге, до метрических пространств. [59]

Питонпакеты

Существуют пакеты Python для работы с функциональными данными и их представлением, выполнения исследовательского анализа или предварительной обработки, а также для выполнения других задач, таких как вывод, классификация, регрессия или кластеризация функциональных данных.

Рпакеты

Некоторые пакеты могут обрабатывать функциональные данные как в плотных, так и в продольных проектах.

Смотрите также

Дальнейшее чтение

Категория:Регрессионный анализ

Ссылки

  1. ^ Гренандер, У. (1950). «Стохастические процессы и статистический вывод». Архив для математики . 1 (3): 195–277. Бибкод : 1950АрМ.....1..195Г. дои : 10.1007/BF02590638 . S2CID  120451372.
  2. ^ Райс, JA; Сильверман, BW. (1991). «Непараметрическая оценка средней и ковариационной структуры, когда данные представляют собой кривые». Журнал Королевского статистического общества . 53 (1): 233–243. doi :10.1111/j.2517-6161.1991.tb01821.x.
  3. ^ Мюллер, Х. Г. (2016). «Питер Холл, функциональный анализ данных и случайные объекты». Annals of Statistics . 44 (5): 1867–1887. doi : 10.1214/16-AOS1492 .
  4. ^ Кархунен, К. (1946). Zur Spektraltheorie stochastischer Prozesse . Annales Academiae scientiarum Fennicae.
  5. ^ Клеффе, Дж. (1973). «Главные компоненты случайных величин со значениями в сепарабельном гильбертовом пространстве». Математические операции и статистика . 4 (5): 391–406. дои : 10.1080/02331887308801137.
  6. ^ Dauxois, J; Pousse, A; Romain, Y. (1982). «Асимптотическая теория для анализа главных компонент векторной случайной функции: некоторые приложения к статистическому выводу». Журнал многомерного анализа . 12 (1): 136–154. doi : 10.1016/0047-259X(82)90088-4 .
  7. ^ abcde Ramsay, J; Silverman, BW. (2005). Функциональный анализ данных, 2-е изд . Springer.
  8. ^ Хсинг, Т.; Юбэнк, Р. (2015). Теоретические основы функционального анализа данных с введением в линейные операторы . Ряды Уайли по вероятности и статистике.
  9. ^ Ши, М.; Вайс, Р. Э.; Тейлор, Дж. М. Г. (1996). «Анализ количества CD4 у детей при синдроме приобретенного иммунодефицита с использованием гибких случайных кривых». Журнал Королевского статистического общества. Серия C (Прикладная статистика) . 45 (2): 151–163.
  10. ^ Хильгерт, Н.; Мас, А.; Верзелен, Н. (2013). «Минимаксные адаптивные тесты для функциональной линейной модели». Annals of Statistics . 41 (2): 838–869. arXiv : 1206.1194 . doi : 10.1214/13-AOS1093. S2CID  13119710.
  11. ^ Конг, Д.; Сюэ, К.; Яо, Ф.; Чжан, Х. Х. (2016). «Частично функциональная линейная регрессия в больших измерениях». Biometrika . 103 (1): 147–159. doi :10.1093/biomet/asv062.
  12. ^ Хорват, Л.; Кокошка, П. (2012). Вывод для функциональных данных с приложениями . Springer Series in Statistics. Springer-Verlag.
  13. ^ abcd Ван, JL; Чиу, JM; Мюллер, HG. (2016). «Функциональный анализ данных». Annual Review of Statistics and Its Application . 3 (1): 257–295. Bibcode :2016AnRSA...3..257W. doi : 10.1146/annurev-statistics-041715-033624 . S2CID  13709250.
  14. ^ Ramsay, JO; Dalzell, CJ. (1991). «Некоторые инструменты для функционального анализа данных». Журнал Королевского статистического общества, Серия B (Методологическая) . 53 (3): 539–561. doi :10.1111/j.2517-6161.1991.tb01844.x. S2CID  118960346.
  15. ^ Malfait, N; Ramsay, JO. (2003). «Историческая функциональная линейная модель». Канадский журнал статистики . 31 (2): 115–128. doi :10.2307/3316063. JSTOR  3316063. S2CID  55092204.
  16. ^ Хе, Г; Мюллер, ХГ; Ванг, ДжЛ. (2003). «Функциональный канонический анализ для квадратично интегрируемых стохастических процессов». Журнал многомерного анализа . 85 (1): 54–77. doi :10.1016/S0047-259X(02)00056-8.
  17. ^ ab Яо, Ф.; Мюллер, Х. Г.; Ванг, Дж. Л. (2005). «Функциональный анализ данных для разреженных продольных данных». Журнал Американской статистической ассоциации . 100 (470): 577–590. doi :10.1198/016214504000001745. S2CID  1243975.
  18. ^ He, G; Müller, HG; Wang, JL; Yang, WJ. (2010). «Функциональная линейная регрессия с помощью канонического анализа». Журнал многомерного анализа . 16 (3): 705–729. arXiv : 1102.5212 . doi :10.3150/09-BEJ228. S2CID  17843044.
  19. ^ Фань, Дж.; Чжан, В. (1999). «Статистическая оценка в моделях с переменными коэффициентами». Анналы статистики . 27 (5): 1491–1518. doi : 10.1214/aos/1017939139 . S2CID  16758288.
  20. ^ Wu, CO; Yu, KF. (2002). «Непараметрические модели с переменными коэффициентами для анализа продольных данных». International Statistical Review . 70 (3): 373–393. doi :10.1111/j.1751-5823.2002.tb00176.x. S2CID  122007787.
  21. ^ Хуан, JZ; Ву, CO; Чжоу, L. (2002). «Модели с переменными коэффициентами и приближения базисных функций для анализа повторных измерений». Biometrika . 89 (1): 111–128. doi :10.1093/biomet/89.1.111.
  22. ^ Хуан, JZ; Ву, CO; Чжоу, L. (2004). «Оценка полиномиального сплайна и вывод для моделей с переменными коэффициентами с продольными данными». Statistica Sinica . 14 (3): 763–788.
  23. ^ Шентюрк, Д.; Мюллер, Х.Г. (2010). «Функциональные модели с переменными коэффициентами для продольных данных». Журнал Американской статистической ассоциации . 105 (491): 1256–1264. doi :10.1198/jasa.2010.tm09228. S2CID  14296231.
  24. ^ Эггермонт, ППБ; Юбанк, РЛ; ЛаРичча, ВН. (2010). «Скорости сходимости для сглаживающих сплайн-оценщиков в моделях с различными коэффициентами». Журнал статистического планирования и вывода . 140 (2): 369–381. doi :10.1016/j.jspi.2009.06.017.
  25. ^ ab Яо, Ф; Мюллер, ХГ. (2010). «Функциональная квадратичная регрессия». Biometrika . 97 (1):49–64.
  26. ^ Хорват, Л.; Ридер, Р. (2013). «Тест значимости в функциональной квадратичной регрессии». Бернулли . 19 (5A): 2120–2151. arXiv : 1105.0014 . doi : 10.3150/12-BEJ446 . S2CID  88512527.
  27. ^ Чен, Д.; Холл, П.; Мюллер Х.Г. (2011). «Модели функциональной регрессии с одним и несколькими индексами и непараметрической связью». Анналы статистики . 39 (3):1720–1747.
  28. ^ Цзян, CR; Ван JL. (2011). «Функциональные модели с одним индексом для продольных данных». Annals of Statistics . 39 (1):362–388.
  29. ^ Мюллер Х. Г.; Ву И.; Яо, Ф. (2013). «Непрерывно аддитивные модели для нелинейной функциональной регрессии». Biometrika . 100 (3): 607–622. doi :10.1093/biomet/ast004.{{cite journal}}: CS1 maint: multiple names: authors list (link)
  30. ^ Мюллер Х. Г.; Штадмюллер, У. (2005). «Обобщенные функциональные линейные модели». Анналы статистики . 33 (2): 774–805. arXiv : math/0505638 . doi :10.1214/009053604000001156.{{cite journal}}: CS1 maint: multiple names: authors list (link)
  31. ^ Chiou, JM; Li, PL. (2007). «Функциональная кластеризация и идентификация подструктур продольных данных». Журнал Королевского статистического общества, серия B (статистическая методология) . 69 (4): 679–699. doi : 10.1111/j.1467-9868.2007.00605.x . S2CID  120883171.
  32. ^ Банфилд, Дж. Д.; Рафтери, А. Э. (1993). «Гауссовская и негауссовская кластеризация на основе моделей». Биометрия . 49 (3): 803–821. doi :10.2307/2532201. JSTOR  2532201.
  33. ^ Джеймс, GM; Шугар, CA. (2003). «Кластеризация для редковыбранных функциональных данных». Журнал Американской статистической ассоциации . 98 (462): 397–408. doi :10.1198/016214503000189. S2CID  9487422.
  34. ^ Жак, Дж.; Преда, К. (2013). «Funclust: метод кластеризации кривых с использованием функциональной аппроксимации плотности случайных величин» (PDF) . Нейрокомпьютинг . 112 : 164–171. doi :10.1016/j.neucom.2012.11.042. S2CID  33591208.
  35. ^ Жак, Дж.; Преда, К. (2014). «Кластеризация на основе моделей для многомерных функциональных данных». Computational Statistics & Data Analysis . 71 (C): 92–106. doi :10.1016/j.csda.2012.12.004.
  36. ^ Коффи, Н.; Хайнд, Дж.; Холиан, Э. (2014). «Кластеризация продольных профилей с использованием P-сплайнов и моделей смешанных эффектов, применяемых к данным по экспрессии генов с течением времени». Computational Statistics & Data Analysis . 71 (C): 14–29. doi :10.1016/j.csda.2013.04.001.
  37. ^ Хайнцль, Ф.; Тутц, Г. (2014). «Кластеризация в линейно-смешанных моделях с групповым объединенным лассо-штрафом». Biometrical Journal . 56 (1): 44–68. doi :10.1002/bimj.201200111. PMID  24249100. S2CID  10969266.
  38. ^ Анджелини, К.; Кандитис, Д.Д.; Пенски, М. (2012). «Кластеризация данных микрочипов с течением времени с использованием функциональной байесовской модели бесконечной смеси». Журнал прикладной статистики . 39 (1): 129–149. Bibcode : 2012JApSt..39..129A. doi : 10.1080/02664763.2011.578620. S2CID  8902492.
  39. ^ Родригес, А.; Дансон, Д.Б.; Гельфанд, А.Е. (2009). «Байесовский непараметрический функциональный анализ данных через оценку плотности». Biometrika . 96 (1): 149–162. doi :10.1093/biomet/asn054. PMC 2650433 . PMID  19262739. 
  40. ^ Петроне, С.; Гуиндани, М.; Гельфанд, А.Е. (2009). «Гибридные модели смесей Дирихле для функциональных данных». Журнал Королевского статистического общества . 71 (4): 755–782. doi :10.1111/j.1467-9868.2009.00708.x. S2CID  18638091.
  41. ^ Хайнцль, Ф.; Тутц, Г. (2013). «Кластеризация в линейных смешанных моделях с приближенными смесями процессов Дирихле с использованием алгоритма EM» (PDF) . Статистическое моделирование . 13 (1): 41–67. doi :10.1177/1471082X12471372. S2CID  11448616.
  42. ^ Ленг, X; Мюллер, ХГ. (2006). «Классификация с использованием функционального анализа данных для временных данных экспрессии генов» (PDF) . Биоинформатика . 22 (1): 68–76. doi : 10.1093/bioinformatics/bti742 . PMID  16257986.
  43. ^ Джеймс, GM; Хасти, TJ. (2001). «Функциональный линейный дискриминантный анализ для нерегулярно выбранных кривых». Журнал Королевского статистического общества . 63 (3): 533–550. doi : 10.1111/1467-9868.00297 . S2CID  16050693.
  44. ^ Холл, П.; Поскитт, Д.С.; Преснелл, Б. (2001). «Функциональные данные — аналитический подход к различению сигналов». Technometrics . 43 (1): 1–9. doi :10.1198/00401700152404273. S2CID  21662019.
  45. ^ Феррати, Ф.; Вью, П. (2003). «Распознавание кривых: непараметрический функциональный подход». Computational Statistics & Data Analysis . 44 (1–2): 161–173. doi :10.1016/S0167-9473(03)00032-X.
  46. ^ Чанг, С; Чен, И; Огден, Р. Т. (2014). «Функциональная классификация данных: вейвлетный подход». Computational Statistics . 29 (6): 1497–1513. doi :10.1007/s00180-014-0503-4. PMC 11192549 . S2CID  120454400. 
  47. ^ Чжу, Х.; Браун, П. Дж.; Моррис, Дж. С. (2012). «Надежная классификация функциональных и количественных данных изображений с использованием функциональных смешанных моделей». Биометрия . 68 (4): 1260–1268. doi :10.1111/j.1541-0420.2012.01765.x. PMC 3443537. PMID  22670567 . 
  48. ^ Дай, X; Мюллер, Х. Г.; Яо, Ф. (2017). «Оптимальные байесовские классификаторы для функциональных данных и отношений плотности». Biometrika . 104 (3): 545–560. arXiv : 1605.03707 .
  49. ^ Делайгл, А.; Холл, П. (2012). «Достижение почти идеальной классификации функциональных данных». Журнал Королевского статистического общества. Серия B (Статистическая методология) . 74 (2): 267–286. doi : 10.1111/j.1467-9868.2011.01003.x . ISSN  1369-7412. S2CID  124261587.
  50. ^ Ван, Дж. Л.; Чиу, Дж. М.; Мюллер, Х. Г. (2016). «Функциональный анализ данных». Ежегодный обзор статистики и ее применение . 3 (1): 257–295. Bibcode : 2016AnRSA...3..257W. doi : 10.1146/annurev-statistics-041715-033624 . S2CID  13709250.
  51. ^ Гассер, Т.; Мюллер, Х.Г.; Колер, В.; Молинари, Л.; Прадер, А. (1984). «Непараметрический регрессионный анализ кривых роста». Анналы статистики . 12 (1): 210–229.
  52. ^ Ramsay, JO; Li, X. (1998). «Регистрация кривой». Журнал Королевского статистического общества, Серия B. 60 ( 2): 351–363. doi : 10.1111/1467-9868.00129 . S2CID  17175587.
  53. ^ abc Marron, JS; Ramsay, JO; Sangalli, LM; Srivastava, A (2015). «Функциональный анализ данных амплитуды и фазовой вариации». Статистическая наука . 30 (4): 468–484. arXiv : 1512.03216 . doi : 10.1214/15-STS524. S2CID  55849758.
  54. ^ Sakoe, H; Chiba, S. (1978). «Оптимизация алгоритма динамического программирования для распознавания устных слов». IEEE Transactions on Acoustics, Speech, and Signal Processing . 26 : 43–49. doi :10.1109/TASSP.1978.1163055. S2CID  17900407.
  55. ^ Кнайп, А.; Гассер, Т. (1992). «Статистические инструменты для анализа данных, представляющих выборку кривых». Annals of Statistics . 20 (3): 1266–1305. doi : 10.1214/aos/1176348769 .
  56. ^ Гассер, Т; Кнайп, А (1995). «Поиск структуры в выборке кривой». Журнал Американской статистической ассоциации . 90 (432): 1179–1188.
  57. ^ Тан, Р.; Мюллер, Х.Г. (2008). «Парная синхронизация кривых для функциональных данных». Biometrika . 95 (4): 875–889. doi :10.1093/biomet/asn047.
  58. ^ ab Anirudh, R; Turaga, P; Su, J; Srivastava, A (2015). «Эластичное функциональное кодирование человеческих действий: от векторных полей до скрытых переменных». Труды конференции IEEE по компьютерному зрению и распознаванию образов : 3147–3155.
  59. ^ ab Dubey, P; Müller, HG (2021). «Моделирование случайных объектов, изменяющихся во времени, и динамических сетей». Журнал Американской статистической ассоциации . 117 (540): 2252–2267. arXiv : 2104.04628 . doi : 10.1080/01621459.2021.1917416. S2CID  233210300.
  60. ^ Пиголи, Д.; Хаджипантелис, П.З.; Коулман, Дж.С.; Астон, Дж.А.Д. (2017). «Статистический анализ акустических фонетических данных: изучение различий между разговорными романскими языками». Журнал Королевского статистического общества. Серия C (Прикладная статистика) . 67 (5): 1130–1145.
  61. ^ Happ, C; Greven, S (2018). «Многомерный функциональный компонентный анализ данных, наблюдаемых в различных (размерных) областях». Журнал Американской статистической ассоциации . 113 (522): 649–659. arXiv : 1509.02029 . doi : 10.1080/01621459.2016.1273115. S2CID  88521295.
  62. ^ Chiou, JM; Yang, YF; Chen, YT (2014). «Многомерный функциональный главный компонентный анализ: подход к нормализации». Statistica Sinica . 24 : 1571–1596.
  63. ^ Кэрролл, К.; Мюллер, Х. Г.; Кнайп, А. (2021). «Кросс-компонентная регистрация для многомерных функциональных данных с применением к кривым роста». Биометрия . 77 (3): 839–851. arXiv : 1811.01429 . doi : 10.1111/biom.13340. S2CID  220687157.
  64. ^ Дай, X; Мюллер, HG (2018). «Анализ главных компонент для функциональных данных на римановых многообразиях и сферах». Анналы статистики . 46 (6B): 3334–3361. arXiv : 1705.06226 . doi : 10.1214/17-AOS1660. S2CID  13671221.
  65. ^ Чен, К; Деликадо, П; Мюллер, ХГ (2017). «Моделирование стохастических процессов со значениями функций с приложениями к динамике рождаемости». Журнал Королевского статистического общества. Серия B (Статистическая методология) . 79 (1): 177–196. doi :10.1111/rssb.12160. hdl : 2117/126653 . S2CID  13719492.