Линейный дискриминантный анализ ( LDA ), нормальный дискриминантный анализ ( NDA ) или анализ дискриминантной функции — это обобщение линейного дискриминанта Фишера , метода, используемого в статистике и других областях для нахождения линейной комбинации признаков, характеризующей или разделяющей два или более классов объектов или событий. Полученная комбинация может использоваться в качестве линейного классификатора или, что более распространено, для снижения размерности перед последующей классификацией .
LDA тесно связан с дисперсионным анализом (ANOVA) и регрессионным анализом , которые также пытаются выразить одну зависимую переменную как линейную комбинацию других признаков или измерений. [2] [3] Однако ANOVA использует категориальные независимые переменные и непрерывную зависимую переменную , тогда как дискриминантный анализ имеет непрерывные независимые переменные и категориальную зависимую переменную ( т. е. метку класса). [4] Логистическая регрессия и пробит-регрессия больше похожи на LDA, чем ANOVA, поскольку они также объясняют категориальную переменную значениями непрерывных независимых переменных. Эти другие методы предпочтительны в приложениях, где неразумно предполагать, что независимые переменные распределены нормально, что является фундаментальным предположением метода LDA.
LDA также тесно связан с анализом главных компонент (PCA) и факторным анализом , поскольку они оба ищут линейные комбинации переменных, которые наилучшим образом объясняют данные. [5] LDA явно пытается моделировать разницу между классами данных. PCA, напротив, не учитывает никаких различий в классе, а факторный анализ строит комбинации признаков на основе различий, а не сходств. Дискриминантный анализ также отличается от факторного анализа тем, что он не является методом взаимозависимости: необходимо проводить различие между независимыми переменными и зависимыми переменными (также называемыми критериальными переменными).
LDA работает, когда измерения, сделанные на независимых переменных для каждого наблюдения, являются непрерывными величинами. При работе с категориальными независимыми переменными эквивалентным методом является дискриминантный анализ соответствий. [6] [7]
Дискриминантный анализ используется, когда группы известны априори (в отличие от кластерного анализа ). Каждый случай должен иметь оценку по одному или нескольким количественным предикторным показателям и оценку по групповому показателю. [8] Проще говоря, анализ дискриминантной функции — это классификация — процесс распределения вещей по группам, классам или категориям одного типа.
Первоначальный дихотомический дискриминантный анализ был разработан сэром Рональдом Фишером в 1936 году. [9] Он отличается от ANOVA или MANOVA , которые используются для прогнозирования одной (ANOVA) или нескольких (MANOVA) непрерывных зависимых переменных по одной или нескольким независимым категориальным переменным. Анализ дискриминантной функции полезен для определения того, эффективен ли набор переменных для прогнозирования принадлежности к категории. [10]
Рассмотрим набор наблюдений (также называемых признаками, атрибутами, переменными или измерениями) для каждого образца объекта или события с известным классом . Этот набор образцов называется обучающим набором в контексте контролируемого обучения . Проблема классификации заключается в том, чтобы найти хороший предиктор для класса любого образца того же распределения (не обязательно из обучающего набора), учитывая только наблюдение . [11] : 338
LDA подходит к проблеме, предполагая, что функции плотности условной вероятности и являются нормальным распределением со средним значением и параметрами ковариации и , соответственно. При этом предположении оптимальное по Байесу решение заключается в прогнозировании точек как принадлежащих второму классу, если логарифм отношений правдоподобия больше некоторого порогового значения T, так что:
Без каких-либо дополнительных предположений полученный классификатор называется квадратичным дискриминантным анализом (QDA).
Вместо этого LDA делает дополнительное упрощающее предположение о гомоскедастичности ( т.е. что ковариации классов идентичны, поэтому ) и что ковариации имеют полный ранг. В этом случае несколько членов отменяются:
и вышеуказанный критерий решения становится порогом для скалярного произведения
для некоторой пороговой константы c , где
Это означает, что критерий принадлежности входных данных к классу является исключительно функцией этой линейной комбинации известных наблюдений.
Часто бывает полезно рассмотреть этот вывод в геометрических терминах: критерий принадлежности входа классу является чисто функцией проекции точки многомерного пространства на вектор (таким образом, мы рассматриваем только его направление). Другими словами, наблюдение принадлежит , если соответствующее находится на определенной стороне гиперплоскости, перпендикулярной . Местоположение плоскости определяется порогом .
Предположения дискриминантного анализа те же, что и для MANOVA. Анализ довольно чувствителен к выбросам, и размер наименьшей группы должен быть больше, чем количество предикторных переменных. [8]
Было высказано предположение, что дискриминантный анализ относительно устойчив к небольшим нарушениям этих предположений [12] , а также было показано, что дискриминантный анализ может быть надежным при использовании дихотомических переменных (где многомерная нормальность часто нарушается) [13] .
Дискриминантный анализ работает путем создания одной или нескольких линейных комбинаций предикторов, создавая новую скрытую переменную для каждой функции. Эти функции называются дискриминантными функциями. Количество возможных функций равно либо где = количеству групп, либо (количеству предикторов), в зависимости от того, что меньше. Первая созданная функция максимизирует различия между группами по этой функции. Вторая функция максимизирует различия по этой функции, но также не должна коррелировать с предыдущей функцией. Это продолжается с последующими функциями с требованием, чтобы новая функция не коррелировала ни с одной из предыдущих функций.
Для данной группы с наборами выборочного пространства существует дискриминантное правило, такое, что если , то . Дискриминантный анализ затем находит «хорошие» регионы для минимизации ошибки классификации, что приводит к высокому проценту правильной классификации в таблице классификации. [14]
Каждой функции присваивается дискриминантный балл [ необходимо разъяснение ], чтобы определить, насколько хорошо она предсказывает размещение в группе.
Собственное значение в дискриминантном анализе — это характеристический корень каждой функции. [ необходимо пояснение ] Это показатель того, насколько хорошо эта функция дифференцирует группы, где чем больше собственное значение, тем лучше дифференцирует функция. [8] Однако это следует интерпретировать с осторожностью, поскольку собственные значения не имеют верхнего предела. [10] [8] Собственное значение можно рассматривать как отношение SS между и SS внутри, как в ANOVA, когда зависимая переменная — это дискриминантная функция, а группы — это уровни IV [ необходимо пояснение ] . [10] Это означает, что наибольшее собственное значение связано с первой функцией, второе по величине — со второй и т. д.
Некоторые предлагают использовать собственные значения в качестве мер размера эффекта , однако, как правило, это не поддерживается. [10] Вместо этого каноническая корреляция является предпочтительной мерой размера эффекта. Она похожа на собственное значение, но является квадратным корнем из отношения SS между и SS total . Это корреляция между группами и функцией. [10] Другой популярной мерой размера эффекта является процент дисперсии [ необходимо разъяснение ] для каждой функции. Он рассчитывается по формуле: ( λ x /Σλ i ) X 100, где λ x — собственное значение для функции, а Σ λ i — сумма всех собственных значений. Это говорит нам о том, насколько сильным является прогноз для этой конкретной функции по сравнению с другими. [10] Процент правильно классифицированных также можно анализировать как размер эффекта. Значение каппы может описывать это, корректируя случайное согласие. [10] Каппа нормализует все категории, а не смещается из-за значительно хороших или плохих классов. [ необходимо разъяснение ] [17]
Канонический дискриминантный анализ (CDA) находит оси ( k − 1 канонических координат , где k — число классов), которые наилучшим образом разделяют категории. Эти линейные функции некоррелированы и определяют, по сути, оптимальное k − 1 пространство через n -мерное облако данных, которое наилучшим образом разделяет (проекции в этом пространстве) k групп. Подробности см. в разделе «Multiclass LDA» ниже.
Термины «линейный дискриминант Фишера» и LDA часто используются как взаимозаменяемые, хотя в оригинальной статье Фишера [2] на самом деле описывается несколько иной дискриминант, который не делает некоторых предположений LDA, таких как нормально распределенные классы или равные ковариации классов .
Предположим, что два класса наблюдений имеют средние значения и ковариации . Тогда линейная комбинация признаков будет иметь средние значения и дисперсии для . Фишер определил разделение между этими двумя распределениями как отношение дисперсии между классами к дисперсии внутри классов:
Эта мера, в некотором смысле, является мерой отношения сигнал/шум для маркировки классов. Можно показать, что максимальное разделение происходит, когда
Если предположения LDA выполнены, то приведенное выше уравнение эквивалентно LDA.
Обязательно обратите внимание, что вектор является нормалью к дискриминантной гиперплоскости . Например, в двумерной задаче линия, которая наилучшим образом разделяет две группы, перпендикулярна .
Обычно точки данных, которые необходимо различить, проецируются на ; затем порог, который наилучшим образом разделяет данные, выбирается из анализа одномерного распределения. Общего правила для порога не существует. Однако, если проекции точек из обоих классов демонстрируют приблизительно одинаковые распределения, хорошим выбором будет гиперплоскость между проекциями двух средних значений и . В этом случае параметр c в пороговом условии можно найти явно:
Метод Оцу связан с линейным дискриминантом Фишера и был создан для бинаризации гистограммы пикселей на изображении в градациях серого путем оптимального выбора порога черного/белого цвета, который минимизирует внутриклассовую дисперсию и максимизирует межклассовую дисперсию внутри/между градациями серого, назначенными классам черных и белых пикселей.
В случае, когда имеется более двух классов, анализ, используемый при выводе дискриминанта Фишера, может быть расширен для поиска подпространства , которое, по-видимому, содержит всю изменчивость класса. [18] Это обобщение принадлежит CR Rao . [19] Предположим, что каждый из классов C имеет среднее значение и одинаковую ковариацию . Тогда разброс между изменчивостью класса может быть определен выборочной ковариацией средних значений класса.
где - среднее значение средних значений класса. Разделение классов в направлении в этом случае будет определяться как
Это означает, что когда собственный вектор разделения будет равен соответствующему собственному значению .
Если диагонализуемо, изменчивость между признаками будет содержаться в подпространстве, охватываемом собственными векторами, соответствующими C − 1 наибольшим собственным значениям (поскольку имеет ранг C − 1 максимум). Эти собственные векторы в основном используются при редукции признаков, как в PCA. Собственные векторы, соответствующие меньшим собственным значениям, будут, как правило, очень чувствительны к точному выбору обучающих данных, и часто необходимо использовать регуляризацию, как описано в следующем разделе.
Если требуется классификация, вместо уменьшения размерности , существует ряд альтернативных методов. Например, классы могут быть разделены, и стандартный дискриминант Фишера или LDA используется для классификации каждого раздела. Типичным примером этого является «один против остальных», когда точки из одного класса помещаются в одну группу, а все остальное — в другую, а затем применяется LDA. Это приведет к C классификаторам, результаты которых объединяются. Другим распространенным методом является парная классификация, когда новый классификатор создается для каждой пары классов (что дает C ( C − 1)/2 классификаторов в общей сложности), а отдельные классификаторы объединяются для получения окончательной классификации.
Типичная реализация метода LDA требует, чтобы все образцы были доступны заранее. Однако существуют ситуации, когда весь набор данных недоступен, а входные данные наблюдаются как поток. В этом случае желательно, чтобы извлечение признаков LDA имело возможность обновлять вычисленные признаки LDA путем наблюдения за новыми образцами без запуска алгоритма на всем наборе данных. Например, во многих приложениях реального времени, таких как мобильная робототехника или онлайн-распознавание лиц, важно обновлять извлеченные признаки LDA, как только становятся доступны новые наблюдения. Метод извлечения признаков LDA, который может обновлять признаки LDA путем простого наблюдения за новыми образцами, является инкрементальным алгоритмом LDA , и эта идея широко изучалась в течение последних двух десятилетий. [20] Чаттерджи и Ройчоудхури предложили инкрементальный самоорганизующийся алгоритм LDA для обновления признаков LDA. [21] В другой работе Демир и Озмехмет предложили алгоритмы локального обучения онлайн для обновления признаков LDA пошагово с использованием исправления ошибок и правил обучения Хебба. [22] Позднее Алияри и др. вывели быстрые инкрементные алгоритмы для обновления характеристик LDA путем наблюдения за новыми образцами. [20]
На практике средние значения классов и ковариации неизвестны. Однако их можно оценить по обучающему набору. Вместо точного значения в приведенных выше уравнениях можно использовать либо оценку максимального правдоподобия , либо максимальную апостериорную оценку. Хотя оценки ковариации можно считать оптимальными в некотором смысле, это не означает, что полученный дискриминант, полученный путем подстановки этих значений, является оптимальным в каком-либо смысле, даже если предположение о нормально распределенных классах верно.
Другое осложнение при применении LDA и дискриминанта Фишера к реальным данным возникает, когда количество измерений каждой выборки (т. е. размерность каждого вектора данных) превышает количество выборок в каждом классе. [5] В этом случае оценки ковариации не имеют полного ранга и поэтому не могут быть инвертированы. Есть несколько способов справиться с этим. Один из них — использовать псевдообратную матрицу вместо обычной обратной матрицы в приведенных выше формулах. Однако лучшей числовой устойчивости можно достичь, сначала спроецировав задачу на подпространство, охватываемое . [23] Другая стратегия работы с малым размером выборки — использовать оценку сжатия матрицы ковариации, которая может быть выражена математически как
где — единичная матрица, а — интенсивность сжатия или параметр регуляризации . Это приводит к структуре регуляризованного дискриминантного анализа [24] или дискриминантного анализа сжатия. [25]
Кроме того, во многих практических случаях линейные дискриминанты не подходят. LDA и дискриминант Фишера могут быть расширены для использования в нелинейной классификации с помощью трюка ядра . Здесь исходные наблюдения эффективно отображаются в нелинейном пространстве более высокой размерности. Линейная классификация в этом нелинейном пространстве тогда эквивалентна нелинейной классификации в исходном пространстве. Наиболее часто используемым примером этого является дискриминант ядра Фишера .
LDA можно обобщить до множественного дискриминантного анализа , где c становится категориальной переменной с N возможными состояниями вместо только двух. Аналогично, если условные плотности классов являются нормальными с общими ковариациями, достаточной статистикой для являются значения N проекций, которые являются подпространством , охватываемым N средними, аффинно спроектированными обратной ковариационной матрицей. Эти проекции можно найти, решив обобщенную задачу собственных значений , где числитель — это ковариационная матрица, сформированная путем обработки средних значений как выборок, а знаменатель — общая ковариационная матрица. Подробности см. в разделе «Multiclass LDA» выше.
Помимо примеров, приведенных ниже, LDA применяется в позиционировании и управлении продуктом .
В прогнозировании банкротства на основе бухгалтерских коэффициентов и других финансовых переменных линейный дискриминантный анализ был первым статистическим методом, примененным для систематического объяснения того, какие фирмы вступили в банкротство, а какие выжили. Несмотря на ограничения, включая известное несоответствие бухгалтерских коэффициентов предположениям о нормальном распределении LDA, модель Эдварда Альтмана 1968 года [26] по-прежнему является ведущей моделью в практических приложениях. [27] [28] [29]
В компьютерном распознавании лиц каждое лицо представлено большим количеством значений пикселей. Линейный дискриминантный анализ в первую очередь используется здесь для сокращения количества признаков до более управляемого числа перед классификацией. Каждое из новых измерений представляет собой линейную комбинацию значений пикселей, которые образуют шаблон. Линейные комбинации, полученные с использованием линейного дискриминанта Фишера, называются лицами Фишера , в то время как те, которые получены с использованием связанного анализа главных компонент, называются собственными лицами .
В маркетинге дискриминантный анализ когда-то часто использовался для определения факторов, которые отличают разные типы клиентов и/или продукты на основе опросов или других форм собранных данных. Логистическая регрессия или другие методы теперь используются чаще. Использование дискриминантного анализа в маркетинге можно описать следующими шагами:
Основное применение дискриминантного анализа в медицине — оценка тяжести состояния пациента и прогнозирование исхода заболевания. Например, при ретроспективном анализе пациенты делятся на группы в зависимости от тяжести заболевания — легкая, средняя и тяжелая форма. Затем изучаются результаты клинических и лабораторных анализов для выявления статистически различных переменных в этих группах. Используя эти переменные, строятся дискриминантные функции для классификации тяжести заболевания у будущих пациентов. Кроме того, линейный дискриминантный анализ (ЛДА) может помочь выбрать более дискриминантные образцы для дополнения данных, улучшая производительность классификации. [30]
В биологии аналогичные принципы используются для классификации и определения групп различных биологических объектов, например, для определения типов фагов Salmonella enteritidis на основе инфракрасных спектров с Фурье-преобразованием [31] , для выявления животного происхождения Escherichia coli путем изучения факторов ее вирулентности [32] и т. д.
Этот метод может быть использован для разделения зон изменений [ необходимо уточнение ] . Например, когда доступны разные данные из разных зон, дискриминантный анализ может найти закономерность в данных и эффективно ее классифицировать. [33]
Анализ дискриминантной функции очень похож на логистическую регрессию , и оба могут быть использованы для ответа на одни и те же исследовательские вопросы. [10] Логистическая регрессия не имеет столько предположений и ограничений, как дискриминантный анализ. Однако, когда предположения дискриминантного анализа выполняются, он более мощный, чем логистическая регрессия. [34] В отличие от логистической регрессии, дискриминантный анализ может быть использован с небольшими размерами выборки. Было показано, что когда размеры выборки равны и сохраняется однородность дисперсии/ковариации, дискриминантный анализ более точен. [8] Несмотря на все эти преимущества, логистическая регрессия, тем не менее, стала общим выбором, поскольку предположения дискриминантного анализа редко выполняются. [9] [8]
Геометрические аномалии в более высоких измерениях приводят к хорошо известному проклятию размерности . Тем не менее, правильное использование явлений концентрации меры может облегчить вычисления. [35] Важный случай этих явлений благословения размерности был выделен Донохо и Таннером: если выборка по существу высокоразмерная, то каждая точка может быть отделена от остальной части выборки линейным неравенством с высокой вероятностью, даже для экспоненциально больших выборок. [36] Эти линейные неравенства могут быть выбраны в стандартной (Фишера) форме линейного дискриминанта для богатого семейства распределений вероятностей. [37] В частности, такие теоремы доказаны для логарифмически вогнутых распределений, включая многомерное нормальное распределение (доказательство основано на неравенствах концентрации для логарифмически вогнутых мер [38] ) и для мер произведения на многомерном кубе (это доказано с использованием неравенства концентрации Талаграна для пространств вероятностей произведения). Разделимость данных классическими линейными дискриминантами упрощает проблему исправления ошибок для систем искусственного интеллекта в высокой размерности. [39]
{{cite book}}
: CS1 maint: date and year (link)