stringtranslate.com

Данные о составе

В статистике , композиционные данные — это количественные описания частей некоторого целого, передающие относительную информацию. Математически, композиционные данные представлены точками на симплексе . Измерения, включающие вероятности, пропорции, проценты и ppm, можно рассматривать как композиционные данные.

Тройной участок

Композиционные данные по трем переменным можно отобразить с помощью тернарных графиков . Использование барицентрического графика по трем переменным графически отображает отношения трех переменных как позиции в равностороннем треугольнике .

Симплициальное пространство выборки

В общем, Джон Эйчисон определил композиционные данные как пропорции некоторого целого в 1982 году. [1] В частности, композиционная точка данных (или композиция для краткости) может быть представлена ​​действительным вектором с положительными компонентами. Пространство выборки композиционных данных является симплексом:

Иллюстрация симплекса Эйтчисона. Здесь есть 3 части, представляющие значения различных пропорций. A, B, C, D и E — это 5 различных композиций внутри симплекса. A, B и C эквивалентны, а D и E эквивалентны.

Единственная информация дается соотношениями между компонентами, поэтому информация о составе сохраняется при умножении на любую положительную константу. Поэтому выборочное пространство композиционных данных всегда можно считать стандартным симплексом, т.е. . В этом контексте нормализация к стандартному симплексу называется замыканием и обозначается как :

где D — количество деталей (компонентов) и обозначает вектор-строку.

геометрия Эйтчисона

Симплексу можно придать структуру векторного пространства несколькими способами. Следующая структура векторного пространства называется геометрией Эйтчисона или симплексом Эйтчисона и имеет следующие операции:

Возмущение (векторное сложение)
Возведение в степень (скалярное умножение)
Внутренний продукт

Наделенный этими операциями, симплекс Эйтчисона образует -мерное евклидово пространство внутреннего произведения . Однородная композиция — нулевой вектор .

Ортонормированные базисы

Поскольку симплекс Эйтчисона образует конечномерное гильбертово пространство, в симплексе можно построить ортонормированные базисы. Любая композиция может быть разложена следующим образом

где образует ортонормированный базис в симплексе. [2] Значения являются (ортонормированными и декартовыми) координатами относительно данного базиса. Они называются изометрическими логарифмическими координатами .

Линейные преобразования

Есть три хорошо охарактеризованных изоморфизма , которые преобразуют симплекс Эйтчисона в реальное пространство. Все эти преобразования удовлетворяют линейности и, как указано ниже

Аддитивное логарифмическое преобразование отношения

Преобразование отношения аддитивного логарифма (alr) является изоморфизмом, где . Это задается формулой

Выбор компонента знаменателя произволен и может быть любым указанным компонентом. Это преобразование обычно используется в химии с измерениями, такими как pH. Кроме того, это преобразование чаще всего используется для полиномиальной логистической регрессии . Преобразование alr не является изометрией, что означает, что расстояния на преобразованных значениях не будут эквивалентны расстояниям на исходных составах в симплексе.

Преобразование центрального логарифмического отношения

Преобразование центрального логарифмического отношения (clr) является как изоморфизмом, так и изометрией, где

Где — геометрическое среднее от . Обратная функция этой функции также известна как функция softmax .

Изометрическое логарифмическое преобразование

Преобразование изометрического логарифмического отношения (ilr) является как изоморфизмом, так и изометрией, где

Существует несколько способов построения ортонормальных базисов, включая использование ортогонализации Грама–Шмидта или сингулярного разложения преобразованных данных clr. Другой альтернативой является построение логарифмических контрастов из разветвленного дерева. Если нам дано разветвленное дерево, мы можем построить базис из внутренних узлов дерева.

Представление дерева в терминах его ортогональных компонентов. l представляет внутренний узел, элемент ортонормированного базиса. Это предшественник использования дерева в качестве каркаса для преобразования ilr

Каждый вектор в базисе будет определяться следующим образом

Элементы внутри каждого вектора задаются следующим образом:

где — соответствующее число подсказок в соответствующих поддеревьях, показанных на рисунке. Можно показать, что полученный базис является ортонормальным [3]

После того, как основа построена, преобразование ilr можно рассчитать следующим образом:

где каждый элемент в преобразованных данных ilr имеет следующую форму

где и — набор значений, соответствующих подсказкам в поддеревьях и

Примеры

Смотрите также

Примечания

  1. ^ Эйтчисон, Джон (1982). «Статистический анализ композиционных данных». Журнал Королевского статистического общества. Серия B (Методологическая) . 44 (2): 139–177. doi :10.1111/j.2517-6161.1982.tb01195.x.
  2. ^ Эгозку и др.
  3. ^ Эгоскью и Павловски-Глан, 2005 г.
  4. ^ Олеа, Рикардо А.; Мартин-Фернандес, Хосеп А.; Крэддок, Уильям Х. (2021). «Многомерная классификация нефтяных систем сырой нефти на юго-востоке Техаса, США, с использованием традиционного и композиционного анализа биомаркеров». В Advances in Compositional Data Analysis — Festschrift in honor of Vera-Pawlowsky-Glahn, Filzmoser, P., Hron, K., Palarea-Albaladejo, J., Martín-Fernández, JA, editors. Springer : 303−327.

Ссылки

Внешние ссылки