Части целого, несущие только относительную информацию
В статистике , композиционные данные — это количественные описания частей некоторого целого, передающие относительную информацию. Математически, композиционные данные представлены точками на симплексе . Измерения, включающие вероятности, пропорции, проценты и ppm, можно рассматривать как композиционные данные.
В общем, Джон Эйчисон определил композиционные данные как пропорции некоторого целого в 1982 году. [1] В частности, композиционная точка данных (или композиция для краткости) может быть представлена действительным вектором с положительными компонентами. Пространство выборки композиционных данных является симплексом:
Единственная информация дается соотношениями между компонентами, поэтому информация о составе сохраняется при умножении на любую положительную константу. Поэтому выборочное пространство композиционных данных всегда можно считать стандартным симплексом, т.е. . В этом контексте нормализация к стандартному симплексу называется замыканием и обозначается как :
где D — количество деталей (компонентов) и обозначает вектор-строку.
геометрия Эйтчисона
Симплексу можно придать структуру векторного пространства несколькими способами. Следующая структура векторного пространства называется геометрией Эйтчисона или симплексом Эйтчисона и имеет следующие операции:
Поскольку симплекс Эйтчисона образует конечномерное гильбертово пространство, в симплексе можно построить ортонормированные базисы. Любая композиция может быть разложена следующим образом
где образует ортонормированный базис в симплексе. [2] Значения являются (ортонормированными и декартовыми) координатами относительно данного базиса. Они называются изометрическими логарифмическими координатами .
Линейные преобразования
Есть три хорошо охарактеризованных изоморфизма , которые преобразуют симплекс Эйтчисона в реальное пространство. Все эти преобразования удовлетворяют линейности и, как указано ниже
Аддитивное логарифмическое преобразование отношения
Преобразование отношения аддитивного логарифма (alr) является изоморфизмом, где . Это задается формулой
Выбор компонента знаменателя произволен и может быть любым указанным компонентом. Это преобразование обычно используется в химии с измерениями, такими как pH. Кроме того, это преобразование чаще всего используется для полиномиальной логистической регрессии . Преобразование alr не является изометрией, что означает, что расстояния на преобразованных значениях не будут эквивалентны расстояниям на исходных составах в симплексе.
Преобразование центрального логарифмического отношения
Преобразование центрального логарифмического отношения (clr) является как изоморфизмом, так и изометрией, где
Где — геометрическое среднее от . Обратная функция этой функции также известна как функция softmax .
Изометрическое логарифмическое преобразование
Преобразование изометрического логарифмического отношения (ilr) является как изоморфизмом, так и изометрией, где
Существует несколько способов построения ортонормальных базисов, включая использование ортогонализации Грама–Шмидта или сингулярного разложения преобразованных данных clr. Другой альтернативой является построение логарифмических контрастов из разветвленного дерева. Если нам дано разветвленное дерево, мы можем построить базис из внутренних узлов дерева.
Каждый вектор в базисе будет определяться следующим образом
Элементы внутри каждого вектора задаются следующим образом:
где — соответствующее число подсказок в соответствующих поддеревьях, показанных на рисунке. Можно показать, что полученный базис является ортонормальным [3]
После того, как основа построена, преобразование ilr можно рассчитать следующим образом:
где каждый элемент в преобразованных данных ilr имеет следующую форму
где и — набор значений, соответствующих подсказкам в поддеревьях и
Примеры
В химии составы могут быть выражены как молярные концентрации каждого компонента. Поскольку сумма всех концентраций не определена, необходим весь состав частей D , который, таким образом, выражается как вектор молярных концентраций D. Эти составы могут быть переведены в весовые проценты путем умножения каждого компонента на соответствующую константу.
В демографии город может быть композиционной точкой данных в выборке городов; город, в котором 35% людей являются христианами, 55% - мусульманами, 6% - евреями, а оставшиеся 4% - другими, будет соответствовать четверке [0,35, 0,55, 0,06, 0,04]. Набор данных будет соответствовать списку городов.
В геологии горная порода, состоящая из различных минералов, может быть точкой данных о составе в образце горных пород; горная порода, в которой 10% составляет первый минерал, 30% — второй, а оставшиеся 60% — третий, будет соответствовать тройке [0,1, 0,3, 0,6]. Набор данных будет содержать одну такую тройку для каждой породы в образце горных пород.
В теории вероятности и статистики разбиение пространства выборки на непересекающиеся события описывается вероятностями, назначенными таким событиям. Вектор вероятностей D можно рассматривать как композицию частей D. Поскольку они складываются в единицу, одна вероятность может быть подавлена, и композиция полностью определена.
В хемометрике для классификации нефтяных масел. [4]
В опросе доли людей, положительно ответивших на некоторые различные пункты, могут быть выражены в процентах. Поскольку общая сумма определена как 100, композиционный вектор компонентов D может быть определен с использованием только компонентов D − 1, предполагая, что оставшийся компонент является процентом, необходимым для того, чтобы весь вектор составил 100.
^ Эйтчисон, Джон (1982). «Статистический анализ композиционных данных». Журнал Королевского статистического общества. Серия B (Методологическая) . 44 (2): 139–177. doi :10.1111/j.2517-6161.1982.tb01195.x.
^ Эгозку и др.
^ Эгоскью и Павловски-Глан, 2005 г.
^ Олеа, Рикардо А.; Мартин-Фернандес, Хосеп А.; Крэддок, Уильям Х. (2021). «Многомерная классификация нефтяных систем сырой нефти на юго-востоке Техаса, США, с использованием традиционного и композиционного анализа биомаркеров». В Advances in Compositional Data Analysis — Festschrift in honor of Vera-Pawlowsky-Glahn, Filzmoser, P., Hron, K., Palarea-Albaladejo, J., Martín-Fernández, JA, editors. Springer : 303−327.
Ссылки
Эйтчисон, Дж. (2011) [1986], Статистический анализ композиционных данных , Монографии по статистике и прикладной вероятности, Springer, ISBN 978-94-010-8324-9
ван ден Бугаарт, К. Джеральд; Толосана-Дельгадо, Раймон (2013), Анализ композиционных данных с помощью R, Springer, ISBN 978-3-642-36809-7
Эгоскуэ, Хуан Хосе; Павловский-Глан, Вера; Матеу-Фигерас, Глория; Барсело-Видаль, Карлес (2003), «Изометрические логарифмические преобразования для анализа композиционных данных», Mathematical Geology , 35 (3): 279–300, doi : 10.1023/A: 1023818214614, S2CID 122844634
Эгоскуэ, Хуан Хосе; Павловски-Глан, Вера (2005), «Группы частей и их балансы в композиционном анализе данных», Математическая геология , 37 (7): 795–828, Bibcode : 2005MatGe..37..795E, doi : 10.1007/s11004-005-7381-9, S2CID 53061345
Павловский-Глан, Вера ; Эгоскуэ, Хуан Хосе; Толосана-Дельгадо, Раймон (2015), Моделирование и анализ композиционных данных , Wiley, doi : 10.1002/9781119003144, ISBN 978-1-119-00314-4
Внешние ссылки
CoDaWeb – Сайт композиционных данных
Павловский-Глан, В.; Эгоскью, Джей Джей; Толосана-Дельгадо, Р. (2007). «Конспекты лекций по композиционному анализу данных». Университет Жироны . HDL : 10256/297 .
Почему и как геологи должны использовать композиционный анализ данных (wikibook)