stringtranslate.com

Параллельные координаты

Параллельные координаты
Ggobi-flea2
Параллельный координатный график данных по блохам в GGobi .

Графики параллельных координат являются распространенным методом визуализации многомерных наборов данных для анализа многомерных данных, имеющих несколько переменных или атрибутов.

Для построения или визуализации набора точек в n -мерном пространстве n параллельных линий рисуются на фоне, представляющем оси координат , обычно ориентированные вертикально с равным интервалом. Точки в n -мерном пространстве представляются в виде отдельных полилиний с n вершинами, размещенными на параллельных осях, соответствующих каждому входу координат n -мерной точки, вершины соединяются с n-1 сегментами полилинии.

Эта визуализация данных похожа на визуализацию временных рядов , за исключением того, что параллельные координаты применяются к данным, которые не соответствуют хронологическому времени. Поэтому могут быть интересны различные расположения осей, включая отражение осей по горизонтали, в противном случае инвертирование диапазона атрибутов.

История

Часто говорят, что концепция параллельных координат возникла в 1885 году благодаря французскому математику Филберту Морису д'Оканю . [1] д'Оканю удалось найти способ графического вычисления математических функций с использованием диаграмм выравнивания, называемых номограммами , которые использовали параллельные оси с различными масштабами. Например, уравнение с тремя переменными можно было решить с помощью трех параллельных осей, отметив известные значения на их шкалах, а затем проведя линию между ними, с неизвестным считыванием со шкалы в точке, где линия пересекает эту шкалу.

Использование параллельных координат в качестве метода визуализации для представления данных также часто приписывают Генри Ганнетту , который ввел его в работу, предшествовавшую Статистическому атласу Соединенных Штатов для переписи 1890 года, например, в его «Общем резюме, показывающем ранг штатов по коэффициентам, 1880» [2] , где ранг 10 показателей (население, профессии, богатство, производство, сельское хозяйство и т. д.) показан на параллельных осях, соединенных линиями для каждого штата.

Однако и д'Оканю, и Ганне в этом отношении намного опередил Андре-Мишель Герри , [3] Таблица IV, «Влияние возраста», где он показал рейтинги преступлений против лиц по возрасту вдоль параллельных осей, связывая одно и то же преступление по возрастным группам. [4]

Параллельные координаты были снова популяризированы 87 лет спустя Альфредом Инсельбергом [5] в 1985 году и систематически развивались как система координат, начиная с 1977 года. Некоторые важные приложения находятся в алгоритмах предотвращения столкновений для управления воздушным движением (1987 г. — 3 патента США), интеллектуальном анализе данных (патент США), компьютерном зрении (патент США), оптимизации, управлении процессами , а в последнее время — в обнаружении вторжений и в других местах.

Более высокие измерения

На плоскости с декартовой системой координат XY добавление дополнительных измерений в параллельных координатах (часто сокращенно ||-координатах, PCP или PC) подразумевает добавление дополнительных осей. Ценность параллельных координат заключается в том, что определенные геометрические свойства в высоких измерениях преобразуются в легко различимые двумерные узоры. Например, набор точек на линии в n -пространстве преобразуется в набор полилиний в параллельных координатах, пересекающихся в n  − 1 точках. Для n = 2 это дает двойственность точка-линия, указывающую, почему математические основы параллельных координат разрабатываются в проективном, а не в евклидовом пространстве. Пара линий пересекается в уникальной точке, которая имеет две координаты и, следовательно, может соответствовать уникальной линии, которая также задается двумя параметрами (или двумя точками). Напротив, для задания кривой требуется более двух точек, и также пара кривых может не иметь уникального пересечения. Следовательно, при использовании кривых в параллельных координатах вместо прямых теряется двойственность точек и линий вместе со всеми другими свойствами проективной геометрии и известными красивыми многомерными узорами, соответствующими (гипер)плоскостям, кривым, нескольким гладким (гипер)поверхностям, близостям, выпуклости и недавно неориентируемости. [6] Цель состоит в том, чтобы отобразить n-мерные отношения в двумерные узоры. Следовательно, параллельные координаты — это не отображение точка-точка, а скорее отображение подмножества n D в подмножество 2D, потери информации нет. Примечание: даже точка в nD не отображается в точку в 2D, а в многоугольную линию — подмножество 2D.

Статистические соображения

Репрезентативная выборка для параллельных координат.

При использовании для визуализации статистических данных необходимо учитывать три важных фактора: порядок, поворот и масштабирование осей.

Порядок осей имеет решающее значение для поиска признаков, и в типичном анализе данных необходимо будет попробовать много переупорядочений. Некоторые авторы придумали эвристики упорядочивания, которые могут создавать проясняющие упорядочения. [7]

Вращение осей является переносом в параллельных координатах, и если линии пересекаются вне параллельных осей, то их можно переносить между ними с помощью вращений. Простейшим примером этого является поворот оси на 180 градусов. [8]

Масштабирование необходимо, поскольку график основан на интерполяции (линейной комбинации) последовательных пар переменных. [8] Поэтому переменные должны иметь общий масштаб, и существует множество методов масштабирования, которые следует рассматривать как часть процесса подготовки данных, что может раскрыть более информативные представления.

Гладкий параллельный координатный график достигается с помощью сплайнов. [9] В гладком графике каждое наблюдение отображается в параметрическую линию (или кривую), которая является гладкой, непрерывной на осях и ортогональной каждой параллельной оси. Такая конструкция подчеркивает уровень квантования для каждого атрибута данных. [8]

Чтение

Инзельберг (Inselberg 1997) сделал полный обзор того, как визуально считывать реляционные паттерны параллельных координат. [10] Когда большинство линий между двумя параллельными осями в некоторой степени параллельны друг другу, это предполагает положительную связь между этими двумя измерениями. Когда линии пересекаются в своего рода суперпозиции X-образных фигур, это отрицательная связь. Когда линии пересекаются случайным образом или параллельны, это показывает, что особой связи нет.

Ограничения

В параллельных координатах каждая ось может иметь не более двух соседних осей (одну слева и одну справа). Для n -мерного набора данных не более n -1 связей могут быть показаны одновременно без изменения подхода. В визуализации временных рядов существует естественный предшественник и последователь; поэтому в этом особом случае существует предпочтительное расположение. Однако, когда оси не имеют уникального порядка, поиск хорошего расположения осей требует использования экспериментов и проектирования признаков. Чтобы исследовать больше связей, оси могут быть переупорядочены или реструктурированы.

Один из подходов размещает оси в трехмерном пространстве (все еще параллельно, образуя решетчатый граф ), ось может иметь более двух соседей по окружности вокруг центрального атрибута, и проблема размещения может быть улучшена с помощью минимального остовного дерева . [11] Прототип этой визуализации доступен как расширение для программного обеспечения для интеллектуального анализа данных ELKI . Однако визуализацию сложнее интерпретировать и взаимодействовать с ней, чем с линейным порядком.

Программное обеспечение

Хотя существует большое количество статей о параллельных координатах, существует лишь несколько заметных программных обеспечений, доступных для преобразования баз данных в графику параллельных координат. [12] Известными программными обеспечениями являются ELKI , GGobi , Mondrian , Orange и ROOT . Библиотеки включают Protovis.js , D3.js предоставляет базовые примеры. Также была опубликована D3.Parcoords.js (библиотека на основе D3), специально предназначенная для создания графики параллельных координат. Библиотека анализа и структуры данных Python Pandas реализует построение графиков параллельных координат с использованием библиотеки построения графиков matplotlib . [13]

Другие визуализации для многомерных данных

Ссылки

  1. ^ Окань, М. (1885). Параллельные и осевые координаты: метод геометрического преобразования и новый процесс графического расчета, вытекающий из рассмотрения параллельных координат. Готье-Виллар. archive.org
  2. ^ Ганнетт, Генри. «Общее резюме, показывающее ранг штатов по коэффициентам 1880». {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  3. ^ Герри, А.-М. (1833). Essai sur la Statistique Morale de la France. Париж: Крошар.
  4. ^ Friendly, M. (2022). Жизнь и творчество Андре-Мишеля Герри, пересмотр. Sociological Spectrum, 42(4-6), 233–259. https://doi.org/10.1080/02732173.2022.2078450
  5. ^ Инсельберг, Альфред (1985). «Плоскость с параллельными координатами». Visual Computer . 1 (4): 69–91. doi :10.1007/BF01898350. S2CID  15933827.
  6. ^ Инсельберг, Альфред (2009). Параллельные координаты: ВИЗУАЛЬНАЯ многомерная геометрия и ее приложения . Springer. ISBN 978-0387215075.
  7. ^ Ян, Цзин; Пэн, Вэй; Уорд, Мэтью О.; Рунденштайнер, Элке А. (2003). «Интерактивное иерархическое упорядочение измерений, интервалы и фильтрация для исследования многомерных наборов данных» (PDF) . Симпозиум IEEE по визуализации информации (INFOVIS 2003) : 3–4.
  8. ^ abc Moustafa, Rida; Wegman, Edward J. (2006). «Многомерные непрерывные данные – параллельные координаты». В Unwin, A.; Theus, M.; Hofmann, H. (ред.). Графика больших наборов данных: визуализация миллиона . Springer. стр. 143–156. ISBN 978-0387329062.
  9. ^ Мустафа, Рида; Вегман, Эдвард Дж. (2002). "О некоторых обобщениях параллельных координатных диаграмм" (PDF) . Seeing a Million, A Data Visualization Workshop, Rain Am Lech (Nr.), Германия . Архивировано из оригинала (PDF) 24.12.2013.
  10. ^ Инсельберг, А. (1997), «Многомерный детектив», Визуализация информации, 1997. Труды., Симпозиум IEEE по , стр. 100–107, CiteSeerX 10.1.1.457.3745 , doi :10.1109/INFVIS.1997.636793, ISBN  0-8186-8189-6, S2CID  1823293
  11. ^ Элке Ахтерт, Ханс-Петер Кригель , Эрих Шуберт, Артур Зимек (2013). «Интерактивный анализ данных с использованием 3D-параллельных-координатных-деревьев». Труды Международной конференции ACM SIGMOD 2013 года по управлению данными . Нью-Йорк, штат Нью-Йорк. С. 1009–1012. doi :10.1145/2463676.2463696. ISBN 9781450320375. S2CID  14850709.{{cite book}}: CS1 maint: дата и год ( ссылка ) CS1 maint: местоположение отсутствует издатель ( ссылка ) CS1 maint: несколько имен: список авторов ( ссылка )
  12. ^ Косара, Роберт (2010). «Параллельные координаты».
  13. ^ Параллельные координаты в Pandas

Дальнейшее чтение

Внешние ссылки