Диаграмма рассеяния

Время ожидания между извержениями и продолжительность извержения гейзера Old Faithful в Йеллоустонском национальном парке , Вайоминг , США. Эта диаграмма показывает, что в целом существует два типа извержений: короткое-ожидание-короткая-длительность и долгое-ожидание-длительная-длительность.

Диаграмма рассеяния , также называемая диаграммой рассеяния , графиком рассеяния , диаграммой рассеяния , диаграммой рассеяния или диаграммой рассеяния , ^[2] — это тип графика или математической диаграммы, использующей декартовы координаты для отображения значений, как правило, двух переменных для набора данных. Если точки закодированы (цвет/форма/размер), может быть отображена одна дополнительная переменная. Данные отображаются в виде набора точек, каждая из которых имеет значение одной переменной, определяющей положение на горизонтальной оси, и значение другой переменной, определяющей положение на вертикальной оси . ^[3]

Первое описание диаграммы рассеяния обычно приписывают Джону Гершелю (1792–1871). ^[4]^[5]

Обзор

Диаграмма рассеяния может использоваться либо когда одна непрерывная переменная находится под контролем экспериментатора, а другая зависит от нее, либо когда обе непрерывные переменные независимы. Если существует параметр , который систематически увеличивается и/или уменьшается другим, он называется контрольным параметром или независимой переменной и обычно наносится на горизонтальную ось. Измеряемая или зависимая переменная обычно наносится на вертикальную ось. Если зависимой переменной не существует, любой тип переменной может быть нанесен на любую из осей, и диаграмма рассеяния будет иллюстрировать только степень корреляции ( не причинно-следственной связи ) между двумя переменными. ^{[ необходима цитата ]}

Диаграмма рассеяния может предполагать различные виды корреляций между переменными с определенным доверительным интервалом . Например, вес и рост будут находиться на оси $Y$ , а рост будет находиться на оси $X.$ Корреляции могут быть положительными (растущими), отрицательными (падающими) или нулевыми (некоррелированными). Если рисунок точек наклонен от нижнего левого угла к верхнему правому, это указывает на положительную корреляцию между изучаемыми переменными. Если рисунок точек наклонен от верхнего левого угла к нижнему правому, это указывает на отрицательную корреляцию. Линию наилучшего соответствия (альтернативно называемую «линией тренда») можно нарисовать для изучения взаимосвязи между переменными. Уравнение для корреляции между переменными можно определить с помощью установленных процедур наилучшего соответствия. Для линейной корреляции процедура наилучшего соответствия известна как линейная регрессия и гарантированно генерирует правильное решение за конечное время. Ни одна универсальная процедура наилучшего соответствия не гарантирует генерации правильного решения для произвольных взаимосвязей. Диаграмма рассеяния также очень полезна, когда мы хотим увидеть, как два сопоставимых набора данных согласуются, чтобы показать нелинейные взаимосвязи между переменными. Возможность сделать это можно улучшить, добавив плавную линию, такую как LOESS . ^[6] Кроме того, если данные представлены смешанной моделью простых взаимосвязей, эти взаимосвязи будут визуально очевидны в виде наложенных друг на друга узоров. ^{[ необходима цитата ]}

Диаграмма рассеяния является одним из семи основных инструментов контроля качества . ^[7]

Диаграммы рассеяния могут быть построены в виде пузырьковых , маркерных и/или линейных диаграмм . ^[8]

Пример

Например, чтобы отобразить связь между объемом легких человека и тем, как долго этот человек может задерживать дыхание, исследователь выбирает группу людей для изучения, затем измеряет объем легких каждого из них (первая переменная) и то, как долго этот человек может задерживать дыхание (вторая переменная). Затем исследователь наносит данные на диаграмму рассеяния, присваивая «объем легких» горизонтальной оси, а «время задержки дыхания» — вертикальной оси. ^{[ необходима цитата ]}

Человек с объемом легких400 cl, которые затаили дыхание21,7 с будет представлено одной точкой на диаграмме рассеяния в точке (400, 21,7) в декартовых координатах . Диаграмма рассеяния всех людей в исследовании позволит исследователю получить визуальное сравнение двух переменных в наборе данных и поможет определить, какой тип связи может быть между двумя переменными. ^{[ необходима цитата ]}

Матрицы диаграмм рассеяния

Для набора переменных данных (измерений) X ₁ , X ₂ , ... , X _k матрица диаграммы рассеяния показывает все попарные диаграммы рассеяния переменных в одном представлении с несколькими диаграммами рассеяния в матричном формате. Для $k$ переменных матрица диаграммы рассеяния будет содержать $k$ строк и $k$ столбцов. График, расположенный на пересечении строки и $j-$ го столбца, является графиком переменных X _i в зависимости от X _j . ^[9] Это означает, что каждая строка и столбец представляют собой одно измерение, а каждая ячейка отображает диаграмму рассеяния двух измерений. ^{[ требуется ссылка ]}

Обобщенная матрица диаграммы рассеяния ^[10] предлагает ряд отображений парных комбинаций категориальных и количественных переменных. Мозаичный график , флуктуационная диаграмма или фасетная столбчатая диаграмма могут использоваться для отображения двух категориальных переменных. Другие графики используются для одной категориальной и одной количественной переменной.

Смотрите также

Ссылки

^ Визуализации, созданные с помощью VisIt на wci.llnl.gov. Последнее обновление: 8 ноября 2007 г.
^ Джаррелл, Стивен Б. (1994). Базовая статистика (специальное предпечатное издание). Дубьюк, Айова: Wm. C. Brown Pub. стр. 492. ISBN 978-0-697-21595-6. Когда мы ищем связь между двумя количественными переменными, стандартный график имеющихся пар данных (X,Y), называемый диаграммой рассеяния , часто помогает...
^ Уттс, Джессика М. Видение статистики , 3-е издание, Томсон Брукс/Коул, 2005, стр. 166-167. ISBN 0-534-39402-7
^ Френдли, Майкл; Денис, Дэн (2005). «Ранние истоки и развитие диаграммы рассеяния». Журнал истории поведенческих наук . 41 (2): 103–130. doi :10.1002/jhbs.20078. PMID 15812820.
^ https://www.datavis.ca/papers/friendly-scat.pdf ^{[ пустой URL PDF ]}
^ Кливленд, Уильям (1993). Визуализация данных . Мюррей Хилл, Нью-Джерси Саммит, Нью-Джерси: At & T Bell Laboratories Опубликовано Hobart Press. ISBN 978-0963488404.
^ Нэнси Р. Тейг (2004). "Семь основных инструментов качества". Набор инструментов качества . Милуоки, Висконсин : Американское общество качества . стр. 15. Получено 2010-02-05 .
^ "Scatter Chart – AnyChart JavaScript Chart Documentation". AnyChart. Архивировано из оригинала 1 февраля 2016 года . Получено 3 февраля 2016 года .
^ Матрица диаграммы рассеяния на itl.nist.gov.
^ Эмерсон, Джон В.; Грин, Уолтон А.; Шорке, Баррет; Кроули, Джейсон (2013). «Обобщенный парный график». Журнал вычислительной и графической статистики . 22 (1): 79–91. doi :10.1080/10618600.2012.694762. S2CID 28344569.

Дальнейшее чтение

Каттанео, Матиас Д.; Крамп, Ричард К.; Фаррелл, Макс Х.; Фэн, Инцзе (2024). «О мусорном ведре». American Economic Review . 114 (5): 1488–1514.

Внешние ссылки

Медиа, связанные с Scatterplots на Wikimedia Commons
Что такое диаграмма рассеивания? Архивировано 2020-08-07 в Wayback Machine
Матрица диаграммы рассеяния корреляции для упорядоченных категориальных данных – Пояснение и код R
Диаграмма рассеяния плотности для больших наборов данных (сотни миллионов точек)