Диаграмма рассеяния , также называемая диаграммой рассеяния , графиком рассеяния , диаграммой рассеяния , диаграммой рассеяния или диаграммой рассеяния , [2] — это тип графика или математической диаграммы, использующей декартовы координаты для отображения значений, как правило, двух переменных для набора данных. Если точки закодированы (цвет/форма/размер), может быть отображена одна дополнительная переменная. Данные отображаются в виде набора точек, каждая из которых имеет значение одной переменной, определяющей положение на горизонтальной оси, и значение другой переменной, определяющей положение на вертикальной оси . [3]
Первое описание диаграммы рассеяния обычно приписывают Джону Гершелю (1792–1871). [4] [5]
Диаграмма рассеяния может использоваться либо когда одна непрерывная переменная находится под контролем экспериментатора, а другая зависит от нее, либо когда обе непрерывные переменные независимы. Если существует параметр , который систематически увеличивается и/или уменьшается другим, он называется контрольным параметром или независимой переменной и обычно наносится на горизонтальную ось. Измеряемая или зависимая переменная обычно наносится на вертикальную ось. Если зависимой переменной не существует, любой тип переменной может быть нанесен на любую из осей, и диаграмма рассеяния будет иллюстрировать только степень корреляции ( не причинно-следственной связи ) между двумя переменными. [ необходима цитата ]
Диаграмма рассеяния может предполагать различные виды корреляций между переменными с определенным доверительным интервалом . Например, вес и рост будут находиться на оси Y , а рост будет находиться на оси X. Корреляции могут быть положительными (растущими), отрицательными (падающими) или нулевыми (некоррелированными). Если рисунок точек наклонен от нижнего левого угла к верхнему правому, это указывает на положительную корреляцию между изучаемыми переменными. Если рисунок точек наклонен от верхнего левого угла к нижнему правому, это указывает на отрицательную корреляцию. Линию наилучшего соответствия (альтернативно называемую «линией тренда») можно нарисовать для изучения взаимосвязи между переменными. Уравнение для корреляции между переменными можно определить с помощью установленных процедур наилучшего соответствия. Для линейной корреляции процедура наилучшего соответствия известна как линейная регрессия и гарантированно генерирует правильное решение за конечное время. Ни одна универсальная процедура наилучшего соответствия не гарантирует генерации правильного решения для произвольных взаимосвязей. Диаграмма рассеяния также очень полезна, когда мы хотим увидеть, как два сопоставимых набора данных согласуются, чтобы показать нелинейные взаимосвязи между переменными. Возможность сделать это можно улучшить, добавив плавную линию, такую как LOESS . [6] Кроме того, если данные представлены смешанной моделью простых взаимосвязей, эти взаимосвязи будут визуально очевидны в виде наложенных друг на друга узоров. [ необходима цитата ]
Диаграмма рассеяния является одним из семи основных инструментов контроля качества . [7]
Диаграммы рассеяния могут быть построены в виде пузырьковых , маркерных и/или линейных диаграмм . [8]
Например, чтобы отобразить связь между объемом легких человека и тем, как долго этот человек может задерживать дыхание, исследователь выбирает группу людей для изучения, затем измеряет объем легких каждого из них (первая переменная) и то, как долго этот человек может задерживать дыхание (вторая переменная). Затем исследователь наносит данные на диаграмму рассеяния, присваивая «объем легких» горизонтальной оси, а «время задержки дыхания» — вертикальной оси. [ необходима цитата ]
Человек с объемом легких400 cl, которые затаили дыхание21,7 с будет представлено одной точкой на диаграмме рассеяния в точке (400, 21,7) в декартовых координатах . Диаграмма рассеяния всех людей в исследовании позволит исследователю получить визуальное сравнение двух переменных в наборе данных и поможет определить, какой тип связи может быть между двумя переменными. [ необходима цитата ]
Для набора переменных данных (измерений) X 1 , X 2 , ... , X k матрица диаграммы рассеяния показывает все попарные диаграммы рассеяния переменных в одном представлении с несколькими диаграммами рассеяния в матричном формате. Для k переменных матрица диаграммы рассеяния будет содержать k строк и k столбцов. График, расположенный на пересечении строки и j- го столбца, является графиком переменных X i в зависимости от X j . [9] Это означает, что каждая строка и столбец представляют собой одно измерение, а каждая ячейка отображает диаграмму рассеяния двух измерений. [ требуется ссылка ]
Обобщенная матрица диаграммы рассеяния [10] предлагает ряд отображений парных комбинаций категориальных и количественных переменных. Мозаичный график , флуктуационная диаграмма или фасетная столбчатая диаграмма могут использоваться для отображения двух категориальных переменных. Другие графики используются для одной категориальной и одной количественной переменной.
Когда мы ищем связь между двумя количественными переменными, стандартный график имеющихся пар данных (X,Y), называемый диаграммой рассеяния , часто помогает...