Диаграмма рассеяния , также называемая диаграммой рассеяния , диаграммой рассеяния , диаграммой рассеяния , диаграммой рассеяния или диаграммой рассеяния , [3] представляет собой тип графика или математической диаграммы, использующей декартовы координаты для отображения значений обычно для двух переменных для набора данных. Если точки закодированы (цвет/форма/размер), может отображаться одна дополнительная переменная. Данные отображаются в виде набора точек, каждая из которых имеет значение одной переменной, определяющей положение на горизонтальной оси, и значение другой переменной, определяющей положение на вертикальной оси . [4]
Диаграмму рассеяния можно использовать либо в том случае, когда одна непрерывная переменная находится под контролем экспериментатора, а другая зависит от нее, либо когда обе непрерывные переменные независимы. Если существует параметр , который систематически увеличивается и/или уменьшается за счет другого, он называется параметром управления или независимой переменной и обычно отображается по горизонтальной оси. Измеряемая или зависимая переменная обычно отображается вдоль вертикальной оси. Если зависимой переменной не существует, любой тип переменной может быть нанесен на любую ось, а диаграмма рассеяния будет иллюстрировать только степень корреляции (не причинно-следственную связь ) между двумя переменными. [ нужна цитата ]
Диаграмма рассеяния может указывать на различные виды корреляций между переменными с определенным доверительным интервалом . Например, вес и рост будут находиться на оси Y , а рост — на оси X. Корреляции могут быть положительными (растущими), отрицательными (падающими) или нулевыми (некоррелированными). Если рисунок точек имеет наклон от нижнего левого угла к верхнему правому, это указывает на положительную корреляцию между изучаемыми переменными. Если рисунок точек имеет наклон от верхнего левого угла к нижнему правому, это указывает на отрицательную корреляцию. Линия наилучшего соответствия (также называемая «линией тренда») может быть проведена для изучения взаимосвязи между переменными. Уравнение корреляции между переменными можно определить с помощью установленных процедур наилучшего соответствия. Для линейной корреляции наиболее подходящая процедура известна как линейная регрессия и гарантированно генерирует правильное решение за конечное время. Никакая универсальная процедура наилучшего соответствия не может гарантировать правильное решение для произвольных отношений. Диаграмма рассеяния также очень полезна, когда мы хотим увидеть, как два сопоставимых набора данных согласуются, чтобы показать нелинейные связи между переменными. Возможность сделать это можно улучшить, добавив плавную линию, например LOESS . [5] Более того, если данные представлены в виде смешанной модели простых отношений, эти отношения будут визуально очевидны как наложенные шаблоны. [ нужна цитата ]
Диаграмма разброса — один из семи основных инструментов контроля качества . [6]
Точечные диаграммы могут быть построены в виде пузырьковых , маркерных и/или линейных диаграмм . [7]
Например, чтобы продемонстрировать связь между емкостью легких человека и тем, как долго этот человек может задерживать дыхание, исследователь должен выбрать группу людей для изучения, затем измерить емкость легких каждого из них (первая переменная) и то, как долго этот человек сможет задерживать дыхание. задержать дыхание (вторая переменная). Затем исследователь наносил данные на диаграмму рассеяния, откладывая «объем легких» по горизонтальной оси и «время задержки дыхания» по вертикальной оси. [ нужна цитата ]
Человек с объемом легких400 кл , которые затаили дыхание21,7 с будут представлены одной точкой на диаграмме рассеяния в точке (400, 21,7) в декартовых координатах . Диаграмма рассеяния всех людей, участвовавших в исследовании, позволит исследователю получить визуальное сравнение двух переменных в наборе данных и поможет определить, какого рода взаимосвязь может существовать между двумя переменными. [ нужна цитата ]
Для набора переменных данных (размерностей) X 1 , X 2 , ... , X k матрица диаграммы рассеяния показывает все попарные диаграммы рассеяния переменных в одном представлении с несколькими диаграммами рассеяния в матричном формате. Для k переменных матрица диаграммы рассеяния будет содержать k строк и k столбцов. График, расположенный на пересечении строки и j -го столбца, представляет собой график переменных X i в сравнении с X j . [8] Это означает, что каждая строка и столбец имеют одно измерение, а каждая ячейка отображает диаграмму рассеяния в двух измерениях. [ нужна цитата ]
Обобщенная матрица диаграммы рассеяния [9] предлагает ряд отображений парных комбинаций категориальных и количественных переменных. Мозаичный график , диаграмма колебаний или фасетная гистограмма могут использоваться для отображения двух категориальных переменных. Остальные графики используются для одной категориальной и одной количественной переменных.
Когда мы ищем взаимосвязь между двумя количественными переменными, часто помогает стандартный график доступных пар данных (X,Y), называемый диаграммой разброса ...