Четыре набора данных с одинаковой описательной статистикой, но очень разными распределениями
Квартет Энскомба состоит из четырех наборов данных , которые имеют почти идентичную простую описательную статистику , но при этом имеют очень разные распределения и выглядят очень по-разному при графическом отображении . Каждый набор данных состоит из одиннадцати точек ( x , y ) . Они были построены в 1973 году статистиком Фрэнсисом Энскомбом, чтобы продемонстрировать как важность графического представления данных при их анализе, так и влияние выбросов и других влиятельных наблюдений на статистические свойства. Он описал статью как направленную на то, чтобы опровергнуть впечатление среди статистиков о том, что «численные расчеты точны, но графики грубы». [1]
Данные
Для всех четырех наборов данных:
Первая диаграмма рассеяния (вверху слева) представляет собой простую линейную зависимость , соответствующую двум коррелированным переменным , где y можно смоделировать как гауссову функцию со средним значением, линейно зависящим от x .
Для второго графика (справа вверху), хотя связь между двумя переменными очевидна, она нелинейна, и коэффициент корреляции Пирсона не имеет значения. Более общая регрессия и соответствующий коэффициент детерминации были бы более подходящими.
Наконец, четвертый график (внизу справа) демонстрирует пример, когда одной точки с высоким кредитным плечом достаточно для получения высокого коэффициента корреляции, даже если другие точки данных не указывают на какую-либо связь между переменными.
Квартет по-прежнему часто используется для иллюстрации важности графического представления набора данных перед началом анализа в соответствии с определенным типом взаимосвязи, а также неадекватности базовых статистических свойств для описания реалистичных наборов данных. [2] [3] [4] [5] [6]
Наборы данных следующие. Значения x одинаковы для первых трех наборов данных. [1]
Неизвестно, как Энскомб создал свои наборы данных. [7] После его публикации было разработано несколько методов для создания похожих наборов данных с одинаковой статистикой и разной графикой. [7] [8]
Один из них, дюжина Datasaurus , состоит из точек, очерчивающих контур динозавра, плюс двенадцать других наборов данных, которые имеют такую же сводную статистику. [9] [10] [11]
^ ab Anscombe, FJ (1973). «Графики в статистическом анализе». American Statistician . 27 (1): 17–21. doi :10.1080/00031305.1973.10478966. JSTOR 2682899.
^ Элерт, Гленн (2021). «Линейная регрессия». The Physics Hypertextbook . Архивировано из оригинала 2020-10-01 . Получено 2017-02-23 .
^ Джанерт, Филипп К. (2010). Анализ данных с помощью инструментов с открытым исходным кодом. O'Reilly Media . С. 65–66. ISBN978-0-596-80235-6.
^ Чаттерджи, Самприт; Хади, Али С. (2006). Регрессионный анализ на примере . John Wiley and Sons. стр. 91. ISBN0-471-74696-7.
^ Сэвилл, Дэвид Дж.; Вуд, Грэм Р. (1991). Статистические методы: геометрический подход . Springer . стр. 418. ISBN0-387-97517-9.
^ Тафти, Эдвард Р. (2001). Визуальное отображение количественной информации (2-е изд.). Чешир, Коннектикут: Graphics Press. ISBN0-9613921-4-2.
^ ab Chatterjee, Sangit; Firat, Aykut (2007). «Создание данных с идентичными статистическими данными, но разнородной графикой: продолжение набора данных Anscombe». The American Statistician . 61 (3): 248–254. doi :10.1198/000313007X220057. JSTOR 27643902. S2CID 121163371.
^ Матейка, Джастин; Фицморис, Джордж (2017). «Одна и та же статистика, разные графики: создание наборов данных с различным внешним видом и идентичными статистическими данными с помощью имитации отжига». Труды конференции CHI 2017 года по человеческому фактору в вычислительных системах . стр. 1290–1294. doi :10.1145/3025453.3025912. ISBN9781450346559. S2CID 9247543.
^ Матейка, Джастин; Фицморис, Джордж (2017). «Одна и та же статистика, разные графики: создание наборов данных с различным внешним видом и идентичными статистическими данными с помощью имитации отжига». Autodesk Research . Архивировано из оригинала 2020-10-04 . Получено 2021-04-20 .
^ Мюррей, Лори Л.; Уилсон, Джон Г. (апрель 2021 г.). «Создание наборов данных для обучения важности регрессионного анализа». Журнал инновационного образования Decision Sciences . 19 (2): 157–166. doi :10.1111/dsji.12233. ISSN 1540-4595. S2CID 233609149. Архивировано из оригинала 23.04.2021 . Получено 20.04.2021 .
^ Андриенко, Наталья ; Андриенко, Геннадий; Фукс, Георг; Слингсби, Айдан; Туркай, Кагатай; Вробель, Стефан (2020), «Визуальная аналитика для исследования и обработки данных», Visual Analytics for Data Scientists , Cham: Springer International Publishing, стр. 151–180, doi : 10.1007/978-3-030-56146-8_5, ISBN978-3-030-56145-1, S2CID 226648414, заархивировано из оригинала 2024-10-03 , извлечено 2021-04-20 .
Внешние ссылки
Физический факультет, Университет Торонто
Динамический апплет, созданный в GeoGebra, отображающий данные и статистику, а также позволяющий перетаскивать точки (Набор 5).
Анимированные примеры от Autodesk под названием «Datasaurus Dozen».