Квартет Энскомба

Квартет Энскомба состоит из четырех наборов данных , которые имеют почти идентичную простую описательную статистику , но при этом имеют очень разные распределения и выглядят очень по-разному при графическом отображении . Каждый набор данных состоит из одиннадцати точек ( x , y ) . Они были построены в 1973 году статистиком Фрэнсисом Энскомбом, чтобы продемонстрировать как важность графического представления данных при их анализе, так и влияние выбросов и других влиятельных наблюдений на статистические свойства. Он описал статью как направленную на то, чтобы опровергнуть впечатление среди статистиков о том, что «численные расчеты точны, но графики грубы». ^[1]

Данные

Для всех четырех наборов данных:

Первая диаграмма рассеяния (вверху слева) по-видимому, представляет собой простую линейную зависимость , соответствующую двум коррелированным переменным , где y можно смоделировать как гауссову функцию со средним значением, линейно зависящим от x .
Для второго графика (справа вверху), хотя связь между двумя переменными очевидна, она не линейна, и коэффициент корреляции Пирсона не имеет значения. Более общая регрессия и соответствующий коэффициент детерминации были бы более подходящими.
На третьем графике (внизу слева) смоделированная связь линейна, но должна иметь другую линию регрессии ( требовалась бы надежная регрессия ). Рассчитанная регрессия компенсируется одним выбросом , который оказывает достаточное влияние, чтобы снизить коэффициент корреляции с 1 до 0,816.
Наконец, четвертый график (внизу справа) демонстрирует пример, когда одной точки с высоким кредитным плечом достаточно для получения высокого коэффициента корреляции, даже если другие точки данных не указывают на какую-либо связь между переменными.

Квартет по-прежнему часто используется для иллюстрации важности графического представления набора данных перед началом анализа в соответствии с определенным типом взаимосвязи, а также неадекватности базовых статистических свойств для описания реалистичных наборов данных. ^[2]^[3]^[4]^[5]^[6]

Наборы данных следующие. Значения x одинаковы для первых трех наборов данных. ^[1]

Неизвестно, как Энскомб создал свои наборы данных. ^[7] После его публикации было разработано несколько методов для создания похожих наборов данных с одинаковой статистикой и разной графикой. ^[7]^[8] Один из них, дюжина Datasaurus , состоит из точек, очерчивающих контур динозавра, плюс двенадцать других наборов данных, которые имеют такую же сводную статистику. ^[9]^[10]^[11]

Смотрите также

Ссылки

^ ab Anscombe, FJ (1973). «Графики в статистическом анализе». American Statistician . 27 (1): 17–21. doi :10.1080/00031305.1973.10478966. JSTOR 2682899.
^ Элерт, Гленн (2021). «Линейная регрессия». Гипертекстовая книга по физике .
^ Джанерт, Филипп К. (2010). Анализ данных с помощью инструментов с открытым исходным кодом. O'Reilly Media . С. 65–66. ISBN 978-0-596-80235-6.
^ Чаттерджи, Самприт; Хади, Али С. (2006). Регрессионный анализ на примере . John Wiley and Sons. стр. 91. ISBN 0-471-74696-7.
^ Сэвилл, Дэвид Дж.; Вуд, Грэм Р. (1991). Статистические методы: геометрический подход . Springer . стр. 418. ISBN 0-387-97517-9.
^ Тафти, Эдвард Р. (2001). Визуальное отображение количественной информации (2-е изд.). Чешир, Коннектикут: Graphics Press. ISBN 0-9613921-4-2.
^ ab Chatterjee, Sangit; Firat, Aykut (2007). «Создание данных с идентичными статистическими данными, но разнородной графикой: продолжение набора данных Anscombe». The American Statistician . 61 (3): 248–254. doi :10.1198/000313007X220057. JSTOR 27643902. S2CID 121163371.
^ Матейка, Джастин; Фицморис, Джордж (2017). «Одна и та же статистика, разные графики: создание наборов данных с различным внешним видом и идентичными статистиками с помощью имитации отжига». Труды конференции CHI 2017 года по человеческому фактору в вычислительных системах . стр. 1290–1294. doi :10.1145/3025453.3025912. ISBN 9781450346559. S2CID 9247543.
^ Матейка, Джастин; Фицморис, Джордж (2017). «Одна и та же статистика, разные графики: создание наборов данных с различным внешним видом и идентичными статистическими данными с помощью имитации отжига». Autodesk Research . Архивировано из оригинала 2020-10-04 . Получено 2021-04-20 .
^ Мюррей, Лори Л.; Уилсон, Джон Г. (апрель 2021 г.). «Создание наборов данных для обучения важности регрессионного анализа». Журнал инновационного образования Decision Sciences . 19 (2): 157–166. doi :10.1111/dsji.12233. ISSN 1540-4595. S2CID 233609149.
^ Андриенко, Наталья ; Андриенко, Геннадий; Фукс, Георг; Слингсби, Айдан; Туркай, Кагатай; Вробель, Стефан (2020), «Визуальная аналитика для исследования и обработки данных», Visual Analytics for Data Scientists , Cham: Springer International Publishing, стр. 151–180, doi : 10.1007/978-3-030-56146-8_5, ISBN 978-3-030-56145-1, S2CID 226648414 , получено 2021-04-20 .

Внешние ссылки

Физический факультет, Университет Торонто
Динамический апплет, созданный в GeoGebra, отображающий данные и статистику, а также позволяющий перетаскивать точки (Набор 5).
Анимированные примеры от Autodesk под названием «Datasaurus Dozen».
Документация по наборам данных в R.