stringtranslate.com

Квартет Энскомба

Четыре набора данных, составляющие квартет Энскомба. Все четыре набора имеют идентичные статистические параметры, но графики показывают, что они существенно различаются

Квартет Энскомба состоит из четырех наборов данных , которые имеют почти идентичную простую описательную статистику , но при этом имеют очень разные распределения и выглядят очень по-разному при графическом отображении . Каждый набор данных состоит из одиннадцати точек ( xy ) . Они были построены в 1973 году статистиком Фрэнсисом Энскомбом, чтобы продемонстрировать как важность графического представления данных при их анализе, так и влияние выбросов и других влиятельных наблюдений на статистические свойства. Он описал статью как направленную на то, чтобы опровергнуть впечатление среди статистиков о том, что «численные расчеты точны, но графики грубы». [1]

Данные

Для всех четырех наборов данных:

Квартет по-прежнему часто используется для иллюстрации важности графического представления набора данных перед началом анализа в соответствии с определенным типом взаимосвязи, а также неадекватности базовых статистических свойств для описания реалистичных наборов данных. [2] [3] [4] [5] [6]

Наборы данных следующие. Значения x одинаковы для первых трех наборов данных. [1]

Неизвестно, как Энскомб создал свои наборы данных. [7] После его публикации было разработано несколько методов для создания похожих наборов данных с одинаковой статистикой и разной графикой. [7] [8] Один из них, дюжина Datasaurus , состоит из точек, очерчивающих контур динозавра, плюс двенадцать других наборов данных, которые имеют такую ​​же сводную статистику. [9] [10] [11]

Смотрите также


Ссылки

  1. ^ ab Anscombe, FJ (1973). «Графики в статистическом анализе». American Statistician . 27 (1): 17–21. doi :10.1080/00031305.1973.10478966. JSTOR  2682899.
  2. ^ Элерт, Гленн (2021). «Линейная регрессия». Гипертекстовая книга по физике .
  3. ^ Джанерт, Филипп К. (2010). Анализ данных с помощью инструментов с открытым исходным кодом. O'Reilly Media . С. 65–66. ISBN 978-0-596-80235-6.
  4. ^ Чаттерджи, Самприт; Хади, Али С. (2006). Регрессионный анализ на примере . John Wiley and Sons. стр. 91. ISBN 0-471-74696-7.
  5. ^ Сэвилл, Дэвид Дж.; Вуд, Грэм Р. (1991). Статистические методы: геометрический подход . Springer . стр. 418. ISBN 0-387-97517-9.
  6. ^ Тафти, Эдвард Р. (2001). Визуальное отображение количественной информации (2-е изд.). Чешир, Коннектикут: Graphics Press. ISBN 0-9613921-4-2.
  7. ^ ab Chatterjee, Sangit; Firat, Aykut (2007). «Создание данных с идентичными статистическими данными, но разнородной графикой: продолжение набора данных Anscombe». The American Statistician . 61 (3): 248–254. doi :10.1198/000313007X220057. JSTOR  27643902. S2CID  121163371.
  8. ^ Матейка, Джастин; Фицморис, Джордж (2017). «Одна и та же статистика, разные графики: создание наборов данных с различным внешним видом и идентичными статистиками с помощью имитации отжига». Труды конференции CHI 2017 года по человеческому фактору в вычислительных системах . стр. 1290–1294. doi :10.1145/3025453.3025912. ISBN 9781450346559. S2CID  9247543.
  9. ^ Матейка, Джастин; Фицморис, Джордж (2017). «Одна и та же статистика, разные графики: создание наборов данных с различным внешним видом и идентичными статистическими данными с помощью имитации отжига». Autodesk Research . Архивировано из оригинала 2020-10-04 . Получено 2021-04-20 .
  10. ^ Мюррей, Лори Л.; Уилсон, Джон Г. (апрель 2021 г.). «Создание наборов данных для обучения важности регрессионного анализа». Журнал инновационного образования Decision Sciences . 19 (2): 157–166. doi :10.1111/dsji.12233. ISSN  1540-4595. S2CID  233609149.
  11. ^ Андриенко, Наталья ; Андриенко, Геннадий; Фукс, Георг; Слингсби, Айдан; Туркай, Кагатай; Вробель, Стефан (2020), «Визуальная аналитика для исследования и обработки данных», Visual Analytics for Data Scientists , Cham: Springer International Publishing, стр. 151–180, doi : 10.1007/978-3-030-56146-8_5, ISBN 978-3-030-56145-1, S2CID  226648414 , получено 2021-04-20 .

Внешние ссылки