В статистике разведочный анализ данных (EDA) — это подход к анализу наборов данных для обобщения их основных характеристик, часто с использованием статистической графики и других методов визуализации данных . Статистическая модель может использоваться или нет, но в первую очередь EDA предназначен для того, чтобы увидеть, что данные могут нам рассказать за пределами формального моделирования, и тем самым противопоставляется традиционной проверке гипотез. Исследовательский анализ данных пропагандировался Джоном Тьюки с 1970 года, чтобы побудить статистиков исследовать данные и, возможно, формулировать гипотезы, которые могли бы привести к новому сбору данных и экспериментам. EDA отличается от первоначального анализа данных (IDA) , [1] [2] , который более узко фокусируется на проверке предположений, необходимых для подгонки модели и проверки гипотез, а также на обработке пропущенных значений и выполнении преобразований переменных по мере необходимости. EDA охватывает IDA.
Обзор
В 1961 году Тьюки определил анализ данных как: «Процедуры анализа данных, методы интерпретации результатов таких процедур, способы планирования сбора данных для того, чтобы сделать их анализ более простым, точным или более аккуратным, а также весь аппарат и результаты (математической) статистики, которые применяются к анализу данных». [3]
Исследовательский анализ данных — это метод анализа для анализа и исследования набора данных и обобщения основных характеристик набора данных. Главным преимуществом EDA является предоставление визуализации данных после проведения анализа.
Поддержка Тьюки EDA способствовала разработке статистических вычислительных пакетов, особенно S в Bell Labs . [4] Язык программирования S вдохновил на создание систем S-PLUS и R. Это семейство статистических вычислительных сред отличалось значительно улучшенными возможностями динамической визуализации, что позволяло статистикам выявлять выбросы , тенденции и закономерности в данных, заслуживающие дальнейшего изучения.
Исследовательский анализ данных, надежная статистика, непараметрическая статистика и разработка статистических языков программирования облегчили работу статистиков над научными и инженерными проблемами. К таким проблемам относились изготовление полупроводников и понимание сетей связи, что касалось Bell Labs. Эти статистические разработки, все из которых отстаивал Тьюки, были разработаны для дополнения аналитической теории проверки статистических гипотез , в частности акцента лапласовской традиции на экспоненциальных семействах . [5]
Разработка
Джон В. Тьюки написал книгу «Исследовательский анализ данных» в 1977 году. [6] Тьюки считал, что в статистике слишком много внимания уделяется проверке статистических гипотез (анализ подтверждающих данных); больше внимания необходимо уделять использованию данных для выдвижения гипотез для проверки. В частности, он считал, что смешение двух типов анализов и применение их к одному и тому же набору данных может привести к систематической предвзятости из-за проблем, присущих проверке гипотез, предложенных данными .
Поддерживать выбор соответствующих статистических инструментов и методов
Обеспечить основу для дальнейшего сбора данных посредством опросов или экспериментов [7]
Многие методы EDA были приняты в области добычи данных . Они также преподаются молодым студентам как способ познакомить их со статистическим мышлением. [8]
Методы и инструменты
Существует ряд инструментов, полезных для EDA, но EDA характеризуется скорее принятым отношением, чем конкретными методами. [9]
Артур Лайон Боули использовал предшественников стемплота и пятизначного резюме (Боули на самом деле использовал « семизначное резюме », включая крайние значения, децили и квартили , а также медиану — см. его Elementary Manual of Statistics (3-е изд., 1920), стр. 62 [11] — он определяет «максимум и минимум, медиану, квартили и два дециля» как «семь позиций»).
Результаты EDA ортогональны основной аналитической задаче. Для иллюстрации рассмотрим пример из работы Кука и др., где аналитическая задача заключается в поиске переменных, которые наилучшим образом предсказывают чаевые, которые обедающая компания даст официанту. [12] Переменные, доступные в данных, собранных для этой задачи, следующие: сумма чаевых, общий счет, пол плательщика, секция для курящих/некурящих, время дня, день недели и размер группы. Основная аналитическая задача решается путем подгонки регрессионной модели, где ставка чаевых является переменной отклика. Подогнанная модель
(ставка чаевых) = 0,18 - 0,01 × (размер группы)
что означает, что по мере увеличения количества гостей на одного человека (что приводит к увеличению счета) размер чаевых в среднем уменьшается на 1%.
Однако изучение данных выявляет и другие интересные особенности, не описанные этой моделью.
Гистограмма сумм чаевых, где ячейки охватывают приращения в $1. Распределение значений смещено вправо и является унимодальным, как это часто бывает в распределениях малых неотрицательных величин.
Гистограмма сумм чаевых, где ячейки охватывают прибавки в $0,10. Наблюдается интересное явление: пики возникают на суммах в целый доллар и полдоллара, что вызвано тем, что клиенты выбирают круглые числа в качестве чаевых. Такое поведение характерно и для других типов покупок, например, бензина.
Диаграмма рассеивания чаевых и счета. Точки под линией соответствуют чаевым, которые ниже ожидаемых (для этой суммы счета), а точки над линией — выше ожидаемых. Мы могли бы ожидать увидеть тесную, положительную линейную связь, но вместо этого видим вариацию, которая увеличивается с размером чаевых . В частности, в правом нижнем углу больше точек, далеких от линии, чем в левом верхнем углу, что указывает на то, что больше клиентов очень бережливы, чем очень щедры.
Диаграмма рассеивания чаевых и счета, разделенная по полу плательщика и статусу курящего отделения. Курящие вечеринки имеют гораздо большую вариативность в чаевых, которые они дают. Мужчины, как правило, платят (немногие) более высокие счета, а некурящие женщины, как правило, очень последовательны в чаевых (с тремя заметными исключениями, показанными в выборке).
То, что извлекается из графиков, отличается от того, что иллюстрирует регрессионная модель, хотя эксперимент не был разработан для исследования какой-либо из этих других тенденций. Закономерности, обнаруженные при изучении данных, предполагают гипотезы о чаевых, которые, возможно, не были предусмотрены заранее, и которые могут привести к интересным последующим экспериментам, в которых гипотезы формально излагаются и проверяются путем сбора новых данных.
Python — язык программирования с открытым исходным кодом, широко используемый в области интеллектуального анализа данных и машинного обучения.
R — язык программирования с открытым исходным кодом для статистических вычислений и графики. Вместе с Python один из самых популярных языков для науки о данных.
TinkerPlots — программное обеспечение EDA для учащихся старших классов начальной и средней школы.
Weka — это пакет для интеллектуального анализа данных с открытым исходным кодом, включающий инструменты визуализации и автоматизированного проектирования (EDA), такие как целенаправленное проецирование .
^ Чатфилд, К. (1995). Решение проблем: Руководство для статистиков (2-е изд.). Chapman and Hall. ISBN 978-0412606304.
^ Бейли, Марк; Ле Сесси, Саския; Шмидт, Карстен Оливер; Луса, Лара; Хюбнер, Марианна; Тематическая группа «Анализ начальных данных» инициативы STRATOS (2022). «Десять простых правил анализа начальных данных». PLOS Computational Biology . 18 (2): e1009819. Bibcode : 2022PLSCB..18E9819B. doi : 10.1371 /journal.pcbi.1009819 . PMC 8870512. PMID 35202399.
^ Джон Тьюки — Будущее анализа данных — Июль 1961 г.
^ Беккер, Ричард А., Краткая история S, Мюррей-Хилл, Нью-Джерси: AT&T Bell Laboratories, архивировано из оригинала (PS) 23.07.2015 , извлечено 23.07.2015 , ... мы хотели иметь возможность взаимодействовать с нашими данными, используя методы разведочного анализа данных (Тьюки, 1971).
^ Моргенталер, Стефан; Фернхольц, Луиза Т. (2000). «Беседа с Джоном В. Тьюки и Элизабет Тьюки, Луизой Т. Фернхольц и Стефаном Моргенталером». Статистическая наука . 15 (1): 79–94. doi : 10.1214/ss/1009212675 .
^ Беренс-Принципы и процедуры разведочного анализа данных-Американская психологическая ассоциация-1997
^ Конольд, К. (1999). «Статистика идет в школу». Contemporary Psychology . 44 (1): 81–82. doi :10.1037/001949.
^ Tukey, John W. (1980). «Нам нужны как исследовательские, так и подтверждающие данные». The American Statistician . 34 (1): 23–25. doi :10.1080/00031305.1980.10482706.
^ Sailem, Heba Z.; Sero, Julia E.; Bakal, Chris (2015-01-08). "Визуализация данных клеточной визуализации с использованием PhenoPlot". Nature Communications . 6 (1): 5825. Bibcode :2015NatCo...6.5825S. doi :10.1038/ncomms6825. ISSN 2041-1723. PMC 4354266 . PMID 25569359.
^ Элементарное руководство по статистике (3-е изд., 1920)https://archive.org/details/cu31924013702968/page/n5
^ Кук, Д. и Свэйн, Д. Ф. (совместно с А. Буйя, Д. Темпл Лэнгом, Х. Хофманном, Х. Уикхэмом, М. Лоуренсом) (2007) «Интерактивная и динамическая графика для анализа данных: с R и GGobi» Springer, 978-0387717616
Библиография
Андриенко, Н. и Андриенко, Г. (2005) Исследовательский анализ пространственных и временных данных. Систематический подход . Springer. ISBN 3-540-25994-5
Кук, Д. и Свейн, Д. Ф. (совместно с А. Буджа, Д. Темпл Лангом, Х. Хофманном, Х. Уикхэмом, М. Лоуренсом) (12.12.2007). Интерактивная и динамическая графика для анализа данных: с R и GGobi . Springer. ISBN 9780387717616.{{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
Кук, Д. и Свейн, Д. Ф. (совместно с А. Буйя, Д. Темпл Лангом, Х. Хофманном, Х. Уикхэмом, М. Лоуренсом) (12.12.2007). Интерактивная и динамическая графика для анализа данных: с R и GGobi. Springer. ISBN 9780387717616.
Хоглин, Д.К.; Мостеллер, Ф. и Тьюки, Джон Уайлдер (редакторы) (1985). Исследование таблиц данных, тенденций и форм. ISBN 978-0-471-09776-1.
Хоаглин, Д.К.; Мостеллер, Ф. и Тьюки, Джон Уайлдер (редакторы) (1983). Понимание надежного и разведочного анализа данных. ISBN 978-0-471-09777-8.
Янг, Ф. В. Валеро-Мора, П. и Френдли М. (2006) Визуальная статистика: просмотр данных с помощью динамической интерактивной графики. Wiley ISBN 978-0-471-68160-1 Джамбу М. (1991) Исследовательский и многомерный анализ данных. Academic Press ISBN 0123800900
SHC DuToit, AGW Steyn, RH Stumpf (1986) Графический анализ разведочных данных. Springer ISBN 978-1-4612-9371-2
Hoaglin, DC; Mosteller, F & Tukey, John Wilder (редакторы) (1985). Исследование таблиц данных, тенденций и форм . Wiley. ISBN 978-0-471-09776-1.{{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
Hoaglin, DC; Mosteller, F & Tukey, John Wilder (редакторы) (1983). Understanding Robust and Exploratory Data Analysis . Wiley. ISBN 978-0-471-09777-8.{{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
Инсельберг, Альфред (2009). Параллельные координаты: визуальная многомерная геометрия и ее приложения . Лондон Нью-Йорк: Springer. ISBN 978-0-387-68628-8.
Лейнхардт, Г., Лейнхардт, С., Исследовательский анализ данных: новые инструменты для анализа эмпирических данных , Обзор исследований в области образования, т. 8, 1980 (1980), стр. 85–157.
Мартинес, В. Л .; Мартинес, А. Р. и Солка, Дж. (2010). Исследовательский анализ данных с помощью MATLAB, второе издание . Chapman & Hall/CRC. ISBN 9781439812204.
Теус, М., Урбанек, С. (2008), Интерактивная графика для анализа данных: принципы и примеры, CRC Press, Бока-Ратон, Флорида, ISBN 978-1-58488-594-8
Такер, Л.; Маккаллум, Р. (1993). Исследовательский факторный анализ.
Tukey, John Wilder (1977). Исследовательский анализ данных . Addison-Wesley. ISBN 978-0-201-07616-5.
Velleman, PF; Hoaglin, DC (1981). Applications, Basics and Computing of Exploratory Data Analysis . Duxbury Press. ISBN 978-0-87150-409-8.
Янг, Ф. В. Валеро-Мора, П. и Френдли М. (2006) Визуальная статистика: просмотр данных с помощью динамической интерактивной графики. Wiley ISBN 978-0-471-68160-1
Джамбу М. (1991) Исследовательский и многомерный анализ данных. Academic Press ISBN 0123800900
SHC DuToit, AGW Steyn, RH Stumpf (1986) Графический разведывательный анализ данных. Springer ISBN 978-1-4612-9371-2
Внешние ссылки
Университет Карнеги-Меллона – бесплатный онлайн-курс по теории вероятностей и статистике с модулем по EDA
• Глава «Анализ разведочных данных»: справочник по инженерной статистике