stringtranslate.com

Исследовательский анализ данных

В статистике разведочный анализ данных (EDA) — это подход к анализу наборов данных для обобщения их основных характеристик, часто с использованием статистической графики и других методов визуализации данных . Статистическая модель может использоваться или нет, но в первую очередь EDA предназначен для того, чтобы увидеть, что данные могут нам рассказать за пределами формального моделирования, и тем самым противопоставляется традиционной проверке гипотез. Исследовательский анализ данных пропагандировался Джоном Тьюки с 1970 года, чтобы побудить статистиков исследовать данные и, возможно, формулировать гипотезы, которые могли бы привести к новому сбору данных и экспериментам. EDA отличается от первоначального анализа данных (IDA) , [1] [2] , который более узко фокусируется на проверке предположений, необходимых для подгонки модели и проверки гипотез, а также на обработке пропущенных значений и выполнении преобразований переменных по мере необходимости. EDA охватывает IDA.

Обзор

В 1961 году Тьюки определил анализ данных как: «Процедуры анализа данных, методы интерпретации результатов таких процедур, способы планирования сбора данных для того, чтобы сделать их анализ более простым, точным или более аккуратным, а также весь аппарат и результаты (математической) статистики, которые применяются к анализу данных». [3]

Исследовательский анализ данных — это метод анализа для анализа и исследования набора данных и обобщения основных характеристик набора данных. Главным преимуществом EDA является предоставление визуализации данных после проведения анализа.

Поддержка Тьюки EDA способствовала разработке статистических вычислительных пакетов, особенно S в Bell Labs . [4] Язык программирования S вдохновил на создание систем S-PLUS и R. Это семейство статистических вычислительных сред отличалось значительно улучшенными возможностями динамической визуализации, что позволяло статистикам выявлять выбросы , тенденции и закономерности в данных, заслуживающие дальнейшего изучения.

EDA Тьюки был связан с двумя другими разработками в статистической теории : надежной статистикой и непараметрической статистикой , обе из которых пытались снизить чувствительность статистических выводов к ошибкам в формулировании статистических моделей . Тьюки продвигал использование пятизначного резюме числовых данных — двух крайних значений ( максимума и минимума ), медианы и квартилей — потому что эти медиана и квартили, будучи функциями эмпирического распределения , определены для всех распределений, в отличие от среднего значения и стандартного отклонения ; более того, квартили и медиана более надежны для перекошенных или тяжелохвостовых распределений, чем традиционные резюме (среднее значение и стандартное отклонение). Пакеты S , S-PLUS и R включали процедуры, использующие статистику повторной выборки , такие как складной нож Кенуйя и Тьюки и бутстрап Эфрона , которые являются непараметрическими и надежными (для многих задач).

Исследовательский анализ данных, надежная статистика, непараметрическая статистика и разработка статистических языков программирования облегчили работу статистиков над научными и инженерными проблемами. К таким проблемам относились изготовление полупроводников и понимание сетей связи, что касалось Bell Labs. Эти статистические разработки, все из которых отстаивал Тьюки, были разработаны для дополнения аналитической теории проверки статистических гипотез , в частности акцента лапласовской традиции на экспоненциальных семействах . [5]

Разработка

Блок-схема процесса науки о данных

Джон В. Тьюки написал книгу «Исследовательский анализ данных» в 1977 году. [6] Тьюки считал, что в статистике слишком много внимания уделяется проверке статистических гипотез (анализ подтверждающих данных); больше внимания необходимо уделять использованию данных для выдвижения гипотез для проверки. В частности, он считал, что смешение двух типов анализов и применение их к одному и тому же набору данных может привести к систематической предвзятости из-за проблем, присущих проверке гипотез, предложенных данными .

Цели EDA:

Многие методы EDA были приняты в области добычи данных . Они также преподаются молодым студентам как способ познакомить их со статистическим мышлением. [8]

Методы и инструменты

Существует ряд инструментов, полезных для EDA, но EDA характеризуется скорее принятым отношением, чем конкретными методами. [9]

Типичные графические методы, используемые в EDA:

Уменьшение размерности :

Типичные количественные методы:

История

Многие идеи EDA можно проследить у более ранних авторов, например:

Курс Открытого университета «Статистика в обществе» (MDST 242) взял вышеизложенные идеи и объединил их с работой Готфрида Нётера , в которой были представлены статистические выводы с помощью подбрасывания монеты и медианного теста .

Пример

Результаты EDA ортогональны основной аналитической задаче. Для иллюстрации рассмотрим пример из работы Кука и др., где аналитическая задача заключается в поиске переменных, которые наилучшим образом предсказывают чаевые, которые обедающая компания даст официанту. [12] Переменные, доступные в данных, собранных для этой задачи, следующие: сумма чаевых, общий счет, пол плательщика, секция для курящих/некурящих, время дня, день недели и размер группы. Основная аналитическая задача решается путем подгонки регрессионной модели, где ставка чаевых является переменной отклика. Подогнанная модель

(ставка чаевых) = 0,18 - 0,01 × (размер группы)

что означает, что по мере увеличения количества гостей на одного человека (что приводит к увеличению счета) размер чаевых в среднем уменьшается на 1%.

Однако изучение данных выявляет и другие интересные особенности, не описанные этой моделью.

То, что извлекается из графиков, отличается от того, что иллюстрирует регрессионная модель, хотя эксперимент не был разработан для исследования какой-либо из этих других тенденций. Закономерности, обнаруженные при изучении данных, предполагают гипотезы о чаевых, которые, возможно, не были предусмотрены заранее, и которые могут привести к интересным последующим экспериментам, в которых гипотезы формально излагаются и проверяются путем сбора новых данных.

Программное обеспечение

Смотрите также

Ссылки

  1. ^ Чатфилд, К. (1995). Решение проблем: Руководство для статистиков (2-е изд.). Chapman and Hall. ISBN 978-0412606304.
  2. ^ Бейли, Марк; Ле Сесси, Саския; Шмидт, Карстен Оливер; Луса, Лара; Хюбнер, Марианна; Тематическая группа «Анализ начальных данных» инициативы STRATOS (2022). «Десять простых правил анализа начальных данных». PLOS Computational Biology . 18 (2): e1009819. Bibcode : 2022PLSCB..18E9819B. doi : 10.1371 /journal.pcbi.1009819 . PMC 8870512. PMID  35202399. 
  3. ^ Джон Тьюки — Будущее анализа данных — Июль 1961 г.
  4. ^ Беккер, Ричард А., Краткая история S, Мюррей-Хилл, Нью-Джерси: AT&T Bell Laboratories, архивировано из оригинала (PS) 23.07.2015 , извлечено 23.07.2015 , ... мы хотели иметь возможность взаимодействовать с нашими данными, используя методы разведочного анализа данных (Тьюки, 1971).
  5. ^ Моргенталер, Стефан; Фернхольц, Луиза Т. (2000). «Беседа с Джоном В. Тьюки и Элизабет Тьюки, Луизой Т. Фернхольц и Стефаном Моргенталером». Статистическая наука . 15 (1): 79–94. doi : 10.1214/ss/1009212675 .
  6. ^ Tukey, John W. (1977). Исследовательский анализ данных . Pearson. ISBN 978-0201076165.
  7. ^ Беренс-Принципы и процедуры разведочного анализа данных-Американская психологическая ассоциация-1997
  8. ^ Конольд, К. (1999). «Статистика идет в школу». Contemporary Psychology . 44 (1): 81–82. doi :10.1037/001949.
  9. ^ Tukey, John W. (1980). «Нам нужны как исследовательские, так и подтверждающие данные». The American Statistician . 34 (1): 23–25. doi :10.1080/00031305.1980.10482706.
  10. ^ Sailem, Heba Z.; Sero, Julia E.; Bakal, Chris (2015-01-08). "Визуализация данных клеточной визуализации с использованием PhenoPlot". Nature Communications . 6 (1): 5825. Bibcode :2015NatCo...6.5825S. doi :10.1038/ncomms6825. ISSN  2041-1723. PMC 4354266 . PMID  25569359. 
  11. ^ Элементарное руководство по статистике (3-е изд., 1920)https://archive.org/details/cu31924013702968/page/n5
  12. ^ Кук, Д. и Свэйн, Д. Ф. (совместно с А. Буйя, Д. Темпл Лэнгом, Х. Хофманном, Х. Уикхэмом, М. Лоуренсом) (2007) «Интерактивная и динамическая графика для анализа данных: с R и GGobi» Springer, 978-0387717616

Библиография


Внешние ссылки