stringtranslate.com

Основы статистики

Основы статистики — это математические и философские основы статистических методов. Эти основы — теоретические рамки, которые обосновывают и оправдывают методы статистического вывода , оценки , проверки гипотез , количественной оценки неопределенности и интерпретации статистических заключений. Кроме того, основы могут использоваться для объяснения статистических парадоксов, описания статистических законов [1] и руководства применением статистики к проблемам реального мира .

Различные статистические основы могут обеспечивать различные, противоположные точки зрения на анализ и интерпретацию данных, и некоторые из этих контрастов были предметом столетий споров. [2] Примерами являются байесовский вывод против частотного вывода ; различие между проверкой значимости Фишера и проверкой гипотез Неймана - Пирсона ; и выполняется ли принцип правдоподобия .

Определенные структуры могут быть предпочтительными для определенных приложений, таких как использование байесовских методов при подгонке сложных экологических моделей. [3]

Бандйопадхай и Форстер [4] выделяют четыре статистические парадигмы : классическая статистика (статистика ошибок), байесовская статистика , статистика, основанная на правдоподобии , и статистика, основанная на информации, использующая критерий информации Акаике . Совсем недавно Джуда Перл вновь ввел формальную математику, приписав причинность в статистических системах, которые учитывали фундаментальные ограничения как байесовского метода, так и метода Неймана-Пирсона, как обсуждалось в его книге «Причинность» .

«Проверка значимости» Фишера против «проверки гипотез» Неймана-Пирсона

В 20 веке развитие классической статистики привело к появлению двух конкурирующих основ индуктивного статистического тестирования . [5] [6] Достоинства этих моделей широко обсуждались. [7] Хотя гибридный подход, сочетающий элементы обоих методов, обычно преподается и используется, философские вопросы, поднятые в ходе дебатов, по-прежнему остаются нерешенными. [ необходима ссылка ]

Тестирование значимости

Публикации Фишера, такие как « Статистические методы для научных работников » в 1925 году и « Планирование экспериментов » в 1935 году, [8] способствовали популярности проверки значимости, которая является вероятностным подходом к дедуктивному выводу . На практике статистика вычисляется на основе экспериментальных данных, а вероятность получения значения, большего, чем эта статистика в рамках модели по умолчанию или « нулевой », сравнивается с заранее определенным порогом. Этот порог представляет собой требуемый уровень разногласий (обычно устанавливается по соглашению). [ требуется цитирование ] Одним из распространенных применений этого метода является определение того, оказывает ли лечение заметный эффект на основе сравнительного эксперимента . В этом случае нулевая гипотеза соответствует отсутствию эффекта лечения , подразумевая, что группа, подвергавшаяся лечению, и контрольная группа взяты из одной и той же популяции . Статистическая значимость измеряет вероятность и не касается практической значимости. Ее можно рассматривать как критерий статистического отношения сигнал/шум . Важно отметить, что тест не может доказать гипотезу (об отсутствии эффекта от лечения), но может предоставить доказательства против нее. [ необходима цитата ]

Тест значимости Фишера предполагает наличие одной гипотезы, но выбор тестовой статистики требует понимания соответствующих направлений отклонения от предполагаемой модели.

Проверка гипотез

Нейман и Пирсон сотрудничали над проблемой выбора наиболее подходящей гипотезы, основанной исключительно на экспериментальных данных, что отличалось от проверки значимости. Их самая известная совместная работа, опубликованная в 1933 году, [9] представила лемму Неймана-Пирсона , которая гласит, что отношение вероятностей служит эффективным критерием для выбора гипотезы (при этом выбор порога был произвольным). В работе была продемонстрирована оптимальность t-критерия Стьюдента , одного из тестов значимости. Нейман считал, что проверка гипотез представляет собой обобщение и улучшение проверки значимости. Обоснование их методов можно найти в их совместных работах. [10]

Проверка гипотез включает рассмотрение нескольких гипотез и выбор одной из них, что похоже на принятие решения с множественным выбором. Отсутствие доказательств не является непосредственным фактором, который следует принимать во внимание. Метод основан на предположении о повторной выборке из одной и той же популяции (классическое частотное предположение), хотя Фишер критиковал это предположение. [11]

Причины разногласий

Продолжительность диспута позволила всесторонне обсудить различные фундаментальные вопросы в области статистики.

Пример обмена 1955–1956 гг.

Атака Фишера[12]

Повторная выборка одной и той же популяции

Ошибки типа II

Индуктивное поведение

Опровержение Неймана[13]

Нападение Фишера на индуктивное поведение было в значительной степени успешным, потому что он выбрал поле битвы. В то время как оперативные решения обычно принимаются на основе различных критериев (таких как стоимость), научные выводы из экспериментов обычно делаются на основе одной лишь вероятности. Теория доверительного вывода Фишера ошибочна

Чисто вероятностная теория тестов требует альтернативной гипотезы. Атаки Фишера на ошибки типа II со временем затихли. За прошедшие годы статистика отделила исследовательские от подтверждающих. В современных условиях концепция ошибок типа II используется в расчетах мощности для определения размера выборки подтверждающих гипотез .

Обсуждение

Атака Фишера, основанная на частотной вероятности, провалилась, но не осталась без результата. Он выявил конкретный случай (таблица 2×2), где две школы тестирования достигли разных результатов. Этот случай — один из нескольких, которые все еще вызывают беспокойство. Комментаторы считают, что «правильный» ответ зависит от контекста. [14] Фидуциальная вероятность не преуспела, фактически не имея сторонников, в то время как частотная вероятность остается общепринятой интерпретацией.

Нападение Фишера на индуктивное поведение было в значительной степени успешным, потому что он выбрал поле битвы. В то время как «оперативные решения» обычно принимаются на основе различных критериев (например, стоимости), «научные выводы» из экспериментов обычно делаются на основе одной лишь вероятности.

В ходе этого обмена мнениями Фишер также обсуждал требования к индуктивному выводу, в частности, критикуя функции стоимости, которые штрафуют за ошибочные суждения. Нейман возражал, упоминая использование таких функций Гауссом и Лапласом. Эти аргументы появились через 15 лет после того, как учебники начали преподавать гибридную теорию статистического тестирования.

Фишер и Нейман придерживались разных точек зрения на основы статистики (хотя они оба выступали против байесовской точки зрения): [14]

Фишер и Нейман расходились в своих взглядах и, возможно, в своем языке. Фишер был ученым и интуитивным математиком, и индуктивное рассуждение было для него естественным. Нейман, с другой стороны, был строгим математиком, который полагался на дедуктивное рассуждение, а не на вероятностные расчеты, основанные на экспериментах. [5] Следовательно, существовало неотъемлемое столкновение между прикладными и теоретическими подходами (между наукой и математикой).

Связанная история

В 1938 году Нейман переехал на Западное побережье Соединенных Штатов Америки, фактически завершив свое сотрудничество с Пирсоном и их работу по проверке гипотез. [5] Последующие разработки в этой области были выполнены другими исследователями.

К 1940 году учебники начали представлять гибридный подход, который сочетал в себе элементы проверки значимости и проверки гипотез. [16] Однако ни один из основных участников не был напрямую вовлечен в дальнейшее развитие гибридного подхода, который в настоящее время преподается во вводной статистике. [6]

Статистика впоследствии разветвилась на различные направления, включая теорию принятия решений, байесовскую статистику, разведочный анализ данных, надежную статистику и непараметрическую статистику. Проверка гипотез Неймана-Пирсона внесла значительный вклад в теорию принятия решений, которая широко применяется, особенно в статистическом контроле качества. Проверка гипотез также расширила ее применимость, включив априорные вероятности, придав ей байесовский характер. В то время как проверка гипотез Неймана-Пирсона превратилась в абстрактный математический предмет, преподаваемый на уровне аспирантуры, [17] многое из того, что преподается и используется в бакалавриате под эгидой проверки гипотез, можно отнести к Фишеру.

Современное мнение

За последние десятилетия не было крупных конфликтов между двумя классическими школами тестирования, хотя периодические критические замечания и споры сохраняются. Однако крайне маловероятно, что одна теория статистического тестирования полностью вытеснит другую в обозримом будущем.

Гибридный подход, сочетающий элементы обеих конкурирующих школ тестирования, можно интерпретировать по-разному. Некоторые рассматривают его как объединение двух математически дополнительных идей, [14] в то время как другие видят в нем несовершенный союз философски несовместимых концепций. [18] Подход Фишера имел определенные философские преимущества, в то время как Нейман и Пирсон подчеркивали строгую математику. Проверка гипотез остается предметом споров для некоторых пользователей, но наиболее широко принятый альтернативный метод, доверительные интервалы, основан на тех же математических принципах.

Из-за исторического развития тестирования не существует единого авторитетного источника, который бы полностью охватывал гибридную теорию, как она обычно практикуется в статистике. Кроме того, терминология, используемая в этом контексте, может быть несогласованной. Эмпирические данные показывают, что отдельные лица, включая студентов и преподавателей вводных курсов статистики, часто имеют ограниченное понимание значения проверки гипотез. [19]

Краткое содержание

Байесовский вывод против частотного вывода

Две различные интерпретации вероятности существовали в течение длительного времени, одна из которых основывалась на объективных доказательствах, а другая — на субъективных степенях веры. Дебаты между Гауссом и Лапласом могли иметь место более 200 лет назад, что привело к появлению двух конкурирующих школ статистики. Классическая выводная статистика возникла в основном во второй четверти 20-го века [6] в основном в ответ на спорный принцип безразличия, используемый в байесовской вероятности в то время. Возрождение байесовского вывода было реакцией на ограничения частотной вероятности, что привело к дальнейшим разработкам и реакциям.

В то время как философские интерпретации имеют долгую историю, конкретная статистическая терминология появилась относительно недавно. Термины «байесовский» и «частый» стали стандартизированы во второй половине 20-го века. [20] Однако терминология может быть запутанной, поскольку «классическая» интерпретация вероятности соответствует байесовским принципам, в то время как «классическая» статистика следует частотному подходу. Более того, даже в рамках термина «частотный» существуют вариации в интерпретации, различающиеся между философией и физикой.

Сложные детали философских вероятностных интерпретаций изучаются в другом месте. В области статистики эти альтернативные интерпретации позволяют анализировать различные наборы данных, используя различные методы, основанные на различных моделях, стремясь достичь несколько разных целей. При сравнении конкурирующих школ мысли в статистике учитываются прагматические критерии, выходящие за рамки философских соображений.

Основные участники

Фишер и Нейман были значительными фигурами в развитии частотных (классических) методов. [5] В то время как у Фишера была уникальная интерпретация вероятности, которая отличалась от байесовских принципов, Нейман строго придерживался частотного подхода. В области байесовской статистической философии, математики и методов де Финетти, [21] Джеффрис , [22] и Сэвидж [23] выступили в качестве заметных авторов в течение 20-го века. Сэвидж сыграл решающую роль в популяризации идей де Финетти в англоязычных регионах и создании строгой байесовской математики. В 1965 году двухтомный труд Денниса Линдли под названием «Введение в вероятность и статистику с байесовской точки зрения» сыграл важную роль в представлении байесовских методов широкой аудитории. За три поколения статистика значительно продвинулась вперед, и взгляды ранних авторов не обязательно считаются авторитетными в настоящее время.

Контрастные подходы

Частотный вывод

В предыдущем описании кратко освещается частотный вывод, который охватывает «проверку значимости» Фишера и «проверку гипотез» Неймана-Пирсона. Частотный вывод включает в себя различные точки зрения и позволяет делать научные выводы, принимать оперативные решения и оценивать параметры с доверительными интервалами или без них .

Байесовский вывод

Классическое распределение частот предоставляет информацию о вероятности наблюдаемых данных. Применяя теорему Байеса , вводится более абстрактная концепция, которая включает оценку вероятности гипотезы (связанной с теорией) с учетом данных. Эта концепция, ранее называвшаяся «обратной вероятностью», реализуется посредством байесовского вывода. Байесовский вывод включает обновление оценки вероятности для гипотезы по мере появления новых доказательств. Он явно учитывает как доказательства, так и предыдущие убеждения, что позволяет включать несколько наборов доказательств.

Сравнение характеристик

Частотники и байесовцы используют различные модели вероятности. Частотники обычно рассматривают параметры как фиксированные, но неизвестные, тогда как байесовцы назначают этим параметрам распределения вероятностей. В результате байесовцы обсуждают вероятности, которые частотники не признают. Байесовцы рассматривают вероятность теории, тогда как истинные частотники могут только оценивать согласованность доказательств с теорией. Например, частотник не утверждает 95% вероятности того, что истинное значение параметра попадает в доверительный интервал; вместо этого они утверждают, что 95% доверительных интервалов охватывают истинное значение.

Математические результаты

И частотная, и байесовская школы подвергаются математической критике, и ни одна из них не принимает ее с готовностью. Например, парадокс Штейна подчеркивает сложность определения «плоского» или «неинформативного» априорного распределения вероятностей в многомерных пространствах. [2] Хотя байесовцы считают это касательным к их фундаментальной философии, они считают, что частотная школа страдает от непоследовательности, парадоксов и неблагоприятного математического поведения. Частотный путешественник может объяснить большинство этих проблем. Некоторые «проблемные» сценарии, такие как оценка изменчивости веса стада слонов на основе одного измерения (слоны Басу), являются примерами крайних случаев, которые бросают вызов статистической оценке. Принцип правдоподобия был спорной областью дебатов.

Статистические результаты

И частотная, и байесовская школы продемонстрировали заметные достижения в решении практических задач. Классическая статистика, с ее опорой на механические калькуляторы и специализированные печатные таблицы, может похвастаться более долгой историей получения результатов. Байесовские методы, с другой стороны, показали замечательную эффективность в анализе последовательно отобранной информации, такой как данные радаров и сонара. Несколько байесовских методов, а также некоторые недавние частотные методы, такие как бутстрап, требуют вычислительных возможностей, которые стали широко доступны в последние несколько десятилетий. Продолжается обсуждение относительно интеграции байесовского и частотного подходов [25] , хотя были высказаны опасения относительно интерпретации результатов и потенциального уменьшения методологического разнообразия.

Философские результаты

Байесовцы разделяют общую позицию против ограничений частости, но они разделены на различные философские лагеря (эмпирический, иерархический, объективный, личный и субъективный), каждый из которых подчеркивает различные аспекты. Философ статистики с точки зрения частотности наблюдал сдвиг от статистической области к философским интерпретациям вероятности за последние два поколения. [27] Некоторые считают, что успехи, достигнутые с помощью байесовских приложений, недостаточно оправдывают связанную философскую структуру. [28] Байесовские методы часто разрабатывают практические модели, которые отклоняются от традиционного вывода и имеют минимальную опору на философию. [29] Ни частотная, ни байесовская философская интерпретация вероятности не могут считаться полностью надежными. Частотная точка зрения критикуется за чрезмерную жесткость и ограничительность, в то время как байесовский взгляд может охватывать как объективные, так и субъективные элементы, среди прочего.

Иллюстративные цитаты

Краткое содержание

Принцип правдоподобия

В общепринятом использовании правдоподобие часто считается синонимом вероятности. Однако, согласно статистике, это не так. В статистике вероятность относится к переменным данным при фиксированной гипотезе, тогда как правдоподобие относится к переменным гипотезам при фиксированном наборе данных. Например, при проведении повторных измерений с помощью линейки при фиксированных условиях каждый набор наблюдений соответствует распределению вероятностей, и наблюдения можно рассматривать как выборку из этого распределения, следуя частотной интерпретации вероятности. С другой стороны, набор наблюдений может также возникать из выборки различных распределений на основе различных условий наблюдения. Вероятностная связь между фиксированной выборкой и переменным распределением, вытекающая из переменной гипотезы, называется правдоподобием, представляя байесовский взгляд на вероятность. Например, набор измерений длины может представлять показания, полученные наблюдателями с определенными характеристиками и условиями.

Вероятность — это концепция, которая была введена и разработана Фишером на протяжении более 40 лет, хотя существуют более ранние ссылки на эту концепцию, и поддержка Фишера не была всецелой. [34] Концепция была впоследствии принята и существенно пересмотрена Джеффрисом . [35] В 1962 году Бирнбаум «доказал» принцип правдоподобия, основанный на предпосылках, которые были широко приняты среди статистиков, [36] хотя его доказательство было предметом споров со стороны статистиков и философов. Примечательно, что к 1970 году Бирнбаум отверг одну из этих предпосылок ( принцип обусловленности ), а также отказался от принципа правдоподобия из-за их несовместимости с частотной «концепцией уверенности статистических доказательств». [37] [38] Принцип правдоподобия утверждает, что вся информация в выборке содержится в функции правдоподобия , которая считается действительным распределением вероятностей байесовцами, но не частыми.

Некоторые тесты значимости, используемые частотниками, не согласуются с принципом правдоподобия. Байесовцы, с другой стороны, принимают этот принцип, поскольку он соответствует их философской точке зрения (возможно, в ответ на дискомфорт частотников). Подход правдоподобия совместим с байесовским статистическим выводом, где апостериорное байесовское распределение для параметра выводится путем умножения априорного распределения на функцию правдоподобия с использованием теоремы Байеса. [34] Частники интерпретируют принцип правдоподобия неблагоприятно, поскольку он предполагает отсутствие заботы о надежности доказательств. Принцип правдоподобия, согласно байесовской статистике, подразумевает, что информация об экспериментальном плане, используемом для сбора доказательств, не учитывается в статистическом анализе данных. [39] Некоторые байесовцы, включая Сэвиджа, [ требуется ссылка ] признают это следствие уязвимостью.

Самые ярые сторонники принципа правдоподобия утверждают, что он обеспечивает более прочную основу для статистики по сравнению с альтернативами, представленными байесовским и частотным подходами. [40] Среди этих сторонников есть некоторые статистики и философы науки. [41] Хотя байесовцы признают важность правдоподобия для вычислений, они утверждают, что апостериорное распределение вероятностей служит подходящей основой для вывода. [42]

Моделирование

Выводная статистика опирается на статистические модели . Классическая проверка гипотез, например, часто опиралась на предположение о нормальности данных. Чтобы уменьшить зависимость от этого предположения, были разработаны надежные и непараметрические статистики. Байесовская статистика, с другой стороны, интерпретирует новые наблюдения на основе предшествующих знаний, предполагая непрерывность между прошлым и настоящим. Экспериментальный дизайн предполагает некоторое знание факторов, которые необходимо контролировать, варьировать, рандомизировать и наблюдать. Статистики знают о трудностях установления причинно-следственной связи, часто заявляя, что « корреляция не подразумевает причинно-следственную связь », что является скорее ограничением в моделировании, чем математическим ограничением.

Поскольку статистика и наборы данных стали более сложными, [a] [b] возникли вопросы относительно обоснованности моделей и выводов, сделанных на их основе. Существует широкий спектр противоречивых мнений о моделировании.

Модели могут быть основаны на научной теории или специальном анализе данных, каждый из которых использует разные методы. Сторонники существуют для каждого подхода. [44] Сложность модели — это компромисс, и менее субъективные подходы, такие как критерий информации Акаике и критерий информации Байеса, направлены на достижение баланса. [45]

Опасения были высказаны даже по поводу простых регрессионных моделей, используемых в социальных науках, поскольку множество предположений, лежащих в основе валидности модели, часто не упоминаются и не проверяются. В некоторых случаях благоприятное сравнение между наблюдениями и моделью считается достаточным. [46]

Байесовская статистика настолько сосредоточена на апостериорной вероятности, что она игнорирует фундаментальное сравнение наблюдений и модели. [ сомнительнообсудить ] [29]

Традиционные модели, основанные на наблюдении, часто не справляются с решением многих существенных проблем, требуя использования более широкого спектра моделей, включая алгоритмические. «Если модель является плохой эмуляцией природы, выводы могут быть неверными». [47]

Моделирование часто выполняется ненадлежащим образом, с использованием неправильных методов, а отчетность по моделям часто оказывается неудовлетворительной. [48]

Учитывая отсутствие прочного консенсуса по философскому обзору статистического моделирования, многие статистики придерживаются предостерегающих слов Джорджа Бокса : « Все модели неверны , но некоторые полезны » .

Другое чтение

Для краткого введения в основы статистики обратитесь к Стюарту, А.; Олду, Дж. К. (1994). «Гл. 8 – Вероятность и статистический вывод» в книге Кендалла «Продвинутая теория статистики», том I: Теория распределения (6-е изд.), опубликованной Эдвардом Арнольдом .

В своей книге Статистика как принципиальный аргумент Роберт П. Абельсон представляет точку зрения, что статистика служит стандартизированным методом разрешения разногласий среди ученых, которые в противном случае могли бы ввязаться в бесконечные дебаты о достоинствах своих позиций. С этой точки зрения статистику можно рассматривать как форму риторики. Однако эффективность статистических методов зависит от консенсуса между всеми вовлеченными сторонами относительно выбранного подхода. [49]

Смотрите также

Сноски

  1. ^ Некоторые крупные модели пытаются предсказать поведение избирателей в Соединенных Штатах Америки. Население составляет около 300 миллионов. На каждого избирателя может влиять множество факторов. О некоторых сложностях поведения избирателей (наиболее легко понимаемых туземцами) см.: Gelman [43]
  2. ^ Эфрон (2013) упоминает миллионы точек данных и тысячи параметров из научных исследований. [24]

Цитаты

  1. ^ Китчер и Салмон (2009) стр.51
  2. ^ Эфрон 1978.
  3. ^ ван де Скут, Ренс; Депаоли, Сара; Кинг, Рут; Крамер, Бьянка; Мартенс, Каспар; Тадессе, Махлет Г.; Ваннуччи, Марина; Гельман, Эндрю; Вин, Дуко; Виллемсен, Йокье; Яу, Кристофер (14.01.2021). "Байесовская статистика и моделирование". Nature Reviews Methods Primers . 1 (1). doi :10.1038/s43586-020-00001-2. hdl : 20.500.11820/9fc72a0b-33e4-4a9c-bdb7-d88dab16f621 . ISSN  2662-8449.
  4. ^ Бандйопадхай и Форстер 2011.
  5. ^ abcd Леманн 2011.
  6. ^ abc Гигеренцер и др. 1989.
  7. ^ ab Louçã 2008.
  8. Фишер 1956.
  9. Нейман и Пирсон 1933.
  10. Нейман и Пирсон 1967.
  11. ^ Рубин, М (2020). ««Повторная выборка из той же популяции?» Критика ответов Неймана и Пирсона Фишеру». Европейский журнал философии науки . 10 (42): 1–15. doi :10.1007/s13194-020-00309-6. S2CID  221939887.
  12. Фишер 1955.
  13. Нейман 1956.
  14. ^ abc Леманн 1993.
  15. ^ Ленхард 2006.
  16. ^ Хэлпин и Стэм 2006.
  17. ^ Леманн и Романо 2005.
  18. Хаббард и Байярри, 2003 г.
  19. ^ Сотос и др. 2007.
  20. ^ Файнберг 2006.
  21. ^ де Финетти 1964.
  22. ^ ab Jeffreys 1939.
  23. Сэвидж 1972.
  24. ^ abcd Эфрон 2013.
  25. ^ ab Little 2006.
  26. ^ Ю 2009.
  27. Майо 2013.
  28. ^ Сенн 2011.
  29. ^ ab Гельман и Шализи 2012.
  30. ^ abc Cox 2005.
  31. ^ Бернардо 2008.
  32. ^ Касс, 2012.
  33. ^ ab Gelman 2008.
  34. ^ Эдвардс 1999.
  35. ^ Олдрич 2002.
  36. ^ Бирнбаум 1962.
  37. ^ Бирнбаум, А., (1970) Статистические методы в научном выводе. Nature , 225, 14 марта 1970 г., стр. 1033.
  38. ^ Гир, Р. (1977) Концепция статистических данных Аллана Бирнбаума. Синтез , 36, стр. 5-13.
  39. ^ Бакке 1999.
  40. ^ Форстер и Собер 2001.
  41. ^ Ройалл 1997.
  42. ^ Линдли 2000.
  43. ^ Гельман. "Red-blue talk UBC" (PDF) . Статистика. Колумбийский университет. Архивировано (PDF) из оригинала 2013-10-06 . Получено 2013-09-16 .
  44. ^ Табачник и Фидель 1996.
  45. ^ Форстер и Собер 1994.
  46. ^ Фридман 1995.
  47. ^ Брейман 2001.
  48. ^ Чин нд
  49. ^ Абельсон, Роберт П. (1995). Статистика как принципиальный аргумент . Lawrence Erlbaum Associates. ISBN 978-0-8058-0528-4... цель статистики — организовать полезный аргумент на основе количественных данных, используя форму принципиальной риторики.

Ссылки

Дальнейшее чтение

Внешние ссылки