Статистика

Статистика (от немецкого : Statistik , ориг. «описание государства , страны») ^[1]^[2] — дисциплина, занимающаяся сбором, организацией, анализом, интерпретацией и представлением данных . ^[3]^[4]^[5] При применении статистики к научной, промышленной или социальной проблеме принято начинать со статистической совокупности или статистической модели , подлежащей изучению. Популяции могут представлять собой различные группы людей или объектов, например «все люди, живущие в стране» или «каждый атом, составляющий кристалл». Статистика касается всех аспектов данных, включая планирование сбора данных с точки зрения планирования обследований и экспериментов . ^[6]

Когда данные переписи не могут быть собраны, статистики собирают данные путем разработки конкретных планов экспериментов и выборок обследований . Репрезентативная выборка гарантирует, что выводы и выводы могут быть разумно распространены как на выборку, так и на генеральную совокупность в целом. Экспериментальное исследование включает в себя проведение измерений изучаемой системы, манипулирование системой, а затем проведение дополнительных измерений с использованием той же процедуры, чтобы определить, изменило ли манипуляция значения измерений. Напротив, наблюдательное исследование не предполагает экспериментальных манипуляций.

При анализе данных используются два основных статистических метода : описательная статистика , которая суммирует данные выборки с использованием таких индексов , как среднее или стандартное отклонение , и статистика, основанная на выводах , которая делает выводы на основе данных, которые подвержены случайным изменениям (например, ошибки наблюдения, вариация выборки). ^[7] Описательная статистика чаще всего связана с двумя наборами свойств распределения ( выборки или совокупности): центральная тенденция (или местоположение ) стремится охарактеризовать центральное или типичное значение распределения, тогда как дисперсия (или изменчивость ) характеризует степень, в которой члены распределения отходят от его центра и друг от друга. Выводы по математической статистике делаются в рамках теории вероятностей , которая занимается анализом случайных явлений.

Стандартная статистическая процедура включает сбор данных, ведущий к проверке взаимосвязи между двумя наборами статистических данных или набором данных и синтетическими данными, полученными из идеализированной модели. Предлагается гипотеза статистической связи между двумя наборами данных, и она сравнивается как альтернатива идеализированной нулевой гипотезе об отсутствии связи между двумя наборами данных. Отвержение или опровержение нулевой гипотезы осуществляется с помощью статистических тестов, которые количественно определяют, в каком смысле нулевая гипотеза может оказаться ложной, с учетом данных, которые используются в тесте. При работе с нулевой гипотезой выделяются две основные формы ошибок: ошибки типа I (нулевая гипотеза отклоняется, когда она на самом деле верна, что дает «ложноположительный результат») и ошибки типа II (нулевая гипотеза не может быть отвергнута, когда она верна). на самом деле является ложным и дает «ложноотрицательный результат»). ^[8] С этой структурой связано множество проблем: от получения достаточного размера выборки до определения адекватной нулевой гипотезы. ^[7]

Процессы статистических измерений также подвержены ошибкам в отношении данных, которые они генерируют. Многие из этих ошибок классифицируются как случайные (шум) или систематические ( предвзятость ), но могут возникать и другие типы ошибок (например, грубая ошибка, например, когда аналитик сообщает неправильные единицы измерения). Наличие недостающих данных или цензуры может привести к необъективным оценкам, и для решения этих проблем были разработаны специальные методы.

Введение

Статистика — это математическая область науки, которая занимается сбором, анализом, интерпретацией или объяснением, а также представлением данных [ ^9] или является разделом математики . ^[10] Некоторые считают статистику отдельной математической наукой , а не разделом математики. Хотя во многих научных исследованиях используются данные, статистика обычно занимается использованием данных в контексте неопределенности и принятием решений в условиях неопределенности. ^[11]^[12]

При применении статистики к проблеме принято начинать с изучаемой совокупности или процесса. Популяции могут быть разными по темам, например, «все люди, живущие в стране» или «каждый атом, составляющий кристалл». В идеале статистики собирают данные обо всем населении (операция, называемая переписью ) . Это может быть организовано государственными статистическими учреждениями. Описательная статистика может использоваться для обобщения данных о населении. Числовые дескрипторы включают среднее и стандартное отклонение для непрерывных данных (например, дохода), тогда как частота и процент более полезны с точки зрения описания категориальных данных (например, образования).

Когда перепись невозможна, изучается выбранная подгруппа населения, называемая выборкой . После того как определена выборка, репрезентативная для совокупности, собираются данные о членах выборки в условиях наблюдения или эксперимента . Опять же, для обобщения выборочных данных можно использовать описательную статистику. Однако составление выборки содержит элемент случайности; следовательно, числовые дескрипторы выборки также подвержены неопределенности. Чтобы сделать значимые выводы обо всей популяции, необходимы статистические выводы . Он использует закономерности в выборочных данных, чтобы сделать выводы о представленной совокупности с учетом случайности. Эти выводы могут принимать форму ответов да/нет на вопросы о данных ( проверка гипотез ), оценки числовых характеристик данных ( оценка ), описания ассоциаций внутри данных ( корреляция ) и моделирования отношений внутри данных (например, с использованием регрессивный анализ ). Выводы могут распространяться на прогнозирование , предсказание и оценку ненаблюдаемых значений либо в изучаемой популяции, либо связанных с ней. Он может включать экстраполяцию и интерполяцию временных рядов или пространственных данных , а также интеллектуальный анализ данных .

Математическая статистика

Математическая статистика – это применение математики к статистике. Математические методы, используемые для этого, включают математический анализ , линейную алгебру , стохастический анализ , дифференциальные уравнения и теорию вероятностей на основе теории меры . ^[13]^[14]

История

Официальные дискуссии о выводах восходят к арабским математикам и криптографам , во времена Золотого века ислама, между 8 и 13 веками. Аль-Халил (717–786) написал «Книгу криптографических сообщений» , в которой содержится одно из первых применений перестановок и комбинаций , в котором перечислены все возможные арабские слова с гласными и без них. ^[15] В «Рукописи Аль-Кинди по расшифровке криптографических сообщений » дано подробное описание того, как использовать частотный анализ для расшифровки зашифрованных сообщений, что является ранним примером статистического вывода для декодирования . Ибн Адлан (1187–1268) позже внес важный вклад в использование размера выборки в частотном анализе. ^[15]

Хотя термин «статистика» был введен итальянским ученым Джироламо Гилини в 1589 году применительно к совокупности фактов и сведений о государстве, именно немец Готфрид Ахенвалль в 1749 году начал использовать этот термин как совокупность количественной информации, в современное применение этой науки. ^[16]^[17] Самое раннее сочинение, содержащее статистические данные, в Европе датируется 1663 годом, когда Джон Граун опубликовал «Естественные и политические наблюдения над счетами смертности» . ^[18] Ранние применения статистического мышления вращались вокруг потребности государств основывать политику на демографических и экономических данных, отсюда и его государственная этимология . В начале XIX века сфера применения статистики расширилась и теперь включает сбор и анализ данных в целом. Сегодня статистика широко используется в правительстве, бизнесе, естественных и социальных науках.

Математические основы статистики возникли в результате дискуссий об азартных играх среди таких математиков, как Джероламо Кардано , Блез Паскаль , Пьер де Ферма и Христиан Гюйгенс . Хотя идея вероятности уже рассматривалась в античном и средневековом праве и философии (например, в работах Хуана Карамуэля ), теория вероятностей как математическая дисциплина оформилась только в самом конце 17 века, особенно в посмертной работе Якоба Бернулли Ars . Конъектанди . ^[19] Это была первая книга, в которой сфера азартных игр и область вероятного (которая касалась мнений, доказательств и аргументов) были объединены и подвергнуты математическому анализу. ^[20]^[21] Метод наименьших квадратов был впервые описан Адрианом-Мари Лежандром в 1805 году, хотя Карл Фридрих Гаусс предположительно использовал его десятилетием ранее, в 1795 году. ^[22]

Современная область статистики возникла в конце 19 - начале 20 века в три этапа. ^[23] Первую волну, на рубеже веков, возглавили работы Фрэнсиса Гальтона и Карла Пирсона , которые превратили статистику в строгую математическую дисциплину, используемую для анализа не только в науке, но также в промышленности и политике. . Вклад Гальтона включал в себя введение концепций стандартного отклонения , корреляции , регрессионного анализа и применение этих методов к изучению различных характеристик человека, среди которых рост, вес и длина ресниц. ^[24] Пирсон разработал коэффициент корреляции момента произведения Пирсона , определяемый как момент произведения, ^[25] метод моментов для подгонки распределений к выборкам и распределение Пирсона , среди многих других вещей. ^[26] Гальтон и Пирсон основали «Биометрику» как первый журнал по математической статистике и биостатистике (тогда называемой биометрией), а последний основал первый в мире университетский статистический факультет в Университетском колледже Лондона . ^[27]

Вторая волна 1910-х и 20-х годов была инициирована Уильямом Сили Госсетом и достигла своей кульминации в прозрениях Рональда Фишера , написавшего учебники, которые должны были определить академические дисциплины в университетах по всему миру. Наиболее важными публикациями Фишера были его основополагающая статья 1918 года « Корреляция между родственниками на основании предположения о менделевском наследовании» (в которой впервые использовался статистический термин « дисперсия »), его классическая работа 1925 года «Статистические методы для научных работников» и его «Планирование экспериментов» 1935 года . ^[28]^[29]^[30] , где он разработал строгий дизайн моделей экспериментов . Он создал концепции достаточности , вспомогательной статистики , линейного дискриминатора Фишера и информации Фишера . ^[31] Он также ввел термин « нулевая гипотеза» во время эксперимента с дегустацией чая «Леди» , который «никогда не доказывается и не устанавливается, но, возможно, опровергается в ходе экспериментов». ^[32]^[33] В своей книге 1930 года «Генетическая теория естественного отбора » он применил статистику к различным биологическим концепциям, таким как принцип Фишера ^[34] (который А. Ф. Эдвардс назвал «вероятно, самым знаменитым аргументом в эволюционной биологии ») и « побег Фишера ». , ^[35]^[36]^[37]^[38]^[39]^[40] концепция полового отбора об эффекте безудержного положительного обратной связи, обнаруженном в эволюции .

Последняя волна, которая в основном заключалась в усовершенствовании и расширении более ранних разработок, возникла в результате совместной работы Эгона Пирсона и Ежи Неймана в 1930-х годах. Они ввели понятия ошибки « типа II », мощности теста и доверительных интервалов . Ежи Нейман в 1934 году показал, что стратифицированная случайная выборка в целом является лучшим методом оценки, чем целенаправленная (квотная) выборка. ^[41]

Сегодня статистические методы применяются во всех областях, связанных с принятием решений, для получения точных выводов на основе сопоставленного массива данных и для принятия решений в условиях неопределенности на основе статистической методологии. Использование современных компьютеров ускорило крупномасштабные статистические вычисления, а также сделало возможными новые методы, которые непрактично выполнять вручную. Статистика продолжает оставаться областью активных исследований, например, по проблеме анализа больших данных . ^[42]

Статистические данные

Сбор данных

Выборка

Когда полные данные переписи собрать невозможно, статистики собирают выборочные данные, разрабатывая конкретные планы экспериментов и выборки обследований . Сама статистика также предоставляет инструменты для прогнозирования и прогнозирования с помощью статистических моделей .

Чтобы использовать выборку в качестве ориентира для всей совокупности, важно, чтобы она действительно представляла генеральную совокупность в целом. Репрезентативная выборка гарантирует, что выводы и заключения могут безопасно распространяться от выборки на генеральную совокупность в целом. Основная проблема заключается в определении степени репрезентативности выбранной выборки. Статистика предлагает методы оценки и исправления любых ошибок в процедурах выборки и сбора данных. Существуют также методы планирования эксперимента, которые могут уменьшить эти проблемы в начале исследования, укрепляя его способность узнавать правду о населении.

Теория выборки является частью математической дисциплины теории вероятностей . Вероятность используется в математической статистике для изучения выборочных распределений выборочной статистики и, в более общем плане, свойств статистических процедур . Использование любого статистического метода допустимо, если рассматриваемая система или совокупность удовлетворяют предположениям метода. Разница с точки зрения между классической теорией вероятностей и теорией выборки, грубо говоря, заключается в том, что теория вероятностей начинается с заданных параметров всей совокупности для вывода вероятностей, относящихся к выборкам. Статистический вывод, однако, движется в противоположном направлении — индуктивно выводя из выборок параметры большей или всей совокупности.

Экспериментальные и наблюдательные исследования

Общая цель проекта статистического исследования – изучить причинно-следственную связь и, в частности, сделать вывод о влиянии изменений значений предикторов или независимых переменных на зависимые переменные . Существует два основных типа причинно-следственных статистических исследований: экспериментальные исследования и наблюдательные исследования . В обоих типах исследований наблюдается влияние различий независимой переменной (или переменных) на поведение зависимой переменной. Разница между этими двумя типами заключается в том, как на самом деле проводится исследование. Каждый из них может быть очень эффективным. Экспериментальное исследование включает в себя проведение измерений изучаемой системы, манипулирование системой, а затем проведение дополнительных измерений на разных уровнях с использованием той же процедуры, чтобы определить, изменило ли манипуляция значения измерений. Напротив, наблюдательное исследование не предполагает экспериментальных манипуляций . Вместо этого собираются данные и исследуются корреляции между предикторами и ответом. Хотя инструменты анализа данных лучше всего работают с данными рандомизированных исследований , они также применяются и к другим видам данных, например, к естественным экспериментам и наблюдательным исследованиям ^[43] , для которых статистики будут использовать модифицированный, более структурированный метод оценки (например, Разница в оценке различий и инструментальных переменных (среди многих других), которые дают непротиворечивые оценки .

Эксперименты

Основными этапами статистического эксперимента являются:

Планирование исследования, включая определение количества повторов исследования, с использованием следующей информации: предварительные оценки размера эффектов лечения , альтернативные гипотезы и предполагаемая экспериментальная вариабельность . Необходимо учитывать выбор субъектов эксперимента и этику исследования. Статистики рекомендуют в экспериментах сравнивать (по крайней мере) одно новое лечение со стандартным лечением или контролем, чтобы обеспечить объективную оценку разницы в эффектах лечения.
Планирование экспериментов с использованием блокировки для уменьшения влияния мешающих переменных и рандомизированное назначение лечения испытуемым, чтобы обеспечить объективную оценку эффектов лечения и ошибок эксперимента. На этом этапе экспериментаторы и статистики пишут протокол эксперимента , который будет определять проведение эксперимента и определяет первичный анализ экспериментальных данных.
Проведение эксперимента в соответствии с протоколом эксперимента и анализ данных в соответствии с протоколом эксперимента.
Дальнейшее изучение набора данных в ходе вторичного анализа, чтобы предложить новые гипотезы для будущих исследований.
Документирование и представление результатов исследования.

Особую озабоченность вызывают эксперименты над человеческим поведением. В знаменитом исследовании Хоторна изучались изменения в рабочей среде на заводе в Хоторне компании Western Electric . Исследователей интересовало, повысит ли повышенное освещение производительность труда работников сборочной линии . Исследователи сначала измерили продуктивность растения, затем изменили освещение на участке растения и проверили, влияют ли изменения освещения на продуктивность. Оказалось, что производительность действительно улучшилась (в условиях эксперимента). Однако сегодня исследование подвергается резкой критике за ошибки в экспериментальных процедурах, в частности за отсутствие контрольной группы и слепоту . Эффект Хоторна означает обнаружение того, что результат (в данном случае производительность труда) изменился в результате самого наблюдения. Участники исследования в Хоторне стали более продуктивными не потому, что изменилось освещение, а потому, что за ними наблюдали. ^[44]

Наблюдательное исследование

Примером наблюдательного исследования является исследование, изучающее связь между курением и раком легких. В этом типе исследования обычно используется опрос для сбора наблюдений об интересующей области, а затем выполняется статистический анализ. В этом случае исследователи будут собирать наблюдения как за курильщиками, так и за некурящими, возможно, посредством когортного исследования , а затем искать количество случаев рака легких в каждой группе. ^[45] Исследование « случай-контроль» — это еще один тип обсервационного исследования, в котором приглашаются к участию люди с интересующим исходом или без него (например, рак легких) и собираются истории их воздействия.

Типы данных

Были предприняты различные попытки создать таксономию уровней измерения . Психофизик Стэнли Смит Стивенс определил номинальную, порядковую, интервальную и пропорциональную шкалы. Номинальные измерения не имеют значимого рангового порядка значений и допускают любое однозначное (инъективное) преобразование. Порядковые измерения имеют неточную разницу между последовательными значениями, но имеют значимый порядок этих значений и допускают любые преобразования, сохраняющие порядок. Для интервальных измерений определены значимые расстояния между измерениями, но нулевое значение является произвольным (как в случае с измерениями долготы и температуры в градусах Цельсия или Фаренгейта ) и допускает любое линейное преобразование. Измерения отношений имеют как значимое нулевое значение, так и определенные расстояния между различными измерениями и допускают любое преобразование масштабирования.

Поскольку переменные, соответствующие только номинальным или порядковым измерениям, не могут быть разумно измерены численно, иногда они группируются как категориальные переменные , тогда как измерения отношений и интервалов группируются вместе как количественные переменные , которые могут быть как дискретными , так и непрерывными из-за их числовой природы. Такие различия часто можно слабо коррелировать с типом данных в информатике, поскольку дихотомические категориальные переменные могут быть представлены с помощью логического типа данных , политомические категориальные переменные с произвольно назначенными целыми числами в целочисленном типе данных и непрерывные переменные с реальным типом данных, включающим арифметика с плавающей запятой . Но сопоставление типов данных информатики с типами статистических данных зависит от того, какая категоризация последних осуществляется.

Были предложены и другие классификации. Например, Мостеллер и Тьюки (1977) ^[46] различали степени, ранги, подсчитываемые дроби, подсчеты, суммы и остатки. Нелдер (1990) ^[47] описал непрерывный подсчет, непрерывные отношения, отношения подсчета и категориальные режимы данных. (См. также: Крисман (1998), ^[48] ван ден Берг (1991). ^[49] ).

Вопрос о том, уместно ли применять различные виды статистических методов к данным, полученным в результате различных процедур измерения, осложняется проблемами, касающимися преобразования переменных и точной интерпретации исследовательских вопросов. «Отношения между данными и тем, что они описывают, просто отражают тот факт, что определенные виды статистических утверждений могут иметь значения истинности, которые не являются инвариантными при некоторых преобразованиях. Разумно ли рассматривать преобразование, зависит от вопроса, на который человек пытается ответить. ." ^[50]^{: 82}

Методы

Описательная статистика

Описательная статистика (в смысле существительного-числа ) — это сводная статистика , которая количественно описывает или обобщает особенности набора информации , ^[51] тогда как описательная статистика в смысле массового существительного — это процесс использования и анализа этой статистики. Описательная статистика отличается от статистики выводов (или индуктивной статистики) тем, что описательная статистика направлена на обобщение выборки , а не на использование данных для изучения совокупности , которую, как предполагается, представляет выборка данных. ^[52]

Выведенный статистика

Статистический вывод — это процесс использования анализа данных для определения свойств основного распределения вероятностей . ^[53] Инференциальный статистический анализ выводит свойства популяции , например, путем проверки гипотез и получения оценок. Предполагается, что наблюдаемый набор данных выбран из более крупной совокупности. Инференциальную статистику можно противопоставить описательной статистике . Описательная статистика занимается исключительно свойствами наблюдаемых данных и не основывается на предположении, что данные поступают из более крупной совокупности. ^[54]

Терминология и теория логической статистики

Статистика, оценки и основные величины

Рассмотрим независимые одинаково распределенные (IID) случайные величины с заданным распределением вероятностей : стандартная теория статистического вывода и оценки определяет случайную выборку как случайный вектор , заданный вектором-столбцом этих переменных IID. ^[55] Исследуемая популяция описывается распределением вероятностей, которое может иметь неизвестные параметры .

Статистика — это случайная величина, которая является функцией случайной выборки, а не функцией неизвестных параметров . Однако распределение вероятностей статистики может иметь неизвестные параметры. Рассмотрим теперь функцию неизвестного параметра: оценщик — это статистика, используемая для оценки такой функции. Обычно используемые оценки включают выборочное среднее , несмещенную выборочную дисперсию и выборочную ковариацию .

Случайная величина, которая является функцией случайной выборки и неизвестного параметра, но распределение вероятностей которой не зависит от неизвестного параметра, называется основной величиной или опорной величиной. Широко используемые опорные точки включают z-показатель , статистику хи-квадрат и t-значение Стьюдента .

Из двух оценок данного параметра считается , что тот, у которого меньшая среднеквадратическая ошибка, является более эффективным . Кроме того, оценщик называется несмещенным , если его ожидаемое значение равно истинному значению оцениваемого неизвестного параметра, и асимптотически несмещенным, если его ожидаемое значение сходится в пределе к истинному значению такого параметра.

Другие желательные свойства для оценок включают: оценки UMVUE , которые имеют наименьшую дисперсию для всех возможных значений оцениваемого параметра (обычно это свойство легче проверить, чем эффективность) и непротиворечивые оценки , которые сходятся по вероятности к истинному значению такого параметра. .

При этом остается вопрос о том, как получить оценки в данной ситуации и провести расчет, было предложено несколько методов: метод моментов , метод максимального правдоподобия , метод наименьших квадратов и более современный метод оценки уравнений .

Нулевая гипотеза и альтернативная гипотеза

Интерпретация статистической информации часто может включать разработку нулевой гипотезы , которая обычно (но не обязательно) заключается в том, что между переменными не существует взаимосвязи или что с течением времени не произошло никаких изменений. ^[56]^[57]

Лучшей иллюстрацией для новичка является затруднительное положение, с которым сталкивается уголовный процесс. Нулевая гипотеза H0 _{утверждает} , что подсудимый невиновен, тогда как альтернативная гипотеза H1 _{утверждает} , что подсудимый виновен. Обвинение предъявлено в связи с подозрением в вине. H ₀ (статус-кво) противостоит H ₁ и сохраняется, если H ₁ не подкреплен доказательствами «вне разумного сомнения». Однако «неопровержение H ₀ » в данном случае не означает невиновности, а лишь то, что доказательств было недостаточно для осуждения. Таким образом, жюри не обязательно принимает H ₀ , но не может отклонить H ₀ . Хотя невозможно «доказать» нулевую гипотезу, можно проверить, насколько она близка к истинности, с помощью степенного теста , который проверяет наличие ошибок второго рода .

То, что статистики называют альтернативной гипотезой, — это просто гипотеза, противоречащая нулевой гипотезе.

Ошибка

Если исходить из нулевой гипотезы , можно выделить две широкие категории ошибок:

Ошибки типа I , при которых нулевая гипотеза ошибочно отвергается, что дает «ложноположительный результат».
Ошибки типа II , когда нулевую гипотезу не удается отвергнуть и фактическая разница между популяциями упускается, что дает «ложноотрицательный результат».

Стандартное отклонение относится к степени, в которой отдельные наблюдения в выборке отличаются от центрального значения, такого как среднее значение выборки или совокупности, тогда как стандартная ошибка относится к оценке разницы между средним значением выборки и средним значением генеральной совокупности.

Статистическая ошибка — это величина, на которую наблюдение отличается от ожидаемого значения . Остаток — это величина , на которую наблюдение отличается от значения, которое оценщик ожидаемого значения принимает на данной выборке (также называемый прогнозом).

Среднеквадратическая ошибка используется для получения эффективных оценок — широко используемого класса оценок. Среднеквадратическая ошибка — это просто квадратный корень из среднеквадратической ошибки.

Многие статистические методы стремятся минимизировать остаточную сумму квадратов , и они называются « методами наименьших квадратов » в отличие от метода наименьших абсолютных отклонений . Последний придает равный вес малым и большим ошибкам, тогда как первый придает больший вес большим ошибкам. Остаточная сумма квадратов также дифференцируема , что обеспечивает удобное свойство для выполнения регрессии . Метод наименьших квадратов, применяемый к линейной регрессии , называется обычным методом наименьших квадратов, а метод наименьших квадратов, применяемый к нелинейной регрессии , называется нелинейным методом наименьших квадратов . Также в модели линейной регрессии недетерминированная часть модели называется ошибкой, возмущением или, проще говоря, шумом. И линейная, и нелинейная регрессия рассматриваются в полиномиальном методе наименьших квадратов , который также описывает дисперсию в прогнозе зависимой переменной (ось Y) как функцию независимой переменной (ось X) и отклонений (ошибок, шума, возмущений) по расчетной (подогнанной) кривой.

Процессы измерения, генерирующие статистические данные, также подвержены ошибкам. Многие из этих ошибок классифицируются как случайные (шум) или систематические ( предвзятость ), но другие типы ошибок (например, грубая ошибка, например, когда аналитик сообщает неправильные единицы измерения) также могут иметь важное значение. Наличие недостающих данных или цензуры может привести к необъективным оценкам , и для решения этих проблем были разработаны специальные методы. ^[58]

Интервальная оценка

Доверительные интервалы : красная линия — истинное значение среднего значения в этом примере, синие линии — случайные доверительные интервалы для 100 реализаций.

Большинство исследований выбирают только часть населения, поэтому результаты не полностью отражают всю популяцию. Любые оценки, полученные на основе выборки, лишь приблизительно соответствуют величине совокупности. Доверительные интервалы позволяют статистикам выразить, насколько близко оценка выборки соответствует истинному значению для всей совокупности. Часто они выражаются как 95% доверительные интервалы. Формально 95% доверительный интервал для значения — это диапазон, в котором, если бы отбор проб и анализ повторялись в тех же условиях (с получением другого набора данных), интервал включал бы истинное (популяционное) значение в 95% всех возможных случаев. . Это не означает, что вероятность того, что истинное значение находится в доверительном интервале, составляет 95%. С точки зрения частотности такое утверждение даже не имеет смысла, поскольку истинное значение не является случайной величиной . Либо истинное значение находится в заданном интервале, либо выходит за его пределы. Однако верно то, что до того, как будут выбраны какие-либо данные и составлен план построения доверительного интервала, вероятность того, что еще не рассчитанный интервал будет охватывать истинное значение, составляет 95 %: в этот момент пределы интервала представляют собой еще не наблюдаемые случайные величины . Один из подходов, который действительно дает интервал, который можно интерпретировать как имеющий заданную вероятность содержания истинного значения, заключается в использовании достоверного интервала из байесовской статистики : этот подход зависит от другого способа интерпретации того, что подразумевается под «вероятностью» , то есть как байесовская вероятность .

В принципе доверительные интервалы могут быть симметричными или асимметричными. Интервал может быть асимметричным, поскольку он работает как нижняя или верхняя граница параметра (левосторонний интервал или правосторонний интервал), но он также может быть асимметричным, поскольку двусторонний интервал построен с нарушением симметрии вокруг оценки. Иногда границы доверительного интервала достигаются асимптотически, и они используются для аппроксимации истинных границ.

Значение

Статистика редко дает простой ответ типа «да/нет» на анализируемый вопрос. Интерпретация часто сводится к уровню статистической значимости, применяемой к числам, и часто относится к вероятности того, что значение точно отвергнет нулевую гипотезу (иногда называемое p -значением ).

Стандартный подход ^[55] заключается в проверке нулевой гипотезы против альтернативной гипотезы. Критическая область — это набор значений оценщика, который приводит к опровержению нулевой гипотезы. Таким образом, вероятность ошибки типа I — это вероятность того, что средство оценки принадлежит критической области при условии, что нулевая гипотеза верна ( статистическая значимость ), а вероятность ошибки типа II — это вероятность того, что средство оценки не принадлежит критической области при условии, что альтернативная гипотеза верна. Статистическая мощность теста — это вероятность того, что он правильно отклонит нулевую гипотезу, когда нулевая гипотеза ложна.

Ссылка на статистическую значимость не обязательно означает, что общий результат значим в реальном мире. Например, в крупном исследовании лекарства может быть показано, что лекарство оказывает статистически значимый, но очень небольшой положительный эффект, так что препарат вряд ли сможет заметно помочь пациенту.

Хотя в принципе приемлемый уровень статистической значимости может быть предметом споров, уровень значимости — это наибольшее значение p, которое позволяет тесту отклонить нулевую гипотезу. Этот тест логически эквивалентен утверждению, что значение p — это вероятность (при условии, что нулевая гипотеза верна) наблюдения результата, по крайней мере столь же экстремального, как статистика теста . Следовательно, чем меньше уровень значимости, тем меньше вероятность совершения ошибки I рода.

С этой структурой обычно связаны некоторые проблемы (см. Критику проверки гипотез ):

Разница, которая имеет высокую статистическую значимость, все же может не иметь практического значения, но можно правильно сформулировать тесты, чтобы учесть это. Один из ответов предполагает выход за рамки сообщения только об уровне значимости и включение значения p при сообщении о том, отклонена или принята гипотеза. Однако значение p не указывает на размер или важность наблюдаемого эффекта и может также преувеличивать важность незначительных различий в крупных исследованиях. Лучшим и все более распространенным подходом является сообщение о доверительных интервалах . Хотя они производятся на основе тех же расчетов, что и тесты гипотез или значения p , они описывают как размер эффекта, так и окружающую его неопределенность.
Ошибка транспонированного условного условия, также известная как ошибка прокурора : критика возникает потому, что подход к проверке гипотез заставляет отдавать предпочтение одной гипотезе ( нулевой гипотезе ), поскольку оценивается вероятность наблюдаемого результата при условии нулевой гипотезы, а не вероятность нулевая гипотеза с учетом наблюдаемого результата. Альтернативой этому подходу является байесовский вывод , хотя он требует установления априорной вероятности . ^[59]
Отвержение нулевой гипотезы не означает автоматического доказательства альтернативной гипотезы.
Как и все в индуктивной статистике, он зависит от размера выборки, и поэтому при «толстых хвостах » значения p могут быть серьезно рассчитаны неправильно. ^{[ нужны разъяснения ]}

Примеры

Некоторые известные статистические тесты и процедуры:

Исследовательский анализ данных

Исследовательский анализ данных ( EDA ) — это подход к анализу наборов данных для обобщения их основных характеристик, часто с помощью визуальных методов. Статистическая модель может использоваться или нет, но в первую очередь EDA предназначена для того, чтобы увидеть, что данные могут сказать нам помимо формального моделирования или задачи проверки гипотез.

Неправильное использование

Неправильное использование статистики может привести к тонким, но серьезным ошибкам в описании и интерпретации — тонким в том смысле, что такие ошибки допускают даже опытные профессионалы, и серьезным в том смысле, что они могут привести к разрушительным ошибкам в принятии решений. Например, социальная политика, медицинская практика и надежность таких сооружений, как мосты, — все это зависит от правильного использования статистики.

Даже если статистические методы применяются правильно, результаты могут быть трудно интерпретировать тем, у кого нет опыта. Статистическая значимость тенденции в данных, которая измеряет степень, в которой тенденция может быть вызвана случайными изменениями в выборке, может совпадать, а может и не совпадать с интуитивным ощущением ее значимости. Набор базовых статистических навыков (и скептицизма), которые необходимы людям для правильного обращения с информацией в повседневной жизни, называется статистической грамотностью .

Существует общее мнение, что статистическими знаниями слишком часто намеренно злоупотребляют , находя способы интерпретации только тех данных, которые выгодны их представителю. ^[60] Недоверие и непонимание статистики связано с цитатой: « Есть три вида лжи: ложь, наглая ложь и статистика ». Неправильное использование статистики может быть как непреднамеренным, так и преднамеренным, и в книге Даррелла Хаффа «Как лгать со статистикой» [ ^60] изложен ряд соображений. В попытке пролить свет на использование и неправильное использование статистики проводятся обзоры статистических методов, используемых в конкретных областях (например, Warne, Lazo, Ramos и Ritter (2012)). ^[61]

Способы избежать неправильного использования статистики включают использование правильных диаграмм и избежание предвзятости . ^[62] Неправильное использование может произойти, когда выводы чрезмерно обобщаются и утверждаются, что они репрезентативны для большего, чем они есть на самом деле, часто сознательно или неосознанно игнорируя предвзятость выборки. ^[63] Гистограммы, пожалуй, самые простые в использовании и понимании диаграммы, их можно создавать вручную или с помощью простых компьютерных программ. ^[62] Большинство людей не ищут предвзятости или ошибок, поэтому их не замечают. Таким образом, люди часто могут верить, что что-то является правдой, даже если это не очень хорошо представлено . ^[63] Чтобы данные, собранные на основе статистики, были правдоподобными и точными, взятая выборка должна быть репрезентативной в целом. ^[64] По словам Хаффа, «Надежность образца может быть разрушена [предвзятостью]... позвольте себе некоторую степень скептицизма». ^[65]

Чтобы помочь в понимании статистики, Хафф предложил ряд вопросов, которые следует задавать в каждом случае: ^[60]

Кто так говорит? (Есть ли у него/нее корысть?)
Откуда он/она знает? (Есть ли у него/нее ресурсы, чтобы знать факты?)
Чего не хватает? (Дает ли он/она полную картину?)
Кто-то сменил тему? (Предлагает ли он/она нам правильный ответ на неверную проблему?)
Имеет ли это смысл? (Логично ли его/ее заключение и соответствует ли оно тому, что мы уже знаем?)

Неправильная интерпретация: корреляция

Концепция корреляции особенно примечательна из-за потенциальной путаницы, которую она может вызвать. Статистический анализ набора данных часто показывает, что две переменные (свойства) рассматриваемой совокупности имеют тенденцию изменяться вместе, как если бы они были связаны. Например, исследование годового дохода, в котором также учитывается возраст смерти, может обнаружить, что бедные люди, как правило, живут короче, чем богатые люди. Говорят, что эти две переменные коррелируют; однако они могут быть или не быть причиной друг друга. Явление корреляции может быть вызвано третьим, ранее не рассматривавшимся явлением, называемым скрытой переменной или мешающей переменной . По этой причине невозможно сразу сделать вывод о наличии причинно-следственной связи между двумя переменными.

Приложения

Прикладная статистика, теоретическая статистика и математическая статистика

Прикладная статистика, иногда называемая статистической наукой, ^[66] включает в себя описательную статистику и применение статистических выводов. ^[67]^[68] Теоретическая статистика касается логических аргументов, лежащих в основе обоснования подходов к статистическим выводам , а также охватывающей математическую статистику . Математическая статистика включает в себя не только манипуляции с распределениями вероятностей , необходимые для получения результатов, связанных с методами оценки и вывода, но также различные аспекты вычислительной статистики и планирования экспериментов .

Статистические консультанты могут помочь организациям и компаниям, у которых нет собственного опыта по их конкретным вопросам.

Машинное обучение и интеллектуальный анализ данных

Модели машинного обучения — это статистические и вероятностные модели, которые фиксируют закономерности в данных с помощью вычислительных алгоритмов.

Статистика в академических кругах

Статистика применима к широкому кругу академических дисциплин , включая естественные и социальные науки , управление и бизнес. Статистика бизнеса применяет статистические методы в эконометрике , аудите , производстве и операциях, включая улучшение услуг и маркетинговые исследования. ^[69] Исследование двух журналов по тропической биологии показало, что 12 наиболее частыми статистическими тестами являются: дисперсионный анализ (ANOVA), критерий хи-квадрат , t-критерий Стьюдента , линейная регрессия , коэффициент корреляции Пирсона , U-критерий Манна-Уитни. , критерий Крускала-Уоллиса , индекс разнообразия Шеннона , критерий диапазона Тьюки , кластерный анализ , коэффициент ранговой корреляции Спирмена и анализ главных компонент . ^[70]

Типичный курс статистики охватывает описательную статистику, вероятность, биномиальное и нормальное распределения , проверку гипотез и доверительных интервалов, линейную регрессию и корреляцию. ^[71] Современные фундаментальные статистические курсы для студентов бакалавриата сосредоточены на правильном выборе тестов, интерпретации результатов и использовании бесплатного статистического программного обеспечения . ^[70]

Статистические вычисления

Быстрый и устойчивый рост вычислительной мощности, начавшийся со второй половины 20-го века, оказал существенное влияние на практику статистической науки. Ранние статистические модели почти всегда относились к классу линейных моделей , но мощные компьютеры в сочетании с подходящими численными алгоритмами вызвали повышенный интерес к нелинейным моделям (таким как нейронные сети ), а также создание новых типов, таких как обобщенные линейные модели. и многоуровневые модели .

Увеличение вычислительной мощности также привело к росту популярности интенсивных вычислений, основанных на повторной выборке , таких как тесты перестановки и бутстрап , в то время как такие методы, как выборка Гиббса , сделали использование байесовских моделей более осуществимым. Компьютерная революция имеет последствия для будущего статистики с новым акцентом на «экспериментальную» и «эмпирическую» статистику. В настоящее время доступно большое количество статистического программного обеспечения как общего, так и специального назначения. Примеры доступного программного обеспечения, способного выполнять сложные статистические вычисления, включают такие программы, как Mathematica , SAS , SPSS и R.

Статистика бизнеса

В бизнесе «статистика» является широко используемым инструментом управления и поддержки принятия решений . Он особенно применяется в финансовом менеджменте , маркетинговом менеджменте , а также в управлении производством , услугами и операциями . ^[72]^[73] Статистика также активно используется в управленческом учете и аудите . Дисциплина « Наука управления» формализует использование статистики и другой математики в бизнесе. ( Эконометрика – это применение статистических методов к экономическим данным с целью придания эмпирического содержания экономическим отношениям .)

Типичный курс «Бизнес-статистика» предназначен для бизнес-специалистов и охватывает ^[74] описательную статистику ( сбор , описание, анализ и обобщение данных), вероятность (обычно биномиальное и нормальное распределения ), проверку гипотез и доверительные интервалы, линейная регрессия и корреляция; (Последующие) курсы могут включать прогнозирование , временные ряды , деревья решений , множественную линейную регрессию и другие темы из бизнес-аналитики в более общем плане. См. также Бизнес-математика § Университетский уровень . Программы профессиональной сертификации , такие как CFA , часто включают темы из статистики.

Статистика применительно к математике или искусству

Традиционно статистика занималась выводами с использованием полустандартизированной методологии, которая «требовала изучения» в большинстве наук. Эта традиция изменилась с использованием статистики в контекстах, не связанных с выводами. То, что когда-то считалось сухим предметом, воспринимаемым во многих областях как требование для получения ученой степени, теперь рассматривается с энтузиазмом. ^{[ по мнению кого? ]} Первоначально высмеиваемая некоторыми математическими пуристами, теперь она считается важной методологией в определенных областях.

В теории чисел диаграммы рассеяния данных , генерируемые функцией распределения, могут быть преобразованы с помощью знакомых инструментов, используемых в статистике, для выявления основных закономерностей, которые затем могут привести к гипотезам.
Предиктивные методы статистики в прогнозировании , сочетающие теорию хаоса и фрактальную геометрию, могут быть использованы для создания видеоработ. ^[75]
Процессуальное искусство Джексона Поллока основывалось на художественных экспериментах, посредством которых художественно раскрывались основные закономерности в природе. ^[76] С появлением компьютеров статистические методы стали применяться для формализации таких естественных процессов, основанных на распределении, для создания и анализа движущегося видеоарта. ^{[ нужна цитата ]}
Методы статистики могут использоваться предикативно в перформансе , например, в карточном фокусе, основанном на марковском процессе , который работает только в некоторых случаях, случай которого можно предсказать с помощью статистической методологии.
Статистику можно использовать для предикативного создания искусства, как в статистической или стохастической музыке, изобретенной Яннисом Ксенакисом , где музыка зависит от исполнения. Хотя этот тип артистизма не всегда проявляется так, как ожидалось, его поведение предсказуемо и настраивается с помощью статистики.

Специализированные дисциплины

Статистические методы используются в широком спектре видов научных и социальных исследований, включая: биостатистику , вычислительную биологию , вычислительную социологию , сетевую биологию , социальные науки , социологию и социальные исследования . В некоторых областях исследований прикладная статистика используется настолько широко, что для них используется специализированная терминология . К этим дисциплинам относятся:

Актуарная наука (оценивает риски в страховой и финансовой отраслях)
Прикладная информационная экономика
Астростатистика (статистическая оценка астрономических данных)
Биостатистика
Хемометрика (для анализа данных по химии )
Интеллектуальный анализ данных (применение статистики и распознавания образов для извлечения знаний из данных)
Наука о данных ( см. также: Наука о данных#Отношение к статистике )
Демография (статистическое изучение населения)
Эконометрика (статистический анализ экономических данных)
Энергетическая статистика
Инженерная статистика
Эпидемиология (статистический анализ заболеваний)
География и географические информационные системы , особенно в области пространственного анализа.
Обработка изображений
Юриметрика ( право )
Медицинская статистика
Политическая наука
Психологическая статистика
Инженерия надежности
Социальная статистика
Статистическая механика

Кроме того, существуют отдельные виды статистического анализа, которые также разработали свою собственную специализированную терминологию и методологию:

Бутстрап / складной нож передискретизация
Многомерная статистика
Статистическая классификация
Структурированный анализ данных
Моделирование структурными уравнениями
Методика опроса
Анализ выживания
Статистика в различных видах спорта, особенно в бейсболе (известном как саберметрика ) и крикете.

Статистика также является ключевым базовым инструментом в бизнесе и производстве. Он используется для понимания изменчивости систем измерения, процессов управления (например, в статистическом управлении процессами или SPC), для обобщения данных и принятия решений на основе данных. В этих ролях это ключевой инструмент и, возможно, единственный надежный инструмент. ^{[ нужна цитата ]}

Смотрите также

Основы и основные области статистики

дальнейшее чтение

Лидия Денворт, «Значительная проблема: стандартные научные методы подвергаются критике. Изменится ли что-нибудь?», Scientific American , vol. 321, нет. 4 (октябрь 2019 г.), стр. 62–67. «Использование значений p в течение почти столетия [с 1925 года] для определения статистической значимости экспериментальных результатов способствовало возникновению иллюзии уверенности и [к] кризисам воспроизводимости во многих научных областях . Растет решимость реформировать статистический анализ... Некоторые [исследователи] предлагают изменить статистические методы, тогда как другие готовы отказаться от порога для определения «значимых» результатов». (стр. 63.)
Барбара Илловски; Сьюзан Дин (2014). Вводная статистика. OpenStax CNX. ISBN 978-1938168208.
Стокбургер, Дэвид В. «Вводная статистика: концепции, модели и приложения». Государственный университет Миссури (3-е веб-изд.). Архивировано из оригинала 28 мая 2020 года.
Статистика OpenIntro, заархивированная 16 июня 2019 г. на Wayback Machine , 3-е издание, авторы: Диез, Барр и Четинкая-Рундел.
Стивен Джонс, 2010. Статистика в психологии: объяснения без уравнений. Пэлгрейв Макмиллан. ISBN 978-1137282392 .
Коэн, Дж (1990). «Что я узнал (на данный момент)» (PDF) . Американский психолог . 45 (12): 1304–1312. дои : 10.1037/0003-066x.45.12.1304. S2CID 7180431. Архивировано из оригинала (PDF) 18 октября 2017 г.
Гигеренцер, Г. (2004). «Бессмысленная статистика». Журнал социально-экономики . 33 (5): 587–606. doi :10.1016/j.socec.2004.09.033.
Иоаннидис, JPA (2005). «Почему большинство опубликованных результатов исследований ложны». ПЛОС Медицина . 2 (4): 696–701. doi : 10.1371/journal.pmed.0040168 . ПМК 1855693 . ПМИД 17456002.

Внешние ссылки

(Электронная версия): TIBCO Software Inc. (2020). Учебник по науке о данных.
Онлайн-статистическое образование: интерактивный мультимедийный курс обучения. Разработано Университетом Райса (ведущим разработчиком), Университетом Хьюстона Клир-Лейк, Университетом Тафтса и Национальным научным фондом.
Ресурсы статистических вычислений Калифорнийского университета в Лос-Анджелесе (архивировано 17 июля 2006 г.)
Философия статистики из Стэнфордской энциклопедии философии.