Статистика (от немецкого : Statistik , ориг. «описание государства , страны» [1] ) — дисциплина, которая занимается сбором, организацией, анализом, интерпретацией и представлением данных . [2] При применении статистики к научной, промышленной или социальной проблеме принято начинать со статистической совокупности или статистической модели для изучения. Совокупности могут быть различными группами людей или объектов, такими как «все люди, живущие в стране» или «каждый атом, составляющий кристалл». Статистика имеет дело со всеми аспектами данных, включая планирование сбора данных с точки зрения разработки опросов и экспериментов . [3]
Когда данные переписи не могут быть собраны, статистики собирают данные, разрабатывая специальные экспериментальные планы и выборки обследований . Репрезентативная выборка гарантирует, что выводы и заключения могут быть обоснованно распространены от выборки на популяцию в целом. Экспериментальное исследование включает в себя проведение измерений изучаемой системы, манипулирование системой, а затем проведение дополнительных измерений с использованием той же процедуры, чтобы определить, изменило ли манипулирование значения измерений. Напротив, наблюдательное исследование не включает в себя экспериментальное манипулирование.
В анализе данных используются два основных статистических метода : описательная статистика , которая суммирует данные из выборки с использованием таких индексов , как среднее или стандартное отклонение , и выводная статистика , которая делает выводы из данных, которые подвержены случайным изменениям (например, ошибки наблюдений, выборочная вариация). [4] Описательная статистика чаще всего связана с двумя наборами свойств распределения ( выборки или совокупности): центральная тенденция (или местоположение ) стремится охарактеризовать центральное или типичное значение распределения, в то время как дисперсия (или изменчивость ) характеризует степень, в которой члены распределения отклоняются от своего центра и друг от друга. Выводы, сделанные с использованием математической статистики, используют структуру теории вероятностей , которая занимается анализом случайных явлений.
Стандартная статистическая процедура включает сбор данных, приводящих к проверке взаимосвязи между двумя статистическими наборами данных или набором данных и синтетическими данными, взятыми из идеализированной модели. Предлагается гипотеза для статистической взаимосвязи между двумя наборами данных, альтернатива идеализированной нулевой гипотезе об отсутствии взаимосвязи между двумя наборами данных. Отклонение или опровержение нулевой гипотезы выполняется с помощью статистических тестов, которые количественно определяют смысл, в котором нулевая гипотеза может быть доказана ложной, учитывая данные, которые используются в тесте. Работая с нулевой гипотезой, распознаются две основные формы ошибок: ошибки типа I (нулевая гипотеза отклоняется, когда она на самом деле верна, давая «ложноположительный результат») и ошибки типа II (нулевая гипотеза не может быть отклонена, когда она на самом деле ложна, давая «ложноотрицательный результат»). С этой структурой связано множество проблем, начиная от получения достаточного размера выборки до указания адекватной нулевой гипотезы. [4]
Статистические процессы измерения также подвержены ошибкам в отношении данных, которые они генерируют. Многие из этих ошибок классифицируются как случайные (шум) или систематические ( смещение ), но могут также возникать и другие типы ошибок (например, промах, когда аналитик сообщает неверные единицы). Наличие отсутствующих данных или цензурирование может привести к смещенным оценкам, и для решения этих проблем были разработаны специальные методы.
Статистика — это математическая наука, которая относится к сбору, анализу, интерпретации или объяснению и представлению данных , [5] или как раздел математики . [6] Некоторые считают статистику отдельной математической наукой, а не разделом математики. В то время как многие научные исследования используют данные, статистика, как правило, занимается использованием данных в контексте неопределенности и принятия решений в условиях неопределенности. [7] [8]
При применении статистики к проблеме принято начинать с популяции или процесса, которые необходимо изучить. Популяции могут быть разнообразными темами, например, «все люди, живущие в стране» или «каждый атом, составляющий кристалл». В идеале статистики собирают данные обо всей популяции (операция, называемая переписью ). Это может быть организовано государственными статистическими институтами. Описательная статистика может использоваться для обобщения данных о популяции. Числовые дескрипторы включают среднее значение и стандартное отклонение для непрерывных данных (например, доход), в то время как частота и процент более полезны с точки зрения описания категориальных данных (например, образование).
Если перепись невозможна, изучается выбранное подмножество населения, называемое выборкой . После того, как определена выборка, которая является репрезентативной для населения, данные собираются для членов выборки в наблюдательной или экспериментальной обстановке. Опять же, описательная статистика может использоваться для обобщения данных выборки. Однако составление выборки содержит элемент случайности; следовательно, числовые дескрипторы из выборки также подвержены неопределенности. Чтобы сделать значимые выводы о всей популяции, необходима выводная статистика . Она использует закономерности в данных выборки, чтобы сделать выводы о представленной популяции, учитывая случайность. Эти выводы могут принимать форму ответов на вопросы типа «да/нет» о данных ( проверка гипотез ), оценки числовых характеристик данных ( оценка ), описания ассоциаций в данных ( корреляция ) и моделирования отношений в данных (например, с помощью регрессионного анализа ). Вывод может распространяться на прогнозирование , предсказание и оценку ненаблюдаемых значений, находящихся в изучаемой популяции или связанных с ней. Он может включать экстраполяцию и интерполяцию временных рядов или пространственных данных , а также интеллектуальный анализ данных .
Математическая статистика — это приложение математики к статистике. Математические методы, используемые для этого, включают математический анализ , линейную алгебру , стохастический анализ , дифференциальные уравнения и теорию вероятностей с мерой . [9] [10]
Формальные обсуждения вывода восходят к математикам и криптографам исламского Золотого века между VIII и XIII веками. Аль-Халиль (717–786) написал « Книгу криптографических сообщений» , которая содержит одно из первых применений перестановок и комбинаций для перечисления всех возможных арабских слов с гласными и без них. [11] «Рукопись расшифровки криптографических сообщений » Аль-Кинди дала подробное описание того, как использовать частотный анализ для расшифровки зашифрованных сообщений, предоставив ранний пример статистического вывода для декодирования . Ибн Адлан (1187–1268) позже внес важный вклад в использование размера выборки в частотном анализе. [11]
Хотя термин «статистика» был введен итальянским ученым Джироламо Гилини в 1589 году в отношении совокупности фактов и информации о государстве, именно немец Готфрид Ахенвалль в 1749 году начал использовать этот термин как совокупность количественной информации в современном значении для этой науки. [12] [13] Самое раннее сочинение, содержащее статистику в Европе, датируется 1663 годом, когда была опубликована книга Джона Граунта « Естественные и политические наблюдения за счетами смертности» . [14] Ранние приложения статистического мышления вращались вокруг потребностей государств в обосновании политики на основе демографических и экономических данных, отсюда и ее статэтимология . Сфера применения дисциплины статистики расширилась в начале 19 века, включив в себя сбор и анализ данных в целом. Сегодня статистика широко используется в правительстве, бизнесе, а также в естественных и социальных науках.
Математические основы статистики развивались из дискуссий, касающихся азартных игр , среди таких математиков, как Джероламо Кардано , Блез Паскаль , Пьер де Ферма и Христиан Гюйгенс . Хотя идея вероятности уже рассматривалась в античном и средневековом праве и философии (например, в работах Хуана Карамуэля ), теория вероятностей как математическая дисциплина оформилась только в самом конце XVII века, в частности, в посмертном труде Якоба Бернулли Ars Conjectandi . [15] Это была первая книга, в которой сфера азартных игр и сфера вероятного (которая касалась мнения, доказательств и аргумента) были объединены и подвергнуты математическому анализу. [16] Метод наименьших квадратов был впервые описан Адриеном-Мари Лежандром в 1805 году, хотя Карл Фридрих Гаусс , по-видимому, использовал его десятилетием ранее, в 1795 году. [17]
Современная область статистики возникла в конце 19-го и начале 20-го века в три этапа. [18] Первая волна, на рубеже веков, была возглавлена работами Фрэнсиса Гальтона и Карла Пирсона , которые превратили статистику в строгую математическую дисциплину, используемую для анализа не только в науке, но также в промышленности и политике. Вклад Гальтона включал введение понятий стандартного отклонения , корреляции , регрессионного анализа и применение этих методов к изучению различных человеческих характеристик — роста, веса и длины ресниц среди прочих. [19] Пирсон разработал коэффициент корреляции Пирсона-произведения-момента , определяемый как произведение-момент, [20] метод моментов для подгонки распределений к выборкам и распределение Пирсона , среди прочего. [21] Гальтон и Пирсон основали Biometrika как первый журнал математической статистики и биостатистики (тогда называвшийся биометрией ), а последний основал первый в мире университетский статистический факультет в Университетском колледже Лондона . [22]
Вторая волна 1910-х и 20-х годов была инициирована Уильямом Сили Госсетом и достигла своей кульминации в идеях Рональда Фишера , который написал учебники, которые должны были определить академическую дисциплину в университетах по всему миру. Наиболее важными публикациями Фишера были его основополагающая работа 1918 года « Корреляция между родственниками при предположении о менделевском наследовании» (в которой впервые был использован статистический термин « дисперсия» ), его классическая работа 1925 года «Статистические методы для научных работников» и его работа 1935 года «Планирование экспериментов» [ 23] [24] [25] , где он разработал строгий дизайн моделей экспериментов . Он создал концепции достаточности , вспомогательной статистики , линейного дискриминатора Фишера и информации Фишера . [26] Он также ввел термин «нулевая гипотеза» во время эксперимента с леди, дегустирующей чай , которая «никогда не была доказана или установлена, но, возможно, была опровергнута в ходе эксперимента». [27] [28] В своей книге 1930 года «Генетическая теория естественного отбора » он применил статистику к различным биологическим концепциям, таким как принцип Фишера [29] (который А. В. Ф. Эдвардс назвал «вероятно, самым знаменитым аргументом в эволюционной биологии ») и « разгон по Фишеру » [30] [ 31] [32] [33] [34] [35] концепция в половом отборе о положительной обратной связи, вызывающей разгон, обнаруженной в эволюции .
Последняя волна, которая в основном включала в себя уточнение и расширение более ранних разработок, возникла в результате совместной работы Эгона Пирсона и Ежи Неймана в 1930-х годах. Они ввели понятия ошибки « типа II », мощности теста и доверительных интервалов . Ежи Нейман в 1934 году показал, что стратифицированная случайная выборка в целом является лучшим методом оценки, чем преднамеренная (квотная) выборка. [36]
Сегодня статистические методы применяются во всех областях, где требуется принятие решений, для получения точных выводов из сопоставленного массива данных и для принятия решений в условиях неопределенности на основе статистической методологии. Использование современных компьютеров ускорило крупномасштабные статистические вычисления, а также сделало возможными новые методы, которые непрактично выполнять вручную. Статистика продолжает оставаться областью активных исследований, например, по проблеме анализа больших данных . [37]
Когда полные данные переписи собрать невозможно, статистики собирают выборочные данные, разрабатывая специальные экспериментальные проекты и выборки обследований . Статистика сама по себе также предоставляет инструменты для прогнозирования и предсказания с помощью статистических моделей .
Чтобы использовать выборку в качестве руководства для всей популяции, важно, чтобы она действительно представляла всю популяцию. Репрезентативная выборка гарантирует, что выводы и заключения могут безопасно распространяться от выборки на популяцию в целом. Основная проблема заключается в определении степени, в которой выбранная выборка действительно является репрезентативной. Статистика предлагает методы оценки и исправления любых смещений в выборке и процедурах сбора данных. Существуют также методы экспериментального проектирования, которые могут уменьшить эти проблемы в начале исследования, усиливая его способность различать истины о популяции.
Теория выборочного метода является частью математической дисциплины теории вероятностей . Вероятность используется в математической статистике для изучения выборочных распределений выборочных статистик и , в более общем плане, свойств статистических процедур . Использование любого статистического метода допустимо, когда рассматриваемая система или популяция удовлетворяет предположениям метода. Разница в точках зрения между классической теорией вероятностей и теорией выборочного метода заключается, грубо говоря, в том, что теория вероятностей исходит из заданных параметров общей популяции, чтобы вывести вероятности, которые относятся к выборкам. Статистический вывод, однако, движется в противоположном направлении — индуктивно выводя из выборок параметры большей или общей популяции.
Общей целью статистического исследовательского проекта является изучение причинности и, в частности, вывод о влиянии изменений значений предикторов или независимых переменных на зависимые переменные . Существует два основных типа причинно-следственных статистических исследований: экспериментальные исследования и наблюдательные исследования . В обоих типах исследований наблюдается влияние различий независимой переменной (или переменных) на поведение зависимой переменной. Разница между двумя типами заключается в том, как на самом деле проводится исследование. Каждое из них может быть очень эффективным. Экспериментальное исследование включает в себя проведение измерений изучаемой системы, манипулирование системой, а затем проведение дополнительных измерений с различными уровнями, используя ту же процедуру, чтобы определить, изменило ли манипулирование значения измерений. Напротив, наблюдательное исследование не включает в себя экспериментальную манипуляцию . Вместо этого собираются данные и исследуются корреляции между предикторами и ответом. Хотя инструменты анализа данных лучше всего работают с данными рандомизированных исследований , они также применяются к другим видам данных, таким как естественные эксперименты и наблюдательные исследования [38] , для которых статистик использовал бы модифицированный, более структурированный метод оценки (например, оценку разницы в разностях и инструментальные переменные , среди многих других), которые дают согласованные оценки .
Основные этапы статистического эксперимента:
Эксперименты с поведением человека вызывают особые опасения. Знаменитое исследование Хоторна изучало изменения в рабочей среде на заводе Хоторна компании Western Electric Company . Исследователи хотели определить, увеличит ли увеличение освещенности производительность рабочих сборочной линии . Сначала исследователи измерили производительность на заводе, затем изменили освещение в определенной зоне завода и проверили, повлияли ли изменения в освещении на производительность. Оказалось, что производительность действительно улучшилась (в условиях эксперимента). Однако сегодня исследование подвергается резкой критике за ошибки в экспериментальных процедурах, в частности за отсутствие контрольной группы и слепоту . Эффект Хоторна относится к обнаружению того, что результат (в данном случае производительность труда) изменился из-за самого наблюдения. Участники исследования Хоторна стали более производительными не потому, что изменилось освещение, а потому, что за ними наблюдали. [39]
Примером наблюдательного исследования является исследование, которое изучает связь между курением и раком легких. Этот тип исследования обычно использует опрос для сбора наблюдений об интересующей области, а затем выполняет статистический анализ. В этом случае исследователи собирают наблюдения как курящих, так и некурящих, возможно, через когортное исследование , а затем ищут количество случаев рака легких в каждой группе. [40] Исследование случай-контроль — это еще один тип наблюдательного исследования, в котором приглашаются к участию люди с интересующим результатом (например, рак легких) и без него, и собираются их истории воздействия.
Были предприняты различные попытки создать таксономию уровней измерения . Психофизик Стэнли Смит Стивенс определил номинальную, порядковую, интервальную и шкалу отношений. Номинальные измерения не имеют осмысленного порядка рангов среди значений и допускают любое преобразование один к одному (инъективное). Порядковые измерения имеют неточные различия между последовательными значениями, но имеют осмысленный порядок этих значений и допускают любое преобразование, сохраняющее порядок. Интервальные измерения имеют осмысленные расстояния между определенными измерениями, но нулевое значение является произвольным (как в случае с измерениями долготы и температуры в градусах Цельсия или Фаренгейта ), и допускают любое линейное преобразование. Измерения отношений имеют как осмысленное нулевое значение, так и расстояния между различными определенными измерениями и допускают любое преобразование перемасштабирования.
Поскольку переменные, соответствующие только номинальным или порядковым измерениям, не могут быть разумно измерены численно, иногда их группируют вместе как категориальные переменные , тогда как измерения отношения и интервала группируют вместе как количественные переменные , которые могут быть как дискретными , так и непрерывными из-за их числовой природы. Такие различия часто можно свободно соотнести с типом данных в информатике, в том смысле, что дихотомические категориальные переменные могут быть представлены с типом данных Boolean , политомические категориальные переменные с произвольно назначенными целыми числами в интегральном типе данных , а непрерывные переменные с типом данных real, включающим арифметику с плавающей точкой . Но отображение типов данных информатики в статистические типы данных зависит от того, какая категоризация последних реализуется.
Были предложены и другие классификации. Например, Мостеллер и Тьюки (1977) [41] различали градации, ранги, подсчитанные дроби, подсчеты, суммы и балансы. Нелдер (1990) [42] описал непрерывные подсчеты, непрерывные отношения, подсчетные отношения и категориальные режимы данных. (См. также: Крисман (1998), [43] ван ден Берг (1991). [44] )
Вопрос о том, целесообразно ли применять различные виды статистических методов к данным, полученным из различных видов процедур измерения, осложняется проблемами, касающимися преобразования переменных и точной интерпретации исследовательских вопросов. «Отношение между данными и тем, что они описывают, просто отражает тот факт, что определенные виды статистических утверждений могут иметь значения истинности, которые не являются инвариантными при некоторых преобразованиях. Будет ли преобразование разумным для рассмотрения, зависит от вопроса, на который пытаешься ответить». [45] : 82
Описательная статистика (в смысле исчисляемого существительного ) — это сводная статистика , которая количественно описывает или суммирует характеристики набора информации , [46] в то время как описательная статистика в смысле массового существительного — это процесс использования и анализа этих статистических данных. Описательная статистика отличается от выводной статистики (или индуктивной статистики) тем, что описательная статистика направлена на суммирование выборки , а не на использование данных для изучения совокупности , которую, как предполагается, представляет выборка данных. [47]
Статистический вывод — это процесс использования анализа данных для выведения свойств базового распределения вероятностей . [48] Выводной статистический анализ выводит свойства совокупности , например, путем проверки гипотез и получения оценок. Предполагается, что наблюдаемый набор данных выбирается из более крупной совокупности. Выводную статистику можно противопоставить описательной статистике . Описательная статистика занимается исключительно свойствами наблюдаемых данных и не основывается на предположении, что данные поступают из более крупной совокупности. [49]
Рассмотрим независимые одинаково распределенные (IID) случайные величины с заданным распределением вероятностей : стандартная теория статистического вывода и оценки определяет случайную выборку как случайный вектор , заданный вектором -столбцом этих IID-переменных. [50] Исследуемая популяция описывается распределением вероятностей, которое может иметь неизвестные параметры.
Статистика — это случайная величина, которая является функцией случайной выборки, но не функцией неизвестных параметров . Однако распределение вероятностей статистики может иметь неизвестные параметры. Рассмотрим теперь функцию неизвестного параметра: оценщик — это статистика, используемая для оценки такой функции. Обычно используемые оценщики включают выборочное среднее , несмещенную выборочную дисперсию и выборочную ковариацию .
Случайная величина, которая является функцией случайной выборки и неизвестного параметра, но распределение вероятностей которой не зависит от неизвестного параметра, называется опорной величиной или pivot. Широко используемые опорные величины включают z-счет , статистику хи-квадрат и t-значение Стьюдента .
Из двух оценок заданного параметра более эффективной считается та, у которой средняя квадратическая ошибка ниже . Кроме того, оценка называется несмещенной, если ее ожидаемое значение равно истинному значению неизвестного оцениваемого параметра, и асимптотически несмещенной, если ее ожидаемое значение сходится в пределе к истинному значению такого параметра.
Другие желательные свойства оценщиков включают: оценщики UMVUE , которые имеют наименьшую дисперсию для всех возможных значений оцениваемого параметра (это свойство обычно легче проверить, чем эффективность), и состоятельные оценщики , которые сходятся по вероятности к истинному значению такого параметра.
Это по-прежнему оставляет открытым вопрос о том, как получить оценки в данной ситуации и провести вычисления. Было предложено несколько методов: метод моментов , метод максимального правдоподобия , метод наименьших квадратов и более поздний метод оценки уравнений .
Интерпретация статистической информации часто может включать разработку нулевой гипотезы , которая обычно (но не обязательно) заключается в том, что между переменными не существует никакой связи или что с течением времени не произошло никаких изменений. [51] [52]
Лучшей иллюстрацией для новичка является затруднительное положение, с которым сталкивается уголовный процесс. Нулевая гипотеза, H 0 , утверждает, что подсудимый невиновен, тогда как альтернативная гипотеза, H 1 , утверждает, что подсудимый виновен. Обвинение выдвигается из-за подозрения в виновности. H 0 (статус-кво) противостоит H 1 и сохраняется, если H 1 не подкреплена доказательствами «вне разумного сомнения». Однако «неспособность отвергнуть H 0 » в этом случае не подразумевает невиновности, а лишь то, что доказательств было недостаточно для осуждения. Таким образом, присяжные не обязательно принимают H 0 , но не отвергают H 0 . Хотя нельзя «доказать» нулевую гипотезу, можно проверить, насколько она близка к истинности, с помощью теста мощности , который проверяет наличие ошибок типа II .
То, что статистики называют альтернативной гипотезой, — это просто гипотеза, которая противоречит нулевой гипотезе.
Исходя из нулевой гипотезы , можно выделить две основные категории ошибок:
Стандартное отклонение относится к степени, в которой отдельные наблюдения в выборке отличаются от центрального значения, например, от среднего значения выборки или совокупности, в то время как стандартная ошибка относится к оценке разницы между средним значением выборки и средним значением совокупности.
Статистическая ошибка — это величина, на которую наблюдение отличается от ожидаемого значения . Остаток — это величина, на которую наблюдение отличается от значения, которое оценщик ожидаемого значения предполагает для данной выборки (также называемой прогнозом).
Среднеквадратическая ошибка используется для получения эффективных оценок , широко используемого класса оценок. Среднеквадратическая ошибка — это просто квадратный корень из среднеквадратической ошибки.
Многие статистические методы стремятся минимизировать остаточную сумму квадратов , и они называются « методами наименьших квадратов » в отличие от наименьших абсолютных отклонений . Последний дает равный вес малым и большим ошибкам, в то время как первый дает больший вес большим ошибкам. Остаточная сумма квадратов также дифференцируема , что обеспечивает удобное свойство для выполнения регрессии . Наименьшие квадраты, применяемые к линейной регрессии, называются обычным методом наименьших квадратов , а наименьшие квадраты, применяемые к нелинейной регрессии, называются нелинейными наименьшими квадратами . Также в линейной регрессионной модели недетерминированная часть модели называется ошибкой, возмущением или, проще говоря, шумом. Как линейная регрессия, так и нелинейная регрессия рассматриваются в полиномиальном методе наименьших квадратов , который также описывает дисперсию в прогнозе зависимой переменной (ось y) как функцию независимой переменной (ось x) и отклонения (ошибки, шум, возмущения) от оцененной (подогнанной) кривой.
Процессы измерения, которые генерируют статистические данные, также подвержены ошибкам. Многие из этих ошибок классифицируются как случайные (шум) или систематические ( смещение ), но другие типы ошибок (например, промах, когда аналитик сообщает неверные единицы) также могут быть важными. Наличие отсутствующих данных или цензурирование может привести к смещенным оценкам , и были разработаны специальные методы для решения этих проблем. [53]
Большинство исследований выбирают только часть популяции, поэтому результаты не полностью представляют всю популяцию. Любые оценки, полученные из выборки, лишь приблизительно соответствуют значению популяции. Доверительные интервалы позволяют статистикам выразить, насколько близко оценка выборки соответствует истинному значению во всей популяции. Часто они выражаются как 95% доверительные интервалы. Формально 95% доверительный интервал для значения — это диапазон, в котором, если бы выборка и анализ были повторены при тех же условиях (что дало бы другой набор данных), интервал включал бы истинное (популяционное) значение в 95% всех возможных случаев. Это не означает , что вероятность того, что истинное значение находится в доверительном интервале, составляет 95%. С точки зрения частотника такое утверждение даже не имеет смысла, поскольку истинное значение не является случайной величиной . Либо истинное значение находится, либо не находится в пределах заданного интервала. Однако верно, что до того, как будут отобраны какие-либо данные и дан план построения доверительного интервала, вероятность того, что еще не рассчитанный интервал будет охватывать истинное значение, составляет 95%: на этом этапе пределы интервала являются еще не наблюдаемыми случайными величинами . Один из подходов, который действительно дает интервал, который можно интерпретировать как имеющий заданную вероятность содержания истинного значения, заключается в использовании достоверного интервала из байесовской статистики : этот подход зависит от другого способа интерпретации того, что подразумевается под «вероятностью» , то есть как байесовская вероятность .
В принципе доверительные интервалы могут быть симметричными или асимметричными. Интервал может быть асимметричным, поскольку он работает как нижняя или верхняя граница для параметра (левосторонний интервал или правосторонний интервал), но он также может быть асимметричным, поскольку двусторонний интервал построен с нарушением симметрии вокруг оценки. Иногда границы для доверительного интервала достигаются асимптотически, и они используются для аппроксимации истинных границ.
Статистика редко дает простой ответ типа «Да/Нет» на анализируемый вопрос. Интерпретация часто сводится к уровню статистической значимости, применяемому к числам, и часто относится к вероятности того, что значение точно отвергает нулевую гипотезу (иногда называемой p -значением ).
Стандартный подход [50] заключается в проверке нулевой гипотезы против альтернативной гипотезы. Критическая область — это набор значений оценщика, который приводит к опровержению нулевой гипотезы. Вероятность ошибки типа I — это вероятность того, что оценщик принадлежит критической области при условии, что нулевая гипотеза верна ( статистическая значимость ), а вероятность ошибки типа II — это вероятность того, что оценщик не принадлежит критической области при условии, что альтернативная гипотеза верна. Статистическая мощность теста — это вероятность того, что он правильно отвергает нулевую гипотезу, когда нулевая гипотеза ложна.
Ссылка на статистическую значимость не обязательно означает, что общий результат является значимым в реальных условиях. Например, в крупном исследовании препарата может быть показано, что препарат имеет статистически значимый, но очень небольшой полезный эффект, так что препарат вряд ли ощутимо поможет пациенту.
Хотя в принципе приемлемый уровень статистической значимости может быть предметом обсуждения, уровень значимости — это наибольшее p-значение, которое позволяет тесту отвергнуть нулевую гипотезу. Этот тест логически эквивалентен утверждению, что p-значение — это вероятность, предполагая, что нулевая гипотеза верна, наблюдения результата, по крайней мере столь же экстремального, как и статистика теста . Следовательно, чем меньше уровень значимости, тем ниже вероятность совершения ошибки I типа.
С этой структурой обычно связаны некоторые проблемы (см. критику проверки гипотез ):
Вот некоторые известные статистические тесты и процедуры:
Исследовательский анализ данных ( EDA ) — это подход к анализу наборов данных для обобщения их основных характеристик, часто с использованием визуальных методов. Статистическая модель может использоваться или нет, но в первую очередь EDA предназначен для того, чтобы увидеть, что данные могут нам сказать за пределами формального моделирования или задачи проверки гипотез.
Неправильное использование статистики может привести к тонким, но серьезным ошибкам в описании и интерпретации — тонким в том смысле, что даже опытные профессионалы допускают такие ошибки, и серьезным в том смысле, что они могут привести к разрушительным ошибкам в принятии решений. Например, социальная политика, медицинская практика и надежность таких конструкций, как мосты, зависят от правильного использования статистики.
Даже при правильном применении статистических методов результаты могут быть сложными для интерпретации для тех, у кого нет опыта. Статистическая значимость тенденции в данных — которая измеряет степень, в которой тенденция может быть вызвана случайными вариациями в выборке — может согласовываться или не согласовываться с интуитивным ощущением ее значимости. Набор базовых статистических навыков (и скептицизма), необходимых людям для правильной работы с информацией в повседневной жизни, называется статистической грамотностью .
Существует общее мнение, что статистические знания слишком часто намеренно используются не по назначению , находя способы интерпретировать только те данные, которые выгодны презентатору. [55] Недоверие и непонимание статистики связано с цитатой: « Существует три вида лжи: ложь, наглая ложь и статистика ». Неправильное использование статистики может быть как непреднамеренным, так и преднамеренным, и в книге « Как лгать с помощью статистики » [55] Даррелла Хаффа излагается ряд соображений. В попытке пролить свет на использование и неправильное использование статистики проводятся обзоры статистических методов, используемых в определенных областях (например, Уорн, Лазо, Рамос и Риттер (2012)). [56]
Способы избежания неправильного использования статистики включают использование надлежащих диаграмм и избежание предвзятости . [57] Неправильное использование может произойти, когда выводы чрезмерно обобщаются и заявляются как репрезентативные для большего, чем они есть на самом деле, часто либо преднамеренно, либо неосознанно игнорируя смещение выборки. [58] Столбчатые диаграммы, возможно, являются самыми простыми для использования и понимания диаграммами, и их можно создавать как вручную, так и с помощью простых компьютерных программ. [57] Большинство людей не ищут предвзятости или ошибки, поэтому их не замечают. Таким образом, люди часто могут верить, что что-то является истинным, даже если это не очень хорошо представлено . [58] Чтобы сделать данные, собранные из статистики, правдоподобными и точными, взятая выборка должна быть репрезентативной для целого. [59] По словам Хаффа, «Надежность выборки может быть разрушена [предвзятостью]... позвольте себе некоторую степень скептицизма». [60]
Чтобы помочь в понимании статистики, Хафф предложил ряд вопросов, которые следует задавать в каждом случае: [55]
Концепция корреляции особенно примечательна из-за потенциальной путаницы, которую она может вызвать. Статистический анализ набора данных часто показывает, что две переменные (свойства) рассматриваемой популяции имеют тенденцию меняться вместе, как если бы они были связаны. Например, исследование годового дохода, которое также рассматривает возраст смерти, может обнаружить, что бедные люди, как правило, имеют более короткую продолжительность жизни, чем богатые люди. Говорят, что эти две переменные коррелируют; однако они могут быть или не быть причиной друг друга. Явления корреляции могут быть вызваны третьим, ранее не рассмотренным явлением, называемым скрытой переменной или смешивающей переменной . По этой причине нет способа немедленно сделать вывод о существовании причинно-следственной связи между двумя переменными.
Прикладная статистика, иногда называемая статистической наукой, [61] включает в себя описательную статистику и применение выводной статистики. [62] [63] Теоретическая статистика касается логических аргументов, лежащих в основе обоснования подходов к статистическому выводу , а также охватывает математическую статистику . Математическая статистика включает в себя не только манипулирование распределениями вероятностей, необходимое для получения результатов, связанных с методами оценки и вывода, но также различные аспекты вычислительной статистики и планирования экспериментов .
Статистические консультанты могут помочь организациям и компаниям, у которых нет собственных специалистов, имеющих отношение к их конкретным вопросам.
Модели машинного обучения — это статистические и вероятностные модели, которые фиксируют закономерности в данных с помощью вычислительных алгоритмов.
Статистика применима к широкому кругу академических дисциплин , включая естественные и социальные науки , государственное управление и бизнес. Бизнес-статистика применяет статистические методы в эконометрике , аудите , производстве и операциях, включая улучшение услуг и маркетинговые исследования. [64] Исследование двух журналов по тропической биологии показало, что 12 наиболее часто используемых статистических тестов: дисперсионный анализ (ANOVA), критерий хи-квадрат , t-критерий Стьюдента , линейная регрессия , коэффициент корреляции Пирсона , U-критерий Манна-Уитни , тест Краскела-Уоллиса , индекс разнообразия Шеннона , критерий размаха Тьюки , кластерный анализ , коэффициент ранговой корреляции Спирмена и анализ главных компонент . [65]
Типичный курс статистики охватывает описательную статистику, вероятность, биномиальное и нормальное распределение , проверку гипотез и доверительных интервалов, линейную регрессию и корреляцию. [66] Современные фундаментальные статистические курсы для студентов бакалавриата сосредоточены на правильном выборе тестов, интерпретации результатов и использовании бесплатного статистического программного обеспечения . [65]
Быстрое и устойчивое увеличение вычислительной мощности, начиная со второй половины 20-го века, оказало существенное влияние на практику статистической науки. Ранние статистические модели почти всегда относились к классу линейных моделей , но мощные компьютеры в сочетании с подходящими численными алгоритмами вызвали повышенный интерес к нелинейным моделям (таким как нейронные сети ), а также к созданию новых типов, таких как обобщенные линейные модели и многоуровневые модели .
Увеличение вычислительной мощности также привело к росту популярности вычислительно интенсивных методов, основанных на повторной выборке , таких как тесты перестановки и бутстрап , в то время как такие методы, как выборка Гиббса, сделали использование байесовских моделей более осуществимым. Компьютерная революция имеет последствия для будущего статистики с новым акцентом на «экспериментальную» и «эмпирическую» статистику. В настоящее время доступно большое количество как общего, так и специального статистического программного обеспечения . Примерами доступного программного обеспечения, способного выполнять сложные статистические вычисления , являются такие программы, как Mathematica , SAS , SPSS и R.
В бизнесе «статистика» является широко используемым инструментом управления и поддержки принятия решений . Она особенно применяется в финансовом менеджменте , маркетинговом менеджменте , а также в управлении производством , услугами и операциями . [67] [68] Статистика также широко используется в управленческом учете и аудите . Дисциплина « Наука управления» формализует использование статистики и другой математики в бизнесе. ( Эконометрика — это применение статистических методов к экономическим данным с целью придания эмпирического содержания экономическим отношениям .)
Типичный курс «Бизнес-статистика» предназначен для студентов бизнес-специалистов и охватывает [69] описательную статистику ( сбор , описание, анализ и обобщение данных), вероятность (обычно биномиальное и нормальное распределения ), проверку гипотез и доверительных интервалов, линейную регрессию и корреляцию; (последующие) курсы могут включать прогнозирование , временные ряды , деревья решений , множественную линейную регрессию и другие темы из бизнес-аналитики в целом. Программы профессиональной сертификации , такие как CFA , часто включают темы по статистике.
Традиционно статистика занималась выводом выводов с использованием полустандартизированной методологии, которая была «требуемой к обучению» в большинстве наук. Эта традиция изменилась с использованием статистики в невыводимых контекстах. То, что когда-то считалось сухим предметом, принимаемым во многих областях как требование к получению степени, теперь рассматривается с энтузиазмом. [ по мнению кого? ] Первоначально высмеиваемое некоторыми математическими пуристами, теперь оно считается необходимой методологией в определенных областях.
Статистические методы используются в широком спектре видов научных и социальных исследований, включая: биостатистику , вычислительную биологию , вычислительную социологию , сетевую биологию , социальные науки , социологию и социальные исследования . Некоторые области исследования используют прикладную статистику настолько широко, что у них есть специализированная терминология . Эти дисциплины включают:
Кроме того, существуют особые типы статистического анализа, которые также разработали свою собственную специализированную терминологию и методологию:
Статистика также является ключевым базовым инструментом в бизнесе и производстве. Она используется для понимания изменчивости измерительных систем, процессов управления (как в статистическом управлении процессами или SPC), для обобщения данных и принятия решений на основе данных.
Надежность выборки может быть разрушена [предвзятостью]... позвольте себе некоторую степень скептицизма.