stringtranslate.com

Статистика

Нормальное распределение , очень распространенная плотность вероятности , широко используется в статистике вывода .
Диаграммы рассеяния и линейные диаграммы используются в описательной статистике , чтобы показать наблюдаемые взаимосвязи между различными переменными, здесь используется набор данных о цветке ириса .

Статистика (от немецкого : Statistik , ориг. «описание государства , страны») [1] [2] — дисциплина, занимающаяся сбором, организацией, анализом, интерпретацией и представлением данных . [3] [4] [5] При применении статистики к научной, промышленной или социальной проблеме принято начинать со статистической совокупности или статистической модели , подлежащей изучению. Популяции могут представлять собой различные группы людей или объектов, например «все люди, живущие в стране» или «каждый атом, составляющий кристалл». Статистика касается всех аспектов данных, включая планирование сбора данных с точки зрения планирования обследований и экспериментов . [6]

Когда данные переписи не могут быть собраны, статистики собирают данные путем разработки конкретных планов экспериментов и выборок обследований . Репрезентативная выборка гарантирует, что выводы и выводы могут быть разумно распространены как на выборку, так и на генеральную совокупность в целом. Экспериментальное исследование включает в себя проведение измерений изучаемой системы, манипулирование системой, а затем проведение дополнительных измерений с использованием той же процедуры, чтобы определить, изменило ли манипуляция значения измерений. Напротив, наблюдательное исследование не предполагает экспериментальных манипуляций.

При анализе данных используются два основных статистических метода : описательная статистика , которая суммирует данные выборки с использованием таких индексов , как среднее или стандартное отклонение , и статистика, основанная на выводах , которая делает выводы на основе данных, которые подвержены случайным изменениям (например, ошибки наблюдения, вариация выборки). [7] Описательная статистика чаще всего связана с двумя наборами свойств распределения ( выборки или совокупности): центральная тенденция (или местоположение ) стремится охарактеризовать центральное или типичное значение распределения, тогда как дисперсия (или изменчивость ) характеризует степень, в которой члены распределения отходят от его центра и друг от друга. Выводы по математической статистике делаются в рамках теории вероятностей , которая занимается анализом случайных явлений.

Стандартная статистическая процедура включает сбор данных, ведущий к проверке взаимосвязи между двумя наборами статистических данных или набором данных и синтетическими данными, полученными из идеализированной модели. Предлагается гипотеза статистической связи между двумя наборами данных, и она сравнивается как альтернатива идеализированной нулевой гипотезе об отсутствии связи между двумя наборами данных. Отвержение или опровержение нулевой гипотезы осуществляется с помощью статистических тестов, которые количественно определяют, в каком смысле нулевая гипотеза может оказаться ложной, с учетом данных, которые используются в тесте. При работе с нулевой гипотезой выделяются две основные формы ошибок: ошибки типа I (нулевая гипотеза отклоняется, когда она на самом деле верна, что дает «ложноположительный результат») и ошибки типа II (нулевая гипотеза не может быть отвергнута, когда она верна). на самом деле является ложным и дает «ложноотрицательный результат»). [8] С этой структурой связано множество проблем: от получения достаточного размера выборки до определения адекватной нулевой гипотезы. [7]

Процессы статистических измерений также подвержены ошибкам в отношении данных, которые они генерируют. Многие из этих ошибок классифицируются как случайные (шум) или систематические ( предвзятость ), но могут возникать и другие типы ошибок (например, грубая ошибка, например, когда аналитик сообщает неправильные единицы измерения). Наличие недостающих данных или цензуры может привести к необъективным оценкам, и для решения этих проблем были разработаны специальные методы.

Введение

Статистика — это математическая область науки, которая занимается сбором, анализом, интерпретацией или объяснением, а также представлением данных [ 9] или является разделом математики . [10] Некоторые считают статистику отдельной математической наукой , а не разделом математики. Хотя во многих научных исследованиях используются данные, статистика обычно занимается использованием данных в контексте неопределенности и принятием решений в условиях неопределенности. [11] [12]

При применении статистики к проблеме принято начинать с изучаемой совокупности или процесса. Популяции могут быть разными по темам, например, «все люди, живущие в стране» или «каждый атом, составляющий кристалл». В идеале статистики собирают данные обо всем населении (операция, называемая переписью ) . Это может быть организовано государственными статистическими учреждениями. Описательная статистика может использоваться для обобщения данных о населении. Числовые дескрипторы включают среднее и стандартное отклонение для непрерывных данных (например, дохода), тогда как частота и процент более полезны с точки зрения описания категориальных данных (например, образования).

Когда перепись невозможна, изучается выбранная подгруппа населения, называемая выборкой . После того как определена выборка, репрезентативная для совокупности, собираются данные о членах выборки в условиях наблюдения или эксперимента . Опять же, для обобщения выборочных данных можно использовать описательную статистику. Однако составление выборки содержит элемент случайности; следовательно, числовые дескрипторы выборки также подвержены неопределенности. Чтобы сделать значимые выводы обо всей популяции, необходимы статистические выводы . Он использует закономерности в выборочных данных, чтобы сделать выводы о представленной совокупности с учетом случайности. Эти выводы могут принимать форму ответов да/нет на вопросы о данных ( проверка гипотез ), оценки числовых характеристик данных ( оценка ), описания ассоциаций внутри данных ( корреляция ) и моделирования отношений внутри данных (например, с использованием регрессивный анализ ). Выводы могут распространяться на прогнозирование , предсказание и оценку ненаблюдаемых значений либо в изучаемой популяции, либо связанных с ней. Он может включать экстраполяцию и интерполяцию временных рядов или пространственных данных , а также интеллектуальный анализ данных .

Математическая статистика

Математическая статистика – это применение математики к статистике. Математические методы, используемые для этого, включают математический анализ , линейную алгебру , стохастический анализ , дифференциальные уравнения и теорию вероятностей на основе теории меры . [13] [14]

История

«Ars Conjectandi» Бернулли была первой работой, посвященной теории вероятностей в ее нынешнем понимании.

Официальные дискуссии о выводах восходят к арабским математикам и криптографам , во времена Золотого века ислама, между 8 и 13 веками. Аль-Халил (717–786) написал «Книгу криптографических сообщений» , в которой содержится одно из первых применений перестановок и комбинаций , в котором перечислены все возможные арабские слова с гласными и без них. [15] В «Рукописи Аль-Кинди по расшифровке криптографических сообщений » дано подробное описание того, как использовать частотный анализ для расшифровки зашифрованных сообщений, что является ранним примером статистического вывода для декодирования . Ибн Адлан (1187–1268) позже внес важный вклад в использование размера выборки в частотном анализе. [15]

Хотя термин «статистика» был введен итальянским ученым Джироламо Гилини в 1589 году применительно к совокупности фактов и сведений о государстве, именно немец Готфрид Ахенвалль в 1749 году начал использовать этот термин как совокупность количественной информации, в современное применение этой науки. [16] [17] Самое раннее сочинение, содержащее статистические данные, в Европе датируется 1663 годом, когда Джон Граун опубликовал «Естественные и политические наблюдения над счетами смертности» . [18] Ранние применения статистического мышления вращались вокруг потребности государств основывать политику на демографических и экономических данных, отсюда и его государственная этимология . В начале XIX века сфера применения статистики расширилась и теперь включает сбор и анализ данных в целом. Сегодня статистика широко используется в правительстве, бизнесе, естественных и социальных науках.

Карл Фридрих Гаусс внес большой вклад в вероятностные методы, ведущие к статистике.

Математические основы статистики возникли в результате дискуссий об азартных играх среди таких математиков, как Джероламо Кардано , Блез Паскаль , Пьер де Ферма и Христиан Гюйгенс . Хотя идея вероятности уже рассматривалась в античном и средневековом праве и философии (например, в работах Хуана Карамуэля ), теория вероятностей как математическая дисциплина оформилась только в самом конце 17 века, особенно в посмертной работе Якоба Бернулли Ars . Конъектанди . [19] Это была первая книга, в которой сфера азартных игр и область вероятного (которая касалась мнений, доказательств и аргументов) были объединены и подвергнуты математическому анализу. [20] [21] Метод наименьших квадратов был впервые описан Адрианом-Мари Лежандром в 1805 году, хотя Карл Фридрих Гаусс предположительно использовал его десятилетием ранее, в 1795 году. [22]

Карл Пирсон , основатель математической статистики

Современная область статистики возникла в конце 19 - начале 20 века в три этапа. [23] Первую волну, на рубеже веков, возглавили работы Фрэнсиса Гальтона и Карла Пирсона , которые превратили статистику в строгую математическую дисциплину, используемую для анализа не только в науке, но также в промышленности и политике. . Вклад Гальтона включал в себя введение концепций стандартного отклонения , корреляции , регрессионного анализа и применение этих методов к изучению различных характеристик человека, среди которых рост, вес и длина ресниц. [24] Пирсон разработал коэффициент корреляции момента произведения Пирсона , определяемый как момент произведения, [25] метод моментов для подгонки распределений к выборкам и распределение Пирсона , среди многих других вещей. [26] Гальтон и Пирсон основали «Биометрику» как первый журнал по математической статистике и биостатистике (тогда называемой биометрией), а последний основал первый в мире университетский статистический факультет в Университетском колледже Лондона . [27]

Вторая волна 1910-х и 20-х годов была инициирована Уильямом Сили Госсетом и достигла своей кульминации в прозрениях Рональда Фишера , написавшего учебники, которые должны были определить академические дисциплины в университетах по всему миру. Наиболее важными публикациями Фишера были его основополагающая статья 1918 года « Корреляция между родственниками на основании предположения о менделевском наследовании» (в которой впервые использовался статистический термин « дисперсия »), его классическая работа 1925 года «Статистические методы для научных работников» и его «Планирование экспериментов» 1935 года . [28] [29] [30] , где он разработал строгий дизайн моделей экспериментов . Он создал концепции достаточности , вспомогательной статистики , линейного дискриминатора Фишера и информации Фишера . [31] Он также ввел термин « нулевая гипотеза» во время эксперимента с дегустацией чая «Леди» , который «никогда не доказывается и не устанавливается, но, возможно, опровергается в ходе экспериментов». [32] [33] В своей книге 1930 года «Генетическая теория естественного отбора » он применил статистику к различным биологическим концепциям, таким как принцип Фишера [34] (который А. Ф. Эдвардс назвал «вероятно, самым знаменитым аргументом в эволюционной биологии ») и « побег Фишера ». , [35] [36] [37] [38] [39] [40] концепция полового отбора об эффекте безудержного положительного обратной связи, обнаруженном в эволюции .

Последняя волна, которая в основном заключалась в усовершенствовании и расширении более ранних разработок, возникла в результате совместной работы Эгона Пирсона и Ежи Неймана в 1930-х годах. Они ввели понятия ошибки « типа II », мощности теста и доверительных интервалов . Ежи Нейман в 1934 году показал, что стратифицированная случайная выборка в целом является лучшим методом оценки, чем целенаправленная (квотная) выборка. [41]

Сегодня статистические методы применяются во всех областях, связанных с принятием решений, для получения точных выводов на основе сопоставленного массива данных и для принятия решений в условиях неопределенности на основе статистической методологии. Использование современных компьютеров ускорило крупномасштабные статистические вычисления, а также сделало возможными новые методы, которые непрактично выполнять вручную. Статистика продолжает оставаться областью активных исследований, например, по проблеме анализа больших данных . [42]

Статистические данные

Сбор данных

Выборка

Когда полные данные переписи собрать невозможно, статистики собирают выборочные данные, разрабатывая конкретные планы экспериментов и выборки обследований . Сама статистика также предоставляет инструменты для прогнозирования и прогнозирования с помощью статистических моделей .

Чтобы использовать выборку в качестве ориентира для всей совокупности, важно, чтобы она действительно представляла генеральную совокупность в целом. Репрезентативная выборка гарантирует, что выводы и заключения могут безопасно распространяться от выборки на генеральную совокупность в целом. Основная проблема заключается в определении степени репрезентативности выбранной выборки. Статистика предлагает методы оценки и исправления любых ошибок в процедурах выборки и сбора данных. Существуют также методы планирования эксперимента, которые могут уменьшить эти проблемы в начале исследования, укрепляя его способность узнавать правду о населении.

Теория выборки является частью математической дисциплины теории вероятностей . Вероятность используется в математической статистике для изучения выборочных распределений выборочной статистики и, в более общем плане, свойств статистических процедур . Использование любого статистического метода допустимо, если рассматриваемая система или совокупность удовлетворяют предположениям метода. Разница с точки зрения между классической теорией вероятностей и теорией выборки, грубо говоря, заключается в том, что теория вероятностей начинается с заданных параметров всей совокупности для вывода вероятностей, относящихся к выборкам. Статистический вывод, однако, движется в противоположном направлении — индуктивно выводя из выборок параметры большей или всей совокупности.

Экспериментальные и наблюдательные исследования

Общая цель проекта статистического исследования – изучить причинно-следственную связь и, в частности, сделать вывод о влиянии изменений значений предикторов или независимых переменных на зависимые переменные . Существует два основных типа причинно-следственных статистических исследований: экспериментальные исследования и наблюдательные исследования . В обоих типах исследований наблюдается влияние различий независимой переменной (или переменных) на поведение зависимой переменной. Разница между этими двумя типами заключается в том, как на самом деле проводится исследование. Каждый из них может быть очень эффективным. Экспериментальное исследование включает в себя проведение измерений изучаемой системы, манипулирование системой, а затем проведение дополнительных измерений на разных уровнях с использованием той же процедуры, чтобы определить, изменило ли манипуляция значения измерений. Напротив, наблюдательное исследование не предполагает экспериментальных манипуляций . Вместо этого собираются данные и исследуются корреляции между предикторами и ответом. Хотя инструменты анализа данных лучше всего работают с данными рандомизированных исследований , они также применяются и к другим видам данных, например, к естественным экспериментам и наблюдательным исследованиям [43] , для которых статистики будут использовать модифицированный, более структурированный метод оценки (например, Разница в оценке различий и инструментальных переменных (среди многих других), которые дают непротиворечивые оценки .

Эксперименты

Основными этапами статистического эксперимента являются:

  1. Планирование исследования, включая определение количества повторов исследования, с использованием следующей информации: предварительные оценки размера эффектов лечения , альтернативные гипотезы и предполагаемая экспериментальная вариабельность . Необходимо учитывать выбор субъектов эксперимента и этику исследования. Статистики рекомендуют в экспериментах сравнивать (по крайней мере) одно новое лечение со стандартным лечением или контролем, чтобы обеспечить объективную оценку разницы в эффектах лечения.
  2. Планирование экспериментов с использованием блокировки для уменьшения влияния мешающих переменных и рандомизированное назначение лечения испытуемым, чтобы обеспечить объективную оценку эффектов лечения и ошибок эксперимента. На этом этапе экспериментаторы и статистики пишут протокол эксперимента , который будет определять проведение эксперимента и определяет первичный анализ экспериментальных данных.
  3. Проведение эксперимента в соответствии с протоколом эксперимента и анализ данных в соответствии с протоколом эксперимента.
  4. Дальнейшее изучение набора данных в ходе вторичного анализа, чтобы предложить новые гипотезы для будущих исследований.
  5. Документирование и представление результатов исследования.

Особую озабоченность вызывают эксперименты над человеческим поведением. В знаменитом исследовании Хоторна изучались изменения в рабочей среде на заводе в Хоторне компании Western Electric . Исследователей интересовало, повысит ли повышенное освещение производительность труда работников сборочной линии . Исследователи сначала измерили продуктивность растения, затем изменили освещение на участке растения и проверили, влияют ли изменения освещения на продуктивность. Оказалось, что производительность действительно улучшилась (в условиях эксперимента). Однако сегодня исследование подвергается резкой критике за ошибки в экспериментальных процедурах, в частности за отсутствие контрольной группы и слепоту . Эффект Хоторна означает обнаружение того, что результат (в данном случае производительность труда) изменился в результате самого наблюдения. Участники исследования в Хоторне стали более продуктивными не потому, что изменилось освещение, а потому, что за ними наблюдали. [44]

Наблюдательное исследование

Примером наблюдательного исследования является исследование, изучающее связь между курением и раком легких. В этом типе исследования обычно используется опрос для сбора наблюдений об интересующей области, а затем выполняется статистический анализ. В этом случае исследователи будут собирать наблюдения как за курильщиками, так и за некурящими, возможно, посредством когортного исследования , а затем искать количество случаев рака легких в каждой группе. [45] Исследование « случай-контроль» — это еще один тип обсервационного исследования, в котором приглашаются к участию люди с интересующим исходом или без него (например, рак легких) и собираются истории их воздействия.

Типы данных

Были предприняты различные попытки создать таксономию уровней измерения . Психофизик Стэнли Смит Стивенс определил номинальную, порядковую, интервальную и пропорциональную шкалы. Номинальные измерения не имеют значимого рангового порядка значений и допускают любое однозначное (инъективное) преобразование. Порядковые измерения имеют неточную разницу между последовательными значениями, но имеют значимый порядок этих значений и допускают любые преобразования, сохраняющие порядок. Для интервальных измерений определены значимые расстояния между измерениями, но нулевое значение является произвольным (как в случае с измерениями долготы и температуры в градусах Цельсия или Фаренгейта ) и допускает любое линейное преобразование. Измерения отношений имеют как значимое нулевое значение, так и определенные расстояния между различными измерениями и допускают любое преобразование масштабирования.

Поскольку переменные, соответствующие только номинальным или порядковым измерениям, не могут быть разумно измерены численно, иногда они группируются как категориальные переменные , тогда как измерения отношений и интервалов группируются вместе как количественные переменные , которые могут быть как дискретными , так и непрерывными из-за их числовой природы. Такие различия часто можно слабо коррелировать с типом данных в информатике, поскольку дихотомические категориальные переменные могут быть представлены с помощью логического типа данных , политомические категориальные переменные с произвольно назначенными целыми числами в целочисленном типе данных и непрерывные переменные с реальным типом данных, включающим арифметика с плавающей запятой . Но сопоставление типов данных информатики с типами статистических данных зависит от того, какая категоризация последних осуществляется.

Были предложены и другие классификации. Например, Мостеллер и Тьюки (1977) [46] различали степени, ранги, подсчитываемые дроби, подсчеты, суммы и остатки. Нелдер (1990) [47] описал непрерывный подсчет, непрерывные отношения, отношения подсчета и категориальные режимы данных. (См. также: Крисман (1998), [48] ван ден Берг (1991). [49] ).

Вопрос о том, уместно ли применять различные виды статистических методов к данным, полученным в результате различных процедур измерения, осложняется проблемами, касающимися преобразования переменных и точной интерпретации исследовательских вопросов. «Отношения между данными и тем, что они описывают, просто отражают тот факт, что определенные виды статистических утверждений могут иметь значения истинности, которые не являются инвариантными при некоторых преобразованиях. Разумно ли рассматривать преобразование, зависит от вопроса, на который человек пытается ответить. ." [50] : 82 

Методы

Описательная статистика

Описательная статистика (в смысле существительного-числа ) — это сводная статистика , которая количественно описывает или обобщает особенности набора информации , [51] тогда как описательная статистика в смысле массового существительного — это процесс использования и анализа этой статистики. Описательная статистика отличается от статистики выводов (или индуктивной статистики) тем, что описательная статистика направлена ​​на обобщение выборки , а не на использование данных для изучения совокупности , которую, как предполагается, представляет выборка данных. [52]

Выведенный статистика

Статистический вывод — это процесс использования анализа данных для определения свойств основного распределения вероятностей . [53] Инференциальный статистический анализ выводит свойства популяции , например, путем проверки гипотез и получения оценок. Предполагается, что наблюдаемый набор данных выбран из более крупной совокупности. Инференциальную статистику можно противопоставить описательной статистике . Описательная статистика занимается исключительно свойствами наблюдаемых данных и не основывается на предположении, что данные поступают из более крупной совокупности. [54]

Терминология и теория логической статистики

Статистика, оценки и основные величины

Рассмотрим независимые одинаково распределенные (IID) случайные величины с заданным распределением вероятностей : стандартная теория статистического вывода и оценки определяет случайную выборку как случайный вектор , заданный вектором-столбцом этих переменных IID. [55] Исследуемая популяция описывается распределением вероятностей, которое может иметь неизвестные параметры .

Статистика — это случайная величина, которая является функцией случайной выборки, а не функцией неизвестных параметров . Однако распределение вероятностей статистики может иметь неизвестные параметры. Рассмотрим теперь функцию неизвестного параметра: оценщик — это статистика, используемая для оценки такой функции. Обычно используемые оценки включают выборочное среднее , несмещенную выборочную дисперсию и выборочную ковариацию .

Случайная величина, которая является функцией случайной выборки и неизвестного параметра, но распределение вероятностей которой не зависит от неизвестного параметра, называется основной величиной или опорной величиной. Широко используемые опорные точки включают z-показатель , статистику хи-квадрат и t-значение Стьюдента .

Из двух оценок данного параметра считается , что тот, у которого меньшая среднеквадратическая ошибка, является более эффективным . Кроме того, оценщик называется несмещенным , если его ожидаемое значение равно истинному значению оцениваемого неизвестного параметра, и асимптотически несмещенным, если его ожидаемое значение сходится в пределе к истинному значению такого параметра.

Другие желательные свойства для оценок включают: оценки UMVUE , которые имеют наименьшую дисперсию для всех возможных значений оцениваемого параметра (обычно это свойство легче проверить, чем эффективность) и непротиворечивые оценки , которые сходятся по вероятности к истинному значению такого параметра. .

При этом остается вопрос о том, как получить оценки в данной ситуации и провести расчет, было предложено несколько методов: метод моментов , метод максимального правдоподобия , метод наименьших квадратов и более современный метод оценки уравнений .

Нулевая гипотеза и альтернативная гипотеза

Интерпретация статистической информации часто может включать разработку нулевой гипотезы , которая обычно (но не обязательно) заключается в том, что между переменными не существует взаимосвязи или что с течением времени не произошло никаких изменений. [56] [57]

Лучшей иллюстрацией для новичка является затруднительное положение, с которым сталкивается уголовный процесс. Нулевая гипотеза H0 утверждает , что подсудимый невиновен, тогда как альтернативная гипотеза H1 утверждает , что подсудимый виновен. Обвинение предъявлено в связи с подозрением в вине. H 0 (статус-кво) противостоит H 1 и сохраняется, если H 1 не подкреплен доказательствами «вне разумного сомнения». Однако «неопровержение H 0 » в данном случае не означает невиновности, а лишь то, что доказательств было недостаточно для осуждения. Таким образом, жюри не обязательно принимает H 0 , но не может отклонить H 0 . Хотя невозможно «доказать» нулевую гипотезу, можно проверить, насколько она близка к истинности, с помощью степенного теста , который проверяет наличие ошибок второго рода .

То, что статистики называют альтернативной гипотезой, — это просто гипотеза, противоречащая нулевой гипотезе.

Ошибка

Если исходить из нулевой гипотезы , можно выделить две широкие категории ошибок:

Стандартное отклонение относится к степени, в которой отдельные наблюдения в выборке отличаются от центрального значения, такого как среднее значение выборки или совокупности, тогда как стандартная ошибка относится к оценке разницы между средним значением выборки и средним значением генеральной совокупности.

Статистическая ошибка — это величина, на которую наблюдение отличается от ожидаемого значения . Остаток — это величина , на которую наблюдение отличается от значения, которое оценщик ожидаемого значения принимает на данной выборке (также называемый прогнозом).

Среднеквадратическая ошибка используется для получения эффективных оценок — широко используемого класса оценок. Среднеквадратическая ошибка — это просто квадратный корень из среднеквадратической ошибки.

Подходит метод наименьших квадратов: красным отмечены точки, которые необходимо подобрать, синим — подобранная линия.

Многие статистические методы стремятся минимизировать остаточную сумму квадратов , и они называются « методами наименьших квадратов » в отличие от метода наименьших абсолютных отклонений . Последний придает равный вес малым и большим ошибкам, тогда как первый придает больший вес большим ошибкам. Остаточная сумма квадратов также дифференцируема , что обеспечивает удобное свойство для выполнения регрессии . Метод наименьших квадратов, применяемый к линейной регрессии , называется обычным методом наименьших квадратов, а метод наименьших квадратов, применяемый к нелинейной регрессии , называется нелинейным методом наименьших квадратов . Также в модели линейной регрессии недетерминированная часть модели называется ошибкой, возмущением или, проще говоря, шумом. И линейная, и нелинейная регрессия рассматриваются в полиномиальном методе наименьших квадратов , который также описывает дисперсию в прогнозе зависимой переменной (ось Y) как функцию независимой переменной (ось X) и отклонений (ошибок, шума, возмущений) по расчетной (подогнанной) кривой.

Процессы измерения, генерирующие статистические данные, также подвержены ошибкам. Многие из этих ошибок классифицируются как случайные (шум) или систематические ( предвзятость ), но другие типы ошибок (например, грубая ошибка, например, когда аналитик сообщает неправильные единицы измерения) также могут иметь важное значение. Наличие недостающих данных или цензуры может привести к необъективным оценкам , и для решения этих проблем были разработаны специальные методы. [58]

Интервальная оценка
Доверительные интервалы : красная линия — истинное значение среднего значения в этом примере, синие линии — случайные доверительные интервалы для 100 реализаций.

Большинство исследований выбирают только часть населения, поэтому результаты не полностью отражают всю популяцию. Любые оценки, полученные на основе выборки, лишь приблизительно соответствуют величине совокупности. Доверительные интервалы позволяют статистикам выразить, насколько близко оценка выборки соответствует истинному значению для всей совокупности. Часто они выражаются как 95% доверительные интервалы. Формально 95% доверительный интервал для значения — это диапазон, в котором, если бы отбор проб и анализ повторялись в тех же условиях (с получением другого набора данных), интервал включал бы истинное (популяционное) значение в 95% всех возможных случаев. . Это не означает, что вероятность того, что истинное значение находится в доверительном интервале, составляет 95%. С точки зрения частотности такое утверждение даже не имеет смысла, поскольку истинное значение не является случайной величиной . Либо истинное значение находится в заданном интервале, либо выходит за его пределы. Однако верно то, что до того, как будут выбраны какие-либо данные и составлен план построения доверительного интервала, вероятность того, что еще не рассчитанный интервал будет охватывать истинное значение, составляет 95 %: в этот момент пределы интервала представляют собой еще не наблюдаемые случайные величины . Один из подходов, который действительно дает интервал, который можно интерпретировать как имеющий заданную вероятность содержания истинного значения, заключается в использовании достоверного интервала из байесовской статистики : этот подход зависит от другого способа интерпретации того, что подразумевается под «вероятностью» , то есть как байесовская вероятность .

В принципе доверительные интервалы могут быть симметричными или асимметричными. Интервал может быть асимметричным, поскольку он работает как нижняя или верхняя граница параметра (левосторонний интервал или правосторонний интервал), но он также может быть асимметричным, поскольку двусторонний интервал построен с нарушением симметрии вокруг оценки. Иногда границы доверительного интервала достигаются асимптотически, и они используются для аппроксимации истинных границ.

Значение

Статистика редко дает простой ответ типа «да/нет» на анализируемый вопрос. Интерпретация часто сводится к уровню статистической значимости, применяемой к числам, и часто относится к вероятности того, что значение точно отвергнет нулевую гипотезу (иногда называемое p -значением ).

На этом графике черная линия — это распределение вероятностей для тестовой статистики , критическая область — это набор значений справа от наблюдаемой точки данных (наблюдаемое значение тестовой статистики), а значение p представлено зеленой областью.

Стандартный подход [55] заключается в проверке нулевой гипотезы против альтернативной гипотезы. Критическая область — это набор значений оценщика, который приводит к опровержению нулевой гипотезы. Таким образом, вероятность ошибки типа I — это вероятность того, что средство оценки принадлежит критической области при условии, что нулевая гипотеза верна ( статистическая значимость ), а вероятность ошибки типа II — это вероятность того, что средство оценки не принадлежит критической области при условии, что альтернативная гипотеза верна. Статистическая мощность теста — это вероятность того, что он правильно отклонит нулевую гипотезу, когда нулевая гипотеза ложна.

Ссылка на статистическую значимость не обязательно означает, что общий результат значим в реальном мире. Например, в крупном исследовании лекарства может быть показано, что лекарство оказывает статистически значимый, но очень небольшой положительный эффект, так что препарат вряд ли сможет заметно помочь пациенту.

Хотя в принципе приемлемый уровень статистической значимости может быть предметом споров, уровень значимости — это наибольшее значение p, которое позволяет тесту отклонить нулевую гипотезу. Этот тест логически эквивалентен утверждению, что значение p — это вероятность (при условии, что нулевая гипотеза верна) наблюдения результата, по крайней мере столь же экстремального, как статистика теста . Следовательно, чем меньше уровень значимости, тем меньше вероятность совершения ошибки I рода.

С этой структурой обычно связаны некоторые проблемы (см. Критику проверки гипотез ):

Примеры

Некоторые известные статистические тесты и процедуры:

Исследовательский анализ данных

Исследовательский анализ данных ( EDA ) — это подход к анализу наборов данных для обобщения их основных характеристик, часто с помощью визуальных методов. Статистическая модель может использоваться или нет, но в первую очередь EDA предназначена для того, чтобы увидеть, что данные могут сказать нам помимо формального моделирования или задачи проверки гипотез.

Неправильное использование

Неправильное использование статистики может привести к тонким, но серьезным ошибкам в описании и интерпретации — тонким в том смысле, что такие ошибки допускают даже опытные профессионалы, и серьезным в том смысле, что они могут привести к разрушительным ошибкам в принятии решений. Например, социальная политика, медицинская практика и надежность таких сооружений, как мосты, — все это зависит от правильного использования статистики.

Даже если статистические методы применяются правильно, результаты могут быть трудно интерпретировать тем, у кого нет опыта. Статистическая значимость тенденции в данных, которая измеряет степень, в которой тенденция может быть вызвана случайными изменениями в выборке, может совпадать, а может и не совпадать с интуитивным ощущением ее значимости. Набор базовых статистических навыков (и скептицизма), которые необходимы людям для правильного обращения с информацией в повседневной жизни, называется статистической грамотностью .

Существует общее мнение, что статистическими знаниями слишком часто намеренно злоупотребляют , находя способы интерпретации только тех данных, которые выгодны их представителю. [60] Недоверие и непонимание статистики связано с цитатой: « Есть три вида лжи: ложь, наглая ложь и статистика ». Неправильное использование статистики может быть как непреднамеренным, так и преднамеренным, и в книге Даррелла Хаффа «Как лгать со статистикой» [ 60] изложен ряд соображений. В попытке пролить свет на использование и неправильное использование статистики проводятся обзоры статистических методов, используемых в конкретных областях (например, Warne, Lazo, Ramos и Ritter (2012)). [61]

Способы избежать неправильного использования статистики включают использование правильных диаграмм и избежание предвзятости . [62] Неправильное использование может произойти, когда выводы чрезмерно обобщаются и утверждаются, что они репрезентативны для большего, чем они есть на самом деле, часто сознательно или неосознанно игнорируя предвзятость выборки. [63] Гистограммы, пожалуй, самые простые в использовании и понимании диаграммы, их можно создавать вручную или с помощью простых компьютерных программ. [62] Большинство людей не ищут предвзятости или ошибок, поэтому их не замечают. Таким образом, люди часто могут верить, что что-то является правдой, даже если это не очень хорошо представлено . [63] Чтобы данные, собранные на основе статистики, были правдоподобными и точными, взятая выборка должна быть репрезентативной в целом. [64] По словам Хаффа, «Надежность образца может быть разрушена [предвзятостью]... позвольте себе некоторую степень скептицизма». [65]

Чтобы помочь в понимании статистики, Хафф предложил ряд вопросов, которые следует задавать в каждом случае: [60]

Проблема мешающих переменных : X и Y могут коррелировать не потому, что между ними существует причинно-следственная связь, а потому, что оба зависят от третьей переменной Z. Z называется искажающим фактором.

Неправильная интерпретация: корреляция

Концепция корреляции особенно примечательна из-за потенциальной путаницы, которую она может вызвать. Статистический анализ набора данных часто показывает, что две переменные (свойства) рассматриваемой совокупности имеют тенденцию изменяться вместе, как если бы они были связаны. Например, исследование годового дохода, в котором также учитывается возраст смерти, может обнаружить, что бедные люди, как правило, живут короче, чем богатые люди. Говорят, что эти две переменные коррелируют; однако они могут быть или не быть причиной друг друга. Явление корреляции может быть вызвано третьим, ранее не рассматривавшимся явлением, называемым скрытой переменной или мешающей переменной . По этой причине невозможно сразу сделать вывод о наличии причинно-следственной связи между двумя переменными.

Приложения

Прикладная статистика, теоретическая статистика и математическая статистика

Прикладная статистика, иногда называемая статистической наукой, [66] включает в себя описательную статистику и применение статистических выводов. [67] [68] Теоретическая статистика касается логических аргументов, лежащих в основе обоснования подходов к статистическим выводам , а также охватывающей математическую статистику . Математическая статистика включает в себя не только манипуляции с распределениями вероятностей , необходимые для получения результатов, связанных с методами оценки и вывода, но также различные аспекты вычислительной статистики и планирования экспериментов .

Статистические консультанты могут помочь организациям и компаниям, у которых нет собственного опыта по их конкретным вопросам.

Машинное обучение и интеллектуальный анализ данных

Модели машинного обучения — это статистические и вероятностные модели, которые фиксируют закономерности в данных с помощью вычислительных алгоритмов.

Статистика в академических кругах

Статистика применима к широкому кругу академических дисциплин , включая естественные и социальные науки , управление и бизнес. Статистика бизнеса применяет статистические методы в эконометрике , аудите , производстве и операциях, включая улучшение услуг и маркетинговые исследования. [69] Исследование двух журналов по тропической биологии показало, что 12 наиболее частыми статистическими тестами являются: дисперсионный анализ (ANOVA), критерий хи-квадрат , t-критерий Стьюдента , линейная регрессия , коэффициент корреляции Пирсона , U-критерий Манна-Уитни. , критерий Крускала-Уоллиса , индекс разнообразия Шеннона , критерий диапазона Тьюки , кластерный анализ , коэффициент ранговой корреляции Спирмена и анализ главных компонент . [70]

Типичный курс статистики охватывает описательную статистику, вероятность, биномиальное и нормальное распределения , проверку гипотез и доверительных интервалов, линейную регрессию и корреляцию. [71] Современные фундаментальные статистические курсы для студентов бакалавриата сосредоточены на правильном выборе тестов, интерпретации результатов и использовании бесплатного статистического программного обеспечения . [70]

Статистические вычисления

gretl , пример статистического пакета с открытым исходным кодом

Быстрый и устойчивый рост вычислительной мощности, начавшийся со второй половины 20-го века, оказал существенное влияние на практику статистической науки. Ранние статистические модели почти всегда относились к классу линейных моделей , но мощные компьютеры в сочетании с подходящими численными алгоритмами вызвали повышенный интерес к нелинейным моделям (таким как нейронные сети ), а также создание новых типов, таких как обобщенные линейные модели. и многоуровневые модели .

Увеличение вычислительной мощности также привело к росту популярности интенсивных вычислений, основанных на повторной выборке , таких как тесты перестановки и бутстрап , в то время как такие методы, как выборка Гиббса , сделали использование байесовских моделей более осуществимым. Компьютерная революция имеет последствия для будущего статистики с новым акцентом на «экспериментальную» и «эмпирическую» статистику. В настоящее время доступно большое количество статистического программного обеспечения как общего, так и специального назначения. Примеры доступного программного обеспечения, способного выполнять сложные статистические вычисления, включают такие программы, как Mathematica , SAS , SPSS и R.

Статистика бизнеса

В бизнесе «статистика» является широко используемым инструментом управления и поддержки принятия решений . Он особенно применяется в финансовом менеджменте , маркетинговом менеджменте , а также в управлении производством , услугами и операциями . [72] [73] Статистика также активно используется в управленческом учете и аудите . Дисциплина « Наука управления» формализует использование статистики и другой математики в бизнесе. ( Эконометрика – это применение статистических методов к экономическим данным с целью придания эмпирического содержания экономическим отношениям .)

Типичный курс «Бизнес-статистика» предназначен для бизнес-специалистов и охватывает [74] описательную статистику ( сбор , описание, анализ и обобщение данных), вероятность (обычно биномиальное и нормальное распределения ), проверку гипотез и доверительные интервалы, линейная регрессия и корреляция; (Последующие) курсы могут включать прогнозирование , временные ряды , деревья решений , множественную линейную регрессию и другие темы из бизнес-аналитики в более общем плане. См. также Бизнес-математика § Университетский уровень . Программы профессиональной сертификации , такие как CFA , часто включают темы из статистики.

Статистика применительно к математике или искусству

Традиционно статистика занималась выводами с использованием полустандартизированной методологии, которая «требовала изучения» в большинстве наук. Эта традиция изменилась с использованием статистики в контекстах, не связанных с выводами. То, что когда-то считалось сухим предметом, воспринимаемым во многих областях как требование для получения ученой степени, теперь рассматривается с энтузиазмом. [ по мнению кого? ] Первоначально высмеиваемая некоторыми математическими пуристами, теперь она считается важной методологией в определенных областях.

Специализированные дисциплины

Статистические методы используются в широком спектре видов научных и социальных исследований, включая: биостатистику , вычислительную биологию , вычислительную социологию , сетевую биологию , социальные науки , социологию и социальные исследования . В некоторых областях исследований прикладная статистика используется настолько широко, что для них используется специализированная терминология . К этим дисциплинам относятся:

Кроме того, существуют отдельные виды статистического анализа, которые также разработали свою собственную специализированную терминологию и методологию:

Статистика также является ключевым базовым инструментом в бизнесе и производстве. Он используется для понимания изменчивости систем измерения, процессов управления (например, в статистическом управлении процессами или SPC), для обобщения данных и принятия решений на основе данных. В этих ролях это ключевой инструмент и, возможно, единственный надежный инструмент. [ нужна цитата ]

Смотрите также

Основы и основные области статистики

Рекомендации

  1. ^ "статистика" . Оксфордский словарь английского языка (онлайн-изд.). Издательство Оксфордского университета . (Требуется подписка или членство участвующей организации.)
  2. ^ "Статистика" в Digitales Wörterbuch der deutschen Sprache
  3. ^ «Статистика». Оксфордский справочник. Издательство Оксфордского университета. Январь 2008 г. ISBN. 978-0-19-954145-4. Архивировано из оригинала 03 сентября 2020 г. Проверено 14 августа 2019 г.
  4. ^ Ромейн, Ян-Виллем (2014). «Философия статистики». Стэнфордская энциклопедия философии . Архивировано из оригинала 19 октября 2021 г. Проверено 3 ноября 2016 г.
  5. ^ "Кембриджский словарь". Архивировано из оригинала 22 ноября 2020 г. Проверено 14 августа 2019 г.
  6. ^ Додж, Ю. (2006) Оксфордский словарь статистических терминов , Oxford University Press. ISBN 0-19-920613-9 
  7. ^ ab Lund Research Ltd. «Описательная и логическая статистика». Статистика.laerd.com. Архивировано из оригинала 26 октября 2020 г. Проверено 23 марта 2014 г.
  8. ^ «В чем разница между ошибками проверки гипотез типа I и типа II?» О сайте Образование . Архивировано из оригинала 27 февраля 2017 г. Проверено 27 ноября 2015 г.
  9. ^ Моисей, Линкольн Э. (1986) Думайте и объясняйте с помощью статистики , Аддисон-Уэсли, ISBN 978-0-201-15619-5 . стр. 1–3 
  10. ^ Хейс, Уильям Ли, (1973) Статистика для социальных наук , Холт, Райнхарт и Уинстон, стр. xii, ISBN 978-0-03-077945-9 
  11. ^ Мур, Дэвид (1992). «Преподавание статистики как уважаемый предмет». У Ф. Гордона; С. Гордон (ред.). Статистика XXI века . Вашингтон, округ Колумбия: Математическая ассоциация Америки. стр. 14–25. ISBN 978-0-88385-078-7.
  12. ^ Шанс, Бет Л .; Россман, Аллан Дж. (2005). «Предисловие» (PDF) . Исследование статистических концепций, приложений и методов . Даксбери Пресс. ISBN 978-0-495-05064-3. Архивировано (PDF) из оригинала 22 ноября 2020 г. Проверено 6 декабря 2009 г.
  13. ^ Лакшмикантам, Д.; Каннан, В. (2002). Справочник по стохастическому анализу и его приложениям . Нью-Йорк: М. Деккер. ISBN 0824706609.
  14. ^ Шервиш, Марк Дж. (1995). Теория статистики (Иср. 2-е изд.). Нью-Йорк: Спрингер. ISBN 0387945466.
  15. ^ аб Бромелинг, Лайл Д. (1 ноября 2011 г.). «Отчет о ранних статистических выводах в арабской криптологии». Американский статистик . 65 (4): 255–257. дои : 10.1198/tas.2011.10191. S2CID  123537702.
  16. ^ Остасевич, Валенти (2014). «Зарождение статистической науки». Сленски Пшеглон Статистический . 12 (18): 76–77. дои : 10.15611/sps.2014.12.04 .
  17. ^ Брюно, Квентин (2022). Государства и хозяева капитала: суверенное кредитование, старое и новое. Издательство Колумбийского университета . ISBN 978-0231555647.
  18. ^ Уиллкокс, Уолтер (1938) «Основатель статистики». Обзор Международного статистического института 5 (4): 321–328. JSTOR  1400906
  19. ^ Дж. Франклин, Наука догадок: доказательства и вероятности до Паскаля, Университет Джонса Хопкинса, Pr, 2002 г.
  20. ^ Шнайдер, И. (2005). Якоб Бернулли, Ars Conjectandi (1713). В книге И. Грэттан-Гиннесс (ред.), «Важные произведения в западной математике, 1640–1940» (стр. 88–103).
  21. ^ Силла, Эд; Бернулли, Джейкоб (2006). Искусство строить предположения вместе с письмом другу о сетах в теннисе на корте (пер.). Джу Пресс. ISBN 978-0-8018-8235-7.
  22. ^ Лим, М. (2021). «Гаусс, метод наименьших квадратов и недостающая планета». Актуарии Цифровые . Проверено 1 ноября 2022 г.
  23. ^ Хелен Мэри Уокер (1975). Исследования по истории статистического метода. Арно Пресс. ISBN 978-0405066283. Архивировано из оригинала 27 июля 2020 г. Проверено 27 июня 2015 г.
  24. ^ Гальтон, Ф (1877). «Типичные законы наследственности». Природа . 15 (388): 492–553. Бибкод : 1877Natur..15..492.. doi : 10.1038/015492a0 .
  25. ^ Стиглер, С.М. (1989). «Отчет Фрэнсиса Гальтона об изобретении корреляции». Статистическая наука . 4 (2): 73–79. дои : 10.1214/ss/1177012580 .
  26. ^ Пирсон, К. (1900). «О критерии, что данная система отклонений от вероятного в случае коррелированной системы переменных такова, что можно разумно предположить, что она возникла в результате случайной выборки». Философский журнал . Серия 5. 50 (302): 157–175. дои : 10.1080/14786440009463897. Архивировано из оригинала 18 августа 2020 г. Проверено 27 июня 2019 г.
  27. ^ «Карл Пирсон (1857–1936)» . Департамент статистических наук – Университетский колледж Лондона . Архивировано из оригинала 25 сентября 2008 г.
  28. ^ Бокс, JF (февраль 1980 г.). «РА Фишер и план экспериментов, 1922–1926». Американский статистик . 34 (1): 1–7. дои : 10.2307/2682986. JSTOR  2682986.
  29. ^ Йейтс, Ф. (июнь 1964 г.). «Сэр Рональд Фишер и планирование экспериментов». Биометрия . 20 (2): 307–321. дои : 10.2307/2528399. JSTOR  2528399.
  30. ^ Стэнли, Джулиан К. (1966). «Влияние «Плана экспериментов» Фишера на исследования в области образования тридцать лет спустя». Американский журнал исследований в области образования . 3 (3): 223–229. дои : 10.3102/00028312003003223. JSTOR  1161806. S2CID  145725524.
  31. ^ Агрести, Алан; Дэвид Б. Хичкок (2005). «Байесовский вывод для категориального анализа данных» (PDF) . Статистические методы и приложения . 14 (3): 298. doi :10.1007/s10260-005-0121-y. S2CID  18896230. Архивировано (PDF) из оригинала 19 декабря 2013 г. Проверено 19 декабря 2013 г.
  32. ^ Цитата OED: 1935 Р. А. Фишер, План экспериментов ii. 19: «Мы можем говорить об этой гипотезе как о «нулевой гипотезе», и нулевая гипотеза никогда не доказывается и не устанавливается, но, возможно, опровергается в ходе экспериментов».
  33. ^ Фишер|1971|loc=Глава II. Принципы экспериментирования, иллюстрированные психофизическим экспериментом, раздел 8. Нулевая гипотеза
  34. ^ Эдвардс, AWF (1998). «Естественный отбор и соотношение полов: источники Фишера». Американский натуралист . 151 (6): 564–569. дои : 10.1086/286141. PMID  18811377. S2CID  40540426.
  35. ^ Фишер, Р.А. (1915) Эволюция сексуальных предпочтений. Евгеническое обозрение (7) 184:192
  36. ^ Фишер, Р.А. (1930) Генетическая теория естественного отбора . ISBN 0-19-850440-3 
  37. ^ Эдвардс, AWF (2000) Перспективы: анекдотические, исторические и критические комментарии по генетике. Генетическое общество Америки (154) 1419:1426
  38. ^ Андерссон, Мальте (1994). Половой отбор. Издательство Принстонского университета. ISBN 0-691-00057-3. Архивировано из оригинала 25 декабря 2019 г. Проверено 19 сентября 2019 г.
  39. ^ Андерссон, М. и Симмонс, Л.В. (2006) Половой отбор и выбор партнера. Тенденции, экология и эволюция (21) 296:302
  40. ^ Гайон, Дж. (2010) Половой отбор: еще один дарвиновский процесс. Comptes Rendus Biologies (333) 134:144
  41. ^ Нейман, Дж (1934). «О двух различных аспектах репрезентативного метода: методе стратифицированной выборки и методе целенаправленного отбора». Журнал Королевского статистического общества . 97 (4): 557–625. дои : 10.2307/2342192. JSTOR  2342192.
  42. ^ «Наука в сложном мире - большие данные: возможность или угроза?». Институт Санта-Фе . 2 декабря 2013 г. Архивировано из оригинала 30 мая 2016 г. Проверено 13 октября 2014 г.
  43. ^ Фридман, Д.А. (2005) Статистические модели: теория и практика , Cambridge University Press. ISBN 978-0-521-67105-7 
  44. ^ Маккарни Р., Уорнер Дж., Илифф С., ван Хаселен Р., Гриффин М., Фишер П. (2007). «Эффект Хоторна: рандомизированное контролируемое исследование». Методология BMC Med Res . 7 (1): 30. дои : 10.1186/1471-2288-7-30 . ЧВК 1936999 . ПМИД  17608932. 
  45. ^ Ротман, Кеннет Дж; Гренландия, Сандер; Лэш, Тимоти, ред. (2008). «7». Современная эпидемиология (3-е изд.). Липпинкотт Уильямс и Уилкинс. п. 100. ИСБН 978-0781755641.
  46. ^ Мостеллер, Ф .; Тьюки, JW (1977). Анализ данных и регрессия . Бостон: Аддисон-Уэсли.
  47. ^ Нелдер, Дж. А. (1990). Знания, необходимые для компьютеризации анализа и интерпретации статистической информации. Экспертные системы и искусственный интеллект: потребность в информации о данных . Отчет Библиотечной ассоциации, Лондон, 23–27 марта.
  48. ^ Крисман, Николас Р. (1998). «Переосмысление уровней измерения для картографии». Картография и географическая информатика . 25 (4): 231–242. Бибкод : 1998CGISy..25..231C. дои : 10.1559/152304098782383043.
  49. ^ ван ден Берг, Г. (1991). Выбор метода анализа . Лейден: DSWO Press
  50. ^ Хэнд, диджей (2004). Теория и практика измерения: мир через количественную оценку. Лондон: Арнольд.
  51. ^ Манн, Прем С. (1995). Вводная статистика (2-е изд.). Уайли. ISBN 0-471-31009-3.
  52. ^ «Описательная статистика | Исследовательские связи» . www.researchconnections.org . Проверено 10 января 2023 г.
  53. ^ Аптон, Г., Кук, И. (2008) Оксфордский статистический словарь , OUP. ISBN 978-0-19-954145-4
  54. ^ «Основная статистика вывода - Purdue OWL® - Университет Пердью» . owl.purdue.edu . Проверено 10 января 2023 г.
  55. ^ ab Piazza Elio, Probabilità e Statistica, Esculapio 2007.
  56. ^ Эверитт, Брайан (1998). Кембриджский статистический словарь. Кембридж, Великобритания, Нью-Йорк: Издательство Кембриджского университета. ISBN 0521593468.
  57. ^ «Коэн (1994) Земля круглая (p < 0,05)» . YourStatsGuru.com. Архивировано из оригинала 5 сентября 2015 г. Проверено 20 июля 2015 г.
  58. ^ Рубин, Дональд Б.; Литтл, Родерик Дж.А., Статистический анализ с отсутствующими данными, Нью-Йорк: Wiley, 2002.
  59. ^ Иоаннидис, JPA (2005). «Почему большинство опубликованных результатов исследований ложны». ПЛОС Медицина . 2 (8): е124. doi : 10.1371/journal.pmed.0020124 . ПМЦ 1182327 . ПМИД  16060722. 
  60. ^ abc Хафф, Даррелл (1954) Как лгать со статистикой , WW Norton & Company, Inc., Нью-Йорк. ISBN 0-393-31072-8 
  61. ^ Варн, Р. Лазо; Рамос, Т.; Риттер, Н. (2012). «Статистические методы, используемые в журналах по образованию одаренных людей, 2006–2010 гг.». Одаренный ребенок Ежеквартально . 56 (3): 134–149. дои : 10.1177/0016986212444122. S2CID  144168910.
  62. ^ аб Дреннан, Роберт Д. (2008). «Статистика в археологии». В Пирсолле, Дебора М. (ред.). Энциклопедия археологии . Elsevier Inc., стр. 2093–2100. ISBN 978-0-12-373962-9.
  63. ^ Аб Коэн, Джером Б. (декабрь 1938 г.). «Неправильное использование статистики». Журнал Американской статистической ассоциации . ДЖСТОР. 33 (204): 657–674. дои : 10.1080/01621459.1938.10502344.
  64. ^ Фрейнд, JE (1988). «Современная элементарная статистика». Справочник по Кредо .
  65. ^ Хафф, Даррелл; Ирвинг Гейс (1954). Как лгать со статистикой . Нью-Йорк: Нортон. Надежность образца может быть подорвана [предвзятостью]… позвольте себе некоторую долю скептицизма.
  66. ^ Нелдер, Джон А. (1999). «От статистики к статистической науке». Журнал Королевского статистического общества. Серия D (Статист) . 48 (2): 257–269. дои : 10.1111/1467-9884.00187. ISSN  0039-0526. JSTOR  2681191. Архивировано из оригинала 15 января 2022 г. Проверено 15 января 2022 г.
  67. ^ Nikoletseas, MM (2014) «Статистика: концепции и примеры». ISBN 978-1500815684 
  68. ^ Андерсон, доктор медицинских наук; Суини, диджей; Уильямс, Т.А. (1994) Введение в статистику: концепции и приложения , стр. 5–9. Западная группа. ISBN 978-0-314-03309-3 
  69. ^ "Журнал деловой и экономической статистики". Журнал деловой и экономической статистики . Тейлор и Фрэнсис. Архивировано из оригинала 27 июля 2020 года . Проверено 16 марта 2020 г.
  70. ^ ab Наталья Лоаиса Веласкес, Мария Исабель Гонсалес Лутц и Хулиан Монге-Нахера (2011). «Какую статистику следует изучить тропическим биологам?» (PDF) . Revista Biologia Tropical . 59 : 983–992. Архивировано (PDF) из оригинала 19 октября 2020 г. Проверено 26 апреля 2020 г.
  71. ^ Пекоз, Эрол (2009). Руководство менеджера по статистике . Эрол Пекоз. ISBN 978-0979570438.
  72. ^ «Цели и масштабы». Журнал деловой и экономической статистики . Тейлор и Фрэнсис. Архивировано из оригинала 23 июня 2021 года . Проверено 16 марта 2020 г.
  73. ^ "Журнал деловой и экономической статистики". Журнал деловой и экономической статистики . Тейлор и Фрэнсис. Архивировано из оригинала 27 июля 2020 года . Проверено 16 марта 2020 г.
  74. ^ Доступно множество текстов, отражающих масштабы и охват этой дисциплины в деловом мире:
    • Шарп, Н. (2014). Бизнес-статистика , Пирсон. ISBN 978-0134705217 
    • Вегнер, Т. (2010). Прикладная бизнес-статистика: методы и приложения на основе Excel, Juta Academic. ISBN 0702172863 
    Два открытых учебника :
    • Холмс Л., Илловски Б., Дин С. (2017). Вводная бизнес-статистика, заархивированная 16 июня 2021 г. на Wayback Machine.
    • Ника, М. (2013). Принципы бизнес-статистики. Архивировано 18 мая 2021 г. на Wayback Machine.
  75. ^ Клайн, Грейсен (2019). Непараметрические статистические методы с использованием R. EDTECH. ISBN 978-1-83947-325-8. OCLC  1132348139. Архивировано из оригинала 15 мая 2022 г. Проверено 16 сентября 2021 г.
  76. ^ Паласиос, Бернардо; Росарио, Альфонсо; Вильгельмус, Моника М.; Зетина, Сандра; Зенит, Роберто (30 октября 2019 г.). «Поллок избегал гидродинамических нестабильностей при рисовании с помощью своей техники капания». ПЛОС ОДИН . 14 (10): e0223706. Бибкод : 2019PLoSO..1423706P. дои : 10.1371/journal.pone.0223706 . ISSN  1932-6203. ПМК 6821064 . ПМИД  31665191. 

дальнейшее чтение

Внешние ссылки