stringtranslate.com

Непараметрическая статистика

Непараметрическая статистика — это тип статистического анализа, который делает минимальные предположения о базовом распределении изучаемых данных. Часто эти модели являются бесконечномерными, а не конечномерными, как параметрическая статистика . [1] Непараметрическая статистика может использоваться для описательной статистики или статистического вывода . Непараметрические тесты часто используются, когда предположения параметрических тестов явно нарушаются. [2]

Определения

Термин «непараметрическая статистика» был неточно определен, среди прочего, следующими двумя способами:

Первое значение непараметрического подразумевает методы, которые не опираются на данные, принадлежащие какому-либо конкретному параметрическому семейству вероятностных распределений. К ним относятся, среди прочего:

Примером является порядковая статистика , которая основана на порядковом ранжировании наблюдений.

Приведенное ниже обсуждение взято из книги Кендалла «Продвинутая теория статистики» . [3]

Статистические гипотезы касаются поведения наблюдаемых случайных величин... Например, гипотеза (a) о том, что нормальное распределение имеет заданное среднее значение и дисперсию, является статистической; таковой является и гипотеза (b) о том, что оно имеет заданное среднее значение, но не указанную дисперсию; таковой является и гипотеза (c) о том, что распределение имеет нормальную форму, при этом и среднее значение, и дисперсия не указаны; наконец, таковой является и гипотеза (d) о том, что два неуказанных непрерывных распределения идентичны.

Можно заметить, что в примерах (a) и (b) распределение, лежащее в основе наблюдений, принималось в определенной форме (нормальным), а гипотеза была целиком связана со значением одного или обоих его параметров. Такая гипотеза, по понятным причинам, называется параметрической .

Гипотеза (c) имела иную природу, поскольку в формулировке гипотезы не указаны значения параметров; мы могли бы обоснованно назвать такую ​​гипотезу непараметрической . Гипотеза (d) также является непараметрической, но, кроме того, она даже не определяет основную форму распределения и теперь может быть обоснованно названа свободной от распределения . Несмотря на эти различия, статистическая литература теперь обычно применяет ярлык «непараметрический» к процедурам тестирования, которые мы только что назвали «свободными от распределения», тем самым теряя полезную классификацию.

Второе значение непараметрического подразумевает методы, которые не предполагают, что структура модели фиксирована. Обычно модель увеличивается в размерах, чтобы приспособиться к сложности данных. В этих методах отдельные переменные обычно считаются принадлежащими параметрическим распределениям, а также делаются предположения о типах ассоциаций между переменными. Эти методы включают, среди прочего:

Применение и назначение

Непараметрические методы широко используются для изучения совокупностей, имеющих ранжированный порядок (например, обзоры фильмов, получающие от одной до пяти «звезд»). Использование непараметрических методов может быть необходимо, когда данные имеют ранжирование , но не имеют четкой числовой интерпретации, например, при оценке предпочтений . С точки зрения уровней измерения непараметрические методы приводят к порядковым данным .

Поскольку непараметрические методы делают меньше предположений, их применимость гораздо более общая, чем у соответствующих параметрических методов. В частности, их можно применять в ситуациях, когда о рассматриваемом приложении известно меньше. Кроме того, из-за опоры на меньшее количество предположений непараметрические методы более надежны .

Непараметрические методы иногда считаются более простыми в использовании и более надежными, чем параметрические методы, даже когда предположения параметрических методов обоснованы. Это связано с их более общей природой, что может сделать их менее восприимчивыми к неправильному использованию и непониманию. Непараметрические методы можно считать консервативным выбором, поскольку они будут работать, даже если их предположения не выполняются, тогда как параметрические методы могут давать вводящие в заблуждение результаты, когда их предположения нарушаются.

Более широкая применимость и повышенная надежность непараметрических тестов обходятся дорого: в случаях, когда предположения параметрического теста выполняются, непараметрические тесты имеют меньшую статистическую мощность . Другими словами, для выводов с той же степенью уверенности может потребоваться больший размер выборки.

Непараметрические модели

Непараметрические модели отличаются от параметрических тем, что структура модели не задается априори , а определяется на основе данных. Термин «непараметрический» не означает, что такие модели полностью лишены параметров, но что количество и характер параметров являются гибкими и не фиксируются заранее.

Методы

Непараметрические (или свободные от распределения ) инференциальные статистические методы — это математические процедуры для проверки статистических гипотез, которые, в отличие от параметрической статистики , не делают никаких предположений о распределениях вероятностей оцениваемых переменных. Наиболее часто используемые тесты включают {{columns-list|colwidth=50em|

История

Ранние непараметрические статистики включают медиану (13 век или ранее, использовалась для оценки Эдвардом Райтом , 1599; см. Медиана § История ) и тест знаков Джона Арбетнота ( 1710) при анализе соотношения полов у людей при рождении (см. тест знаков § История ). [5] [6]

Смотрите также

Примечания

  1. ^ "All of Nonparametric Statistics". Springer Texts in Statistics . 2006. doi :10.1007/0-387-30623-4. ISBN 978-0-387-25145-5.
  2. ^ Пирс, Дж.; Деррик, Б. (2019). «Предварительное тестирование: дьявол статистики?». Переосмысление: международный журнал бакалаврских исследований . 12 (2). doi : 10.31273/reinvention.v12i2.339 .
  3. ^ Стюарт А., Орд Дж. К., Арнольд С. (1999), Расширенная теория статистики Кендалла: Том 2А — Классический вывод и линейная модель , шестое издание, §20.2–20.3 ( Арнольд ).
  4. ^ Adikaram, KKLB; Hussein, MA; Effenberger, M.; Becker, T. (16 ноября 2015 г.). «Универсальная линейная идентификация соответствия: метод, независимый от данных, выбросов и модели распределения шума и свободный от подстановки пропущенных или удаленных данных». PLOS ONE . 10 (11): e0141486. ​​Bibcode : 2015PLoSO..1041486A. doi : 10.1371/journal.pone.0141486 . ​​ISSN  1932-6203. PMC 4646355. PMID  26571035 . 
  5. ^ Conover, WJ (1999), «Глава 3.4: Тест знаков», Practical Nonparametric Statistics (Третье изд.), Wiley, стр. 157–176, ISBN 0-471-16068-7
  6. ^ Спрент, П. (1989), Прикладные непараметрические статистические методы (второе издание), Chapman & Hall, ISBN 0-412-44980-3

Общие ссылки