stringtranslate.com

Непараметрическая статистика

Непараметрическая статистика — это тип статистического анализа, который делает минимальные предположения об основном распределении изучаемых данных. Часто эти модели являются бесконечномерными, а не конечномерными, как параметрическая статистика . [1] Непараметрическая статистика может использоваться для описательной статистики или статистического вывода . Непараметрические тесты часто используются, когда предположения параметрических тестов явно нарушаются. [2]

Определения

Термин «непараметрическая статистика» был определен неточно, среди прочего, следующими двумя способами:

  1. Первое значение термина «непараметрический» включает в себя методы, которые не полагаются на данные, принадлежащие какому-либо конкретному параметрическому семейству вероятностных распределений.

    К ним относятся, среди прочего:

    • Методы, не зависящие от распределения , которые не полагаются на предположения, что данные взяты из заданного параметрического семейства вероятностных распределений .
    • Статистика определяется как функция выборки, не зависящая от параметра .

    Примером может служить статистика заказов , основанная на порядковом ранжировании наблюдений.

    Дальнейшее обсуждение взято из « Передовой теории статистики» Кендалла . [3]

    Статистические гипотезы касаются поведения наблюдаемых случайных величин... Например, гипотеза (а) о том, что нормальное распределение имеет заданное среднее значение и дисперсию, является статистической; то же самое можно сказать и о гипотезе (б), согласно которой она имеет заданное среднее значение, но неопределенную дисперсию; так же как и гипотеза (c) о том, что распределение имеет нормальную форму с неуказанными средним значением и дисперсией; наконец, то же самое относится и к гипотезе (d) о том, что два неуказанных непрерывных распределения идентичны.

    Следует заметить, что в примерах (а) и (б) распределение, лежащее в основе наблюдений, имело определенную форму (нормальную), и гипотеза полностью касалась значения одного или обоих ее параметров. Такая гипотеза по понятным причинам называется параметрической .

    Гипотеза (в) носила иной характер, так как в формулировке гипотезы не указаны значения параметров; мы могли бы разумно назвать такую ​​гипотезу непараметрической . Гипотеза (d) также непараметрична, но, кроме того, она даже не определяет основную форму распределения и теперь может быть обоснованно названа « безраспределенной» . Несмотря на эти различия, в статистической литературе теперь обычно применяется ярлык «непараметрический» к процедурам тестирования, которые мы только что назвали «нераспределенными», тем самым теряя полезную классификацию.

  2. Второе значение термина «непараметрический» подразумевает методы, которые не предполагают, что структура модели фиксирована. Обычно модель увеличивается в размерах, чтобы учесть сложность данных. В этих методах обычно предполагается, что отдельные переменные принадлежат параметрическим распределениям, а также делаются предположения о типах ассоциаций между переменными. Эти методы включают, среди прочего:
    • непараметрическая регрессия , которая представляет собой моделирование, при котором структура взаимосвязи между переменными рассматривается непараметрически, но при этом, тем не менее, могут существовать параметрические предположения о распределении остатков модели.
    • непараметрические иерархические байесовские модели , такие как модели, основанные на процессе Дирихле , которые позволяют количеству скрытых переменных расти по мере необходимости, чтобы соответствовать данным, но где отдельные переменные по-прежнему следуют параметрическим распределениям и даже процессу, контролирующему скорость роста скрытые переменные следуют параметрическому распределению.

Приложения и цель

Непараметрические методы широко используются для изучения групп населения, имеющих ранжированный порядок (например, обзоры фильмов, получающие от одной до пяти «звезд»). Использование непараметрических методов может оказаться необходимым, когда данные имеют ранжирование , но не имеют четкой числовой интерпретации, например, при оценке предпочтений . Что касается уровней измерения , непараметрические методы дают порядковые данные .

Поскольку непараметрические методы делают меньше допущений, их применимость гораздо шире, чем у соответствующих параметрических методов. В частности, они могут применяться в ситуациях, когда о рассматриваемом приложении известно меньше. Кроме того, из-за меньшего количества предположений непараметрические методы более надежны .

Непараметрические методы иногда считаются более простыми в использовании и более надежными, чем параметрические методы, даже если предположения параметрических методов оправданы. Это связано с их более общим характером, что может сделать их менее подверженными неправильному использованию и неправильному пониманию. Непараметрические методы можно считать консервативным выбором, поскольку они будут работать, даже если их предположения не выполняются, тогда как параметрические методы могут давать вводящие в заблуждение результаты, когда их предположения нарушаются.

За более широкую применимость и повышенную надежность непараметрических тестов приходится платить: в тех случаях, когда предположения параметрического теста выполняются, непараметрические тесты имеют меньшую статистическую мощность . Другими словами, для того чтобы сделать выводы с той же степенью уверенности, может потребоваться больший размер выборки.

Непараметрические модели

Непараметрические модели отличаются от параметрических тем, что структура модели не задается заранее, а определяется на основе данных. Термин «непараметрический» не означает, что в таких моделях полностью отсутствуют параметры, а означает, что количество и характер параметров являются гибкими и не фиксированными заранее.

Методы

Непараметрические (или не имеющие распределения ) статистические методы вывода представляют собой математические процедуры для проверки статистических гипотез, которые, в отличие от параметрической статистики , не делают никаких предположений о вероятностных распределениях оцениваемых переменных. К наиболее часто используемым тестам относятся

История

Ранняя непараметрическая статистика включает медиану (13 век или раньше, использовалась для оценки Эдвардом Райтом , 1599; см. Медиану § История ) и тест знаков Джона Арбутнота (1710) при анализе соотношения полов человека при рождении (см. Тест знаков § История). ). [4] [5]

Смотрите также

Примечания

  1. ^ «Вся непараметрическая статистика». Спрингеровские тексты в статистике . 2006. дои : 10.1007/0-387-30623-4.
  2. ^ Пирс, Дж; Деррик, Б. (2019). «Предварительное тестирование: дьявол статистики?». Новое изобретение: Международный журнал студенческих исследований . 12 (2). дои : 10.31273/reinvention.v12i2.339 .
  3. ^ Стюарт А., Орд Дж. К., Арнольд С. (1999), Расширенная теория статистики Кендалла: Том 2A - Классический вывод и линейная модель , шестое издание, §20.2–20.3 ( Арнольд ).
  4. ^ Коновер, WJ (1999), «Глава 3.4: Знаковый тест», Практическая непараметрическая статистика (Третье изд.), Wiley, стр. 157–176, ISBN 0-471-16068-7
  5. ^ Срент, П. (1989), Прикладные непараметрические статистические методы (второе изд.), Chapman & Hall, ISBN 0-412-44980-3

Общие ссылки