Непараметрическая статистика

Непараметрическая статистика — это тип статистического анализа, который делает минимальные предположения об основном распределении изучаемых данных. Часто эти модели являются бесконечномерными, а не конечномерными, как параметрическая статистика . ^[1] Непараметрическая статистика может использоваться для описательной статистики или статистического вывода . Непараметрические тесты часто используются, когда предположения параметрических тестов явно нарушаются. ^[2]

Определения

Термин «непараметрическая статистика» был определен неточно, среди прочего, следующими двумя способами:

Первое значение термина «непараметрический» включает в себя методы, которые не полагаются на данные, принадлежащие какому-либо конкретному параметрическому семейству вероятностных распределений.
К ним относятся, среди прочего:
- Методы, не зависящие от распределения , которые не полагаются на предположения, что данные взяты из заданного параметрического семейства вероятностных распределений .
- Статистика определяется как функция выборки, не зависящая от параметра .
Примером может служить статистика заказов , основанная на порядковом ранжировании наблюдений.
Дальнейшее обсуждение взято из « Передовой теории статистики» Кендалла . ^[3]
Статистические гипотезы касаются поведения наблюдаемых случайных величин... Например, гипотеза (а) о том, что нормальное распределение имеет заданное среднее значение и дисперсию, является статистической; то же самое можно сказать и о гипотезе (б), согласно которой она имеет заданное среднее значение, но неопределенную дисперсию; так же как и гипотеза (c) о том, что распределение имеет нормальную форму с неуказанными средним значением и дисперсией; наконец, то же самое относится и к гипотезе (d) о том, что два неуказанных непрерывных распределения идентичны.
Следует заметить, что в примерах (а) и (б) распределение, лежащее в основе наблюдений, имело определенную форму (нормальную), и гипотеза полностью касалась значения одного или обоих ее параметров. Такая гипотеза по понятным причинам называется параметрической .
Гипотеза (в) носила иной характер, так как в формулировке гипотезы не указаны значения параметров; мы могли бы разумно назвать такую гипотезу непараметрической . Гипотеза (d) также непараметрична, но, кроме того, она даже не определяет основную форму распределения и теперь может быть обоснованно названа « безраспределенной» . Несмотря на эти различия, в статистической литературе теперь обычно применяется ярлык «непараметрический» к процедурам тестирования, которые мы только что назвали «нераспределенными», тем самым теряя полезную классификацию.
Второе значение термина «непараметрический» подразумевает методы, которые не предполагают, что структура модели фиксирована. Обычно модель увеличивается в размерах, чтобы учесть сложность данных. В этих методах обычно предполагается, что отдельные переменные принадлежат параметрическим распределениям, а также делаются предположения о типах ассоциаций между переменными. Эти методы включают, среди прочего:
- непараметрическая регрессия , которая представляет собой моделирование, при котором структура взаимосвязи между переменными рассматривается непараметрически, но при этом, тем не менее, могут существовать параметрические предположения о распределении остатков модели.
- непараметрические иерархические байесовские модели , такие как модели, основанные на процессе Дирихле , которые позволяют количеству скрытых переменных расти по мере необходимости, чтобы соответствовать данным, но где отдельные переменные по-прежнему следуют параметрическим распределениям и даже процессу, контролирующему скорость роста скрытые переменные следуют параметрическому распределению.

Приложения и цель

Непараметрические методы широко используются для изучения групп населения, имеющих ранжированный порядок (например, обзоры фильмов, получающие от одной до пяти «звезд»). Использование непараметрических методов может оказаться необходимым, когда данные имеют ранжирование , но не имеют четкой числовой интерпретации, например, при оценке предпочтений . Что касается уровней измерения , непараметрические методы дают порядковые данные .

Поскольку непараметрические методы делают меньше допущений, их применимость гораздо шире, чем у соответствующих параметрических методов. В частности, они могут применяться в ситуациях, когда о рассматриваемом приложении известно меньше. Кроме того, из-за меньшего количества предположений непараметрические методы более надежны .

Непараметрические методы иногда считаются более простыми в использовании и более надежными, чем параметрические методы, даже если предположения параметрических методов оправданы. Это связано с их более общим характером, что может сделать их менее подверженными неправильному использованию и неправильному пониманию. Непараметрические методы можно считать консервативным выбором, поскольку они будут работать, даже если их предположения не выполняются, тогда как параметрические методы могут давать вводящие в заблуждение результаты, когда их предположения нарушаются.

За более широкую применимость и повышенную надежность непараметрических тестов приходится платить: в тех случаях, когда предположения параметрического теста выполняются, непараметрические тесты имеют меньшую статистическую мощность . Другими словами, для того чтобы сделать выводы с той же степенью уверенности, может потребоваться больший размер выборки.

Непараметрические модели

Непараметрические модели отличаются от параметрических тем, что структура модели не задается заранее, а определяется на основе данных. Термин «непараметрический» не означает, что в таких моделях полностью отсутствуют параметры, а означает, что количество и характер параметров являются гибкими и не фиксированными заранее.

Гистограмма — это простая непараметрическая оценка распределения вероятностей.
Оценка плотности ядра — это еще один метод оценки распределения вероятностей.
Методы непараметрической регрессии и полупараметрической регрессии были разработаны на основе ядер , сплайнов и вейвлетов .
Анализ охвата данных дает коэффициенты эффективности, аналогичные тем, которые получены с помощью многомерного анализа без каких-либо предположений о распределении.
KNN классифицируют невидимый экземпляр на основе K точек в обучающем наборе, которые являются ближайшими к нему.
Машина опорных векторов (с ядром Гаусса) представляет собой непараметрический классификатор с большим запасом.
Метод моментов с полиномиальными распределениями вероятностей.

Методы

Непараметрические (или не имеющие распределения ) статистические методы вывода представляют собой математические процедуры для проверки статистических гипотез, которые, в отличие от параметрической статистики , не делают никаких предположений о вероятностных распределениях оцениваемых переменных. К наиболее часто используемым тестам относятся

Анализ сходства
Тест Андерсона-Дарлинга : проверяет, взята ли выборка из заданного распределения.
Статистические методы начальной загрузки : оценивают точность/распределение выборки статистики.
Вопрос Кокрана : проверяет, имеют ли k методы лечения в рандомизированных блоках с исходами 0/1 одинаковые эффекты.
Каппа Коэна : измеряет согласие между экспертами по категориальным признакам
Двусторонний дисперсионный анализ Фридмана по рангам: проверяет, имеют ли k методы лечения в рандомизированных блоках одинаковые эффекты
Эмпирическая вероятность
Каплан – Мейер : оценивает функцию выживания на основе данных о жизни, моделируя цензуру.
Тау Кендалла : измеряет статистическую зависимость между двумя переменными.
W Кендалла : показатель согласия между экспертами от 0 до 1.
Критерий Колмогорова-Смирнова : проверяет, взята ли выборка из данного распределения или две выборки взяты из одного и того же распределения.
Односторонний дисперсионный анализ Крускала-Уоллиса по рангам: проверяет, взяты ли > 2 независимых выборки из одного и того же распределения.
Тест Койпера : проверяет, получена ли выборка из заданного распределения, чувствительного к циклическим изменениям, таким как день недели.
Критерий Логранка : сравнивает распределения выживаемости двух цензурированных выборок с перекосом вправо.
U-критерий Манна-Уитни или критерий суммы рангов Уилкоксона: проверяет, взяты ли две выборки из одного и того же распределения по сравнению с заданной альтернативной гипотезой.
Тест Макнемара : проверяет, равны ли в таблицах сопряженности 2 × 2 с дихотомическим признаком и совпадающими парами субъектов маргинальные частоты строк и столбцов.
Медианный тест : проверяет, взяты ли две выборки из распределений с одинаковыми медианами.
Тест перестановки Питмана : тест статистической значимости, который дает точные значения p путем изучения всех возможных перестановок меток.
Ранговые продукты : обнаруживает дифференциально экспрессируемые гены в повторяющихся экспериментах на микрочипах.
Тест Сигела – Тьюки : тесты на различия в масштабах между двумя группами.
Знаковый тест : проверяет, взяты ли выборки совпадающих пар из распределений с равными медианами.
Коэффициент ранговой корреляции Спирмена : измеряет статистическую зависимость между двумя переменными с использованием монотонной функции.
Тест квадратов рангов : проверяет равенство дисперсий в двух или более выборках.
Тест Тьюки – Дакворта : проверяет равенство двух распределений с использованием рангов.
Вальд-Вольфовиц запускает тест : проверяет, являются ли элементы последовательности взаимно независимыми/случайными.
Знако-ранговый критерий Уилкоксона : проверяет, взяты ли совпадающие парные выборки из популяций с разными средними рангами.

История

Ранняя непараметрическая статистика включает медиану (13 век или раньше, использовалась для оценки Эдвардом Райтом , 1599; см. Медиану § История ) и тест знаков Джона Арбутнота (1710) при анализе соотношения полов человека при рождении (см. Тест знаков § История). ). ^[4]^[5]

Смотрите также

Примечания

^ «Вся непараметрическая статистика». Спрингеровские тексты в статистике . 2006. дои : 10.1007/0-387-30623-4.
^ Пирс, Дж; Деррик, Б. (2019). «Предварительное тестирование: дьявол статистики?». Новое изобретение: Международный журнал студенческих исследований . 12 (2). дои : 10.31273/reinvention.v12i2.339 .
^ Стюарт А., Орд Дж. К., Арнольд С. (1999), Расширенная теория статистики Кендалла: Том 2A - Классический вывод и линейная модель , шестое издание, §20.2–20.3 ( Арнольд ).
^ Коновер, WJ (1999), «Глава 3.4: Знаковый тест», Практическая непараметрическая статистика (Третье изд.), Wiley, стр. 157–176, ISBN 0-471-16068-7
^ Срент, П. (1989), Прикладные непараметрические статистические методы (второе изд.), Chapman & Hall, ISBN 0-412-44980-3

Общие ссылки

Багдонавичюс В., Круопис Дж., Никулин М.С. (2011). «Непараметрические тесты для полных данных», ISTE & WILEY: Лондон и Хобокен. ISBN 978-1-84821-269-5 .
Кордер, ГВ; Форман, Д.И. (2014). Непараметрическая статистика: пошаговый подход . Уайли. ISBN 978-1-118-84031-3.
Гиббонс, Джин Дикинсон ; Чакраборти, Субхабрата (2003). Непараметрический статистический вывод , 4-е изд. ЦРК Пресс. ISBN 0-8247-4052-1 .
Хеттманспергер, ТП; Маккин, JW (1998). Робастные непараметрические статистические методы . Статистическая библиотека Кендалла. Том. 5. Лондон: Эдвард Арнольд . ISBN 0-340-54937-8. МР 1604954.также ISBN 0-471-19479-4 .
Холландер М., Вулф Д.А., Чикен Э. (2014). Непараметрические статистические методы , John Wiley & Sons.
Шескин, Дэвид Дж. (2003) Справочник по параметрическим и непараметрическим статистическим процедурам . ЦРК Пресс. ISBN 1-58488-440-1
Вассерман, Ларри (2007). Вся непараметрическая статистика , Спрингер. ISBN 0-387-25145-6 .