Тип статистического анализа
Непараметрическая статистика — это тип статистического анализа, который делает минимальные предположения о базовом распределении изучаемых данных. Часто эти модели являются бесконечномерными, а не конечномерными, как параметрическая статистика . [1] Непараметрическая статистика может использоваться для описательной статистики или статистического вывода . Непараметрические тесты часто используются, когда предположения параметрических тестов явно нарушаются. [2]
Определения
Термин «непараметрическая статистика» был неточно определен, среди прочего, следующими двумя способами:
Первое значение непараметрического подразумевает методы, которые не опираются на данные, принадлежащие какому-либо конкретному параметрическому семейству вероятностных распределений. К ним относятся, среди прочего:
- Методы , не зависящие от распределения , которые не полагаются на предположения о том, что данные взяты из заданного параметрического семейства распределений вероятностей .
- Статистика определяется как функция выборки, без зависимости от параметра .
Примером является порядковая статистика , которая основана на порядковом ранжировании наблюдений.
Приведенное ниже обсуждение взято из книги Кендалла «Продвинутая теория статистики» . [3]
Статистические гипотезы касаются поведения наблюдаемых случайных величин... Например, гипотеза (a) о том, что нормальное распределение имеет заданное среднее значение и дисперсию, является статистической; таковой является и гипотеза (b) о том, что оно имеет заданное среднее значение, но не указанную дисперсию; таковой является и гипотеза (c) о том, что распределение имеет нормальную форму, при этом и среднее значение, и дисперсия не указаны; наконец, таковой является и гипотеза (d) о том, что два неуказанных непрерывных распределения идентичны.
Можно заметить, что в примерах (a) и (b) распределение, лежащее в основе наблюдений, принималось в определенной форме (нормальным), а гипотеза была целиком связана со значением одного или обоих его параметров. Такая гипотеза, по понятным причинам, называется параметрической .
Гипотеза (c) имела иную природу, поскольку в формулировке гипотезы не указаны значения параметров; мы могли бы обоснованно назвать такую гипотезу непараметрической . Гипотеза (d) также является непараметрической, но, кроме того, она даже не определяет основную форму распределения и теперь может быть обоснованно названа свободной от распределения . Несмотря на эти различия, статистическая литература теперь обычно применяет ярлык «непараметрический» к процедурам тестирования, которые мы только что назвали «свободными от распределения», тем самым теряя полезную классификацию.
Второе значение непараметрического подразумевает методы, которые не предполагают, что структура модели фиксирована. Обычно модель увеличивается в размерах, чтобы приспособиться к сложности данных. В этих методах отдельные переменные обычно считаются принадлежащими параметрическим распределениям, а также делаются предположения о типах ассоциаций между переменными. Эти методы включают, среди прочего:
- непараметрическая регрессия , представляющая собой моделирование, при котором структура взаимосвязи между переменными рассматривается непараметрически, но при этом могут существовать параметрические предположения о распределении остатков модели.
- непараметрические иерархические байесовские модели , такие как модели, основанные на процессе Дирихле , которые позволяют увеличивать число скрытых переменных по мере необходимости для соответствия данным, но в которых отдельные переменные по-прежнему следуют параметрическим распределениям, и даже процесс, контролирующий скорость роста скрытых переменных, следует параметрическому распределению.
Применение и назначение
Непараметрические методы широко используются для изучения совокупностей, имеющих ранжированный порядок (например, обзоры фильмов, получающие от одной до пяти «звезд»). Использование непараметрических методов может быть необходимо, когда данные имеют ранжирование , но не имеют четкой числовой интерпретации, например, при оценке предпочтений . С точки зрения уровней измерения непараметрические методы приводят к порядковым данным .
Поскольку непараметрические методы делают меньше предположений, их применимость гораздо более общая, чем у соответствующих параметрических методов. В частности, их можно применять в ситуациях, когда о рассматриваемом приложении известно меньше. Кроме того, из-за опоры на меньшее количество предположений непараметрические методы более надежны .
Непараметрические методы иногда считаются более простыми в использовании и более надежными, чем параметрические методы, даже когда предположения параметрических методов обоснованы. Это связано с их более общей природой, что может сделать их менее восприимчивыми к неправильному использованию и непониманию. Непараметрические методы можно считать консервативным выбором, поскольку они будут работать, даже если их предположения не выполняются, тогда как параметрические методы могут давать вводящие в заблуждение результаты, когда их предположения нарушаются.
Более широкая применимость и повышенная надежность непараметрических тестов обходятся дорого: в случаях, когда предположения параметрического теста выполняются, непараметрические тесты имеют меньшую статистическую мощность . Другими словами, для выводов с той же степенью уверенности может потребоваться больший размер выборки.
Непараметрические модели
Непараметрические модели отличаются от параметрических тем, что структура модели не задается априори , а определяется на основе данных. Термин «непараметрический» не означает, что такие модели полностью лишены параметров, но что количество и характер параметров являются гибкими и не фиксируются заранее.
Методы
Непараметрические (или свободные от распределения ) инференциальные статистические методы — это математические процедуры для проверки статистических гипотез, которые, в отличие от параметрической статистики , не делают никаких предположений о распределениях вероятностей оцениваемых переменных. Наиболее часто используемые тесты включают {{columns-list|colwidth=50em|
- Анализ сходств
- Тест Андерсона-Дарлинга : проверяет, взята ли выборка из заданного распределения.
- Статистические методы бутстрапа : оценивают точность/выборочное распределение статистики
- Q Кохрана : проверяет, имеют ли k видов лечения в рандомизированных блочных проектах с результатами 0/1 идентичные эффекты
- Каппа Коэна : измеряет межэкспертное согласие по категориальным пунктам
- Двусторонний дисперсионный анализ Фридмана по рангам: проверяет, имеют ли k методов лечения в рандомизированных блочных планах одинаковые эффекты
- Эмпирическая вероятность
- Каплан–Майер : оценивает функцию выживания на основе данных о продолжительности жизни, моделируя цензурирование
- Тау Кендалла : измеряет статистическую зависимость между двумя переменными
- W Кендалла : мера межэкспертного согласия между 0 и 1.
- Тест Колмогорова–Смирнова : проверяет, взята ли выборка из заданного распределения или взяты ли две выборки из одного и того же распределения.
- Однофакторный дисперсионный анализ Краскела–Уоллиса по рангам: проверяет, взяты ли > 2 независимых выборок из одного и того же распределения.
- Тест Койпера : проверяет, взята ли выборка из заданного распределения, чувствительного к циклическим изменениям, таким как день недели.
- Логранговый тест : сравнивает распределения выживаемости двух смещенных вправо цензурированных выборок.
- Критерий суммы рангов Манна-Уитни или U-критерий Уилкоксона: проверяет, взяты ли две выборки из одного и того же распределения, по сравнению с заданной альтернативной гипотезой.
- Тест Макнемара : проверяет, равны ли предельные частоты строк и столбцов в таблицах сопряженности 2 × 2 с дихотомическим признаком и согласованными парами субъектов.
- Медианный тест : проверяет, взяты ли две выборки из распределений с равными медианами.
- Тест перестановки Питмана : тест статистической значимости, который дает точные значения p путем проверки всех возможных перестановок меток.
- Ранжирование продуктов : обнаружение дифференциально экспрессируемых генов в реплицированных экспериментах с микрочипами.
- Тест Сигела–Тьюки : проверяет различия в масштабах между двумя группами.
- Тест знаков : проверяет, взяты ли сопоставленные парные выборки из распределений с равными медианами.
- Коэффициент ранговой корреляции Спирмена : измеряет статистическую зависимость между двумя переменными с помощью монотонной функции.
- Тест квадратичных рангов : проверяет равенство дисперсий в двух или более выборках.
- Тест Тьюки–Дакворта : проверяет равенство двух распределений с использованием рангов.
- Тест Вальда–Вольфовица : проверяет, являются ли элементы последовательности взаимно независимыми/случайными.
- Критерий знаковых рангов Уилкоксона : проверяет, взяты ли сопоставленные парные выборки из популяций с разными средними рангами.
- Универсальная линейная идентификация: метод, независимый от данных, выбросов и модели распределения шума, а также свободный от вменения пропущенных или удаленных данных. [4]
История
Ранние непараметрические статистики включают медиану (13 век или ранее, использовалась для оценки Эдвардом Райтом , 1599; см. Медиана § История ) и тест знаков Джона Арбетнота ( 1710) при анализе соотношения полов у людей при рождении (см. тест знаков § История ). [5] [6]
Смотрите также
Примечания
- ^ "All of Nonparametric Statistics". Springer Texts in Statistics . 2006. doi :10.1007/0-387-30623-4. ISBN 978-0-387-25145-5.
- ^ Пирс, Дж.; Деррик, Б. (2019). «Предварительное тестирование: дьявол статистики?». Переосмысление: международный журнал бакалаврских исследований . 12 (2). doi : 10.31273/reinvention.v12i2.339 .
- ^ Стюарт А., Орд Дж. К., Арнольд С. (1999), Расширенная теория статистики Кендалла: Том 2А — Классический вывод и линейная модель , шестое издание, §20.2–20.3 ( Арнольд ).
- ^ Adikaram, KKLB; Hussein, MA; Effenberger, M.; Becker, T. (16 ноября 2015 г.). «Универсальная линейная идентификация соответствия: метод, независимый от данных, выбросов и модели распределения шума и свободный от подстановки пропущенных или удаленных данных». PLOS ONE . 10 (11): e0141486. Bibcode : 2015PLoSO..1041486A. doi : 10.1371/journal.pone.0141486 . ISSN 1932-6203. PMC 4646355. PMID 26571035 .
- ^ Conover, WJ (1999), «Глава 3.4: Тест знаков», Practical Nonparametric Statistics (Третье изд.), Wiley, стр. 157–176, ISBN 0-471-16068-7
- ^ Спрент, П. (1989), Прикладные непараметрические статистические методы (второе издание), Chapman & Hall, ISBN 0-412-44980-3
Общие ссылки
- Багдонавичус, В., Круопис, Й., Никулин, М.С. (2011). «Непараметрические тесты для полных данных», ISTE & WILEY: Лондон и Хобокен. ISBN 978-1-84821-269-5 .
- Кордер, Г. В.; Форман, Д. И. (2014). Непараметрическая статистика: пошаговый подход . Wiley. ISBN 978-1-118-84031-3.
- Гиббонс, Джин Дикинсон ; Чакраборти, Субхабрата (2003). Непараметрический статистический вывод , 4-е изд. CRC Press. ISBN 0-8247-4052-1 .
- Хеттманспергер, Т. П.; МакКин, Дж. В. (1998). Надежные непараметрические статистические методы . Библиотека статистики Кендалла. Том 5. Лондон: Эдвард Арнольд . ISBN 0-340-54937-8. МР 1604954.также ISBN 0-471-19479-4 .
- Холландер М., Вулф Д.А., Чикен Э. (2014). Непараметрические статистические методы , John Wiley & Sons.
- Шескин, Дэвид Дж. (2003) Справочник по параметрическим и непараметрическим статистическим процедурам . CRC Press. ISBN 1-58488-440-1
- Вассерман, Ларри (2007). Все о непараметрической статистике , Springer. ISBN 0-387-25145-6 .