Тест Андерсона–Дарлинга — это статистический тест , проверяющий, взята ли заданная выборка данных из заданного распределения вероятностей . В своей базовой форме тест предполагает, что в проверяемом распределении нет параметров для оценки, в этом случае тест и его набор критических значений являются свободными от распределения. Однако тест чаще всего используется в контекстах, где проверяется семейство распределений, в этом случае параметры этого семейства необходимо оценить, и это необходимо учитывать при корректировке либо статистики теста, либо его критических значений. При применении к проверке того, адекватно ли нормальное распределение описывает набор данных, он является одним из самых мощных статистических инструментов для обнаружения большинства отклонений от нормальности . [1] [2] Тесты Андерсона–Дарлинга для k -выборок доступны для проверки того, можно ли смоделировать несколько наборов наблюдений как поступающих из одной популяции, где функция распределения не обязательно должна быть указана.
Помимо использования в качестве теста соответствия распределений, его можно использовать при оценке параметров в качестве основы для процедуры оценки минимального расстояния .
Тест назван в честь Теодора Уилбура Андерсона (1918–2016) и Дональда А. Дарлинга (1915–2014), которые изобрели его в 1952 году. [3]
Статистики Андерсона–Дарлинга и Крамера–фон Мизеса относятся к классу квадратичных статистик EDF (тесты, основанные на эмпирической функции распределения ). [2] Если предполагаемое распределение равно , а эмпирическая (выборочная) кумулятивная функция распределения равна , то квадратичные статистики EDF измеряют расстояние между и по
где — число элементов в выборке, а — весовая функция. Когда весовая функция равна , статистика — это статистика Крамера–фон Мизеса . Тест Андерсона–Дарлинга (1954) [4] основан на расстоянии
что получается, когда весовая функция равна . Таким образом, по сравнению с расстоянием Крамера–фон Мизеса расстояние Андерсона–Дарлинга придает больший вес наблюдениям в хвостах распределения.
Тест Андерсона-Дарлинга оценивает, происходит ли выборка из определенного распределения. Он использует тот факт, что при задании гипотетического базового распределения и предположении, что данные действительно возникают из этого распределения, можно предположить, что кумулятивная функция распределения (CDF) данных следует равномерному распределению . Затем данные можно проверить на однородность с помощью теста расстояния (Шапиро, 1980). Формула для тестовой статистики для оценки того, происходят ли данные (обратите внимание, что данные должны быть упорядочены) из CDF, следующая :
где
Затем тестовую статистику можно сравнить с критическими значениями теоретического распределения. В этом случае никакие параметры не оцениваются относительно кумулятивной функции распределения .
По сути, та же самая тестовая статистика может быть использована при проверке соответствия семейства распределений, но затем ее необходимо сравнивать с критическими значениями, соответствующими этому семейству теоретических распределений, а также в зависимости от метода, используемого для оценки параметров.
Эмпирическое тестирование показало [5] , что тест Андерсона–Дарлинга не так хорош, как тест Шапиро–Уилка , но лучше других тестов. Стивенс [1] обнаружил , что это одна из лучших статистик эмпирической функции распределения для обнаружения большинства отклонений от нормальности.
Расчеты различаются в зависимости от того, что известно о распределении: [6]
Наблюдения n , , для , переменной должны быть отсортированы таким образом, что и обозначения в следующем предположении предполагают, что X i представляет упорядоченные наблюдения. Пусть
Значения стандартизируются для создания новых значений , заданных
При использовании стандартного нормального CDF рассчитывается с использованием
Альтернативное выражение, в котором на каждом этапе суммирования рассматривается только одно наблюдение, имеет вид:
Модифицированную статистику можно рассчитать с помощью
Если или превышает заданное критическое значение, то гипотеза о нормальности отвергается с некоторым уровнем значимости. Критические значения приведены в таблице ниже для значений . [1] [7]
Примечание 1: Если = 0 или любое (0 или 1), то не может быть вычислено и не определено.
Примечание 2: Приведенная выше формула корректировки взята из Shorack & Wellner (1986, стр. 239). Необходимо соблюдать осторожность при сравнении различных источников, поскольку часто конкретная формула корректировки не указывается.
Примечание 3: Стивенс [1] отмечает, что тест становится лучше, когда параметры вычисляются на основе данных, даже если они известны.
Примечание 4: Марсалья и Марсалья [7] дают более точный результат для случая 0 — 85% и 99%.
В качестве альтернативы для случая 3 выше (и среднее, и дисперсия неизвестны), Д'Агостино (1986) [6] в Таблице 4.7 на стр. 123 и на страницах 372–373 приводит скорректированную статистику:
и нормальность отклоняется, если превышает 0,631, 0,754, 0,884, 1,047 или 1,159 при уровнях значимости 10%, 5%, 2,5%, 1% и 0,5% соответственно; процедура действительна для размера выборки не менее n=8. Формулы для вычисления p -значений для других значений приведены в таблице 4.9 на стр. 127 той же книги.
Выше предполагалось, что переменная проверяется на нормальное распределение. Любое другое семейство распределений может быть проверено, но тест для каждого семейства реализуется с использованием другой модификации базовой тестовой статистики, и это относится к критическим значениям, специфичным для этого семейства распределений. Модификации статистики и таблицы критических значений приведены Стивенсом (1986) [2] для экспоненциального, экстремального значений, Вейбулла, гамма, логистического, Коши и фон Мизеса. Тесты для (двухпараметрического) логнормального распределения могут быть реализованы путем преобразования данных с использованием логарифма и использования вышеуказанного теста на нормальность. Подробная информация о требуемых модификациях тестовой статистики и критических значениях для нормального распределения и экспоненциального распределения была опубликована Пирсоном и Хартли (1972, таблица 54). Подробности для этих распределений, с добавлением распределения Гумбеля , также приведены Shorack & Wellner (1986, стр. 239). Подробности для логистического распределения приведены Stephens (1979). Тест для (двухпараметрического) распределения Вейбулла может быть получен с использованием того факта, что логарифм переменной Вейбулла имеет распределение Гумбеля .
Фриц Шольц и Майкл А. Стивенс (1987) обсуждают тест, основанный на мере согласия между распределениями Андерсона–Дарлинга, для того, могли ли несколько случайных выборок с возможно разными размерами выборки возникнуть из одного и того же распределения, где это распределение не указано. [8] Пакет R kSamples и пакет Python Scipy реализуют этот ранговый тест для сравнения k выборок среди нескольких других подобных ранговых тестов. [9] [10]
Для выборок статистику можно вычислить следующим образом, предполагая, что функция распределения -й выборки непрерывна
где