В статистике проблема Беренса –Фишера , названная в честь Вальтера-Ульриха Беренса и Рональда Фишера , представляет собой задачу интервальной оценки и проверки гипотез относительно разницы между средними значениями двух нормально распределенных совокупностей, когда дисперсии двух совокупностей не предполагаются равными, на основе двух независимых выборок.
Одна из трудностей при обсуждении проблемы Беренса–Фишера и предлагаемых решений заключается в том, что существует множество различных интерпретаций того, что подразумевается под «проблемой Беренса–Фишера». Эти различия касаются не только того, что считается релевантным решением, но даже основного утверждения рассматриваемого контекста.
Пусть X 1 , ..., X n и Y 1 , ..., Y m будут выборками iid из двух совокупностей, которые обе принадлежат к одному и тому же семейству распределений «местоположение–масштаб» . Предполагается, что параметры масштаба неизвестны и не обязательно равны, и проблема состоит в том, чтобы оценить, можно ли обоснованно считать параметры местоположения равными. Леманн [1] утверждает, что «проблема Беренса–Фишера» используется как для этой общей формы модели, когда семейство распределений произвольно, так и для случая, когда делается ограничение нормальным распределением . В то время как Леманн обсуждает ряд подходов к более общей проблеме, в основном основанных на непараметрике, [2] большинство других источников, по-видимому, используют «проблему Беренса–Фишера» для обозначения только случая, когда распределение предполагается нормальным: большая часть этой статьи делает это предположение.
Были представлены решения проблемы Беренса–Фишера, которые используют либо классическую , либо байесовскую точку зрения вывода, и любое решение будет теоретически недействительным с точки зрения другой точки зрения. Если рассмотрение ограничивается только классическим статистическим выводом, можно искать решения проблемы вывода, которые просты в применении в практическом смысле, отдавая предпочтение этой простоте перед любой неточностью в соответствующих вероятностных утверждениях. Когда требуется точность уровней значимости статистических тестов, может быть дополнительное требование, чтобы процедура максимально использовала статистическую информацию в наборе данных. Хорошо известно, что точный тест может быть получен путем случайного отбрасывания данных из большего набора данных до тех пор, пока размеры выборок не станут равными, собирая данные попарно и беря различия, а затем используя обычный t-тест для проверки того, что среднее-разность равна нулю: очевидно, что это не будет «оптимальным» ни в каком смысле.
Задача указания интервальных оценок для этой проблемы — это задача, в которой частотный подход не может предоставить точное решение, хотя некоторые приближения доступны. Стандартные байесовские подходы также не могут предоставить ответ, который можно выразить в виде простых простых формул, но современные вычислительные методы байесовского анализа позволяют находить по существу точные решения. [ необходима цитата ] Таким образом, изучение проблемы может быть использовано для выяснения различий между частотным и байесовским подходами к интервальной оценке.
Рональд Фишер в 1935 году ввел фидуциальный вывод [3] [4] , чтобы применить его к этой проблеме. Он сослался на более раннюю работу Вальтера-Ульриха Беренса от 1929 года. Беренс и Фишер предложили найти распределение вероятностей
где и — два выборочных средних значения , а s 1 и s 2 — их стандартные отклонения . См. распределение Беренса–Фишера . Фишер аппроксимировал распределение этого, игнорируя случайную вариацию относительных размеров стандартных отклонений,
Решение Фишера вызвало споры, поскольку оно не обладало свойством, согласно которому гипотеза о равных средних значениях была бы отклонена с вероятностью α, если бы средние значения были на самом деле равны. С тех пор было предложено много других методов решения этой проблемы, и было исследовано влияние на полученные доверительные интервалы. [5]
Широко используемый метод — метод Б. Л. Уэлча , [6], который, как и Фишер, работал в Лондонском университетском колледже . Дисперсия средней разности
результаты в
Уэлч (1938) аппроксимировал распределение распределением Пирсона типа III (масштабированное распределение хи-квадрат ), первые два момента которого согласуются с моментом . Это относится к следующему числу степеней свободы (df), которое, как правило, не является целым числом:
При нулевой гипотезе равных ожиданий, μ 1 = μ 2 , распределение статистики Беренса–Фишера T , которое также зависит от отношения дисперсии σ 1 2 / σ 2 2 , теперь может быть аппроксимировано распределением Стьюдента с этими ν степенями свободы. Но это ν содержит дисперсии совокупности σ i 2 , а они неизвестны. Следующая оценка заменяет только дисперсии совокупности на дисперсии выборки:
Это случайная величина. Распределение t со случайным числом степеней свободы не существует. Тем не менее, распределение Беренса–Фишера T можно сравнить с соответствующим квантилем распределения Стьюдента t с этими оценочными числами степеней свободы, , которое, как правило, не является целым числом. Таким образом, граница между областью принятия и отклонения тестовой статистики T вычисляется на основе эмпирических дисперсий s i 2 таким образом, что является их гладкой функцией.
Этот метод также не дает точной номинальной ставки, но, как правило, не слишком далек от истины. [ требуется ссылка ] Однако, если дисперсии генеральной совокупности равны или если выборки довольно малы и дисперсии генеральной совокупности можно считать приблизительно равными, более точным будет использование t-критерия Стьюдента . [ требуется ссылка ]
Было предложено несколько различных подходов к общей проблеме, некоторые из которых претендуют на «решение» некоторой версии проблемы. Среди них [7]
В сравнении выбранных методов, проведенном Дудевичем [7], было обнаружено, что процедура Дудевича–Ахмеда рекомендуется для практического использования.
В течение нескольких десятилетий считалось, что точного решения общей проблемы Беренса–Фишера не существует. [ необходима цитата ] Однако в 1966 году было доказано, что у нее есть точное решение. [12] В 2018 году была доказана функция плотности вероятности обобщенного распределения Беренса–Фишера m средних значений и m различных стандартных ошибок из m выборок различных размеров из независимых нормальных распределений с различными средними значениями и дисперсиями, и в статье также были исследованы ее асимптотические приближения. [13] В последующей статье было показано, что классический парный t -тест является центральной проблемой Беренса–Фишера с ненулевым коэффициентом корреляции популяции, и была выведена ее соответствующая функция плотности вероятности путем решения связанной с ней нецентральной проблемы Беренса–Фишера с ненулевым коэффициентом корреляции популяции. [14] В ней также была решена более общая нецентральная проблема Беренса–Фишера с ненулевым коэффициентом корреляции популяции в приложении. [14]
Был изучен небольшой вариант проблемы Беренса–Фишера. [15] В этом случае проблема заключается в том, чтобы, предположив, что два средних значения совокупности фактически одинаковы, сделать выводы об общем среднем значении: например, можно потребовать доверительный интервал для общего среднего значения.
Одно из обобщений проблемы включает многомерные нормальные распределения с неизвестными ковариационными матрицами и известно как многомерная проблема Беренса–Фишера . [16]
Непараметрическая задача Беренса–Фишера не предполагает , что распределения являются нормальными. [17] [18] Тесты включают тест Куккони 1968 года и тест Лепажа 1971 года.