Хотя термин «хорошо себя ведущая статистика» часто, кажется, используется в научной литературе примерно так же, как и « хорошо себя ведущий » в математике (то есть, в значении «непатологический » [ 1] [2] ), ему также можно придать точное математическое значение, и более чем одним способом. В первом случае значение этого термина будет меняться от контекста к контексту. Во втором случае математические условия могут использоваться для вывода классов комбинаций распределений со статистикой, которые хорошо себя ведут в каждом смысле.
Первое определение: Дисперсия хорошо работающей статистической оценки конечна, и одним из условий ее среднего значения является то, что она должна быть дифференцируемой по оцениваемому параметру. [3]
Второе определение: статистика монотонна, хорошо определена и локально достаточна. [4]
Условия для хорошей статистики: первое определение
Более формально условия можно выразить следующим образом. — это статистика для , которая является функцией выборки, . Для того, чтобы вести себя хорошо, нам требуется:
: Условие 1
дифференцируема по , и производная удовлетворяет:
: Условие 2
Условия для хорошей статистики: второе определение
Для того, чтобы вывести закон распределения параметра T , совместимый с , статистика должна подчиняться некоторым техническим свойствам. А именно, статистика s считается хорошо себя ведущей, если она удовлетворяет следующим трем утверждениям:
- монотонность . Равномерно монотонное отношение существует между s и ? для любого фиксированного начального числа – так, чтобы иметь единственное решение (1);
- хорошо определено . На каждом наблюдаемом s статистика хорошо определена для каждого значения ?, т. е. любой спецификации выборки , которая имеет плотность вероятности, отличную от 0, – чтобы избежать рассмотрения несюръективного отображения из в , т. е. связывания через с образцом a ?, который не мог бы сгенерировать сам образец;
- локальная достаточность . представляет собой истинную выборку T для наблюдаемого s , так что то же распределение вероятностей может быть приписано каждому выборочному значению. Теперь, является решением (1) с начальным значением . Поскольку начальные значения распределены одинаково, единственное предостережение исходит из их независимости или, наоборот, из их зависимости от самого ?. Эту проверку можно ограничить начальными значениями, вовлеченными в s , т.е. этого недостатка можно избежать, потребовав, чтобы распределение было независимым от ?. Простой способ проверить это свойство — отобразить спецификации начальных значений в спецификации s . Отображение, конечно, зависит от ?, но распределение не будет зависеть от ?, если выполняется указанная выше независимость начальных значений — условие, которое выглядит как локальная достаточность статистики S .
Оставшаяся часть настоящей статьи в основном посвящена контексту процедур интеллектуального анализа данных , применяемых к статистическому выводу , и, в частности, к группе процедур с интенсивными вычислениями, которые называются алгоритмическим выводом .
Алгоритмический вывод
В алгоритмическом выводе наиболее важным свойством статистики является поворотный шаг, который позволяет перенести вероятностные соображения с распределения выборки на распределение параметров, представляющих распределение совокупности, таким образом, что заключение этого шага статистического вывода совместимо с фактически наблюдаемой выборкой.
По умолчанию заглавные буквы (например, U , X ) будут обозначать случайные величины, а строчные буквы ( u , x ) — их соответствующие реализации, а готические буквы (например, ) — область, в которой переменная принимает спецификации. Столкнувшись с образцом , учитывая механизм выборки , со скаляром, для случайной величины X , мы имеем
Механизм выборки статистики s как функции ? от с характеристиками в , имеет объясняющую функцию, определяемую основным уравнением:
для подходящих семян и параметров?
Пример
Например, как для распределения Бернулли с параметром p, так и для экспоненциального распределения с параметром ? статистика ведет себя хорошо. Удовлетворение вышеуказанных трех свойств является простым, если рассматривать обе объясняющие функции: если , 0 в противном случае в случае случайной величины Бернулли, и для экспоненциальной случайной величины, приводя к статистике
и
Наоборот , в случае X, следующих непрерывному равномерному распределению по той же статистике, не удовлетворяют второму требованию. Например, наблюдаемая выборка дает . Но объясняющая функция этого X равна . Следовательно, основное уравнение даст с выборкой U и решением . Это противоречит наблюдаемой выборке, поскольку первое наблюдаемое значение должно быть больше правого экстремума диапазона X. Статистика ведет себя хорошо в этом случае.
Аналогично, для случайной величины X, следующей распределению Парето с параметрами K и A (см. пример Парето для более подробного рассмотрения этого случая),
и
могут быть использованы в качестве совместной статистики для этих параметров.
Как общее утверждение, которое справедливо при слабых условиях, достаточные статистики хорошо ведут себя по отношению к связанным параметрам. В таблице ниже приведены достаточные / хорошо ведущие себя статистики для параметров некоторых наиболее часто используемых распределений вероятностей.
Ссылки
- ^ Дон Якобуччи. «Анализ медиации и категориальные переменные: последний рубеж» (PDF) . Получено 7 февраля 2017 г.
- ^ Джон Динардо; Джейсон Уинфри. «Закон гениальности и хоумранов опровергнут» (PDF) . Получено 7 февраля 2017 г.
- ^ A DasGupta. "(без названия)" (PDF) . Получено 7 февраля 2017 г.
- ^ Аполлони, Б.; Бассис, С.; Мальчиоди, Д.; Витольд, П. (2008). Загадка гранулярных вычислений . Исследования по вычислительному интеллекту. Т. 138. Берлин: Springer.
- Бахадур, Р. Р.; Леманн, Э. Л. (1955). «Два комментария о достаточности и статистических функциях принятия решений». Annals of Mathematical Statistics . 26 : 139–142. doi : 10.1214/aoms/1177728604 .