G-тест

В статистике G -тесты представляют собой тесты статистической значимости отношения правдоподобия или максимального правдоподобия , которые все чаще используются в ситуациях, когда ранее рекомендовались тесты хи-квадрат . ^[1]

Формулировка

Общая формула для G :

G=2\sum _{i}{O_{i}\cdot \ln \left({\frac {O_{i}}{E_{i}}}\right)},

где — наблюдаемое количество в ячейке, — ожидаемое количество при нулевой гипотезе , обозначает натуральный логарифм , а сумма берется по всем непустым ячейкам. Результат — распределение хи-квадрат . ${\textstyle O_{i}\geq 0}$ ${\textstyle E_{i}>0}$ ${\textstyle \ln}$ ${\textstyle Г}$

Более того, общее наблюдаемое количество должно быть равно общему ожидаемому количеству: где — общее количество наблюдений. $\sum _{i}O_{i}=\sum _{i}E_{i}=N$ ${\textstyle Н}$

Вывод

Мы можем вывести значение G -теста из теста логарифмического отношения правдоподобия , где базовой моделью является мультиномиальная модель.

Предположим, что у нас есть выборка , где каждое — это количество раз, когда наблюдался объект типа. Кроме того, пусть — общее количество наблюдаемых объектов. Если мы предположим, что базовая модель является полиномиальной, то статистика теста определяется как , где — нулевая гипотеза, а — оценка максимального правдоподобия (ОМП) параметров с учетом данных. Напомним, что для полиномиальной модели ОМП с учетом некоторых данных определяется как Кроме того, мы можем представить каждый параметр нулевой гипотезы как Таким образом, подставляя представления и в отношение логарифмического правдоподобия, уравнение упрощается до Переименуем переменные с помощью и с помощью . Наконец, умножим на коэффициент (используемый для того, чтобы сделать формулу теста G асимптотически эквивалентной формуле теста хи-квадрат Пирсона), чтобы получить форму ${\textstyle x=(x_{1},\ldots ,x_{m})}$ ${\textstyle x_{i}}$ ${\textstyle я}$ ${\textstyle n=\сумма _{i=1}^{m}x_{i}}$ $\ln \left({\frac {L({\tilde {\theta }}|x)}{L({\hat {\theta }}|x)}}\right)=\ln \left({\frac {\prod _{i=1}^{m}{\tilde {\theta }}_{i}^{x_{i}}}{\prod _{i=1}^{m}{\hat {\theta }}_{i}^{x_{i}}}}\right)$ ${\textstyle {\тильда {\тета }}}$ ${\hat {\theta }}$ ${\textstyle {\hat {\theta }}_{i}}$ ${\hat {\theta }}_{i}={\frac {x_{i}}{n}}$ ${\tilde {\theta}}_{i}$ ${\tilde {\theta}}_{i}={\frac {e_{i}}{n}}$ ${\textstyle {\тильда {\тета }}}$ ${\textstyle {\шляпа {\тета }}}$ ${\begin{align}\ln \left({\frac {L({\tilde {\theta }}|x)}{L({\hat {\theta }}|x)}}\right)&=\ln \prod _{i=1}^{m}\left({\frac {e_{i}}{x_{i}}}\right)^{x_{i}}\\&=\sum _{i=1}^{m}x_{i}\ln \left({\frac {e_{i}}{x_{i}}}\right)\\\end{align}}$ ${\textstyle e_{i}}$ ${\textstyle E_{i}}$ ${\textstyle x_{i}}$ ${\textstyle О_{я}}$ ${\textstyle -2}$

${\begin{alignedat}{2}G&=&\;-2\sum _{i=1}^{m}O_{i}\ln \left({\frac {E_{i}}{O_{i}}}\right)\\&=&2\sum _{i=1}^{m}O_{i}\ln \left({\frac {O_{i}}{E_{i}}}\right)\end{alignedat}}$

Эвристически можно представить как непрерывный и стремящийся к нулю, в этом случае и члены с нулевыми наблюдениями можно просто отбросить. Однако ожидаемое количество в каждой ячейке должно быть строго больше нуля для каждой ячейки ( ), чтобы применить метод. $~O_{i}~$ $~O_{i}\ln O_{i}\to 0~,$ $~E_{i}>0~\forall \,i~$

Распространение и использование

Принимая во внимание нулевую гипотезу о том, что наблюдаемые частоты являются результатом случайной выборки из распределения с заданными ожидаемыми частотами, распределение G приблизительно является распределением хи-квадрат с тем же числом степеней свободы , что и в соответствующем тесте хи-квадрат.

Для очень маленьких выборок предпочтительнее использовать мультиномиальный тест на соответствие, точный тест Фишера для таблиц сопряженности или даже байесовский выбор гипотез, чем G -тест. ^[2] Макдональд рекомендует всегда использовать точный тест (точный тест на соответствие, точный тест Фишера ), если общий размер выборки меньше 1 000.

Нет ничего магического в размере выборки 1 000, это просто красивое круглое число, которое хорошо вписывается в диапазон, где точный тест, тест хи-квадрат и G -тест дадут почти идентичные значения

p

. Электронные таблицы, калькуляторы веб-страниц и SAS не должны иметь никаких проблем с проведением точного теста на размере выборки 1 000.

— Джон Х. Макдональд ^[2]

G -тесты были рекомендованы по крайней мере с издания 1981 года «Биометрии» , учебника по статистике Роберта Р. Сокала и Ф. Джеймса Рольфа . ^[3]

Связь с другими показателями

Связь с критерием хи-квадрат

Обычно используемые тесты хи-квадрат для проверки соответствия распределению и независимости в таблицах сопряженности фактически являются приближениями логарифмического отношения правдоподобия , на котором основаны G -тесты. ^[4]

Общая формула для статистики критерия хи-квадрат Пирсона:

\chi ^{2}=\sum _{i}{\frac {\left(O_{i}-E_{i}\right)^{2}}{E_{i}}}~.

Аппроксимация G по хи-квадрат получается путем разложения Тейлора второго порядка натурального логарифма около 1 (см. #Вывод (хи-квадрат) ниже). Мы имеем , когда наблюдаемые значения близки к ожидаемым значениям. Однако, когда эта разница велика, аппроксимация начинает давать сбои. Здесь эффекты выбросов в данных будут более выраженными, и это объясняет, почему тесты терпят неудачу в ситуациях с небольшим количеством данных. $G\приблизительно \chi ^{2}$ $~O_{i}~$ $~E_{i}~.$ $~\чи ^{2}~$ $~\чи ^{2}~$

Для выборок разумного размера G -тест и критерий хи-квадрат приведут к тем же выводам. Однако приближение к теоретическому распределению хи-квадрат для G -теста лучше, чем для критерия хи-квадрат Пирсона . ^[5] В случаях, когда для некоторых ячеек G -тест всегда лучше критерия хи-квадрат. ^[^{требуется ссылка}^] $~O_{i}>2\cdot E_{i}~$

Для проверки согласия G -тест бесконечно эффективнее критерия хи-квадрат в смысле Бахадура, но оба теста одинаково эффективны в смысле Питмана или в смысле Ходжеса и Лемана. ^[6]^[7]

Вывод (хи-квадрат)

Учитывать

G=2\sum _{i}{O_{i}\ln \left({\frac {O_{i}}{E_{i}}}\right)}~,

и пусть с так, чтобы общее количество отсчетов осталось прежним. После подстановки мы находим, $O_{i}=E_{i}+\delta _{i}$ $\sum _{i}\delta _{i}=0~,$

G=2\sum _{i}{(E_{i}+\delta _{i})\ln \left(1+{\frac {\delta _{i}}{E_{i}}}\right)}~.

Разложение Тейлора вокруг можно выполнить с помощью . Результатом будет $1+{\frac {\delta _{i}}{E_{i}}}$ $\ln(1+x)=x-{\frac {1}{2}}x^{2}+{\mathcal {O}}(x^{3})$

G=2\sum _{i}(E_{i}+\delta _{i})\left({\frac {\delta _{i}}{E_{i}}}-{\frac {1}{2}}{\frac {\delta _{i}^{2}}{E_{i}^{2}}}+{\mathcal {O}}\left(\delta _{i}^{3}\right)\right)~,

и распределяя термины, которые мы находим,

G=2\sum _{i}\delta _{i}+{\frac {1}{2}}{\frac {\delta _{i}^{2}}{E_{i}}}+{\mathcal {O}}\left(\delta _{i}^{3}\right)~.

Теперь, используя тот факт, что и мы можем записать результат, $~\сумма _{i}\дельта _{i}=0~$ $~\delta _{i}=O_{i}-E_{i}~,$

~G\approx \sum _{i}{\frac {\left(O_{i}-E_{i}\right)^{2}}{E_{i}}}~.

Связь с расхождением Кульбака-Лейблера

Статистика G -теста пропорциональна расхождению Кульбака–Лейблера теоретического распределения от эмпирического распределения:

{\begin{aligned}G&=2\sum _{i}{O_{i}\cdot \ln \left({\frac {O_{i}}{E_{i}}}\right)}=2N\sum _{i}{o_{i}\cdot \ln \left({\frac {o_{i}}{e_{i}}}\right)}\\&=2N\,D_{\mathrm {KL} }(o\|e),\end{aligned}}

где N — общее число наблюдений, а и — эмпирическая и теоретическая частоты соответственно. $o_{i}$ $e_{i}$

Отношение к взаимной информации

Для анализа таблиц сопряженности величина G также может быть выражена через взаимную информацию .

Позволять

N=\sum _{ij}{O_{ij}}\;

, , , и .

\;\pi _{ij}={\frac {O_{ij}}{N}}\;

\;\pi _{i.}={\frac {\sum _{j}O_{ij}}{N}}\;

\;\pi _{.j}={\frac {\sum _{i}O_{ij}}{N}}\;

Тогда G можно выразить в нескольких альтернативных формах:

G=2\cdot N\cdot \sum _{ij}{\pi _{ij}\left(\ln(\pi _{ij})-\ln(\pi _{i.})-\ln(\pi _{.j})\right)},

G=2\cdot N\cdot \left[H(r)+H(c)-H(r,c)\right],

G=2\cdot N\cdot \operatorname {MI} (r,c)\,,

где энтропия дискретной случайной величины определяется как $X\,$

H(X)=-{\sum _{x\in {\text{Supp}}(X)}p(x)\log p(x)}\,,

и где

\operatorname {MI} (r,c)=H(r)+H(c)-H(r,c)\,

— это взаимная информация между вектором-строкой r и вектором-столбцом c таблицы сопряженности.

Также можно показать ^{[ требуется цитата ]} , что обратное взвешивание частоты документа, обычно используемое для поиска текста, является приближением G, применимым, когда сумма строк для запроса намного меньше суммы строк для остальной части корпуса. Аналогично, результат байесовского вывода, примененного к выбору одного мультиномиального распределения для всех строк таблицы сопряженности, взятых вместе, по сравнению с более общей альтернативой отдельного мультинома на строку, дает результаты, очень похожие на статистику G. ^{[ требуется цитата ]}

Приложение

Тест Макдональда–Крейтмана в статистической генетике является применением G -теста.
Даннинг ^[8] представил тест сообществу компьютерной лингвистики , где он теперь широко используется.
Программа R-scape (используемая Rfam ) использует G-тест для обнаружения ковариации между позициями выравнивания последовательностей РНК. ^[9]

Статистическое программное обеспечение

В R быстрые реализации можно найти в пакетах AMR и Rfast. Для пакета AMR команда g.testработает точно так же, как chisq.testиз базы R. R также имеет likely.test Архивировано 16.12.2013 в функции Wayback Machine в Deducer Архивировано 09.03.2012 в пакете Wayback Machine . Примечание: G -тест Фишера в пакете GeneCycle языка программирования R ( fisher.g.test) реализует не G -тест, как описано в этой статье, а точный тест Фишера гауссовского белого шума во временном ряду. ^[10]
Другая реализация R для вычисления статистики G и соответствующих p-значений предоставляется пакетом R entropy. Команды предназначены Gstatдля стандартной статистики G и связанного с ней p-значения, а также Gstatindepдля статистики G, применяемой для сравнения совместных и продуктовых распределений для проверки независимости.
В SAS можно провести G -тест, применив /chisqопцию после proc freq. ^[11]
В Stata можно провести G -тест, применив lrопцию после tabulateкоманды.
В Java используйте org.apache.commons.math3.stat.inference.GTest. ^[12]
В Python используйте scipy.stats.power_divergenceс lambda_=0. ^[13]

Ссылки

^ Макдональд, Дж. Х. (2014). «G–тест на соответствие». Справочник по биологической статистике (третье изд.). Балтимор, Мэриленд: Sparky House Publishing. С. 53–58.
^ ab McDonald, John H. (2014). «Малые числа в хи-квадрат и G–тестах». Справочник по биологической статистике (3-е изд.). Балтимор, Мэриленд: Sparky House Publishing. стр. 86–89.
^ Sokal, RR; Rohlf, FJ (1981). Биометрия: принципы и практика статистики в биологических исследованиях (второе издание). Нью-Йорк: Freeman. ISBN 978-0-7167-2411-7.
^ Хои, Дж. (2012). «Двухфакторный тест отношения правдоподобия (G) и сравнение с двухфакторным тестом хи-квадрат». arXiv : 1206.4881 [stat.ME].
^ Harremoës, P.; Tusnády, G. (2012). «Информационное расхождение больше распределено по закону хи-квадрат, чем по статистике хи-квадрат». Труды ISIT 2012. С. 538–543. arXiv : 1202.1125 . Bibcode :2012arXiv1202.1125H.
^ Куайн, М. П.; Робинсон, Дж. (1985). «Эффективность тестов согласия хи-квадрат и отношения правдоподобия». Annals of Statistics . 13 (2): 727–742. doi : 10.1214/aos/1176349550 .
^ Harremoës, P.; Vajda, I. (2008). «О тестировании однородности с помощью энтропии, эффективном по Бахадуру». Труды IEEE по теории информации . 54 : 321–331. CiteSeerX 10.1.1.226.8051 . doi :10.1109/tit.2007.911155. S2CID 2258586.
^ Даннинг, Тед (1993). «Точные методы статистики неожиданностей и совпадений. Архивировано 15 декабря 2011 г. в Wayback Machine », Computational Linguistics , том 19, выпуск 1 (март 1993 г.).
^ Ривас, Елена (30 октября 2020 г.). «Предсказание структуры РНК с использованием положительной и отрицательной эволюционной информации». PLOS Computational Biology . 16 (10): e1008387. doi : 10.1371/journal.pcbi.1008387 . PMC 7657543 .
^ Фишер, РА (1929). «Тесты значимости в гармоническом анализе». Труды Королевского общества Лондона A . 125 (796): 54–59. Bibcode :1929RSPSA.125...54F. doi : 10.1098/rspa.1929.0151 . hdl : 2440/15201 .
^ G-тест независимости, G-тест согласия в Handbook of Biological Statistics, University of Delaware. (стр. 46–51, 64–69 в: McDonald, JH (2009) Handbook of Biological Statistics (2-е изд.). Sparky House Publishing, Балтимор, Мэриленд.)
^ org.apache.commons.math3.stat.inference.GTest
^ «Scipy.stats.power_divergence — Руководство SciPy v1.7.1».

Внешние ссылки

G2/Калькулятор логарифмического правдоподобия