Отношение шансов ( OR ) — это статистика , которая количественно определяет силу связи между двумя событиями, A и B. Отношение шансов определяется как отношение шансов A в присутствии B и шансов A в отсутствие B или, что то же самое (из-за симметрии), отношение шансов B в присутствии A и шансов B в отсутствие A. Два события независимы тогда и только тогда, когда OR равно 1, т.е. Шансы на одно событие одинаковы как при наличии, так и при отсутствии другого события. Если OR больше 1, то A и B связаны (коррелируют) в том смысле, что по сравнению с отсутствием B присутствие B повышает шансы A, а симметрично наличие A повышает шансы B. И наоборот, если OR меньше 1, то A и B отрицательно коррелируют, и наличие одного события снижает вероятность другого события.
Обратите внимание, что отношение шансов симметрично в двух событиях, и здесь не подразумевается причинно-следственная связь ( корреляция не подразумевает причинно-следственную связь ): OR больше 1 не устанавливает, что B вызывает A или что A вызывает B. [1]
Двумя схожими статистическими данными, которые часто используются для количественной оценки связей, являются относительный риск (RR) и абсолютное снижение риска (ARR). Зачастую наиболее интересным параметром на самом деле является RR, который представляет собой отношение вероятностей, аналогичное шансам, используемым в OR. Однако имеющиеся данные часто не позволяют рассчитать RR или ARR, но позволяют рассчитать OR, как в исследованиях «случай-контроль» , как поясняется ниже. С другой стороны, если одно из свойств (А или В) достаточно редкое (в эпидемиологии это называется предположением о редком заболевании ), то OR примерно равен соответствующему RR.
OR играет важную роль в логистической модели .
Если мы подбросим непредвзятую монету, вероятность выпадения орла и вероятность выпадения решки равны — обе равны 50%. Представьте, что у нас есть смещенная монета, из-за которой вероятность выпадения орла увеличивается в два раза. Но что означает «вдвое более вероятно» с точки зрения вероятности? Это не может буквально означать удвоение значения вероятности, потому что 50% становятся 100%. Скорее, шансы удваиваются : с шансов 1:1 до шансов 2:1.
Предположим, утечка радиации в деревне с населением 1000 человек увеличила заболеваемость редким заболеванием. Из общего числа людей, подвергшихся радиационному воздействию, составило число тех, у кого развилось заболевание и которые остались здоровыми. Из общего числа не подвергшихся воздействию людей было отмечено, что у них развилось заболевание и они остались здоровыми. Мы можем организовать это в таблице непредвиденных обстоятельств :
Риск развития заболевания при воздействии составляет, а риск развития заболевания при отсутствии воздействия составляет . Один очевидный способ сравнить риски — использовать соотношение этих двух факторов, относительный риск .
Соотношение шансов другое. Шансы заболеть в случае заражения равны, а шансы в случае отсутствия заражения равны . Отношение шансов представляет собой соотношение двух
Как показано на этом примере, в таком случае редкого заболевания относительный риск и отношение шансов почти одинаковы. По определению редкое заболевание подразумевает, что и . Таким образом, знаменатели относительного риска и отношения шансов практически совпадают ( и .
Относительный риск легче понять, чем отношение шансов, но одна из причин использования отношения шансов заключается в том, что обычно данные обо всей совокупности недоступны, и необходимо использовать случайную выборку . В приведенном выше примере, если бы опрос жителей деревни и выяснение того, подвергались ли они воздействию радиации, были бы очень дорогостоящими, тогда не была бы известна распространенность радиационного воздействия, равно как и значения или . Можно было бы взять случайную выборку из пятидесяти сельских жителей, но вполне возможно, что в такую случайную выборку не войдет ни один человек с этим заболеванием, поскольку только 2,6% населения больны. Вместо этого можно использовать исследование «случай-контроль» [2] , в котором опрашиваются все 26 заболевших жителей деревни, а также случайная выборка из 26 человек, у которых нет заболевания. Результаты могут оказаться следующими («возможно», поскольку это случайная выборка):
Шансы на заражение в этой выборке с учетом того, что кто-то подвергся воздействию, составляют 20/10, а шансы с учетом того, что кто-то не заразился, составляют 6/16. Таким образом, соотношение шансов составляет . Однако относительный риск не может быть рассчитан, потому что это соотношение рисков заражения заболеванием, и нам нужно будет их выяснить. Поскольку исследование было выбрано для людей с этим заболеванием, половина людей в выборке страдает этим заболеванием, и известно, что это больше, чем распространенность среди населения.
В медицинской литературе принято рассчитывать отношение шансов, а затем использовать предположение о редком заболевании (что обычно разумно) и утверждать, что относительный риск примерно равен ему. Это не только позволяет использовать исследования «случай-контроль», но и упрощает контроль искажающих переменных, таких как вес или возраст, с помощью регрессионного анализа, а также обладает желательными свойствами, обсуждаемыми в других разделах этой статьи, а именно инвариантностью и нечувствительностью к типу выборки. [3]
Отношение шансов — это отношение шансов того , что событие произойдет в одной группе, к шансам того, что оно произойдет в другой группе. Этот термин также используется для обозначения оценок этого соотношения на основе выборки. Этими группами могут быть мужчины и женщины, экспериментальная группа и контрольная группа или любая другая дихотомическая классификация. Если вероятности события в каждой из групп равны p 1 (первая группа) и p 2 (вторая группа), то отношение шансов равно:
где q Икс знак равно 1 - п Икс . Отношение шансов, равное 1, указывает на то, что изучаемое состояние или событие с одинаковой вероятностью произойдет в обеих группах. Отношение шансов больше 1 указывает на то, что состояние или событие с большей вероятностью произойдет в первой группе. А отношение шансов менее 1 указывает на то, что условие или событие с меньшей вероятностью произойдет в первой группе. Отношение шансов должно быть неотрицательным, если оно определено. Неопределенно, если p 2 q 1 равно нулю, т. е. если p 2 равно нулю или q 1 равно нулю.
Отношение шансов также можно определить как совместное распределение вероятностей двух двоичных случайных величин . Совместное распределение бинарных случайных величин X и Y можно записать
где p 11 , p 10 , p 01 и p 00 представляют собой неотрицательные «вероятности ячеек», сумма которых равна единице. Шансы на Y внутри двух подгрупп, определяемых X = 1 и X = 0, определяются в терминах условных вероятностей, заданных X , т . е . P ( Y | X ) :
Таким образом, отношение шансов равно
Простое выражение справа выше легко запомнить как произведение вероятностей «согласованных ячеек» ( X = Y ) , деленное на произведение вероятностей «несогласных ячеек» ( X ≠ Y ) . Однако в некоторых приложениях маркировка категорий как ноль и единица является произвольной, поэтому в этих приложениях нет ничего особенного в согласованных и несогласованных значениях.
Если бы мы рассчитали отношение шансов на основе условных вероятностей, заданных Y ,
мы бы получили тот же результат
Другие меры размера эффекта для двоичных данных , такие как относительный риск, не обладают этим свойством симметрии.
Если X и Y независимы, их совместные вероятности могут быть выражены через их предельные вероятности p x = P ( X = 1) и p y = P ( Y = 1) следующим образом:
В этом случае отношение шансов равно единице, и наоборот, отношение шансов может равняться только единице, если совместные вероятности могут быть учтены таким образом. Таким образом , отношение шансов равно единице тогда и только тогда, когда X и Y независимы .
Отношение шансов является функцией вероятностей ячеек, и наоборот, вероятности ячеек можно восстановить, зная отношение шансов и предельные вероятности P ( X = 1) = p 11 + p 10 и P ( Y = 1) = п 11 + п 01 . Если отношение шансов R отличается от 1, то
где p 1• = p 11 + p 10 , p • 1 = p 11 + p 01 и
В случае, когда R = 1 , мы имеем независимость, поэтому p 11 = p 1• p •1 .
Как только мы получим p 11 , остальные три вероятности ячеек можно легко восстановить из предельных вероятностей.
Предположим, что из выборки из 100 мужчин 90 пили вино на предыдущей неделе (то есть 10 не пили), тогда как в выборке из 80 женщин только 20 пили вино за тот же период (то есть 60 не пили). Это формирует таблицу непредвиденных обстоятельств:
Отношение шансов (OR) можно рассчитать непосредственно из этой таблицы как:
Альтернативно, вероятность того, что мужчина выпьет вино, составляет 90 к 10, или 9:1, тогда как вероятность того, что женщина выпьет вино, составляет всего 20 к 60, или 1:3 = 0,33. Таким образом, отношение шансов составляет 9/0,33, или 27, что показывает, что мужчины гораздо чаще пьют вино, чем женщины. Подробный расчет таков:
Этот пример также показывает, насколько чувствительны отношения шансов при определении относительного положения: в этой выборке мужчины (90/100)/(20/80) = в 3,6 раза чаще выпивали вино, чем женщины, но у них в 27 раз больше шансов. Логарифм отношения шансов, разность логитов вероятностей смягчает этот эффект, а также делает меру симметричной относительно порядка групп. Например, при использовании натуральных логарифмов отношение шансов 27/1 соответствует 3,296, а отношение шансов 1/27 соответствует -3,296.
Было разработано несколько подходов к статистическим выводам для отношений шансов.
Один из подходов к выводу использует аппроксимации большой выборки выборочного распределения логарифма отношения шансов ( натуральный логарифм отношения шансов). Если мы используем обозначение совместной вероятности, определенное выше, отношение шансов журнала совокупности будет равно
Если мы наблюдаем данные в виде таблицы сопряженности
тогда вероятности совместного распределения можно оценить как
гдеij = n ij / n , где n = n 11 + n 10 + n 01 + n 00 является суммой всех четырех подсчетов ячеек. Отношение шансов выборочного журнала равно
Распределение логарифмического отношения шансов примерно нормальное :
Стандартная ошибка для логарифмического отношения шансов составляет приблизительно
Это асимптотическое приближение, которое не даст значимого результата, если количество ячеек очень мало. Если L — отношение шансов журнала выборки, приблизительный 95% доверительный интервал для отношения шансов журнала совокупности составляет L ± 1,96SE . [4] Это можно сопоставить с exp( L − 1,96SE), exp( L + 1,96SE) , чтобы получить 95% доверительный интервал для отношения шансов. Если мы хотим проверить гипотезу о том, что отношение шансов населения равно единице, двустороннее значение p равно 2 P ( Z < −| L |/SE) , где P обозначает вероятность, а Z обозначает стандартную нормальную случайную величину. .
Альтернативный подход к выводу для отношений шансов рассматривает распределение данных условно на предельных частотах X и Y . Преимущество этого подхода состоит в том, что выборочное распределение отношения шансов может быть выражено точно.
Логистическая регрессия — это один из способов обобщить отношение шансов за пределы двух двоичных переменных. Предположим, у нас есть бинарная переменная отклика Y и бинарная переменная-предиктор X , а кроме того, у нас есть другие переменные-предсказатели Z 1 , ..., Z p , которые могут быть или не быть двоичными. Если мы используем множественную логистическую регрессию для регрессии Y по X, Z1,...,Zp , то расчетный коэффициент для X связан с условным отношением шансов. В частности, на уровне населения
то же самое относится и к оценке этого условного отношения шансов. Интерпретация представляет собой оценку отношения шансов между Y и X , когда значения Z 1 , ..., Z p остаются фиксированными.
Если данные образуют «выборку населения», то вероятности ячеек интерпретируются как частоты каждой из четырех групп в популяции, определяемые их значениями X и Y. Во многих случаях непрактично получить генеральную выборку, поэтому используется отобранная выборка. Например, мы можем выбрать единицы выборки с X = 1 с заданной вероятностью f , независимо от их частоты в совокупности (что потребует выборки единиц с X = 0 с вероятностью 1 − f ). В этой ситуации наши данные будут соответствовать следующим совместным вероятностям:
Отношение шансов p 11 p 00 / p 01 p 10 для этого распределения не зависит от значения f . Это показывает, что отношение шансов (и, следовательно, логарифм отношения шансов) инвариантно к неслучайной выборке, основанной на одной из изучаемых переменных. Однако обратите внимание, что стандартная ошибка логарифмического отношения шансов зависит от значения f . [ нужна цитата ]
Этот факт используется в двух важных ситуациях:
В обоих этих случаях отношение шансов можно рассчитать на основе выбранной выборки, не искажая результаты по сравнению с тем, что было бы получено для генеральной выборки.
Благодаря широкому использованию логистической регрессии отношение шансов широко используется во многих областях медицинских и социальных исследований. Отношение шансов обычно используется в обзорных исследованиях , в эпидемиологии и для выражения результатов некоторых клинических испытаний , например, в исследованиях «случай-контроль» . В отчетах его часто называют сокращением «ИЛИ». Когда данные нескольких опросов объединяются, они часто выражаются как «объединенное ИЛИ».
Как поясняется в разделе «Мотивирующий пример», относительный риск обычно лучше, чем отношение шансов, для понимания связи между риском и некоторой переменной, такой как радиация или новый препарат. В этом разделе также объясняется, что если предположение о редком заболевании справедливо, то отношение шансов является хорошим приближением к относительному риску [5] и что оно имеет некоторые преимущества по сравнению с относительным риском. Когда предположение о редком заболевании не выполняется, нескорректированное отношение шансов может переоценить относительный риск, [6] [7] [8] , но новые методы могут легко использовать те же данные для оценки относительного риска, различий в рисках, базовых вероятностей или другие количества. [9]
Если доступен абсолютный риск в группе, не подвергавшейся воздействию, конверсия между ними рассчитывается по формуле: [6]
где R C — абсолютный риск необлученной группы.
Если предположение о редком заболевании неприменимо, отношение шансов может сильно отличаться от относительного риска и может вводить в заблуждение.
Рассмотрим уровень смертности среди пассажиров мужчин и женщин, когда корабль затонул. [3] Из 462 женщин 154 умерли и 308 выжили. Из 851 мужчины 709 погибли и 142 выжили. Очевидно, что мужчина на корабле погибнет с большей вероятностью, чем женщина, но насколько это более вероятно? Поскольку более половины пассажиров умерли, предположение о редком заболевании сильно нарушается.
Чтобы вычислить отношение шансов, обратите внимание, что для женщин шансы умереть составляли 1 к 2 (154/308). Для мужчин шансы были 5 к 1 (709/142). Отношение шансов составляет 9,99 (4,99/0,5). У мужчин было в десять раз больше шансов умереть, чем у женщин.
Для женщин вероятность смерти составила 33% (154/462). Для мужчин вероятность составила 83% (709/851). Относительный риск смерти составляет 2,5 (0,83/0,33). Вероятность смерти мужчины была в 2,5 раза выше, чем у женщины.
Какое число правильно отражает, насколько опаснее было находиться на затонувшем корабле человеку? Преимущество относительного риска состоит в том, что его легче понять и он лучше отражает мышление людей.
В медицинской литературе отношение шансов часто путают с относительным риском. Для тех, кто не занимается статистикой, отношение шансов является трудной для понимания концепцией, и оно дает более впечатляющую цифру эффекта. [10] Однако большинство авторов считают, что относительный риск легко понять. [11] В одном исследовании члены национального фонда по борьбе с болезнями на самом деле в 3,5 раза чаще, чем нечлены, слышали о обычном методе лечения этого заболевания, но отношение шансов составляло 24, а в документе говорилось, что членов было «более 20». с большей вероятностью слышали об этом лечении. [12] Исследование статей, опубликованных в двух журналах, показало, что 26% статей, в которых использовалось отношение шансов, интерпретировали его как отношение риска. [13]
Это может отражать простой процесс, когда непонимающие авторы выбирают наиболее впечатляющую и достойную публикации фигуру. [11] Однако в некоторых случаях его использование может быть намеренно вводящим в заблуждение. [14] Было высказано предположение, что отношение шансов должно быть представлено как мера размера эффекта только тогда, когда отношение риска не может быть оценено напрямую, [10] но с помощью новых доступных методов всегда возможно оценить отношение риска, что должно обычно вместо этого используется. [9]
Отношение шансов имеет еще одно уникальное свойство: оно математически обратимо независимо от того, анализируется ли ОШ как выживаемость при заболевании или заболеваемость началом заболевания – где ОШ для выживаемости прямо обратно пропорционально 1/ОШ для риска. Это известно как «инвариантность отношения шансов». Напротив, относительный риск не обладает этим математически обратимым свойством при изучении выживаемости заболевания по сравнению с заболеваемостью началом. Этот феномен обратимости OR по сравнению с необратимостью RR лучше всего иллюстрируется примером:
Предположим, что в клиническом исследовании риск нежелательных явлений составляет 4/100 в группе препарата и 2/100 в группе плацебо... что дает RR=2 и OR=2,04166 для риска нежелательных явлений по сравнению с плацебо. Однако если бы анализ был инвертирован, а нежелательные явления вместо этого анализировались как выживаемость без событий, то в группе препарата показатель был бы 96/100, а в группе плацебо — 98/100, что давало бы соотношение препарата против плацебо. ОР=0,9796 для выживания, но ОШ=0,48979. Как можно видеть, RR 0,9796 явно не является обратной величиной RR 2. Напротив, OR 0,48979 действительно является прямой обратной величиной OR 2,04166.
Это снова то, что называется «инвариантностью отношения шансов», и почему ОР для выживания не то же самое, что ОР для риска, в то время как OR обладает этим симметричным свойством при анализе либо выживания, либо неблагоприятного риска. Опасность для клинической интерпретации ОШ возникает, когда частота нежелательных явлений не является редкой, что приводит к преувеличению различий, когда предположение о редком заболевании ОШ не выполняется. С другой стороны, когда заболевание встречается редко, использование ОР для выживаемости (например, ОР=0,9796 из приведенного выше примера) может клинически скрыть и скрыть важное удвоение неблагоприятного риска, связанного с препаратом или воздействием. [ нужна цитата ]
Отношение шансов выборки n 11 n 00 / n 10 n 01 легко рассчитать, и для средних и больших выборок оно хорошо работает в качестве оценки отношения шансов генеральной совокупности. Когда одна или несколько ячеек в таблице непредвиденных обстоятельств могут иметь небольшое значение, отношение шансов выборки может быть смещенным и иметь высокую дисперсию .
Был предложен ряд альтернативных оценок отношения шансов для устранения ограничений выборочного отношения шансов. Одним из альтернативных средств оценки является условная оценка максимального правдоподобия, которая учитывает поля строк и столбцов при формировании вероятности максимизации (как в точном тесте Фишера ). [15] Другой альтернативной оценкой является оценка Мантеля-Хэнзеля . [ нужна цитата ]
Следующие четыре таблицы непредвиденных обстоятельств содержат наблюдаемое количество клеток, а также соответствующее отношение шансов выборки ( OR ) и отношение шансов журнала выборки ( LOR ):
Следующие совместные распределения вероятностей содержат вероятности ячеек популяции, а также соответствующее отношение шансов популяции ( OR ) и отношение шансов журнала популяции ( LOR ):
Существуют различные другие сводные статистические данные для таблиц непредвиденных обстоятельств , которые измеряют связь между двумя событиями, например Yule's Y , Yule's Q ; эти два нормализованы, поэтому они равны 0 для независимых событий, 1 для идеально коррелированных, -1 для абсолютно отрицательно коррелированных. Эдвардс (1963) изучил их и утверждал, что эти меры связи должны быть функциями отношения шансов, которое он назвал перекрестным отношением . [ нужна цитата ]
Исследование «случай-контроль» включает в себя отбор репрезентативных выборок случаев и контрольной группы, у которых имеется или нет какое-либо заболевание соответственно. Эти образцы обычно независимы друг от друга. У испытуемых обеих выборок наблюдается априорная распространенность воздействия того или иного фактора риска. Это позволяет оценить отношение шансов заболевания у подвергшихся и не подвергшихся воздействию людей, как отмечалось выше. [16] Однако иногда имеет смысл сопоставить наблюдения с контрольными показателями по одной или нескольким мешающим переменным. [17] В этом случае предварительное воздействие, представляющее интерес, определяется для каждого случая и соответствующего контроля. Данные можно свести в следующую таблицу.
В этой таблице показан статус воздействия подобранных пар субъектов. Существуют пары, в которых подвергались воздействию как пациент, так и соответствующий контрольный субъект, пары, в которых пациент-случай подвергался воздействию, а субъект контрольной группы — нет, пары, где субъект-контроль подвергался воздействию, а пациент-случай — нет, и пары, в которых ни один субъект не подвергался воздействию. незащищенный. Воздействие совпадающих пар случаев и контроля коррелирует из-за схожих значений их общих искажающих переменных.
Следующий вывод принадлежит Бреслоу и Дэю . [17] Мы рассматриваем каждую пару как принадлежащую страту с одинаковыми значениями вмешивающихся переменных. В зависимости от принадлежности к одному и тому же слою статус воздействия случаев и мер контроля не зависит друг от друга. Для любой пары случай-контроль внутри одной страты пусть
быть вероятностью того, что пациент заразится,
быть вероятностью того, что пациент из контрольной группы подвергнется воздействию,
быть вероятностью того, что пациент не заразится, и
быть вероятностью того, что пациент из контрольной группы не подвергнется облучению.
Тогда вероятность того, что случай раскрыт, а контроль нет, равна , а вероятность того, что контроль раскрыт, а случай нет, равна . Отношение шансов внутри слоя для воздействия в случаях по сравнению с контролем равно
Мы предполагаем, что оно является постоянным для всех слоев. [17]
Теперь согласованные пары, в которых подвергаются воздействию и случай, и контрольная группа, или ни один из них, ничего не говорят нам о шансах заражения в случаях по сравнению с шансами воздействия среди контрольных групп. Вероятность того, что случай раскрыт и не задан контроль, что пара несогласна, равна
Распределение заданного количества несогласованных пар является биномиальным ~ B , а оценка максимального правдоподобия равна
Умножение обеих частей этого уравнения на и вычитание дает
и поэтому
.
Теперь – оценка максимального правдоподобия , и является монотонной функцией . Отсюда следует, что это условная оценка максимального правдоподобия для данного количества несогласованных пар. Ротман и др. [18] дают альтернативный вывод, показывая, что это частный случай оценки Мантеля-Хэнзеля отношения шансов внутри страты для стратифицированных таблиц 2x2. [18] Они также ссылаются на Бреслоу и Дэя [17] , которые предоставили приведенный здесь вывод.
Согласно нулевой гипотезе, что .
Следовательно, мы можем проверить нулевую гипотезу о том, что, проверив нулевую гипотезу о том, что . Это делается с помощью теста Макнемара .
Существует несколько способов расчета доверительного интервала для . Пусть и обозначают нижнюю и верхнюю границу доверительного интервала для соответственно. Поскольку , соответствующий доверительный интервал для равен
.
Сопоставленные таблицы 2х2 также можно анализировать с использованием условной логистической регрессии . [19] Преимущество этого метода заключается в том, что он позволяет пользователям регрессировать статус «случай-контроль» по множеству факторов риска на основе сопоставленных данных «случай-контроль».
МакЭвой и др.[20] изучили использование сотовых телефонов водителями как фактор риска автомобильных аварий в перекрестном исследовании. [16] Все участники исследования попали в автомобильную аварию, потребовавшую госпитализации. Использование мобильного телефона каждым водителем во время аварии сравнивалось с использованием им/его мобильного телефона в контрольный интервал в то же время дня неделей ранее. Мы ожидаем, что использование человеком мобильного телефона во время катастрофы будет коррелировать с его использованием неделей ранее. Сравнение использования во время аварии и интервалов контроля учитывает характеристики водителя, а также время суток и день недели. Данные можно свести в следующую таблицу.
Было 5 водителей, которые использовали свои телефоны в обоих интервалах, 27, которые использовали их во время аварии, но не в контрольном интервале, 6, которые использовали их в контрольном, но не в контрольном интервале, и 288, которые не использовали их ни в одном из интервалов. Отношение шансов аварии при использовании телефона по сравнению с вождением автомобиля, когда телефон не используется, составило
.
Проверка нулевой гипотезы аналогична проверке нулевой гипотезы, в которой даны 27 из 33 несогласованных пар, в которых водитель пользовался своим телефоном во время аварии. Макнемара . Эта статистика имеет одну степень свободы и дает значение P , равное 0,0003. Это позволяет нам отвергнуть гипотезу о том, что использование сотового телефона не влияет на риск автомобильных аварий ( ) с высоким уровнем статистической значимости.
Используя метод Уилсона , 95% доверительный интервал равен (0,6561, 0,9139). Следовательно, 95% доверительный интервал для равен
(МакЭвой и др. [20] проанализировали свои данные с использованием условной логистической регрессии и получили почти идентичные результатам, приведенным здесь. См. последнюю строку таблицы 3 в их статье.)