Средний эффект лечения

Средний эффект лечения ( ATE ) — это мера, используемая для сравнения методов лечения (или вмешательств) в рандомизированных экспериментах, оценке политических вмешательств и медицинских испытаниях. ATE измеряет разницу в средних (средних) результатах между единицами, назначенными для лечения, и единицами, назначенными для контроля. В рандомизированном испытании (т. е. экспериментальном исследовании) средний эффект лечения можно оценить по выборке, используя сравнение средних результатов для обработанных и необработанных единиц. Однако ATE обычно понимается как причинный параметр (т. е. оценка или свойство популяции ) , который исследователь желает знать, определенный без ссылки на дизайн исследования или процедуру оценки. Как наблюдательные исследования, так и экспериментальные проекты исследований со случайным распределением могут позволить оценить ATE различными способами.

Средний эффект лечения при некоторых условиях напрямую связан с графиком частичной зависимости ^[1]

Общее определение

Возникнув из раннего статистического анализа в области сельского хозяйства и медицины, термин «лечение» теперь применяется, в более общем смысле, к другим областям естественных и социальных наук, особенно к психологии , политологии и экономике, таким как, например, оценка воздействия государственной политики. Характер лечения или результата относительно не важен при оценке ATE — то есть, расчет ATE требует, чтобы лечение применялось к некоторым единицам, а не к другим, но характер этого лечения (например, фармацевтическое средство, поощрительная выплата, политическая реклама) не имеет значения для определения и оценки ATE.

Выражение «эффект лечения» относится к причинному эффекту данного лечения или вмешательства (например, приема препарата) на интересующую переменную результата (например, здоровье пациента). В «рамке потенциальных результатов» причинности Неймана-Рубина эффект лечения определяется для каждой отдельной единицы в терминах двух «потенциальных результатов». Каждая единица имеет один результат, который проявился бы, если бы единица была подвергнута лечению, и другой результат, который проявился бы, если бы единица была подвергнута контролю. «Эффект лечения» — это разница между этими двумя потенциальными результатами. Однако этот эффект лечения на индивидуальном уровне ненаблюдаем, поскольку отдельные единицы могут получать только лечение или контроль, но не оба одновременно. Случайное назначение лечения гарантирует, что единицы, назначенные лечению, и единицы, назначенные контролю, идентичны (в течение большого количества итераций эксперимента). Действительно, единицы в обеих группах имеют идентичные распределения ковариат и потенциальных результатов. Таким образом , средний результат среди единиц лечения служит контрфактуальным для среднего результата среди контрольных единиц. Разница между этими двумя средними значениями — это ATE, которая является оценкой центральной тенденции распределения ненаблюдаемых эффектов лечения на индивидуальном уровне. ^[2] Если выборка случайным образом составлена из популяции, то ATE выборки (сокращенно SATE) также является оценкой ATE популяции (сокращенно PATE). ^[3]

В то время как эксперимент гарантирует, в ожидании , что потенциальные результаты (и все ковариаты) будут одинаково распределены в группах лечения и контроля, в наблюдательном исследовании это не так . В наблюдательном исследовании единицы не назначаются на лечение и контроль случайным образом, поэтому их назначение на лечение может зависеть от ненаблюдаемых или ненаблюдаемых факторов. Наблюдаемые факторы могут статистически контролироваться (например, посредством регрессии или сопоставления ), но любая оценка ATE может быть искажена ненаблюдаемыми факторами, которые повлияли на то, какие единицы получили лечение по сравнению с контрольной группой.

Формальное определение

Для того чтобы формально определить ATE, мы определяем два потенциальных результата: это значение переменной результата для индивидуума , если он не лечится, это значение переменной результата для индивидуума, если он лечится. Например, это состояние здоровья индивидуума, если ему не вводят исследуемый препарат, и это состояние здоровья, если ему вводят препарат. $y_{0}(я)$ $я$ $y_{1}(я)$ $я$ $y_{0}(я)$ $y_{1}(я)$

Эффект лечения для отдельного человека определяется как . В общем случае нет оснований ожидать, что этот эффект будет постоянным для всех людей. Средний эффект лечения определяется как $я$ $y_{1}(i)-y_{0}(i)=\бета (i)$

{\text{ATE}}=\mathbb {E} [y_{1}-y_{0}]

и может быть оценена (если выполняется закон больших чисел )

{\widehat {ATE}}={\frac {1}{N}}\sum _{i}(y_{1}(i)-y_{0}(i))

где суммирование происходит по всем особям в популяции. $N$

Если бы мы могли наблюдать за каждым индивидуумом и среди большой репрезентативной выборки населения, мы могли бы оценить ATE, просто взяв среднее значение по всей выборке. Однако мы не можем наблюдать и за каждым индивидуумом, поскольку индивидуум не может одновременно лечиться и не лечиться. Например, в примере с лекарством мы можем наблюдать только за индивидуумами, которые получили лекарство, и за теми, кто его не получил. Это главная проблема, с которой сталкиваются ученые при оценке эффектов лечения, и она вызвала появление большого количества методов оценки. $y_{1}(я)$ $y_{0}(я)$ $y_{1}(i)-y_{0}(i)$ $y_{1}(я)$ $y_{0}(я)$ $y_{1}(я)$ $y_{0}(я)$

Оценка

В зависимости от данных и лежащих в их основе обстоятельств, для оценки ATE можно использовать множество методов. Наиболее распространенными из них являются:

Пример

Рассмотрим пример, где все единицы являются безработными лицами, и некоторые из них подвергаются вмешательству политики (группа воздействия), а другие нет (контрольная группа). Причинно-следственный эффект, представляющий интерес, — это влияние политики мониторинга поиска работы (воздействие) на продолжительность периода безработицы: в среднем, насколько короче был бы период безработицы человека, если бы он подвергся вмешательству? В этом случае ATE — это разница в ожидаемых значениях (средних) продолжительности безработицы в группах воздействия и контроля.

Положительный ATE в этом примере предполагает, что политика занятости увеличила продолжительность безработицы. Отрицательный ATE предполагает, что политика занятости сократила продолжительность безработицы. Оценка ATE, равная нулю, предполагает, что не было никаких преимуществ или недостатков в предоставлении лечения с точки зрения продолжительности безработицы. Определение того, отличается ли оценка ATE от нуля (положительно или отрицательно), требует статистического вывода .

Поскольку ATE является оценкой среднего эффекта лечения, положительный или отрицательный ATE не указывает на то, что какой-либо конкретный человек получит пользу или пострадает от лечения. Таким образом, средний эффект лечения не учитывает распределение эффекта лечения. Некоторые части населения могут чувствовать себя хуже при лечении, даже если средний эффект положительный.

Гетерогенные эффекты лечения

Некоторые исследователи называют эффект лечения «гетерогенным», если он влияет на разных людей по-разному (гетерогенно). Например, возможно, описанное выше лечение политики мониторинга поиска работы по-разному повлияло на мужчин и женщин или на людей, которые живут в разных штатах. ATE требует сильного предположения, известного как предположение о стабильной единице лечения (SUTVA), которое требует, чтобы значение потенциального результата не было затронуто механизмом, используемым для назначения лечения и воздействия лечения всех других людей. Пусть будет лечением, эффект лечения для человека определяется как . Предположение SUTVA позволяет нам заявить . $y(i)$ $д$ $я$ $y_{1}(i,d)-y_{0}(i,d)$ $y_{1}(i,d)=y_{1}(i),y_{0}(i,d)=y_{0}(i)$

Один из способов поиска неоднородных эффектов лечения — разделить данные исследования на подгруппы (например, мужчин и женщин или по штатам) и посмотреть, отличаются ли средние эффекты лечения по подгруппам. Если средние эффекты лечения различаются, SUTVA нарушается. ATE для каждой подгруппы называется «условным средним эффектом лечения» (CATE), т. е. ATE, обусловленным членством в подгруппе. CATE можно использовать в качестве оценки, если SUTVA не выполняется.

Проблема этого подхода заключается в том, что в каждой подгруппе может быть существенно меньше данных, чем в исследовании в целом, поэтому, если исследование было рассчитано на выявление основных эффектов без анализа подгрупп, данных может быть недостаточно для правильной оценки эффектов в подгруппах.

Существуют некоторые работы по обнаружению эффектов неоднородной обработки с использованием случайных лесов ^[4]^[5] , а также обнаружению неоднородных субпопуляций с использованием кластерного анализа . ^[6]^[7] Недавно были разработаны подходы метаобучения, которые используют произвольные регрессионные структуры в качестве базовых обучающихся для вывода CATE. ^[8]^[9] Обучение репрезентации может использоваться для дальнейшего повышения производительности этих методов. ^[10]^[11]

Ссылки

^ Чжао, К. и Хасти, Т. (2019). Причинно-следственные интерпретации моделей черного ящика. Журнал деловой и экономической статистики, 39(1), 272–281. https://doi.org/10.1080/07350015.2019.1624293 онлайн ncbi/
^ Холланд, Пол В. (1986). «Статистика и причинно-следственные связи». J. Amer. Statist. Assoc. 81 (396): 945–960. doi :10.1080/01621459.1986.10478354. JSTOR 2289064.
^ Имаи, Косуке; Кинг, Гэри; Стюарт, Элизабет А. (2008). «Недопонимание между экспериментаторами и наблюдателями по поводу причинно-следственной связи». JR Stat. Soc. Ser. A. 171 ( 2): 481–502. doi :10.1111/j.1467-985X.2007.00527.x. S2CID 17852724.
^ Уэйджер, Стефан; Атей, Сьюзен (2015). «Оценка и вывод эффектов гетерогенного лечения с использованием случайных лесов». arXiv : 1510.04342 [stat.ME].
^ «Явная оптимизация причинно-следственных эффектов с помощью причинно-следственного случайного леса: практическое введение и руководство». 14 октября 2018 г.
^ Маркхэм, Алекс; Дас, Ричик; Гросс-Вентруп, Мориц (2022). «Ядро на основе ковариации расстояний для нелинейной причинной кластеризации в гетерогенных популяциях». Proc. CLeaR . PMLR 177: 542–558.
^ Хуан, Бивэй; Чжан, Кунь; Се, Пэнтао; Гун, Минмин; Син, Эрик П.; Глимур, Кларк (2019). «Моделирование специфических и общих причинно-следственных связей и кластеризация на основе механизмов». Достижения в области нейронных систем обработки информации (NeurIPS) . 32 .
^ Nie, Xinkun; Wager, Stefan (2021). «Квазиоракульная оценка эффектов гетерогенного лечения». Biometrika . 108 (2): 299–319. arXiv : 1712.04912 . doi : 10.1093/biomet/asaa076.
^ Кюнцель, Сёрен; Секхон, Джасджит; Бикель, Питер; Ю, Бин (2019). «Metalearners для оценки эффектов гетерогенного лечения с использованием машинного обучения». Труды Национальной академии наук . 116 (10): 4156–4165. doi : 10.1073/pnas.1804597116 . PMC 6410831. PMID 30770453.
^ Йоханссон, Фредрик; Шалит, Ури; Зонтаг, Дэвид (2016). «Изучение представлений для контрфактуального вывода». Proc. ICML . PMLR 48: 3020–3029.
^ Burkhart, Michael C.; Ruiz, Gabriel (2022). «Нейроэволюционные представления признаков для причинного вывода». Computational Science – ICCS 2022. Lecture Notes in Computer Science. Vol. 13351. pp. 3–10. arXiv : 2205.10541 . doi :10.1007/978-3-031-08754-7_1. ISBN 978-3-031-08753-0. S2CID 248987304.

Дальнейшее чтение

Вулдридж, Джеффри М. (2013). «Анализ политики с объединенными перекрестными сечениями». Введение в эконометрику: современный подход . Мейсон, Огайо: Thomson South-Western. стр. 438–443. ISBN 978-1-111-53104-1.