Оценка воздействия

Оценка воздействия оценивает изменения, которые можно отнести к определенному вмешательству, такому как проект, программа или политика, как предполагаемые, так и в идеале непреднамеренные. ^[1] В отличие от мониторинга результатов, который проверяет, были ли достигнуты цели, оценка воздействия структурирована для ответа на вопрос: как бы изменились результаты, такие как благополучие участников, если бы вмешательство не было предпринято? Это включает в себя контрфактуальный анализ, то есть «сравнение между тем, что произошло на самом деле, и тем, что произошло бы при отсутствии вмешательства». ^[2] Оценки воздействия стремятся ответить на вопросы о причинах и следствиях. Другими словами, они ищут изменения в результатах, которые напрямую связаны с программой. ^[3]

Оценка воздействия помогает людям отвечать на ключевые вопросы для разработки политики на основе фактических данных: что работает, что нет, где, почему и за сколько? В последние годы ей уделяется все больше внимания при разработке политики как в развитых, так и в развивающихся странах. ^[4] Это важный компонент арсенала инструментов и подходов оценки и неотъемлемая часть глобальных усилий по повышению эффективности предоставления помощи и государственных расходов в целом для повышения уровня жизни. Первоначально больше ориентированная на оценку программ социального сектора в развивающихся странах, в частности условных денежных переводов , оценка воздействия теперь все чаще применяется в других областях, таких как сельское хозяйство, энергетика и транспорт.

Контрфактуальные оценочные проекты

Контрфактуальный анализ позволяет оценщикам устанавливать причинно-следственные связи между вмешательствами и результатами. «Контрфактуальный» измеряет то, что произошло бы с бенефициарами при отсутствии вмешательства, а воздействие оценивается путем сравнения контрфактуальных результатов с теми, которые наблюдаются при вмешательстве. Основная проблема в оценке воздействия заключается в том, что контрфактуальный результат нельзя наблюдать напрямую, и его необходимо аппроксимировать со ссылкой на группу сравнения. Существует ряд принятых подходов к определению подходящей группы сравнения для контрфактуального анализа с использованием либо перспективного (ex ante), либо ретроспективного (ex post) дизайна оценки. Перспективные оценки начинаются на этапе проектирования вмешательства, включая сбор исходных и конечных данных от бенефициаров вмешательства («группа лечения») и не-бенефициаров («группа сравнения»); они могут включать отбор лиц или сообществ в группы лечения и сравнения. Ретроспективные оценки обычно проводятся после этапа внедрения и могут использовать существующие данные опроса, хотя лучшие оценки будут собирать данные как можно ближе к исходному уровню, чтобы обеспечить сопоставимость групп вмешательства и сравнения.

Существует пять основных принципов, касающихся внутренней валидности (дизайн исследования) и внешней валидности (обобщаемость), которые должны учитываться при тщательной оценке воздействия: факторы, влияющие на результаты, смещение отбора , побочные эффекты, загрязнение и неоднородность воздействия. ^[5]

Смешивание происходит, когда определенные факторы, обычно связанные с социально-экономическим статусом, коррелируют с воздействием вмешательства и, независимо от воздействия, причинно связаны с интересующим результатом. Таким образом, смешивающие факторы являются альтернативными объяснениями наблюдаемой (возможно, ложной) связи между вмешательством и результатом.
Смещение выбора , особый случай смешения, происходит, когда участники вмешательства неслучайно выбираются из популяции бенефициара, а критерии, определяющие выбор, коррелируют с результатами. Ненаблюдаемые факторы , которые связаны с доступом к вмешательству или участием в нем и причинно связаны с интересующим результатом, могут привести к ложной связи между вмешательством и результатом, если их не учитывать. Самоотбор происходит, когда, например, более способные или организованные люди или сообщества, которые с большей вероятностью получат лучшие интересующие результаты, также с большей вероятностью примут участие во вмешательстве. Эндогенный программный отбор происходит, когда люди или сообщества выбираются для участия, потому что они, как считается, с большей вероятностью получат выгоду от вмешательства. Игнорирование смешивающих факторов может привести к проблеме смещения пропущенной переменной. В особом случае смещения выбора эндогенность переменных выбора может вызвать смещение одновременности.
Передача (называемая заражением в случае экспериментальных оценок) происходит, когда вмешательство затрагивает членов группы сравнения (контроля).
Контаминация происходит, когда члены группы лечения и/или группы сравнения получают доступ к другому вмешательству, которое также влияет на интересующий результат.
Неоднородность воздействия относится к различиям в воздействии, обусловленным типом бенефициара и контекстом. Высококачественные оценки воздействия оценят степень, в которой различные группы (например, обездоленные) получают выгоду от вмешательства, а также потенциальное влияние контекста на воздействие. Степень обобщения результатов определит применимость извлеченных уроков для вмешательств в других контекстах.

Проекты оценки воздействия определяются по типу методов, используемых для создания контрфактуальных данных, и могут быть в целом разделены на три категории — экспериментальные, квазиэкспериментальные и неэкспериментальные проекты, — которые различаются по осуществимости, стоимости, вовлеченности во время проектирования или после фазы внедрения вмешательства и степени смещения выбора. Уайт (2006) ^[6] и Равальон (2008) ^[7] обсуждают альтернативные подходы к оценке воздействия.

Экспериментальные подходы

При экспериментальных оценках группы лечения и сравнения выбираются случайным образом и изолируются как от вмешательства, так и от любых вмешательств, которые могут повлиять на интересующий результат. Эти оценочные проекты называются рандомизированными контрольными испытаниями (РКИ). При экспериментальных оценках группа сравнения называется контрольной группой . Когда рандомизация реализуется на достаточно большой выборке без заражения вмешательством, единственное различие между группами лечения и контроля в среднем заключается в том, что последняя не получает вмешательства. Случайные выборочные обследования, в которых выборка для оценки выбирается случайным образом, не следует путать с экспериментальными оценочными проектами, которые требуют случайного назначения лечения.

Экспериментальный подход часто выдвигается в качестве «золотого стандарта» оценки. Это единственный дизайн оценки, который может окончательно объяснить смещение отбора при демонстрации причинно-следственной связи между вмешательством и результатами. Рандомизация и изоляция от вмешательств могут быть неосуществимы в сфере социальной политики и могут быть этически труднозащищенными, ^[8]^[9] хотя могут быть возможности использовать естественные эксперименты. Бамбергер и Уайт (2007) ^[10] подчеркивают некоторые ограничения применения РКИ к вмешательствам в развитие. Методологическая критика была сделана Скривеном (2008) ^[11] из-за предубеждений, введенных, поскольку социальные вмешательства не могут быть полностью ослеплены , а Дитон (2009) ^[12] указал, что на практике анализ РКИ возвращается к подходам, основанным на регрессии, которых они стремятся избежать, и поэтому подвержен тем же потенциальным предубеждениям. Другие проблемы включают в себя часто неоднородные и меняющиеся контексты вмешательств, логистические и практические проблемы, трудности с мониторингом предоставления услуг, доступ к вмешательству для группы сравнения и изменения в критериях отбора и/или вмешательстве с течением времени. Таким образом, предполагается, что РКИ применимы только к 5 процентам финансирования развития. ^[10]

Рандомизированные контролируемые испытания (РКИ)

РКИ — это исследования, используемые для измерения эффективности нового вмешательства. Они вряд ли докажут причинно-следственную связь сами по себе, однако рандомизация снижает смещение, предоставляя инструмент для изучения причинно-следственных связей. ^[13] РКИ полагаются на случайное распределение, что означает, что эта оценка почти всегда должна быть разработана ex ante , поскольку редко бывает, что естественное распределение проекта будет на случайной основе. ^[14] При разработке РКИ необходимо задать пять ключевых вопросов: какое лечение тестируется, сколько будет групп лечения, какова будет единица распределения, насколько большой должна быть выборка, как будет рандомизирован тест. ^[14] Хорошо проведенное РКИ даст достоверную оценку относительно среднего эффекта лечения в пределах одной конкретной популяции или единицы распределения. ^[15] Недостатком РКИ является «проблема транспортировки», из которой следует, что то, что работает в пределах одной популяции, не обязательно работает в пределах другой популяции, что означает, что средний эффект лечения неприменим в различных единицах распределения. ^[15]

Естественные эксперименты

Естественные эксперименты используются, поскольку эти методы ослабляют присущую напряженность неконтролируемых полевых и контролируемых лабораторных подходов к сбору данных. ^[16] Естественные эксперименты используют события, находящиеся вне контроля исследователей и испытуемых, для устранения нескольких угроз внутренней валидности, минимизируя вероятность смешения элементов, при этом жертвуя некоторыми особенностями полевых данных, такими как более естественные диапазоны эффектов лечения и наличие органически сформированного контекста. ^[16] Основная проблема с естественными экспериментами — это проблема воспроизводимости. Лабораторная работа, если она правильно описана и повторена, должна давать схожие результаты. Из-за уникальности естественных экспериментов репликация часто ограничивается анализом альтернативных данных из аналогичного события. ^[16]

Неэкспериментальные подходы

Квазиэкспериментальный дизайн

Квазиэкспериментальные подходы могут устранить смещение, возникающее из-за выбора наблюдаемых и, если доступны панельные данные, неизменяемых во времени ненаблюдаемых. Квазиэкспериментальные методы включают сопоставление, дифференцирование, инструментальные переменные и конвейерный подход; они обычно выполняются с помощью многомерного регрессионного анализа .

Если характеристики отбора известны и наблюдаются, их можно контролировать, чтобы устранить смещение. Сопоставление подразумевает сравнение участников программы с неучастниками на основе наблюдаемых характеристик отбора. Сопоставление по показателю склонности (PSM) использует статистическую модель для расчета вероятности участия на основе набора наблюдаемых характеристик и сопоставляет участников и неучастников с похожими показателями вероятности. Дизайн разрыва регрессии использует правило принятия решения относительно того, кто получает и кто не получает вмешательство, чтобы сравнить результаты для тех, кто находится по обе стороны от этого порога.

Разница в разностях или двойная разница, которая использует данные, собранные на исходном и конечном этапе для групп вмешательства и сравнения, может использоваться для учета смещения отбора при условии, что ненаблюдаемые факторы, определяющие отбор, фиксированы с течением времени (инвариантны во времени).

Оценка инструментальных переменных учитывает смещение отбора путем моделирования участия с использованием факторов («инструментов»), которые коррелируют с отбором, но не с результатом, тем самым изолируя аспекты участия в программе, которые можно рассматривать как экзогенные.

Подход конвейера ( дизайн ступенчатого клина ) использует бенефициаров, уже выбранных для участия в проекте на более позднем этапе, в качестве группы сравнения. Предполагается, что, поскольку они были выбраны для получения вмешательства в будущем, они похожи на группу лечения и, следовательно, сопоставимы с точки зрения интересующих переменных результата. Однако на практике нельзя гарантировать, что группы лечения и сравнения сопоставимы, и для проверки сопоставимости необходимо будет применить какой-то метод сопоставления.

Неэкспериментальный дизайн

Оценки неэкспериментального воздействия так называются, потому что они не включают в себя группу сравнения, которая не имеет доступа к вмешательству. Метод, используемый в неэкспериментальной оценке, заключается в сравнении групп вмешательства до и после внедрения вмешательства. Оценки временных рядов с прерыванием вмешательства (ITS) требуют множественных точек данных по прошедшим лечение лицам до и после вмешательства, в то время как дизайны до и после (или предтест послетест) просто требуют одной точки данных до и после. Анализы после теста включают данные после вмешательства только из группы вмешательства. Неэкспериментальные дизайны являются самым слабым дизайном оценки, потому что для убедительного показа причинно-следственной связи между вмешательством и результатами оценка должна продемонстрировать, что любые вероятные альтернативные объяснения результатов не имеют значения. Однако остаются приложения, для которых этот дизайн актуален, например, при расчете экономии времени от вмешательства, которое улучшает доступ к удобствам. Кроме того, могут быть случаи, когда неэкспериментальные проекты являются единственно возможными проектами оценки воздействия, например, в случае повсеместно реализуемых программ или реформ национальной политики, в которых, скорее всего, не будет изолированных групп сравнения.

Предвзятость в оценке эффектов программы

Рандомизированные полевые эксперименты являются наиболее сильными исследовательскими проектами для оценки воздействия программы. Этот конкретный исследовательский проект, как говорят, обычно является проектом выбора, когда он осуществим, поскольку он позволяет справедливо и точно оценить фактические эффекты программы (Rossi, Lipsey & Freeman, 2004).

При этом рандомизированные полевые эксперименты не всегда осуществимы, и в таких ситуациях в распоряжении оценщика есть альтернативные исследовательские проекты. Однако главная проблема заключается в том, что независимо от того, какой проект выберет оценщик, они подвержены общей проблеме: независимо от того, насколько хорошо продуман или реализован проект, каждый проект подвержен получению предвзятых оценок эффектов программы. Эти предвзятости играют роль преувеличения или преуменьшения эффектов программы. Более того, направление, которое может принять предвзятость, обычно невозможно знать заранее (Rossi et al., 2004). Эти предвзятости влияют на интересы заинтересованных сторон. Более того, возможно, что участники программы окажутся в невыгодном положении, если предвзятость такова, что она способствует тому, что неэффективная или вредная программа кажется эффективной. Существует также вероятность того, что предвзятость может сделать эффективную программу неэффективной или даже настолько вредной. Это может привести к тому, что достижения программы покажутся незначительными или даже незначительными, что вынудит персонал и даже спонсоров программы сократить или прекратить финансирование программы (Росси и др., 2004).

Можно с уверенностью сказать, что если неадекватный дизайн приводит к смещению, то заинтересованные стороны, которые в значительной степени отвечают за финансирование программы, будут наиболее обеспокоены; результаты оценки помогают заинтересованным сторонам решить, продолжать ли финансирование программы или нет, поскольку окончательное решение остается за спонсорами и спонсорами. Не только заинтересованные стороны в основном обеспокоены, но и те, кто принимает участие в программе или те, на кого программа должна положительно повлиять, будут затронуты выбранным дизайном и результатом, полученным с помощью этого выбранного дизайна. Поэтому забота оценщика заключается в том, чтобы минимизировать количество смещения в оценке эффектов программы (Rossi et al., 2004).

Смещения обычно видны в двух ситуациях: когда измерение результата с воздействием программы или оценка того, каким был бы результат без воздействия программы, выше или ниже соответствующего «истинного» значения (p267). К сожалению, не все формы смещения, которые могут поставить под угрозу оценку воздействия, очевидны (Rossi et al., 2004).

Наиболее распространенной формой дизайна оценки воздействия является сравнение двух групп лиц или других единиц, группы вмешательства, которая получает программу, и контрольной группы, которая не получает. Оценка эффекта программы затем основывается на разнице между группами по подходящей мере результата (Rossi et al., 2004). Случайное распределение лиц в программные и контрольные группы позволяет сделать предположение о продолжающейся эквивалентности. Групповые сравнения, которые не были сформированы посредством рандомизации, известны как неэквивалентные планы сравнения (Rossi et al., 2004).

Смещение отбора

При отсутствии предположения об эквивалентности разница в результатах между группами, которая бы имела место независимо, создает форму смещения в оценке эффектов программы. Это известно как смещение отбора (Rossi et al., 2004). Это создает угрозу достоверности оценки эффекта программы в любой оценке воздействия с использованием неэквивалентного плана сравнения групп и появляется в ситуациях, когда некоторый процесс, ответственный за влияния, которые не полностью известны, выбирает, какие люди будут в какой группе, вместо того, чтобы распределение по группам определялось чистой случайностью (Rossi et al., 2004). Это может быть из-за самоотбора участников или из-за размещения программы (смещение размещения). ^[17]

Смещение отбора может возникнуть в результате естественных или преднамеренных процессов, которые приводят к потере данных о результатах для членов групп вмешательства и контроля, которые уже были сформированы. Это известно как истощение, и оно может произойти двумя способами (Rossi et al., 2004): цели выбывают из вмешательства или контрольная группа не может быть достигнута, или цели отказываются сотрудничать в измерении результатов. Дифференциальное истощение предполагается, когда истощение происходит в результате чего-то, кроме явного случайного процесса (Rossi et al., 2004). Это означает, что «те лица, которые были из группы вмешательства, чьи данные о результатах отсутствуют, не могут считаться имеющими те же релевантные для результата характеристики, что и лица из контрольной группы, чьи данные о результатах отсутствуют» (Rossi et al., 2004, p271). Однако случайные схемы распределения не защищены от смещения отбора, которое вызвано истощением (Rossi et al., 2004).

Другие формы предвзятости

Существуют и другие факторы, которые могут быть ответственны за смещение результатов оценки воздействия. Они обычно связаны с событиями или опытом, отличными от получения программы, которые происходят во время вмешательства. Эти смещения включают в себя светские тенденции, мешающие события и созревание (Rossi et al., 2004).

Светские тенденции или светский дрейф

Светские тенденции можно определить как относительно долгосрочные тенденции в сообществе, регионе или стране. Они также называются светским дрейфом и могут вызывать изменения, которые усиливают или маскируют очевидные эффекты вмешательства (Rossi et al., 2004). Например, когда уровень рождаемости в сообществе снижается, программа по снижению рождаемости может казаться эффективной из-за предвзятости, вытекающей из этой нисходящей тенденции (Rossi et al., 2004, p273).

Вмешивающиеся события

Мешающие события аналогичны вековым тенденциям; в этом случае именно краткосрочные события могут вызывать изменения, которые могут вносить смещение в оценки эффекта программы, например, отключение электроэнергии, нарушающее связь или затрудняющее доставку пищевых добавок, может помешать программе питания (Росси и др., 2004, стр. 273).

Созревание

Оценка воздействия должна учитывать тот факт, что естественные процессы созревания и развития могут вызывать значительные изменения независимо от программы. Включение этих изменений в оценки эффектов программы приведет к смещению оценок. Примером такой формы смещения может быть программа по улучшению профилактических практик здравоохранения среди взрослых, которая может показаться неэффективной, поскольку здоровье, как правило, ухудшается с возрастом (Rossi et al., 2004, p273).

«Тщательное поддержание сопоставимых обстоятельств для программных и контрольных групп между случайным распределением и измерением результатов должно предотвратить смещение из-за влияния другого различного опыта или событий на группы. Если любое из этих условий отсутствует в проекте, существует вероятность смещения в оценках эффекта программы» (Росси и др., 2004, стр. 274).

Методы оценки

Методы оценки в целом следуют планам оценки. Различные планы требуют разных методов оценки для измерения изменений в благополучии от контрфактуального. В экспериментальной и квазиэкспериментальной оценке предполагаемое воздействие вмешательства рассчитывается как разница в средних результатах между группой лечения (теми, кто получает вмешательство) и контрольной или сравнительной группой (теми, кто не получает). Этот метод также называется рандомизированными контрольными испытаниями (РКИ). Согласно интервью с Джимом Рафом, бывшим представителем Американской ассоциации оценки, в журнале D+C Development and Cooperation , этот метод не работает для сложных, многослойных вопросов. Оценка по единственной разнице сравнивает средние результаты в конечном итоге и действительна, когда группы лечения и контроля имеют одинаковые значения результатов в исходном состоянии. Оценка по разнице в разнице (или двойная разность) вычисляет разницу в изменении результата с течением времени для групп лечения и сравнения, таким образом используя данные, собранные в исходном состоянии для обеих групп, и второй раунд данных, собранных в конечном итоге, после внедрения вмешательства, которое может быть спустя годы. ^[18]

Оценки воздействия, которые должны сравнивать средние результаты в группе лечения, независимо от участия бенефициара (также называемые «соблюдением» или «приверженностью»), с результатами в группе сравнения, называются анализами намерения лечить (ITT). Оценки воздействия, которые сравнивают результаты среди бенефициаров, которые соблюдают или придерживаются вмешательства в группе лечения, с результатами в контрольной группе, называются анализами лечения на леченном (TOT). Поэтому ITT обеспечивает нижнюю границу оценки воздействия, но, возможно, имеет большую политическую значимость, чем TOT при анализе добровольных программ. ^[19]

Дебаты

Хотя существует согласие относительно важности оценки воздействия и формируется консенсус относительно использования методов контрфактуальной оценки, в последние годы также широко обсуждаются вопросы определения оценки воздействия и использования соответствующих методов (см. обзор White 2009 ^{[20] ).}

Определения

Международная инициатива по оценке воздействия (3ie) определяет строгие оценки воздействия как: «анализы, измеряющие чистое изменение результатов для определенной группы людей, которые могут быть отнесены к определенной программе, с использованием наилучшей доступной методологии, осуществимой и соответствующей исследуемому вопросу оценки и определенному контексту». ^[21]

Согласно Инициативе DIME Всемирного банка, «Оценки воздействия сравнивают результаты программы с контрфактуальной ситуацией, которая показывает, что случилось бы с бенефициарами без программы. В отличие от других форм оценки, они позволяют приписывать наблюдаемые изменения в результатах оцениваемой программе, следуя экспериментальным и квазиэкспериментальным разработкам». ^[22]

Аналогично, по данным Агентства по охране окружающей среды США , оценка воздействия — это форма оценки, которая определяет чистый эффект программы путем сравнения результатов программы с оценкой того, что произошло бы при отсутствии программы. ^[23]

По данным Независимой группы оценки (IEG) Всемирного банка , оценка воздействия представляет собой систематическое выявление положительных или отрицательных, преднамеренных или нет последствий для отдельных домохозяйств, учреждений и окружающей среды, вызванных определенной деятельностью по развитию, такой как программа или проект. ^[24]

Оценка воздействия определялась по-разному за последние несколько десятилетий. ^[6] Другие интерпретации оценки воздействия включают:

Оценка, которая рассматривает влияние вмешательства на конечные результаты благосостояния, а не только на результаты проекта, или оценка процесса, которая фокусируется на реализации;
Оценка, проводимая через некоторое время (от пяти до десяти лет) после завершения вмешательства, чтобы дать время проявиться эффекту; и
Оценка, учитывающая все вмешательства в данном секторе или географической области.

Другие авторы проводят различие между «оценкой воздействия» и «оценкой воздействия». «Оценка воздействия» использует эмпирические методы для оценки эффектов вмешательств и их статистической значимости, тогда как «оценка воздействия» включает в себя более широкий набор методов, включая структурное моделирование и другие подходы, которые не могут проверить статистическую значимость. ^[17]

Общие определения «воздействия», используемые при оценке, как правило, относятся к совокупности долгосрочных последствий, связанных с вмешательством в результаты качества жизни. Например, Комитет содействия развитию Организации экономического сотрудничества и развития (OECD-DAC) определяет воздействие как «положительные и отрицательные, первичные и вторичные долгосрочные эффекты, вызванные вмешательством в развитие, прямо или косвенно, преднамеренно или непреднамеренно». ^[25] Ряд международных агентств также приняли это определение воздействия. Например, ЮНИСЕФ определяет воздействие как «долгосрочные результаты программы — технические, экономические, социально-культурные, институциональные, экологические или другие — преднамеренные или непреднамеренные. Предполагаемое воздействие должно соответствовать цели программы». ^[26] Аналогичным образом, Evaluationwiki.org определяет оценку воздействия как оценку, которая выходит за рамки непосредственных результатов политики, инструкций или услуг для выявления долгосрочных, а также непреднамеренных эффектов программы. ^[27]

Технически оценка может быть проведена для оценки «воздействия», как определено здесь, без ссылки на контрфактуальный анализ. Однако большая часть существующей литературы (например, Руководство NONIE по оценке воздействия ^[28] принимает определение воздействия OECD-DAC, ссылаясь на методы, используемые для приписывания воздействия вмешательству, как на обязательно основанные на контрфактуальном анализе.

Чего не хватает в оценке термина «воздействие», так это того, как «воздействие» проявляется в долгосрочной перспективе. Например, большинство планов «логической структуры» мониторинга и оценки имеют входы-выходы-результаты и... воздействия. В то время как первые три появляются в течение самого проекта, воздействие занимает гораздо больше времени. Например, в 5-летнем сельскохозяйственном проекте семена являются входами, фермеры, обученные их использованию, — нашими выходами, изменения урожайности в результате правильной посадки семян в результате, а семьи становятся более устойчиво обеспеченными продовольствием с течением времени — это воздействие. Такие оценки воздействия после проекта очень редки. Их также называют оценками ex-post, или мы вводим термин «оценки устойчивого воздействия». Хотя сотни тысяч документов требуют их, у доноров редко есть гибкость финансирования — или интерес — вернуться и посмотреть, насколько устойчивыми и долговечными остались наши вмешательства после закрытия проекта, после того как ресурсы были изъяты. Есть много уроков, которые нужно извлечь для проектирования, реализации, мониторинга и оценки и того, как способствовать развитию национальной собственности.

Методологические дебаты

В академических кругах ведутся интенсивные дебаты вокруг соответствующих методологий оценки воздействия между сторонниками экспериментальных методов, с одной стороны, и сторонниками более общих методологий, с другой. Уильям Истерли назвал это «Гражданской войной в экономике развития». Сторонники экспериментальных проектов, иногда называемые «рандомистами», ^[8] утверждают, что рандомизация является единственным средством, гарантирующим учет ненаблюдаемой ошибки отбора, и что создание шаткой экспериментальной доказательной базы должно быть разработано в приоритетном порядке. ^[29] Напротив, другие утверждают, что рандомизированное назначение редко подходит для вмешательств в развитие, и даже когда это так, эксперименты предоставляют нам информацию о результатах конкретного вмешательства, примененного к определенному контексту, и мало что имеет внешнего значения. ^[30] Была критика со стороны оценочных органов и других лиц, что некоторые доноры и ученые слишком подчеркивают предпочтительные методы оценки воздействия, ^[31] и что это может фактически препятствовать обучению и подотчетности. ^[32] Кроме того, ведутся дебаты о соответствующей роли качественных методов в оценке воздействия. ^[33]^[34]

Оценка воздействия на основе теории

Хотя знание эффективности жизненно важно, также важно понимать причины эффективности и обстоятельства, при которых результаты, вероятно, будут воспроизведены. В отличие от подходов оценки воздействия «черного ящика», которые сообщают только о средних различиях в результатах между группами лечения и сравнения, оценка воздействия на основе теории включает в себя составление причинно-следственной цепочки от входов к результатам и воздействию и проверку лежащих в основе предположений. ^[35]^[28] Большинство вмешательств в сфере государственной политики носят добровольный, а не принудительный (требуемый по закону) характер. Кроме того, вмешательства часто являются активными, а не пассивными, требуя большей, а не меньшей степени участия среди бенефициаров и, следовательно, изменения поведения в качестве предварительного условия для эффективности. Таким образом, государственная политика будет успешной в той степени, в которой люди будут мотивированы изменять свое поведение в благоприятную сторону. Подход на основе теории позволяет политикам понимать причины различных уровней участия в программе (называемых «соблюдением» или «приверженностью») и процессы, определяющие изменение поведения. Подходы, основанные на теории, используют как количественный, так и качественный сбор данных, и последний может быть особенно полезен для понимания причин соответствия и, следовательно, того, может ли вмешательство быть воспроизведено в других условиях и каким образом. Методы сбора качественных данных включают фокус-группы, глубинные интервью, оценку сельской местности с участием (PRA) и полевые визиты, а также чтение антропологической и политической литературы.

Уайт (2009b) ^[35] выступает за более широкое применение теоретического подхода к оценке воздействия как средства повышения политической значимости оценок воздействия, выделяя шесть ключевых принципов теоретического подхода:

Составьте схему причинно-следственной цепочки (теорию программы), которая объясняет, как вмешательство, как ожидается, приведет к желаемым результатам, и соберите данные для проверки основных предположений о причинно-следственных связях.
Понимать контекст, включая социальные, политические и экономические условия вмешательства.
Прогнозируйте неоднородность, чтобы помочь в определении подгрупп и корректировке размера выборки с учетом уровней дезагрегации, которые будут использоваться в анализе.
Строгая оценка воздействия с использованием достоверного контрфактуального обоснования (как обсуждалось выше).
Строгий фактический анализ звеньев причинно-следственной цепи.
Используйте смешанные методы (сочетание количественных и качественных методов).

Примеры

Хотя экспериментальные методики оценки воздействия использовались для оценки мероприятий в области питания, водоснабжения и санитарии в развивающихся странах с 1980-х годов, первым и наиболее известным применением экспериментальных методов к крупномасштабной программе развития является оценка программы условного денежного перевода (CCT) Progresa (теперь называемой Oportunidades ) в Мексике, в которой изучался ряд результатов развития, включая школьное образование, показатели иммунизации и детский труд. ^[36]^[37] С тех пор программы CCT были реализованы рядом правительств в Латинской Америке и других странах, а в отчете, опубликованном Всемирным банком в феврале 2009 года, рассматривается влияние CCT в двадцати странах. ^[38]

Совсем недавно оценка воздействия была применена к ряду вмешательств в социальных и производственных секторах. 3ie запустила онлайн-базу данных оценок воздействия, охватывающую исследования, проведенные в странах с низким и средним уровнем дохода. Другие организации, публикующие оценки воздействия, включают Innovations for Poverty Action, DIME Initiative Всемирного банка и NONIE. IEG Всемирного банка систематически оценивала и обобщала опыт десяти оценок воздействия программ развития в различных секторах, проведенных за последние 20 лет. ^[39]

Организации, продвигающие оценку воздействия мер по развитию

В 2006 году рабочая группа по оценке разрыва ^[40] утверждала, что существует большой пробел в доказательствах относительно вмешательств в развитие, и в частности, что необходимо создать независимый орган для устранения этого пробела путем финансирования и пропаганды строгой оценки воздействия в странах с низким и средним уровнем дохода. Международная инициатива по оценке воздействия (3ie) была создана в ответ на этот отчет. 3ie стремится улучшить жизнь бедных людей в странах с низким и средним уровнем дохода, предоставляя и обобщая доказательства того, что работает, когда, почему и в какой степени. 3ie управляет программой грантов, финансируя исследования воздействия в странах с низким и средним уровнем дохода и синтетические обзоры существующих доказательств, обновляемые по мере появления новых доказательств, и поддерживает качественную оценку воздействия с помощью своих служб обеспечения качества.

Еще одной инициативой, посвященной оценке воздействия, является Комитет по оценке устойчивости (COSA). COSA — это некоммерческий глобальный консорциум учреждений, поддерживаемый в партнерстве с Инициативой по устойчивому развитию Международного института устойчивого развития (IISD), Конференцией ООН по торговле и развитию (ЮНКТАД) и Международным торговым центром ООН (МТЦ). COSA разрабатывает и применяет независимый инструмент измерения для анализа различных социальных, экологических и экономических последствий сельскохозяйственных практик, и в частности тех, которые связаны с реализацией конкретных программ устойчивости (органическая, справедливая торговля и т. д.). Основное внимание в инициативе уделяется установлению глобальных показателей и инструментов измерения, которые фермеры, политики и промышленность могут использовать для понимания и повышения своей устойчивости с различными культурами или сельскохозяйственными секторами. COSA стремится облегчить это, предоставив им возможность точно рассчитать относительные затраты и выгоды от участия в любой конкретной инициативе по устойчивости.

Был создан ряд дополнительных организаций для содействия оценке воздействия во всем мире, включая «Инновации для борьбы с бедностью», Фонд оценки стратегического воздействия Всемирного банка (SIEF), Инициативу Всемирного банка по оценке воздействия на развитие (DIME), Инициативу по институциональному обучению и изменениям (ILAC) Консультативной группы по международным сельскохозяйственным исследованиям (CGIAR) и Сеть сетей по оценке воздействия (NONIE).

Систематические обзоры доказательств воздействия

Ряд организаций работают над координацией создания систематических обзоров . Систематические обзоры направлены на преодоление разрыва между исследованиями и политикой путем оценки ряда существующих доказательств по определенной теме и представления информации в доступном формате. Как и строгие оценки воздействия, они разрабатываются на основе протокола исследования, который априори устанавливает критерии включения исследования, поиска и методов синтеза. Систематические обзоры включают пять основных шагов: определение вмешательств, групп населения, результатов и дизайнов исследований, которые должны быть включены; поиск для выявления опубликованной и неопубликованной литературы и применение критериев включения исследования (относящихся к вмешательствам, группам населения, результатам и дизайну исследования), как указано в протоколе исследования; кодирование информации из исследований; представление количественных оценок эффективности вмешательств с использованием лесных участков и, если вмешательства определяются как надлежащим образом однородные, расчет объединенной сводной оценки с использованием метаанализа; наконец, систематические обзоры должны периодически обновляться по мере появления новых доказательств. Систематические обзоры могут также включать синтез качественной информации, например, касающейся барьеров или факторов, способствующих эффективности вмешательств.

Смотрите также

Ссылки

^ Группа Всемирного банка по борьбе с бедностью по оценке воздействия, доступ 6 января 2008 г.
^ "White, H. (2006) Impact Evaluation: The Experience of the Independent Evaluation Group of the World Bank, World Bank, Washington, DC, p. 3" (PDF) . Архивировано из оригинала (PDF) 2018-02-19 . Получено 2010-01-07 .
^ "Gertler, Martinez, Premand, Rawlings and Vermeersch (2011) Impact Evaluation in Practice, Washington, DC:The World Bank". Архивировано из оригинала 2011-07-17 . Получено 2010-12-15 .
^ "Войти" (PDF) . Получено 16 января 2017 .
^ "Войти" (PDF) . Получено 16 января 2017 .
^ ab "White, H. (2006) Impact Evaluation: The Experience of the Independent Evaluation Group of the World Bank, World Bank, Washington, DC" (PDF) . Архивировано из оригинала (PDF) 2018-02-19 . Получено 2010-01-07 .
^ Равальон, М. (2008) Оценка программ по борьбе с бедностью
^ ab Martin, Ravallion (1 января 2009 г.). «Should the Randomistas Rule?». 6 (2): 1–5 . Получено 16 января 2017 г. – через RePEc - IDEAS. {{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ Обратите внимание, что утверждается, что « Randomistas — это жаргонный термин, используемый критиками для описания сторонников методологии RCT. Это почти наверняка гендерный, уничижительный термин, предназначенный для того, чтобы легкомысленно отмахнуться от экспериментальных экономистов и их успеха, в частности Эстер Дюфло, одного из самых успешных экспертов по рандомизации». См. Webber, S., & Prouse, C. (2018). The New Gold Standard: The Rise of Randomized Control Trials and Experimental Development. Economic Geography, 94(2), 166–187.
^ ab Bamberger, M. и White, H. (2007) Использование надежных оценочных схем в развивающихся странах: опыт и проблемы, Журнал многопрофильной оценки, том 4, номер 8, 58-73
^ Скривен (2008) Суммативное оценивание методологии РКИ: и альтернативный подход к причинно-следственным исследованиям, Журнал многопрофильной оценки , том 5, номер 9, 11-24
^ Дитон, Ангус (1 января 2009 г.). «Инструменты развития: рандомизация в тропиках и поиск неуловимых ключей к экономическому развитию». SSRN 1335715. {{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ Харитон, Эдуардо; Локасио, Джозеф Дж. (декабрь 2018 г.). «Рандомизированные контролируемые испытания — золотой стандарт исследований эффективности». BJOG: Международный журнал акушерства и гинекологии . 125 (13): 1716. doi :10.1111/1471-0528.15199. ISSN 1470-0328. PMC 6235704. PMID 29916205 .
^ ab White, Howard (8 марта 2013 г.). «Введение в использование рандомизированных контрольных испытаний для оценки вмешательств в развитие». Журнал эффективности развития . 5 : 30–49. doi : 10.1080/19439342.2013.764652 . S2CID 51812043.
^ ab Deaton, Angus; Cartwright, Nancy (2016-11-09). «Ограничения рандомизированных контролируемых испытаний». VoxEU.org . Получено 2020-10-26 .
^ abc Roe, Brian E.; Just, David R. (декабрь 2009 г.). «Внутренняя и внешняя валидность в экономических исследованиях: компромиссы между экспериментами, полевыми экспериментами, естественными экспериментами и полевыми данными». American Journal of Agricultural Economics . 91 (5): 1266–1271. doi :10.1111/j.1467-8276.2009.01295.x. ISSN 0002-9092.
^ ab White, Howard; Raitzer, David (2017). Оценка воздействия мер по развитию: практическое руководство (PDF) . Манила: Азиатский банк развития. ISBN 978-92-9261-059-3.
^ Раф, Джим (22 июня 2012 г.). «Молоток в поисках гвоздей». D+C Development and Cooperation . 2012 (7): 300.
^ Блум, Х. (2006) Основная аналитика рандомизированных экспериментов для социальных исследований. Рабочие документы MDRC по методологии исследований. MDRC, Нью-Йорк
^ "White, H. (2009) Some thoughts on current debates in impact evaluation, Working paper 1, International Initiative for Impact Evaluation, New Delhi". Архивировано из оригинала 2013-01-08 . Получено 2012-10-29 .
^ "Войти" (PDF) . Получено 16 января 2017 .
^ Всемирный банк (nd) Инициатива по оценке воздействия на развитие (DIME), проектный документ, Всемирный банк, Вашингтон, округ Колумбия
^ Глоссарий оценки программ Агентства по охране окружающей среды США, дата обращения 6 января 2008 г.
^ Независимая группа оценки Всемирного банка, дата обращения 6 января 2008 г.
^ OECD-DAC (2002) Глоссарий ключевых терминов в области оценки и управления на основе результатов. Предложенная гармонизированная терминология, ОЭСР, Париж
^ ЮНИСЕФ (2004) Стандарты отчетов об оценке ЮНИСЕФ, Офис оценки, ЮНИСЕФ, Нью-Йорк
^ "Определение оценки: Что такое оценка? - EvaluationWiki" . Получено 16 января 2017 г.
^ ab "Страница не найдена" . Получено 16 января 2017 г. {{cite web}}: Цитата использует общее название ( помощь )
^ "Банерджи, А.В. (2007) 'Making Aid Work' Cambridge, Boston Review Book, MIT Press, MA" (PDF) . Получено 16 января 2017 г. .^{[ постоянная мертвая ссылка ]}
^ Бамбергер, М. и Уайт, Х. (2007) Использование надежных оценочных схем в развивающихся странах: опыт и проблемы, Журнал многопрофильной оценки, том 4, номер 8, 58-73
^ http://www.europeanevaluation.org/download/?noGzip=1&id=1969403 ^{[ постоянная мертвая ссылка ]} Заявление EES о важности методологически разнообразного подхода к оценке воздействия
^ http://www.odi.org.uk/resources/odi-publications/opinions/127-impact-evaluation.pdf «Золотой стандарт» не является панацеей для оценки
^ «Эффективность помощи: роль качественных исследований в оценке воздействия». 27 июня 2014 г.
^ Прауз, Мартин; Кэмфилд, Лора (2013). «Улучшение качества помощи в целях развития». Прогресс в исследованиях развития . 13 : 51–61. doi :10.1177/146499341201300104. S2CID 44482662.
^ ab "White, H. (2009b) Оценка воздействия на основе теории: принципы и практика, рабочий документ 3, Международная инициатива по оценке воздействия, Нью-Дели". Архивировано из оригинала 2012-11-06 . Получено 2012-10-29 .
^ Gertler, P. (2000) Заключительный отчет: Влияние PROGRESA на здоровье. Международный институт исследований продовольственной политики, Вашингтон, округ Колумбия
^ "Документ без названия" (PDF) . Получено 16 января 2017 г.
^ Фисбейн, А. и Шади, Н. (2009) Условные денежные трансферты: сокращение нынешней и будущей бедности: отчет Всемирного банка по исследованию политики, Всемирный банк, Вашингтон, округ Колумбия
^ Оценка воздействия: опыт Независимой оценочной группы Всемирного банка, 2006 г.
^ "Когда же мы когда-нибудь научимся? Улучшение жизни посредством оценки воздействия" . Получено 16 января 2017 г.

Источники и внешние ссылки

Гертлер, Мартинес, Преманд, Роулингс и Вермеерш (2011) Оценка воздействия на практике, Вашингтон, округ Колумбия: Всемирный банк
Группа Всемирного банка по борьбе с бедностью Группа Всемирного банка по борьбе с бедностью
Независимая группа оценки Всемирного банка или в Википедии Независимая группа оценки
Бейкер, Джуди. 2000. Оценка воздействия проектов развития на бедность: Справочник для практиков. Направления развития, Всемирный банк, Вашингтон, округ Колумбия
Международная инициатива по оценке воздействия
Инновации для борьбы с бедностью
Комитет по оценке устойчивости (COSA)
Международный институт устойчивого развития (МИУР)
Международный торговый центр ООН (МТЦ)