stringtranslate.com

Рандомизированный эксперимент

Блок-схема четырех фаз (регистрация, распределение вмешательства, последующее наблюдение и анализ данных) параллельного рандомизированного исследования двух групп, модифицированная из заявления CONSORT 2010 [1]

В науке рандомизированные эксперименты — это эксперименты , которые обеспечивают наибольшую надежность и обоснованность статистических оценок эффектов лечения. Вывод на основе рандомизации особенно важен в экспериментальном дизайне и в выборке обследования .

Обзор

В статистической теории проектирования экспериментов рандомизация подразумевает случайное распределение экспериментальных единиц по группам лечения . Например, если эксперимент сравнивает новый препарат со стандартным препаратом, то пациентов следует распределить либо в группу нового препарата, либо в группу стандартного контроля препарата с использованием рандомизации.

Рандомизированное экспериментирование не является бессистемным. Рандомизация уменьшает смещение , уравнивая другие факторы, которые явно не были учтены в экспериментальном плане (согласно закону больших чисел ). Рандомизация также создает игнорируемые планы , которые ценны в статистических выводах на основе моделей , особенно байесовских или основанных на правдоподобии . При планировании экспериментов самым простым планом для сравнения методов лечения является «полностью рандомизированный план». Некоторые «ограничения на рандомизацию» могут возникать при блокировке и экспериментах с трудноизменяемыми факторами; дополнительные ограничения на рандомизацию могут возникать, когда полная рандомизация неосуществима или когда желательно уменьшить дисперсию оценок выбранных эффектов.

Рандомизация лечения в клинических испытаниях создает этические проблемы. В некоторых случаях рандомизация сокращает терапевтические возможности как для врача, так и для пациента, поэтому рандомизация требует клинического равновесия в отношении лечения.

Онлайн рандомизированные контролируемые эксперименты

Веб-сайты могут проводить рандомизированные контролируемые эксперименты [2] для создания цикла обратной связи. [3] Основные различия между офлайн-экспериментами и онлайн-экспериментами включают: [3] [4]

История

Контролируемый эксперимент, по-видимому, был предложен в Книге Даниила Ветхого Завета. Царь Навуходоносор предложил, чтобы некоторые израильтяне ели «ежедневное количество еды и вина со стола царя». Даниил предпочитал вегетарианскую диету, но чиновник был обеспокоен тем, что царь «увидит тебя выглядящим хуже других юношей твоего возраста? Тогда царь снимет мне голову из-за тебя». Затем Даниил предложил следующий контролируемый эксперимент: «Испытай твоих слуг в течение десяти дней. Давай нам только овощи в пищу и воду для питья. И сравни наш вид с видом юношей, которые едят царскую пищу, и поступай со своими слугами в соответствии с тем, что увидишь». (Даниил 1, 12–13). [8] [9]

Рандомизированные эксперименты были институционализированы в психологии и образовании в конце восемнадцатого века после изобретения рандомизированных экспериментов К. С. Пирсом . [10] [11] [12] [13] За пределами психологии и образования рандомизированные эксперименты были популяризированы Р. А. Фишером в его книге «Статистические методы для научных работников» , в которой также были введены дополнительные принципы экспериментального проектирования.

Статистическая интерпретация

Причинно-следственная модель Рубина обеспечивает общий способ описания рандомизированного эксперимента. В то время как причинно-следственная модель Рубина обеспечивает структуру для определения причинных параметров (т. е. эффектов рандомизированного лечения на результат), анализ экспериментов может принимать ряд форм. Модель предполагает, что для каждой единицы в исследовании существует два потенциальных результата: результат, если единица получает лечение, и результат, если единица не получает лечения. Разница между этими двумя потенциальными результатами известна как эффект лечения, который является причинно-следственным эффектом лечения на результат. Чаще всего рандомизированные эксперименты анализируются с помощью ANOVA , t-критерия Стьюдента , регрессионного анализа или аналогичного статистического теста . Модель также учитывает потенциальные смешивающие факторы, которые могут повлиять как на лечение, так и на результат. Контролируя эти смешивающие факторы, модель помогает гарантировать, что любой наблюдаемый эффект лечения действительно является причинно-следственным, а не просто результатом других факторов, которые коррелируют как с лечением, так и с результатом.

Причинно-следственная модель Рубина является полезной основой для понимания того, как оценить причинно-следственный эффект лечения, даже если есть сопутствующие переменные, которые могут повлиять на результат. Эта модель определяет, что причинно-следственный эффект лечения — это разница в результатах, которые наблюдались бы для каждого человека, если бы он получил лечение и если бы он его не получил. На практике невозможно наблюдать оба потенциальных результата для одного и того же человека, поэтому для оценки причинно-следственного эффекта с использованием данных эксперимента используются статистические методы.

Эмпирические доказательства того, что рандомизация имеет значение

Эмпирически различия между рандомизированными и нерандомизированными исследованиями, [14] [ требуется обновление ] и между адекватно и неадекватно рандомизированными исследованиями было трудно обнаружить. [15] [16]

Направленный ациклический граф (DAG) объяснение рандомизации

Рандомизация является краеугольным камнем многих научных утверждений. Рандомизация означает, что мы можем устранить мешающие факторы. Допустим, мы изучаем влияние A на B. Тем не менее, существует множество ненаблюдаемых U , которые потенциально влияют на B и мешают нашей оценке вывода. Для объяснения подобных проблем статистики или эконометристы в настоящее время используют направленный ациклический граф . [ требуется обновление ]

Смотрите также

Ссылки

  1. ^ Шульц КФ, Альтман ДГ, Мохер Д; для CONSORT Group (2010). «Заявление CONSORT 2010: обновленные рекомендации по отчетности о рандомизированных испытаниях в параллельных группах». BMJ . 340 : c332. doi :10.1136/bmj.c332. PMC  2844940 . PMID  20332509.{{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
  2. ^ Кохави, Рон; Лонгботам, Роджер (2015). «Онлайн-контролируемые эксперименты и A/B-тесты» (PDF) . В Саммуте, Клоде; Уэббе, Джеффе (ред.). Энциклопедия машинного обучения и интеллектуального анализа данных . Springer. С. в печати.
  3. ^ abc Кохави, Рон; Лонгботам, Роджер; Соммерфилд, Дэн; Хенне, Рэндал М. (2009). «Контролируемые эксперименты в Интернете: обзор и практическое руководство». Data Mining and Knowledge Discovery . 18 (1): 140–181. doi : 10.1007/s10618-008-0114-1 . ISSN  1384-5810.
  4. ^ Кохави, Рон; Дэн, Алекс; Фраска, Брайан; Лонгботам, Роджер; Уокер, Тоби; Сюй Я (2012). «Надежные контролируемые онлайн-эксперименты: объяснение пяти загадочных результатов». Труды 18-й конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных .
  5. ^ Кохави, Рон; Дэн Алекс; Фраска Брайан; Уокер Тоби; Сюй Я; Нильс Полманн (2013). «Онлайн-контролируемые эксперименты в больших масштабах». Труды 19-й международной конференции ACM SIGKDD по открытию знаний и добыче данных . Том 19. Чикаго, Иллинойс, США: ACM. С. 1168–1176. doi :10.1145/2487575.2488217. ISBN 9781450321747. S2CID  13224883.
  6. ^ Кохави, Рон; Дэн Алекс; Лонгботам Роджер; Сюй Я (2014). «Семь правил для экспериментаторов веб-сайтов». Труды 20-й международной конференции ACM SIGKDD по обнаружению знаний и добыче данных . Том 20. Нью-Йорк, Нью-Йорк, США: ACM. стр. 1857–1866. doi :10.1145/2623330.2623341. ISBN 9781450329569. S2CID  207214362.
  7. ^ Дэн, Алекс; Сюй, Я; Кохави, Рон; Уокер, Тоби (2013). «Повышение чувствительности контролируемых онлайн-экспериментов путем использования предварительных экспериментальных данных». WSDM 2013: Шестая международная конференция ACM по веб-поиску и интеллектуальному анализу данных .
  8. ^ Нойхаузер, Д.; Диас, М. (2004). «Дэниел: использование Библии для обучения методам улучшения качества». Качество и безопасность в здравоохранении . 13 (2): 153–155. doi :10.1136/qshc.2003.009480. PMC 1743807. PMID  15069225 . 
  9. ^ Энгрист, Джошуа; Пишке Йорн-Штеффен (2014). Освоение показателей: путь от причины к следствию . Princeton University Press. стр. 31.
  10. ^ Чарльз Сандерс Пирс и Джозеф Джастроу (1885). «О малых различиях в ощущениях». Мемуары Национальной академии наук . 3 : 73–83.http://psychclassics.yorku.ca/Peirce/small-diffs.htm
  11. ^ Хакинг, Ян (сентябрь 1988 г.). «Телепатия: истоки рандомизации в экспериментальном дизайне». Isis . 79 (3): 427–451. doi :10.1086/354775. JSTOR  234674. MR  1013489. S2CID  52201011.
  12. ^ Стивен М. Стиглер (ноябрь 1992 г.). «Исторический взгляд на статистические концепции в психологии и образовательных исследованиях». Американский журнал образования . 101 (1): 60–70. doi :10.1086/444032. S2CID  143685203.
  13. ^ Труди Дехью (декабрь 1997 г.). «Обман, эффективность и случайные группы: психология и постепенное возникновение случайного группового дизайна» (PDF) . Isis . 88 (4): 653–673. doi :10.1086/383850. PMID  9519574. S2CID  23526321.
  14. ^ Anglemyer A, Horvath HT, Bero L (апрель 2014 г.). «Результаты оказания медицинской помощи, оцененные с помощью наблюдательных исследований, в сравнении с результатами, оцененными в рандомизированных испытаниях». Cochrane Database Syst Rev. 2014 ( 4): MR000034. doi :10.1002/14651858.MR000034.pub2. PMC 8191367. PMID  24782322 . 
  15. ^ Одгаард-Йенсен Дж., Вист Г. и др . (апрель 2011 г.). «Рандомизация для защиты от смещения отбора в испытаниях в здравоохранении». Cochrane Database Syst Rev. 2015 ( 4): MR000012. doi :10.1002/14651858.MR000012.pub3. PMC 7150228. PMID  21491415. 
  16. ^ Howick J, Mebius A (2014). «В поисках оправдания парадокса непредсказуемости». Trials . 15 : 480. doi : 10.1186/1745-6215-15-480 . PMC 4295227. PMID  25490908 .