Экспериментируйте, используя случайность в некоторых аспектах, обычно для устранения предвзятости.
В науке рандомизированные эксперименты — это эксперименты , которые обеспечивают наибольшую надежность и обоснованность статистических оценок эффектов лечения. Вывод на основе рандомизации особенно важен в экспериментальном дизайне и в выборке обследования .
Обзор
В статистической теории проектирования экспериментов рандомизация подразумевает случайное распределение экспериментальных единиц по группам лечения . Например, если эксперимент сравнивает новый препарат со стандартным препаратом, то пациентов следует распределить либо в группу нового препарата, либо в группу стандартного контроля препарата с использованием рандомизации.
Рандомизированное экспериментирование не является бессистемным. Рандомизация уменьшает смещение , уравнивая другие факторы, которые явно не были учтены в экспериментальном плане (согласно закону больших чисел ). Рандомизация также создает игнорируемые планы , которые ценны в статистических выводах на основе моделей , особенно байесовских или основанных на правдоподобии . При планировании экспериментов самым простым планом для сравнения методов лечения является «полностью рандомизированный план». Некоторые «ограничения на рандомизацию» могут возникать при блокировке и экспериментах с трудноизменяемыми факторами; дополнительные ограничения на рандомизацию могут возникать, когда полная рандомизация неосуществима или когда желательно уменьшить дисперсию оценок выбранных эффектов.
Рандомизация лечения в клинических испытаниях создает этические проблемы. В некоторых случаях рандомизация сокращает терапевтические возможности как для врача, так и для пациента, поэтому рандомизация требует клинического равновесия в отношении лечения.
Веб-сайты могут проводить рандомизированные контролируемые эксперименты [2] для создания цикла обратной связи. [3] Основные различия между офлайн-экспериментами и онлайн-экспериментами включают: [3] [4]
Ведение журнала: взаимодействие пользователей может надежно регистрироваться.
Количество пользователей: крупные сайты, такие как Amazon, Bing/Microsoft и Google, проводят эксперименты, каждый из которых насчитывает более миллиона пользователей.
Количество одновременных экспериментов: на крупных объектах проводятся десятки перекрывающихся или одновременных экспериментов. [5]
Возможность наращивать эксперименты от низких до более высоких процентов.
Скорость/производительность оказывают значительное влияние на ключевые показатели. [3] [6]
Возможность использования предэкспериментального периода в качестве теста A/A для снижения дисперсии. [7]
История
Контролируемый эксперимент, по-видимому, был предложен в Книге Даниила Ветхого Завета. Царь Навуходоносор предложил, чтобы некоторые израильтяне ели «ежедневное количество еды и вина со стола царя». Даниил предпочитал вегетарианскую диету, но чиновник был обеспокоен тем, что царь «увидит тебя выглядящим хуже других юношей твоего возраста? Тогда царь снимет мне голову из-за тебя». Затем Даниил предложил следующий контролируемый эксперимент: «Испытай твоих слуг в течение десяти дней. Давай нам только овощи в пищу и воду для питья. И сравни наш вид с видом юношей, которые едят царскую пищу, и поступай со своими слугами в соответствии с тем, что увидишь». (Даниил 1, 12–13). [8] [9]
Рандомизированные эксперименты были институционализированы в психологии и образовании в конце восемнадцатого века после изобретения рандомизированных экспериментов К. С. Пирсом . [10] [11] [12] [13]
За пределами психологии и образования рандомизированные эксперименты были популяризированы Р. А. Фишером в его книге «Статистические методы для научных работников» , в которой также были введены дополнительные принципы экспериментального проектирования.
Статистическая интерпретация
Причинно-следственная модель Рубина обеспечивает общий способ описания рандомизированного эксперимента. В то время как причинно-следственная модель Рубина обеспечивает структуру для определения причинных параметров (т. е. эффектов рандомизированного лечения на результат), анализ экспериментов может принимать ряд форм. Модель предполагает, что для каждой единицы в исследовании существует два потенциальных результата: результат, если единица получает лечение, и результат, если единица не получает лечения. Разница между этими двумя потенциальными результатами известна как эффект лечения, который является причинно-следственным эффектом лечения на результат. Чаще всего рандомизированные эксперименты анализируются с помощью ANOVA , t-критерия Стьюдента , регрессионного анализа или аналогичного статистического теста . Модель также учитывает потенциальные смешивающие факторы, которые могут повлиять как на лечение, так и на результат. Контролируя эти смешивающие факторы, модель помогает гарантировать, что любой наблюдаемый эффект лечения действительно является причинно-следственным, а не просто результатом других факторов, которые коррелируют как с лечением, так и с результатом.
Причинно-следственная модель Рубина является полезной основой для понимания того, как оценить причинно-следственный эффект лечения, даже если есть сопутствующие переменные, которые могут повлиять на результат. Эта модель определяет, что причинно-следственный эффект лечения — это разница в результатах, которые наблюдались бы для каждого человека, если бы он получил лечение и если бы он его не получил. На практике невозможно наблюдать оба потенциальных результата для одного и того же человека, поэтому для оценки причинно-следственного эффекта с использованием данных эксперимента используются статистические методы.
Эмпирические доказательства того, что рандомизация имеет значение
Эмпирически различия между рандомизированными и нерандомизированными исследованиями, [14] [ требуется обновление ] и между адекватно и неадекватно рандомизированными исследованиями было трудно обнаружить. [15] [16]
Направленный ациклический граф (DAG) объяснение рандомизации
Рандомизация является краеугольным камнем многих научных утверждений. Рандомизация означает, что мы можем устранить мешающие факторы. Допустим, мы изучаем влияние A на B. Тем не менее, существует множество ненаблюдаемых U , которые потенциально влияют на B и мешают нашей оценке вывода. Для объяснения подобных проблем статистики или эконометристы в настоящее время используют направленный ациклический граф . [ требуется обновление ]
^ Шульц КФ, Альтман ДГ, Мохер Д; для CONSORT Group (2010). «Заявление CONSORT 2010: обновленные рекомендации по отчетности о рандомизированных испытаниях в параллельных группах». BMJ . 340 : c332. doi :10.1136/bmj.c332. PMC 2844940 . PMID 20332509.{{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Кохави, Рон; Лонгботам, Роджер (2015). «Онлайн-контролируемые эксперименты и A/B-тесты» (PDF) . В Саммуте, Клоде; Уэббе, Джеффе (ред.). Энциклопедия машинного обучения и интеллектуального анализа данных . Springer. С. в печати.
^ abc Кохави, Рон; Лонгботам, Роджер; Соммерфилд, Дэн; Хенне, Рэндал М. (2009). «Контролируемые эксперименты в Интернете: обзор и практическое руководство». Data Mining and Knowledge Discovery . 18 (1): 140–181. doi : 10.1007/s10618-008-0114-1 . ISSN 1384-5810.
^ Кохави, Рон; Дэн, Алекс; Фраска, Брайан; Лонгботам, Роджер; Уокер, Тоби; Сюй Я (2012). «Надежные контролируемые онлайн-эксперименты: объяснение пяти загадочных результатов». Труды 18-й конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных .
^ Кохави, Рон; Дэн Алекс; Фраска Брайан; Уокер Тоби; Сюй Я; Нильс Полманн (2013). «Онлайн-контролируемые эксперименты в больших масштабах». Труды 19-й международной конференции ACM SIGKDD по открытию знаний и добыче данных . Том 19. Чикаго, Иллинойс, США: ACM. С. 1168–1176. doi :10.1145/2487575.2488217. ISBN9781450321747. S2CID 13224883.
^ Кохави, Рон; Дэн Алекс; Лонгботам Роджер; Сюй Я (2014). «Семь правил для экспериментаторов веб-сайтов». Труды 20-й международной конференции ACM SIGKDD по обнаружению знаний и добыче данных . Том 20. Нью-Йорк, Нью-Йорк, США: ACM. стр. 1857–1866. doi :10.1145/2623330.2623341. ISBN9781450329569. S2CID 207214362.
^ Дэн, Алекс; Сюй, Я; Кохави, Рон; Уокер, Тоби (2013). «Повышение чувствительности контролируемых онлайн-экспериментов путем использования предварительных экспериментальных данных». WSDM 2013: Шестая международная конференция ACM по веб-поиску и интеллектуальному анализу данных .
^ Нойхаузер, Д.; Диас, М. (2004). «Дэниел: использование Библии для обучения методам улучшения качества». Качество и безопасность в здравоохранении . 13 (2): 153–155. doi :10.1136/qshc.2003.009480. PMC 1743807. PMID 15069225 .
^ Энгрист, Джошуа; Пишке Йорн-Штеффен (2014). Освоение показателей: путь от причины к следствию . Princeton University Press. стр. 31.
^ Чарльз Сандерс Пирс и Джозеф Джастроу (1885). «О малых различиях в ощущениях». Мемуары Национальной академии наук . 3 : 73–83.http://psychclassics.yorku.ca/Peirce/small-diffs.htm
^ Хакинг, Ян (сентябрь 1988 г.). «Телепатия: истоки рандомизации в экспериментальном дизайне». Isis . 79 (3): 427–451. doi :10.1086/354775. JSTOR 234674. MR 1013489. S2CID 52201011.
^ Стивен М. Стиглер (ноябрь 1992 г.). «Исторический взгляд на статистические концепции в психологии и образовательных исследованиях». Американский журнал образования . 101 (1): 60–70. doi :10.1086/444032. S2CID 143685203.
^ Труди Дехью (декабрь 1997 г.). «Обман, эффективность и случайные группы: психология и постепенное возникновение случайного группового дизайна» (PDF) . Isis . 88 (4): 653–673. doi :10.1086/383850. PMID 9519574. S2CID 23526321.
^ Anglemyer A, Horvath HT, Bero L (апрель 2014 г.). «Результаты оказания медицинской помощи, оцененные с помощью наблюдательных исследований, в сравнении с результатами, оцененными в рандомизированных испытаниях». Cochrane Database Syst Rev. 2014 ( 4): MR000034. doi :10.1002/14651858.MR000034.pub2. PMC 8191367. PMID 24782322 .
^ Одгаард-Йенсен Дж., Вист Г. и др . (апрель 2011 г.). «Рандомизация для защиты от смещения отбора в испытаниях в здравоохранении». Cochrane Database Syst Rev. 2015 ( 4): MR000012. doi :10.1002/14651858.MR000012.pub3. PMC 7150228. PMID 21491415.
^ Howick J, Mebius A (2014). «В поисках оправдания парадокса непредсказуемости». Trials . 15 : 480. doi : 10.1186/1745-6215-15-480 . PMC 4295227. PMID 25490908 .
Caliński, Tadeusz & Kageyama, Sanpei (2000). Блочные конструкции: подход рандомизации, том I: Анализ . Lecture Notes in Statistics. Том 150. Нью-Йорк: Springer-Verlag. ISBN 978-0-387-98578-7.
Caliński, Tadeusz & Kageyama, Sanpei (2003). Блочные конструкции: подход рандомизации, том II: Конструкция . Конспект лекций по статистике. Том 170. Нью-Йорк: Springer-Verlag. ISBN 978-0-387-95470-7.
Хакинг, Ян (сентябрь 1988 г.). «Телепатия: истоки рандомизации в экспериментальном проектировании». Isis . 79 (3): 427–451. doi :10.1086/354775. JSTOR 234674. MR 1013489. S2CID 52201011.
Хинкельманн, Клаус; Кемпторн, Оскар (2008). Планирование и анализ экспериментов, том I: Введение в экспериментальное проектирование (второе издание). Wiley. ISBN 978-0-471-72756-9. МР 2363107.
Кемпторн, Оскар (1992). «Эксперименты по вмешательству, рандомизация и вывод». В Malay Ghosh и Pramod K. Pathak (ред.). Current Issues in Statistical Inference — Essays in Honor of D. Basu . Institute of Mathematical Statistics Lecture Notes — Monograph Series. Hayward, CA: Institute for Mathematical Statistics. стр. 13–31. doi :10.1214/lnms/1215458836. ISBN 978-0-940600-24-9. МР 1194407.