Планирование экспериментов

План экспериментов ( DOE или DOX ), также известный как план эксперимента или план эксперимента , — это план любой задачи, целью которой является описание и объяснение изменения информации в условиях, которые, как предполагается, отражают это изменение. Этот термин обычно ассоциируется с экспериментами , в которых план вводит условия, которые непосредственно влияют на вариации, но может также относиться к плану квазиэкспериментов , в которых для наблюдения выбираются естественные условия, влияющие на вариации.

В своей простейшей форме эксперимент направлен на предсказание результата путем внесения изменения в предварительные условия, которые представлены одной или несколькими независимыми переменными , также называемыми «входными переменными» или «переменными-предикторами». Обычно предполагается, что изменение одной или нескольких независимых переменных приведет к изменению одной или нескольких зависимых переменных , также называемых «выходными переменными» или «переменными отклика». В плане эксперимента можно также определить контрольные переменные , которые необходимо поддерживать постоянными, чтобы внешние факторы не влияли на результаты. Планирование эксперимента включает не только выбор подходящих независимых, зависимых и контрольных переменных, но и планирование проведения эксперимента в статистически оптимальных условиях с учетом ограничений доступных ресурсов. Существует несколько подходов к определению набора расчетных точек (уникальных комбинаций настроек независимых переменных), которые будут использоваться в эксперименте.

Основные проблемы при планировании экспериментов включают установление достоверности , надежности и воспроизводимости . Например, эти проблемы можно частично решить, тщательно выбрав независимую переменную, уменьшив риск ошибки измерения и обеспечив достаточно подробную документацию метода. Связанные с этим проблемы включают достижение соответствующего уровня статистической мощности и чувствительности .

Правильно спланированные эксперименты расширяют знания в области естественных, социальных наук и техники, а методология разработки экспериментов признана ключевым инструментом в успешной реализации структуры « Качество через дизайн» (QbD). ^[1] Другие приложения включают маркетинг и разработку политики. Изучение планирования экспериментов является важной темой метанауки .

История

Статистические эксперименты по Чарльзу С. Пирсу

Теория статистического вывода была развита Чарльзом С. Пирсом в « Иллюстрациях логики науки » (1877–1878) ^[2] и « Теории вероятного вывода » (1883) ^[3] , двух публикациях, в которых подчеркивалась важность выводов на основе рандомизации в статистике. ^[4]

Рандомизированные эксперименты

Чарльз С. Пирс случайным образом распределил добровольцев на слепое исследование с повторными измерениями , чтобы оценить их способность различать вес. ^[5]^[6]^[7]^[8] Эксперимент Пирса вдохновил других исследователей в области психологии и образования, которые в 1800-х годах развили исследовательскую традицию рандомизированных экспериментов в лабораториях и специализированных учебниках. ^[5]^[6]^[7]^[8]

Оптимальные планы для регрессионных моделей

Чарльз С. Пирс также опубликовал первую англоязычную публикацию об оптимальном планировании регрессионных моделей в 1876 году. [ 9 ^] Новаторский оптимальный план полиномиальной регрессии был предложен Жергонном в 1815 году. В 1918 году Кирстин Смит опубликовала оптимальные планы для полиномов шестая степень (и меньше). ^[10]^[11]

Последовательность экспериментов

Использование последовательности экспериментов, где план каждого из них может зависеть от результатов предыдущих экспериментов, включая возможное решение о прекращении экспериментов, находится в рамках последовательного анализа , области, которая была впервые открыта ^[12] Абрахамом Вальдом в в контексте последовательных проверок статистических гипотез. ^[13] Герман Чернофф написал обзор оптимальных последовательных проектов, ^[14] в то время как адаптивные проекты были рассмотрены С. Заксом. ^[15] Одним из конкретных типов последовательного дизайна является «двурукий бандит», обобщенный до многорукого бандита , ранняя работа над которым была проведена Гербертом Роббинсом в 1952 году. ^[16]

Принципы Фишера

Методику планирования экспериментов предложил Рональд Фишер в своих новаторских книгах: «Планирование полевых экспериментов» (1926) и «План экспериментов» (1935). Большая часть его новаторской работы была связана с применением статистических методов в сельском хозяйстве. В качестве обыденного примера он описал, как проверить гипотезу о том, что женщина пробует чай : некая женщина могла отличить только по вкусу, было ли сначала помещено в чашку молоко или чай. Эти методы нашли широкое применение в биологических, психологических и сельскохозяйственных исследованиях. ^[17]

Сравнение: В некоторых областях исследований невозможно провести независимые измерения в соответствии с прослеживаемым метрологическим стандартом . Сравнение методов лечения гораздо более ценно и обычно предпочтительнее, и часто сравнивается с научным контролем или традиционным лечением, которое действует в качестве базового уровня.

Рандомизация: Случайное распределение — это процесс случайного распределения людей по группам или разным группам в эксперименте, так что каждый человек из популяции имеет одинаковые шансы стать участником исследования. Случайное распределение людей по группам (или условиям внутри группы) отличает строгий «настоящий» эксперимент от наблюдательного исследования или «квазиэксперимента». ^[18] Существует обширная математическая теория, которая исследует последствия распределения единиц лечения с помощью некоторого случайного механизма (например, таблиц случайных чисел или использования устройств рандомизации, таких как игральные карты или игральные кости). . Случайное назначение единиц лечения имеет тенденцию смягчать смешивание , в результате чего эффекты, вызванные факторами, отличными от лечения, кажутся результатом лечения.

Риски, связанные со случайным распределением (например, серьезный дисбаланс ключевой характеристики между экспериментальной и контрольной группой), поддаются расчету и, следовательно, могут быть снижены до приемлемого уровня путем использования достаточного количества экспериментальных единиц. Однако если популяция разделена на несколько субпопуляций, которые каким-то образом различаются, и исследование требует, чтобы каждая субпопуляция была одинаковой по размеру, можно использовать стратифицированную выборку. Таким образом, рандомизируются единицы в каждой субпопуляции, а не вся выборка. Результаты эксперимента можно надежно обобщить с экспериментальных единиц на более крупную статистическую совокупность единиц только в том случае, если экспериментальные единицы представляют собой случайную выборку из более крупной совокупности; вероятная ошибка такой экстраполяции зависит, среди прочего, от размера выборки.

Статистическая репликация: Измерения обычно подвержены изменениям и неопределенности измерений ; таким образом, они повторяются и воспроизводятся полные эксперименты, чтобы помочь выявить источники вариаций, лучше оценить истинные эффекты лечения, еще больше повысить надежность и достоверность эксперимента, а также расширить существующие знания по этой теме. ^[19] Однако перед началом повторения эксперимента должны быть выполнены определенные условия: исходный вопрос исследования был опубликован в рецензируемом журнале или широко цитировался, исследователь независим от исходного эксперимента, исследователь должен сначала попробовать воспроизвести первоначальные результаты с использованием исходных данных, и в описании должно быть указано, что проведенное исследование является повторным исследованием, в котором пытались максимально строго следовать оригинальному исследованию. ^[20]

Блокировка: Блокировка (справа)
Блокирование – это неслучайное расположение экспериментальных единиц в группы (блоки), состоящие из единиц, сходных друг с другом. Блокирование уменьшает количество известных, но нерелевантных источников вариаций между единицами и, таким образом, позволяет более точно оценить источник исследуемой вариации.




Ортогональность

Ортогональность касается форм сравнения (контрасты), которые могут быть законно и эффективно проведены. Контрасты могут быть представлены векторами, а наборы ортогональных контрастов некоррелированы и независимо распределены, если данные нормальные. Из-за этой независимости каждое ортогональное лечение предоставляет различную информацию другим. Если есть T- обработки и ортогональные контрасты T -1, вся информация, которую можно получить в ходе эксперимента, можно получить из набора контрастов.

Многофакторные эксперименты: Использование многофакторных экспериментов вместо однофакторного метода. Они эффективны при оценке эффектов и возможных взаимодействий нескольких факторов (независимых переменных). Анализ планирования эксперимента построен на основе дисперсионного анализа — набора моделей, которые разделяют наблюдаемую дисперсию на компоненты в зависимости от того, какие факторы эксперимент должен оценить или проверить.

Пример

Этот пример дизайнерских экспериментов приписывается Гарольду Хотеллингу , основанному на примерах Фрэнка Йейтса . ^[21]^[22]^[14] Эксперименты, разработанные в этом примере, включают в себя комбинаторные планы . ^[23]

Вес восьми предметов измеряется с помощью чашечных весов и набора эталонных гирь. При каждом взвешивании измеряется разница в весе между объектами в левой чашке и любыми объектами в правой чашке путем добавления калиброванных гирь к более легкой чашке до тех пор, пока весы не придут в равновесие. Каждое измерение имеет случайную погрешность . Средняя ошибка равна нулю; стандартные отклонения распределения вероятностей ошибок - одно и то же число σ при разных взвешиваниях; ошибки при разных взвешиваниях независимы . Обозначим истинные веса через

\theta _{1},\dots,\theta _{8}.\,

Мы рассмотрим два разных эксперимента:

Взвесьте каждый предмет на одной чашке, оставив другую пустой. Пусть X _i будет измеренным весом объекта для i = 1,..., 8.
Выполните восемь взвешиваний в соответствии со следующим графиком — матрицей взвешивания :

{\begin{array}{lcc}&{\text{левая панорама}} & {\text{правая панорама}}\\\hline {\text{1st взвешивание:}}&1\ 2\ 3\ 4 \ 5\ 6\ 7\ 8&{\text{(пусто)}}\\{\text{2nd:}}&1\ 2\ 3\ 8\ &4\ 5\ 6\ 7\\{\text{3rd: }}&1\ 4\ 5\ 8\ &2\ 3\ 6\ 7\\{\text{4th:}}&1\ 6\ 7\ 8\ &2\ 3\ 4\ 5\\{\text{5th: }}&2\ 4\ 6\ 8\ &1\ 3\ 5\ 7\\{\text{6th:}}&2\ 5\ 7\ 8\ &1\ 3\ 4\ 6\\{\text{7th: }}&3\ 4\ 7\ 8\ &1\ 2\ 5\ 6\\{\text{8th:}}&3\ 5\ 6\ 8\ &1\ 2\ 4\ 7\end{array}}

Пусть Y _i — измеренная разность для i = 1,..., 8. Тогда оценочное значение веса θ ₁ равно

{\widehat {\theta }}_{1}={\frac {Y_{1}+Y_{2}+Y_{3}+Y_{4}-Y_{5}-Y_{6}- Y_{7}-Y_{8}}{8}}.

Аналогичные оценки можно найти и для веса других предметов:

{\begin{aligned}{\widehat {\theta }}_{2}&={\frac {Y_{1}+Y_{2}-Y_{3}-Y_{4}+Y_{5}+Y_{6}-Y_{7}-Y_{8}}{8}}.\\[5pt]{\widehat {\theta }}_{3}&={\frac {Y_{1}+Y_{2}-Y_{3}-Y_{4}-Y_{5}-Y_{6}+Y_{7}+Y_{8}}{8}}.\\[5pt]{\widehat {\theta }}_{4}&={\frac {Y_{1}-Y_{2}+Y_{3}-Y_{4}+Y_{5}-Y_{6}+Y_{7}-Y_{8}}{8}}.\\[5pt]{\widehat {\theta }}_{5}&={\frac {Y_{1}-Y_{2}+Y_{3}-Y_{4}-Y_{5}+Y_{6}-Y_{7}+Y_{8}}{8}}.\\[5pt]{\widehat {\theta }}_{6}&={\frac {Y_{1}-Y_{2}-Y_{3}+Y_{4}+Y_{5}-Y_{6}-Y_{7}+Y_{8}}{8}}.\\[5pt]{\widehat {\theta }}_{7}&={\frac {Y_{1}-Y_{2}-Y_{3}+Y_{4}-Y_{5}+Y_{6}+Y_{7}-Y_{8}}{8}}.\\[5pt]{\widehat {\theta }}_{8}&={\frac {Y_{1}+Y_{2}+Y_{3}+Y_{4}+Y_{5}+Y_{6}+Y_{7}+Y_{8}}{8}}.\end{aligned}}

Вопрос планирования эксперимента заключается в следующем: какой эксперимент лучше?

Дисперсия оценки X ₁ θ ₁ равна σ ², если мы используем первый эксперимент. Но если воспользоваться вторым экспериментом, то дисперсия приведенной выше оценки составит σ ² /8. Таким образом, второй эксперимент дает нам в 8 раз большую точность оценки одного элемента и оценивает все элементы одновременно с одинаковой точностью. То, что достигается во втором эксперименте с восемью предметами, потребует 64 взвешиваний, если предметы взвешиваются отдельно. Однако обратите внимание, что оценки предметов, полученные во втором эксперименте, имеют ошибки, коррелирующие друг с другом.

Многие проблемы планирования экспериментов связаны с комбинаторными планами , как в этом примере и других. ^[23]

Как избежать ложных срабатываний

Ложноположительные выводы, часто возникающие в результате давления с целью публикации или предвзятости автора в подтверждении , представляют собой неотъемлемую опасность во многих областях. ^[24]

Использование двойного слепого дизайна может предотвратить систематические ошибки , которые могут привести к ложноположительным результатам на этапе сбора данных . При использовании двойного слепого метода участников случайным образом распределяют по экспериментальным группам, но исследователь не знает, какие участники к какой группе принадлежат. Следовательно, исследователь не может повлиять на реакцию участников на вмешательство. ^[25]

Экспериментальные проекты с нераскрытыми степенями свободы ^{[ жаргон ]} представляют собой проблему, ^[26] поскольку они могут привести к сознательному или бессознательному « п-хакингу »: попыткам выполнения нескольких задач до тех пор, пока не будет получен желаемый результат. Обычно это включает в себя манипулирование – возможно, неосознанное – процессом статистического анализа и степенями свободы до тех пор, пока они не дадут цифру ниже уровня статистической значимости p<0,05 . ^[27]^[28]

P-хакинг можно предотвратить путем предварительной регистрации исследований, при которой исследователи должны отправить свой план анализа данных в журнал, в котором они хотят опубликовать свою статью, еще до того, как они начнут сбор данных, поэтому никакие манипуляции с данными невозможны. ^[29]^[30]

Другой способ предотвратить это — использовать двойной слепой дизайн на этапе анализа данных, сделав исследование тройным слепым, когда данные отправляются аналитику данных, не имеющему отношения к исследованию, который шифрует данные, чтобы не было возможности чтобы знать, к каким участникам принадлежат, прежде чем они потенциально будут исключены как выбросы. ^[25]

Четкая и полная документация экспериментальной методологии также важна для поддержки воспроизведения результатов . ^[31]

Темы для обсуждения при постановке экспериментальной конструкции

План эксперимента или рандомизированное клиническое исследование требует тщательного рассмотрения нескольких факторов перед фактическим проведением эксперимента. ^[32] План эксперимента – это составление подробного плана эксперимента перед его проведением. Некоторые из следующих тем уже обсуждались в разделе «Принципы планирования эксперимента»:

Сколько факторов имеет проект, и являются ли уровни этих факторов фиксированными или случайными?
Нужны ли условия контроля и какими они должны быть?
Проверка манипуляции: действительно ли манипуляция сработала?
Каковы фоновые переменные?
Каков размер выборки? Сколько единиц необходимо собрать, чтобы эксперимент был обобщаемым и имел достаточную мощность ?
Какова значимость взаимодействия между факторами?
Каково влияние отсроченных эффектов существенных факторов на результаты?
Как изменения в ответах влияют на показатели самоотчета?
Насколько осуществимо повторное использование одних и тех же измерительных приборов в одних и тех же учреждениях в разное время с проведением послетестовых и последующих тестов?
А как насчет использования предварительного тестирования прокси?
Есть ли скрытые переменные ?
Должен ли клиент/пациент, исследователь или даже аналитик данных быть слеп к условиям?
Какова целесообразность последующего применения разных условий к одним и тем же единицам?
Сколько факторов управления и шума следует учитывать?

Независимая переменная исследования часто имеет много уровней или разные группы. В настоящем эксперименте исследователи могут иметь экспериментальную группу, в которой реализуется их интервенционная проверка гипотезы, и контрольную группу, которая имеет все те же элементы, что и экспериментальная группа, но без интервенционного элемента. Таким образом, если все остальное, за исключением одного вмешательства, остается неизменным, исследователи могут с некоторой уверенностью подтвердить, что именно этот элемент и вызвал наблюдаемое изменение. В некоторых случаях наличие контрольной группы неэтично. Иногда эту проблему решают с использованием двух разных экспериментальных групп. В некоторых случаях независимыми переменными невозможно манипулировать, например, при проверке разницы между двумя группами, страдающими разными заболеваниями, или при проверке разницы между полами (очевидно, это переменные, к которым было бы сложно или неэтично отнести участников). В таких случаях можно использовать квазиэкспериментальный план.

Причинно-следственные связи

В чистом плане эксперимента исследователь манипулирует независимой (прогностической) переменной, то есть каждый участник исследования выбирается случайным образом из совокупности, и каждому выбранному участнику случайным образом назначаются условия независимой переменной. Только когда это будет сделано, можно с высокой вероятностью подтвердить, что причина различий в результирующих переменных вызвана разными условиями. Поэтому исследователям следует, когда это возможно, отдавать предпочтение экспериментальному плану перед другими типами планов. Однако природа независимой переменной не всегда позволяет манипулировать ею. В таких случаях исследователи должны помнить о том, что нельзя подтверждать причинную атрибуцию, если ее конструкция не позволяет этого. Например, в планах наблюдения участники не распределяются по условиям случайным образом, и поэтому, если есть различия, обнаруженные в переменных результата между условиями, вполне вероятно, что существует что-то иное, чем различия между условиями, что вызывает различия в результатах, что is – третья переменная. То же самое касается исследований с корреляционным дизайном (Adér & Mellenbergh, 2008).

Статистический контроль

Лучше всего, чтобы процесс находился под разумным статистическим контролем до проведения запланированных экспериментов. Когда это невозможно, правильное блокирование, репликация и рандомизация позволяют тщательно провести запланированные эксперименты. ^[33] Чтобы контролировать неприятные переменные, исследователи в качестве дополнительных мер вводят контрольные проверки . Исследователи должны гарантировать, что неконтролируемые воздействия (например, восприятие достоверности источника) не искажают результаты исследования. Проверка манипуляции является одним из примеров контрольной проверки. Проверки манипулирования позволяют исследователям изолировать основные переменные, чтобы усилить подтверждение того, что эти переменные работают по плану.

Одним из наиболее важных требований к планированию экспериментальных исследований является необходимость устранения влияния ложных , промежуточных и предшествующих переменных . В самой базовой модели причина (X) приводит к следствию (Y). Но может быть третья переменная (Z), которая влияет на (Y), а X может вообще не быть истинной причиной. Говорят, что Z является ложной переменной и ее необходимо контролировать. То же самое верно для промежуточных переменных (переменная между предполагаемой причиной (X) и следствием (Y)), а также предшествующих переменных (переменная, предшествующая предполагаемой причине (X), которая является истинной причиной). Когда задействована третья переменная, но она не контролируется, отношение называется отношением нулевого порядка. В большинстве практических применений экспериментальных исследований существует несколько причин (X1, X2, X3). В большинстве проектов одновременно манипулируют только одной из этих причин.

Экспериментальные разработки по Фишеру

Некоторые эффективные схемы оценки нескольких основных эффектов были независимо друг от друга и практически последовательно найдены Раджем Чандрой Босом и К. Кишеном в 1940 году в Индийском статистическом институте , но оставались малоизвестными до тех пор, пока схемы Плакетта-Бермана не были опубликованы в журнале «Биометрика» в 1946 году. В то же время Ч.Р. Рао представил концепцию ортогональных массивов в качестве экспериментального проекта. Эта концепция сыграла центральную роль в разработке методов Тагучи Геничи Тагучи , которая произошла во время его визита в Индийский статистический институт в начале 1950-х годов. Его методы были успешно применены и приняты промышленными предприятиями Японии и Индии, а впоследствии, хотя и с некоторыми оговорками, были приняты промышленностью США.

В 1950 году Гертруда Мэри Кокс и Уильям Джеммел Кокран опубликовали книгу «Экспериментальные планы», которая на долгие годы стала основным справочником по планированию экспериментов для статистиков.

Развитие теории линейных моделей охватило и превзошло те случаи, которые касались ранних авторов. Сегодня теория опирается на продвинутые темы линейной алгебры , алгебры и комбинаторики .

Как и в других областях статистики, при планировании эксперимента используются как частотный, так и байесовский подходы: при оценке статистических процедур, таких как планы экспериментов, частотная статистика изучает распределение выборки , в то время как байесовская статистика обновляет распределение вероятностей в пространстве параметров.

Некоторыми важными специалистами в области экспериментальных планов являются К.С. Пирс , Р.А. Фишер , Ф. Йейтс , Р.К. Бозе , А.С. Аткинсон , Р.А. Бэйли , Д.Р. Кокс , Дж.П. Бокс , У.Г. Кокран , У.Т. Федерер, В.В. Федоров, А.С. Хедаят, Дж. Кифер. , О. Кемпторн , Дж. А. Нелдер , Андрей Пазман, Фридрих Пукельсхайм, Д. Рагхаварао , Ч.Р. Рао , Шриханде С.С. , Дж. Н. Шривастава , Уильям Дж. Стадден, Г. Тагучи и Х. П. Винн. ^[34]

Учебники Д. Монтгомери, Р. Майерса и Г. Бокса/У. Hunter/JS Hunter охватили несколько поколений студентов и практиков.^[35]^[36]^[37]^[38]^[39]

Некоторое обсуждение планирования эксперимента в контексте идентификации системы (построение статических или динамических моделей) приведено в ^[40] и. ^[41]

Ограничения участия человека

Законы и этические соображения исключают проведение некоторых тщательно спланированных экспериментов на людях. Правовые ограничения зависят от юрисдикции . Ограничения могут включать институциональные наблюдательные комиссии , информированное согласие и конфиденциальность , затрагивающие как клинические (медицинские) испытания, так и поведенческие и социальные эксперименты. ^[42] Например, в области токсикологии эксперименты проводятся на лабораторных животных с целью определения безопасных пределов воздействия для человека . ^[43] Уравновешивающими ограничениями являются взгляды из области медицины. ^[44] Что касается рандомизации пациентов, «...если никто не знает, какая терапия лучше, нет этического императива использовать ту или иную терапию». (стр. 380) Что касается планирования эксперимента, «... явно неэтично подвергать испытуемых риску сбора данных в плохо спланированном исследовании, когда этой ситуации можно легко избежать...». (с. 393)

Смотрите также

Внешние ссылки

Викискладе есть медиафайлы по теме «Планирование экспериментов» .

Глава из «Справочника NIST/SEMATECH по инженерной статистике» в NIST.
Проекты Бокса-Бенкена взяты из «Справочника NIST/SEMATECH по инженерной статистике» NIST .
Подробные математические разработки наиболее распространенных DoE в онлайн-справке Opera Magistris v3.6, глава 15, раздел 7.4, ISBN 978-2-8399-0932-7 .