stringtranslate.com

Блокировка (статистика)

В статистической теории проектирования экспериментов блокировка — это организация экспериментальных единиц , которые похожи друг на друга, в группы (блоки) на основе одной или нескольких переменных. Эти переменные тщательно выбираются, чтобы минимизировать влияние их изменчивости на наблюдаемые результаты. Существуют различные способы реализации блокировки, приводящие к различным эффектам смешения. Однако различные методы имеют одну и ту же цель: контролировать изменчивость, вносимую конкретными факторами, которые могут повлиять на результат эксперимента. Корни блокировки берут начало от статистика Рональда Фишера после его разработки ANOVA . [1]

История

Использование блокировки в экспериментальном дизайне имеет развивающуюся историю, которая охватывает несколько дисциплин. Основополагающие концепции блокировки восходят к началу 20-го века с такими статистиками, как Рональд А. Фишер . Его работа по разработке дисперсионного анализа (ANOVA) заложила основу для группировки экспериментальных единиц для контроля посторонних переменных. Блокировка развивалась на протяжении многих лет, что привело к формализации рандомизированных блочных схем и схем латинских квадратов . [1] Сегодня блокировка по-прежнему играет ключевую роль в экспериментальном дизайне, и в последние годы достижения в области статистического программного обеспечения и вычислительных возможностей позволили исследователям исследовать более сложные блочные схемы.

Использовать

Блокировка уменьшает необъяснимую изменчивость. Ее принцип заключается в том, что изменчивость, которую невозможно преодолеть (например, необходимость двух партий сырья для производства 1 контейнера химиката), смешивается или накладывается на взаимодействие (n) (высшего/самого высокого порядка), чтобы исключить его влияние на конечный продукт. [2] Взаимодействия высокого порядка обычно имеют наименьшее значение (подумайте о том факте, что температура реактора или партии сырья важнее, чем их комбинация — это особенно верно, когда присутствует больше (3, 4, ...) факторов); таким образом, предпочтительнее смешивать эту изменчивость с более высоким взаимодействием. [2]

Примеры

Мешающие переменные

Влияние мешающей переменной на ответную переменную
Влияние мешающей переменной (пол) на ответную переменную (потерю веса)

В приведенных выше примерах мешающая переменная — это переменная, которая не является основным объектом исследования, но может повлиять на результаты эксперимента. [3] Они считаются потенциальными источниками изменчивости, которые, если их не контролировать или не учитывать, могут затруднить интерпретацию между независимыми и зависимыми переменными .

Для решения проблемы мешающих переменных исследователи могут использовать различные методы, такие как блокировка или рандомизация. Блокировка подразумевает группировку экспериментальных единиц на основе уровней мешающей переменной для контроля ее влияния. Рандомизация помогает равномерно распределить эффекты мешающих переменных по группам лечения.

Используя один из этих методов для учета мешающих переменных, исследователи могут повысить внутреннюю достоверность своих экспериментов, гарантируя, что наблюдаемые эффекты с большей вероятностью можно отнести к управляемым переменным, а не к внешним влияниям.

В первом примере, приведенном выше, пол пациента будет мешающей переменной. Например, рассмотрим случай, если бы препарат был диетической таблеткой, и исследователи хотели бы проверить влияние диетических таблеток на потерю веса. Объясняющей переменной является диетическая таблетка, а переменной отклика — количество потерянного веса. Хотя пол пациента не является основным фокусом эксперимента (главным является эффект препарата), возможно, что пол человека повлияет на количество потерянного веса.

Блокировка используется для факторов помех, которые можно контролировать

В статистической теории планирования экспериментов блокирование — это организация экспериментальных единиц в группы (блоки), которые похожи друг на друга. Обычно блокирующий фактор — это источник изменчивости , который не представляет первостепенного интереса для экспериментатора. [3] [4]

Экспериментальный дизайн без блокировки (слева) и с блокировкой (справа)

При изучении теории вероятностей метод блоков заключается в разбиении выборки на блоки (группы), разделенные более мелкими подблоками, так что блоки можно считать почти независимыми. [5] Метод блоков помогает доказывать предельные теоремы в случае зависимых случайных величин.

Метод блоков был введен С. Бернштейном : [6] Метод успешно применялся в теории сумм зависимых случайных величин и в теории экстремальных значений . [7] [8] [9]

Пример

Без блокировки: диетические таблетки против плацебо для снижения веса

В нашем предыдущем примере с диетическими таблетками блокирующим фактором мог быть пол пациента. Мы могли бы поместить людей в один из двух блоков (мужчины или женщины). И внутри каждого из двух блоков мы можем случайным образом назначить пациентам либо диетическую таблетку (лечение), либо плацебо (контроль). Блокируя по полу, этот источник изменчивости контролируется, следовательно, приводя к лучшей интерпретации того, как диетические таблетки влияют на потерю веса.

С блокировкой: диетические таблетки против плацебо для снижения веса

Определение блокирующих факторов

Мешающий фактор используется в качестве блокирующего фактора, если каждый уровень основного фактора встречается одинаковое количество раз с каждым уровнем мешающего фактора. [3] Анализ эксперимента будет сосредоточен на влиянии различных уровней основного фактора в каждом блоке эксперимента.

Заблокируйте несколько наиболее важных мешающих факторов

Общее правило таково:

«Блокируйте то, что можете; рандомизируйте то, что не можете». [3]

Блокировка используется для удаления эффектов нескольких наиболее важных мешающих переменных. Затем рандомизация используется для уменьшения загрязняющих эффектов оставшихся мешающих переменных. Для важных мешающих переменных блокировка даст более высокую значимость в переменных, представляющих интерес, чем рандомизация. [10]

Выполнение

Внедрение блокировки в экспериментальный дизайн включает ряд шагов для эффективного контроля посторонних переменных и повышения точности оценок эффекта лечения.

Определить мешающие переменные

Определите потенциальные факторы, которые не являются основным предметом исследования, но могут внести изменчивость.

Выберите соответствующие факторы блокировки

Тщательно выбирайте блокирующие факторы, основываясь на их значимости для исследования, а также на их способности искажать основные интересующие факторы. [11]

Определить размеры блоков

Разделение эксперимента определенного размера на определенное количество блоков имеет свои последствия, поскольку количество блоков определяет количество смешанных эффектов. [12]

Назначить лечение блокам

Вы можете выбрать случайное назначение экспериментальных единиц условиям лечения в пределах каждого блока, что может помочь гарантировать, что любая неучтенная изменчивость будет равномерно распределена по группам лечения. Однако в зависимости от того, как вы назначаете лечение блокам, вы можете получить разное количество смешанных эффектов. [4] Таким образом, можно выбрать количество, а также то, какие именно эффекты будут смешанными, что означает, что назначение лечения блокам лучше случайного назначения . [4]

Репликация

При использовании разных дизайнов для каждой репликации , где каждый раз смешивается разный эффект, эффекты взаимодействия частично смешиваются, а не полностью жертвуют одним-единственным эффектом. [4] Повторение повышает надежность результатов и позволяет проводить более надежную оценку эффектов лечения. [12]

Пример

Стол

Один из полезных способов взглянуть на рандомизированный блочный эксперимент — это рассматривать его как совокупность полностью рандомизированных экспериментов, каждый из которых проводится в рамках одного из блоков общего эксперимента. [3]

с

L 1 = количество уровней (настроек) фактора 1
L 2 = количество уровней (настроек) фактора 2
L 3 = количество уровней (настроек) фактора 3
L 4 = количество уровней (настроек) фактора 4
L k = количество уровней (настроек) фактора k

Пример

Предположим, инженеры на предприятии по производству полупроводников хотят проверить, оказывают ли различные дозировки материала имплантата пластины существенное влияние на измерения сопротивления после процесса диффузии, происходящего в печи. У них есть четыре различные дозировки, которые они хотят попробовать, и достаточно экспериментальных пластин из одной партии, чтобы запустить три пластины при каждой дозировке.

Фактором, который их беспокоит, является «ход печи», поскольку известно, что каждый ход печи отличается от предыдущего и влияет на многие параметры процесса.

Идеальным способом проведения этого эксперимента было бы запустить все 4x3=12 пластин в одном и том же цикле печи. Это полностью исключило бы фактор мешающей печи. Однако обычные производственные пластины имеют приоритет печи, и только несколько экспериментальных пластин допускаются в любой цикл печи одновременно.

Неблокированный способ проведения этого эксперимента — запустить каждую из двенадцати экспериментальных пластин в случайном порядке, по одной на запуск печи. Это увеличит экспериментальную погрешность каждого измерения сопротивления из-за изменчивости печи от запуска к запуску и затруднит изучение эффектов различных дозировок. Блокированный способ проведения этого эксперимента, предполагая, что вы можете убедить производство разрешить вам поместить четыре экспериментальные пластины в запуск печи, — поместить четыре пластины с различными дозировками в каждый из трех запусков печи. Единственной рандомизацией будет выбор того, какая из трех пластин с дозировкой 1 пойдет в запуск печи 1, и аналогично для пластин с дозировками 2, 3 и 4.

Описание эксперимента

Пусть X 1 будет "уровнем" дозировки, а X 2 будет фактором блокировки печи. Тогда эксперимент можно описать следующим образом:

k = 2 фактора (1 первичный фактор X 1 и 1 блокирующий фактор X 2 )
L 1 = 4 уровня фактора X 1
L 2 = 3 уровня фактора X 2
n = 1 репликация на клетку
N = L 1 * L 2 = 4 * 3 = 12 запусков

До рандомизации дизайн испытаний выглядит следующим образом:

Матричное представление

Альтернативным способом обобщения испытаний дизайна было бы использование матрицы 4x3, 4 строки которой являются уровнями лечения X 1 , а столбцы — 3 уровнями блокирующей переменной X 2 . Ячейки в матрице имеют индексы, которые соответствуют комбинациям X 1 , X 2 выше.

В более широком смысле следует отметить, что испытания для любой рандомизированной блочной конструкции с K-фактором представляют собой просто индексы ячеек k- мерной матрицы.

Модель

Модель для рандомизированного блочного дизайна с одной мешающей переменной:

где

Y ij — это любое наблюдение, для которого X 1 = i и X 2 = j
X 1 — первичный фактор
X 2 — коэффициент блокировки
μ — общий параметр местоположения (т.е. среднее значение)
T i — эффект от нахождения на лечении i (фактора X 1 )
B j — эффект нахождения в блоке j (фактора X 2 )

Оценки

Оценка для μ  : = среднее значение всех данных
Оценка для T i  : где = среднее значение всех Y , для которых X 1 = i .
Оценка для B j  : где = среднее значение всех Y , для которых X 2 = j .

Обобщения

Смотрите также

Ссылки

  1. ^ ab Box, Joan Fisher (1980). "RA Fisher и планирование экспериментов, 1922-1926". The American Statistician . 34 (1): 1–7. doi :10.2307/2682986. ISSN  0003-1305. JSTOR  2682986.
  2. ^ ab "5.3.3.3.3. Блокировка полных факторных планов". www.itl.nist.gov . Получено 2023-12-11 .
  3. ^ abcde "5.3.3.2. Рандомизированные блочные конструкции". www.itl.nist.gov . Получено 2023-12-11 .
  4. ^ abcd Бергер, Пол Д.; Маурер, Роберт Э.; Челли, Джована Б. (2018). Экспериментальный дизайн. дои : 10.1007/978-3-319-64583-4. ISBN 978-3-319-64582-7.
  5. ^ «Рандомизированный блочный дизайн», Краткая энциклопедия статистики , Нью-Йорк, штат Нью-Йорк: Springer, 2008, стр. 447–448, doi :10.1007/978-0-387-32833-1_344, ISBN 978-0-387-32833-1, получено 2023-12-11
  6. ^ Бернштейн С.Н. (1926) Sur l'extension du theorème limite du Calcules des probilités aux sommes de quantités dependantes. Математика. Аннален, т. 97, 1–59.
  7. ^ Ибрагимов И.А. и Линник Ю.В. (1971) Независимые и стационарные последовательности случайных величин. Вольтерс-Нордхофф, Гронинген.
  8. ^ Лидбеттер М. Р., Линдгрен Г. и Рутцен Х. (1983) Экстремумы и связанные с ними свойства случайных последовательностей и процессов. Нью-Йорк: Springer Verlag.
  9. ^ Новак SY (2011) Методы экстремальной стоимости и их применение в финансах. Chapman & Hall/CRC Press, Лондон.
  10. ^ Кармакар, Бикрам (2022). «Алгоритм приближения для блокировки экспериментального плана». Журнал Королевского статистического общества, серия B. 84 ( 5): 1726–1750. doi : 10.1111/rssb.12545 . MR  4515556.
  11. ^ Pashley, Nicole E.; Miratrics, Luke W. (7 июля 2021 г.). «Блокируйте то, что можете, кроме случаев, когда этого делать не следует». Журнал образовательной и поведенческой статистики . 47 (1): 69–100. arXiv : 2010.14078 . doi : 10.3102/10769986211027240. ISSN  1076-9986.
  12. ^ ab Ledolter, Johannes; Kardon, Randy H. (2020-07-09). «Focus on Data: Statistical Design of Experiments and Sample Size Selection Using Power Analysis». Investigative Ophthalmology & Visual Science . 61 (8): 11. doi :10.1167/iovs.61.8.11. ISSN  0146-0404. PMC 7425741. PMID 32645134  . 

Библиография