Псевдорепликация (иногда единица ошибки анализа [1] ) имеет много определений. Псевдорепликация была первоначально определена в 1984 году Стюартом Х. Херлбертом [2] как использование выводной статистики для проверки эффектов обработки с данными экспериментов, где либо обработки не реплицируются (хотя образцы могут быть), либо реплики не являются статистически независимыми. Впоследствии Миллар и Андерсон [3] определили ее как особый случай неадекватной спецификации случайных факторов, где присутствуют как случайные, так и фиксированные факторы. Иногда ее узко интерпретируют как раздувание числа образцов или реплик, которые не являются статистически независимыми. [4] Это определение не учитывает смешение эффектов единицы и обработки в неправильно указанном F-коэффициенте . На практике неправильные F-коэффициенты для статистических тестов фиксированных эффектов часто возникают из-за F-коэффициента по умолчанию, который формируется на основе ошибки, а не смешанного члена.
Лазич [5] определил псевдорепликацию как проблему коррелированных выборок (например, из продольных исследований ), где корреляция не учитывается при вычислении доверительного интервала для выборочного среднего. Для эффекта последовательной или временной корреляции см. также центральную предельную теорему цепи Маркова .
Проблема неадекватной спецификации возникает, когда обработки назначаются единицам, которые подвыборочно отобраны, и отношение F обработки в таблице дисперсионного анализа ( ANOVA ) формируется относительно остаточного среднего квадрата, а не относительно среднего квадрата среди единиц. Отношение F относительно среднего квадрата внутри единицы уязвимо для смешивания эффектов обработки и единицы, особенно когда число экспериментальных единиц невелико (например, четыре единицы резервуара, два обработанных резервуара, два необработанных резервуара, несколько подвыборок на резервуар). Проблема устраняется путем формирования отношения F относительно правильного среднего квадрата в таблице ANOVA (резервуар по обработке MS в примере выше), где это возможно. Проблема решается путем использования смешанных моделей. [3]
Херлберт сообщил о «псевдорепликации» в 48% изученных им исследований, в которых использовалась выведенная статистика. [2] Несколько исследований, изучающих научные статьи, опубликованные до 2016 года, также обнаружили, что около половины статей подозревались в псевдорепликации. [4] Когда время и ресурсы ограничивают количество экспериментальных единиц , а эффекты единиц не могут быть устранены статистически путем тестирования по дисперсии единиц, важно использовать другие источники информации, чтобы оценить степень, в которой F-коэффициент искажается эффектами единиц.
Репликация
Репликация повышает точность оценки, в то время как рандомизация решает более широкую применимость образца к популяции. Репликация должна быть уместной: необходимо рассмотреть репликацию на уровне экспериментальной единицы, в дополнение к репликации внутри единиц.
Проверка гипотез
Статистические тесты (например, t-тест и связанное с ним семейство тестов ANOVA) полагаются на соответствующую репликацию для оценки статистической значимости . Тесты, основанные на t- и F-распределениях, предполагают однородные, нормальные и независимые ошибки. Коррелированные ошибки могут привести к ложной точности и слишком малым p-значениям. [6]
Типы
Херлберт (1984) определил четыре типа псевдорепликации.
Простая псевдорепликация (рисунок 5a в Hurlbert 1984) происходит, когда на обработку приходится одна экспериментальная единица. Выводная статистика не может отделить изменчивость, вызванную обработкой, от изменчивости, вызванной экспериментальными единицами, когда на единицу приходится только одно измерение.
Временная псевдорепликация (рисунок 5c в Hurlbert 1984) происходит, когда экспериментальные единицы достаточно различаются во времени, так что временные эффекты среди единиц вероятны, а эффекты обработки коррелируют с временными эффектами. Выводная статистика не может отделить изменчивость, вызванную обработкой, от изменчивости, вызванной экспериментальными единицами, когда есть только одно измерение на единицу.
Жертвенная псевдорепликация (рисунок 5b в Hurlbert 1984) происходит, когда в анализе используются средние значения в пределах обработки, и эти средние значения проверяются по дисперсии внутри единицы. На рисунке 5b ошибочное F-соотношение будет иметь 1 df в числителе (обработка) среднего квадрата и 4 df в знаменателе среднего квадрата (2-1 = 1 df для каждой экспериментальной единицы). Правильное F-соотношение будет иметь 1 df в числителе (обработка) и 2 df в знаменателе (2-1 = 1 df для каждой экспериментальной единицы). Правильное F-соотношение контролирует эффекты экспериментальных единиц, но с 2 df в знаменателе оно будет иметь мало мощности для обнаружения различий в обработке.
Неявная псевдорепликация происходит, когда стандартные ошибки (или доверительные интервалы) оцениваются в пределах экспериментальных единиц. Как и в случае с другими источниками псевдорепликации, эффекты обработки не могут быть статистически отделены от эффектов, вызванных вариациями среди экспериментальных единиц.
^ Херлберт, Стюарт Х. (2009). «Древнее черное искусство и трансдисциплинарная протяженность псевдорепликации». Журнал сравнительной психологии . 123 (4): 434–443. doi :10.1037/a0016221. ISSN 1939-2087. PMID 19929111.
^ ab Hurlbert, Stuart H. (1984). "Псевдорепликация и дизайн экологических полевых экспериментов" (PDF) . Экологические монографии . 54 (2). Экологическое общество Америки: 187–211. Bibcode :1984EcoM...54..187H. doi :10.2307/1942661. JSTOR 1942661.
^ ab Millar, RB; Anderson, MR (2004). «Средства от псевдорепликации». Fisheries Research . 70 (2–3): 397–407. doi :10.1016/j.fishres.2004.08.016.
^ ab Gholipour, Bahar (2018-03-15). «Статистические ошибки могут испортить до половины исследований на мышах». Spectrum | Новости исследований аутизма . Получено 24.03.2018 .
^ ab E, Lazic, Stanley (2010-01-14). "Проблема псевдорепликации в нейробиологических исследованиях: влияет ли она на ваш анализ?". BMC Neuroscience . 11. BioMed Central Ltd: 5. doi : 10.1186/1471-2202-11-5 . OCLC 805414397. PMC 2817684. PMID 20074371 .{{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Лазич, С. Э. (2010). «Проблема псевдорепликации в нейробиологических исследованиях: влияет ли она на ваш анализ?». BMC Neuroscience . 11 (5): 5. doi : 10.1186/1471-2202-11-5 . PMC 2817684. PMID 20074371 .