Тест на несоответствие средних значений, связанное с гранулярностью (GRIM), — это простой статистический тест , используемый для выявления несоответствий в анализе наборов данных. Тест основан на том факте, что при наличии набора данных, содержащего N целочисленных значений, среднее арифметическое (обычно называемое просто средним) ограничено несколькими возможными значениями: оно всегда должно быть выражено в виде дроби с целочисленным числителем и знаменателем N. Если сообщенное среднее не соответствует этому описанию, где-то должна быть ошибка; предпочтительный термин для таких ошибок — «несоответствия», чтобы подчеркнуть, что их происхождение при первом обнаружении обычно неизвестно. Несоответствия GRIM могут быть результатом непреднамеренного ввода данных или опечаток или научного мошенничества . Тест GRIM наиболее полезен в таких областях, как психология , где исследователи обычно используют небольшие группы , а измерения часто являются целыми числами . Тест GRIM был предложен Ником Брауном и Джеймсом Хизерсом в 2016 году после повышения осведомленности о кризисе репликации в некоторых областях науки. [1]
Тест GRIM прост в выполнении. Для каждого указанного в статье среднего значения находится размер выборки ( N ), и вычисляются все дроби со знаменателем N. Затем среднее значение проверяется по этому списку (с учетом того, что значения могут округляться непоследовательно : в зависимости от контекста среднее значение 1,125 может быть указано как 1,12 или 1,13). Если среднее значение отсутствует в этом списке, оно выделяется как математически невозможное. [2] [3]
Рассмотрим эксперимент, в котором честная игральная кость бросается 20 раз. Каждый бросок даст одно целое число от 1 до 6, а предполагаемое среднее значение равно 3,5. Затем результаты бросков усредняются, и среднее значение сообщается как 3,48. Это близко к ожидаемому значению и, по-видимому, подтверждает гипотезу. Однако тест GRIM показывает, что сообщенное среднее значение математически невозможно: результат деления любого целого числа на 20, записанный с двумя десятичными знаками , должен иметь вид X.X0 или X.X5; невозможно разделить любое целое число на 20 и получить результат с «8» во втором десятичном знаке. [4]
Даже если данные не проходят тест GRIM, это не является автоматически признаком манипуляции. Ошибки в среднем значении могут возникнуть невинно в результате ошибки со стороны тестировщика, типографских ошибок, ошибок в расчетах и программировании или неправильного указания размера выборки. [2] Однако это может быть признаком того, что некоторые данные были неправильно исключены или что среднее значение было незаконно сфальсифицировано , чтобы результаты казались более значимыми . Расположение ошибок может указывать на основную причину: изолированное невозможное среднее значение может быть вызвано ошибкой, несколько невозможных значений в одной строке таблицы указывают на плохой уровень отклика , а несколько невозможных значений в одном столбце указывают на то, что данный размер выборки неверен. Несколько ошибок, разбросанных по всей таблице, могут быть признаком более глубоких проблем, и для анализа подозрительных данных можно использовать другие статистические тесты. [5]
Тест GRIM лучше всего работает с наборами данных, в которых: размер выборки относительно невелик, количество подкомпонентов в составных показателях также невелико, а среднее значение указано с точностью до нескольких знаков после запятой. [2] В некоторых случаях допустимое среднее значение может не пройти тест, если входные данные не дискретизированы , как ожидалось, — например, если людей спросить, сколько кусков пиццы они съели в буфете, некоторые люди могут ответить дробью, например «три с половиной», вместо целого числа, как ожидалось. [5]
Браун и Хитерс применили тест к 260 статьям, опубликованным в Psychological Science , Journal of Experimental Psychology: General и Journal of Personality and Social Psychology . Из этих статей 71 поддавалась анализу теста GRIM; 36 из них содержали по крайней мере одно невозможное значение, а 16 содержали несколько невозможных значений. [3]
Тестирование GRIM также сыграло значительную роль в обнаружении ошибок в публикациях Лаборатории пищевых продуктов и брендов Корнеллского университета под руководством Брайана Уонсинка . Тестирование GRIM показало, что серия статей о влиянии цены на потребление в пиццерии «ешь сколько сможешь» содержала много невозможных средств — более глубокий анализ исходных данных показал, что во многих случаях размеры выборки были указаны неверно, а значения рассчитаны неверно. [1] [5]