ГРИМ тест

Тест на несоответствие средних значений, связанное с гранулярностью (GRIM), — это простой статистический тест , используемый для выявления несоответствий в анализе наборов данных. Тест основан на том факте, что при наличии набора данных, содержащего N целочисленных значений, среднее арифметическое (обычно называемое просто средним) ограничено несколькими возможными значениями: оно всегда должно быть выражено в виде дроби с целочисленным числителем и знаменателем N. Если сообщенное среднее не соответствует этому описанию, где-то должна быть ошибка; предпочтительный термин для таких ошибок — «несоответствия», чтобы подчеркнуть, что их происхождение при первом обнаружении обычно неизвестно. Несоответствия GRIM могут быть результатом непреднамеренного ввода данных или опечаток или научного мошенничества . Тест GRIM наиболее полезен в таких областях, как психология , где исследователи обычно используют небольшие группы , а измерения часто являются целыми числами . Тест GRIM был предложен Ником Брауном и Джеймсом Хизерсом в 2016 году после повышения осведомленности о кризисе репликации в некоторых областях науки. ^[1]

Процедура

Тест GRIM прост в выполнении. Для каждого указанного в статье среднего значения находится размер выборки ( N ), и вычисляются все дроби со знаменателем N. Затем среднее значение проверяется по этому списку (с учетом того, что значения могут округляться непоследовательно : в зависимости от контекста среднее значение 1,125 может быть указано как 1,12 или 1,13). Если среднее значение отсутствует в этом списке, оно выделяется как математически невозможное. ^[2]^[3]

Пример

Рассмотрим эксперимент, в котором честная игральная кость бросается 20 раз. Каждый бросок даст одно целое число от 1 до 6, а предполагаемое среднее значение равно 3,5. Затем результаты бросков усредняются, и среднее значение сообщается как 3,48. Это близко к ожидаемому значению и, по-видимому, подтверждает гипотезу. Однако тест GRIM показывает, что сообщенное среднее значение математически невозможно: результат деления любого целого числа на 20, записанный с двумя десятичными знаками , должен иметь вид X.X0 или X.X5; невозможно разделить любое целое число на 20 и получить результат с «8» во втором десятичном знаке. ^[4]

Интерпретация и ограничения

Даже если данные не проходят тест GRIM, это не является автоматически признаком манипуляции. Ошибки в среднем значении могут возникнуть невинно в результате ошибки со стороны тестировщика, типографских ошибок, ошибок в расчетах и программировании или неправильного указания размера выборки. ^[2] Однако это может быть признаком того, что некоторые данные были неправильно исключены или что среднее значение было незаконно сфальсифицировано , чтобы результаты казались более значимыми . Расположение ошибок может указывать на основную причину: изолированное невозможное среднее значение может быть вызвано ошибкой, несколько невозможных значений в одной строке таблицы указывают на плохой уровень отклика , а несколько невозможных значений в одном столбце указывают на то, что данный размер выборки неверен. Несколько ошибок, разбросанных по всей таблице, могут быть признаком более глубоких проблем, и для анализа подозрительных данных можно использовать другие статистические тесты. ^[5]

Тест GRIM лучше всего работает с наборами данных, в которых: размер выборки относительно невелик, количество подкомпонентов в составных показателях также невелико, а среднее значение указано с точностью до нескольких знаков после запятой. ^[2] В некоторых случаях допустимое среднее значение может не пройти тест, если входные данные не дискретизированы , как ожидалось, — например, если людей спросить, сколько кусков пиццы они съели в буфете, некоторые люди могут ответить дробью, например «три с половиной», вместо целого числа, как ожидалось. ^[5]

Приложения

Браун и Хитерс применили тест к 260 статьям, опубликованным в Psychological Science , Journal of Experimental Psychology: General и Journal of Personality and Social Psychology . Из этих статей 71 поддавалась анализу теста GRIM; 36 из них содержали по крайней мере одно невозможное значение, а 16 содержали несколько невозможных значений. ^[3]

Тестирование GRIM также сыграло значительную роль в обнаружении ошибок в публикациях Лаборатории пищевых продуктов и брендов Корнеллского университета под руководством Брайана Уонсинка . Тестирование GRIM показало, что серия статей о влиянии цены на потребление в пиццерии «ешь сколько сможешь» содержала много невозможных средств — более глубокий анализ исходных данных показал, что во многих случаях размеры выборки были указаны неверно, а значения рассчитаны неверно. ^[1]^[5]

Ссылки

^ ab Bartlett, Tom (17 марта 2017 г.). «Испорченная наука». The Chronicle of Higher Education . Получено 19 октября 2017 г. .
^ abc Heathers, James (23 мая 2016 г.). «Тест GRIM — метод оценки опубликованных исследований». Medium . Получено 19 октября 2017 г. .
^ ab Brown, Nicholas JL; Heathers, James AJ (18 октября 2016 г.). «Тест GRIM: простая методика выявляет многочисленные аномалии в сообщении результатов в психологии» (PDF) . Social Psychological and Personality Science . 8 (4): 363–369. doi :10.1177/1948550616673876. S2CID 35828029. Архивировано из оригинала (PDF) 30 декабря 2021 г. . Получено 18 сентября 2019 г. .
^ Omnes Res. "GRIM Plot (среднее: 3,48, размер: 20)". PrePubMed . Получено 19 октября 2017 г.
^ abc Anaya, Jordan; van der Zee, Tim; Brown, Nick (14 июня 2017 г.). "Статистический инфаркт: вскрытие публикаций Cornell Food and Brand Lab о пицце". PeerJ Preprints . doi : 10.7287/peerj.preprints.3025v1 . Получено 19 октября 2017 г. .

Внешние ссылки

Онлайн-калькулятор теста GRIM
Легкий онлайн-калькулятор теста GRIM