stringtranslate.com

Регрессия к среднему значению

Экспериментальная установка Гальтона
«Стандартная евгеническая схема происхождения» – раннее применение идеи Гальтона [1]

В статистике регрессия к среднему значению (также называемая регрессией к среднему значению , возвратом к среднему значению и возвратом к посредственности ) — это явление, при котором, если одна выборка случайной величины является экстремальной , следующая выборка той же случайной величины, скорее всего, будет ближе к ее среднему значению . [2] [3] [4] Кроме того, когда выбирается много случайных величин и намеренно выбираются наиболее экстремальные результаты, это относится к тому факту, что (во многих случаях) вторая выборка этих выбранных переменных приведет к «менее экстремальным» результатам, более близким к исходному среднему значению всех переменных.

Математически сила этого эффекта «регрессии» зависит от того, все ли случайные величины взяты из одного и того же распределения , или существуют ли реальные различия в базовых распределениях для каждой случайной величины. В первом случае статистически вероятно возникновение эффекта «регрессии», но во втором случае он может проявиться менее сильно или не проявиться вообще.

Регрессия к среднему значению, таким образом, является полезной концепцией, которую следует учитывать при планировании любого научного эксперимента, анализа данных или теста, который намеренно выбирает самые экстремальные события. Это означает, что последующие проверки могут быть полезны для того, чтобы избежать поспешных ложных выводов об этих событиях; они могут быть подлинными экстремальными событиями, совершенно бессмысленным выбором из-за статистического шума или смесью этих двух случаев. [5]

Концептуальные примеры

Простой пример: студенты сдают тест

Рассмотрим класс студентов, проходящих тест из 100 пунктов правда/ложь по предмету. Предположим, что все студенты выбирают ответы на все вопросы случайным образом. Тогда балл каждого студента будет реализацией одного из набора независимых и одинаково распределенных случайных величин с ожидаемым средним значением 50. Естественно, некоторые студенты наберут значительно больше 50, а некоторые существенно меньше 50 просто случайно. Если выбрать только 10% студентов с наивысшими баллами и дать им второй тест, в котором они снова выбирают ответы на все вопросы случайным образом, средний балл снова будет близок к 50. Таким образом, среднее значение этих студентов будет «регрессировать» до среднего значения всех студентов, которые прошли исходный тест. Независимо от того, какой балл набрал студент на исходном тесте, лучшим прогнозом его балла на втором тесте будет 50.

Если бы выбор ответов на вопросы теста не был случайным, т. е. если бы в ответах, данных студентами, не было ни удачи (ни неудачи), ни случайного угадывания, то можно было бы ожидать, что все студенты наберут на втором тесте столько же баллов, сколько они набрали на первоначальном тесте, и не было бы никакой регрессии к среднему значению.

Большинство реалистичных ситуаций находятся между этими двумя крайностями: например, можно рассматривать результаты экзаменов как комбинацию мастерства и удачи . В этом случае подгруппа студентов, набравших баллы выше среднего, будет состоять из тех, кто был опытным и не имел особой неудачи, вместе с теми, кто был неопытным, но был чрезвычайно удачлив. При повторном тестировании этой подгруппы неопытные вряд ли повторят свой счастливый случай, в то время как опытные получат второй шанс на неудачу. Следовательно, те, кто хорошо показал себя в предыдущем тесте, вряд ли покажут себя так же хорошо во втором тесте, даже если оригинал не может быть воспроизведен.

Ниже приведен пример этого второго вида регрессии к среднему значению. Класс студентов проходит два выпуска одного и того же теста в течение двух последовательных дней. Часто наблюдалось, что худшие результаты в первый день, как правило, улучшают свои результаты во второй день, а лучшие результаты в первый день, как правило, ухудшают свои результаты во второй день. Это явление возникает из-за того, что результаты студентов определяются частично базовыми способностями и частично случайностью. В первом тесте некоторым повезет, и они наберут больше баллов, чем их способности, а некоторым не повезет, и они наберут меньше баллов, чем их способности. Некоторым из счастливчиков в первом тесте снова повезет во втором тесте, но у большинства из них будут (для них) средние или ниже среднего баллы. Поэтому студент, которому повезло и который превзошел свои способности в первом тесте, с большей вероятностью получит худший результат во втором тесте, чем лучший. Аналогично, студенты, которым не повезло набрать меньше баллов, чем их способности в первом тесте, как правило, увидят, что их баллы возрастут во втором тесте. Чем больше влияние удачи на возникновение экстремального события, тем меньше вероятность того, что удача повторится в нескольких событиях.

Другие примеры

Если ваша любимая спортивная команда выиграла чемпионат в прошлом году, что это значит для их шансов на победу в следующем сезоне? В той степени, в которой этот результат обусловлен мастерством (команда в хорошей форме, с топовым тренером и т. д.), их победа сигнализирует о том, что с большей вероятностью они снова выиграют в следующем году. Но чем больше это связано с удачей (другие команды, втянутые в скандал с наркотиками, благоприятная жеребьевка, драфт-пики оказались продуктивными и т. д.), тем меньше вероятность, что они снова выиграют в следующем году. [6]

Если у коммерческой организации был высокоприбыльный квартал, несмотря на то, что основные причины ее эффективности остались неизменными, в следующем квартале ее дела, скорее всего, пойдут хуже. [7]

Бейсболисты, которые хорошо отбивают в своем дебютном сезоне, вероятно, покажут худшие результаты во втором сезоне; « спад второго года ». Аналогичным образом, регрессия к среднему значению является объяснением проклятия обложки Sports Illustrated — периоды исключительной игры, которые приводят к появлению на обложке, вероятно, сменяются периодами более посредственной игры, создавая впечатление, что появление на обложке вызывает упадок спортсмена. [8]

История

Открытие

Иллюстрация Фрэнсиса Гальтона 1886 года, иллюстрирующая корреляцию между ростом взрослых и их родителей. [9] Наблюдение за тем, что рост взрослых детей, как правило, меньше отклоняется от среднего роста, чем рост их родителей, привело к появлению концепции «регрессии к среднему», давшей регрессионному анализу его название.

Концепция регрессии пришла из генетики и была популяризирована сэром Фрэнсисом Гальтоном в конце 19 века с публикацией « Регрессии к посредственности в наследственном росте» . [9] Гальтон заметил, что экстремальные характеристики (например, рост) у родителей не передаются полностью их потомству. Скорее, характеристики у потомства регрессируют к посредственной точке (точке, которая с тех пор была определена как среднее значение). Измерив рост сотен людей, он смог количественно оценить регрессию к среднему значению и оценить размер эффекта. Гальтон писал, что «средняя регрессия потомства является постоянной долей их соответствующих отклонений от среднего родительского ». Это означает, что разница между ребенком и его родителями по некоторой характеристике пропорциональна отклонению его родителей от типичных людей в популяции. Если его родители на два дюйма выше среднего роста мужчин и женщин, то в среднем потомство будет ниже своих родителей на некоторый коэффициент (который сегодня мы бы назвали единицей минус коэффициент регрессии ) умноженный на два дюйма. Для роста Гальтон оценил этот коэффициент примерно в 2/3: рост индивидуума будет измеряться около средней точки, которая составляет две трети отклонения родителей от среднего показателя популяции.

Гальтон также опубликовал эти результаты [10], используя более простой пример дробинок, падающих через доску Гальтона , чтобы сформировать нормальное распределение, центрированное прямо под точкой их входа. Затем эти дробинки могли быть выпущены вниз во вторую галерею, соответствующую второму измерению. Затем Гальтон задал обратный вопрос: «Откуда взялись эти дробинки?»

Ответ был не « в среднем прямо над » . Скорее, это было « в среднем ближе к середине » , по той простой причине, что было больше гранул над ним ближе к середине, которые могли перемещаться влево, чем в левом крайнем положении, которые могли перемещаться вправо, внутрь. [11]

Развитие использования термина

Гальтон ввел термин «регрессия» для описания наблюдаемого факта в наследовании многофакторных количественных генетических признаков: а именно, что признаки потомства родителей, которые находятся в хвостах распределения, часто имеют тенденцию располагаться ближе к центру, среднему значению распределения. Он количественно оценил эту тенденцию и, сделав это, изобрел линейный регрессионный анализ, тем самым заложив основу для большей части современного статистического моделирования. С тех пор термин «регрессия» использовался в других контекстах, и он может использоваться современными статистиками для описания таких явлений, как смещение выборки , которые имеют мало общего с первоначальными наблюдениями Гальтона в области генетики.

Объяснение Гальтоном явления регрессии, которое он наблюдал в биологии, было сформулировано следующим образом: «Ребенок наследует частично от своих родителей, частично от своих предков. Говоря в общем, чем дальше уходит его генеалогия, тем более многочисленной и разнообразной становится его родословная, пока она не перестанет отличаться от любой столь же многочисленной выборки, взятой наугад из расы в целом». [9] Утверждение Гальтона требует некоторого разъяснения в свете знаний генетики: дети получают генетический материал от своих родителей, но наследственная информация (например, значения унаследованных признаков) от более ранних предков может передаваться через их родителей (и может не быть выражена у их родителей). Среднее значение признака может быть неслучайным и определяться давлением отбора, но распределение значений вокруг среднего значения отражает нормальное статистическое распределение.

Популяционно -генетический феномен, изученный Гальтоном, представляет собой частный случай «регрессии к среднему значению»; этот термин часто используется для описания многих статистических явлений, в которых данные демонстрируют нормальное распределение вокруг среднего значения.

Важность

Регрессия к среднему значению является важным фактором при планировании экспериментов .

Возьмем гипотетический пример 1000 человек примерно одного возраста, которых обследовали и оценили по риску сердечного приступа. Статистику можно использовать для измерения успешности вмешательства на 50, которые были оценены как имеющие наибольший риск, что измеряется тестом с некоторой степенью неопределенности. Вмешательством может быть изменение диеты, физические упражнения или медикаментозное лечение. Даже если вмешательства бесполезны, можно ожидать, что тестовая группа покажет улучшение на следующем медицинском осмотре из-за регрессии к среднему значению. Лучший способ борьбы с этим эффектом — разделить группу случайным образом на группу лечения, которая получает лечение, и группу, которая его не получает. Тогда лечение будет считаться эффективным только в том случае, если группа лечения улучшится больше, чем группа без лечения.

В качестве альтернативы можно протестировать группу неблагополучных детей, чтобы выявить тех, у кого наибольший потенциал для поступления в колледж. Можно выявить 1% лучших и предоставить им специальные курсы обогащения, репетиторство, консультации и компьютеры. Даже если программа эффективна, их средние баллы могут быть ниже, когда тест повторяется год спустя. Однако в этих обстоятельствах может считаться неэтичным иметь контрольную группу неблагополучных детей, чьи особые потребности игнорируются. Математический расчет сокращения может скорректировать этот эффект, хотя он не будет таким надежным, как метод контрольной группы (см. также пример Стайна ).

Эффект также можно использовать для общих выводов и оценок. Самое жаркое место в стране сегодня, скорее всего, завтра будет прохладнее, чем жарче, по сравнению с сегодняшним днем. Самый результативный паевой инвестиционный фонд за последние три года, скорее всего, увидит относительное снижение производительности, чем улучшение в течение следующих трех лет. Самый успешный голливудский актер этого года, скорее всего, получит меньше, а не больше валового дохода за свой следующий фильм. Бейсболист с самым высоким средним показателем отбивания в середине сезона, скорее всего, будет иметь более низкий средний показатель, чем более высокий средний показатель в течение оставшейся части сезона.

Недоразумения

Концепцию регрессии к среднему значению можно очень легко использовать неправильно.

В примере со студенческим тестом выше неявно предполагалось, что измеряемый объект не менялся между двумя измерениями. Предположим, однако, что курс был сдан/не сдан, и студентам требовалось набрать более 70 баллов на обоих тестах, чтобы сдать его. Тогда студенты, набравшие менее 70 баллов в первый раз, не будут иметь стимула хорошо сдать экзамен, и во второй раз могут набрать в среднем меньше баллов. С другой стороны, студенты, которым чуть больше 70, будут иметь сильный стимул учиться и концентрироваться во время прохождения теста. В этом случае можно было бы увидеть движение от 70, баллы ниже него становятся ниже, а баллы выше него становятся выше. Изменения между моментами измерения могут усилить, компенсировать или обратить вспять статистическую тенденцию к регрессу к среднему значению.

Статистическая регрессия к среднему значению не является причинным явлением. Ученик с худшим результатом на тесте в первый день не обязательно существенно увеличит свой результат на второй день из-за эффекта. В среднем худшие результаты улучшаются, но это верно только потому, что худшие результаты, скорее всего, были неудачниками, чем удачниками. В той степени, в которой результат определяется случайным образом, или если результат имеет случайную вариацию или ошибку, в отличие от того, чтобы определяться академическими способностями ученика или быть «истинным значением», явление будет иметь эффект. Классическая ошибка в этом отношении была в образовании. Ученики, которых хвалили за хорошую работу, как было замечено, показали худшие результаты при следующем измерении, а ученики, которых наказывали за плохую работу, как было замечено, показали лучшие результаты при следующем измерении. Педагоги решили прекратить хвалить и продолжать наказывать на этой основе. [12] Такое решение было ошибкой, потому что регрессия к среднему значению основана не на причине и следствии, а скорее на случайной ошибке в естественном распределении вокруг среднего значения.

Хотя экстремальные индивидуальные измерения регрессируют к среднему значению, вторая выборка измерений не будет ближе к среднему значению, чем первая. Рассмотрим студентов снова. Предположим, что тенденция экстремальных индивидуумов заключается в регрессе на 10% пути к среднему значению 80, поэтому студент, набравший 100 баллов в первый день, как ожидается , наберет 98 баллов во второй день, а студент, набравший 70 баллов в первый день, как ожидается, наберет 71 балл во второй день. Эти ожидания ближе к среднему значению, чем баллы первого дня. Но баллы второго дня будут варьироваться вокруг их ожиданий; некоторые будут выше, а некоторые ниже. Для экстремальных индивидуумов мы ожидаем, что второй балл будет ближе к среднему значению, чем первый балл, но для всех индивидуумов мы ожидаем, что распределение расстояний от среднего будет одинаковым в обоих наборах измерений.

В связи с вышеизложенным, регрессия к среднему значению работает одинаково хорошо в обоих направлениях. Мы ожидаем, что ученик с наивысшим баллом за тест во второй день справится хуже в первый день. И если мы сравним лучшего ученика в первый день с лучшим учеником во второй день, независимо от того, один и тот же это человек или нет, то не будет никакой тенденции к регрессии к среднему значению в любом направлении. Мы ожидаем, что лучшие баллы в оба дня будут одинаково далеки от среднего значения.

Заблуждения о регрессии

Многие явления, как правило, приписываются неправильным причинам, если не принимать во внимание регрессию к среднему значению.

Крайним примером является книга Горация Секриста 1933 года «Триумф посредственности в бизнесе» , в которой профессор статистики собрал горы данных, чтобы доказать, что нормы прибыли конкурентоспособных предприятий стремятся к среднему значению с течением времени. На самом деле такого эффекта нет; изменчивость норм прибыли почти постоянна с течением времени. Секрист описал только общую регрессию к среднему значению. Один раздраженный рецензент, Гарольд Хотеллинг , сравнил книгу с «доказательством таблицы умножения путем расстановки слонов в ряды и столбцы, а затем проделывания того же для множества других видов животных». [13]

Расчет и интерпретация «баллов улучшения» на стандартизированных образовательных тестах в Массачусетсе, вероятно, является еще одним примером ошибки регрессии. [ необходима цитата ] В 1999 году школам были поставлены цели улучшения. Для каждой школы Департамент образования составил таблицу разницы в среднем балле, полученном учащимися в 1999 и 2000 годах. Было быстро отмечено, что большинство школ с худшими показателями достигли своих целей, что Департамент образования воспринял как подтверждение обоснованности своей политики. Однако было также отмечено, что многие из предположительно лучших школ в Содружестве, такие как Brookline High School (с 18 финалистами Национальной стипендии за заслуги), были объявлены несостоявшимися. Как и во многих случаях, связанных со статистикой и государственной политикой, этот вопрос обсуждается, но «баллы улучшения» не были объявлены в последующие годы, и результаты, по-видимому, являются случаем регрессии к среднему значению.

Психолог Дэниел Канеман , лауреат Нобелевской премии по экономике 2002 года , отметил, что регрессия к среднему значению может объяснить, почему упреки могут, по-видимому, улучшать результаты, в то время как похвала, по-видимому, имеет обратный эффект. [14]

У меня был самый удовлетворяющий опыт Эврики в моей карьере, когда я пытался научить летных инструкторов, что похвала более эффективна, чем наказание, для поощрения обучения навыкам. Когда я закончил свою восторженную речь, один из самых опытных инструкторов в аудитории поднял руку и произнес свою собственную короткую речь, которая началась с признания того, что положительное подкрепление может быть полезным для птиц, но продолжил отрицать, что оно оптимально для летных курсантов. Он сказал: «Во многих случаях я хвалил летных курсантов за чистое выполнение некоторых фигур высшего пилотажа, и в целом, когда они пытались сделать это снова, они делали это хуже. С другой стороны, я часто кричал на курсантов за плохое выполнение, и в целом они делали это лучше в следующий раз. Так что, пожалуйста, не говорите нам, что подкрепление работает, а наказание — нет, потому что на самом деле все наоборот». Это был радостный момент, в который я понял важную истину о мире: поскольку мы склонны вознаграждать других, когда они делают хорошо, и наказывать их, когда они делают плохо, и поскольку существует регрессия к среднему, то частью человеческого состояния является то, что мы статистически наказываемся за вознаграждение других и вознаграждаемся за их наказание. Я немедленно организовал демонстрацию, в которой каждый участник бросал две монеты в цель за спиной, без какой-либо обратной связи. Мы измерили расстояние от цели и увидели, что те, кто показал лучший результат в первый раз, в основном ухудшились во второй попытке, и наоборот. Но я знал, что эта демонстрация не отменит эффекты пожизненного воздействия извращенной случайности.

Ошибочное представление о регрессии также объясняется в книге Рольфа Добелли «Искусство мыслить ясно» .

Политика правоохранительных органов Великобритании поощряла размещение стационарных или мобильных камер контроля скорости на видимых участках дорог с повышенной опасностью . Эта политика была оправдана представлением о том, что после установки камеры происходит соответствующее снижение числа серьезных дорожно-транспортных происшествий . Однако статистики отметили, что, хотя и есть чистая выгода в виде спасенных жизней, непринятие во внимание эффектов регрессии к среднему значению приводит к завышению полезных эффектов. [15] [16] [17]

Статистические аналитики давно признали эффект регрессии к среднему значению в спорте; у них даже есть специальное название для этого: « спад второго года ». Например, Кармело Энтони из « Денвер Наггетс» НБА провел выдающийся сезон новичка в 2004 году. Он был настолько выдающимся, что нельзя было ожидать, что он повторит его: в 2005 году показатели Энтони упали по сравнению с его сезоном новичка. Причин для «спада второго года» предостаточно, поскольку спорт зависит от корректировки и контркорректировки, но основанное на удаче превосходство новичка является такой же веской причиной, как и любая другая. Регрессия к среднему значению в спортивных результатах также может объяснить кажущееся « проклятие обложки Sports Illustrated » и « проклятие Мэддена ». У Джона Холлингера есть альтернативное название для явления регрессии к среднему значению: «правило случайности» [ требуется цитата ] , в то время как Билл Джеймс называет его «принципом плексигласа». [ необходима ссылка ]

Поскольку популярные предания фокусировались на регрессии к среднему значению как на счете снижения производительности спортсменов от одного сезона к другому, они обычно упускали из виду тот факт, что такая регрессия может также объяснять улучшение производительности. Например, если посмотреть на средний показатель отбивания игроков Главной лиги бейсбола в одном сезоне, те, чей средний показатель отбивания был выше среднего по лиге, как правило, регрессируют вниз к среднему значению в следующем году, в то время как те, чей средний показатель отбивания был ниже среднего, как правило, прогрессируют вверх к среднему значению в следующем году. [18]

Другие статистические явления

Регрессия к среднему просто говорит, что после экстремального случайного события следующее случайное событие, вероятно, будет менее экстремальным. Ни в каком смысле будущее событие не «компенсирует» или «выравнивает» предыдущее событие, хотя это предполагается в ошибке игрока (и варианте закона средних чисел ). Аналогично, закон больших чисел утверждает, что в долгосрочной перспективе среднее значение будет стремиться к ожидаемому значению, но не делает никаких заявлений об отдельных испытаниях. Например, после серии из 10 орлов при подбрасывании честной монеты (редкое, экстремальное событие), регрессия к среднему утверждает, что следующая серия орлов, вероятно, будет меньше 10, в то время как закон больших чисел утверждает, что в долгосрочной перспективе это событие, вероятно, усреднится, и средняя доля орлов будет стремиться к 1/2. Напротив, ошибка игрока неверно предполагает, что монета теперь «должна» для серии решек, чтобы уравновесить.

Противоположный эффект — регрессия к хвосту, возникающая из распределения с неисчезающей плотностью вероятности, стремящейся к бесконечности. [19]

Определение простой линейной регрессии точек данных

Это определение регрессии к среднему значению, которое близко соответствует первоначальному использованию сэра Фрэнсиса Гальтона . [9]

Предположим, что есть n точек данных { y i , x i }, где i  = 1, 2, ..., n . Мы хотим найти уравнение линии регрессии , т. е. прямой линии

которая обеспечит наилучшее соответствие для точек данных. (Прямая линия может не быть подходящей кривой регрессии для заданных точек данных.) Здесь наилучшее будет пониматься как в подходе наименьших квадратов : такая линия, которая минимизирует сумму квадратов остатков линейной регрессионной модели. Другими словами, числа α и β решают следующую задачу минимизации:

Найти , где

Используя исчисление, можно показать, что значения α и β , которые минимизируют целевую функцию Q, равны

где r xyвыборочный коэффициент корреляции между x и y , s xстандартное отклонение x , а s y — соответственно стандартное отклонение y . Горизонтальная черта над переменной означает выборочное среднее значение этой переменной. Например :

Подстановка приведенных выше выражений вместо и в дает подходящие значения

что дает

Это показывает роль, которую r xy играет в линии регрессии стандартизированных точек данных.

Если −1 <  r xy  < 1, то мы говорим, что точки данных демонстрируют регрессию к среднему значению. Другими словами, если линейная регрессия является подходящей моделью для набора точек данных, выборочный коэффициент корреляции которых не идеален, то имеет место регрессия к среднему значению. Предсказанное (или подобранное) стандартизированное значение y ближе к своему среднему значению, чем стандартизированное значение x к своему среднему значению. [ необходима цитата ]

Определения для двумерного распределения с идентичными предельными распределениями

Ограничительное определение

Пусть X 1 , X 2 будут случайными величинами с идентичными маргинальными распределениями со средним значением μ . В этой формализации говорят, что двумерное распределение X 1 и X 2 демонстрирует регрессию к среднему значению , если для каждого числа c  >  μ мы имеем

μ  ≤ E[ X 2  |  X 1  =  с ] <  с ,

с обратными неравенствами, справедливыми для c  <  μ . [20] [21]

Ниже приведено неформальное описание приведенного выше определения. Рассмотрим популяцию виджетов . У каждого виджета есть два числа, X 1 и X 2 (скажем, его левый диапазон ( X 1 ) и правый диапазон ( X 2 )). Предположим, что распределения вероятностей X 1 и X 2 в популяции идентичны, и что средние значения X 1 и X 2 оба равны μ . Теперь мы берем случайный виджет из популяции и обозначаем его значение X 1 как c . ( c может быть больше, равно или меньше μ .) У нас пока нет доступа к значению X 2 этого виджета . Пусть d обозначает ожидаемое значение X 2 этого конкретного виджета . ( т . е. Пусть d обозначает среднее значение X 2 всех виджетов в популяции с X 1 = c .) Если выполняется следующее условие:

Каким бы ни было значение c , d лежит между μ и c ( т.е. d ближе к μ, чем c ),

то мы говорим, что X 1 и X 2 демонстрируют регрессию к среднему значению .

Это определение тесно согласуется с текущим общепринятым использованием, произошедшим от первоначального использования Гальтоном термина «регрессия к среднему». Оно является «ограничительным» в том смысле, что не каждое двумерное распределение с идентичными предельными распределениями демонстрирует регрессию к среднему (согласно этому определению). [21]

Теорема

Если пара ( XY ) случайных величин подчиняется двумерному нормальному распределению , то условное среднее значение E( Y | X ) является линейной функцией X. Коэффициент корреляции r между X и Y , а также предельные средние значения и дисперсии X и Y определяют эту линейную связь:

где E[X] и E[Y] — ожидаемые значения X и Y соответственно, а σ x и σ y — стандартные отклонения X и Y соответственно.

Следовательно, условное ожидаемое значение Y , учитывая, что X на t стандартных отклонений выше своего среднего значения (и это включает случай, когда оно ниже своего среднего значения, когда t  < 0), составляет rt стандартных отклонений выше среднего значения Y. Поскольку | r | ≤ 1, Y не дальше от среднего значения, чем X , что измеряется в количестве стандартных отклонений. [22]

Следовательно, если 0 ≤  r  < 1, то ( XY ) демонстрирует регрессию к среднему значению (согласно этому определению).

Общее определение

Следующее определение возврата к среднему значению было предложено Сэмюэлсом в качестве альтернативы более узкому определению регрессии к среднему значению, данному выше. [20]

Пусть X 1 , X 2 будут случайными величинами с идентичными маргинальными распределениями со средним значением μ . В этой формализации говорят , что двумерное распределение X 1 и X 2 демонстрирует возврат к среднему значению , если для каждого числа c мы имеем

μ  ≤ E[ X 2  |  X 1  >  c ] < E[ X 1  |  X 1  >  c ], и
μ  ≥ E[ X 2  |  X 1  <  c ] > E[ X 1  |  X 1  <  c ]

Это определение является «общим» в том смысле, что каждое двумерное распределение с идентичными предельными распределениями демонстрирует возврат к среднему значению при условии соблюдения некоторых слабых критериев (невырожденность и слабая положительная зависимость, как описано в статье Сэмюэлса [20] ).

Альтернативное определение в финансовом использовании

Джереми Сигел использует термин «возврат к среднему значению» для описания финансового временного ряда , в котором « доходность может быть очень нестабильной в краткосрочной перспективе, но очень стабильной в долгосрочной». Более количественно, это тот, в котором стандартное отклонение средней годовой доходности снижается быстрее, чем обратная величина периода удержания, подразумевая, что процесс не является случайным блужданием , а что периоды более низкой доходности систематически следуют за компенсирующими периодами более высокой доходности, как это происходит, например, во многих сезонных видах бизнеса. [23]

Смотрите также

Ссылки

  1. Гальтон, Фрэнсис (1901-1902). Popular Science Monthly, том 60, «Возможное улучшение человеческой породы при существующих условиях права и чувств», стр. 224
  2. ^ Эверитт, BS (12 августа 2002 г.). Кембриджский словарь статистики (2-е изд.). Cambridge University Press . ISBN 978-0521810999.
  3. Аптон, Грэм; Кук, Ян (21 августа 2008 г.). Оксфордский словарь статистики . Oxford University Press . ISBN 978-0-19-954145-4.
  4. ^ Стиглер, Стивен М. (1997). «Регрессия к среднему значению, исторически рассмотренная». Статистические методы в медицинских исследованиях . 6 (2): 103–114. doi :10.1191/096228097676361431. PMID  9261910.
  5. ^ Chiolero, A; Paradis, G; Rich, B; Hanley, JA (2013). «Оценка связи между базовым значением непрерывной переменной и последующим изменением с течением времени». Frontiers in Public Health . 1 : 29. doi : 10.3389/fpubh.2013.00029 . PMC 3854983. PMID  24350198. 
  6. ^ "Статистический обзор книги "Думай медленно... решай быстро" Дэниела Канемана". Burns Statistics . 11 ноября 2013 г. Получено 1 января 2022 г.
  7. ^ "Что такое регрессия к среднему? Определение и примеры". conceptually.org . Получено 25 октября 2017 г. .
  8. ^ Голдакр, Бен (4 апреля 2009 г.). Плохая наука . Четвертое сословие. стр. 39. ISBN 978-0007284870.
  9. ^ abcd Гальтон, Ф. (1886). «Регрессия к посредственности в наследственном росте». Журнал Антропологического института Великобритании и Ирландии . 15 : 246–263. doi :10.2307/2841583. JSTOR  2841583.
  10. ^ Гальтон, Фрэнсис (1889). Естественное наследование. Лондон: Macmillan .
  11. ^ Стиглер, Стивен М. (17 июня 2010 г.). «Дарвин, Гальтон и статистическое просвещение». Журнал Королевского статистического общества, серия A. 173 ( 3): 469–482, 477. doi :10.1111/j.1467-985X.2010.00643.x. ISSN  1467-985X. S2CID  53333238.
  12. ^ Канеман, Дэниел (1 октября 2011 г.). Думай медленно... решай быстро . Фаррар, Штраус и Жиру . ISBN 978-0-374-27563-1.
  13. Secrist, Horace; Hotelling, Harold; Rorty, MC; Gini, Corrada; King, Wilford I. (июнь 1934 г.). «Открытые письма». Журнал Американской статистической ассоциации . 29 (186): 196–205. doi :10.1080/01621459.1934.10502711. JSTOR  2278295.
  14. ^ Дефулио, Энтони (2012). «Цитата: Канеман о непредвиденных обстоятельствах». Журнал экспериментального анализа поведения . 97 (2): 182. doi :10.1901/jeab.2012.97-182. PMC 3292229 . 
  15. Вебстер, Бен (16 декабря 2005 г.). «Преимущества камер контроля скорости переоценены». The Times . Получено 1 января 2022 г.[ мертвая ссылка ] (требуется подписка)
  16. ^ Маунтин, Л. (2006). «Камеры безопасности: налог на скрытность или спасение жизней?». Значимость . 3 (3): 111–113. doi :10.1111/j.1740-9713.2006.00179.x.
  17. ^ Махер, Майк; Маунтин, Линда (2009). «Чувствительность оценок регрессии к среднему». Анализ и профилактика аварий . 41 (4): 861–8. doi :10.1016/j.aap.2009.04.020. PMID  19540977.
  18. Для иллюстрации см. Нейт Сильвер , «Случайность: подхвати лихорадку!», Baseball Prospectus , 14 мая 2003 г.
  19. ^ Flyvbjerg, Bent (5 октября 2020 г.). «Закон регрессии к хвосту: как пережить Covid-19, климатический кризис и другие катастрофы». Environmental Science & Policy . 114 : 614–618. doi : 10.1016/j.envsci.2020.08.013. ISSN  1462-9011. PMC 7533687. PMID 33041651  . 
  20. ^ abc Сэмюэлс, Майра Л. (ноябрь 1991 г.). «Статистическая реверсия к среднему: более универсальная, чем регрессия к среднему». The American Statistician . 45 (4): 344–346. doi :10.2307/2684474. JSTOR  2684474..
  21. ^ ab Schmittlein, David C (август 1989). «Удивительные выводы из неудивительных наблюдений: действительно ли условные ожидания регрессируют к среднему?». The American Statistician . 43 (3): 176–183. doi :10.2307/2685070. JSTOR  2685070.
  22. ^ Черник, Майкл Р.; Фриис, Роберт Х. (17 марта 2003 г.). Введение в биостатистику для медицинских наук. Wiley-Interscience . стр. 272. ISBN 978-0-471-41137-6.
  23. ^ Сигел, Джереми (27 ноября 2007 г.). Stocks for the Long Run (4-е изд.). McGraw–Hill. стр. 13, 28–29. ISBN 978-0071494700.

Дальнейшее чтение

Внешние ссылки