stringtranslate.com

Фиктивная переменная (статистика)

График, показывающий гендерный разрыв в оплате труда

В регрессионном анализе фиктивная переменная (также известная как индикаторная переменная или просто фиктивная ) — это та, которая принимает двоичное значение (0 или 1) для указания отсутствия или наличия некоторого категориального эффекта, который, как можно ожидать, изменит результат. [1] Например, если бы мы изучали связь между биологическим полом и доходом , мы могли бы использовать фиктивную переменную для представления пола каждого человека в исследовании. Переменная могла бы принимать значение 1 для мужчин и 0 для женщин (или наоборот). В машинном обучении это известно как прямое кодирование .

Фиктивные переменные обычно используются в регрессионном анализе для представления категориальных переменных, которые имеют более двух уровней, таких как уровень образования или профессия. В этом случае будет создано несколько фиктивных переменных для представления каждого уровня переменной, и только одна фиктивная переменная будет принимать значение 1 для каждого наблюдения. Фиктивные переменные полезны, поскольку они позволяют нам включать категориальные переменные в наш анализ, которые в противном случае было бы трудно включить из-за их нечисловой природы. Они также могут помочь нам контролировать факторы, вмешивающиеся в процесс, и повысить достоверность наших результатов.

Как и при любом добавлении переменных в модель, добавление фиктивных переменных увеличит соответствие модели внутри выборки ( коэффициент детерминации ), но за счет меньшего числа степеней свободы и потери общности модели (соответствие модели вне выборки). Слишком большое количество фиктивных переменных приводит к модели, которая не дает никаких общих выводов.

Фиктивные переменные полезны в различных случаях. Например, в эконометрическом анализе временных рядов фиктивные переменные могут использоваться для указания наступления войн или крупных забастовок . Таким образом, их можно рассматривать как булево значение , т. е. истинностное значение , представленное в виде числового значения 0 или 1 (как иногда делается в компьютерном программировании ).

Фиктивные переменные могут быть расширены для более сложных случаев. Например, сезонные эффекты могут быть зафиксированы путем создания фиктивных переменных для каждого из сезонов: D1=1, если наблюдение относится к лету, и равно нулю в противном случае; D2=1, если и только если осень, в противном случае равно нулю; D3=1, если и только если зима, в противном случае равно нулю; и D4=1, если и только если весна, в противном случае равно нулю. В панельных данных фиктивные переменные оценки фиксированных эффектов создаются для каждой из единиц в перекрестных данных (например, фирмы или страны) или периодов в объединенном временном ряду. Однако в таких регрессиях необходимо либо удалить постоянный член , либо удалить одну из фиктивных переменных, сделав ее базовой категорией, по которой оцениваются другие, по следующей причине:

Если бы были включены фиктивные переменные для всех категорий, их сумма была бы равна 1 для всех наблюдений, что идентично и, следовательно, идеально коррелирует с вектором единиц, коэффициент которого является постоянным членом; если бы также присутствовала переменная вектор единиц, это привело бы к идеальной мультиколлинеарности , [2], так что инверсия матрицы в алгоритме оценки была бы невозможна. Это называется ловушкой фиктивной переменной .

Смотрите также

Ссылки

  1. ^ Дрейпер, Н. Р.; Смит, Х. (1998) Прикладной регрессионный анализ , Wiley. ISBN 0-471-17082-8 (глава 14)
  2. ^ Suits, Daniel B. (1957). «Использование фиктивных переменных в уравнениях регрессии». Журнал Американской статистической ассоциации . 52 (280): 548–551. JSTOR  2281705.

Дальнейшее чтение

Внешние ссылки