stringtranslate.com

Фиктивная переменная (статистика)

В регрессионном анализе фиктивная переменная (также известная как индикаторная переменная или просто фиктивная переменная ) — это переменная, которая принимает двоичное значение (0 или 1), чтобы указать на отсутствие или присутствие некоторого категориального эффекта, который, как можно ожидать, может изменить результат. [1] Например, если бы мы изучали взаимосвязь между биологическим полом и доходом , мы могли бы использовать фиктивную переменную, чтобы представить пол каждого человека в исследовании. Переменная может принимать значение 1 для мужчин и 0 для женщин (или наоборот). В машинном обучении это известно как горячее кодирование .

Фиктивные переменные обычно используются в регрессионном анализе для представления категориальных переменных, имеющих более двух уровней, таких как уровень образования или род занятий. В этом случае будет создано несколько фиктивных переменных для представления каждого уровня переменной, и только одна фиктивная переменная будет принимать значение 1 для каждого наблюдения. Фиктивные переменные полезны, поскольку позволяют нам включать в наш анализ категориальные переменные, которые в противном случае было бы трудно включить из-за их нечисловой природы. Они также могут помочь нам контролировать мешающие факторы и повысить достоверность наших результатов.

Как и любое добавление переменных в модель, добавление фиктивных переменных увеличит соответствие модели внутри выборки ( коэффициент детерминации ), но за счет меньшего количества степеней свободы и потери общности модели (модель вне выборки). соответствовать). Слишком большое количество фиктивных переменных приводит к тому, что модель не дает каких-либо общих выводов.

Фиктивные переменные полезны в различных случаях. Например, в эконометрическом анализе временных рядов фиктивные переменные могут использоваться для обозначения возникновения войн или крупных забастовок . Таким образом, его можно рассматривать как логическое значение , т. е. значение истинности , представленное в виде числового значения 0 или 1 (как это иногда делается в компьютерном программировании ).

Фиктивные переменные могут быть распространены на более сложные случаи. Например, сезонные эффекты могут быть учтены путем создания фиктивных переменных для каждого сезона: D1=1, если наблюдение ведется летом, и равно нулю в противном случае; D2=1 тогда и только тогда, когда осень, в противном случае равно нулю; D3=1 тогда и только тогда, когда зима, в противном случае равно нулю; и D4=1 тогда и только тогда, когда пружина, в противном случае равна нулю. В панельных данных фиктивные оценщики фиксированных эффектов создаются для каждой единицы в перекрестных данных (например, фирмы или страны) или периодов в объединенном временном ряду. Однако в таких регрессиях необходимо удалить либо постоянный член , либо одну из фиктивных переменных, что сделает ее базовой категорией, по которой оцениваются остальные, по следующей причине:

Если бы были включены фиктивные переменные для всех категорий, их сумма была бы равна 1 для всех наблюдений, что идентично и, следовательно, идеально коррелирует с переменной вектора единиц, коэффициент которой является постоянным членом; если бы также присутствовала переменная вектор единиц, это привело бы к идеальной мультиколлинеарности [2] , так что инверсия матрицы в алгоритме оценки была бы невозможна. Это называется ловушкой фиктивной переменной .

Смотрите также

Рекомендации

  1. ^ Дрейпер, Северная Каролина; Смит, Х. (1998) Прикладной регрессионный анализ , Wiley. ISBN 0-471-17082-8 (глава 14)
  2. ^ Костюмы, Дэниел Б. (1957). «Использование фиктивных переменных в уравнениях регрессии». Журнал Американской статистической ассоциации . 52 (280): 548–551. JSTOR  2281705.

дальнейшее чтение

Внешние ссылки