Фиктивная переменная (статистика)

В регрессионном анализе фиктивная переменная (также известная как индикаторная переменная или просто фиктивная переменная ) — это переменная, которая принимает двоичное значение (0 или 1), чтобы указать на отсутствие или присутствие некоторого категориального эффекта, который, как можно ожидать, может изменить результат. ^[1] Например, если бы мы изучали взаимосвязь между биологическим полом и доходом , мы могли бы использовать фиктивную переменную, чтобы представить пол каждого человека в исследовании. Переменная может принимать значение 1 для мужчин и 0 для женщин (или наоборот). В машинном обучении это известно как горячее кодирование .

Фиктивные переменные обычно используются в регрессионном анализе для представления категориальных переменных, имеющих более двух уровней, таких как уровень образования или род занятий. В этом случае будет создано несколько фиктивных переменных для представления каждого уровня переменной, и только одна фиктивная переменная будет принимать значение 1 для каждого наблюдения. Фиктивные переменные полезны, поскольку позволяют нам включать в наш анализ категориальные переменные, которые в противном случае было бы трудно включить из-за их нечисловой природы. Они также могут помочь нам контролировать мешающие факторы и повысить достоверность наших результатов.

Как и любое добавление переменных в модель, добавление фиктивных переменных увеличит соответствие модели внутри выборки ( коэффициент детерминации ), но за счет меньшего количества степеней свободы и потери общности модели (модель вне выборки). соответствовать). Слишком большое количество фиктивных переменных приводит к тому, что модель не дает каких-либо общих выводов.

Фиктивные переменные полезны в различных случаях. Например, в эконометрическом анализе временных рядов фиктивные переменные могут использоваться для обозначения возникновения войн или крупных забастовок . Таким образом, его можно рассматривать как логическое значение , т. е. значение истинности , представленное в виде числового значения 0 или 1 (как это иногда делается в компьютерном программировании ).

Фиктивные переменные могут быть распространены на более сложные случаи. Например, сезонные эффекты могут быть учтены путем создания фиктивных переменных для каждого сезона: D1=1, если наблюдение ведется летом, и равно нулю в противном случае; D2=1 тогда и только тогда, когда осень, в противном случае равно нулю; D3=1 тогда и только тогда, когда зима, в противном случае равно нулю; и D4=1 тогда и только тогда, когда пружина, в противном случае равна нулю. В панельных данных фиктивные оценщики фиксированных эффектов создаются для каждой единицы в перекрестных данных (например, фирмы или страны) или периодов в объединенном временном ряду. Однако в таких регрессиях необходимо удалить либо постоянный член , либо одну из фиктивных переменных, что сделает ее базовой категорией, по которой оцениваются остальные, по следующей причине:

Если бы были включены фиктивные переменные для всех категорий, их сумма была бы равна 1 для всех наблюдений, что идентично и, следовательно, идеально коррелирует с переменной вектора единиц, коэффициент которой является постоянным членом; если бы также присутствовала переменная вектор единиц, это привело бы к идеальной мультиколлинеарности ^[2] , так что инверсия матрицы в алгоритме оценки была бы невозможна. Это называется ловушкой фиктивной переменной .

Смотрите также

Бинарная регрессия
Тест Чоу - математический тест, предложенный Грегори Чоу.
Проверка гипотез – Метод статистического вывода
Индикаторная функция – математическая функция, характеризующая принадлежность множества.
Линейная дискриминантная функция - метод, используемый в статистике, распознавании образов и других областях.
Мультиколлинеарность - ситуация линейной зависимости в регрессионной модели.
One-hot - бит-векторное представление, в котором одновременно можно установить только один бит.

дальнейшее чтение

Астериу, Димитриос; Холл, СГ (2015). "Фиктивные переменные". Прикладная эконометрика (3-е изд.). Лондон: Пэлгрейв Макмиллан. стр. 209–230. ISBN 978-1-137-41546-2.
Койман, Мариус А. (1976). Фиктивные переменные в эконометрике . Тилбург: Издательство Тилбургского университета. ISBN 90-237-2919-6.

Внешние ссылки

В Викиверситете есть учебные ресурсы по фиктивной переменной (статистике).

Маатуис, Марлоэс (2007). «Глава 7: Регрессия с фиктивными переменными» (PDF) . Статистика 423: Прикладная регрессия и дисперсионный анализ . Архивировано из оригинала (PDF) 16 декабря 2011 года.
Фокс, Джон (2010). «Регрессия с фиктивной переменной» (PDF) .
Бейкер, Сэмюэл Л. (2006). «Фиктивные переменные» (PDF) . Архивировано из оригинала (PDF) 1 марта 2006 г.

Фиктивная переменная (статистика)

Смотрите также

Рекомендации

дальнейшее чтение

Внешние ссылки