Панельные данные

В статистике и эконометрике панельные данные и продольные данные ^[1]^[2] представляют собой многомерные данные , включающие измерения во времени. Панельные данные — это подмножество продольных данных, в которых наблюдения каждый раз проводятся по одним и тем же субъектам.

Временные ряды и перекрестные данные можно рассматривать как особые случаи панельных данных, которые представлены только в одном измерении (один член панели или отдельное лицо для первого, один момент времени для второго). Поиск литературы часто включает в себя временные ряды, перекрестные или панельные данные. Межпанельные данные (CPD) — это инновационный, но недооцененный источник информации в математических и статистических науках. CPD выделяется среди других методов исследования, поскольку наглядно иллюстрирует, как независимые и зависимые переменные могут меняться между странами. Этот сбор панельных данных позволяет исследователям изучать связь между переменными в нескольких разрезах и периодах времени и анализировать результаты политических действий в других странах. ^[3]

Исследование, в котором используются панельные данные, называется лонгитюдным или панельным исследованием.

Пример

В приведенном выше примере процедуры перестановки множественных ответов ( MRPP ) показаны два набора данных с панельной структурой, и цель состоит в том, чтобы проверить, существует ли значительная разница между людьми в выборочных данных. Индивидуальные характеристики (доход, возраст, пол) собираются для разных лиц и разных лет. В первом наборе данных два человека (1, 2) наблюдаются каждый год в течение трех лет (2016, 2017, 2018). Во втором наборе данных три человека (1, 2, 3) наблюдаются два раза (человек 1), три раза (человек 2) и один раз (человек 3) соответственно в течение трех лет (2016, 2017, 2018). ; в частности, человек 1 не наблюдается в 2018 году, а человек 3 не наблюдается в 2016 или 2018 году.

Сбалансированная панель (например, первый набор данных выше) — это набор данных, в котором каждый член панели (т. е. человек) наблюдается каждый год. Следовательно, если сбалансированная панель содержит членов панели и периоды, количество наблюдений ( ) в наборе данных обязательно равно . $N$ $T$ $n$ $n=N\cdot T$

Несбалансированная панель (например, второй набор данных выше) — это набор данных, в котором хотя бы один член панели не наблюдается каждый период. Следовательно, если несбалансированная панель содержит членов панели и периоды, то для количества наблюдений ( ) в наборе данных справедливо следующее строгое неравенство: . $N$ $T$ $n$ $n<N\cdot T$

Оба набора данных выше структурированы в длинном формате , где одна строка содержит одно наблюдение за раз. Другим способом структурирования панельных данных может быть широкий формат , где одна строка представляет одну единицу наблюдения для всех моментов времени (например, широкий формат будет иметь только две (первый пример) или три (второй пример) строки данных с дополнительными столбцы для каждой изменяющейся во времени переменной (доход, возраст).

Анализ

Панель имеет вид

X_{it},\quad i=1,\dots ,N,\quad t=1,\dots ,T,

где – индивидуальное измерение, а – временное измерение. Общая регрессионная модель панельных данных записывается как . Можно сделать различные предположения о точной структуре этой общей модели. Двумя важными моделями являются модель с фиксированными эффектами и модель со случайными эффектами . $i$ $t$ $y_{it}=\alpha +\beta 'X_{it}+u_{it}$

Рассмотрим общую модель панельных данных:

y_{it}=\alpha +\beta 'X_{it}+u_{it},

u_{it}=\mu _{i}+v_{it}.

$\mu _{i}$ представляют собой индивидуальные, не зависящие от времени эффекты (например, в группе стран это могут быть географические, климатические и т. д.), которые фиксируются во времени, тогда как представляют собой изменяющийся во времени случайный компонент. $v_{it}$

Если он не наблюдается и коррелирует хотя бы с одной из независимых переменных, то это вызовет смещение пропущенной переменной в стандартной регрессии OLS . Однако для управления им можно использовать методы панельных данных, такие как оценщик фиксированных эффектов или, альтернативно, оценщик первой разности . $\mu _{i}$

Если он не коррелирует ни с одной из независимых переменных, можно использовать обычные методы линейной регрессии наименьших квадратов для получения несмещенных и последовательных оценок параметров регрессии. Однако, поскольку это фиксировано с течением времени, это приведет к серийной корреляции в ошибочном члене регрессии. Это означает, что доступны более эффективные методы оценки. Случайные эффекты являются одним из таких методов: это частный случай допустимого обобщенного метода наименьших квадратов , который контролирует структуру серийной корреляции, индуцированной . $\mu _{i}$ $\mu _{i}$ $\mu _{i}$

Данные динамической панели

Данные динамической панели описывают случай, когда в качестве регрессора используется запаздывание зависимой переменной:

y_{it}=\alpha +\beta 'X_{it}+\gamma y_{it-1}+u_{it}.

Наличие лагированной зависимой переменной нарушает строгую экзогенность, то есть может возникнуть эндогенность . И оценка с фиксированным эффектом, и оценка первых разностей основаны на предположении о строгой экзогенности. Следовательно, если предполагается, что она коррелирует с одной из независимых переменных, необходимо использовать альтернативный метод оценки. В этой ситуации обычно используются инструментальные переменные или методы GMM, такие как оценщик Арельяно-Бонда . При оценке этого мы должны иметь правильную информацию об инструментальных переменных. $u_{i}$

Наборы данных, имеющие панельную конструкцию

Российское мониторинговое исследование (RLMS)
Немецкая социально-экономическая группа (SOEP)
Исследование динамики домохозяйств, доходов и труда в Австралии (HILDA)
Британское панельное обследование домохозяйств (BHPS)
Исследование семейных доходов и занятости (SoFIE)
Исследование доходов и участия в программах (SIPP)
База данных рынка труда на протяжении всей жизни (LLMDB)
Продольные интернет-исследования в области социальных наук (LISS)
Панельное исследование динамики доходов (PSID)
Корейское панельное исследование труда и доходов (KLIPS)
Китайские панельные исследования семей (CFPS)
Немецкая семейная панель (парафам)
Национальные продольные исследования (NLSY)
Обследование рабочей силы (ОРС)
Корейская молодежная панель (YP)
Корейское продольное исследование старения (KLoSA)

Наборы данных, имеющие многомерную панельную структуру

Примечания

^ Диггл, Питер Дж.; Хигерти, Патрик; Лян, Кунг-Йи; Зегер, Скотт Л. (2002). Анализ продольных данных (2-е изд.). Издательство Оксфордского университета. п. 2. ISBN 0-19-852484-6.
^ Фицморис, Гаррет М.; Лэрд, Нэн М.; Уэр, Джеймс Х. (2004). Прикладной продольный анализ . Хобокен: Джон Уайли и сыновья. п. 2. ISBN 0-471-21487-6.
^ Заман, Халид (24 января 2023 г.). «Заметки о методах работы с кросс-панельными данными». Последние разработки в эконометрике . 1 (1): 1–7. дои : 10.5281/zenodo.7565625.

Внешние ссылки

PSID
КЛИПС
парафам
Исследование занятости в Корее