stringtranslate.com

Панельные данные

В статистике и эконометрике панельные данные и продольные данные [1] [2] представляют собой многомерные данные , включающие измерения во времени. Панельные данные — это подмножество продольных данных, в которых наблюдения каждый раз проводятся по одним и тем же субъектам.

Временные ряды и перекрестные данные можно рассматривать как особые случаи панельных данных, которые представлены только в одном измерении (один член панели или отдельное лицо для первого, один момент времени для второго). Поиск литературы часто включает в себя временные ряды, перекрестные или панельные данные. Межпанельные данные (CPD) — это инновационный, но недооцененный источник информации в математических и статистических науках. CPD выделяется среди других методов исследования, поскольку наглядно иллюстрирует, как независимые и зависимые переменные могут меняться между странами. Этот сбор панельных данных позволяет исследователям изучать связь между переменными в нескольких разрезах и периодах времени и анализировать результаты политических действий в других странах. [3]

Исследование, в котором используются панельные данные, называется лонгитюдным или панельным исследованием.

Пример

В приведенном выше примере процедуры перестановки множественных ответов ( MRPP ) показаны два набора данных с панельной структурой, и цель состоит в том, чтобы проверить, существует ли значительная разница между людьми в выборочных данных. Индивидуальные характеристики (доход, возраст, пол) собираются для разных лиц и разных лет. В первом наборе данных два человека (1, 2) наблюдаются каждый год в течение трех лет (2016, 2017, 2018). Во втором наборе данных три человека (1, 2, 3) наблюдаются два раза (человек 1), три раза (человек 2) и один раз (человек 3) соответственно в течение трех лет (2016, 2017, 2018). ; в частности, человек 1 не наблюдается в 2018 году, а человек 3 не наблюдается в 2016 или 2018 году.

Сбалансированная панель (например, первый набор данных выше) — это набор данных, в котором каждый член панели (т. е. человек) наблюдается каждый год. Следовательно, если сбалансированная панель содержит членов панели и периоды, количество наблюдений ( ) в наборе данных обязательно равно .

Несбалансированная панель (например, второй набор данных выше) — это набор данных, в котором хотя бы один член панели не наблюдается каждый период. Следовательно, если несбалансированная панель содержит членов панели и периоды, то для количества наблюдений ( ) в наборе данных справедливо следующее строгое неравенство: .

Оба набора данных выше структурированы в длинном формате , где одна строка содержит одно наблюдение за раз. Другим способом структурирования панельных данных может быть широкий формат , где одна строка представляет одну единицу наблюдения для всех моментов времени (например, широкий формат будет иметь только две (первый пример) или три (второй пример) строки данных с дополнительными столбцы для каждой изменяющейся во времени переменной (доход, возраст).

Анализ

Панель имеет вид

где – индивидуальное измерение, а – временное измерение. Общая регрессионная модель панельных данных записывается как . Можно сделать различные предположения о точной структуре этой общей модели. Двумя важными моделями являются модель с фиксированными эффектами и модель со случайными эффектами .

Рассмотрим общую модель панельных данных:

представляют собой индивидуальные, не зависящие от времени эффекты (например, в группе стран это могут быть географические, климатические и т. д.), которые фиксируются во времени, тогда как представляют собой изменяющийся во времени случайный компонент.

Если он не наблюдается и коррелирует хотя бы с одной из независимых переменных, то это вызовет смещение пропущенной переменной в стандартной регрессии OLS . Однако для управления им можно использовать методы панельных данных, такие как оценщик фиксированных эффектов или, альтернативно, оценщик первой разности .

Если он не коррелирует ни с одной из независимых переменных, можно использовать обычные методы линейной регрессии наименьших квадратов для получения несмещенных и последовательных оценок параметров регрессии. Однако, поскольку это фиксировано с течением времени, это приведет к серийной корреляции в ошибочном члене регрессии. Это означает, что доступны более эффективные методы оценки. Случайные эффекты являются одним из таких методов: это частный случай допустимого обобщенного метода наименьших квадратов , который контролирует структуру серийной корреляции, индуцированной .

Данные динамической панели

Данные динамической панели описывают случай, когда в качестве регрессора используется запаздывание зависимой переменной:

Наличие лагированной зависимой переменной нарушает строгую экзогенность, то есть может возникнуть эндогенность . И оценка с фиксированным эффектом, и оценка первых разностей основаны на предположении о строгой экзогенности. Следовательно, если предполагается, что она коррелирует с одной из независимых переменных, необходимо использовать альтернативный метод оценки. В этой ситуации обычно используются инструментальные переменные или методы GMM, такие как оценщик Арельяно-Бонда . При оценке этого мы должны иметь правильную информацию об инструментальных переменных.

Наборы данных, имеющие панельную конструкцию

Наборы данных, имеющие многомерную панельную структуру

Примечания

  1. ^ Диггл, Питер Дж.; Хигерти, Патрик; Лян, Кунг-Йи; Зегер, Скотт Л. (2002). Анализ продольных данных (2-е изд.). Издательство Оксфордского университета. п. 2. ISBN 0-19-852484-6.
  2. ^ Фицморис, Гаррет М.; Лэрд, Нэн М.; Уэр, Джеймс Х. (2004). Прикладной продольный анализ . Хобокен: Джон Уайли и сыновья. п. 2. ISBN 0-471-21487-6.
  3. ^ Заман, Халид (24 января 2023 г.). «Заметки о методах работы с кросс-панельными данными». Последние разработки в эконометрике . 1 (1): 1–7. дои : 10.5281/zenodo.7565625.

Рекомендации

Внешние ссылки