stringtranslate.com

Панельные данные

В статистике и эконометрике панельные данные и продольные данные [1] [2] являются многомерными данными , включающими измерения с течением времени. Панельные данные представляют собой подмножество продольных данных, где наблюдения каждый раз относятся к одним и тем же субъектам .

Временные ряды и данные поперечного сечения можно рассматривать как особые случаи панельных данных, которые находятся только в одном измерении (один член панели или индивидуум для первого, одна временная точка для второго). Поиск литературы часто включает временные ряды, данные поперечного сечения или панельные данные. Данные поперечного сечения (CPD) являются инновационным, но недооцененным источником информации в математических и статистических науках. CPD выделяется среди других методов исследования, поскольку наглядно иллюстрирует, как независимые и зависимые переменные могут меняться между странами. Этот сбор панельных данных позволяет исследователям изучать связь между переменными в нескольких секциях и временных периодах и анализировать результаты политических действий в других странах. [3]

Исследование, в котором используются панельные данные, называется продольным исследованием или панельным исследованием.

Пример

В примере процедуры множественной перестановки ответов ( MRPP ) выше показаны два набора данных с панельной структурой, и цель состоит в том, чтобы проверить, есть ли существенная разница между людьми в выборочных данных. Индивидуальные характеристики (доход, возраст, пол) собираются для разных людей и разных лет. В первом наборе данных два человека (1, 2) наблюдаются каждый год в течение трех лет (2016, 2017, 2018). Во втором наборе данных три человека (1, 2, 3) наблюдаются два раза (человек 1), три раза (человек 2) и один раз (человек 3) соответственно в течение трех лет (2016, 2017, 2018); в частности, человек 1 не наблюдается в 2018 году, а человек 3 не наблюдается в 2016 или 2018 году.

Сбалансированная панель ( например, первый набор данных выше) — это набор данных, в котором каждый член панели (т. е. человек) наблюдается каждый год. Следовательно, если сбалансированная панель содержит членов панели и периоды, количество наблюдений ( ) в наборе данных обязательно равно .

Несбалансированная панель (например, второй набор данных выше) — это набор данных, в котором по крайней мере один член панели не наблюдается в каждом периоде. Поэтому, если несбалансированная панель содержит членов панели и периоды, то для числа наблюдений ( ) в наборе данных выполняется следующее строгое неравенство : .

Оба набора данных выше структурированы в длинном формате , где одна строка содержит одно наблюдение за время. Другим способом структурирования панельных данных будет широкий формат , где одна строка представляет одну единицу наблюдения для всех моментов времени (например, широкий формат будет иметь только две (первый пример) или три (второй пример) строки данных с дополнительными столбцами для каждой переменной, изменяющейся во времени (доход, возраст).

Анализ

Панель имеет вид

где — индивидуальное измерение, а — временное измерение. Общая модель регрессии панельных данных записывается как . Можно сделать различные предположения о точной структуре этой общей модели. Две важные модели — это модель с фиксированными эффектами и модель со случайными эффектами .

Рассмотрим общую модель панельных данных:

являются индивидуальными, не зависящими от времени эффектами (например, в группе стран это может включать географию, климат и т. д.), которые фиксируются во времени, тогда как — это случайный компонент, изменяющийся во времени.

Если не наблюдается и коррелирует хотя бы с одной из независимых переменных, то это вызовет смещение пропущенной переменной в стандартной регрессии OLS . Однако для его контроля можно использовать методы панельных данных, такие как оценка фиксированных эффектов или, в качестве альтернативы, оценка первой разности .

Если не коррелирует ни с одной из независимых переменных, обычные методы линейной регрессии наименьших квадратов могут быть использованы для получения несмещенных и последовательных оценок параметров регрессии. Однако, поскольку фиксировано с течением времени, это вызовет последовательную корреляцию в погрешности регрессии. Это означает, что доступны более эффективные методы оценки. Случайные эффекты являются одним из таких методов: это особый случай допустимых обобщенных наименьших квадратов , который контролирует структуру последовательной корреляции, вызванной .

Динамические панельные данные

Динамические панельные данные описывают случай, когда в качестве регрессора используется задержка зависимой переменной:

Наличие лаговой зависимой переменной нарушает строгую экзогенность, то есть может возникнуть эндогенность . Оценка фиксированных эффектов и оценка первых разностей оба основаны на предположении строгой экзогенности. Следовательно, если считается, что коррелирует с одной из независимых переменных, необходимо использовать альтернативный метод оценки. В этой ситуации обычно используются инструментальные переменные или методы GMM, такие как оценка Ареллано–Бонда . При оценке этого мы должны иметь надлежащую информацию об инструментальных переменных.

Наборы данных, имеющие панельную конструкцию

Наборы данных, имеющие многомерную панельную конструкцию

Примечания

  1. ^ Диггл, Питер Дж.; Хигерти, Патрик; Лян, Кунг-Йи; Зегер, Скотт Л. (2002). Анализ продольных данных (2-е изд.). Издательство Оксфордского университета. п. 2. ISBN 0-19-852484-6.
  2. ^ Фицморис, Гарретт М.; Лэрд, Нэн М.; Уэр, Джеймс Х. (2004). Прикладной лонгитюдный анализ . Хобокен: John Wiley & Sons. стр. 2. ISBN 0-471-21487-6.
  3. ^ Заман, Халид (2023-01-24). «Заметка о методах кросс-панельных данных». Последние разработки в эконометрике . 1 (1): 1–7. doi :10.5281/zenodo.7565625.

Ссылки

Внешние ссылки