stringtranslate.com

Регрессия-кригинг

В прикладной статистике и геостатистике регрессионный кригинг ( РК ) — это метод пространственного прогнозирования, который сочетает регрессию зависимой переменной на вспомогательных переменных (таких как параметры, полученные из цифрового моделирования рельефа, дистанционного зондирования/снимков и тематических карт) с интерполяцией ( кригингом ) остатков регрессии. Он математически эквивалентен методу интерполяции, который по-разному называют универсальным кригингом и кригингом с внешним дрейфом , где вспомогательные предикторы используются непосредственно для решения весов кригинга. [1]

BLUP для пространственных данных

Универсальная модель пространственной вариационной схемы.

Регрессионный кригинг — это реализация наилучшего линейного несмещенного предиктора (BLUP) для пространственных данных, т.е. наилучшего линейного интерполятора, предполагающего универсальную модель пространственной вариации. Матерон (1969) предположил, что значение целевой переменной в некотором месте может быть смоделировано как сумма детерминированных и стохастических компонентов: [2]

которую он назвал универсальной моделью пространственной вариации . Как детерминированные , так и стохастические компоненты пространственной вариации могут быть смоделированы отдельно. Объединив два подхода, мы получаем:

где — подобранная детерминированная часть, — интерполированный остаток, — оцененные коэффициенты детерминированной модели ( — оцененный отсекаемый элемент), — веса кригинга, определяемые пространственной структурой зависимости остатка и где — остаток в местоположении . Коэффициенты регрессии можно оценить из выборки с помощью некоторого метода подгонки, например, обычного метода наименьших квадратов (OLS) или, оптимально, с помощью обобщенного метода наименьших квадратов (GLS): [3]

где — вектор оцененных коэффициентов регрессии, — ковариационная матрица остатков, — матрица предикторов в местах выборки, — вектор измеренных значений целевой переменной. Оценка коэффициентов регрессии методом GLS фактически является частным случаем географически взвешенной регрессии. В этом случае веса определяются объективно для учета пространственной автокорреляции между остатками.

После оценки детерминированной части вариации (регрессионной части) остаток можно интерполировать с помощью кригинга и добавить к оцененному тренду. Оценка остатков представляет собой итеративный процесс: сначала детерминированная часть вариации оценивается с использованием OLS, затем ковариационная функция остатков используется для получения коэффициентов GLS. Затем они используются для повторного вычисления остатков, из которых вычисляется обновленная ковариационная функция и т. д. Хотя многие геостатистики рекомендуют это как надлежащую процедуру, Китанидис (1994) показал, что использование ковариационной функции, полученной из остатков OLS (т. е. одной итерации), часто бывает удовлетворительным, поскольку она недостаточно отличается от функции, полученной после нескольких итераций; т. е. она не сильно влияет на окончательные прогнозы. Минасны и МакБратни (2007) сообщают о похожих результатах — кажется, что использование более качественных данных важнее, чем использование более сложных статистических методов. [4]

В матричной записи регрессионный кригинг обычно записывается как: [5]

где — прогнозируемое значение в местоположении , — вектор предикторов, — вектор весов кригинга, используемый для интерполяции остатков. Модель RK считается лучшим линейным предиктором пространственных данных . [5] [6] Она имеет дисперсию прогноза, которая отражает положение новых местоположений (экстраполяцию) как в географическом, так и в пространстве признаков:

где — вариация порога, а — вектор ковариаций остатков в непосещенном месте.

Дерево решений для выбора подходящей модели пространственного прогнозирования.

Многие (гео)статистики полагают, что существует только одна Лучшая линейная несмещенная модель прогнозирования для пространственных данных (например, регрессионный кригинг), все остальные методы, такие как обычный кригинг, экологическая корреляция, усреднение значений по полигонам или обратная интерполяция расстояний, можно рассматривать как ее частные случаи. Если остатки не показывают пространственной автокорреляции (чистый эффект самородка), регрессионный кригинг сходится к чистой множественной линейной регрессии, поскольку ковариационная матрица ( ) становится матрицей тождественности. Аналогично, если целевая переменная не показывает корреляции со вспомогательными предикторами, модель регрессионного кригинга сводится к обычной модели кригинга, поскольку детерминированная часть равна (глобальному) среднему значению. Следовательно, чистый кригинг и чистую регрессию следует рассматривать только как частные случаи регрессионного кригинга (см. рисунок).

РК и Великобритания/КЕД

В геостатистической литературе используется много разных терминов для обозначения по сути одних и тех же или, по крайней мере, очень похожих методов. Это сбивает пользователей с толку и отвлекает их от использования правильного метода для своих картографических проектов. Фактически, и универсальный кригинг, и кригинг с внешним дрейфом, и регрессионный кригинг — это по сути один и тот же метод.

Matheron (1969) первоначально назвал технику Le krigeage universel , однако, техника была задумана как обобщенный случай кригинга, где тренд моделируется как функция координат. Таким образом, многие авторы резервируют термин универсальный кригинг (УК) для случая, когда в качестве предикторов используются только координаты. Если детерминированная часть вариации ( дрейф ) определяется внешне как линейная функция некоторых вспомогательных переменных, а не координат, предпочтительнее термин кригинг с внешним дрейфом (КЭД) (согласно Хенглу 2007, «О регрессионном кригинге: от уравнений к примерам»). В случае УК или КЭД прогнозы делаются так же, как и при кригинге, с той разницей, что ковариационная матрица остатков расширяется вспомогательными предикторами. Однако дрейф и остатки также можно оценить отдельно, а затем суммировать. Эта процедура была предложена Ахмедом и др. (1987) и Одехом и др. (1995) позже назвал его регрессионным кригингом , в то время как Гувертс (1997) использует термин кригинг с моделью тренда для обозначения семейства интерполяторов и называет РК простым кригингом с различными локальными средними . Минасны и МакБратни (2007) просто называют этот метод эмпирическим наилучшим линейным несмещенным предиктором, т.е. E-BLUP . [7] [8] [9] [4]

В случае KED прогнозы в новых местах делаются следующим образом:

для

для или в матричной записи:

где - целевая переменная, 's - предикторные переменные, т.е. значения в новом местоположении , - вектор весов KED ( ), - количество предикторов и - вектор наблюдений в первичных местоположениях. Веса KED решаются с использованием расширенных матриц:

где — вектор решенных весов, — множители Лагранжа, — расширенная ковариационная матрица остатков, — расширенный вектор ковариаций в новом месте.

В случае KED расширенная ковариационная матрица остатков выглядит следующим образом (Webster and Oliver, 2007; стр. 183): [10]

и вот так:

Таким образом, KED выглядит точно так же, как обычный кригинг, за исключением того, что ковариационная матрица/вектор расширены значениями вспомогательных предикторов.

Хотя на первый взгляд KED кажется вычислительно более простым, чем RK, параметры вариограммы для KED также должны оцениваться из остатков регрессии, что требует отдельного шага регрессионного моделирования. Эта регрессия должна быть GLS из-за вероятной пространственной корреляции между остатками. Обратите внимание, что многие аналитики используют вместо этого остатки OLS, которые могут не слишком отличаться от остатков GLS. Однако они не оптимальны, если есть какая-либо пространственная корреляция, и, действительно, они могут быть совершенно разными для кластеризованных точек выборки или если количество выборок относительно мало ( ).

Ограничением KED является нестабильность расширенной матрицы в случае, если ковариата не изменяется плавно в пространстве. RK имеет то преимущество, что он явно разделяет оценку тренда от пространственного прогнозирования остатков, позволяя использовать произвольно сложные формы регрессии, а не простые линейные методы, которые можно использовать с KED. Кроме того, он позволяет раздельно интерпретировать два интерполированных компонента. Акцент на регрессии важен также потому, что подгонка детерминированной части вариации (регрессии) часто более полезна для качества конечных карт, чем подгонка стохастической части (остатков).

Программное обеспечение для запуска регрессионного кригинга

Пример общей структуры для пространственного прогнозирования почвенных переменных на основе регрессионного кригинга. [9]

Регрессионный кригинг может быть автоматизирован, например, в среде статистических вычислений R, с использованием пакета gstat и/или geoR. Типичные входы/выходы включают:

ВХОДЫ:

ВЫХОДЫ:

Применение регрессионного кригинга

Регрессионный кригинг используется в различных прикладных областях, от метеорологии, климатологии, картирования почв, геологического картирования, моделирования распределения видов и т. д. Единственное требование для использования регрессионного кригинга по сравнению, например, с обычным кригингом, заключается в том, что существует один или несколько ковариационных слоев, которые значительно коррелируют с интересующим признаком. Некоторые общие приложения регрессионного кригинга:

Моделирование концентраций цинка, полученное с помощью модели регрессионного кригинга. Эта модель использует один непрерывный (расстояние до реки) и один категориальный (частота затопления) ковариат. Код, используемый для создания этих карт, доступен здесь.

Алгоритмы на основе регрессионного кригинга играют все более важную роль в геостатистике, поскольку число возможных ковариатов увеличивается с каждым днем. [1] Например, ЦМР теперь доступны из ряда источников. Подробные и точные изображения рельефа теперь можно заказать из систем дистанционного зондирования, таких как SPOT и ASTER ; SPOT5 предлагает сканер высокого разрешения Stereoscopic (HRS), который может использоваться для создания ЦМР с разрешением до 5 м. [12] Более мелкие различия в высоте также можно получить с помощью воздушных лазерных сканеров. Стоимость данных либо бесплатна, либо снижается по мере развития технологий. НАСА записало большую часть топографии мира в ходе радиолокационной топографической миссии Shuttle в 2000 году . [13] С лета 2004 года эти данные были доступны (например, через ftp USGS) почти для всего земного шара с разрешением около 90 м (для североамериканского континента с разрешением около 30 м). Аналогично, мультиспектральные изображения MODIS доступны для бесплатной загрузки с разрешением 250 м. Большой бесплатный репозиторий изображений Landsat также доступен для загрузки через Global Land Cover Facility (GLCF).

Ссылки

  1. ^ ab Pebesma, Edzer J (1 июля 2006 г.). «Роль внешних переменных и баз данных ГИС в геостатистическом анализе» (PDF) . Transactions in GIS . 10 (4): 615–632. doi :10.1111/j.1467-9671.2006.01015.x. S2CID  22146107.
  2. ^ Матерон, Жорж (1969). «Часть 1 Cahiers du Centre de morphologie mathématique de Fontainebleau». Le krigage Universel . Высшая национальная школа горнодобывающей промышленности Парижа.
  3. ^ Cressie, Noel (2012). Статистика пространственно-временных данных . Hoboken, NJ: Wiley. ISBN 978-0-471-69274-4.
  4. ^ ab Minasny, Budiman; McBratney, Alex B. (31 июля 2007 г.). «Пространственное прогнозирование свойств почвы с использованием EBLUP с функцией ковариации Матерна». Geoderma . 140 (4): 324–336. Bibcode :2007Geode.140..324M. doi :10.1016/j.geoderma.2007.04.028.
  5. ^ ab Christensen, Ronald (2001). Расширенное линейное моделирование: многомерные, временные ряды и пространственные данные; непараметрическая регрессия и максимизация поверхности отклика (2-е изд.). Нью-Йорк, Нью-Йорк [ua]: Springer. ISBN 978-0-387-95296-3.
  6. ^ Голдбергер, А.С. (1962). «Лучшее линейное несмещенное предсказание в обобщенной линейной регрессионной модели». Журнал Американской статистической ассоциации . 57 (298): 369–375. doi :10.1080/01621459.1962.10480665. JSTOR  2281645.
  7. ^ Ахмед, Шакил; Де Марсили, Гислен (1 января 1987 г.). «Сравнение геостатистических методов оценки проницаемости с использованием данных о проницаемости и удельной емкости». Water Resources Research . 23 (9): 1717. Bibcode : 1987WRR....23.1717A. doi : 10.1029/WR023i009p01717.
  8. ^ Одех, IOA; МакБрэтни, AB; Читлборо, DJ (31 июля 1995 г.). «Дальнейшие результаты прогнозирования свойств почвы по атрибутам рельефа: гетеротопный кокригинг и регрессионный кригинг». Geoderma . 67 (3–4): 215–226. Bibcode :1995Geode..67..215O. doi :10.1016/0016-7061(95)00007-B.
  9. ^ ab Hengl, Tomislav; Heuvelink, Gerard BM; Stein, Alfred (30 апреля 2004 г.). "Общая структура для пространственного прогнозирования почвенных переменных на основе регрессионного кригинга" (PDF) . Geoderma . 120 (1–2): 75–93. Bibcode :2004Geode.120...75H. doi :10.1016/j.geoderma.2003.08.018.
  10. ^ Вебстер, Ричард; Оливер, Маргарет А. (2007). Геостатистика для ученых-экологов (2-е изд.). Чичестер: Wiley. ISBN 978-0-470-02858-2.
  11. ^ Хенгль, Томислав; Баят, Бранислав; Благоевич, Драган; Рейтер, Ханнес И. (1 декабря 2008 г.). «Геостатистическое моделирование топографии с использованием вспомогательных карт» (PDF) . Компьютеры и науки о Земле . 34 (12): 1886–1899. Bibcode :2008CG.....34.1886H. doi :10.1016/j.cageo.2008.01.005.
  12. ^ Toutin, Thierry (30 апреля 2006 г.). «Создание DSM из стереоданных HRS и HRG в треке SPOT-5 с использованием пространственной триангуляции и автокалибровки». Журнал фотограмметрии и дистанционного зондирования ISPRS . 60 (3): 170–181. Bibcode : 2006JPRS...60..170T. doi : 10.1016/j.isprsjprs.2006.02.003.
  13. ^ Рабус, Бернхард; Эйнедер, Майкл; Рот, Ахим; Бамлер, Ричард (31 января 2003 г.). «Топографическая миссия шаттла — новый класс цифровых моделей рельефа, полученных с помощью космического радара». Журнал фотограмметрии и дистанционного зондирования ISPRS . 57 (4): 241–262. Bibcode : 2003JPRS...57..241R. doi : 10.1016/S0924-2716(02)00124-7.

Дальнейшее чтение

Внешние ссылки