Проблема изменяемой площадной единицы ( MAUP ) является источником статистического смещения , которое может существенно повлиять на результаты проверки статистических гипотез . MAUP влияет на результаты, когда точечные измерения пространственных явлений агрегируются в пространственные разделы или площадные единицы (такие как регионы или районы ), как, например, плотность населения или показатели заболеваемости . [1] [2] Полученные сводные значения (например, итоги, показатели, пропорции, плотности) зависят как от формы, так и от масштаба агрегационной единицы. [3]
Например, данные переписи могут быть объединены в округа, переписные участки, почтовые индексы, полицейские участки или любые другие произвольные пространственные разбиения. Таким образом, результаты объединения данных зависят от выбора картографом того, какую «изменяемую территориальную единицу» использовать в своем анализе. Карта- карта переписи , вычисляющая плотность населения с использованием границ штатов, даст радикально иные результаты, чем карта, которая вычисляет плотность на основе границ округов. Кроме того, границы округов переписи также могут меняться с течением времени, [4] что означает, что MAUP необходимо учитывать при сравнении прошлых данных с текущими данными.
Эта проблема была впервые выявлена Гельке и Билем в 1934 году [5] и позднее подробно описана в статье в серии «Концепции и методы современной географии » (CATMOG) Стэна Опеншоу (1984) и в книге Джузеппе Арбиа (1988). В частности, Опеншоу (1984) заметил, что «ареальные единицы (зональные объекты), используемые во многих географических исследованиях, являются произвольными, изменяемыми и зависят от прихотей и фантазий того, кто делает или делал агрегацию». [6] Проблема особенно очевидна, когда агрегированные данные используются для кластерного анализа для пространственной эпидемиологии , пространственной статистики или картографирования хороплета , в которых легко можно сделать неверные интерпретации, не осознавая этого. Многие области науки, особенно гуманитарная география, склонны игнорировать MAUP при выводе выводов из статистики на основе агрегированных данных. [2] MAUP тесно связан с темой экологической ошибки и экологической предвзятости (Arbia, 1988). Работа Стэна Опеншоу по этой теме привела к тому, что Майкл Ф. Гудчайлд предложил называть ее «эффектом Опеншоу». [7]
Экологическое смещение, вызванное MAUP, было задокументировано как два отдельных эффекта, которые обычно происходят одновременно во время анализа агрегированных данных. Во-первых, эффект масштаба вызывает вариацию статистических результатов между различными уровнями агрегации (радиальное расстояние). Таким образом, связь между переменными зависит от размера площадных единиц, для которых сообщаются данные. Как правило, корреляция увеличивается с увеличением размера площадной единицы. Эффект зонирования описывает вариацию в статистике корреляции, вызванную перегруппировкой данных в различные конфигурации в одном и том же масштабе (форма площади). [8]
Начиная с 1930-х годов исследования обнаружили дополнительную вариацию в статистических результатах из-за MAUP. Стандартные методы расчета внутригрупповой и межгрупповой дисперсии не учитывают дополнительную дисперсию, наблюдаемую в исследованиях MAUP по мере изменения группировок. MAUP можно использовать в качестве методологии для расчета верхних и нижних пределов, а также средних параметров регрессии для нескольких наборов пространственных группировок. MAUP является критическим источником ошибок в пространственных исследованиях, как наблюдательных, так и экспериментальных. Таким образом, согласованность единиц, особенно в контексте временных рядов поперечного сечения (TSCS), имеет важное значение. Кроме того, проверки надежности чувствительности единиц к альтернативной пространственной агрегации должны регулярно выполняться для смягчения связанных с этим смещений в результирующих статистических оценках.
В литературе было сделано несколько предложений по снижению смещения агрегации во время регрессионного анализа . Исследователь может скорректировать матрицу дисперсии-ковариации, используя образцы из данных индивидуального уровня. [9] В качестве альтернативы можно сосредоточиться на локальной пространственной регрессии, а не на глобальной регрессии. Исследователь может также попытаться спроектировать площадные единицы для максимизации конкретного статистического результата. [6] Другие утверждают, что может быть сложно построить единый набор оптимальных единиц агрегации для нескольких переменных, каждая из которых может демонстрировать нестационарность и пространственную автокорреляцию в пространстве по-разному. Другие предлагают разрабатывать статистику, которая изменяется в зависимости от масштаба предсказуемым образом, возможно, используя фрактальную размерность как независимую от масштаба меру пространственных отношений. Другие предлагают байесовские иерархические модели в качестве общей методологии для объединения агрегированных и индивидуальных данных для экологического вывода.
Исследования MAUP, основанные на эмпирических данных, могут дать лишь ограниченное понимание из-за невозможности контролировать отношения между несколькими пространственными переменными. Моделирование данных необходимо для контроля различных свойств данных индивидуального уровня. Исследования моделирования продемонстрировали, что пространственная поддержка переменных может влиять на величину экологического смещения, вызванного агрегацией пространственных данных. [10]
Используя моделирование для одномерных данных, Ларсен отстаивал использование дисперсионного отношения для исследования эффекта пространственной конфигурации, пространственной ассоциации и агрегации данных. [11] Подробное описание вариации статистики из-за MAUP представлено Рейнольдсом, который демонстрирует важность пространственного расположения и пространственной автокорреляции значений данных. [12] Эксперименты по моделированию Рейнольдса были расширены Свифтом, который в серии из девяти упражнений начал с имитационного регрессионного анализа и пространственного тренда, а затем сосредоточился на теме MAUP в контексте пространственной эпидемиологии. Представлен метод анализа чувствительности MAUP, который демонстрирует, что MAUP не является полностью проблемой. [10] MAUP можно использовать в качестве аналитического инструмента, помогающего понять пространственную неоднородность и пространственную автокорреляцию .
Эта тема особенно важна, поскольку в некоторых случаях агрегация данных может скрыть сильную корреляцию между переменными, делая связь слабой или даже отрицательной. И наоборот, MAUP может заставить случайные переменные выглядеть так, как будто есть значимая связь там, где ее нет. Параметры многомерной регрессии более чувствительны к MAUP, чем коэффициенты корреляции. Пока не будет найдено более аналитическое решение для MAUP, рекомендуется пространственный анализ чувствительности с использованием различных площадных единиц в качестве методологии оценки неопределенности коэффициентов корреляции и регрессии из-за экологического смещения. Доступен пример моделирования данных и повторной агрегации с использованием библиотеки ArcPy. [13] [14]
В транспортном планировании MAUP ассоциируется с Traffic Analysis Zoning (TAZ). Основной отправной точкой в понимании проблем в транспортном анализе является признание того, что пространственный анализ имеет некоторые ограничения, связанные с дискретизацией пространства. Среди них, изменяемые площадные единицы и проблемы границ, которые напрямую или косвенно связаны с транспортным планированием и анализом через проектирование зон анализа трафика — большинство транспортных исследований прямо или косвенно требуют определения TAZ. Изменяемым границам и проблемам масштаба следует уделять особое внимание при спецификации TAZ из-за эффектов, которые эти факторы оказывают на статистические и математические свойства пространственных моделей (т. е. проблема изменяемой площадной единицы — MAUP). В исследованиях Виегаса, Мартинеса и Сильвы (2009, 2009b) [14] авторы предлагают метод, в котором результаты, полученные при изучении пространственных данных, не являются независимыми от масштаба, а эффекты агрегации подразумеваются при выборе зональных границ. Разграничение зональных границ TAZ оказывает прямое влияние на реальность и точность результатов, полученных с помощью моделей прогнозирования перевозок. В этой статье эффекты MAUP на определение TAZ и модели спроса на перевозки измеряются и анализируются с использованием различных сеток (по размеру и по местоположению происхождения). Этот анализ был разработан путем создания приложения, интегрированного в коммерческое программное обеспечение ГИС, и с использованием тематического исследования (метрополитенский район Лиссабона) для проверки его реализуемости и производительности. Результаты раскрывают конфликт между статистической и географической точностью и их связь с потерей информации на этапе распределения трафика моделей планирования перевозок. [14]
Исследования также выявили, что проблема изменяемых площадных единиц (MAUP) является фактором в действиях по борьбе с изменением климата и управлении им, влияя на координацию между национальными и местными субъектами. Проблемы масштабирования данных, связанные с MAUP, могут привести к несоответствиям в приоритетах в области климата и создать неравенство в результатах действий по борьбе с изменением климата, что может подорвать эффективность политики, направленной на решение проблемы изменения климата на разных уровнях управления. [15]
{{cite journal}}
: CS1 maint: bibcode ( ссылка )