stringtranslate.com

Модель данных (ГИС)

Географическая модель данных , геопространственная модель данных или просто модель данных в контексте географических информационных систем — это математическая и цифровая структура для представления явлений на Земле. Как правило, такие модели данных представляют различные аспекты этих явлений с помощью географических данных , включая пространственные местоположения , атрибуты, изменение с течением времени и идентичность. Например, векторная модель данных представляет географию как наборы точек, линий и полигонов, а растровая модель данных представляет географию как матрицы ячеек, которые хранят числовые значения. [1] Модели данных реализуются во всей экосистеме ГИС, включая программные инструменты для управления данными и пространственного анализа , данные, хранящиеся в различных форматах файлов ГИС , спецификации и стандарты, а также специальные проекты для установок ГИС.

Хотя уникальная природа пространственной информации привела к появлению собственного набора структур моделей, большая часть процесса моделирования данных похожа на остальную часть информационных технологий, включая переход от концептуальных моделей к логическим моделям и физическим моделям , а также разницу между универсальными моделями и разработками, ориентированными на конкретные приложения.

История

Самые ранние компьютерные системы, которые представляли географические явления, были моделями количественного анализа, разработанными во время количественной революции в географии в 1950-х и 1960-х годах; их нельзя было назвать географической информационной системой, поскольку они не пытались хранить географические данные в последовательной постоянной структуре, а обычно были статистическими или математическими моделями. Первое настоящее программное обеспечение ГИС моделировало пространственную информацию с использованием моделей данных, которые стали известны как растровые или векторные:

Большинство ГИС первого поколения были созданы на заказ для конкретных нужд, с моделями данных, разработанными для наиболее эффективного хранения и обработки с использованием технологических ограничений того времени (особенно перфокарт и ограниченного времени обработки мэйнфреймов). В 1970-х годах ранние системы дали достаточно результатов для сравнения и оценки эффективности их базовых моделей данных. [6] Это привело к усилиям в Гарвардской лаборатории и других местах, сосредоточенным на разработке нового поколения универсальных моделей данных , таких как топологическая векторная модель POLYVRT, которая должна была стать основой для коммерческого программного обеспечения и данных, таких как Esri Coverage. [7]

По мере того, как в 1980-х годах распространялось коммерческое программное обеспечение ГИС, установки ГИС и данные ГИС, ученые начали искать концептуальные модели географических явлений, которые, казалось бы, лежали в основе общих моделей данных, пытаясь выяснить, почему растровые и векторные модели данных, казалось бы, имеют здравый смысл, и как они измеряют и представляют реальный мир. [8] Это было одним из основных направлений, которые сформировали субдисциплину географической информационной науки в начале 1990-х годов.

Дальнейшее развитие моделирования данных ГИС в 1990-х годах было обусловлено быстрым ростом как базы пользователей ГИС, так и вычислительных возможностей. Основные тенденции включали 1) разработку расширений традиционных моделей данных для обработки более сложных потребностей, таких как время, трехмерные структуры, неопределенность и мультимедиа; и 2) необходимость эффективного управления экспоненциально растущими объемами пространственных данных с учетом потребностей предприятий в многопользовательском доступе и безопасности. Эти тенденции в конечном итоге привели к появлению пространственных баз данных , включенных в реляционные базы данных и объектно-реляционные базы данных .

Типы моделей данных

Поскольку мир гораздо сложнее, чем может быть представлен на компьютере, все геопространственные данные являются неполными приближениями мира. [9] Таким образом, большинство моделей геопространственных данных кодируют некоторую форму стратегии для сбора конечной выборки часто бесконечной области и структуру для организации выборки таким образом, чтобы обеспечить интерполяцию природы невыбранной части. Например, здание состоит из бесконечного числа точек в пространстве; векторный многоугольник представляет его несколькими упорядоченными точками, которые соединены в замкнутый контур прямыми линиями, и предполагает, что все внутренние точки являются частью здания; более того, атрибут «высота» может быть единственным представлением его трехмерного объема.

Процесс проектирования геопространственных моделей данных похож на моделирование данных в целом, по крайней мере, в его общей схеме. Например, его можно сегментировать на три различных уровня абстракции модели: [10]

Каждая из этих моделей может быть разработана в одной из двух ситуаций или областей применения :

Концептуальные пространственные модели

Общие геопространственные концептуальные модели пытаются охватить как физическую природу географических явлений, так и то, как люди думают о них и работают с ними. [12] В отличие от стандартного процесса моделирования, описанного выше, модели данных, на которых построена ГИС, изначально не были разработаны на основе общей концептуальной модели географических явлений, но в значительной степени были разработаны в соответствии с технической целесообразностью, вероятно, под влиянием концептуализаций здравого смысла, которые еще не были задокументированы.

Тем не менее, ранняя концептуальная структура, которая оказала большое влияние на раннюю разработку ГИС, была основана на признании Брайаном Берри и другими того, что географическую информацию можно разложить на описание трех совершенно разных аспектов каждого явления: пространства, времени и атрибута/свойства/темы. [13] В качестве дальнейшего развития в 1978 году Дэвид Синтон представил структуру, которая характеризовала различные стратегии измерения, данных и картирования как сохранение одного из трех аспектов постоянным, управление вторым и измерение третьего. [14]

В течение 1980-х и 1990-х годов совокупность пространственных информационных теорий постепенно сформировалась как основная подобласть географической информационной науки , включающая элементы философии (особенно онтологии ), лингвистики и наук о пространственном познании . К началу 1990-х годов возникла базовая дихотомия двух альтернативных способов понимания мира и его содержимого:

Эти две концептуальные модели не предназначены для представления различных явлений, но часто являются различными способами концептуализации и описания одного и того же явления. Например, озеро является объектом, но температура, прозрачность и доля загрязнения воды в озере являются полями (вода сама по себе может рассматриваться как третья концепция массы , но это не так широко принято, как объекты и поля). [16]

Векторная модель данных

Простой векторный набор данных с точками, линиями и полигонами, представляющими водные объекты.

Векторная логическая модель представляет каждое географическое местоположение или явление геометрической формой и набором значений для его атрибутов. Каждая геометрическая форма представлена ​​с помощью координатной геометрии , структурированным набором координат (x,y) в географической системе координат , выбранным из набора доступных геометрических примитивов , таких как точки, линии и многоугольники.

Хотя существуют десятки форматов векторных файлов (т. е. физических моделей данных), используемых в различном программном обеспечении ГИС, большинство из них соответствуют спецификации Simple Feature Access (SFA) от Open Geospatial Consortium (OGC). Она была разработана в 1990-х годах путем поиска общей основы между существующими векторными моделями и в настоящее время закреплена как ISO 19125, эталонный стандарт для векторной модели данных. OGC-SFA включает в себя следующие векторные геометрические примитивы : [17]

Геометрическая форма, хранящаяся в векторном наборе данных, представляющем явление, может иметь или не иметь ту же размерность , что и само явление реального мира. [18] Обычно объект представляют более низким измерением, чем его реальная природа, в зависимости от масштаба и цели представления. Например, город (двумерный регион) может быть представлен в виде точки, а дорога (трехмерная структура) может быть представлена ​​в виде линии. Пока пользователь осознает, что последнее является выбором представления, а дорога на самом деле не является линией, это обобщение может быть полезным для таких приложений, как анализ транспортной сети .

На основе этой базовой стратегии геометрических форм и атрибутов векторные модели данных используют различные структуры для сбора их в единый набор данных (часто называемый слоем ) , обычно содержащий набор связанных функций (например, дороги). Их можно разделить на несколько подходов:

Изображение модели данных покрытия Arc/INFO, геореляционной топологической векторной модели данных, основанной на ранней модели данных POLYVRT

Векторные структуры данных также можно классифицировать по тому, как они управляют топологическими отношениями между объектами в наборе данных: [22]

Векторные данные обычно используются для представления концептуальных объектов (например, деревьев, зданий, округов), но они также могут представлять поля . В качестве примера последнего, температурное поле может быть представлено нерегулярной выборкой точек (например, метеостанции), или изотермами , выборкой линий одинаковой температуры. [10] : 89 

Растровая модель данных

Растровая сетка высот

Растровая логическая модель представляет поле, использующее тесселяцию географического пространства в регулярно разнесенный двумерный массив местоположений (каждое называется ячейкой ), с одним значением атрибута для каждой ячейки (или более чем одним значением в многополосном растре). Как правило, каждая ячейка представляет собой либо один центральный точечный образец (в котором модель измерения для всего растра называется решеткой ) , либо представляет собой сводку (обычно среднее) переменной поля по квадратной области (в котором модель называется сеткой ) . [9] : 86  Общая модель данных по сути та же самая, что используется для изображений и другой растровой графики , с добавлением возможностей для географического контекста. Ниже приведен небольшой пример:

Чтобы представить растровую сетку в компьютерном файле, ее необходимо сериализовать в один (одномерный) список значений. Хотя существуют различные возможные схемы упорядочивания, наиболее часто используемой является row-major , в которой ячейки в первой строке, за которыми сразу следуют ячейки во второй строке, следующим образом:

6 7 10 9 8 6 7 8 6 8 9 10 8 7 7 7 7 8 9 10 9 8 7 6 8 8 9 11 10 9 9 7 . . .

Для реконструкции исходной сетки требуется заголовок с общими параметрами для сетки. Как минимум, ему требуется количество строк в каждом столбце, чтобы он знал, где начинать каждую новую строку, и тип данных каждого значения (т. е. количество бит в каждом значении перед началом следующего значения). [24]

Хотя растровая модель тесно связана с концептуальной моделью поля, объекты также могут быть представлены в растре, по сути, путем преобразования объекта X в дискретное ( булевое ) поле присутствия/отсутствия X. В качестве альтернативы слой объектов (обычно полигонов) может быть преобразован в дискретное поле идентификаторов объектов. В этом случае некоторые форматы растровых файлов позволяют присоединить векторную таблицу атрибутов к растру путем сопоставления значений идентификаторов. [18] Растровые представления объектов часто являются временными, создаются и используются только как часть процедуры моделирования, а не в постоянном хранилище данных. [20] : 135-137 

Чтобы быть полезным в ГИС, растровый файл должен быть геопривязан , чтобы соответствовать реальным местоположениям в мире, поскольку необработанный растр может выражать местоположения только в терминах строк и столбцов. Обычно это делается с помощью набора параметров метаданных , либо в заголовке файла (например, формат GeoTIFF ), либо в файле sidecar (например, файл мира ). По крайней мере, метаданные геопривязки должны включать местоположение по крайней мере одной ячейки в выбранной системе координат и разрешение или размер ячейки , расстояние между каждой ячейкой. Линейное аффинное преобразование является наиболее распространенным типом геопривязки, допускающим вращение и прямоугольные ячейки. [18] : 171  Более сложные схемы геопривязки включают полиномиальные и сплайновые преобразования.

Наборы растровых данных могут быть очень большими, поэтому часто используются методы сжатия изображений . Алгоритмы сжатия идентифицируют пространственные закономерности в данных, затем преобразуют данные в параметризованные представления закономерностей, из которых могут быть реконструированы исходные данные. В большинстве приложений ГИС алгоритмы сжатия без потерь (например, Lempel-Ziv ) предпочтительнее алгоритмов сжатия с потерями (например, JPEG ), поскольку необходимы полные исходные данные, а не интерполяция. [10]

Расширения

Начиная с 1990-х годов, по мере совершенствования исходных моделей данных и программного обеспечения ГИС, одним из основных направлений исследований в области моделирования данных стала разработка расширений традиционных моделей для обработки более сложной географической информации.

Пространственно-временные модели

Время всегда играло важную роль в аналитической географии, начиная, по крайней мере, с региональной научной матрицы Брайана Берри (1964) и географии времени Торстена Хегерстранда (1970). [25] [13] На заре эры GIScience в начале 1990-х годов работа Гейл Лангран открыла двери для исследований методов явного представления изменений с течением времени в данных ГИС; [26] это привело к появлению многих концептуальных и моделей данных в последующие десятилетия. [27] Некоторые формы временных данных начали поддерживаться в готовом программном обеспечении ГИС к 2010 году.

Несколько распространенных моделей представления времени в векторных и растровых данных ГИС включают в себя: [28]

Трехмерные модели

Существует несколько подходов для представления трехмерной картографической информации и для управления ею в модели данных . Некоторые из них были разработаны специально для ГИС, в то время как другие были заимствованы из трехмерной компьютерной графики или автоматизированного черчения (САПР).

Подходы к представлению трехмерной картографической информации и к управлению ею в модели данных. [31]

Смотрите также

Ссылки

  1. ^ Уэйд, Т. и Соммер, С. ред. A to Z GIS
  2. ^ Робертсон, Дж. К. (1967). «Программа Symap для компьютерного картографирования». The Cartographic Journal . 4 (2): 108–113. Bibcode : 1967CartJ...4..108R. doi : 10.1179/caj.1967.4.2.108.
  3. ^ Томлинсон, Роджер (1968). «Географическая информационная система для регионального планирования». В Стюарте, Джорджия (ред.). Оценка земли: доклады симпозиума CSIRO . Macmillan of Australia. стр. 200–210.
  4. ^ Кук, Дональд Ф. (1998). «Топология и TIGER: вклад Бюро переписи населения». В Форесмане, Тимоти У. (ред.). История географических информационных систем: взгляды пионеров . Prentice Hall. стр. 47–57.
  5. ^ Томлинсон, Роджер Ф.; Калкинс, Хью В.; Марбл, Дуэйн Ф. (1976). Компьютерная обработка географических данных . Издательство ЮНЕСКО.
  6. ^ Дьюкер, Кеннет Дж. (1972). «Структура кодирования пространственных данных». Географический анализ . 4 (1): 98–105. Bibcode :1972GeoAn...4...98D. doi : 10.1111/j.1538-4632.1972.tb00460.x .
  7. ^ ab Peucker, Thomas K.; Chrisman, Nicholas (1975). «Картографические структуры данных». The American Cartographer . 2 (1): 55–69. doi :10.1559/152304075784447289.
  8. ^ Peuquet, Donna J. (1988). «Представления географического пространства: к концептуальному синтезу». Annals of the Association of American Geographers . 78 (3): 375–394. doi :10.1111/j.1467-8306.1988.tb00214.x.
  9. ^ ab Huisman, Otto; de By, Rolf A. (2009). Principles of Geographic Information Systems (PDF) . Энсхеде, Нидерланды: ITC. стр. 64. Получено 1 ноября 2021 г.
  10. ^ abcd Лонгли, Пол А.; Гудчайлд, Майкл Ф.; Магуайр, Дэвид Дж.; Райнд, Дэвид У. (2011). Географические информационные системы и наука (3-е изд.). Wiley. С. 207–228.
  11. ^ Esri. "Техническое описание шейп-файла ESRI" (PDF) . Техническая библиотека Esri . Получено 30 октября 2021 г. .
  12. ^ Mennis, J.; Peuquet, DJ; Qian, L. (2000). «Концептуальная структура для включения когнитивных принципов в представление географической базы данных». Международный журнал географической информационной науки . 14 (6): 501–520. Bibcode : 2000IJGIS..14..501M. doi : 10.1080/136588100415710. S2CID  7458359.
  13. ^ ab Берри, Брайан Дж. Л. (1964). «Подходы к региональному анализу: синтез». Анналы Ассоциации американских географов . 54 (1): 2–11. doi :10.1111/j.1467-8306.1964.tb00469.x. S2CID  128770492.
  14. ^ Синтон, Дэвид Дж. (1978). «Внутренняя структура информации как ограничение для анализа: картографированные тематические данные как пример исследования». В Даттон, Джефф (ред.). Гарвардские документы по ГИС . Том 7. Гарвардский университет.
  15. ^ Peuquet, Donna J.; Smith, Barry; Brogaard, Berit, ред. (1997). Онтология полей: отчет о встрече специалистов, проведенной под эгидой проекта Varenius (PDF) .
  16. ^ Плеве, Брэндон (2019). «Дело о географических массах». В Тимпфе, Сабина; Шлидер, Кристофф; Каттенбек, Маркус; Людвиг, Бернд (ред.). 14-я Международная конференция по теории пространственной информации (COSIT 2019) . Замок Дагштуль-Лейбниц-Центр информатики.
  17. ^ Открытый геопространственный консорциум (2010). Простой доступ к функциям — Часть 1: Общая архитектура. С. 20–32.
  18. ^ abcd Болстад, Пол (2019). Основы ГИС: Первый текст по географическим информационным системам (6-е изд.). XanEdu. С. 39–71.
  19. ^ ab Morehouse, Scott (1985). "ARC/INFO: геореляционная модель для пространственной информации" (PDF) . Труды Международного симпозиума по картографии и вычислениям (Auto-Carto VII) : 388.
  20. ^ abc Дженсен, Джон Р.; Дженсен, Райан Р. (2013). "5: Пространственные модели данных и базы данных". Введение в географические информационные системы . Pearson. С. 125–147.
  21. ^ Открытый геопространственный консорциум. "Простой доступ к функциям - Часть 2: SQL-опция" . Получено 4 ноября 2021 г.
  22. ^ Peuquet, Donna J. (1984). «Концептуальная структура и сравнение пространственных моделей данных». Cartographica . 21 (4): 66–113. doi :10.3138/D794-N214-221R-23R5.
  23. ^ Esri. "Что такое сетевой набор данных?". Документация ArcGIS Pro . Получено 4 ноября 2021 г.
  24. ^ Ло, CP; Йенг, Альберт К. В. (2002). Концепции и методы географических информационных систем . Prentice Hall. стр. 81.
  25. ^ Хегерстранд, Торстен (1970). «Что насчет людей в региональной науке?». Papers of the Regional Science Association . 24 (1): 6–21. Bibcode : 1970PRegS..24....6H. doi : 10.1007/BF01936872. S2CID  198174673.
  26. ^ Лангран, Гейл (1992). Время в географических информационных системах . Тейлор и Фрэнсис.
  27. ^ Peuquet, Donna J. (1994). «Пора: концептуальная основа для представления временной динамики в географических информационных системах». Annals of the Association of American Geographers . 84 (3): 441–461. doi :10.1111/j.1467-8306.1994.tb01869.x.
  28. ^ Грегори, Ян Н. (2002). «Временные базы данных ГИС изменяющихся исторических административных границ: европейское сравнение». Transactions in GIS . 6 (2): 161–178. Bibcode : 2002TrGIS...6..161G. doi : 10.1111/1467-9671.00103. S2CID  38450649.
  29. ^ Plewe, Brandon (2019). «Квалифицированная база данных утверждений для истории мест». Международный журнал гуманитарных наук и вычислений в искусстве . 13 (1–2): 95–115. doi :10.3366/ijhac.2019.0233. S2CID  207941717.
  30. ^ ab Esri. "Основы хранения данных netCDF". Документация ArcGIS Pro . Получено 5 ноября 2021 г.
  31. ^ ab Дэвид Р. Соллер1 и Томас М. Берг (2003). Проект базы данных Национальной геологической карты: обзор и прогресс. Открытый отчет Геологической службы США 03–471.
  32. ^ DR Soller и др. (1999). «Включение цифровых картографических продуктов в Национальную базу данных геологических карт». В Soller, DR, ред., Digital Mapping Techniques '99—Workshop Proceedings . US Geological Survey Open-File Report 99-386, стр. 35–38,

Дальнейшее чтение