Что такое геоданные?

Что такое геоданные? Каких видов они бывают? Чем отличаются векторные геоданные от растровых? В этих вопросах Теплице помог разобраться участник проекта OpenStreetMap – карты мира с открытой лицензией, один из разработчиков MAPS.ME Илья Зверев.

Что такое геоданные? Каких видов они бывают? Чем отличаются векторные геоданные от растровых? В этих вопросах Теплице помог разобраться участник проекта OpenStreetMap – карты мира с открытой лицензией, один из разработчиков MAPS.ME Илья Зверев.

По словам специалиста, геоданные не отделяют от обычных данных. Это обычные данные, только с координатами в какой-то проекции. «Это лишь признак наличия поля с географическими или геометрическими объектами. Операции на таких объектах поддерживают все популярные системы работы с данными, от баз (PostGIS, MySGL, Oracle) до R и питоновских фреймворков типа pandas (в расширении geopandas)», – объяснил специалист. Открытые геоданные доступны без каких-либо ограничений и оплаты.

5 видов геоданных

Геоданные бывают двух типов: векторные и растровые. Первые четыре вида геоданных относятся к векторному типу, а пятый – к растровому.

1. Координаты: широта и долгота. Для обозначения точки координаты вполне достаточно. Такой вид самый распространенный: в пример координаты филиалов, координаты твитов и координаты каких-то событий.

Пример координат широты и долготы. Изображение: скриншот с сайта gis.stackexchange.com
Пример координат широты и долготы. Изображение: скриншот с сайта gis.stackexchange.com

Из-за простоты с форматом, по словам Ильи Зверева, часто возникают проблемы. «Самая очевидная – не всегда ясно, где долгота и где широта. Кроме того, систему координат не пишут почти никогда, при этом есть несколько общеупотребительных со слегка различающимися параметрами и, следовательно, с ошибками в несколько сотен метров. Пример: WGS-84 против Пулково-42, разница между которыми достигает 300 метров. Многие ориентировщики сталкивались с этой проблемой», – объяснил специалист.

Еще по теме: Карты: что делать, когда дизайн картографических проектов важен, но получается некрасиво

2. Набор независимых объектов. Обозначается как Simple Features, так как это стандарт классификации объектов, принятый консорциумом международной некоммерческой организации Open Geospatial Consortium (OGC).

«В него входят точки, линии и другие объекты. Такие объекты обычно являются колонкой в какой-нибудь таблице, где еще 100500 колонок. Бывают числа, бывают строки, а бывают географические объекты», – говорит Илья Зверев.

«Геометрия от географии отличается наличием системы координат и проекции. Очень хорошо про них написал блогер Китя. По умолчанию мы используем систему координат WGS-84 в проекции 3857 (web mercator). Эта проекция также называется гугловской проекцией. В ней вместо градусов используются (примерно) метры». Илья Зверев

3. Взаимосвязанные данные, топология. В этом случае географические объекты строятся из общих частей. Примером могут стать административные границы, общие для каждой пары соседних стран, или сети дорог для навигации. «Каждая дорога может быть отдельным объектом, но для построения маршрута из отдельных дорог нужно сделать сеть», – подчеркнул специалист.

Пример топологии. Изображение скриншот с с сайта github.com/topojson/
Пример топологии. Изображение скриншот с сайта github.com/topojson

4. Данные OpenStreetMap (OSM). Это геоданные с высокой степенью связности: каждая линия зависит от точек, еще есть объекты высших порядков. «То есть зависит все от всего. Один и тот же объект может быть забором, границей школьной территории, границей леса и входить в административную границу. «Как есть» данные OSM обычно не используют, а преобразуют в набор Simple Features с помощью osm2pgsql или gdal», – объяснил подробнее особенность таких данных Илья Зверев.

Это центр Санкт- Петербурга в настольном редакторе карты с подсвеченными адресами. Изображение предоставил Илья Зверев.
Это центр Санкт-Петербурга в настольном редакторе карты с подсвеченными адресами. Изображение предоставил Илья Зверев.

5. Растровые геоданные. Растр – это спутниковые снимки или цифровая модель рельефа (ЦМР, карта высот). Часто растр – это не одна картинка, а несколько (5-10) слоев в разных спектрах. «Например, спутниковая съемка в инфракрасном спектре помогает оценить рост посевов», – приводит пример специалист.

Изображение с сайта asterweb.jpl.nasa.gov
Изображение с сайта asterweb.jpl.nasa.gov

«Преимущества геоданных очевидны: раньше вместо геоданных, например, использовали лишь название страны, региона или города и выводили статистику по странам или регионам, или городам. Теперь можно вывести результат аналитики на карту и посмотреть «тепловые карты» или тренды в передвижении очагов, или привязку к другим геоданным – дорогам, кафе, гостиницам». Илья Зверев

Илья Зверев уточнил, что аналитики данных обязательно должны уметь работать с геоданными и производить над ними базовые операции: буферизации, кластеризации, пересечения.

Векторные геоданные можно распределить по сложности работы так: OpenStreetMap → топология → координаты → simple features (по убыванию).

Форматы геоданных

1. Для координат это часто формат CSV, текстовые файлы. Хранят, как два числа. Но в базы часто загружают в виде simple feature point для упрощения обработки.

2. Для набора независимых объектов самый популярный обывательский формат – GeoJSON. Это, по словам Ильи Зверева, стандарт для Сети. «Если вы видите интерактивную карту с какими-то объектами, их либо можно скачать в geojson, либо загрузить geojson, либо внутри они хранятся в таком формате. Рассмотреть файл можно, например, в geojson.io«, – отметил специалист.

Но для больших массивов данных geojson не подойдет, для них используют Shapefile и Geopackage. Последний, по словам специалиста, более новый и медленно побеждает первый. «Внутри это обычные базы данных со строками и столбцами плюс поле с геометрией и индексы для ускорения поиска», – описывает формат Илья Зверев. Обрабатывают эти файлы в «больших» геоинформационных системах: QGIS, gvSIG, ArcGIS.

3. Топологию редко передают в файлах, часто ее строят внутри базы данных или иной системы из файлов simple features. Например, таким форматом может быть TopoJSON.

4. osm.pbf – данные OSM в cжатом виде. Исходные файлы OSM – это XML с несложной структурой.

5. Растр почти всегда хранят в GeoTIFF и обрабатывают в GRASS GIS или в gvSIG.