Что такое геоданные?

Геоданные бывают двух типов: векторные и растровые. На изображении: пример растровых геоданных, изображение с сайта asterweb.jpl.nasa.gov

Что такое гео­дан­ные? Каких видов они быва­ют? Чем отли­ча­ют­ся век­тор­ные гео­дан­ные от раст­ро­вых? В этих вопро­сах Теп­ли­це помог разо­брать­ся участ­ник про­ек­та OpenStreetMap – кар­ты мира с откры­той лицен­зи­ей, один из раз­ра­бот­чи­ков MAPS.ME Илья Зве­рев.

По сло­вам спе­ци­а­ли­ста, гео­дан­ные не отде­ля­ют от обыч­ных дан­ных. Это обыч­ные дан­ные, толь­ко с коор­ди­на­та­ми в какой-то про­ек­ции. «Это лишь при­знак нали­чия поля с гео­гра­фи­че­ски­ми или гео­мет­ри­че­ски­ми объ­ек­та­ми. Опе­ра­ции на таких объ­ек­тах под­дер­жи­ва­ют все попу­ляр­ные систе­мы рабо­ты с дан­ны­ми, от баз (PostGIS, MySGL, Oracle) до R и пито­нов­ских фрейм­вор­ков типа pandas (в рас­ши­ре­нии geopandas)», – объ­яс­нил спе­ци­а­лист. Откры­тые гео­дан­ные доступ­ны без каких-либо огра­ни­че­ний и опла­ты.

5 видов геоданных

Гео­дан­ные быва­ют двух типов: век­тор­ные и раст­ро­вые. Пер­вые четы­ре вида гео­дан­ных отно­сят­ся к век­тор­но­му типу, а пятый – к раст­ро­во­му.

1. Коор­ди­на­ты: широ­та и дол­го­та. Для обо­зна­че­ния точ­ки коор­ди­на­ты вполне доста­точ­но. Такой вид самый рас­про­стра­нен­ный: в при­мер коор­ди­на­ты фили­а­лов, коор­ди­на­ты тви­тов и коор­ди­на­ты каких-то собы­тий.

Пример координат широты и долготы. Изображение: скриншот с сайта gis.stackexchange.com
При­мер коор­ди­нат широ­ты и дол­го­ты. Изоб­ра­же­ние: скрин­шот с сай­та gis.stackexchange.com

Из-за про­сто­ты с фор­ма­том, по сло­вам Ильи Зве­ре­ва, часто воз­ни­ка­ют про­бле­мы. «Самая оче­вид­ная – не все­гда ясно, где дол­го­та и где широ­та. Кро­ме того, систе­му коор­ди­нат не пишут почти нико­гда, при этом есть несколь­ко обще­упо­тре­би­тель­ных со слег­ка раз­ли­ча­ю­щи­ми­ся пара­мет­ра­ми и, сле­до­ва­тель­но, с ошиб­ка­ми в несколь­ко сотен мет­ров. При­мер: WGS-84 про­тив Пул­ко­во-42, раз­ни­ца меж­ду кото­ры­ми дости­га­ет 300 мет­ров. Мно­гие ори­ен­ти­ров­щи­ки стал­ки­ва­лись с этой про­бле­мой», – объ­яс­нил спе­ци­а­лист.

Еще по теме: Кар­ты: что делать, когда дизайн кар­то­гра­фи­че­ских про­ек­тов важен, но полу­ча­ет­ся некра­си­во

2. Набор неза­ви­си­мых объ­ек­тов. Обо­зна­ча­ет­ся как Simple Features, так как это стан­дарт клас­си­фи­ка­ции объ­ек­тов, при­ня­тый кон­сор­ци­у­мом меж­ду­на­род­ной неком­мер­че­ской орга­ни­за­ции Open Geospatial Consortium (OGC).

«В него вхо­дят точ­ки, линии и дру­гие объ­ек­ты. Такие объ­ек­ты обыч­но явля­ют­ся колон­кой в какой-нибудь таб­ли­це, где еще 100500 коло­нок. Быва­ют чис­ла, быва­ют стро­ки, а быва­ют гео­гра­фи­че­ские объ­ек­ты», – гово­рит Илья Зве­рев.

«Гео­мет­рия от гео­гра­фии отли­ча­ет­ся нали­чи­ем систе­мы коор­ди­нат и про­ек­ции. Очень хоро­шо про них напи­сал бло­гер Китя. По умол­ча­нию мы исполь­зу­ем систе­му коор­ди­нат WGS-84 в про­ек­ции 3857 (web mercator). Эта про­ек­ция так­же назы­ва­ет­ся гуг­лов­ской про­ек­ци­ей. В ней вме­сто гра­ду­сов исполь­зу­ют­ся (при­мер­но) мет­ры». Илья Зве­рев

3. Вза­и­мо­свя­зан­ные дан­ные, топо­ло­гия. В этом слу­чае гео­гра­фи­че­ские объ­ек­ты стро­ят­ся из общих частей. При­ме­ром могут стать адми­ни­стра­тив­ные гра­ни­цы, общие для каж­дой пары сосед­них стран, или сети дорог для нави­га­ции. «Каж­дая доро­га может быть отдель­ным объ­ек­том, но для постро­е­ния марш­ру­та из отдель­ных дорог нуж­но сде­лать сеть», – под­черк­нул спе­ци­а­лист.

Пример топологии. Изображение скриншот с с сайта github.com/topojson/
При­мер топо­ло­гии. Изоб­ра­же­ние скрин­шот с сай­та github.com/topojson

4. Дан­ные OpenStreetMap (OSM). Это гео­дан­ные с высо­кой сте­пе­нью связ­но­сти: каж­дая линия зави­сит от точек, еще есть объ­ек­ты выс­ших поряд­ков. «То есть зави­сит все от все­го. Один и тот же объ­ект может быть забо­ром, гра­ни­цей школь­ной тер­ри­то­рии, гра­ни­цей леса и вхо­дить в адми­ни­стра­тив­ную гра­ни­цу. «Как есть» дан­ные OSM обыч­но не исполь­зу­ют, а пре­об­ра­зу­ют в набор Simple Features с помо­щью osm2pgsql или gdal», – объ­яс­нил подроб­нее осо­бен­ность таких дан­ных Илья Зве­рев.

Это центр Санкт- Петербурга в настольном редакторе карты с подсвеченными адресами. Изображение предоставил Илья Зверев.
Это центр Санкт-Петер­бур­га в настоль­ном редак­то­ре кар­ты с под­све­чен­ны­ми адре­са­ми. Изоб­ра­же­ние предо­ста­вил Илья Зве­рев.

5. Раст­ро­вые гео­дан­ные. Растр – это спут­ни­ко­вые сним­ки или циф­ро­вая модель релье­фа (ЦМР, кар­та высот). Часто растр – это не одна кар­тин­ка, а несколь­ко (5−10) сло­ев в раз­ных спек­трах. «Напри­мер, спут­ни­ко­вая съем­ка в инфра­крас­ном спек­тре помо­га­ет оце­нить рост посе­вов», – при­во­дит при­мер спе­ци­а­лист.

Изображение с сайта asterweb.jpl.nasa.gov
Изоб­ра­же­ние с сай­та asterweb.jpl.nasa.gov

«Пре­иму­ще­ства гео­дан­ных оче­вид­ны: рань­ше вме­сто гео­дан­ных, напри­мер, исполь­зо­ва­ли лишь назва­ние стра­ны, реги­о­на или горо­да и выво­ди­ли ста­ти­сти­ку по стра­нам или реги­о­нам, или горо­дам. Теперь мож­но выве­сти резуль­тат ана­ли­ти­ки на кар­ту и посмот­реть «теп­ло­вые кар­ты» или трен­ды в пере­дви­же­нии оча­гов, или при­вяз­ку к дру­гим гео­дан­ным – доро­гам, кафе, гости­ни­цам». Илья Зве­рев

Илья Зве­рев уточ­нил, что ана­ли­ти­ки дан­ных обя­за­тель­но долж­ны уметь рабо­тать с гео­дан­ны­ми и про­из­во­дить над ними базо­вые опе­ра­ции: буфе­ри­за­ции, кла­сте­ри­за­ции, пере­се­че­ния.

Век­тор­ные гео­дан­ные мож­но рас­пре­де­лить по слож­но­сти рабо­ты так: OpenStreetMap → топо­ло­гия → коор­ди­на­ты → simple features (по убы­ва­нию).

Форматы геоданных

1. Для коор­ди­нат это часто фор­мат CSV, тек­сто­вые фай­лы. Хра­нят, как два чис­ла. Но в базы часто загру­жа­ют в виде simple feature point для упро­ще­ния обра­бот­ки.

2. Для набо­ра неза­ви­си­мых объ­ек­тов самый попу­ляр­ный обы­ва­тель­ский фор­мат – GeoJSON. Это, по сло­вам Ильи Зве­ре­ва, стан­дарт для Сети. «Если вы види­те интер­ак­тив­ную кар­ту с каки­ми-то объ­ек­та­ми, их либо мож­но ска­чать в geojson, либо загру­зить geojson, либо внут­ри они хра­нят­ся в таком фор­ма­те. Рас­смот­реть файл мож­но, напри­мер, в geojson.io», – отме­тил спе­ци­а­лист.

Но для боль­ших мас­си­вов дан­ных geojson не подой­дет, для них исполь­зу­ют Shapefile и Geopackage. Послед­ний, по сло­вам спе­ци­а­ли­ста, более новый и мед­лен­но побеж­да­ет пер­вый. «Внут­ри это обыч­ные базы дан­ных со стро­ка­ми и столб­ца­ми плюс поле с гео­мет­ри­ей и индек­сы для уско­ре­ния поис­ка», – опи­сы­ва­ет фор­мат Илья Зве­рев. Обра­ба­ты­ва­ют эти фай­лы в «боль­ших» гео­ин­фор­ма­ци­он­ных систе­мах: QGIS, gvSIG, ArcGIS.

3. Топо­ло­гию ред­ко пере­да­ют в фай­лах, часто ее стро­ят внут­ри базы дан­ных или иной систе­мы из фай­лов simple features. Напри­мер, таким фор­ма­том может быть TopoJSON.

4. osm.pbf – дан­ные OSM в cжа­том виде. Исход­ные фай­лы OSM – это XML с неслож­ной струк­ту­рой.

5. Растр почти все­гда хра­нят в GeoTIFF и обра­ба­ты­ва­ют в GRASS GIS или в gvSIG.