Метаданные: цифровые следы, которые мы (почти) не замечаем

metadata
Мета­дан­ные могут ока­зать­ся не менее важ­ны, чем сами дан­ные. Иллю­стра­ция Ната­ша Ямщи­ко­ва.

Каж­дый день мы отправ­ля­ем элек­трон­ные пись­ма, неко­то­рые с фай­ла­ми-вло­же­ни­я­ми. У вся­ко­го пись­ма есть не толь­ко содер­жа­ние, но и дата, и вре­мя отправ­ки, заго­ло­вок, адрес отпра­ви­те­ля, адрес полу­ча­те­ля, тип вло­же­ния, его объ­ем и про­чие харак­те­ри­сти­ки. 

Это мета­дан­ные – инфор­ма­ция, кото­рая сопут­ству­ет содер­жа­нию. У любо­го фай­ла, теле­фон­но­го раз­го­во­ра, пуб­ли­ка­ции в Facebook, кни­ги, води­тель­ских прав, меди­цин­ской кар­ты или видео­филь­ма есть мета­дан­ные. Мы часто не заме­ча­ем их. Наше вни­ма­ние сфо­ку­си­ро­ва­но на содер­жа­нии. Но мета­дан­ные содер­жат боль­ше цен­ной инфор­ма­ции, чем мы при­вык­ли думать. Ино­гда по мета­дан­ным мож­но высле­дить чело­ве­ка, полу­чить на него ком­про­мат, пол­но­стью изме­нить его жизнь.

Как метаданные меняют жизнь людей

С кон­ца 70‑х в шта­те Кан­зас ору­до­вал жесто­кий убий­ца. Поли­цей­ские про­зва­ли его BTK (bind, torture, kill – «свя­зы­вать, пытать, уби­вать»). Жерт­ва­ми манья­ка ста­но­ви­лись оди­но­кие жен­щи­ны и семьи. Жаж­да сла­вы под­тал­ки­ва­ла BTK отправ­лять сооб­ще­ния в поли­цию, газе­ты, радио­стан­ции. Убий­ца рас­ска­зы­вал о дета­лях сво­их жут­ких пре­ступ­ле­ний, при­ла­гал дока­за­тель­ства-фото­гра­фии, писал безум­ные сти­хи. В 2005 году BTK под­бро­сил короб­ку со сво­и­ми сочи­не­ни­я­ми на авто­сто­ян­ку, и тут его маши­ну зафик­си­ро­ва­ла дорож­ная каме­ра. Увы, рас­сто­я­ние было слиш­ком вели­ко. Чер­ный вне­до­рож­ник Jeep Grand Cherokee – вот и все, что уда­лось уста­но­вить сле­до­ва­те­лям. Вско­ре пси­хо­пат сде­лал попыт­ку перей­ти с бумаж­ных сочи­не­ний в элек­трон­ный фор­мат. Он отпра­вил в поли­цию файл.

Сле­до­ва­те­ли при­ня­лись изу­чать диск с фай­лом. Поми­мо посла­ния манья­ка, они обна­ру­жи­ли уда­лен­ный файл Microsoft Word и вос­ста­но­ви­ли его. Содер­жа­ние фай­ла ниче­го не дало. Но в инфор­ма­ции о доку­мен­те зна­чи­лась мест­ная люте­ран­ская цер­ковь, а послед­няя редак­ция при­над­ле­жа­ла неко­е­му Ден­ни­су. Сле­до­ва­те­ли быст­ро вышли на Ден­ни­са Рей­де­ра, пред­се­да­те­ля цер­ков­но­го сове­та. Когда поли­ция подъ­е­ха­ла к его дому, то уви­де­ла при­пар­ко­ван­ный чер­ный Grand Cherokee. Ана­лиз ДНК сде­лал воз­мож­ным арест пре­ступ­ни­ка. Сей­час Ден­нис Линн Рей­дер, он же BTK, отбы­ва­ет 10 пожиз­нен­ных сро­ков в тюрь­ме стро­го­го режи­ма Эль Дора­до в Кан­за­се.

Так мета­дан­ные помог­ли най­ти убий­цу. 

Летом 2014 года 24-лет­ний рос­сий­ский сер­жант Андрей Сот­кин опуб­ли­ко­вал серию про­стень­ких сел­фи с места служ­бы. Изда­ние Buzzfeed опуб­ли­ко­ва­ло мини-рас­сле­до­ва­ние: Сот­кин отпра­вил свои фото­гра­фии в Instagram, но поза­был о мет­ках гео­ло­ка­ции. Buzzfeed сооб­щи­ла, что коор­ди­на­ты, где были сде­ла­ны фото, нахо­ди­лись на тер­ри­то­рии Укра­и­ны. (Офи­ци­аль­ная Москва отри­ца­ла нахож­де­ние рос­сий­ских воен­но­слу­жа­щих в Укра­ине.) Одни бло­ге­ры под­хва­ти­ли эту инфор­ма­цию как дока­за­тель­ство воен­но­го при­сут­ствия. Дру­гие утвер­жда­ли, что погреш­ность вели­ка, фото­гра­фии сня­ты в Рос­сии, и вооб­ще вся исто­рия – фейк. Так мета­дан­ные лег­ли в осно­ву эпи­зо­да инфор­ма­ци­он­ной вой­ны.

В апре­ле 2017 года мос­ков­ско­го мате­ма­ти­ка Дмит­рия Бога­то­ва обви­ни­ли в при­зы­вах к тер­ро­риз­му и попыт­ках орга­ни­за­ции мас­со­вых бес­по­ряд­ков. По вер­сии след­ствия, Бога­тов под псев­до­ни­мом «Айрат Баши­ров» пуб­ли­ко­вал на фору­ме sysadmins.ru про­во­ка­ци­он­ные мате­ри­а­лы о под­го­тов­ке к воору­жен­но­му вос­ста­нию. Пра­во­охра­ни­тель­ные орга­ны «вычис­ли­ли» Бога­то­ва по IP-адре­су. Впо­след­ствии ока­за­лось, что моло­дой мате­ма­тик дер­жал на сво­ем ком­пью­те­ре так назы­ва­е­мый выход­ной узел сети Tor, меж­ду­на­род­но­го про­ек­та, наце­лен­но­го на обес­пе­че­ние ано­ним­но­сти граж­дан­ских акти­ви­стов и защи­ту их от пре­сле­до­ва­ний. Тра­фик зло­умыш­лен­ни­ка про­шел через ком­пью­тер Бога­то­ва. Это дало сле­до­ва­те­лям повод прий­ти к мате­ма­ти­ку с обыс­ком. Бога­тов на несколь­ко меся­цев попал в СИЗО, пол­го­да про­вел под домаш­ним аре­стом. В мае 2018 года уго­лов­ное дело про­тив него пре­кра­ти­ли. Вско­ре после это­го Бога­тов и его жена подоб­ру-поздо­ро­ву уеха­ли за гра­ни­цу. За то, что про­изо­шло, никто не понес ника­ко­го нака­за­ния. Таким обра­зом, мета­дан­ные (IP-адрес) послу­жи­ли пово­дом для того, что­бы госу­дар­ствен­ная маши­на про­еха­лась кат­ком по неви­нов­но­му чело­ве­ку.

Даже если у пра­ви­тель­ства или кор­по­ра­ций нет досту­па к содер­жа­нию пере­пис­ки или раз­го­во­ров, мета­дан­ные спо­соб­ны ска­зать очень мно­гое. Так счи­та­ют экс­пер­ты аме­ри­кан­ской орга­ни­за­ции Electronic Frontier Foundation. Пред­ставь­те, что чело­век: а) полу­чил элек­трон­ное пись­мо от служ­бы диа­гно­сти­ки кож­ных забо­ле­ва­ний; б) позво­нил дер­ма­то­ло­гу; в) про­вел час на сай­те с меди­цин­ски­ми сове­та­ми; г) при­со­еди­нил­ся к закры­той груп­пе, объ­еди­ня­ю­щей людей, боль­ных псо­ри­а­зом. Кажет­ся, мы уже зна­ем глав­ное, и это инфор­ма­ция само­го дели­кат­но­го харак­те­ра. А ведь мы не чита­ли пись­мо, не слы­ша­ли сове­тов док­то­ра, не загля­ды­ва­ли в закры­тую груп­пу. 

Данные фото EXIF
Дан­ные фото­гра­фии (EXIF). Мож­но узнать, в част­но­сти, модель каме­ры, пара­мет­ры объ­ек­ти­ва, выдерж­ку, диа­фраг­му, фокус­ное рас­сто­я­ние, раз­ме­ры сним­ка и его раз­ре­ше­ние, дату, вре­мя и точ­ные коор­ди­на­ты съем­ки. Скрин­шот с сай­та www.pic2map.com

Какие бывают метаданные

В 2011 году моло­дой немец­кий поли­тик Маль­те Шпитц (Malte Spitz) добил­ся от теле­ком­му­ни­ка­ци­он­но­го гиган­та «Deutsche Telecom» пере­да­чи ему всех дан­ных… о самом себе. Инфор­ма­ции, кото­рую про­вай­дер соби­рал не для пра­во­охра­ни­тель­ных орга­нов, а про­сто как часть сво­ей рутин­ной рабо­ты. Мета­дан­ные пока­за­ли, где нахо­дил­ся г‑н Шпитц в раз­ное вре­мя дня на про­тя­же­нии полу­го­да, сколь­ко раз зво­нил и отправ­лял сооб­ще­ния. Интер­ак­тив­ная кар­та поз­во­лит вам немнож­ко ощу­тить себя «Боль­шим Бра­том». Исто­рия Маль­те Шпит­ца, поми­мо про­че­го, пока­зы­ва­ет, что тех­ни­че­ски мож­но соби­рать сра­зу несколь­ко типов мета­дан­ных.

Иссле­до­ва­те­ли и экс­пер­ты часто делят мета­дан­ные на три кате­го­рии.

  • Опи­са­тель­ные мета­дан­ные. Чело­век исполь­зу­ет их для иден­ти­фи­ка­ции и поис­ка инфор­ма­ции. Как пра­ви­ло, имен­но с ними еже­днев­но стал­ки­ва­ют­ся поль­зо­ва­те­ли. При­мер: назва­ние фай­ла. 
  • Струк­тур­ные мета­дан­ные. Как орга­ни­зо­ва­на инфор­ма­ция, как рабо­та­ет нави­га­ция. При­мер: связь меж­ду дву­мя стра­ни­ца­ми веб-сай­та, кото­рая поз­во­ля­ет выво­дить под ста­тьей А ссыл­ку на ста­тью Б.
  • Адми­ни­стра­тив­ные мета­дан­ные. Кем, когда, где и как была созда­на и обра­бо­та­на инфор­ма­ция. При­мер: лицен­зи­он­ные огра­ни­че­ния на рас­про­стра­не­ние инфор­ма­ции.

Хотя тер­мин «мета­дан­ные» один, обла­сти при­ме­не­ния раз­ные. На рус­ском язы­ке корот­ко и понят­но о мета­дан­ных рас­ска­зы­ва­ет­ся, напри­мер, в бло­ге ICANN

Мета­дан­ные хра­нят­ся в самых раз­ных местах. Напри­мер, в музы­каль­ных фай­лах попу­ляр­но­го фор­ма­та MP3 мета­дан­ные (здесь их назы­ва­ют ID3-теги) в спе­ци­аль­ных «фрей­мах» внут­ри само­го фай­ла. Когда вы откры­ва­е­те MP3-файл в сво­ем пле­е­ре, то може­те видеть имя испол­ни­те­ля, назва­ние ком­по­зи­ции, а то и жанр. Эту инфор­ма­цию пле­ер узнал из мета­дан­ных. У элек­трон­но­го пись­ма мета­дан­ные нахо­дят­ся в заго­лов­ке. Обыч­но отпра­ви­тель и полу­ча­тель видят лишь часть мета­дан­ных в сво­их поч­то­вых про­грам­мах. Хоти­те взгля­нуть на заго­ло­вок? Если вы, ска­жем, поль­зо­ва­тель GMail, открой­те какое-нибудь из писем, нажми­те на кноп­ку с тре­мя точ­ка­ми в пра­вом верх­нем углу (рядом со стре­лоч­кой «Отве­тить») и выбе­ри­те в меню «Пока­зать ори­ги­нал».

Доступ к вашим мета­дан­ным могут иметь самые раз­ные люди и орга­ни­за­ции. Напри­мер, заго­лов­ки писем доступ­ны не толь­ко отпра­ви­те­лю и адре­са­ту, но и поч­то­вым про­вай­де­рам, а в рам­ках СОРМ – и спец­служ­бам. Вла­де­лец сай­та, на кото­рый вы захо­ди­те, может узнать не толь­ко ваш IP-адрес, но и вер­сии ваше­го бра­у­зе­ра и опе­ра­ци­он­ной систе­мы. Очень часто мета­дан­ные доступ­ны широ­кой пуб­ли­ке и никак не защи­ще­ны – по сво­ей при­ро­де или по чело­ве­че­ской небреж­но­сти.

Мета­дан­ные мож­но цен­тра­ли­зо­ван­но обра­ба­ты­вать. Быва­ет, что типы мета­дан­ных «сме­ши­ва­ют­ся». Одна и та же инфор­ма­ция может в этих усло­ви­ях счи­тать­ся мета­дан­ны­ми, в дру­гих – соб­ствен­но дан­ны­ми (кон­тен­том). Возь­ми­те, к при­ме­ру, тот же заго­ло­вок элек­трон­но­го пись­ма: он может ока­зать­ся весь­ма содер­жа­тель­ным. Для реше­ния про­фес­си­о­наль­ных задач экс­пер­ты в раз­ных обла­стях неред­ко раз­ра­ба­ты­ва­ют свои, более узкие кате­го­рии мета­дан­ных. Вы може­те най­ти уйму инфор­ма­ции о мета­дан­ных в Интер­не­те. Вот, напри­мер, целый сайт, посвя­щен­ный мета­дан­ным в фото­гра­фии.

Едва ли не в каж­дом детек­тив­ном сери­а­ле встре­ча­ет­ся сце­на, когда поли­цей­ский гово­рит охран­ни­кам (оте­ля, аэро­пор­та, боль­ни­цы или тор­го­во­го цен­тра):

– Пока­жи­те мне каме­ру в восточ­ном кон­це кори­до­ра на тре­тьем эта­же. Вче­раш­нюю запись в про­ме­жу­ток с 8:40 до 8:50, пожа­луй­ста.

Детек­ти­ву не нуж­но про­смат­ри­вать все име­ю­щи­е­ся запи­си со всех камер. Он исполь­зу­ет мета­дан­ные (место­по­ло­же­ние каме­ры и вре­мя про­ис­ше­ствия), что­бы уско­рить поиск.

Визуализация связей в группе
Ана­лиз мета­дан­ных (напри­мер, звон­ков, email, сооб­ще­ний в мес­сен­дже­рах) поз­во­ля­ет визу­а­ли­зи­ро­вать вза­и­мо­от­но­ше­ния меж­ду людь­ми. Здесь изоб­ра­же­ны чле­ны при­ду­ман­ной коман­ды (кру­жоч­ки с кар­тин­ка­ми) и их свя­зи друг с дру­гом и с про­чи­ми чле­на­ми сооб­ще­ства (кру­жоч­ки без кар­ти­нок). Скрин­шот с сай­та openteam.info.

Государство и метаданные

Как пра­ви­ло, объ­ем мета­дан­ных гораз­до мень­ше объ­е­ма самих дан­ных. Поиск по мета­дан­ным суще­ствен­но про­ще, чем поиск по содер­жа­нию (про­смотр всех видео­за­пи­сей в надеж­де рано или позд­но уви­деть зло­дея с писто­ле­том и в тем­ных очках). 

С дру­гой сто­ро­ны, люди часто вос­при­ни­ма­ют мета­дан­ные как «вто­рич­ный эле­мент». Осо­бен­но это каса­ет­ся при­вер­жен­цев идеи «Мне нече­го скры­вать». Защи­той мета­дан­ных попро­сту пре­не­бре­га­ют.

Пра­ви­тель­ства раз­ных стран учи­ты­ва­ют эти фак­то­ры, когда тре­бу­ют от теле­ком­му­ни­ка­ци­он­ных ком­па­ний хра­нить мета­дан­ные опре­де­лен­ное (неред­ко весь­ма дол­гое!) вре­мя для нужд пра­во­охра­ни­тель­ных орга­нов и спец­служб. Эта про­бле­ма явля­ет­ся частью обшир­ной темы хра­не­ния дан­ных о поль­зо­ва­те­лях (data retention).

Так, швей­цар­ское зако­но­да­тель­ство пред­пи­сы­ва­ет опе­ра­то­рам свя­зи хра­нить мета­дан­ные в тече­ние полу­го­да. Для сото­вой свя­зи это номе­ра або­нен­тов, иден­ти­фи­ци­ру­ю­щие номе­ра SIM-карт и теле­фо­нов, место­на­хож­де­ние зво­ня­ще­го, дата, вре­мя и про­дол­жи­тель­ность раз­го­во­ра. Евро­пей­ские пра­во­за­щит­ни­ки ведут мони­то­ринг ситу­а­ции с хра­не­ни­ем мета­дан­ных в раз­ных стра­нах мира. Нажим со сто­ро­ны пра­ви­тельств и пра­во­охра­ни­тель­ных орга­нов, рату­ю­щих за хра­не­ние мета­дан­ных, не осла­бе­ва­ет. Пра­во­за­щит­ни­ки не оста­ют­ся в дол­гу, ино­гда выиг­ры­вая по-круп­но­му, как это, напри­мер, уда­лось ирланд­ской орга­ни­за­ции «DIgital Rights Ireland», в 2014 году добив­шей­ся (через обра­ще­ние в вер­хов­ный суд сво­ей стра­ны) отме­ны Евро­пей­ской дирек­ти­вы о хра­не­нии дан­ных 2006 года. Акти­ви­сты утвер­жда­ли, что без­осно­ва­тель­ный сбор дан­ных о людях, ни в чем не подо­зре­ва­е­мых, нару­ша­ет их граж­дан­ские пра­ва.

В Рос­сии в 2016 году был при­нят, а с 1 июля 2018 года всту­пил в силу печаль­но извест­ный «пакет Яро­вой». Он пред­пи­сы­ва­ет ком­па­ни­ям хра­нить дан­ные поль­зо­ва­те­лей в пре­де­лах полу­го­да. Кон­крет­ные сро­ки уста­нав­ли­ва­ет пра­ви­тель­ство. Оно и уста­но­ви­ло: шесть меся­цев для звон­ков и сооб­ще­ний, 30 дней для интер­нет-тра­фи­ка с посте­пен­ным нара­щи­ва­ни­ем объ­е­ма хра­не­ния. А вот мета­дан­ные хра­нить нуж­но целых три года. Аргу­мен­ты пра­во­за­щит­ни­ков, пред­ста­ви­те­лей IT-инду­стрии, юри­стов-меж­ду­на­род­ни­ков и эко­но­ми­стов о том, что подоб­ная прак­ти­ка чрез­мер­на, пося­га­ет на пра­ва граж­дан и вызы­ва­ет необос­но­ван­ную и непро­пор­ци­о­наль­ную нагруз­ку на опе­ра­то­ров свя­зи, не ока­за­ли долж­но­го вли­я­ния на вла­сти.

Клас­си­че­ский при­мер исполь­зо­ва­ния мета­дан­ных для иден­ти­фи­ка­ции поль­зо­ва­те­лей – при­вяз­ка раз­лич­ных сер­ви­сов и акка­ун­тов к номе­ру мобиль­но­го теле­фо­на. Кото­рый, в свою оче­редь, на тер­ри­то­рии Рос­сии мож­но закон­но полу­чить лишь при предъ­яв­ле­нии пас­пор­та. Даже если вы при­ду­ма­ли для ново­го акка­ун­та «ВКон­так­те» класс­ный псев­до­ним и не под­да­лись иску­ше­нию раз­ме­стить свое лицо на ава­тар­ке, оста­нут­ся мета­дан­ные – номер мобиль­но­го теле­фо­на.

«Мета­дан­ные – это дан­ные слеж­ки. Соби­рать мета­дан­ные о людях озна­ча­ет сле­дить за ними». Брюс Шнай­ер, аме­ри­кан­ский спе­ци­а­лист по циф­ро­вой без­опас­но­сти (из лич­но­го бло­га).

Что с этим делать

Очень часто мета­дан­ные быва­ют полез­ны, напри­мер, для поис­ка инфор­ма­ции. Мно­гие мета­дан­ные неот­де­ли­мы от самих дан­ных (труд­но пред­ста­вить доку­мент, у кото­ро­го нет даты созда­ния или редак­ти­ро­ва­ния). Но мож­но попро­бо­вать не упро­щать жизнь тому, кто решил соста­вить досье на вас. Вот лишь несколь­ко сове­тов.

  • Помни­те о том, что мета­дан­ные есть. Рас­ска­жи­те о них тем, кто не зна­ет.
  • Неко­то­рые сер­ви­сы настой­чи­во пред­ла­га­ют кли­ен­там «повы­сить свою без­опас­ность» и ука­зать номер мобиль­но­го теле­фо­на «для вос­ста­нов­ле­ния забы­то­го паро­ля». Вряд ли сто­ит это делать. Потрать­те вре­мя на хоро­шие паро­ли, надеж­ные хра­ни­ли­ща паро­лей и резерв­ные копии как паро­лей, так и самих дан­ных. 
  • Ста­рай­тесь не попол­нять копил­ку мета­дан­ных о себе в соци­аль­ных сетях. Напри­мер, так ли нуж­но всем поль­зо­ва­те­лям Facebook видеть пол­ный спи­сок ваших дру­зей? Может быть, не сто­ит «чеки­нить­ся» в аэро­пор­тах и кафе?
  • Если вы фото­гра­фи­ру­е­те на смарт­фон, отклю­чи­те в настрой­ках каме­ры гео­мет­ки. Но если они вам по какой-то при­чине нуж­ны, вычи­сти­те мета­дан­ные из фото­гра­фии, преж­де чем отправ­лять ее кому-либо.
  • Обра­щай­те вни­ма­ние на раз­ре­ше­ния при­ло­же­ний. Теп­ли­ца уже писа­ла о том, какие рис­ки при­но­сят черес­чур инва­зив­ные при­ло­же­ния.
  • Бра­у­зер­ные допол­не­ния, вро­де Privacy Badger, поз­во­ля­ют иден­ти­фи­ци­ро­вать сле­дя­щие эле­мен­ты на веб-стра­ни­цах (тре­ке­ры), а Tor Browser – повы­сить ваши шан­сы оста­вать­ся ано­ним­ным в сети.

Автор бла­го­да­рит Оле­га Тка­че­ва, дирек­то­ра Цен­тра под­держ­ки НКО г. Киро­ва, за цен­ные заме­ча­ния при под­го­тов­ке ста­тьи.

Еще по теме