Как использовать данные мобильных телефонов, не раскрывая личной информации пользователей

Как использовать данные мобильных телефонов, не раскрывая личной информации пользователей
Как использовать данные мобильных телефонов, не раскрывая личной информации пользователей

Дан­ные мобиль­ных теле­фо­нов могут быть очень полез­ны в раз­ных ситу­а­ци­ях – от луч­ше­го рас­пре­де­ле­ния элек­тро­энер­гии в горо­де до помо­щи в борь­бе с лихо­рад­кой. Но мож­но ли исполь­зо­вать эти дан­ные и не рас­кры­вать при этом лич­ную инфор­ма­цию поль­зо­ва­те­лей?

Поделитесь этой статьей с коллегами и друзьями

Каж­дый день, час и даже мину­ту поль­зо­ва­те­ли мобиль­ных теле­фо­нов созда­ют циф­ро­вые «сле­ды» – дан­ные о сво­ем рас­по­ло­же­нии, адре­са­тах звон­ков, про­дол­жи­тель­но­сти раз­го­во­ров и мно­гом дру­гом.

Эта инфор­ма­ция может быть исполь­зо­ва­на в самых раз­ных целях – от визу­а­ли­за­ции дина­ми­ки пере­ме­ще­ний в горо­де, бла­го­да­ря пони­ма­нию кото­рой мож­но луч­ше рас­пре­де­лять энер­гию и дру­гие ресур­сы, а так­же управ­лять тра­фи­ком, до помо­щи при таких чрез­вы­чай­ных ситу­а­ци­ях, как вспыш­ка лихо­рад­ки Эбо­ла, кото­рая слу­чи­лась в про­шлом году.

Данные мобильных телефонов

Соглас­но иссле­до­ва­нию, дан­ные мобиль­ных теле­фо­нов явля­ют­ся намно­го более точ­ным (и акту­аль­ным) источ­ни­ком инфор­ма­ции о чис­лен­но­сти попу­ля­ции и пере­ме­ще­нии людей, чем тра­ди­ци­он­ная пере­пись насе­ле­ния.

Кар­ты, полу­чен­ные на осно­ве мобиль­ных дан­ных, пока­зы­ва­ют истин­ную при­ро­ду суще­ству­ю­щих соци­аль­ных сетей и пере­ме­ще­ние людей прак­ти­че­ски в режи­ме реаль­но­го вре­ме­ни и, соот­вет­ствен­но, могут помочь пред­ска­зать мно­гие вещи, напри­мер, рас­про­стра­не­ние болез­ни.

Это рабо­та­ет доста­точ­но про­сто – каж­дый раз, когда вы дела­е­те зво­нок, мобиль­ный теле­фон посы­ла­ет инфор­ма­цию на базо­вую стан­цию и сооб­ща­ет ваше при­мер­ное место­рас­по­ло­же­ние. Когда такая инфор­ма­ция извест­на про мил­ли­о­ны людей, мож­но соста­вить деталь­ную кар­ти­ну плот­но­сти попу­ля­ции и того, как она изме­ня­ет­ся с тече­ни­ем вре­ме­ни в какой-либо обла­сти.

Личные данные пользователей

Но у исполь­зо­ва­ния дан­ных с мобиль­ных теле­фо­нов есть и тем­ная сто­ро­на – это лич­ная инфор­ма­ция поль­зо­ва­те­лей, кото­рая может быть рас­кры­та.

Такие опа­се­ния не бес­поч­вен­ны – в мар­те иссле­до­ва­те­ли из Стэн­форд­ско­го уни­вер­си­те­та про­де­мон­стри­ро­ва­ли, что даже про­стые мета­дан­ные с мобиль­ных теле­фо­нов могут рас­кры­вать очень лич­ные аспек­ты жиз­ни поль­зо­ва­те­лей.

Так, толь­ко на осно­ве дан­ных о том, кому зво­ни­ли участ­ни­ки иссле­до­ва­ния, уда­лось уста­но­вить лич­но­сти чело­ве­ка, кото­рый выра­щи­вал коноп­лю, жен­щи­ны, пла­ни­ру­ю­щей сде­лать аборт, и чело­ве­ка, стра­да­ю­ще­го от рас­се­ян­но­го скле­ро­за.

Выяс­ня­ет­ся, что, каза­лось бы, ано­ним­ные дан­ные на самом деле не такие ано­ним­ные и при неко­то­ром жела­нии их мож­но лег­ко деа­но­ни­ми­зи­ро­вать.

Но воз­мож­на ли в таком слу­чае вооб­ще пуб­ли­ка­ция набо­ров боль­ших дан­ных без рис­ка рас­крыть чью-либо при­ват­ную инфор­ма­цию?

Безопасное использование данных

Хоро­шим при­ме­ром того, как мобиль­ные опе­ра­то­ры могут исполь­зо­вать дан­ные сво­их поль­зо­ва­те­лей и при этом защи­щать их лич­ную инфор­ма­цию, может Orange, фран­цуз­ский мобиль­ный опе­ра­тор, кото­рый рабо­та­ет в ряде афри­кан­ских стран.

В про­грам­ме «Data for Development» (D4D), кото­рая про­во­дит­ся уже вто­рой год, Orange дает иссле­до­ва­те­лям воз­мож­ность исполь­зо­вать мобиль­ные дан­ные для про­ек­тов, направ­лен­ных на раз­ви­тие реги­о­на.

Инфраструктура электроэнергии и расположение базовых станций в Сенегале. Изображение: nextgov.com
Инфра­струк­ту­ра элек­тро­энер­гии и рас­по­ло­же­ние базо­вых стан­ций в Сене­га­ле. Изоб­ра­же­ние: nextgov.com

После успе­ха про­шло­год­ней про­грам­мы в Кот-д’Ивуар, в этом году D4D про­шла в Сене­га­ле. Цель про­грам­мы, кото­рая дает иссле­до­ва­те­лям и уче­ным доступ к мобиль­ным дан­ным, заклю­ча­ет­ся в помо­щи раз­ви­тию здра­во­охра­не­ния, сель­ско­го хозяй­ства, транс­пор­та и дру­гих важ­ных отрас­лей в реги­оне.

Дан­ные, с кото­ры­ми рабо­та­ли иссле­до­ва­те­ли, мобиль­ный опе­ра­тор соби­рал в тече­ние все­го 2013 года – это 1,1 тера­байт инфор­ма­ции (экви­ва­лен­том тако­го объ­е­ма инфор­ма­ции мож­но счи­тать более 1 000 часов стри­мин­га сери­а­лов с Netflix в стан­дарт­ном раз­ре­ше­нии).

Что­бы ано­ни­ми­зи­ро­вать дан­ные, Orange заме­нил все иден­ти­фи­ка­то­ры звон­ка одним номе­ром, озна­ча­ю­щим сам зво­нок. Ключ, кото­рый исполь­зо­вал­ся для кон­вер­та­ции всех дан­ных в один номер, был затем уни­что­жен.

После это­го инфор­ма­ция была раз­би­та на три набо­ра дан­ных. Пер­вый набор дан­ных пока­зы­вал, какие базо­вые стан­ции ком­му­ни­ци­ро­ва­ли друг с дру­гом в опре­де­лен­ное вре­мя. Эти дан­ные мог­ли бы выгля­деть так:

Пример того, как мог бы выглядеть набор данных, отражающий коммуникацию базовых станций. Изображение: nextgov.com
При­мер того, как мог бы выгля­деть набор дан­ных, отра­жа­ю­щий ком­му­ни­ка­цию базо­вых стан­ций. Изоб­ра­же­ние: nextgov.com

В этом при­ду­ман­ном при­ме­ре каж­дая ячей­ка пока­зы­ва­ет чис­ло звон­ков меж­ду дву­мя стан­ци­я­ми в про­ме­жу­ток меж­ду 1 и 2 часа­ми дня 8 янва­ря.

Посколь­ку в Сене­га­ле 1,606 базо­вых стан­ций опе­ра­то­ра Orange, то насто­я­щий набор дан­ных имел бы 1,606 строк и столб­цов для каж­до­го часа это­го года.

Кро­ме того, для уда­лен­ных стан­ций с неболь­шим коли­че­ством звон­ков насто­я­щая циф­ра была заме­не­на дру­гой слу­чай­ной циф­рой. В при­ве­ден­ном при­ме­ре 4 звон­ка меж­ду стан­ци­ей 3 и 4 были бы заме­не­ны дру­гим чис­лом мень­ше 10.

Для чего нуж­но это делать? Orange объ­яс­ня­ет это так:

«Если в 3 утра в наци­о­наль­ном пар­ке был сде­лан толь­ко один зво­нок, то очень вели­ка веро­ят­ность того, что этот зво­нок был сде­лан охран­ни­ком пар­ка».

Дру­ги­ми сло­ва­ми, дан­ные лег­ко мож­но деа­но­ни­ми­зи­ро­вать на осно­ва­нии той инфор­ма­ции, кото­рая явля­ет­ся внеш­ней по отно­ше­нию к набо­ру дан­ных, и это тоже необ­хо­ди­мо учи­ты­вать для того, что­бы защи­тить лич­ную инфор­ма­цию поль­зо­ва­те­лей.

Вто­рой и тре­тий набо­ры дан­ных пока­зы­ва­ли, как люди пере­ме­ща­ют­ся в Сене­га­ле, при этом, что­бы обес­пе­чить при­ват­ность дан­ных поль­зо­ва­те­лей, Orange внес незна­чи­тель­ные изме­не­ния в дан­ные, напри­мер, немно­го изме­нил рас­по­ло­же­ние стан­ции или вре­мя звон­ка.

Толь­ко после все­го это­го дан­ные были опуб­ли­ко­ва­ны и доступ­ны для иссле­до­ва­те­лей и участ­ни­ков про­грам­мы, кото­рые на их осно­ва­нии пред­ста­ви­ли свои про­ек­ты по улуч­ше­нию реги­о­на.

В резуль­та­те коман­да-побе­ди­тель пока­за­ла, как мобиль­ные дан­ные могут быть исполь­зо­ва­ны для пла­ни­ро­ва­ния элек­тро­энер­ге­ти­че­ской инфра­струк­ту­ры – иссле­до­ва­те­ли нашли кор­ре­ля­цию меж­ду исполь­зо­ва­ни­ем мобиль­но­го теле­фо­на и исполь­зо­ва­ни­ем энер­гии, а дан­ные о пере­ме­ще­нии насе­ле­ния помо­га­ют опре­де­лять не толь­ко теку­щие, но и буду­щие потреб­но­сти в энер­гии и пла­ни­ро­вать инфра­струк­ту­ру соот­вет­ствен­но.

Дру­гие про­ек­ты кон­кур­са затра­ги­ва­ли такие темы, как изме­ре­ние соци­аль­но­го нера­вен­ства и луч­шее пони­ма­ние пат­тер­нов пере­ме­ще­ния жите­лей Сене­га­ла. В кон­кур­се участ­во­ва­ли мета-про­ек­ты, рас­смат­ри­ва­ю­щие вопро­сы ано­ним­но­сти дан­ных, а так­же был один про­ект, авто­ры кото­ро­го смо­де­ли­ро­ва­ли рас­про­стра­не­ние лихо­рад­ки Эбо­ла в Сене­га­ле при помо­щи дан­ных мобиль­ных теле­фо­нов.

Изоб­ра­же­ние: Richard Bartz.