Большие данные: мы делаем большую ошибку?

http://upload.wikimedia.org/wikipedia/commons/6/69/Viegas-UserActivityonWikipedia.gif
http://upload.wikimedia.org/wikipedia/commons/6/69/Viegas-UserActivityonWikipedia.gif
Боль­шие дан­ные инте­ре­су­ют мно­гих – от уче­ных и пред­при­ни­ма­те­лей до пра­ви­тель­ства и жур­на­ли­стов. Но все­гда ли боль­шие дан­ные – это хоро­шо? Не дела­ем ли мы ошиб­ку, пола­гая, что боль­шие дан­ные дают нам точ­ные резуль­та­ты, а чис­ла гово­рят сами за себя?

Зарож­де­ние трен­да «Big Data» про­изо­шло пять лет назад, когда иссле­до­ва­те­ли из Google анон­си­ро­ва­ли в веду­щем науч­ном миро­вом жур­на­ле Nature свое дости­же­ние – не имея резуль­та­тов ника­ких меди­цин­ских про­ве­рок, они тем не менее смог­ли отсле­дить рас­про­стра­не­ние грип­па по США.

Более того – они смог­ли сде­лать это быст­рее, чем Центр кон­тро­ля и про­фи­лак­ти­ки забо­ле­ва­ний (CDC), посколь­ку цен­тру тре­бо­ва­лась неде­ля или даже боль­ше для того, что­бы собрать меди­цин­ские отче­ты и про­ана­ли­зи­ро­вать их. Google был быст­рее, пото­му что про­сто отсле­жи­вал вспыш­ки грип­па, нахо­дя кор­ре­ля­цию меж­ду тем, что люди ищут онлайн и тем, есть ли у них симп­то­мы забо­ле­ва­ния.

Мы обна­ру­жи­ли тес­ную вза­и­мо­связь меж­ду коли­че­ством поль­зо­ва­те­лей, кото­рые ищут инфор­ма­цию, отно­ся­щу­ю­ся к грип­пу, и чис­лом забо­лев­ших с его симп­то­ма­ми. Нель­зя ска­зать, что поль­зо­ва­тель, наби­ра­ю­щий в поис­ке «грипп», дей­стви­тель­но болен, одна­ко ском­би­ни­ро­вав все подоб­ные запро­сы, мож­но выявить общую тен­ден­цию.

Google Flu Trends

Google Flu Trends, «тен­ден­ции забо­ле­ва­ний», от Google были не толь­ко быст­ры­ми, точ­ны­ми и деше­вы­ми, они так­же были и сво­бод­ны­ми от тео­рии. Инже­не­ры из Google не выдви­га­ли ника­ких гипо­тез – могут ли поис­ко­вые запро­сы «симп­то­мы грип­па» или «апте­ка рядом со мной» кор­ре­ли­ро­вать с рас­про­стра­не­ни­ем забо­ле­ва­ния – они про­сто собра­ли 50 мил­ли­о­нов поис­ко­вых запро­сов и дали алго­рит­му делать его рабо­ту.

Успех Google при­вел к тому, что боль­ши­ми дан­ны­ми заин­те­ре­со­ва­лись очень мно­гие – боль­шие дан­ные ста­ли новым трен­дом в биз­не­се, нау­ке и тех­но­ло­ги­ях.

На этой волне успеха были сделаны четыре позитивных утверждения о больших данных:

  • ана­лиз дан­ных дает очень точ­ные резуль­та­ты;
  • могут быть собра­ны все дан­ные (что дела­ет исполь­зо­вав­ши­е­ся ранее мето­ды сбо­ра дан­ных уста­рев­ши­ми);
  • не нуж­но бес­по­ко­ить­ся о при­чин­но-след­ствен­ных свя­зях, пото­му что ста­ти­сти­че­ская кор­ре­ля­ция ска­жет нам все, что нуж­но;
  • науч­ные или ста­ти­сти­че­ские тео­рии боль­ше не нуж­ны, пото­му что, как было ска­за­но в про­во­ка­ци­он­ной ста­тье «The End of Theory» в жур­на­ле Wired в 2008 году, «при доста­точ­ном коли­че­стве дан­ных чис­ла гово­рят сами за себя».

Но не все смот­рят на боль­шие дан­ные с таким опти­миз­мом. Так, эко­но­мист Тим Хар­форд (Tim Harford) счи­та­ет, что эти четы­ре утвер­жде­ния не более чем упро­ще­ние, а Дэвид Спи­гл­хал­тер (David Spiegelhalter), про­фес­сор Кем­бридж­ско­го уни­вер­си­те­та, и вовсе назвал это «пол­ной ерун­дой».

Более того, у боль­ших дан­ных есть и ярые про­тив­ни­ки, а кри­ти­ка раз­де­ли­лась на два пото­ка – кри­ти­ку под­хо­да в целом и кри­ти­ку того, как этот под­ход реа­ли­зу­ет­ся в насто­я­щее вре­мя. Если пер­вые кри­ти­ку­ют пара­диг­му боль­ших дан­ных как тако­вую, то у вто­рых вызы­ва­ет сомне­ния ста­ти­сти­че­ский аспект ана­ли­за и исполь­зо­ва­ния боль­ших дан­ных – имен­но то, что содер­жат в себе четы­ре пози­тив­ных утвер­жде­ния о боль­ших дан­ных.

Одним из таких кри­ти­ков явля­ет­ся Тим Хар­форд, кото­рый назвал боль­шие дан­ные «неточ­ным тер­ми­ном» и посвя­тил кри­ти­че­ско­му раз­бо­ру это­го явле­ния ста­тью в Financial Times.

Боль­шие дан­ные обе­ща­ют мно­гое уче­ным, пред­при­ни­ма­те­лям и пра­ви­тель­ству, но они неиз­беж­но ста­нут нашим боль­шим разо­ча­ро­ва­ни­ем, если мы будем игно­ри­ро­вать про­стые уро­ки ста­ти­сти­ки.

Тим Хар­форд

Суще­ству­ет мно­го неболь­ших про­блем в обла­сти боль­ших дан­ных. Они не исче­за­ют, если у вас есть мно­го дан­ных, – они ста­но­вят­ся хуже.

Дэвид Спи­гл­хал­тер

Спу­стя четы­ре года после пуб­ли­ка­ции о дости­же­нии Google в отсле­жи­ва­нии рас­про­стра­не­ния грип­па, Nature News опуб­ли­ко­вал более печаль­ные ново­сти – одной из жертв послед­ней вспыш­ки грип­па стал Google Flu Trends, кото­рый впер­вые не смог пред­ска­зать рас­про­стра­не­ние забо­ле­ва­ния вер­но.

Про­бле­ма была в том, что Google не знал, что свя­зы­ва­ет поис­ко­вые запро­сы и рас­про­стра­не­ние грип­па – что явля­ет­ся при­чи­ной чего. Инже­не­ры Google про­сто иска­ли ста­ти­сти­че­ские пат­тер­ны в дан­ных – кор­ре­ля­цию, а не при­чи­ну. Это имен­но то, что часто про­ис­хо­дит в ана­ли­зе боль­ших дан­ных. Выяв­лять при­чи­ны труд­но (неко­то­рые счи­та­ют, что невоз­мож­но), выяв­лять кор­ре­ля­цию про­ще и дешев­ле. Поэто­му, соглас­но кни­ге Big Data (Viktor Mayer-Schönberger, Kenneth Cukier) «при­чин­но-след­ствен­ная связь не исчез­ла, но боль­ше не явля­ет­ся основ­ным источ­ни­ком зна­че­ний дан­ных».

Но сво­бод­ный от тео­рии ана­лиз кор­ре­ля­ций крайне хруп­кий – если вы не зна­е­те, что сто­ит за кор­ре­ля­ци­ей, тогда у вас нет ника­ко­го пред­став­ле­ния о том, что может раз­ру­шить кор­ре­ля­цию. Одним из объ­яс­не­ний про­ва­ла Google Flu было то, что в ново­стях было мно­го страш­ных исто­рий о грип­пе в декаб­ре 2012 года и эти исто­рии ста­ли при­чи­ной поис­ко­вых запро­сов от здо­ро­вых людей. По дру­гой вер­сии, сам алго­ритм Google стал авто­ма­ти­че­ски пред­ла­гать диа­гноз, когда люди вво­ди­ли симп­то­мы, что нару­ши­ло ста­ти­сти­че­скую кар­ти­ну.

Тем, кто зани­ма­ет­ся ста­ти­сти­кой или социо­ло­ги­ей, долж­на быть хоро­шо зна­ко­ма эта исто­рия. В 1936 году на пре­зи­дент­ских выбо­рах рес­пуб­ли­ка­нец Аль­фред Лэн­дон бал­ло­ти­ро­вал­ся про­тив Фран­кли­на Дела­но Рузвель­та. Ува­жа­е­мый жур­нал The Literary Digest взял на себя ответ­ствен­ность про­гно­зи­ро­вать резуль­та­ты выбо­ров. Для это­го был про­ве­ден поч­то­вый опрос неве­ро­ят­но­го раз­ма­ха – пись­ма разо­сла­ли 10 мил­ли­о­нам людей, чет­вер­ти элек­то­ра­та.

После тща­тель­но­го ана­ли­за вер­нув­ших­ся 2,4 мил­ли­о­на писем The Literary Digest огла­сил резуль­тат: Лэн­дон дол­жен побе­дить, набрав 55 про­цен­тов про­тив 41 про­цен­та Рузвель­та.

Но резуль­та­ты выбо­ров ока­за­лись совсем ины­ми: Рузвельт, набрав 61 про­цент голо­сов, выиг­рал у Лэн­до­на, кото­рый полу­чил толь­ко 37 про­цен­тов. В довер­ше­ние аго­нии The Literary Digest выяс­ни­лось, что резуль­та­ты гораз­до мень­ше­го по мас­шта­бу иссле­до­ва­ния, про­ве­ден­но­го Джор­джем Гэл­ла­пом, пио­не­ром в изу­че­нии обще­ствен­но­го мне­ния, ока­за­лись гораз­до бли­же к резуль­та­там выбо­ров – они обе­ща­ли Рузвель­ту уве­рен­ную побе­ду. Гэл­лап понял то, чего не поня­ли The Literary Digest: когда речь идет о дан­ных, раз­мер – это еще не все.

Результаты выборов 1936
Резуль­та­ты выбо­ров 1936: крас­ный – голо­са за Лэн­до­на, синий – за Рузвель­та

Опро­сы обще­ствен­но­го мне­ния, кото­рые пред­став­ля­ют собой выбор­ку из все­го насе­ле­ния, име­ют дело с дву­мя про­бле­ма­ми: ошиб­кой выбор­ки и сме­ще­ни­ем выбор­ки.

Ошиб­ка выбор­ки – это риск того, что слу­чай­но выбран­ные мне­ния не отра­жа­ют мне­ния насе­ле­ния в целом. Чем боль­ше выбор­ка, тем мень­ше этот риск. Тыся­ча интер­вью – это доста­точ­ная выбор­ка для боль­шин­ства целей, а Гэл­лап про­вел 3 000 интер­вью.

Но если 3 000 интер­вью – хоро­шо, то раз­ве 2,4 мил­ли­о­на – не луч­ше? Отве­том на этот вопрос явля­ет­ся то, что ошиб­ка выбор­ки име­ет более опас­но­го дру­га – сме­ще­ние выбор­ки, когда ока­зы­ва­ет­ся, что выбор­ка вовсе не слу­чай­на.

Сме­ще­ние выбор­ки – это имен­но то, что про­изо­шло с The Literary Digest, кото­рые рас­сы­ла­ли вопро­сы людям, чьи адре­са они взя­ли из авто­мо­биль­ных и теле­фон­ных спра­воч­ни­ков, – выбор­ка, кото­рая, по край­ней мере в 1936 году, состо­я­ла из более чем бла­го­по­луч­ных и про­цве­та­ю­щих людей, кото­рые, соот­вет­ствен­но, под­дер­жи­ва­ли рес­пуб­ли­кан­цев.

Люби­мая выбор­ка про­фес­со­ра Вик­то­ра Мей­ер-Шон­бер­ге­ра (Viktor Mayer-Schönberger, Oxford’s Internet Institute) – это выбор­ка «N = All», когда у нас есть абсо­лют­но все дан­ные. В этом слу­чае не может быть сме­ще­ния выбор­ки, но «N = All» не совсем под­хо­дя­щее опи­са­ние для тех набо­ров дан­ных, с кото­ры­ми мы обыч­но рабо­та­ем.

Я бы поста­вил под сомне­ние утвер­жде­ние о том, что кто-либо может иметь все дан­ные.

Пат­рик Вольф, про­фес­сор­ста­ти­сти­кив UCL

Напри­мер, Twitter. Тео­ре­ти­че­ски воз­мож­но собрать и про­ана­ли­зи­ро­вать каж­дое сооб­ще­ние в этой соци­аль­ной сети, что­бы соста­вить пред­став­ле­ние о настро­е­нии людей (хотя иссле­до­ва­те­ли, как пра­ви­ло, все рав­но рабо­та­ют с частью этих дан­ных), но даже это не даст нам пол­ной кар­ти­ны – пото­му что поль­зо­ва­те­ли Twitter не отра­жа­ют насе­ле­ние в целом.

Соот­вет­ствен­но, все­гда будет вопрос о том, кто не вошел в выбор­ку и каких дан­ных не хва­та­ет. В сво­ей ста­тье Тим Хар­форд при­во­дит еще один при­мер – бостон­ское при­ло­же­ние Street Bump. Это при­ло­же­ние, уста­нов­лен­ное на смарт­фон, реги­стри­ру­ет ямы на доро­гах и отправ­ля­ет инфор­ма­цию чинов­ни­кам, кото­рые пони­ма­ют, что и где нуж­да­ет­ся в ремон­те. Но, несмот­ря на гор­дость, кото­рую вла­сти Босто­на испы­ты­ва­ют за это при­ло­же­ние, оно пред­ла­га­ет нам мас­сив дан­ных «N = All» в том смыс­ле, что он вклю­ча­ет в себя дан­ные обо всех ямах, кото­рые были заре­ги­стри­ро­ва­ны при­ло­же­ни­ем, а не обо всех ямах, кото­рые вооб­ще суще­ству­ют на бостон­ских доро­гах. По мне­нию Кейт Кро­уфорд (Kate Crawford), иссле­до­ва­те­ля из Microsoft, боль­шие дан­ные все­гда содер­жат сме­ще­ния и нуж­но быть очень вни­ма­тель­ны­ми, что­бы понять, где имен­но. Набо­ры дан­ных могут выгля­деть пол­ны­ми, но «N = All» – это опас­ная иллю­зия.

О при­чи­нах или сме­ще­нии выбор­ки заду­мы­ва­ют­ся еще мень­ше, когда ока­зы­ва­ют­ся вовле­че­ны день­ги. Так, сеть мага­зи­нов Target извест­на тем, что дан­ные, кото­рые соби­ра­ют­ся о поку­па­те­лях, поз­во­ля­ют делать такие пред­ска­за­ния их потре­би­тель­ско­го пове­де­ния, что это выгля­дит почти как магия.

На эту тему даже есть извест­ный анек­дот: муж­чи­на вры­ва­ет­ся в Target в Мин­неа­по­ли­се и жалу­ет­ся мене­дже­ру, что мага­зин рас­сы­ла­ет купо­ны на дет­скую одеж­ду и одеж­ду для моло­дых мате­рей его доче­ри-под­рост­ку. Мене­джер изви­ня­ет­ся и поз­же зво­нит, что­бы изви­нить­ся еще раз – толь­ко для того, что­бы услы­шать, что та девоч­ка-под­ро­сток дей­стви­тель­но бере­мен­на. Ее отец об этом не знал, а вот Target, про­ана­ли­зи­ро­вав ее покуп­ки – сал­фет­ки без запа­ха и добав­ки маг­ния – дога­дал­ся.

Ироничный комикс про большие данные
Иро­нич­ный комикс про боль­шие дан­ные

Но у этой магии есть вполне логич­ное объ­яс­не­ние. Соглас­но Кай­зе­ру Фан­гу (Kaiser Fung), ана­ли­ти­ку дан­ных и авто­ру Numbersense, все дело в том, что мы про­сто не слы­шим всех бес­ко­неч­ных исто­рий о том, как жен­щи­ны полу­ча­ли купо­ны на дет­скую одеж­ду, не будучи при этом бере­мен­ны­ми. То, что про­изо­шло в анек­до­те, явля­ет­ся сов­па­де­ни­ем – его геро­и­ня полу­чи­ла купо­ны про­сто пото­му, что их полу­чи­ли все осталь­ные жен­щи­ны, адре­са кото­рых были у мага­зи­на. И нам не сле­ду­ет счи­тать, что Target или кто-то еще чита­ет мыс­ли сво­их поку­па­те­лей, во вся­ком слу­чае, сле­ду­ет при этом учи­ты­вать то, сколь­ко таких пред­по­ло­же­ний не попа­ли в цель.

Еще одной про­бле­мой боль­ших дан­ных явля­ет­ся про­бле­ма мно­же­ствен­но­го срав­не­ния, воз­ни­ка­ю­щая при тести­ро­ва­нии боль­шо­го чис­ла гипо­тез, при кото­ром появ­ля­ют­ся резуль­та­ты, оши­боч­но счи­та­ю­щи­е­ся зна­чи­мы­ми. Чем боль­ше мас­си­вы дан­ных, тем веро­ят­нее появ­ле­ние такой про­бле­мы, что усу­губ­ля­ет­ся тем, что «анти­дот» этой про­бле­мы – про­зрач­ность и откры­тость дан­ных и рабо­ты с ними – не все­гда дости­жим.

Боль­шие дан­ные явля­ют­ся мощ­ным ана­ли­ти­че­ским инстру­мен­том, но сами по себе они не реша­ют про­блем, кото­рые сто­ле­тия бес­по­ко­ят уче­ных и людей, зани­ма­ю­щих­ся ста­ти­сти­кой: пони­ма­ния того, что про­ис­хо­дит, с помо­щью име­ю­щей­ся инфор­ма­ции.

У нас есть новый ресурс, но никто не хочет «дан­ные», все хотят отве­ты.

Дэвид Хэнд, про­фес­сор Imperial College London

И если мы хотим исполь­зо­вать боль­шие дан­ные для того, что­бы полу­чить эти отве­ты, нам нуж­ны новые ста­ти­сти­че­ские мето­ды, кото­рые сле­ду­ет раз­ра­ба­ты­вать, пом­ня обо всех уро­ках ста­ти­сти­ки, а не игно­ри­руя их.