Большие данные: мы делаем большую ошибку?

http://upload.wikimedia.org/wikipedia/commons/6/69/Viegas-UserActivityonWikipedia.gif
http://upload.wikimedia.org/wikipedia/commons/6/69/Viegas-UserActivityonWikipedia.gif
Большие данные интересуют многих — от ученых и предпринимателей до правительства и журналистов. Но всегда ли большие данные — это хорошо? Не делаем ли мы ошибку, полагая, что большие данные дают нам точные результаты, а числа говорят сами за себя?

Зарождение тренда «Big Data» произошло пять лет назад, когда исследователи из Google анонсировали в ведущем научном мировом журнале Nature свое достижение – не имея результатов никаких медицинских проверок, они тем не менее смогли отследить распространение гриппа по США.

Более того — они смогли сделать это быстрее, чем Центр контроля и профилактики заболеваний (CDC), поскольку центру требовалась неделя или даже больше для того, чтобы собрать медицинские отчеты и проанализировать их. Google был быстрее, потому что просто отслеживал вспышки гриппа, находя корреляцию между тем, что люди ищут онлайн и тем, есть ли у них симптомы заболевания.

Мы обнаружили тесную взаимосвязь между количеством пользователей, которые ищут информацию, относящуюся к гриппу, и числом заболевших с его симптомами. Нельзя сказать, что пользователь, набирающий в поиске «грипп», действительно болен, однако скомбинировав все подобные запросы, можно выявить общую тенденцию.

Google Flu Trends

Google Flu Trends, «тенденции заболеваний», от Google были не только быстрыми, точными и дешевыми, они также были и свободными от теории. Инженеры из Google не выдвигали никаких гипотез — могут ли поисковые запросы «симптомы гриппа» или «аптека рядом со мной» коррелировать с распространением заболевания — они просто собрали 50 миллионов поисковых запросов и дали алгоритму делать его работу.

Успех Google привел к тому, что большими данными заинтересовались очень многие — большие данные стали новым трендом в бизнесе, науке и технологиях.

На этой волне успеха были сделаны четыре позитивных утверждения о больших данных:

  • анализ данных дает очень точные результаты;
  • могут быть собраны все данные (что делает использовавшиеся ранее методы сбора данных устаревшими);
  • не нужно беспокоиться о причинно-следственных связях, потому что статистическая корреляция скажет нам все, что нужно;
  • научные или статистические теории больше не нужны, потому что, как было сказано в провокационной статье «The End of Theory» в журнале Wired в 2008 году, «при достаточном количестве данных числа говорят сами за себя».

Но не все смотрят на большие данные с таким оптимизмом. Так, экономист Тим Харфорд (Tim Harford) считает, что эти четыре утверждения не более чем упрощение, а Дэвид Спиглхалтер (David Spiegelhalter), профессор Кембриджского университета, и вовсе назвал это «полной ерундой».

Более того, у больших данных есть и ярые противники, а критика разделилась на два потока — критику подхода в целом и критику того, как этот подход реализуется в настоящее время. Если первые критикуют парадигму больших данных как таковую, то у вторых вызывает сомнения статистический аспект анализа и использования больших данных — именно то, что содержат в себе четыре позитивных утверждения о больших данных.

Одним из таких критиков является Тим Харфорд, который назвал большие данные «неточным термином» и посвятил критическому разбору этого явления статью в Financial Times.

Большие данные обещают многое ученым, предпринимателям и правительству, но они неизбежно станут нашим большим разочарованием, если мы будем игнорировать простые уроки статистики.

Тим Харфорд

Существует много небольших проблем в области больших данных. Они не исчезают, если у вас есть много данных, — они становятся хуже.

Дэвид Спиглхалтер

Спустя четыре года после публикации о достижении Google в отслеживании распространения гриппа, Nature News опубликовал более печальные новости — одной из жертв последней вспышки гриппа стал Google Flu Trends, который впервые не смог предсказать распространение заболевания верно.

Проблема была в том, что Google не знал, что связывает поисковые запросы и распространение гриппа — что является причиной чего. Инженеры Google просто искали статистические паттерны в данных — корреляцию, а не причину. Это именно то, что часто происходит в анализе больших данных. Выявлять причины трудно (некоторые считают, что невозможно), выявлять корреляцию проще и дешевле. Поэтому, согласно книге Big Data (Viktor Mayer-Schönberger, Kenneth Cukier) «причинно-следственная связь не исчезла, но больше не является основным источником значений данных».

Но свободный от теории анализ корреляций крайне хрупкий — если вы не знаете, что стоит за корреляцией, тогда у вас нет никакого представления о том, что может разрушить корреляцию. Одним из объяснений провала Google Flu было то, что в новостях было много страшных историй о гриппе в декабре 2012 года и эти истории стали причиной поисковых запросов от здоровых людей. По другой версии, сам алгоритм Google стал автоматически предлагать диагноз, когда люди вводили симптомы, что нарушило статистическую картину.

Тем, кто занимается статистикой или социологией, должна быть хорошо знакома эта история. В 1936 году на президентских выборах республиканец Альфред Лэндон баллотировался против Франклина Делано Рузвельта. Уважаемый журнал The Literary Digest взял на себя ответственность прогнозировать результаты выборов. Для этого был проведен почтовый опрос невероятного размаха — письма разослали 10 миллионам людей, четверти электората.

После тщательного анализа вернувшихся 2,4 миллиона писем The Literary Digest огласил результат: Лэндон должен победить, набрав 55 процентов против 41 процента Рузвельта.

Но результаты выборов оказались совсем иными: Рузвельт, набрав 61 процент голосов, выиграл у Лэндона, который получил только 37 процентов. В довершение агонии The Literary Digest выяснилось, что результаты гораздо меньшего по масштабу исследования, проведенного Джорджем Гэллапом, пионером в изучении общественного мнения, оказались гораздо ближе к результатам выборов — они обещали Рузвельту уверенную победу. Гэллап понял то, чего не поняли The Literary Digest: когда речь идет о данных, размер — это еще не все.

Результаты выборов 1936
Результаты выборов 1936: красный — голоса за Лэндона, синий — за Рузвельта

Опросы общественного мнения, которые представляют собой выборку из всего населения, имеют дело с двумя проблемами: ошибкой выборки и смещением выборки.

Ошибка выборки — это риск того, что случайно выбранные мнения не отражают мнения населения в целом. Чем больше выборка, тем меньше этот риск. Тысяча интервью — это достаточная выборка для большинства целей, а Гэллап провел 3 000 интервью.

Но если 3 000 интервью — хорошо, то разве 2,4 миллиона — не лучше? Ответом на этот вопрос является то, что ошибка выборки имеет более опасного друга — смещение выборки, когда оказывается, что выборка вовсе не случайна.

Смещение выборки — это именно то, что произошло с The Literary Digest, которые рассылали вопросы людям, чьи адреса они взяли из автомобильных и телефонных справочников, — выборка, которая, по крайней мере в 1936 году, состояла из более чем благополучных и процветающих людей, которые, соответственно, поддерживали республиканцев.

Любимая выборка профессора Виктора Мейер-Шонбергера (Viktor Mayer-Schönberger, Oxford’s Internet Institute) — это выборка «N = All», когда у нас есть абсолютно все данные. В этом случае не может быть смещения выборки, но «N = All» не совсем подходящее описание для тех наборов данных, с которыми мы обычно работаем.

Я бы поставил под сомнение утверждение о том, что кто-либо может иметь все данные.

Патрик Вольф, профессорстатистикив UCL

Например, Twitter. Теоретически возможно собрать и проанализировать каждое сообщение в этой социальной сети, чтобы составить представление о настроении людей (хотя исследователи, как правило, все равно работают с частью этих данных), но даже это не даст нам полной картины — потому что пользователи Twitter не отражают население в целом.

Соответственно, всегда будет вопрос о том, кто не вошел в выборку и каких данных не хватает. В своей статье Тим Харфорд приводит еще один пример — бостонское приложение Street Bump. Это приложение, установленное на смартфон, регистрирует ямы на дорогах и отправляет информацию чиновникам, которые понимают, что и где нуждается в ремонте. Но, несмотря на гордость, которую власти Бостона испытывают за это приложение, оно предлагает нам массив данных «N = All» в том смысле, что он включает в себя данные обо всех ямах, которые были зарегистрированы приложением, а не обо всех ямах, которые вообще существуют на бостонских дорогах. По мнению Кейт Кроуфорд (Kate Crawford), исследователя из Microsoft, большие данные всегда содержат смещения и нужно быть очень внимательными, чтобы понять, где именно. Наборы данных могут выглядеть полными, но «N = All» — это опасная иллюзия.

О причинах или смещении выборки задумываются еще меньше, когда оказываются вовлечены деньги. Так, сеть магазинов Target известна тем, что данные, которые собираются о покупателях, позволяют делать такие предсказания их потребительского поведения, что это выглядит почти как магия.

На эту тему даже есть известный анекдот: мужчина врывается в Target в Миннеаполисе и жалуется менеджеру, что магазин рассылает купоны на детскую одежду и одежду для молодых матерей его дочери-подростку. Менеджер извиняется и позже звонит, чтобы извиниться еще раз — только для того, чтобы услышать, что та девочка-подросток действительно беременна. Ее отец об этом не знал, а вот Target, проанализировав ее покупки — салфетки без запаха и добавки магния — догадался.

Ироничный комикс про большие данные
Ироничный комикс про большие данные

Но у этой магии есть вполне логичное объяснение. Согласно Кайзеру Фангу (Kaiser Fung), аналитику данных и автору Numbersense, все дело в том, что мы просто не слышим всех бесконечных историй о том, как женщины получали купоны на детскую одежду, не будучи при этом беременными. То, что произошло в анекдоте, является совпадением — его героиня получила купоны просто потому, что их получили все остальные женщины, адреса которых были у магазина. И нам не следует считать, что Target или кто-то еще читает мысли своих покупателей, во всяком случае, следует при этом учитывать то, сколько таких предположений не попали в цель.

Еще одной проблемой больших данных является проблема множественного сравнения, возникающая при тестировании большого числа гипотез, при котором появляются результаты, ошибочно считающиеся значимыми. Чем больше массивы данных, тем вероятнее появление такой проблемы, что усугубляется тем, что «антидот» этой проблемы — прозрачность и открытость данных и работы с ними — не всегда достижим.

Большие данные являются мощным аналитическим инструментом, но сами по себе они не решают проблем, которые столетия беспокоят ученых и людей, занимающихся статистикой: понимания того, что происходит, с помощью имеющейся информации.

У нас есть новый ресурс, но никто не хочет «данные», все хотят ответы.

Дэвид Хэнд, профессор Imperial College London

И если мы хотим использовать большие данные для того, чтобы получить эти ответы, нам нужны новые статистические методы, которые следует разрабатывать, помня обо всех уроках статистики, а не игнорируя их.