Найдется не все. Почему появляются информационные границы

Границы бывают не только географическими, культурными и личными Иллюстрация: Search Atlas / searchatlas.org

Знаете ли вы, как работает поиск в Google? Вот как рассказывает о технологии сама компания на официальной странице: «[И]нструменты ранжирования Google упорядочивают сотни миллиардов страниц в поисковом индексе. <…> Чтобы дать вам наиболее полезную информацию, они учитывают множество факторов, включая ваш поисковый запрос, релевантность и удобство найденных страниц, их надежность, а также ваше местоположение и настройки». Иначе говоря, выдача результатов по абсолютно одинаковому запросу не совпадет ни у одной пары пользователей Google. 

Авторка Теплицы Ольга Тараканова рассказывает об исследовательской публикации Search Atlas, которая вышла в июле 2021 года, и демонстрирует, как «информационные регионы» в Google отличаются от регионов на привычной географической карте, а также объясняет, почему результаты алгоритмизированного поиска никогда не бывают на сто процентов «релевантными». 

Границы и регионы

Что объединяет Мальдивы, Йемен и Антарктиду? А Камбоджу, Польшу и Италию? Чем Германия и Люксембург вместе отличаются от Италии и Польши? 

Три кластера, которые я назвала, авторы Search Atlas выделили, проанализировав выдачу Google по запросу «Как бороться с изменением климата» (в англ. оригинале How to combat climate change). «Информационная карта», которую получили исследователи, включает в себя всего десять кластеров, а также самые частотные в каждом кластере слова. Например, «мясо» и «ферма». Или «вредный» и «признаки». 

Конечно, исследователи предлагают свою интерпретацию полученных результатов. Но прежде всего есть смысл рассказать, как эти результаты были получены, ведь в их формировании, как и формировании выдачи по запросу в Google, участвовали алгоритмы.

Картография поисковых запросов

gl и hl — два ключевых параметра, которые предшествуют запуску поиска в Google. 

Первый — геолокация, или местоположение, которое может быть и точным (например, определять район в городе), а может указывать только на страну. 

Второй — язык. По умолчанию в Google каждой стране соответствует один язык. Это не всегда тот язык, на котором говорят большинство жителей; также не всегда понятно, как инженеры компании выбрали один из нескольких языков, признанных в стране государственными. 

Первым делом авторы Search Atlas создали базу соответствий между странами и языками для них по умолчанию в Google. Например, это английский не только в Великобритании, но и в Пакистане. Французский не только во Франции, но и в Мали. 

Затем, запуская поиск по запросу «Как бороться с изменением климата» (или других фраз в других экспериментах) по каждой стране, исследователи переводили запрос на нужный язык с помощью машинного перевода, то есть с помощью Google Translate. Собирая результаты, переводили их обратно на английский, снова с помощью Google Translate.

Собранную базу исследователи использовали для создания пространственной визуализации. С помощью алгоритмов tf-idf и UMAP считали близость и удаленность каждой страны от всех остальных, ориентируясь на самые частотные слова в выдаче. Упомянутые алгоритмы не так сложны, как алгоритм поиска Google, но их устройство в подробностях тоже не опишешь в небольшой статье, поэтому скажу только, что самый простой, но отчасти похожий способ перевода слов в векторное пространство описан в статье об автоматической обработке естественного языка.

Кроме того, нужно знать, что само устройство алгоритмов поиска в Google является коммерческой тайной компании. И даже сами сотрудники признаются, что система, по которой устроен поиск, настолько сложна, что человек, в принципе, не способен полностью вникнуть в логику ее работы. 

Информационные границы

Согласно интерпретации авторов Search Atlas, в кластерах, полученных при анализе выдачи по запросу «Как бороться с изменением климата», островные государства в основном оказались отдельно от материковых. Кроме того, на положение страны на «информационной карте» влияет ее богатство или бедность, особые проблемы, связанные именно с глобальным потеплением, например, нехватка еды, а также государственная политика или наличие международных органов, которые отрицают климатические изменения или инициируют и поддерживают программы по борьбе с ними.

При этом авторы Search Atlas предостерегают читателей от того, чтобы интерпретировать результаты как прямую производную от 1) либо культурных различий, 2) либо политической воли акторов, наделенных властью. Среди того сложного переплетения факторов, которые влияют на формирование «информационных регионов», исследователи выделяют:

  • рынок и алгоритмы персонализированной рекламы, которая составляет основной источник дохода для Google;
  • наличие государственных или международных регуляций, которые запрещают выдачу той или иной части информации;
  • решения, принятые модераторами контента и сотрудниками, в задачи которых входит оценивать релевантность каждого элемента выдачи по запросу;
  • работу специалистов по SEO (search engine optimization) — то есть сотрудников сторонних компаний, которые стремятся адаптировать свои сайты к алгоритмам Google, чтобы он выдавал их как можно выше в поиске;
  • культурные различия самих программистов, которые участвуют в разработке или адаптации поисковых систем в том или ином месте.

Не только текст

Еще более выразительные результаты можно получить, если проанализировать не текстовую, а визуальную выдачу в Google. Авторы Search Atlas разбирают два примера: выдачи по запросу «Бог» (God) и Tiananmen Square (площадь Тяньаньмэнь). 

Первый результат в целом иллюстрирует привычные культурные и религиозные границы, хотя не без отклонений. Так, в Судане, который находится чуть южнее Египта и население которого также преимущественно мусульманское, почему-то были найдены изображения Иисуса, а не каллиграфия слова الله.

Интереснее второй. Площадь Тяньаньмэнь находится в Пекине, и на ней в 1989 году было подавлено студенческое восстание — местные власти применяли огнестрельное оружие и бронетехнику. Почти во всех странах первыми в выдаче оказываются фотографии, так или иначе представляющие восстание: где-то это танки крупным планом, в других местах панорамные фото площади с протестующими, кадры с ранеными. Но только не в Китае и близлежащих дружественных странах: там Google выдает «туристические» (так их назвали авторы исследования) фото пустой площади или «промо-фотографии». Так получается даже несмотря на то, что доступ к Google в Китае запрещен на государственном уровне: установить Китай как место поиска все равно возможно.

Создатели Search Atlas предполагают, что скоро все желающие смогут убедиться в существовании информационных границ и поизучать их. Исследователи планируют запустить разработанный инструмент в публичное пользование. Речь, однако, идет не о сложных алгоритмах картографирования, которые требуют больших вычислительных ресурсов, а еще об одном, более простом инструменте. С его помощью можно выбрать три страны и увидеть, какие слова в верхних результатах поиска во всех трех совпадают, а какие отличают каждую страну.

Цифровизированные границы

Где еще существуют информационные границы, кроме поиска в Google? Например, в транснациональных биометрических системах, с помощью которых сейчас европейские государства организуют прием беженцев и эмигрантов. Такие границы могут оказать даже большее, точнее, более непосредственное и стремительное влияние на жизнь, чем алгоритмы поиска.

В отличие от «информационных границ» в Google, «цифровизированные границы», как их называет исследователь визовых систем Джорджиус Глуфциус, связаны с привычными геополитическими границами более прямым способом. Информация в биометрических системах собирается из посольств, консульств и других органов в разных государствах. Но Глуфциус рассматривает визовые системы в историческом ракурсе и показывает, что они тоже подвержены процессам «цифровой переустановки границ».

Если раньше сведения были разложены по папкам на столах или в компьютерах сотрудников госорганов по всему миру, то с введением системы VIS биометрия данные о паспортах, свидетельствах о рождении, о браке были объединены в общую цифровую систему, доступ к которой представитель любого подключенного государства может получить за несколько минут. Таким образом, цифровые границы стирают геополитические и в то же время укрепляют их, усложняя многим беженцам въезд в принимающие государства.

Как и Родриго Ошигаме и Кэтрин Йе из Search Atlas, Глуфциус подчеркивает, что «цифровизированные границы» возникают и сдвигаются в связи с действиями множества организацией и отдельных людей. Глуфциус также предлагает обращать особое внимание на то, что часто людям все равно удается достигнуть своей цели, например, получить гражданство для себя или своих детей. Они разбираются, сознательно или интуитивно, в том, как устроены цифровые системы, и адаптируют под их устройство свои заявления или даже юридические свидетельства. 

Цифровые, цифровизированные и информационные границы, как и все остальные границы, никогда не бывают непроницаемыми.