Почему алгоритмы машинного обучения нужно защищать от хакеров

Перед руководителями коммерческих и общественных организаций появился новый вызов – разработать механизмы для защиты алгоритмов, которые все чаще используются для автоматизации процессов. К такому выводу пришел ученый из Израиля, основатель инновационной компании SalesPredict Кира Радински (Kira Radinsky). Корреспондент Теплицы Наталья Баранова перевела статью эксперта о том, как технологии машинного обучения могут стать уязвимыми перед хакерскими атаками.

Исследователь Кира Радински занимается внедрением инновационных аналитических решений, основанных на искусственном интеллекте. Также она анализирует данные и внедряет алгоритмы, которые используют информацию из Интернета для прогнозирования явлений. Уже несколько лет Радински создает алгоритмы, которые предупреждают о политических бунтах, эпидемиях, болезнях и экономических событиях.

Уязвимые места не в ПО, а в данных

Кибербезопасность стала одной из важнейших проблем для коммерческих и общественных организаций. Компании инвестируют миллиарды долларов, чтобы защитить свои системы и обучить сотрудников «киберграмотности». К примеру, в 2015 году на эти нужды было потрачено 77 миллиардов долларов, по прогнозам, в 2020 году будет вложено уже 170 миллиардов.

В основном руководители хотят обеспечить защиту уязвимых мест в программном и аппаратном обеспечении. Но сегодняшние угрозы скрываются не только в этих местах. Так как организации все чаще работают на основе алгоритмов, то риски заложены именно в самих данных.

Машинное обучение может быть использовано хакерами и злоумышленниками в своих целях. Они смогут манипулировать алгоритмом, когда выяснят, как именно он был обучен.

Рассмотрим пример с поисковой оптимизацией (SEO – Search Engine Optimization). Компании уже давно догадались, как был разработан алгоритм машинного обучения в поисковых системах, и теперь манипулируют содержимым своих веб-сайтов, чтобы повысить результаты в рейтинге поиска.

Еще по теме: Андрей Себрант: Не нужно бояться, что машины умнее нас, нужно научиться работать с ними

Отправители спама пытаются обмануть алгоритм спам-фильтрация: добавляют несвязанные слова или предложения, делают все, чтобы текст напоминал законный адрес электронной почты. В итоге, если спам-сообщения, которые начинаются со слов «Привет» или «Как дела?», доходят до вашего ящика, значит, процесс написания слов был усложнен. Большинство из нас сталкивается с такими примерами каждый день. В основном это раздражает: случайное нажатие по вредной ссылке, трата времени на удаление нескольких лишних писем в папке почтового ящика.

Слабые места

Такого рода мошенничество может иметь более серьезные последствия, чем надоедающие спам-сообщения. Мы живем в эпоху кредитных карт. Для выявления мошенничества создано и применяется множество подходов машинного обучения и других статистических методов. Но эти механизмы все равно подвергаются угрозам на протяжении многих лет.

Если злоумышленник знает, как обычно ведет себя покупатель, он может создать серию мошеннических покупок. Они будут незначительно отклоняться от нормы и даже не обнаружатся детектором аномалий. Например, злоумышленник может увидеть то, что раньше покупали в одном интернет-магазине, и купить продукцию с похожими ценами в другом.

Еще по теме: 4 способа использовать машинное обучение для решения проблем.

Манипуляции с алгоритмами также могут повлиять на выборы. В официальном журнале Национальной академии наук США (PNAS) опубликовано исследование, в котором подробно описано, как манипуляция с поисковыми системами может повлиять на решение избирателей. Самый известный эксперимент был проведен с индийскими избирателями в разгар выборов в 2014 году.

Эксперимент показал, что предвзятое ранжирование поиска может резко изменить предпочтения не определившихся голосующих избирателей на 20 и более процентов. Интересно, что порядок, в котором кандидаты появляются в строке поиска, тоже оказал значительное влияние на восприятие электората.

У алгоритмов есть еще одна слабость. Известно, что данные, используемые для обучения алгоритма, и данные, к которым применяется алгоритм, генерируются одним способом (статистики называют это «выборкой из одного и того же распределения»). Но когда этот тезис ставится под сомнение, можно найти выход, чтобы обмануть алгоритм.

Такое нападение было совершено на биометрические системы. У большинства систем есть специальное программное обеспечение для распознавания лиц, которое обновляется вместе с изменением возраста человека. Это позволяет приспособить профили клиентов к естественным переменам. Но злоумышленник может использовать эту адаптивность по-другому: он может представить сенсору поддельные биометрические признаки и постепенно обновлять профиль до тех пор, пока он и вовсе не будет заменен другим. В итоге человек может выдавать себя за другого.

Алгоритмы нужно защищать

Мы все больше и больше используем интеллектуальные устройства и внедряем алгоритмы машинного обучения в свою жизнь: от автомобилей до телефонов, считывателей кредитных карт, разных носимых с собой устройств. Значит, мы все сильнее нуждаемся в защите алгоритмов, которые могут спасти устройства от «статистического взлома» или «состязательного машинного обучения».

Алгоритмы искусственного интеллекта и машинного обучения постепенно начинают управлять всем: общественным мнением, принятием решений в бизнесе и даже тем, сколько шагов вы делаете каждый день.

Нужно задуматься: а насколько безопасны алгоритмы, которые я использую? И что я могу сделать, чтобы сделать их более безопасными?

Twitter Киры Радински.

Блог эксперта.