Почему алгоритмы машинного обучения нужно защищать от хакеров

Хакеры и злоумышленники могут использовать машинное обучение в своих целях. Например, смогут манипулировать алгоритмом, когда выяснят, как именно он был обучен. Изображение с сайта www.pexels.com (СС0)
Хакеры и злоумышленники могут использовать машинное обучение в своих целях. Например, смогут манипулировать алгоритмом, когда выяснят, как именно он был обучен. Изображение с сайта www.pexels.com (СС0).

Перед руко­во­ди­те­ля­ми ком­мер­че­ских и обще­ствен­ных орга­ни­за­ций появил­ся новый вызов – раз­ра­бо­тать меха­низ­мы для защи­ты алго­рит­мов, кото­рые все чаще исполь­зу­ют­ся для авто­ма­ти­за­ции про­цес­сов. К тако­му выво­ду при­шел уче­ный из Изра­и­ля, осно­ва­тель инно­ва­ци­он­ной ком­па­нии SalesPredict Кира Радин­ски (Kira Radinsky). Кор­ре­спон­дент Теп­ли­цы Ната­лья Бара­но­ва пере­ве­ла ста­тью экс­пер­та о том, как тех­но­ло­гии машин­но­го обу­че­ния могут стать уяз­ви­мы­ми перед хакер­ски­ми ата­ка­ми.

Иссле­до­ва­тель Кира Радин­ски зани­ма­ет­ся внед­ре­ни­ем инно­ва­ци­он­ных ана­ли­ти­че­ских реше­ний, осно­ван­ных на искус­ствен­ном интел­лек­те. Так­же она ана­ли­зи­ру­ет дан­ные и внед­ря­ет алго­рит­мы, кото­рые исполь­зу­ют инфор­ма­цию из Интер­не­та для про­гно­зи­ро­ва­ния явле­ний. Уже несколь­ко лет Радин­ски созда­ет алго­рит­мы, кото­рые пре­ду­пре­жда­ют о поли­ти­че­ских бун­тах, эпи­де­ми­ях, болез­нях и эко­но­ми­че­ских собы­ти­ях.

Уязвимые места не в ПО, а в данных

Кибер­без­опас­ность ста­ла одной из важ­ней­ших про­блем для ком­мер­че­ских и обще­ствен­ных орга­ни­за­ций. Ком­па­нии инве­сти­ру­ют мил­ли­ар­ды дол­ла­ров, что­бы защи­тить свои систе­мы и обу­чить сотруд­ни­ков «кибер­гра­мот­но­сти». К при­ме­ру, в 2015 году на эти нуж­ды было потра­че­но 77 мил­ли­ар­дов дол­ла­ров, по про­гно­зам, в 2020 году будет вло­же­но уже 170 мил­ли­ар­дов.

В основ­ном руко­во­ди­те­ли хотят обес­пе­чить защи­ту уяз­ви­мых мест в про­грамм­ном и аппа­рат­ном обес­пе­че­нии. Но сего­дняш­ние угро­зы скры­ва­ют­ся не толь­ко в этих местах. Так как орга­ни­за­ции все чаще рабо­та­ют на осно­ве алго­рит­мов, то рис­ки зало­же­ны имен­но в самих дан­ных.

Машин­ное обу­че­ние может быть исполь­зо­ва­но хаке­ра­ми и зло­умыш­лен­ни­ка­ми в сво­их целях. Они смо­гут мани­пу­ли­ро­вать алго­рит­мом, когда выяс­нят, как имен­но он был обу­чен.

Рас­смот­рим при­мер с поис­ко­вой опти­ми­за­ци­ей (SEO – Search Engine Optimization). Ком­па­нии уже дав­но дога­да­лись, как был раз­ра­бо­тан алго­ритм машин­но­го обу­че­ния в поис­ко­вых систе­мах, и теперь мани­пу­ли­ру­ют содер­жи­мым сво­их веб-сай­тов, что­бы повы­сить резуль­та­ты в рей­тин­ге поис­ка.

Еще по теме: Андрей Себрант: Не нуж­но боять­ся, что маши­ны умнее нас, нуж­но научить­ся рабо­тать с ними

Отпра­ви­те­ли спа­ма пыта­ют­ся обма­нуть алго­ритм спам-филь­тра­ция: добав­ля­ют несвя­зан­ные сло­ва или пред­ло­же­ния, дела­ют все, что­бы текст напо­ми­нал закон­ный адрес элек­трон­ной почты. В ито­ге, если спам-сооб­ще­ния, кото­рые начи­на­ют­ся со слов «При­вет» или «Как дела?», дохо­дят до ваше­го ящи­ка, зна­чит, про­цесс напи­са­ния слов был услож­нен. Боль­шин­ство из нас стал­ки­ва­ет­ся с таки­ми при­ме­ра­ми каж­дый день. В основ­ном это раз­дра­жа­ет: слу­чай­ное нажа­тие по вред­ной ссыл­ке, тра­та вре­ме­ни на уда­ле­ние несколь­ких лиш­них писем в пап­ке поч­то­во­го ящи­ка.

Слабые места

Тако­го рода мошен­ни­че­ство может иметь более серьез­ные послед­ствия, чем надо­еда­ю­щие спам-сооб­ще­ния. Мы живем в эпо­ху кре­дит­ных карт. Для выяв­ле­ния мошен­ни­че­ства созда­но и при­ме­ня­ет­ся мно­же­ство под­хо­дов машин­но­го обу­че­ния и дру­гих ста­ти­сти­че­ских мето­дов. Но эти меха­низ­мы все рав­но под­вер­га­ют­ся угро­зам на про­тя­же­нии мно­гих лет.

Если зло­умыш­лен­ник зна­ет, как обыч­но ведет себя поку­па­тель, он может создать серию мошен­ни­че­ских поку­пок. Они будут незна­чи­тель­но откло­нять­ся от нор­мы и даже не обна­ру­жат­ся детек­то­ром ано­ма­лий. Напри­мер, зло­умыш­лен­ник может уви­деть то, что рань­ше поку­па­ли в одном интер­нет-мага­зине, и купить про­дук­цию с похо­жи­ми цена­ми в дру­гом.

Еще по теме: 4 спо­со­ба исполь­зо­вать машин­ное обу­че­ние для реше­ния про­блем.

Мани­пу­ля­ции с алго­рит­ма­ми так­же могут повли­ять на выбо­ры. В офи­ци­аль­ном жур­на­ле Наци­о­наль­ной ака­де­мии наук США (PNAS) опуб­ли­ко­ва­но иссле­до­ва­ние, в кото­ром подроб­но опи­са­но, как мани­пу­ля­ция с поис­ко­вы­ми систе­ма­ми может повли­ять на реше­ние изби­ра­те­лей. Самый извест­ный экс­пе­ри­мент был про­ве­ден с индий­ски­ми изби­ра­те­ля­ми в раз­гар выбо­ров в 2014 году.

Экс­пе­ри­мент пока­зал, что пред­взя­тое ран­жи­ро­ва­ние поис­ка может рез­ко изме­нить пред­по­чте­ния не опре­де­лив­ших­ся голо­су­ю­щих изби­ра­те­лей на 20 и более про­цен­тов. Инте­рес­но, что поря­док, в кото­ром кан­ди­да­ты появ­ля­ют­ся в стро­ке поис­ка, тоже ока­зал зна­чи­тель­ное вли­я­ние на вос­при­я­тие элек­то­ра­та.

У алго­рит­мов есть еще одна сла­бость. Извест­но, что дан­ные, исполь­зу­е­мые для обу­че­ния алго­рит­ма, и дан­ные, к кото­рым при­ме­ня­ет­ся алго­ритм, гене­ри­ру­ют­ся одним спо­со­бом (ста­ти­сти­ки назы­ва­ют это «выбор­кой из одно­го и того же рас­пре­де­ле­ния»). Но когда этот тезис ста­вит­ся под сомне­ние, мож­но най­ти выход, что­бы обма­нуть алго­ритм.

Такое напа­де­ние было совер­ше­но на био­мет­ри­че­ские систе­мы. У боль­шин­ства систем есть спе­ци­аль­ное про­грамм­ное обес­пе­че­ние для рас­по­зна­ва­ния лиц, кото­рое обнов­ля­ет­ся вме­сте с изме­не­ни­ем воз­рас­та чело­ве­ка. Это поз­во­ля­ет при­спо­со­бить про­фи­ли кли­ен­тов к есте­ствен­ным пере­ме­нам. Но зло­умыш­лен­ник может исполь­зо­вать эту адап­тив­ность по-дру­го­му: он может пред­ста­вить сен­со­ру под­дель­ные био­мет­ри­че­ские при­зна­ки и посте­пен­но обнов­лять про­филь до тех пор, пока он и вовсе не будет заме­нен дру­гим. В ито­ге чело­век может выда­вать себя за дру­го­го.

Алгоритмы нужно защищать

Мы все боль­ше и боль­ше исполь­зу­ем интел­лек­ту­аль­ные устрой­ства и внед­ря­ем алго­рит­мы машин­но­го обу­че­ния в свою жизнь: от авто­мо­би­лей до теле­фо­нов, счи­ты­ва­те­лей кре­дит­ных карт, раз­ных носи­мых с собой устройств. Зна­чит, мы все силь­нее нуж­да­ем­ся в защи­те алго­рит­мов, кото­рые могут спа­сти устрой­ства от «ста­ти­сти­че­ско­го взло­ма» или «состя­за­тель­но­го машин­но­го обу­че­ния».

Алго­рит­мы искус­ствен­но­го интел­лек­та и машин­но­го обу­че­ния посте­пен­но начи­на­ют управ­лять всем: обще­ствен­ным мне­ни­ем, при­ня­ти­ем реше­ний в биз­не­се и даже тем, сколь­ко шагов вы дела­е­те каж­дый день.

Нуж­но заду­мать­ся: а насколь­ко без­опас­ны алго­рит­мы, кото­рые я исполь­зую? И что я могу сде­лать, что­бы сде­лать их более без­опас­ны­ми?

Twitter Киры Радин­ски.

Блог экс­пер­та.