Анатолий Кац: компьютерное зрение и его применения (видео)

Фрагмент трансляции семинара
Фрагмент трансляции семинара
18-го июля 2012 в зда­нии Меж­ду­на­род­но­го Мемо­ри­а­ла Ана­то­лий Кац (@anatoliy314) рас­ска­зал о ком­пью­тер­ном зре­нии и его при­ме­не­ни­ях: рас­по­зна­ва­нии лиц, зда­ний, алго­рит­мах рас­по­зна­ва­ния, а так­же о том, насколь­ко веро­ят­на анти­уто­пия с тоталь­ным рас­по­зна­ва­ни­ем лиц граж­дан.

Алго­рит­мы ком­пью­тер­но­го зре­ния (в част­но­сти, рас­по­зна­ва­ния лиц) ста­ли появ­лять­ся в нача­ле 2000-х. Одна­ко, заня­ло несколь­ко лет,чтобы эта тех­но­ло­гия попа­ла в мас­со­вое про­из­вод­ство. В Рос­сии на дан­ный момент извест­но два цен­тра раз­ра­бот­ки ком­пью­тер­но­го зре­ния: в МГУ (на двух факуль­те­тах) и в Ниж­нем Нов­го­ро­де (где ком­па­ния Intel ведёт раз­ра­бот­ку сво­бод­ной биб­лио­те­ки ком­пью­тер­но­го зре­ния OpenCV).

Анализ протестной активности

В совре­мен­ных рос­сий­ских усло­ви­ях алго­рит­мы ком­пью­тер­но­го зре­ния мож­но исполь­зо­вать, напри­мер, для объ­ек­тив­ной оцен­ки чис­ла про­те­сту­ю­щих на митин­гах. Для это­го необ­хо­ди­мо оце­нить плот­ность тол­пы и ско­рость тол­пы. Послед­няя опре­де­ля­ет­ся с помо­щью ана­ли­за ско­ро­сти «харак­тер­ных точек» (т.е. точек, выде­ля­ю­щих­ся из сво­е­го окру­же­ния).

Важ­но пони­мать, что любой алго­ритм ком­пью­тер­но­го зре­ния дол­жен быть осно­ван на устой­чи­во­сти к ошиб­кам. Как гово­рит Ана­то­лий, одно из глав­ных пра­вил ком­пью­тер­но­го зре­ния: «какой бы алго­ритм мы не напи­са­ли, он точ­но будет оши­бать­ся». В каче­стве при­ме­ра, автор при­вёл рас­чет чис­ла митин­гу­ю­щих, осно­ван­ный на фото­гра­фи­ях с Дня Рос­сии.

Дру­гие при­ме­не­ния вклю­ча­ли бы под­счет чис­ла про­хо­жих на ули­це и исполь­зо­ва­ние этих дан­ных для пла­ни­ро­ва­ния город­ско­го про­стран­ства.

Распознавание зданий и городской ландшафт

Как рас­по­зна­вать зда­ния? Кон­ту­ры, высо­та, цвет – не под­хо­дят для рас­по­зна­ва­ния обра­зов. А вот тек­сту­ра объ­ек­та и харак­тер­ные эле­мен­ты (напри­мер, окна или харак­тер­ные архи­тек­тур­ные дета­ли) под­хо­дят. Тек­сту­ру объ­ек­та мы можем с помо­щью рас­пре­де­ле­ния линий, пере­се­ка­ю­щих­ся под опре­де­лен­ным углом.

В ответ на вопрос о том, а не луч­ше ли исполь­зо­вать QR-коды, что­бы полу­чить инфор­ма­цию о каком-то зда­нии, доклад­чик отве­тил: «если вы уви­де­ли кра­си­вое зда­ние, вы не ста­не­те искать QR-код», ука­зы­вая на то, что по мере про­грес­са тех­но­ло­гий, мож­но будет уйти от исполь­зо­ва­ния QR-кодов. Кро­ме того, GPS пома­га­ет ком­пью­тер­но­му зре­нию тем, что сужа­ет чис­ло вари­ан­тов для рас­по­зна­ва­ния.

Другие примеры

Запись живой транс­ля­ции (видео в хоро­шем каче­стве появит­ся в бли­жай­шее вре­мя). Ана­то­лий рас­ска­зал о пер­спек­ти­вах рестав­ра­ции изоб­ра­же­ний для рас­сле­до­ва­ния пре­ступ­ле­ний про­шло­го с помо­щью ком­пью­тер­но­го зре­ния. Одна­ко, для мно­гих исто­ри­че­ских изоб­ра­же­ний сна­ча­ла потре­бу­ет­ся рестав­ра­ция, кото­рую мож­но сде­лать авто­ма­ти­че­ски и полу­ав­то­ма­ти­че­ски.

Ещё один при­мер того, как ком­пью­тер­ное зре­ние может помочь чело­ве­че­ству – это авто­ма­ти­че­ское или полу­ав­то­ма­ти­че­ское рас­по­зна­ва­ние рако­вой опу­хо­ли на томо­грам­мах. Про­бле­ма, одна­ко, даже не в тех­но­ло­гии, а в эти­че­ских вопро­сах (очень непра­виль­но если маши­на будет сухим язы­ком о том, что у чело­ве­ка смер­тель­ное забо­ле­ва­ние).

Перспективы компьютерного зрения

«А теперь пого­во­рим о пло­хом», гово­рит Ана­то­лий, «на дан­ный момент мощ­ность смарт­фо­на слиш­ком малень­кая (пока) для рас­по­зна­ва­ния обра­зов». По зако­ну Мура, одна­ко, смарт­фо­ны ско­ро при­дут к необ­хо­ди­мой мощ­но­сти. Воз­мож­но, будут спе­ци­аль­ные про­цес­со­ры для ком­пью­тер­но­го зре­ния.

По мне­нию Ана­то­лия, уже через год мож­но будет ожи­дать пер­вые граж­дан­ские при­ло­же­ния с ком­пью­тер­ным зре­ни­ем. Но в пол­ную силу это все зара­бо­та­ет толь­ко года через два.

Важ­но гово­рить ещё и об анти­уто­пи­че­ских аспек­тах ком­пью­тер­но­го зре­ния (тоталь­ном рас­по­зна­ва­нии лиц для слеж­ки). Как гово­рит Ана­то­лий, «Ско­рее все­го пло­хие люди уже исполь­зу­ют эти тех­но­ло­гии». Одна­ко, добав­ля­ет он, до тоталь­но­го рас­по­зна­ва­ния лиц ещё дол­го – при­бли­зи­тель­но лет два­дцать.