Машинное обучение: от составления графиков к рекомендательным системам

Илья Езепов и Виктор Кантор рассказали о машинном обучении и его применении в повседневной жизни. На фото: Илья Езепов (слева). Фото: Мария Борисёнок.
Илья Езепов и Виктор Кантор рассказали о машинном обучении и его применении в повседневной жизни. На фото: Илья Езепов (слева). Фото: Мария Борисёнок.

27 мар­та 2017 года состо­ял­ся митап Теп­ли­цы соци­аль­ных тех­но­ло­гий «Машин­ное обу­че­ние: пер­спек­ти­вы тех­но­ло­гии»Участ­ни­ки позна­ко­ми­лись с кон­цеп­ци­ей машин­но­го обу­че­ния, вида­ми машин­но­го интел­лек­та и типа­ми задач, кото­рые реша­ют дата-ана­ли­ти­ки.

На встре­че высту­пи­ли Илья Езе­пов, дата-ана­ли­тик ком­па­нии Яндекс, и Вик­тор Кан­тор, стар­ший пре­по­да­ва­тель кафед­ры «Алго­рит­мы и тех­но­ло­гии про­грам­ми­ро­ва­ния» МФТИ, руко­во­ди­тель иссле­до­ва­тель­ской груп­пы Yandex Data Factory.

Илья Езепов и участники встречи. Фото: Мария Борисёнок.
Илья Езе­пов и участ­ни­ки встре­чи. Фото: Мария Бори­сё­нок.

Что такое машинное обучение?

Исто­рия раз­ви­тия систем машин­но­го интел­лек­та начи­на­ет­ся с сере­ди­ны 50-х годов и свя­за­на с уров­нем раз­ви­тия вычис­ли­тель­ной тех­ни­ки. 

«Машин­ное обу­че­ние — это про то, как обу­чать­ся. Чело­век пока­зы­ва­ет дан­ные, а маши­ны сами раз­би­ра­ют­ся, что с ними делать. И это про то, как пра­виль­но про­ве­сти линию на гра­фи­ке, что­бы была выяв­ле­на вер­ная зави­си­мость. Клас­си­ка машин­но­го обу­че­ния зани­ма­ет­ся реше­ни­ем задач с чис­ла­ми и рас­пре­де­ле­ни­ем объ­ек­тов. Если нуж­но понять, что зна­чит фра­за голо­сом и пере­ве­сти ее на дру­гой язык, то исполь­зу­ют­ся ней­рон­ные сети». Илья Езе­пов

Виды машинного обучения

  • Обу­че­ние с учи­те­лем. Напри­мер, по усло­ви­ям зада­чи есть два объ­ек­та: кош­ка и соба­ка, и маши­на долж­на по фото­гра­фии научить­ся раз­ли­чать, кто есть кто. Для это­го у маши­ны долж­на быть обу­ча­ю­щая выбор­ка, кото­рая насчи­ты­ва­ет тыся­чи объ­ек­тов. У каж­до­го объ­ек­та есть при­зна­ки (мас­са тела, цвет окра­са, коли­че­ство лап) и гра­фик рас­пре­де­ле­ния этих при­зна­ков. Маши­на в ито­ге созда­ет опти­маль­ный алго­ритм раз­ли­че­ния. Это при­мер клас­си­че­ской зада­чи для машин­но­го обу­че­ния.
Слайд из презентации Ильи Езепова.
Слайд из пре­зен­та­ции Ильи Езе­по­ва.

«Или допу­стим вам нуж­но обу­чить маши­ну шах­ма­там. Ведь если что-то обла­да­ет интел­лек­том, то оно уме­ет играть в шах­ма­ты. Мы обу­чим, как ходят фигу­ры, сколь­ко они сто­ят, что есть хоро­ший ход и пло­хой, и потом слу­чит­ся пер­вая побе­да супер­ком­пью­те­ра Deep Blue над Гар­ри Кас­па­ро­вым в 1997 году». Илья Езе­пов

  • Обу­че­ние без учи­те­ля. Напри­мер, есть гей­зер, кото­рый извер­га­ет­ся с невы­яв­лен­ной пери­о­дич­но­стью. Маши­на полу­ча­ет дан­ные о про­ме­жут­ках меж­ду извер­же­ни­я­ми и пыта­ет­ся пред­ска­зать вре­мя сле­ду­ю­щей актив­но­сти гей­зе­ра.
  • Обу­че­ние с под­креп­ле­ни­ем. Чтобы обу­чить маши­ну играть в китай­скую игру Го, ком­пью­тер полу­ча­ет базу всех ходов, кото­рые дела­ют луч­шие масте­ра игры. Далее маши­на про­бу­ет играть сама с собой. Те ходы, кото­рые при­ве­ли к выиг­ры­шу, при­зна­ют­ся луч­ши­ми и назы­ва­ют­ся «хоро­шей мута­ци­ей». В ито­ге тако­го само­обу­че­ния полу­ча­ет­ся алго­ритм, спо­соб­ный выиг­рать в игре Го (матч AlphaGo — Ли Седоль). До 2016 года побе­да над чело­ве­ком в игре Го счи­та­лась невоз­мож­ной.
Участники встречи. Фото: Мария Борисёнок.
Участ­ни­ки встре­чи. Фото: Мария Бори­сё­нок.

История Амазон, или Как данные стали важнее людей

Книж­ный мага­зин Ама­зон с момен­та осно­ва­ния (1994 г.) содер­жал штат луч­ших рецен­зен­тов Бри­та­нии. В 2012 году начал­ся экс­пе­ри­мент по ана­ли­зу того, что люди поку­па­ют и мож­но ли сде­лать ана­лиз пред­по­чте­ний на осно­ве име­ю­щих­ся дан­ных.

Экс­пе­ри­мент закон­чил­ся успеш­но, про­да­жи уве­ли­чи­лись на 96%, и ста­ло выгод­но рас­пу­стить весь штат рецен­зен­тов. В ито­ге дви­жу­щей силой раз­ви­тия ком­па­нии ста­ли дан­ные, а не люди.

Анализ данных как спорт

Если у вас есть зада­ча по ана­ли­зу дан­ных, то луч­ше все­го про­ве­сти кон­курс и при­влечь к себе талант­ли­вых спе­ци­а­ли­стов. Исто­рия сорев­но­ва­ний по ана­ли­зу дан­ных нача­лась в 2000 году. Инве­стор Роб Мак­Э­ван выло­жил в откры­тый доступ онлайн-базу по суще­ству­ю­щим местам добы­чи золо­та и пообе­щал 575.000 $ коман­де, кото­рая выбе­рет пра­виль­ное место для ново­го золо­то­го при­ис­ка. Луч­шие коман­ды гео­ло­гов боро­лись за приз, и через год Роб зара­бо­тал 3 млрд. дол­ла­ров на най­ден­ном при­ис­ке. 

В 2010 году была созда­на пло­щад­ка Kaggle, кото­рая ста­ла глав­ной миро­вой пло­щад­ка спор­тив­но­го ана­ли­за дан­ных. В Рос­сии кон­кур­сы про­во­дят круп­ные бан­ки.

Анонсы конкурсов на сайте Kaggle. Скриншот сайта.
Анон­сы кон­кур­сов на сай­те Kaggle. Скрин­шот сай­та.

«Если мож­но с помо­щью чело­ве­че­ской экс­перт­но­сти напи­сать модель, то нет необ­хо­ди­мо­сти услож­нять зада­чу. Глу­по учить ней­рон­ную сеть состав­ле­нию алго­рит­ма, как пада­ет мяч на при­ме­ре 100 экс­пе­ри­мен­тов. Для это­го доста­точ­но учеб­ни­ка по физи­ке». Илья Езе­пов

Машинное обучение в образование

С 2013 года в уни­вер­си­те­те Кар­не­ги сту­ден­ты рабо­та­ют над спе­ци­аль­ным обу­ча­ю­щим аген­том, кото­рый сле­дил бы за дис­кус­си­ей в ауди­то­рии и в нуж­ный момент пред­ла­гал вопрос по теме. 

Так­же ком­па­нии DreamBox, ALEKS, Reasoning Mind, Knewton созда­ют элек­трон­но­го тью­то­ра, кото­рый отсле­жи­ва­ет учеб­ные тра­ек­то­рии сту­ден­тов.

Скачать презентацию Ильи Езепова в формате PDF.

Рекомендательные системы

Вик­тор Кан­тор, руко­во­ди­тель иссле­до­ва­тель­ской груп­пы Yandex Data Factory, рас­ска­зал, как рабо­та­ют реко­мен­да­тель­ные систе­мы в сфе­ре ком­мер­ции.

«Когда мы ста­ра­ем­ся понять, за сколь­ко мы добе­рем­ся до меро­при­я­тия через сер­вис Яндекс.Проб­ки, то это тоже при­мер исполь­зо­ва­ния машин­но­го обу­че­ния. Мы здесь берем исто­ри­че­ские дан­ные и выстав­ля­ем бал­лы по нагруз­ке доро­ги — это все регрес­си­он­ная зада­ча». Вик­тор Кан­тор

Виктор Кантор и участники встречи. Фото: Мария Борисёнок.
Вик­тор Кан­тор и участ­ни­ки встре­чи. Фото: Мария Бори­сё­нок.

В повсе­днев­ной жиз­ни поль­зо­ва­те­ли стал­ки­ва­ют­ся с машин­ным обу­че­ни­ем , вво­дя запрос в поис­ко­ви­ке или поку­пая товар на Яндекс.Маркете.

Подроб­нее о том, как ста­вят­ся зада­чи машин­но­го обу­че­ния, какие мет­ри­ки каче­ства нуж­но исполь­зо­вать в моде­ли и как оце­ни­вать полу­чен­ный резуль­тат, смот­ри­те в лек­ции Вик­то­ра Кан­то­ра.

Уро­вень лек­ции: выше базо­во­го уров­ня.

Скачать презентацию Виктора Кантора в формате PDF. 

Полезные ресурсы и книги