Григорий Петров: Создать собственное голосовое приложение стало очень просто

с помощью изучения социальных сетей программы смогут учитывать социальный контекст собеседника. И тогда роботы будут понимать людей не хуже, чем их друзья. Фото: Pexels.com (CC0).
с помощью изучения социальных сетей программы смогут учитывать социальный контекст собеседника. И тогда роботы будут понимать людей не хуже, чем их друзья. Фото: Pexels.com (CC0).

Создать соб­ствен­ное при­ло­же­ние для рас­по­зна­ва­ния голо­са ста­ло очень про­сто. В этом уве­рен тех­ни­че­ский еван­ге­лист ком­па­нии Voximplant Гри­го­рий Пет­ров. В интер­вью замре­дак­то­ра Теп­ли­цы Ната­лье Бара­но­вой экс­перт рас­ска­зал о том, поче­му голо­со­вые тех­но­ло­гии ста­ли вос­тре­бо­ва­ны и попу­ляр­ны, какие есть тен­ден­ции на рын­ке, и объ­яс­нил, как рече­вые интер­фей­сы исполь­зу­ют для соци­аль­но­го бла­га.

По мнению Григория Петрова на данный момент голосовые технологии развиты на высоком уровне. На фото: Григорий Петров на it-конференции в Минске. Изображение предоставил эксперт.
По мне­нию Гри­го­рия Пет­ро­ва на дан­ный момент голо­со­вые тех­но­ло­гии раз­ви­ты на высо­ком уровне. На фото: Гри­го­рий Пет­ров на it-кон­фе­рен­ции в Мин­ске. Изоб­ра­же­ние предо­ста­вил экс­перт.

– Григорий, почему голосовые технологии стали такими популярными, с чем это связано?

– Это свя­за­но с тем, что появи­лась тех­ни­че­ская воз­мож­ность. Имен­но тех­но­ло­гии машин­но­го обу­че­ния поз­во­ля­ют луч­ше рас­по­зна­вать и син­те­зи­ро­вать голос. Появи­лись плат­фор­мы, на кото­рых мож­но собрать реше­ние за очень корот­кое вре­мя. Напри­мер, наша ком­па­ния как парт­нер Google пред­ла­га­ет кли­ен­там удоб­ный спо­соб исполь­зо­вать Google Speech API в звон­ках.

– Какие изменения произошли в области голосовых интерфейсов за последние годы?

– Возь­мем в при­мер ком­па­нию Google. Если лет пять назад тех­но­ло­гии рас­по­зна­ва­ния голо­са у нее были в зача­точ­ном состо­я­нии, то сей­час это лиди­ру­ю­щая ком­па­ния. Она кон­ку­ри­ру­ет на рос­сий­ском рын­ке наря­ду с ком­па­ни­ей Яндекс.

Люди уже актив­но исполь­зу­ют голо­со­вые тех­но­ло­гии для Android, Google Home. На мас­со­вом рын­ке тоже вид­на тен­ден­ция, как люди все чаще управ­ля­ют теле­фо­ном с помо­щью голо­са. Если рань­ше это было лишь на экс­пе­ри­мен­таль­ном уровне, низ­ко­го каче­ства, то сей­час тех­но­ло­гия исполь­зу­ет­ся повсе­мест­но на высо­ком уровне. И наши кли­ен­ты под­твер­жда­ют повы­ше­ние каче­ства.

Еще по теме: Рече­вые тех­но­ло­гии: голос из пре­крас­но­го дале­ка

– Назовите успешный российский пример голосового решения, который вам запомнился

– Сто­ит ска­зать о гром­ком рос­сий­ском HR-сер­ви­се робот Вера, кото­рый с помо­щью искус­ствен­но­го интел­лек­та помо­га­ет ком­па­ни­ям най­ти сотруд­ни­ков. Он обща­ет­ся с кан­ди­да­та­ми по теле­фо­ну, а потом про­во­дит видео­со­бе­се­до­ва­ние. Робот может общать­ся с десят­ка­ми тысяч кан­ди­да­тов, все­гда веж­лив и ниче­го не пута­ет. Важ­на так­же хоро­шая мас­шта­би­ру­е­мость это­го кей­са.

– Если говорить про Россию, насколько у нас развиты такие разработки?

– В Рос­сии доволь­но силь­ная раз­ра­бот­ка в обла­сти голо­со­вых реше­ний. Напри­мер, Yandex.SpeechKit (тех­но­ло­гия рас­по­зна­ва­ния речи и син­те­за речи от рос­сий­ской ком­па­нии Яндекс. – Прим. ред.) на мно­гих зада­чах рас­по­зна­ва­ния имен и адре­сов рабо­та­ет куда луч­ше, чем Google или Microsoft. Попу­ляр­ные при­ло­же­ния, такие как Яндекс.Такси, помо­га­ют ком­па­нии сде­лать рас­по­зна­ва­ние адре­сов мак­си­маль­но точ­ным.

Во всем мире есть деся­ток попу­ляр­ных голо­со­вых асси­стен­тов. И то, что раз­ра­бот­ка Яндек­са, голо­со­вой помощ­ник «Али­са», сре­ди них – это хоро­ший пока­за­тель.

– Расскажите о перспективах в этой области? Что может измениться в ближайшие годы?

– Сей­час голо­со­вые тех­но­ло­гии раз­ви­ты на высо­ком уровне. Но есть куда стре­мить­ся. Мы зна­ем, что раз­го­вор людей стро­ит­ся на соци­аль­ном кон­тек­сте, вос­пи­та­нии, тра­ди­ци­ях, пони­ма­нии окру­жа­ю­ще­го мира. Если тех­но­ло­гии будут при­бли­жать­ся к есте­ствен­ным фор­мам обще­ния, рас­по­зна­вать лицо, эмо­ции, это будет новый шаг.

Воз­мож­но, с помо­щью изу­че­ния соци­аль­ных сетей про­грам­мы смо­гут учи­ты­вать соци­аль­ный кон­текст собе­сед­ни­ка. И тогда робо­ты будут пони­мать людей не хуже, чем их дру­зья.

– Насколько сейчас доступны технологии для распознавания голоса? Как думаете, будут ли они дешеветь?

– Тех­но­ло­гии недо­ро­гие, любой раз­ра­бот­чик может заре­ги­стри­ро­вать­ся, напри­мер, на сай­те нашей ком­па­нии и начать созда­вать интер­фейс. За каж­дую опцию уста­нов­лен тариф. Тех­но­ло­гии деше­ве­ют за счет мас­шта­ба. Чем боль­ше кли­ен­тов у ком­па­нии, тем дешев­ле ее про­дукт.

Еще по теме: Voice Experiments: как раз­ра­бот­чи­ки экс­пе­ри­мен­ти­ру­ют с голо­со­вы­ми тех­но­ло­ги­я­ми

– А какие интерфейсы сейчас популярны, и сложно ли их создать?

– Сре­ди кли­ен­тов Voximplant наи­бо­лее попу­ляр­ны голо­со­вые авто­ма­ти­зи­ро­ван­ные звон­ки на теле­фон, они сто­ят на пер­вом месте. На вто­ром месте видео­связь, теле­ме­ди­ци­на, кото­рая, кста­ти, раз­ви­ва­ет­ся безум­ны­ми тем­па­ми, и обу­че­ние. Напри­мер, у обра­зо­ва­тель­ных школ есть соб­ствен­ные виде­о­ча­ты. И толь­ко на тре­тьем – чат-мес­сен­дже­ры.

Инте­рес­но, что про­ис­хо­дит транс­фор­ма­ция чат-ботов: в них актив­но вклю­ча­ют эле­мен­ты рас­по­зна­ва­ния голо­са. Напри­мер, чат-бот ком­па­нии ZenSolutions.ai может общать­ся с поль­зо­ва­те­лем и голо­сом, и тек­стом. То есть пол­но­цен­но под­дер­жи­вать диа­лог.

Соста­вить при­ло­же­ние по рас­по­зна­ва­нию голо­са неслож­но. Что­бы арен­до­вать номер сото­во­го теле­фо­на, при­нять зво­нок и рас­по­знать голос, раз­ра­бот­чи­ку нуж­но сде­лать 10 кли­ков и напи­сать пять стро­чек кода.

– Как голосовые технологии помогают людям с ограниченными возможностями здоровья?

– В Рос­сии доста­точ­но адап­ти­ро­ван­ных теле­фон­ных реше­ний и систем управ­ле­ния голо­сом. Напри­мер, чело­век с огра­ни­чен­ны­ми воз­мож­но­стя­ми зво­нит в колл-центр, он под­клю­ча­ет­ся сра­зу к робо­ту, оче­редь ждать не нуж­но. Мно­гие ком­па­нии зво­нят кли­ен­ту, что­бы под­твер­дить достав­ку. Сла­бо­ви­дя­ще­му чело­ве­ку не так ком­форт­но общать­ся в мес­сен­дже­рах, и ком­па­нии ста­ра­ют­ся упро­стить про­цесс.

Недав­но я встре­чал­ся с незря­чей девуш­кой, кото­рая уве­рен­но ска­за­ла, что совре­мен­ные тех­но­ло­гии поз­во­ля­ют ей жить пол­но­цен­ной жиз­нью.