Что такое голосовые технологии и интерфейсы

Сейчас основные голосовые игроки в этой сфере это Alexa от Amazon, Siri от Apple, OK Google, Кортана от Microsoft, Алиса от Яндекс. Изображение: скриншот из официального ролика-описания голосового помощника Алиса.
Сейчас основные голосовые игроки в этой сфере это Alexa от Amazon, Siri от Apple, OK Google, Кортана от Microsoft, Алиса от Яндекс. Изображение: скриншот из официального ролика-описания голосового помощника Алиса.

Голо­со­вой интер­фейс – это про­грамм­ный про­дукт, кото­рый при помо­щи голо­со­вой или рече­вой плат­фор­мы поз­во­ля­ет вза­и­мо­дей­ство­вать поль­зо­ва­те­лю и ком­пью­те­ру, запус­кая авто­ма­ти­зи­ро­ван­ные про­цес­сы. Зада­ча таких интер­фей­сов – рас­по­знать и гене­ри­ро­вать голос чело­ве­ка.

Голо­со­вые интер­фей­сы удоб­ны, когда вво­дить текст слож­но или неудоб­но. Напри­мер, во вре­мя вожде­ния авто­мо­би­ля поль­зо­ва­тель может про­го­во­рить свой запрос, про­дик­то­вать нуж­ный адрес, про­ве­рить проб­ки в при­ло­же­нии нави­га­то­ра. Или же если поль­зо­ва­тель выпол­ня­ет слиш­ком мно­го задач и не может скон­цен­три­ро­вать­ся на одной.

UX-иссле­до­ва­тель и экс-спе­ци­а­лист по рече­вым интер­фей­сам в Google Кон­стан­тин Самой­лов в сво­ем докла­де, под­го­тов­лен­ном для UX-мара­фо­на «Вза­и­мо­дей­ствие буду­ще­го», назвал три важ­ных при­зна­ка, кото­ры­ми долж­ны обла­дать голо­со­вые интер­фей­сы:

  1. есте­ствен­ный язык,
  2. диа­лог,
  3. неогра­ни­чен­ный сло­вар­ный запас и грам­ма­ти­ка.

На момент напи­са­ния это й ста­тьи основ­ные голо­со­вые игро­ки – это Alexa Amazon, Siri Apple, OK Google, Кор­та­на Microsoft. В октяб­ре 2017 года ком­па­ния Яндекс офи­ци­аль­но запу­сти­ла голо­со­во­го помощ­ни­ка «Али­са». В отли­чие от ана­ло­га Siri «Али­са» целе­на­прав­лен­но созда­на для рус­ско­языч­ной ауди­то­рии.

«Роль голо­са в онлай­но­вой ком­му­ни­ка­ции нарас­та­ет мед­лен­но, но вер­но. Это и «OK, Google», и внед­ре­ние голо­со­вых сооб­ще­ний в мес­сен­дже­ры, и появ­ле­ние аудио­вер­сий у тек­сто­вых пуб­ли­ка­ций, и голо­со­вой ввод во все боль­шем коли­че­стве про­грамм, и зву­ко­вые колон­ки, кото­рые умне­ют на гла­зах и ста­но­вят­ся понят­ли­вы­ми асси­стен­та­ми и собе­сед­ни­ка­ми. Вооб­ще, исто­рия про девай­сы, про­грам­мы и голос – очень тол­стый тренд, кото­рый полез­но исполь­зо­вать, а не игно­ри­ро­вать», пишет в сво­ем теле­грам-кана­ле дирек­тор по мар­ке­тин­гу сер­ви­сов ком­па­нии «Яндекс» Андрей Себрант.

Инте­рес­но, что поко­ле­ние Z (родив­ши­е­ся в нача­ле 2000-х годов) и ран­ние пред­ста­ви­те­ли поко­ле­ния «аль­фа» (дети, рож­ден­ные после 2010-х годов) – это послед­ние поль­зо­ва­те­ли, кото­рые будут наби­рать тек­сты с помо­щью кла­ви­а­ту­ры.

В этом уве­рен обо­зре­ва­тель Marketingland, мар­ке­то­лог Энд­рю Руг­гер (Andrew Ruegger), об этом он напи­сал в сво­ей колон­ке. Сле­ду­ю­щее поко­ле­ние, по его мне­нию, будут пред­став­лять исклю­чи­тель­но поль­зо­ва­те­ли голо­со­вых команд. «Запро­сы типа «ОK, Google» ста­но­вят­ся все более рас­про­стра­нен­ны­ми в отче­тах поис­ко­вых запро­сов. И мы даже наблю­да­ем их рост в Google Trends», – пишет экс­перт.

Еще по теме: Андрей Себрант: не нуж­но боять­ся, что маши­ны умнее нас, нуж­но научить­ся рабо­тать с ними

Имен­но поэто­му циф­ро­вые тех­но­ло­гии ста­ра­ют­ся слу­шать коман­ды, кото­рые чело­век гово­рит, опре­де­лять эмо­ции по лицу, тем самым исполь­зо­вать нату­раль­ный спо­соб вза­и­мо­дей­ствия с поль­зо­ва­те­ля­ми. Напри­мер, ком­па­ния Google в октяб­ре 2017 года пре­зен­то­ва­ла бес­про­вод­ные науш­ни­ки Pixel Buds, кото­рые пере­во­дят речь с ино­стран­но­го язы­ка в режи­ме реаль­но­го вре­ме­ни.