Речевые технологии: голос из прекрасного далека

В 2016 году 20 процентов поисковых запросов на смартфонах были сделаны с помощью голоса. По данным Global Web Index, каждый пятый интернет-пользователь также прибегает к голосовым опциям.
В 2016 году 20 процентов поисковых запросов на смартфонах были сделаны с помощью голоса. По данным Global Web Index, каждый пятый интернет-пользователь также прибегает к голосовым опциям. Фото: Pexels.com (CC0).

Рече­вые тех­но­ло­гии рас­по­зна­ют, ана­ли­зи­ру­ют и син­те­зи­ру­ют голос чело­ве­ка. Ими­та­ция речи, вос­при­я­тие смыс­ла фраз, кон­вер­та­ция речи в текст, рабо­та с голо­сом как с био­мет­ри­че­ской харак­те­ри­сти­кой – все это раз­ные типы рече­вых тех­но­ло­гий. Этот раз­дел ком­пью­тер­ной нау­ки счи­та­ет­ся одним из слож­ней­ших, посколь­ку нахо­дит­ся на сты­ке несколь­ких ком­плекс­ных дис­ци­плин: линг­ви­сти­ки, мате­ма­ти­ки и про­грам­ми­ро­ва­ния.

После более чем 60-лет­ней исто­рии рече­вые тех­но­ло­гии нако­нец дожда­лись сво­е­го часа и всту­пи­ли на путь заво­е­ва­ния мира. Сей­час эта сфе­ра слу­жит зоной актив­ных бое­вых дей­ствий меж­ду хай-тек лиде­ра­ми пла­не­ты.

Echo от Amazon с виртуальным помощником Alexa. Фото: Amazon.com
Echo от Amazon с вир­ту­аль­ным помощ­ни­ком Alexa. Фото: Amazon.com

Старт новой гон­ке в 2014 году поло­жи­ла Siri – голо­со­вой асси­стент, раз­ра­бо­тан­ный Apple. После оглу­ши­тель­но­го успе­ха колон­ки Echo от Amazon с вир­ту­аль­ным помощ­ни­ком Alexa в 2015 году став­ки взле­те­ли до небес.

Рынок пере­пол­ня­ет энту­зи­азм отно­си­тель­но новых пер­спек­тив раз­ви­тия рече­вых тех­но­ло­гий.

В 2016 году 20 про­цен­тов поис­ко­вых запро­сов на смарт­фо­нах были сде­ла­ны с помо­щью голо­са. По дан­ным Global Web Index, каж­дый пятый интер­нет-поль­зо­ва­тель так­же при­бе­га­ет к голо­со­вым опци­ям. Сре­ди моло­де­жи этот пока­за­тель еще выше: 25 про­цен­тов людей в воз­расте от 16 до 24 лет поль­зу­ют­ся функ­ци­ей рас­по­зна­ва­ния голо­са. Более 60 про­цен­тов людей исполь­зу­ют эту опцию для поис­ка инфор­ма­ции и теле­фон­ных звон­ков, а так­же набо­ра тек­ста.

По про­гно­зам, к 2020 году поло­ви­на всех запро­сов онлайн будет вер­баль­ной. А око­ло тре­ти – про­ис­хо­дить без вза­и­мо­дей­ствия с экра­ном.

При­чи­ны это­го бума объ­яс­ни­мы. В сред­нем чело­век печа­та­ет око­ло 40 слов в мину­ту, а гово­рит в три-четы­ре раза быст­рей. Более того, в 2017 году про­грам­мы прак­ти­че­ски догна­ли нас по понят­ли­во­сти. Соглас­но отче­ту Internet Trends Report, точ­ность голо­со­вых тех­но­ло­гий все­го за четы­ре года скак­ну­ла с 70 до 95 про­цен­тов. Погреш­ность 5 про­цен­тов – порог пони­ма­ния и для людей.

Стре­ми­тель­ный про­гресс этих тех­но­ло­гий обес­пе­чи­ли повы­ше­ние ком­пью­тер­ной мощ­но­сти, боль­шие дан­ные и совер­шен­ство­ва­ние мето­дов машин­но­го обу­че­ния, в част­но­сти ней­рон­ных сетей. Сей­час нара­щи­ва­ние воз­мож­но­стей тех же голо­со­вых асси­стен­тов вро­де Siri, Cortana или Alexa про­ис­хо­дит прак­ти­че­ски еже­ме­сяч­но.

Но рече­вые тех­но­ло­гии не все­гда отли­ча­лись подоб­ной пры­тью, и каче­ствен­ные скач­ки мог­ли про­ис­хо­дить с пери­о­дич­но­стью в деся­ти­ле­тия.

Как появился голос: он зовет меня в чудесные края

Одним из пер­вых зафик­си­ро­ван­ных исто­ри­ей успеш­ных при­ме­ров син­те­за речи счи­та­ет­ся устрой­ство, создан­ное в 1779 году немец­ким физи­ком и меха­ни­ком Хри­сти­а­ном Крат­цен­штай­ном, рабо­тав­шим тогда в Рос­сии. Изоб­ре­те­ние пред­став­ля­ло собой меха­ни­че­ский ими­та­тор рече­во­го аппа­ра­та чело­ве­ка и мог­ло вос­про­из­во­дить несколь­ко глас­ных зву­ков.

Voder уче­но­го Гоме­ра Дад­ли, сотруд­ни­ка лабо­ра­то­рии Bell в США, счи­та­ет­ся пер­вым элек­трон­ным син­те­за­то­ром голо­са. Он был пред­став­лен в 1937 году. Зву­ко­вые ком­по­нен­ты его «речи» вво­ди­лись опе­ра­то­ром с кла­ви­а­ту­ры.

Куда более слож­ной зада­чей для уче­ных ста­ли попыт­ки про­дви­нуть­ся к рас­по­зна­ва­нию речи. В Совет­ском Сою­зе эти иссле­до­ва­ния тес­но свя­за­ны с име­нем физи­ка Льва Мяс­ни­ко­ва. Он с 1939 года зани­мал­ся про­бле­мой рас­по­зна­ва­ния зву­ков, а в 1942 году, нахо­дясь в бло­кад­ном Ленин­гра­де, защи­тил дис­сер­та­цию «Тех­ни­че­ская фоне­ти­ка». Эта науч­ная рабо­та вклю­ча­ла демон­стра­цию аппа­ра­та, рас­по­зна­вав­ше­го глас­ные и соглас­ные зву­ки.

В США отсчет при­ня­то вести с пре­зен­та­ции Audrey в 1952 году. Audrey (от англ. automatic digit recogniser – авто­ма­ти­че­ский рас­по­зна­ва­тель цифр), родив­ша­я­ся в лабо­ра­то­ри­ях Bell в Нью-Йор­ке, была «круп­ным ребен­ком». Высо­та одной релей­ной стой­ки пре­вы­ша­ла 180 сан­ти­мет­ров. В иде­аль­ных усло­ви­ях она мог­ла рас­по­зна­вать циф­ры от 1 до 9 с точ­но­стью око­ло 90 про­цен­тов. Audrey хоро­шо вос­при­ни­ма­ла зна­ко­мые ей голо­са, но бук­со­ва­ла, если циф­ры дик­то­вал посто­рон­ний. Кро­ме того, перед каж­дым сло­вом необ­хо­ди­мо было выдер­жи­вать пау­зу.

Вза­и­мо­дей­ствие с Audrey про­ис­хо­ди­ло так: чело­век про­из­но­сил циф­ру в теле­фон, систе­ма «слу­ша­ла», обра­ба­ты­ва­ла звук, как элек­три­че­ский сиг­нал, кото­рый затем срав­ни­ва­ла с зало­жен­ны­ми в ее ана­ло­го­вой памя­ти пат­тер­на­ми, и в резуль­та­те отве­ча­ла, зажи­гая соот­вет­ству­ю­щую лам­поч­ку.

Про­шло целых 10 лет, преж­де чем аме­ри­кан­ской пуб­ли­ке был пред­став­лен новый голо­со­вой про­ект – Shoebox. Раз­ра­бо­тан­ная IBM в 1962 году систе­ма рас­по­зна­ва­ла 16 слов: 10 цифр и 6 ариф­ме­ти­че­ских команд. Такой не слиш­ком стре­ми­тель­ный про­гресс поро­дил скеп­ти­цизм в науч­ных кру­гах.

Так, в 1969 году аме­ри­кан­ский инже­нер Джон Пирс высту­пил с откры­тым пись­мом. В нем он поста­вил под сомне­ние целе­со­об­раз­ность иссле­до­ва­ний. «Рече­ви­ки», по мне­нию Пир­са, дели­лись на «сума­сшед­ших изоб­ре­та­те­лей» и «не заслу­жи­ва­ю­щих дове­рия инже­не­ров», а доро­го­сто­я­щие пло­ды их уси­лий «либо не дела­ли прак­ти­че­ски ниче­го, либо вооб­ще не рабо­та­ли по каким-то мало понят­ным при­чи­нам».

Кри­ти­ка Пир­са при­ве­ла к тому, что голо­со­вые про­ек­ты лабо­ра­то­рий Bell, преж­де лиди­ро­вав­ших в этой обла­сти, на несколь­ко лет лиши­лись финан­си­ро­ва­ния.

В 1970-е годы повсе­мест­ная кон­ку­рен­ция меж­ду США и Совет­ским Сою­зом, по всей види­мо­сти, обост­ри­лась и в этой сфе­ре. Аме­ри­кан­ское мини­стер­ство обо­ро­ны с 1971 по 1976 год финан­си­ро­ва­ло круп­ней­шую в исто­рии кон­курс­ную науч­ную про­грам­му, посвя­щен­ную рече­вым тех­но­ло­ги­ям.

Она ста­ви­ла целью раз­ра­бот­ку устрой­ства, спо­соб­но­го пони­мать не менее тыся­чи слов. В про­ек­те участ­во­ва­ли все интел­лек­ту­аль­ные цен­тры стра­ны, а конеч­ным про­дук­том ста­ла систе­ма Harpy уни­вер­си­те­та Кар­не­ги-Мел­ло­на. Она рас­по­зна­ва­ла 1011 слов, что срав­ни­мо со спо­соб­но­стя­ми трех­лет­не­го ребен­ка. Harpy была спо­соб­на вос­при­ни­мать голо­са пяти чело­век, а ее погреш­ность состав­ля­ла око­ло 5 про­цен­тов.

Бли­же к 1980-м годам в науч­ном мире про­изо­шел пере­во­рот. Инже­не­ры нача­ли при­ме­нять новые ста­ти­сти­че­ские мето­ды – скры­тые мар­ков­ские моде­ли (СММ). Эти при­е­мы, назван­ные в честь мате­ма­ти­ка Андрея Мар­ко­ва, поз­во­ли­ли отка­зать­ся от рече­вых шаб­ло­нов и зна­чи­тель­но повы­сить точ­ность рас­по­зна­ва­ния слов за счет эле­мен­тов про­гно­зи­ро­ва­ния.

В тот же пери­од до рын­ков добра­лись пер­вые ком­мер­че­ские реше­ния. Гово­ря­щая кук­ла Джу­лия ком­па­нии World of Wonders появи­лась в 1987 году.

Ребе­нок мог натре­ни­ро­вать Джу­лию пони­мать его речь. В 1990 году появи­лась пер­вая ком­мер­че­ская систе­ма по транс­фор­ма­ции речи в текст Dragon Dictate, сто­ив­шая девять тысяч дол­ла­ров. В 1997 году было выпу­ще­но ее ради­каль­ное обнов­ле­ние – про­грамм­ное обес­пе­че­ние Natural Speaking. Его созда­те­ли впер­вые смог­ли добить­ся под­держ­ки слит­ной речи. Поль­зо­ва­тель отныне мог нако­нец гово­рить без пауз со сред­ней ско­ро­стью око­ло 100 слов в мину­ту. Но про­грам­му, сто­ив­шую 695 дол­ла­ров, необ­хо­ди­мо было «натас­ки­вать» на голос в тече­ние 45 минут.

В этот пери­од так­же начи­на­ет рас­ти попу­ляр­ность функ­ций голо­со­во­го управ­ле­ния – воз­мож­но­сти кон­тро­ли­ро­вать рабо­ту устройств с помо­щью команд.

Так, в 1995 году Bell пред­ста­ви­ла теле­фон­ную систе­му Val для авто­ма­ти­за­ции рабо­ты дис­пет­че­ров и марш­ру­ти­за­ции звон­ков. Эта тех­но­ло­гия, тогда очень дале­кая от совер­шен­ства, вско­ре при­шлась по душе мно­гим ком­па­ни­ям. Мно­гие все еще пом­нят труд­но­сти, с кото­ры­ми мог­ли быть сопря­же­ны пер­вые кон­так­ты с подоб­ны­ми систе­ма­ми.

Сей­час они неотъ­ем­ле­мый атри­бут любо­го call-цен­тра в соста­ве систем IVR, от interactive voice response.

С 2000-х годов Microsoft начи­на­ет встра­и­вать голо­со­вое управ­ле­ние в свои про­дук­ты. В 2002 году такая опция появ­ля­ет­ся у про­грамм­но­го паке­та Office. В 2007 году – у всей опе­ра­ци­он­ной систе­мы Windows в вер­сии Vista.

Виртуальные ассистенты: слышу голос и спешу на зов скорее

В пер­вой дека­де 2000-х годов новым есте­ствен­ным про­вод­ни­ком для отта­чи­ва­ния голо­со­вых раз­ра­бо­ток ста­ли смарт­фо­ны. В 2008 году Google запу­стил свое пер­вое при­ло­же­ние голо­со­во­го поис­ка для iPhone, кото­рое к 2012 году эво­лю­ци­о­ни­ро­ва­ло в пер­со­наль­но­го асси­стен­та Google Now для Android, в ту пору при­знан­ное жур­на­лом Popular Science «Инно­ва­ци­ей года».

Но куда более гром­ким ока­зал­ся дебют, про­изо­шед­ший годом ранее. В 2011 году впер­вые заго­во­ри­ло про­грамм­ное обес­пе­че­ние Apple. iOS 5 содер­жа­ло голо­со­во­го асси­стен­та Siri. Ее взрыв­ную попу­ляр­ность мно­гие объ­яс­ня­ют при­су­щей ей искор­кой инди­ви­ду­а­лиз­ма и интел­лек­та. Все, кто когда-либо бол­тал с Siri, зна­ют, что ей не чуж­ды ни чув­ство юмо­ра, ни сар­казм.

С появ­ле­ни­ем Siri рынок вир­ту­аль­ных асси­стен­тов пере­шел в ста­дию кипе­ния.

Тем­пы про­грес­са за послед­ние годы в разы опе­ре­жа­ют дости­же­ния несколь­ких пред­ше­ство­вав­ших деся­ти­ле­тий. В 2014 году Microsoft запус­ка­ет кон­ку­рен­та Siri – вир­ту­аль­но­го помощ­ни­ка Cortana. В 2015 году рож­да­ет­ся непо­беж­ден­ный пока абсо­лют­ный хит – колон­ка Echo от Amazon. Этот гад­жет – «дом» голо­со­во­го помощ­ни­ка Alexa и пер­вое устрой­ство, имев­шее пона­ча­лу толь­ко голо­со­вой интер­фейс. Сей­час Amazon Echo Show снаб­жен неболь­шим экра­ном.

Пря­мой кон­ку­рент Echo – Google Home c безы­мян­ным, но, по всей види­мо­сти, очень сооб­ра­зи­тель­ным Google Assistant – был выпу­щен Google в про­шлом году. Уже есть на рын­ке или ока­жут­ся там до кон­ца года про­дук­ты тре­тьих сто­рон, в том чис­ле Sony и JBL, отдав­шие свои серд­ца Google Assistant. А в декаб­ре 2017 года ожи­да­ет­ся релиз дру­го­го экви­ва­лен­та – Apple HomePod с Siri.

Во вто­рой поло­вине 2017 года на празд­ник нако­нец подо­спел со сво­им про­дук­том рос­сий­ский поис­ко­вой геге­мон Yandex, пред­ста­вив­ший соб­ствен­но­го рус­ско­языч­но­го асси­стен­та Али­су.

С недав­них пор свой помощ­ник Bixby есть и у Samsung. В пози­ции силь­но отста­ю­щих ока­за­лось оупен­сорс­ное сооб­ще­ство.

В этом году Mozilla, под­дер­жи­ва­ю­щая бра­у­зер с откры­тым кодом Firefox, запу­сти­ла про­ект Common Voice. Каж­дый жела­ю­щий может оста­вить обра­зец сво­е­го голо­са и вне­сти леп­ту в постро­е­ние базы боль­ших дан­ных для созда­ния асси­стен­та с откры­тым кодом.

Каж­дый вир­ту­аль­ный асси­стент обла­да­ет опре­де­лен­ным набо­ром встро­ен­ных функ­ций – навы­ков (от англ. skills). Так, Alexa игра­ет музы­ку по зака­зу, обнов­ля­ет запи­си в кален­да­ре, дела­ет звон­ки и замет­ки, состав­ля­ет спис­ки, может высту­пать каль­ку­ля­то­ром, выда­вать про­гно­зы пого­ды, совер­шать покуп­ки и мно­гое дру­гое.

За счет инте­гри­ро­ва­ния тре­тьи­ми сто­ро­на­ми через откры­тые API спо­соб­но­сти голо­со­вых помощ­ни­ков ста­но­вят­ся все более инди­ви­ду­аль­ны­ми и все­объ­ем­лю­щи­ми. Наме­тив­ша­я­ся тен­ден­ция к рели­зу API всех основ­ных асси­стен­тов, как ожи­да­ет­ся, доба­вит остро­ты и без того оже­сто­чен­ной кон­ку­рен­ции.

Еще по теме: Голо­со­вые тех­но­ло­гии: тер­ми­ны, кото­рые нуж­но знать

Alexa, чей Alexa Skills Kit был досту­пен с пер­вых дней ее появ­ле­ния, пока опе­ре­жа­ет всех. К кон­цу 2015 года в спис­ке навы­ков Alexa было 135 пунк­тов. Сей­час их 25 тысяч. Microsoft и Google выпу­сти­ли свои API-набо­ры для Cortana и Google Assistant лишь в этом году и пока нахо­дят­ся в рядах дого­ня­ю­щих.

Социальный аспект голоса: а сегодня что для завтра сделал я?

Вопре­ки кажу­щей­ся необъ­ят­но­сти воз­мож­но­стей вир­ту­аль­ных асси­стен­тов соци­аль­ная состав­ля­ю­щая не самая силь­ная их чер­та. Что­бы как-то испра­вить ситу­а­цию, в этом году Cloud Guru про­вел кон­курс Alexa Speak Up! Challenge. Одним из его побе­ди­те­лей стал навык STEM Women. Аббре­ви­а­ту­ра STEM от англий­ско­го science, technology, engineering, math (нау­ка, тех­но­ло­гия, инже­нер­ное дело, мате­ма­ти­ка). Навык посвя­щен жен­щи­нам, добив­шим­ся успе­ха в этих дис­ци­пли­нах, и направ­лен на борь­бу с ген­дер­ным нера­вен­ством.

Fresh Digital Group – один из немно­гих пока раз­ра­бот­чи­ков, созда­ю­щих подоб­ные навы­ки для Alexa. Так, ком­па­ния уже два­жды сотруд­ни­ча­ла с ЮНИСЕФ. В резуль­та­те были созда­ны Trick or Treat for UNICEF для под­держ­ки тра­ди­ци­он­но­го сбо­ра средств во вре­мя Хэл­ло­уи­на и Kid Power с соци­аль­ны­ми игра­ми, под­ни­ма­ю­щи­ми про­бле­му недо­еда­ния сре­ди детей.

FDG так­же раз­ра­бо­та­ла навык Women’s Day о роли жен­щин в исто­рии.

Дру­гой при­мер соци­аль­но­го навы­ка Alexa: NGO поз­во­ля­ет най­ти непра­ви­тель­ствен­ные орга­ни­за­ции в 50 сто­ли­цах шта­тов США. Audubon Birds Song орга­ни­за­ции по защи­те птиц про­иг­ры­ва­ет тре­ли более 600 пред­ста­ви­те­лей видов птиц, энде­мич­ных для Север­ной Аме­ри­ки.

Save the Food направ­лен на борь­бу с бес­по­лез­ной тра­той про­до­воль­ствия. Этот навык поз­во­ля­ет полу­чать инфор­ма­цию о хра­не­нии про­дук­тов. Mayo Clinic First Aid сооб­ща­ет инфор­ма­цию о том, как мож­но ока­зать само­му себе первую помощь в раз­лич­ных ситу­а­ци­ях угро­зы здо­ро­вью.

Текстовая конвертация, идентификация и верификация: слышу голос, голос спрашивает строго

В сего­дняш­нем мире голо­со­вые асси­стен­ты – лишь вер­ши­на айс­бер­га. Рече­вые тех­но­ло­гии демон­стри­ру­ют впе­чат­ля­ю­щие резуль­та­ты в раз­ных сфе­рах. Так, в обла­сти транс­фор­ма­ции речи в текст тон про­дол­жа­ет зада­вать Dragon Natural Speaking.

Новей­шая 13-я вер­сия это­го ПО, поми­мо стан­дарт­ной функ­ции дик­тов­ки, пони­ма­ет голо­со­вые коман­ды для управ­ле­ния ком­пью­те­ром, напри­мер, откры­ва­ет про­грам­мы или пере­клю­ча­ет окна в бра­у­зе­ре. Это ПО может кон­вер­ти­ро­вать в текст под­ка­сты и аудио­кли­пы или с помо­щью одной коман­ды встав­лять в пись­мо элек­трон­ную под­пись.

Рас­по­зна­ва­ние по голо­су – дру­гое обшир­ное направ­ле­ние раз­ви­тия рече­вых тех­но­ло­гий, свя­зан­ное с иден­ти­фи­ка­ци­ей и вери­фи­ка­ци­ей лич­но­сти. Они под­раз­де­ля­ют­ся на зави­си­мые от тек­ста, когда чело­ве­ку необ­хо­ди­мо назвать опре­де­лен­ное сло­во или повто­рить фра­зу, и не зави­си­мые от тек­ста, когда иден­ти­фи­ка­ция про­из­во­дит­ся про­сто на осно­ве речи.

Голос счи­та­ет­ся менее надеж­ным био­мет­ри­че­ским пара­мет­ром, чем, напри­мер, отпе­чат­ки паль­цев. Его харак­те­ри­сти­ки могут менять­ся не толь­ко с воз­рас­том, но и из-за болез­ни или стрес­са. Тем не менее в свя­зи с общим ростом попу­ляр­но­сти рече­вых тех­но­ло­гий рас­по­зна­ва­ние по голо­су нахо­дит все боль­шее при­ме­не­ние, в том чис­ле в бан­ков­ской сфе­ре.

В 2015 году Citi Group впер­вые внед­ри­ла систе­му рас­по­зна­ва­ния голо­са в сво­их колл-цен­трах в США. Она поз­во­ля­ет опре­де­лить око­ло 130 осо­бен­но­стей голо­са на осно­ве пяти­се­кунд­но­го раз­го­во­ра и срав­нить их с образ­цом. С 2016 года банк Barclays исполь­зу­ет про­дукт одно­го из основ­ных игро­ков в этой обла­сти – ком­па­нии Nuance – как основ­ной метод под­твер­жде­ния лич­но­сти кли­ен­та.

Голо­со­вая иден­ти­фи­ка­ция при­ме­ня­ет­ся для опо­зна­ния пре­ступ­ни­ков. Так, они сыг­ра­ли роль в уста­нов­ле­нии лич­но­сти так назы­ва­е­мо­го «джи­ха­ди­ста Джо­на», фигу­ри­ро­вав­ше­го в видео­за­пи­сях каз­ней груп­пи­ров­ки «Ислам­ское госу­дар­ство».

В мар­те это­го года ста­ло извест­но, что пра­ви­тель­ство Гер­ма­нии наме­ре­ва­ет­ся исполь­зо­вать тех­но­ло­гии рас­по­зна­ва­ния речи в рабо­те с бежен­ца­ми. Так как 60 про­цен­тов про­си­те­лей убе­жи­ща в этой стране не име­ют доку­мен­тов, немец­кие вла­сти рас­счи­та­ют под­твер­ждать стра­ну их про­ис­хож­де­ния, ана­ли­зи­руя их мане­ру гово­рить.

Отношения с законом: я клянусь, что стану чище и добрее

С раз­ви­ти­ем рече­вых тех­но­ло­гий в обще­стве обост­ря­ют­ся и опа­се­ния отно­си­тель­но сохран­но­сти лич­ной инфор­ма­ции и пра­ва на част­ную жизнь. По мне­нию мно­гих, рече­вые тех­но­ло­гии на рын­ке – это не толь­ко новые воз­мож­но­сти, но и недрем­лю­щие мик­ро­фо­ны, а так­же новая ста­дия уте­ри нами кон­тро­ля над пере­да­чей, хра­не­ни­ем и кон­гло­ме­ра­ци­ей наших дан­ных.

Так, голо­со­вые помощ­ни­ки тем луч­ше тру­дят­ся на наше бла­го, чем боль­ше зна­ют о нас. Но, как пишет Economist, «когда голо­со­вой асси­стент уди­вит поль­зо­ва­те­ля вопро­сом: «Неда­ле­ко есть апте­ка, Стив, не хочешь купить новый крем от гемор­роя?», тогда, воз­мож­но, мно­гие по-ново­му взгля­нут на баланс меж­ду уди­ви­тель­ны­ми новы­ми воз­мож­но­стя­ми и ста­рым доб­рым пра­вом на лич­ную жизнь».

Раз­ра­зив­ший­ся с пода­чи Эдвар­да Сно­уде­на скан­дал вокруг Агент­ства наци­о­наль­ной без­опас­но­сти США и его про­грам­мы про­слу­ши­ва­ния и шпи­о­на­жа так­же был непо­сред­ствен­но свя­зан с рече­вы­ми тех­но­ло­ги­я­ми. Как пишет в сво­ем мате­ри­а­ле Дэн Фрум­кин, соглас­но обна­ро­до­ван­ным Сно­уде­ном сек­рет­ным доку­мен­там, в рас­по­ря­же­нии ведом­ства уже боль­ше 10 лет име­ют­ся тех­но­ло­гии, спо­соб­ные ана­ли­зи­ро­вать, клас­си­фи­ци­ро­вать, кон­вер­ти­ро­вать и хра­нить в фор­ме баз дан­ных пере­хва­чен­ные теле­фон­ные пере­го­во­ры.

В про­шлом году в цен­тре вни­ма­ния ока­за­лась про­бле­ма досту­па тре­тьих лиц к инфор­ма­ции, пере­да­ва­е­мой через вир­ту­аль­ных помощ­ни­ков в облач­ные сер­ви­сы.

Колон­ка Echo ста­ла потен­ци­аль­ным сви­де­те­лем по делу об убий­стве.

Пра­во­охра­ни­тель­ные орга­ны США тре­бо­ва­ли от Amazon предо­ста­вить дан­ные, собран­ные Echo в доме подо­зре­ва­е­мо­го. Это­му пред­ше­ство­ва­ла судеб­ная тяж­ба, в ходе кото­рой ком­па­ния пыта­лась сохра­нить кон­фи­ден­ци­аль­ность инфор­ма­ции, но после фор­маль­но­го согла­сия вла­дель­ца Echo, обви­ня­е­мо­го по это­му делу, пере­да­ла тре­бу­е­мые дан­ные, кото­рые все это вре­мя хра­ни­лись на ее сер­ве­рах.

Послед­стви­ем это­го око­ло­су­деб­но­го пере­по­ло­ха ста­ли воз­об­но­вив­ши­е­ся в обще­стве дис­кус­сии о тре­вож­ной вез­де­сущ­но­сти подоб­ных «умных устройств».

На пути к искусственному интеллекту: в прекрасное далеко я начинаю путь

Лиде­ры в обла­сти голо­со­вых тех­но­ло­гий, в част­но­сти про­из­во­ди­те­ли голо­со­вых помощ­ни­ков, не слиш­ком оза­да­чи­ва­ют­ся опа­се­ни­я­ми пуб­ли­ки. Их боль­ше вол­ну­ет, насколь­ко умны­ми, при­ят­ны­ми и реа­ли­стич­ны­ми собе­сед­ни­ка­ми явля­ют­ся их про­дук­ты.

Так, по дан­ным Economist, отве­ты Cortana пишут писа­те­ли, поэты и сце­на­ри­сты, а Google нанял для сво­е­го асси­стен­та авто­ров из Pixar и сати­ри­че­ской газе­ты The Onion для при­да­чи ему боль­ше­го чув­ства юмо­ра.

Кро­ме того, пока, несмот­ря на все «маги­че­ские» свой­ства вир­ту­аль­ных асси­стен­тов, все они счи­та­ют­ся раз­ра­бот­ка­ми пер­во­го поко­ле­ния. Вза­и­мо­дей­ствие с ними век­тор­ное и сво­дит­ся к отда­че и выпол­не­нию команд.

Еще по теме: Что такое голо­со­вые тех­но­ло­гии и интер­фей­сы

Каче­ствен­ным скач­ком в новую кате­го­рию долж­но стать при­да­ние голо­со­вым интер­фей­сам спо­соб­но­стей под­дер­жи­вать спон­тан­ную бесе­ду на сво­бод­ную тему и зву­чать, как голо­са насто­я­щих людей. Судя по тем­пам, со вто­рой зада­чей тех­но­ге­нии спра­вят­ся совсем ско­ро, а потом с еще боль­шим рве­ни­ем при­мут­ся и за первую.

Так, мон­ре­аль­ский стар­тап Lyrebird рабо­та­ет в направ­ле­нии более реа­ли­стич­но­го син­те­за речи путем под­ра­жа­ния. На их сай­те уже запу­ще­на бета-вер­сия про­дук­та, поз­во­ля­ю­щая каж­до­му создать ими­та­тор соб­ствен­но­го голо­са, сде­лав минут­ную ауди­о­за­пись.

Тво­ре­ние Google WaveNet кон­вер­ти­ру­ет в речь напи­сан­ный текст. Она «обу­ча­ет­ся», про­слу­ши­вая аудио­фай­лы и моде­ли­руя зву­ко­вые вол­ны, про­из­во­ди­мые чело­ве­че­ским голо­сом. Google заяв­ля­ет, что эта систе­ма, как ника­кая дру­гая до нее, при­бли­зи­лась к есте­ствен­но­сти чело­ве­че­ской речи.