Голос как препятствие: 5 проблем современных технологий распознавания речи

Как голосовые помощники «крадут» голоса, закрепляют стереотипы и не всех понимают Иллюстрация: https://www.flickr.com/photos/[email protected]/22661255470.

Новая технология, разработанная Spotify, умеет по голосу распознавать эмоциональное состояние, гендер, возраст и акцент, чтобы еще точнее рекомендовать музыку пользователям. В ответ на публикацию патента более 180 музыкантов и правозащитных организаций призвали сервис «дать публичное обещание никогда не использовать, не передавать лицензию на использование другим, не продавать и не монетизировать» эту технологию. Примерно в то же время актриса Бев Стендинг подала иск на платформу TikTok за использование в инструменте автоматического преобразования текста в речь записей, сделанных для исследований в Китайском институте акустики.

Авторка Теплицы Ольга Тараканова рассказывает об этих и других этических проблемах, которые ждут решения в сфере распознавания и синтеза речи. 

Как это работает

Распознавание и синтез речи — технологии, основанные на машинном обучении. То есть они учатся на данных, которые загружают в них разработчики, а затем поставляют и сами пользователи. Siri на вашем iPhone предварительно знакома с 20 языками и способна их распознать, но постепенно привыкает к тому, как говорите именно вы. 

Голосовой помощник должен уметь распознавать отдельные слова, фразы, грамматические конструкции, интонации. Кроме того, он должен различать голосовые данные и шумы на фоне, будь то шум дороги, лай собаки или вой турбин в самолете. Наконец, нужно уметь подстраиваться к основному тону (основной ноте) голоса, который у любого человека меняется в зависимости от того, разговариваем мы спокойно дома или перекрикиваем толпу на улице. 

Чтобы голосовые данные можно было использовать и дальше, приложение распознавания речи переводит их в текст. В тексте уже стираются акцент, индивидуальные интонации, эмоции. Когда данные переведены в текст, в дело включается другая технология — NLP (natural language processing, то есть обработка естественного языка). О принципах ее работы и этических проблемах можно прочитать в интервью с создателями проекта «Нетоксичный алгоритм».

Где используются технологии

Распознавание и синтез речи уже применяются в разных областях. Вот некоторые из них.

  • Голосовые помощники, ориентированные на базовые задачи: сделать звонок, поискать в Google, посмотреть погоду.
  • Управление сторонними приложениями. Их разработчики могут воспользоваться документацией по базовым голосовым помощникам и либо просто встроить их в свое приложение, либо еще расширить функционал.
  • Автовождение: общаться с навигатором или другими сервисами в машине голосом куда безопаснее, чем вводить нужную информацию руками.
  • Управление умным домом.
  • Образование. От таких простых функций, как указание на орфографические или грамматические ошибки в игровой форме и в реальном времени, до все большей персонализации обучения, в том числе для школьников и студентов, которым сложно много общаться с людьми вживую.
  • Медицина. От чатботов, которые способны прислать и озвучить инструкции по помощи себе или другим в стандартных ситуациях или напомнить принять таблетки, до сервисов телемедицины, которыми можно управлять, не совершая лишних энергозатратных движений.
  • Видеоигры. То есть управлять играми теперь можно с помощью не только контроллеров, но и голоса.

Проблема 1. Голосовые помощники воспроизводят и закрепляют все стереотипы

Давайте начнем с двух историй, описанных в начале текста, — со Spotify и TikTok. Почему рекомендации на основании акцента, гендера и возраста — это очень плохая идея? Потому что алгоритмы, как правило, воспроизводят те стереотипы, которые существуют сейчас в обществе. Исследователи выделяют больше 23 типов алгоритмических предубеждений, среди которых ошибка выборки, ошибка опоры на историю и другие (мы писали об этом подробнее в статье о феминистских исследованиях цифрового контента). 

Но и это еще не все. В 2017 году алгоритмы Google научились распознавать англоязычную речь с 95-процентной аккуратностью. Что на самом деле означает это достижение? Оно означает, что голосовой помощник не хуже (а может, даже лучше) среднего человека распознает речь человека со стандартным североамериканским акцентом. А вот если с помощником заговорит афроамериканец, то точность упадет примерно до 80%. Это огромная разница. Более того, при преобразовании голоса в текст гарантированно потеряется специфика написания, которая может быть важна для говорящих. 

«Clow-dia — говорю я раз, еще раз, третий. Не добившись успеха, произношу американизированную версию моего имени: «Claw-dee-ah». Наконец, Siri узнает его», — рассказывает нейроисследовательница Клаудиа Лопез Льореда пуэрториканского происхождения в статье о неготовности голосовых технологий к этническому или культурному разнообразию речи.

И наконец, 20 языков в Siri — неплохой показатель, но большинство других технологий распознают гораздо меньше языков. А нередко только английский. 

Проблема 2. Наши голоса можно украсть!

Теперь вернемся к истории, в которую попала актриса Бев Стендинг. Тут ситуация несколько сложнее. Адвокат актрисы говорит, что технология синтеза речи отнимает у нее и у других средства к существованию. Это действительно так, но автоматизацию довольно механического труда можно рассматривать и как положительный сдвиг в обществе.

Сложнее следующий ход, который описан в материале «Роскомсвободы». В судебном иске утверждается, что теперь голос актрисы можно услышать в вирусных видеороликах с «нецензурной и оскорбительной лексикой», что наносит ее репутации «непоправимый вред». «Клиенты могут перестать нанимать меня, потому что они узнают этот голос», — рассказала актриса.

И хотя инструмент в TikTok был создан на базе более десяти тысяч записей, чисто теоретически таким же образом можно смоделировать голос любого пользователя, любого из нас. Так мы обнаружим, что говорим то, что никогда не говорили. В этом даже есть что-то завораживающее, но и пугающее все-таки тоже. 

Проблема 3. У технологии большой потенциал в сфере образования, но распознавать детскую речь трудно

Чем детский голос отличается от взрослого? Легко предположить, что он просто выше. Но нет, на самом деле в ходе физиологического развития голосового аппарата частотная характеристика голоса меняется до неузнаваемости. Это приводит к первому набору затруднений при распознавании детской речи в программах, первоначально настроенных на голоса взрослых.

Изображение: SoapBox Labs
Частотность детского голоса. Изображение: SoapBox Labs.

Вторая проблема — гораздо большая вариативность грамматических, синтаксических, фонетических паттернов у детей. Они по-особенному, часто играя, строят предложения, тянут звуки, меняют высоту тона.

Наконец, взрослые специально адаптируют свой способ говорить под голосовых помощников, если обращаются к ним. Дети, напротив, первоначально воспринимают программы как таких же собеседников, что и родители или сверстники. «Глубокий вдох… Siri… Пауза» — это паттерн, которому нужно отдельно научиться и не забывать про него. 

Но главное, ошибки в распознавании речи в образовательном контексте могут сильно ударить по качеству обучения и психологическому здоровью учащихся. Если программы выдают ложно-негативную оценку, это бьет по уверенности в себе. Если ложно-позитивную, то это может закрепить неверный паттерн. Не то чтобы живые учителя застрахованы от таких ошибок, но у них все-таки больше шансов их быстро исправить и принести извинения.

Проблема 4. Голосовые помощники не учитывают речь и пользовательские привычки пожилых и людей с особыми потребностями

И тут дело даже не всегда в сложности распознавания. Есть, например, такое состояние, как дизартрия — это особенность функционирования связей между речевым аппаратом и нервной системой, которая может приводить к затруднениям при произнесении отдельных звуков или вообще в речи. Так вот, например, виртуальный ассистент Alexa от Amazon просто отключает микрофон до того, как человек с дизартрией успевает начать делать запрос, после того как сказал кодовое «Алекса». 

Значимость этой проблемы в том, что дизартрия часто сопутствует таким состояниям, как церебральный паралич, болезнь Паркинсона или опухолям головного мозга. Тем временем именно людям с такими диагнозами голосовые помощники могли бы принести немало пользы. Чтобы адаптировать технологию в том числе и под них, разработчики сейчас собирают банки данных с нетипичной речью, анализируя ее в поисках более сложных, но все равно существующих паттернов.

Проблема 5. Голосовые помощники говорят женскими голосами, и это плохо для женщин

Есть популярное мнение, что женские голоса легче и приятнее воспринимать. Но вот ситуация. Голосовые помощники действительно говорят женскими голосами, а часто еще и носят женские имена, как, например Alexa в Amazon. Другое дело голоса, тоже синтезированные, которые, например, подтверждают сделки на бирже, — сюрприз, они мужские. А поскольку функционал голосовых помощников в основном располагается в сфере обслуживания или заботы, за женщинами еще сильнее закрепляется место, на которое нам и так нередко указывают, — «на кухне». 

Что дальше?

Одно из основных решений всех перечисленных проблем (кроме последней, тут уж дело скорее в прямой корпоративной ответственности) — сбор максимально разнообразных данных. Как устроены проекты по инклюзивному сбору данных, мы скоро тоже расскажем.