Услышать всех: зачем нужно разнообразие при сборе голосовых данных

Как устроен инклюзивный сбор голосовых данных Иллюстрация: https://www.flickr.com/photos/[email protected]/10728076475

Знаете, что такое дикторский голос? Глубокий, размеренный, с «правильным» произношением. Именно таким голосом нельзя читать сценарии или вести разговоры, на которых технологические системы будут обучаться распознаванию и синтезу речи. Наоборот, при разработке голосовых технологий необходимы максимально разнообразные данные: разные акценты, разное качество записи, разные фоновые шумы.

Только тогда система сможет понимать реальных людей в разных жизненных обстоятельствах, а не одних лишь дикторов с идеальной выучкой. И только так можно двигаться от дискриминации к инклюзии в сфере voice tech. Авторка Теплицы Ольга Тараканова рассказывает, как устроен инклюзивный сбор голосовых данных. 

Зачем вообще нужны голосовые данные

Голосовые помощники в смартфонах, медицинских проектах, интернет-банкинге и всех остальных сферах работают с помощью технологии машинного обучения. То есть их способности зависят от данных, которые были прежде в них загружены. 

Общаясь с каждым конкретным пользователем, система подстраивается под его или ее особенности. Но вот насколько успешно произойдет эта настройка, зависит от того, на каких данных технология обучалась первоначально. Так, в предыдущей статье я рассказывала о том, как плохо сейчас технологии понимают детей и пожилых, людей с латиноамериканским или афроамериканским акцентом в английском языке, людей с особыми потребностями. 

Исправить существующее неравенство может сознательный сбор данных. Как правило, системы вроде Yandex SpeechKit, то есть API, которые можно интегрировать в сторонние продукты, предполагают возможность обучать систему на дополнительных данных. Реально ли их собрать? Как это сделать?

Пять источников голосовых данных

Компания Summa Linguae специализируется на кастомизации языковых технологий и в открытом блоге выпускает доступные гайдлайны по технологиям локализации, перевода и сбора данных. Специалисты компании описывают следующие источники голосовых данных.

  • Данные пользователей вашего приложения.
  • Бесплатные датасеты в публичном доступе.
  • Платные датасеты.
  • Данные, удаленно собранные специально для проекта.
  • Данные, собранные в ходе полевых записей специально для проекта.

К сожалению, первые три типа данных редко бывают достаточно разнообразными. Это может показаться странным применительно к данным пользователей, ведь установить какое-либо приложение может почти любой человек. Но если система не сможет распознать его или ее речь из-за особенностей произношения, построения предложений, интонации, то долго пользоваться приложением он или она не будут. А значит, и данных после себя почти не оставят.

Таким образом, инклюзивная работа с голосовыми данными чаще всего предполагает их сбор специально для проекта. В чем разница между удаленными и полевыми записями?

Удаленный сбор, который также можно назвать краудсорсингом данных, подключает специально выбранную группу большего или меньшего размера с помощью веб-форм или специальных приложений. Участницы и участники сбора записывают данные с помощью того оборудования, которое у них есть. Это могут быть стандартные аудиосистемы на ноутбуке или более профессиональные звукозаписывающие устройства. Так или иначе, контроль над акустическими свойствами в случае удаленной записи ограничен.

Полевые записи, напротив, позволяют организовать максимальную вариативность в качестве записи или создании нужной акустической среды (например, запись в торговом центре, запись на шумной дороге или в других, даже более экстремальных условиях). Вместе с тем финансовые и временные затраты на сбор данных в поле будут гораздо выше. Еще дороже, но иногда эффективнее может быть запись в лабораторных условиях, которые имитируют полевые. 

Самый веселый способ собирать голосовые данные — «вечеринки распознавания голоса». Одни из самых тяжелых условий для программ распознавания речи — звуковые среды, в которых накладываются друг на друга множество шумов и голосов.

«Вечеринки распознавания голоса» (voice recognition parties) выглядят как обычные вечеринки, только кроме гостей на них присутствует еще и звукозаписывающее оборудование. Гости предупреждены о записи, но, как правило, организаторы перед обработкой данных еще раз прослушивают все аудио и удаляют информацию, которая может оказаться чувствительной.

Переменные при сборе голосовых данных

Чтобы голосовые данные в итоге были инклюзивными и действительно учитывали разные особенности речи и среды, в которой она звучит, важно при сборе учитывать следующие переменные.

  • Размер выборки: количество спикеров, количество повторений на одного спикера.
  • Работа со сценарием: чтение сценария или естественная речь, вариации в сценарии для разных групп спикеров, специальные указания к интонации или темпу чтения.
  • Технические параметры: качество, формат, указания к постобработке (шумоподавление).
  • Требования к сохранению: расшифровка или лейбеллинг (маркировка, названия файлов, хранение на облачных серверах или пересылка по почте.

И главное — лингвистические и демографические переменные. Демографические переменные — как раз то, что мы первым делом представляем, если думаем об инклюзивном сборе данных: распределение по гендеру, возрасту, физическим особенностям.

Сложнее с лингвистическими переменными. Нужно учесть несколько факторов: местные особенности произношения, родной или неродной для спикера язык, где спикер сейчас или в течение достаточно длительного времени живет. «У человека с родным португальским, родившегося и выросшего в Бразилии, может сформироваться особый акцент, если последние 20 лет он прожил за границей», — приводят пример эксперты Summa Linguae. 

Что со сбором данных в России?

Крупнейший проект по сбору голосовых данных с русскоязычной версией и русскоязычным корпусом, который заявляет себя как инклюзивный, — Common Voice от компании Mozilla. Он существует в паре с движком DeepSpeech. Одна из главных задач движка — достигнуть минимальных технических требований при преобразовании текста в речь и обратно, чтобы запускать программы на нем можно было даже на самых дешевых устройствах.

Разнообразие в CommonVoice сейчас нацелено в первую очередь на широкий охват языков и пользователей в разных странах. Записать данные для проекта может любой желающий. Или расшифровывать уже записанные наборы. Модераторы проверяют ваши записи и расшифровки. 

Меня удивило, что среди уже обработанных данных есть не только африканские или азиатские языки, которые хоть и достаточно редко, но все же попадают в зону внимания международных разработчиков, но и, например, якутский. Да, в наборе всего 43 спикера и около 4 часов проверенных записей, но это и не так мало. Хуже ситуация с водским языком, который находится на грани вымирания: не проверена пока ни одна запись, записано всего 3 голоса и полчаса. Доступны также наборы на чувашском и татарском. 

Опасность сбора данных

Помните, когда зимой 2021 года все засели в приложении Clubhouse? Часы ленивых дружеских разговоров и оживленных резонансных дискуссий могли бы стать настоящей «фермой» голосовых данных. А может быть, и стали — мы не знаем, в какой момент и кто записывал голоса пользователей Clubhouse даже на самый простой диктофон (такая вероятность есть).

Чем это грозит? Например, в интернет-банкинге уже используется технология голосовой биометрии. То есть подтверждения личности с помощью голосовых особенностей: тембра, пауз. На Теплице выходил текст о дипфейках в области видео, то есть замене лиц, но возможны и голосовые дипфейки. 

Наконец, обработка и анализ того количества голосовых данных, которые накопились в Clubhouse или в любой другой базе данных, могли бы стать ценным и одновременно опасным ресурсом для персонализированной рекламы. Особенно если бы анализ был проведен не только на уровне смысла, но и на уровне эмоций, а технологии, которые позволяют определять эмоции по голосу, уже существуют. Подробнее о том, в чем проблемы с излишне или недостаточно точным распознаванием речи, можно прочитать в этой статье о голосовых технологиях.