Компания Mozilla запустила систему распознавания речи с открытым кодом

Опубликован первый выпуск модели для системы машинного обучения, которая ориентирована на распознавание речи. Изображение с сайта: blog.mozilla.org
Опубликован первый выпуск модели для системы машинного обучения, которая ориентирована на распознавание речи. Изображение с сайта: blog.mozilla.org

Компания Mozilla опубликовала первый выпуск модели распознавания речи с открытым исходным кодом и набор голосовых данных, в который вошли примеры произношения почти 20 тысяч человек по всему миру. Об этом представители компании написали в блоге проекта 29 ноября 2017 года.

Базу голосовых шаблонов удалось собрать благодаря добровольцам: они надиктовали почти 400 тысяч записей общей продолжительностью 500 часов. Все эти записи можно скачать в свободном доступе. Такой доступный набор позволит натренировать модель для системы машинного обучения до уровня распознавания речи. При этом число ошибок будет соответствовать распознаванию человеком.

"Мы полагаем, что эта технология подтолкнет к волне инновационных продуктов и услуг. Она должна быть доступна всем", – написано в блоге компании.

Сейчас используется текстовый набор данных LibriSpeech, в котором число ошибок распознавания составляет всего 6,5%. За основу системы распознавания речи Mozilla использует движок с открытым кодом DeepSpeech.

Еще по теме: Популярные решения и разработки в области голосовых технологий

Имея модель распознавания речи и примеры произношения, разработчики смогут экспериментировать. Более того, Mozillа предложила готовые модули для Python и NodeJS. С их помощью можно встроить в свои программы функции распознавания речи. Еще есть инструментарий для распознавания из командной строки.

Пока поддерживается только английский язык, но в планах создателей в 2018 году приступить к сбору примеров и на других языках.