Компания Amazon запустила сервис создания системы синтеза речи с голосом конкретного человека на основе образцов его речи. Amazon предлагает использовать сервис брендам, связанным с конкретным человеком или образом. Например, она создала для KFC алгоритм синтеза речи Полковника Сандерса.
Развитие алгоритмов синтеза звука, таких как WaveNet, привлекло к этой области внимание исследователей и компаний, в результате чего за последние годы появилось много голосовых помощников и систем синтеза речи, которые разработчики могут использовать в своих приложениях. Однако почти всегда система синтеза речи от одной компании может говорить одним или максимум несколькими голосами, причем они, как правило, не принадлежат известным людям. Есть исключения, например, голос Джона Ледженда в Google Assistant, однако в целом пока крупные разработчики голосовых помощников и систем синтеза речи до недавнего времени не позволяли создавать алгоритм, говорящий голосом конкретного человека.
Amazon, которая уже предоставляет разработчикам приложений сервис Polly для синтеза речи на разных языках и разными голосами, запустила в рамках этого сервиса функцию создания пользовательского голоса. Сервис доступен как в виде голоса для навыков голосового помощника Alexa, так и в виде отдельного API, получающего текст и выдающего файл с аудиозаписью, который можно использовать любым образом.
В первую очередь она нацелена на компании, которые хотят использовать в своих сервисах голос известного представителя бренда. В качестве примера Amazon показала результат работы с KFC, которая для своего канадского отделения создала голосовую модель символа компании — Полковника Сандерса:
Здесь должно было быть аудио, но что-то пошло не так.
Компания не раскрывает стоимость и подробности работы сервиса, однако, вероятно, он основан на алгоритме, описанном в статье сотрудников Amazon в 2019 году. Алгоритм берет данные конкретного человека и добавляет их к генерализованной нейросетевой модели, обученной на других данных. В результате на обучение модели требуется гораздо меньше образцов речи, чем при использовании других подходов, но качество синтеза получается высоким.
Пока одной из самых реалистичных и масштабно применяемых систем синтеза речи остается Google Duplex. Эта функция работает в США и Новой Зеландии, и позволяет забронировать столик в ресторане или совершить другое действие, попросив Google Assistant. После этого алгоритм сам найдет нужную информацию, в том числе телефон заведения, позвонит и сообщит пользователю итог. Система оказалась настолько реалистичной. что после запуска Google пришлось научить ее в начале звонка уточнять, что говориталгоритм, а не человек.