Google представили технологию синтеза речи с реалистичным голосом

Google утверждает, что последняя версия их ИИ-системы синтеза речи, Tacotron 2, почти неотличима от человеческой речи – и поставили некоторые сравнительные примеры чтобы подтвердить свои слова.

Tacotron 2 работает прямо из письменного текста, и Google утверждает, что он может использовать контекст, чтобы правильно произносить одинаково написанные слова, что имеют разное ударение. Кроме того, технология реагирует на знаки препинания и умеет интонационно подчёркивать слова.

Google не раскрывает, какой из сравнительных образцов является оригинальным, а который был создан с Tacotron 2, но было замечено, что при просмотре страницы источника, имена файлов раскрывают эту информацию. Однако, советуем Вам прослушать примеры прежде чем узнать правильный ответ.

Контекстно-управляемое произношение особенно впечатляет в том, что технология может правильно интерпретировать запятые, и использовать вопросительные знаки, чтобы отрегулировать высоту интонации надлежащим образом.

Конечно, стоит отметить, что голос, которому подражает Tacotron 2, является довольно лёгкой мишенью, чем обычный голос, но это всё равно впечатляет. Что касается правильного ответа, то Tacotron 2 в примерах соответственно находится на 2-й, 1-й, 1-й и 2-й позиции.

Источник: 9to5google