Более тонкая настройка SSML

Question

Более тонкая настройка SSML

and7ey opened this issue 3 years ago · 1 comments

Где пригодится фича: везде
Описание фичи: SSML сейчас уже довольно тонко настраивается - https://developers.sber.ru/docs/ru/salute/asr-tts/ssml, но было бы круто, если бы можно было более тонко настраивать произношение отдельных слов. Например, как заставить ассистента спеть "маленькой елочке холодно зимой"? Тонкая настройка длительности произношения отдельной буквы в слове была бы очень полезна. Для детских-логопедических смартапов, например.

Answer 1 · 2021-12-09T09:43:46.000Z

Пока не планируем эту фичу для разработчиков.
Сейчас у нас есть прототип модели с управлением тоном и длительностью, где можно делать их изменение относительно дефолтно сгенерированного для каждой буквы. Но предыдущие модели с этими плюшками сильно проигрывали в качестве. И ещё это может разваливаться от релиза к релизу.

Пока для конкретного кейса можем записать под заказ. И, настроив произношение, запиннить его в DL (т.е. подложить туда синтез для этой фразы).