Более тонкая настройка SSML
and7ey opened this issue · 1 comments
Где пригодится фича: везде
Описание фичи: SSML сейчас уже довольно тонко настраивается - https://developers.sber.ru/docs/ru/salute/asr-tts/ssml, но было бы круто, если бы можно было более тонко настраивать произношение отдельных слов. Например, как заставить ассистента спеть "маленькой елочке холодно зимой"? Тонкая настройка длительности произношения отдельной буквы в слове была бы очень полезна. Для детских-логопедических смартапов, например.
Пока не планируем эту фичу для разработчиков.
Сейчас у нас есть прототип модели с управлением тоном и длительностью, где можно делать их изменение относительно дефолтно сгенерированного для каждой буквы. Но предыдущие модели с этими плюшками сильно проигрывали в качестве. И ещё это может разваливаться от релиза к релизу.
Пока для конкретного кейса можем записать под заказ. И, настроив произношение, запиннить его в DL (т.е. подложить туда синтез для этой фразы).