thorstenMueller/Thorsten-Voice

juristische Gesetzesangaben

Opened this issue · 4 comments

Juristische Gestzesangaben funktionieren gar nicht, ein Satz wird dabei unkenntlich. Könnte man das ins Trainingsprogramm aufnehmen?

Schon einfach Dinge: "§ 177 Abs. 1 Nr. 3 i. V. m. § 174 Abs. 1 Satz 3 und Abs. 5 TKG" sind dem Modell offenbar völlig unbekannt.

Da würde ich eine Vorverarbeitung empfehlen, die für den Jura-Kontext spezifisch die Abkürzungen in ausgeschriebenen Klartext "übersetzt":

Paragraph einhundertsiebenundsiebzig Absatz eins Nummer drei in Verbindung mit Paragraph einhundertvierundsiebzig Absatz eins Satz drei und Absatz fünf Telekommunikationsgesetz

Hallo @T-o-m-H-u 👋,

ich würde es machen, wie @domcross vorgeschlagen hat. Solche spezifischen Abkürzungen und Begriffe am besten im Vorfeld in die ausgeschriebene Langform umwandeln und dann erst sprechen lassen.

Ggf. hilft dir dieses Projekt dafür etwas weiter: https://github.com/repodiac/german_transliterate

Danke, ich habe angefangen Abkürzungen in einem .dic für piper zu sammeln. Den Weg über python will ich nicht gehen, weil es einfach über speech-dispatcher funktionieren soll.
Ein Problem sind dort noch Ordnungszahlen. Gibt es für das .dic Format eine formelle Dokumentation?

Welches .dic Format meinst du denn genau? Ich habe mal ein Video dazu gemacht, wie du das eSpeak Dictionary anpassen kannst um die Aussprache zu verändern. Meinst Du sowas?