common-voice/commonvoice-fr

Améliorer le filtrage de Common Voice v3

lissyx opened this issue · 1 comments

Les premiers résultats sur Common Voice v3:

  • beaucoup de déchets dans l'alphabet
  • loss à peu près similaire
  • taux d'erreurs très élevés (WER et CER)

Je pense que le jeu de données devrait être nettoyé pour au moins avoir un alphabet """normal""".

Les premiers résultats sur Common Voice v3:

* beaucoup de déchets dans l'alphabet

* loss à peu près similaire

* taux d'erreurs très élevés (WER et CER)

Je pense que le jeu de données devrait être nettoyé pour au moins avoir un alphabet """normal""".

Confirmé, après nettoyage correct de l'alphabet, on retrouve des résultats proches, et un peu meilleur grâce à la quantité de données (180h vs 120h).