/AudioToText

Primary LanguageJupyter Notebook

Conversión audio-texto

El documento contempla dos alternativas:

  1. Google Speech to text
  2. Vosk (español)

Reflexiones

La API de Google tiene el importante plus de ser capaz de detectar interlocutores. Cuenta con compatibilidad para castellano de España y castellano de Chile, sin embargo, el primero posee muchas más herramientas disponibles, al mismo tiempo que detecta de mejor manera las palabras del audio. Por otra parte, Vosk mostró un mejor desempeño en la detección del audio, sin embargo, el resultado no presenta una estructura entre interlocutores ni distinguiendo párrafos.

Notas

El anexo contiene dos apartados:

  • Normalización del volumen del audio.
  • Conversión de m4a a wav.