Read wav2letter anywhere
Read this fastai thread
- Frecuencia de muestreo: 16khz (16000 muestras por segundo) es suficiente
- Audio classification with fast.ai (CNN)
- Speech recognition
- Speech generation guide
- Music generation
- WaveNet: A Generative Model for Raw Audio.
- PyAudio
- gTTS: Ptyoen interface of Google text to speech
- SpeechRecognition
- playsound
uno puede "samplear" la entrada en trozos de longitud fija, pero la salida esperada, una serie de fonemas o de letras, lleva un ritmo distinto. CTC lo que hace es que la salida de la red (tÃpicamente LTSM) sea "si hay cambio de fonema, y con qué probabilidad para cada posible opción", y luego esa señal se procesa, con o sin ayuda de un modelo del idioma del que se trate, para generar la secuencia más probable de fonemas o de palabras (el truco esta en como entrenar la red para que la salida sea esa). Antes de CTC lo tradicional era poner un HMM a la salida de la red para hacer básicamente lo mismo, pero bastante más complicado de entrenar, y sin salida probabilÃstica.
LAS (listen, attend, spell) es otro mecanismo para hacer lo mismo, combinando un lstm, un modelo de atención y un diccionario del idioma en cuestión en una sola entidad que se entrena end to end. De hecho creo que hay más evoluciones de la misma idea.