Audio

Read wav2letter anywhere

Read this fastai thread

Audio recognition 🎤

Frecuencia de muestreo: 16khz (16000 muestras por segundo) es suficiente
Audio classification with fast.ai (CNN)
Speech recognition
- CTC
- RNN-T: RNN-Transducer, 2012 paper
- LAS: Listen, Attend and Spell. Attention-based, sequence-to-sequence model. 2015 paper

Audio generation 🔊

Speech generation guide
Music generation
WaveNet: A Generative Model for Raw Audio.

Packages

PyAudio
gTTS: Ptyoen interface of Google text to speech
SpeechRecognition
playsound

CTC speech recognition

uno puede "samplear" la entrada en trozos de longitud fija, pero la salida esperada, una serie de fonemas o de letras, lleva un ritmo distinto. CTC lo que hace es que la salida de la red (típicamente LTSM) sea "si hay cambio de fonema, y con qué probabilidad para cada posible opción", y luego esa señal se procesa, con o sin ayuda de un modelo del idioma del que se trate, para generar la secuencia más probable de fonemas o de palabras (el truco esta en como entrenar la red para que la salida sea esa). Antes de CTC lo tradicional era poner un HMM a la salida de la red para hacer básicamente lo mismo, pero bastante más complicado de entrenar, y sin salida probabilística.

LAS speech recognition

LAS (listen, attend, spell) es otro mecanismo para hacer lo mismo, combinando un lstm, un modelo de atención y un diccionario del idioma en cuestión en una sola entidad que se entrena end to end. De hecho creo que hay más evoluciones de la misma idea.

javiabellan/audio