Juan Pablo Yamamoto Zazueta
jpyamamoto@ciencias.unam.mx
- Clonar el repositorio.
- Descargar el archivo modelo_final.pt. Se encuentra almacenado en la plataforma HuggingFace porque GitHub no me permitió subir un archivo pesado.
- Colocar el archivo descargado en
models/modelo_final.pt
. - Ejecutar una por una las celdas en el notebook.
En el notebook adjunto [Detección de Ballenas]("Detección de Ballenas.ipynb") hicimos el procesamiento de archivos de audio para transformarlos en espectrogramas que recaben la información necesaria sobre los archivos en formato .aiff
.
Estos archivos fueron transformados en imágenes PNG de tamaño 64x64.
Posteriormente, desarrollamos una red neuronal convolucional basada en AlexNet que entrenamos para categorizar imágenes según si el espectrograma corresponde a un audio con una ballena presente, o no.
Finalmente, evaluamos el desempeño de la red.
- "Getting to Know the Mel Spectrogram" - Dalya Gartzman
- Python Audio
- "Extracting Mel Spectrograms with Python" - Valerio Velardo - The Sound of AI
- "Mel Spectrograms Explained Easily" - Valerio Velardo - The Sound of AI
- "Why do we perceive logarithmically?" - Lav R. Varshney & John Z. Sun
- "Whale Sounds Lab" - Mr. Van Arsdale
- "Introduction to Speech Processing - Waveform" - Tom Bäckström, et al.
- "Nyquist Frequency" - MathWorld
- "North Atlantic Right Whale" - University of Rhode Island and Inner Space Center
- "Why is the output of the FFT symmetrical?" - Mark Newman
- "Sound Visualization" - Maël Fabien
- "Digital Audio Explained" - Computer Science
- "CNNs for Audio Classification" - Papia Nandi
- ConvNet Calculator
- "AlexNet Architecture" - Upendra Kumar
- "AlexNet - An Explanation of Paper with Code" - Abhishek Verma
- "A suitable way to punish mis-classification via nn.CrossEntropyLoss?" - Andrew