VoiceCloneNet es un modelo de aprendizaje profundo diseñado para generar voces sintéticas realistas mediante el proceso de clonación de voz.
Este script facilita el preprocesamiento de un conjunto de datos al extraer espectrogramas de Mel. Los espectrogramas de Mel son representaciones visuales de la frecuencia del sonido, comúnmente utilizadas en tareas de procesamiento de audio.
Para ejecutar el script en un entorno Ubuntu, utiliza el siguiente comando en tu terminal:
chmod +x preprocesamiento_encoder.sh
./preprocesamiento_encoder.sh
Asegúrate de tener instalado Python 3.9 en tu sistema y el entorno debes llamarlo Enviroment. Puedes instalar las dependencias necesarias ejecutando el siguiente comando:
python3.9 -m venv Enviroment
source venv/bin/activate
pip install -r requirements.txt
El script preprocesamiento_encoder.sh puede ejecutarse sin argumentos para realizar el preprocesamiento con valores predeterminados. Realiza las siguientes acciones:
- Extracción de Espectrogramas de Mel: Utiliza técnicas de procesamiento de audio para convertir los archivos de audio en espectrogramas de Mel.
- Almacenamiento de Resultados: Guarda los espectrogramas de Mel generados en la ruta predeterminada.
Este script de Python parece estar diseñado para entrenar un modelo de codificación de hablantes.
Instala Pytorch: https://pytorch.org/
Antes de ejecutar el script, utiliza el siguiente comando en tu terminal:
chmod +x encoder_train.sh
./encoder_train.sh
Este script preprocesamiento_sintetizador.sh se utiliza para realizar el preprocesamiento de archivos de audio como parte del proceso de entrenamiento del Synthesizer. El objetivo principal es codificar archivos de audio como espectrogramas mel y guardarlos en disco, facilitando así el entrenamiento del codificador. Además, los archivos de audio procesados son guardados para su uso durante el entrenamiento del vocoder.
Asegúrate de tener correctamente configurado tu entorno virtual y todos los paquetes necesarios antes de ejecutar el script. Puedes utilizar el siguiente comando para ejecutar el script:
chmod +x encoder_train.sh
./preprocesamiento_sintetizador.sh
La carpeta donde se encuentran los datos se llama Wav, dentro de ella hay un subfolder llamado mydata, debes tener la estructura de esta forma para poder correr el script.
tree -L 2
Wav
└── mydata
├── 367
└── 533