Nota: El código y los resultados de MP-SENet están siendo implementados como parte del trabajo final del curso de investigación en Ciencias de la Computación en la UNSA.
Resumen: El trabajo presenta MP-SENet, una red de mejora de voz que realiza denoising de espectros de magnitud y fase en paralelo. MP-SENet utiliza una arquitectura de códec con transformers aumentados por convolución para conectar el codificador y el decodificador. El codificador convierte las representaciones tiempo-frecuencia de los espectros ruidosos en una forma compacta, mientras que el decodificador está compuesto por un decodificador de máscara de magnitud y un decodificador de fase que recuperan los espectros limpios de magnitud y fase. Las pérdidas a múltiples niveles en los espectros de magnitud, fase, complejos y en el dominio del tiempo se utilizan para entrenar el modelo. Los resultados experimentales muestran que MP-SENet alcanza un PESQ de 3.50 en el conjunto de datos VoiceBank+DEMAND y supera los métodos avanzados existentes.
Implementación y Requisitos: El código de MP-SENet está disponible en este repositorio. Para utilizarlo, se requiere:
- Python >= 3.6.
- Clonar el repositorio.
- Instalar los requisitos de Python especificados en
requirements.txt
. - Descargar y extraer el conjunto de datos VoiceBank+DEMAND, y asegurarse de que todos los archivos wav estén a 16 kHz.
Para el entrenamiento y la inferencia, se deben seguir las instrucciones proporcionadas en el repositorio.
Comparación con Otros Modelos: Se proporciona una comparación visual con otros modelos de mejora de voz en el repositorio. MP-SENet demuestra un rendimiento superior en la mejora de la calidad del habla en comparación con los enfoques existentes.
Agradecimientos: El desarrollo de MP-SENet se basó en trabajos previos como HiFiGAN, NSPP y CMGAN.
Citación:
@inproceedings{lu2023mp,
title={{MP-SENet}: A Speech Enhancement Model with Parallel Denoising of Magnitude and Phase Spectra},
author={Lu, Ye-Xin and Ai, Yang and Ling, Zhen-Hua},
booktitle={Proc. Interspeech},
pages={3834--3838},
year={2023}
}