VoiceConverterWeb2022

AVOTAR: 가상공간에서의 페르소나를 위한 목소리 커스터마이징 시스템

맞춤형 목소리 서비스 AVOTAR(아보타)는 부자연스러운 기계음으로 합성한 음성이 아니라 실제 자신의 목소리를 개선하여 변조된 음성을 제공하는 시스템입니다. 이 프로젝트는 이후 2023 CHI Conference late breaking session에 논문 투고할 계획입니다.

개발 환경

시스템 구현에 파이썬 라이브러리 praat-parselmouth를 참조하였고, 파이썬에서는 다음 코드로 다운받을 수 있습니다:

pip install praat-parselmouth

목소리 변조 시스템에 대한 코드는 링크에서 확인할 수 있습니다. 웹 구현은 django와 Amazon S3 bucket을 활용하였습니다.

목소리 변조 모델 구조

AVOTAR는 타겟 목소리와 원본 목소리를 입력값으로 사용합니다. 사용자가 반영도 수치를 설정한 후 원본 목소리를 타겟 목소리처럼 조절하고, pitch(목소리 높낮이), formant(주파수가 울리는 정도), duration(빠르기)를 조절하여 결과 목소리를 만들어냅니다.

Web 데모

목소리 변조에 대한 Web 데모는 링크에서 확인할 수 있습니다.

(http://ec2-3-39-23-78.ap-northeast-2.compute.amazonaws.com/case4/)

AVOTAR 사용법

위의 웹 사이트에 접속하면 AVOTAR를 직접 체험해볼 수 있습니다. 웹 사이트를 사용하기 전, 본인의 목소리를 녹음한 음성 파일과 닮고 싶은 사람의 목소리가 담긴 음성 파일을 준비해주세요. 두 음성 파일 모두 5초 분량의 짧은 데이터여도 웹 사이트가 동작하는 데에는 문제가 전혀 없습니다. 만약, 닮고 싶은 사람의 목소리가 없다면 해당 칸은 비워두셔도 좋습니다.