vits-webui

변경 사항

2023.11.02
- requirements.txt에 cmake==3.26.1 와 pydub를 추가하였습니다.
- 배치파일에서 ffmpeg를 설치하는 코드를 추가하였습니다.
- 기존 처리 방식인 '음성 파일 -> faster-whisper' 에서 '음성 파일 -> 음성 파일 손상 여부 검사 -> 음성 파일 길이 검사 -> 음성 파일 리샘플링 -> faster-whisper' 순서로 변경하였습니다.
- 기존 모든 음성의 대본을 작성하는 방식에서 1초에서 10초 사이의 음성 파일만 대본을 작성하도록 변경하였습니다.
- 음성 파일에 대한 예외 처리를 추가하였습니다.
- 기존의 filelists/SP와 filelists/MP 폴더에 넣어 처리하는 방식에서 audio/SP와 audio/MP 폴더에 넣어 처리하는 방식으로 변경했습니다.
- audio/SP 폴더에 파일을 넣은 경우 음성 파일을 검사한 후 리샘플링하여 filelists/SP 폴더에 저장한 뒤 대본을 작성합니다.
2023.10.28
- 4초 이상의 음성 파일의 경우 대본이 정상적으로 작성되지 않는 문제를 해결했습니다.
- 음성 파일의 길이가 짧아 대본이 정상적으로 작성되지 않는 문제를 해결했습니다.

git clone https://github.com/Roista57/vits-webui.git

setup.bat 파일을 실행할 때 pyopenjtalk==0.2.0 부분에서 오류가 발생한 다면 아래의 프로그램을 확인해주세요.
- visual studio build tools 2019: https://visualstudio.microsoft.com/ko/vs/older-downloads/

단일 화자의 음성을 준비한 경우 SP폴더에 다음과 같이 넣습니다.

audio/SP
├─audio1.wav
├─audio2.wav
├─audio3.wav
├─audio4.wav
└─...

다중 화자의 음성을 준비한 경우에는 MP폴더에 다음과 같이 넣습니다.

audio/MP
├─speaker_1
│  ├─audio1.wav
│  ├─audio2.wav
│  └─...
└─speaker_2
   ├─audio1.wav
   ├─audio2.wav
   └─...

화자, 언어를 Step 1에서 했던 값과 동일하게 설정한 뒤 Preprocess 실행 버튼을 실행합니다.
- 대사 추출 기능을 사용하지 않고 자신이 가지고 있는 대본 파일을 사용하는 경우 filelists.txt 경로에 자신의 대본 텍스트 파일의 경로를 입력한 뒤 화자, 언어를 선택한 뒤 Preprocess 실행 버튼을 실행합니다.