/vitsMiki-app

基于iSTFT-VITS的语音合成GUI

Primary LanguagePythonMIT LicenseMIT

vits-miki 一站式训练合成的VITS

内置iSTFT-VITS模型的语音合成和训练

介绍

本项目是一个基于electron编写的语音合成的GUI,模型来源是MB-iSTFT-VITS,界面部分参考了vits-miki(作者是秋之雪华)。 由于使用了MB-iSTFT-VITS,训练速度达到了原版的 4 倍 这里可以制作数据集,训练,并且合成语音 logo
内置模型的声音素材来源于:弥希Miki

界面

合成

合成

训练

训练

数据处理(未完工)

数据处理

鼠标放在右上角附近才可以看到页面切换的按钮

使用方法

下载打包好的版本(windows独享)

  1. 在这里下载第一个release,解压,双击vits-miki.exe
  2. 确保python 3.7已经下载安装并且添加到系统Path
  3. 等待安装环境,包和其他的预处理事项
  4. 开始使用

合成前需要先选择模型!内置的模型是我亲自训练,亲自部署的,但训练时长不是很够,数据集也一般,所以效果整体也就这样 需要注意的是,第一次启动会很慢,所以如果出现界面点击没有生成音频,多等等(最多也就1分钟),实在不行就重新启动。当你成功合成一次后,之后就不会慢了

使用源代码(可以获取更多信息,方便调试)

  1. 下载代码到本地
  2. 确保npm已经安装,python也已经安装
  3. 在代码目录使用命令npm install --save-dev electron
  4. npm start或者electron .

杂项

  • 训练时应该输入模型名,然后点击确定,以此生成json。接着你可以在/files/模型名/里找到模型名.json。你需要把train.txt.cleaned,test.txt.cleanedwav文件夹放入这里。wav文件夹里是所有的音频文件。具体的可能可以参阅这里。 每一行的内容应该是
files/模型名/wav/音频名称|对应的文字(如果是.cleaned则是对应的符号)

你还可以在py/dataPreprocess.py中找到更多信息,甚至直接用那个脚本来制作你的数据集。未来数据集的制作也会整合进程序中(吧) 训练的时候,程序退出后可能没有完全退出,需要到任务管理器里杀死,建议常常检查一下,

TODO

  • 加入数据处理页面
  • 正确退出程序
  • 把界面搞正常点

废弃版本README

内置iSTFT-VITS模型的语音合成和训练

本项目是一个基于electron编写的语音合成的GUI,模型来源是MB-iSTFT-VITS,界面部分参考了 vits-miki(作者是秋之雪华)。
声音来源于:弥希Miki 界面

使用方法

下载全部的代码,然后下载我的模型,所有模型均应放在models/文件夹中,这个文件夹下的每个子文件夹包含了一个模型,config文件也要放在这里

更新!现在也可以训练了

弥希Miki的模型下载:GoogleDrive

本地需要安装npm和python,等我学会了怎么打包我再打包

建议使用python3.7版本,避免numpy等包的冲突。 python 3.7

你可以在node.js下载和安装npm,接着在代码的目录运行:

npm install --save-dev

或者直接上网找教程,直接搜索如何安装electron。

接着输入

npm start

就可以运行了。 第一次运行启动会比较慢,因为需要安装python环境和必要的包

如果希望更改模型(比如自己训练的),可以在configs/app.json中更改自己的模型和模型的config,并把模型congfig也放在configs/中。程序会自动安装一个python的虚拟环境,如果你不想这么做,可以把package.json里的start改为.electron,然后将configs/app.json中的'pythonPath'改为自己的解释器位置,请确保requirements.txt中的包均已经安装。


另外,本程序代码使用MIT License,模型使用CC-BY-NC协议