TowardSpring/Whisper-Any2Chinese

Transcribe multilingual speech into Chinese text

Python

Whisper-Any2Chinese

Introduction

Whisper显然是一个非常优秀的语言识别模型，其支持多种语言的语音转录，也支持多种语言转录之后直接输出对应的英文翻译。当前，网上已经有非常多的使用教程，支持对已含语种的进一步微调，以期能实现更低的WER。同时，也有对Whisper的修改，以进一步加速识别的过程。

但是，Whisper模型本身的能力并不应限制于当前的功能，它从原理上也应该支持添加新的语种的语音识别，支持将所有的语种直接转录为中文。本项目就是基于Whisper的原理，对其进行了一些修改，使其能够支持任意语种的语音识别，同时也支持将其转录为中文。

为了支持市场更多的个人服务器能够实现这些微调，本项目采用PEFT方法减少对训练资源的需求。同时，本项目也提供了一些脚本，以便于用户能够更加方便的使用本项目。

本项目开发进度

[*] 完成对新语种、新功能的微调训练教程的编写（any2chinese_train_*.ipynb）。
[ ] 完成对英语转录中文的模型微调训练（支持训练，验证与推理）。                             2023-10-10
[ ] 完成Web界面的搭建，方便本项目的直接应用。                                           2023-10-30