modelscope/FunASR

请问Paraformer-V2的代码会开源吗?

Opened this issue · 17 comments

请问Paraformr-V2的代码会开源吗?什么时候开源呢?

+1
我自己写了一个Paraformer-V2并上传在我的仓库中
https://github.com/NiniAndy/Paraformer-V2
但是我测试的结果并不能达到报告里的精度
就很奇怪,Paraformer我也没法训到报告中的精度,总是差一点

+1
我自己写了一个Paraformer-V2并上传在我的仓库中
https://github.com/NiniAndy/Paraformer-V2
但是我测试的结果并不能达到报告里的精度
就很奇怪,Paraformer我也没法训到报告中的精度,总是差一点

请问您这边在开源数据上测试结果如何? 比如在Aishell-1 或者 Librispeech 的精度?

+1
我自己写了一个Paraformer-V2并上传在我的仓库中
https://github.com/NiniAndy/Paraformer-V2
但是我测试的结果并不能达到报告里的精度
就很奇怪,Paraformer我也没法训到报告中的精度,总是差一点

请问您这边在开源数据上测试结果如何? 比如在Aishell-1 或者 Librispeech 的精度?

我在funasr里按照官方的配置训练的aishell-1的paraformer最好也只有5.3,我手动改改学习率的warmup的步数和最大lr以后能好点,能到5.2但是也达不到报告的5.1。从modelscope下载的对应的aishell-1 16k basemodel就能到5.1。无论我用4090x4还是4090x2还是A6000x4还是A6000x2。
至于ParaformerV2也FunASR中的表现也在5.3附近徘徊。

有意思的是我在wenet中也训练了一样的paraformer可以达到4.9,paraformerV2能到4.8,更有意思的paraformerV2如果只用encoder+ctc贪婪搜索能到4.7。

我还发现了FunASR中如果只用ctc做贪婪搜索,效果要逊于wenet中一模一样的模型,比如同样的ctc-atten hybrid Conformer,如果在训练完推理的时候只用encoder+ctc,在FunASR中的结果是不理想的。我检查过FunASR提供的ctc代码并没有发现什么异常。

ps:我问过西工大的朋友,wenet社区的人表示对他们给出的paraformer代码并没有经过测试,所以直接用他们给的模型训练效果更差,我就照着FunASR的代码搬运了一份一模一样的到wenet里,训练的配置文件中模型的参数和FunASR保持一致,训练的学习率,步数等其他的超参数和Wenet的Conformer baseline保持一致。我怀疑是学习策略导致的问题

+1
我自己写了一个Paraformer-V2并上传在我的仓库中
https://github.com/NiniAndy/Paraformer-V2
但是我测试的结果并不能达到报告里的精度
就很奇怪,Paraformer我也没法训到报告中的精度,总是差一点

请问您这边在开源数据上测试结果如何? 比如在Aishell-1 或者 Librispeech 的精度?

我在funasr里按照官方的配置训练的aishell-1的paraformer最好也只有5.3,我手动改改学习率的warmup的步数和最大lr以后能好点,能到5.2但是也达不到报告的5.1。从modelscope下载的对应的aishell-1 16k basemodel就能到5.1。无论我用4090x4还是4090x2还是A6000x4还是A6000x2。 至于ParaformerV2也FunASR中的表现也在5.3附近徘徊。

有意思的是我在wenet中也训练了一样的paraformer可以达到4.9,paraformerV2能到4.8,更有意思的paraformerV2如果只用encoder+ctc贪婪搜索能到4.7。

我还发现了FunASR中如果只用ctc做贪婪搜索,效果要逊于wenet中一模一样的模型,比如同样的ctc-atten hybrid Conformer,如果在训练完推理的时候只用encoder+ctc,在FunASR中的结果是不理想的。我检查过FunASR提供的ctc代码并没有发现什么异常。

ps:我问过西工大的朋友,wenet社区的人表示对他们给出的paraformer代码并没有经过测试,所以直接用他们给的模型训练效果更差,我就照着FunASR的代码搬运了一份一模一样的到wenet里,训练的配置文件中模型的参数和FunASR保持一致,训练的学习率,步数等其他的超参数和Wenet的Conformer baseline保持一致。我怀疑是学习策略导致的问题

感谢您的回复,可以加您的微信,我们一起沟通下。

有意思的是我在wenet中也训练了一样的paraformer可以达到4.9,paraformerV2能到4.8,更有意思的paraformerV2如果只用encoder+ctc贪婪搜索能到4.7。

我们使用基础的Conformer 在Aishell-1 可以做到 4.69,参数约5000w,需要自己调整学习率,warmup等参数优化。

Paraformer 我对其感兴趣核心原因在于, NAR方式输出字序列。

wenet 里面的paraformerv2模型可以放到funasr里面来用吗? 是否有onnx可以用?

wenet 里面的paraformerv2模型可以放到funasr里面来用吗? 是否有onnx可以用?

wenet 里面应该是基础的 paraformer 模型结构, v2 需要自己实现。

+1
我自己写了一个Paraformer-V2并上传在我的仓库中
https://github.com/NiniAndy/Paraformer-V2
但是我测试的结果并不能达到报告里的精度
就很奇怪,Paraformer我也没法训到报告中的精度,总是差一点

请问您这边在开源数据上测试结果如何? 比如在Aishell-1 或者 Librispeech 的精度?

我在funasr里按照官方的配置训练的aishell-1的paraformer最好也只有5.3,我手动改改学习率的warmup的步数和最大lr以后能好点,能到5.2但是也达不到报告的5.1。从modelscope下载的对应的aishell-1 16k basemodel就能到5.1。无论我用4090x4还是4090x2还是A6000x4还是A6000x2。 至于ParaformerV2也FunASR中的表现也在5.3附近徘徊。
有意思的是我在wenet中也训练了一样的paraformer可以达到4.9,paraformerV2能到4.8,更有意思的paraformerV2如果只用encoder+ctc贪婪搜索能到4.7。
我还发现了FunASR中如果只用ctc做贪婪搜索,效果要逊于wenet中一模一样的模型,比如同样的ctc-atten hybrid Conformer,如果在训练完推理的时候只用encoder+ctc,在FunASR中的结果是不理想的。我检查过FunASR提供的ctc代码并没有发现什么异常。
ps:我问过西工大的朋友,wenet社区的人表示对他们给出的paraformer代码并没有经过测试,所以直接用他们给的模型训练效果更差,我就照着FunASR的代码搬运了一份一模一样的到wenet里,训练的配置文件中模型的参数和FunASR保持一致,训练的学习率,步数等其他的超参数和Wenet的Conformer baseline保持一致。我怀疑是学习策略导致的问题

感谢您的回复,可以加您的微信,我们一起沟通下。

您的微信是多少呢

+1
我自己写了一个Paraformer-V2并上传在我的仓库中
https://github.com/NiniAndy/Paraformer-V2
但是我测试的结果并不能达到报告里的精度
就很奇怪,Paraformer我也没法训到报告中的精度,总是差一点

请问您这边在开源数据上测试结果如何? 比如在Aishell-1 或者 Librispeech 的精度?

我在funasr里按照官方的配置训练的aishell-1的paraformer最好也只有5.3,我手动改改学习率的warmup的步数和最大lr以后能好点,能到5.2但是也达不到报告的5.1。从modelscope下载的对应的aishell-1 16k basemodel就能到5.1。无论我用4090x4还是4090x2还是A6000x4还是A6000x2。 至于ParaformerV2也FunASR中的表现也在5.3附近徘徊。

有意思的是我在wenet中也训练了一样的paraformer可以达到4.9,paraformerV2能到4.8,更有意思的paraformerV2如果只用encoder+ctc贪婪搜索能到4.7。

我还发现了FunASR中如果只用ctc做贪婪搜索,效果要逊于wenet中一模一样的模型,比如同样的ctc-atten hybrid Conformer,如果在训练完推理的时候只用encoder+ctc,在FunASR中的结果是不理想的。我检查过FunASR提供的ctc代码并没有发现什么异常。

ps:我问过西工大的朋友,wenet社区的人表示对他们给出的paraformer代码并没有经过测试,所以直接用他们给的模型训练效果更差,我就照着FunASR的代码搬运了一份一模一样的到wenet里,训练的配置文件中模型的参数和FunASR保持一致,训练的学习率,步数等其他的超参数和Wenet的Conformer baseline保持一致。我怀疑是学习策略导致的问题

请问,方便share一下,【训练的学习率,步数等其他的超参数和Wenet的Conformer baseline保持一致】,这些超参数么?我来check对比一下

+1
我自己写了一个Paraformer-V2并上传在我的仓库中
https://github.com/NiniAndy/Paraformer-V2
但是我测试的结果并不能达到报告里的精度
就很奇怪,Paraformer我也没法训到报告中的精度,总是差一点

请问您这边在开源数据上测试结果如何? 比如在Aishell-1 或者 Librispeech 的精度?

我在funasr里按照官方的配置训练的aishell-1的paraformer最好也只有5.3,我手动改改学习率的warmup的步数和最大lr以后能好点,能到5.2但是也达不到报告的5.1。从modelscope下载的对应的aishell-1 16k basemodel就能到5.1。无论我用4090x4还是4090x2还是A6000x4还是A6000x2。 至于ParaformerV2也FunASR中的表现也在5.3附近徘徊。
有意思的是我在wenet中也训练了一样的paraformer可以达到4.9,paraformerV2能到4.8,更有意思的paraformerV2如果只用encoder+ctc贪婪搜索能到4.7。
我还发现了FunASR中如果只用ctc做贪婪搜索,效果要逊于wenet中一模一样的模型,比如同样的ctc-atten hybrid Conformer,如果在训练完推理的时候只用encoder+ctc,在FunASR中的结果是不理想的。我检查过FunASR提供的ctc代码并没有发现什么异常。
ps:我问过西工大的朋友,wenet社区的人表示对他们给出的paraformer代码并没有经过测试,所以直接用他们给的模型训练效果更差,我就照着FunASR的代码搬运了一份一模一样的到wenet里,训练的配置文件中模型的参数和FunASR保持一致,训练的学习率,步数等其他的超参数和Wenet的Conformer baseline保持一致。我怀疑是学习策略导致的问题

请问,方便share一下,【训练的学习率,步数等其他的超参数和Wenet的Conformer baseline保持一致】,这些超参数么?我来check对比一下

funasr_paraformer_conf.json
funasr_paraformerV2_conf.json
wenet_paraformer_conf.json
wenet_paraformerV2_conf.json
都是默认的配置

+1
我自己写了一个Paraformer-V2并上传在我的仓库中
https://github.com/NiniAndy/Paraformer-V2
但是我测试的结果并不能达到报告里的精度
就很奇怪,Paraformer我也没法训到报告中的精度,总是差一点

请问您这边在开源数据上测试结果如何? 比如在Aishell-1 或者 Librispeech 的精度?

我在funasr里按照官方的配置训练的aishell-1的paraformer最好也只有5.3,我手动改改学习率的warmup的步数和最大lr以后能好点,能到5.2但是也达不到报告的5.1。从modelscope下载的对应的aishell-1 16k basemodel就能到5.1。无论我用4090x4还是4090x2还是A6000x4还是A6000x2。 至于ParaformerV2也FunASR中的表现也在5.3附近徘徊。
有意思的是我在wenet中也训练了一样的paraformer可以达到4.9,paraformerV2能到4.8,更有意思的paraformerV2如果只用encoder+ctc贪婪搜索能到4.7。
我还发现了FunASR中如果只用ctc做贪婪搜索,效果要逊于wenet中一模一样的模型,比如同样的ctc-atten hybrid Conformer,如果在训练完推理的时候只用encoder+ctc,在FunASR中的结果是不理想的。我检查过FunASR提供的ctc代码并没有发现什么异常。
ps:我问过西工大的朋友,wenet社区的人表示对他们给出的paraformer代码并没有经过测试,所以直接用他们给的模型训练效果更差,我就照着FunASR的代码搬运了一份一模一样的到wenet里,训练的配置文件中模型的参数和FunASR保持一致,训练的学习率,步数等其他的超参数和Wenet的Conformer baseline保持一致。我怀疑是学习策略导致的问题

请问,方便share一下,【训练的学习率,步数等其他的超参数和Wenet的Conformer baseline保持一致】,这些超参数么?我来check对比一下

funasr_paraformer_conf.json funasr_paraformerV2_conf.json wenet_paraformer_conf.json wenet_paraformerV2_conf.json 都是默认的配置

魔搭上模型是老版本funasr训练的,多了一个配置:normalize: UtteranceMVN
不过,funasr1.0,我之前测试移除normalize,也可以到5.1

+1
我自己写了一个Paraformer-V2并上传在我的仓库中
https://github.com/NiniAndy/Paraformer-V2
但是我测试的结果并不能达到报告里的精度
就很奇怪,Paraformer我也没法训到报告中的精度,总是差一点

请问您这边在开源数据上测试结果如何? 比如在Aishell-1 或者 Librispeech 的精度?

我在funasr里按照官方的配置训练的aishell-1的paraformer最好也只有5.3,我手动改改学习率的warmup的步数和最大lr以后能好点,能到5.2但是也达不到报告的5.1。从modelscope下载的对应的aishell-1 16k basemodel就能到5.1。无论我用4090x4还是4090x2还是A6000x4还是A6000x2。 至于ParaformerV2也FunASR中的表现也在5.3附近徘徊。
有意思的是我在wenet中也训练了一样的paraformer可以达到4.9,paraformerV2能到4.8,更有意思的paraformerV2如果只用encoder+ctc贪婪搜索能到4.7。
我还发现了FunASR中如果只用ctc做贪婪搜索,效果要逊于wenet中一模一样的模型,比如同样的ctc-atten hybrid Conformer,如果在训练完推理的时候只用encoder+ctc,在FunASR中的结果是不理想的。我检查过FunASR提供的ctc代码并没有发现什么异常。
ps:我问过西工大的朋友,wenet社区的人表示对他们给出的paraformer代码并没有经过测试,所以直接用他们给的模型训练效果更差,我就照着FunASR的代码搬运了一份一模一样的到wenet里,训练的配置文件中模型的参数和FunASR保持一致,训练的学习率,步数等其他的超参数和Wenet的Conformer baseline保持一致。我怀疑是学习策略导致的问题

请问,方便share一下,【训练的学习率,步数等其他的超参数和Wenet的Conformer baseline保持一致】,这些超参数么?我来check对比一下

funasr_paraformer_conf.json funasr_paraformerV2_conf.json wenet_paraformer_conf.json wenet_paraformerV2_conf.json 都是默认的配置

魔搭上模型是老版本funasr训练的,多了一个配置:normalize: UtteranceMVN 不过,funasr1.0,我之前测试移除normalize,也可以到5.1

我说的魔搭模型是https://www.modelscope.cn/models/iic/speech_paraformer_asr_nat-aishell1-pytorch
如你所言,这个norm感觉影响不是很大。
我用默认的配置在FunASR框架里paraformer是跑不到5.1的,conformer也是只有5.29,真的怪,我已经反复检查过conf和Github保持一致,这个问题已经困扰我很久了。
我在钉钉中也问过你,当时你让我用2卡跑,但是看上去改善并不是很大。

+1
我自己写了一个Paraformer-V2并上传在我的仓库中
https://github.com/NiniAndy/Paraformer-V2
但是我测试的结果并不能达到报告里的精度
就很奇怪,Paraformer我也没法训到报告中的精度,总是差一点

请问您这边在开源数据上测试结果如何? 比如在Aishell-1 或者 Librispeech 的精度?

我在funasr里按照官方的配置训练的aishell-1的paraformer最好也只有5.3,我手动改改学习率的warmup的步数和最大lr以后能好点,能到5.2但是也达不到报告的5.1。从modelscope下载的对应的aishell-1 16k basemodel就能到5.1。无论我用4090x4还是4090x2还是A6000x4还是A6000x2。 至于ParaformerV2也FunASR中的表现也在5.3附近徘徊。
有意思的是我在wenet中也训练了一样的paraformer可以达到4.9,paraformerV2能到4.8,更有意思的paraformerV2如果只用encoder+ctc贪婪搜索能到4.7。
我还发现了FunASR中如果只用ctc做贪婪搜索,效果要逊于wenet中一模一样的模型,比如同样的ctc-atten hybrid Conformer,如果在训练完推理的时候只用encoder+ctc,在FunASR中的结果是不理想的。我检查过FunASR提供的ctc代码并没有发现什么异常。
ps:我问过西工大的朋友,wenet社区的人表示对他们给出的paraformer代码并没有经过测试,所以直接用他们给的模型训练效果更差,我就照着FunASR的代码搬运了一份一模一样的到wenet里,训练的配置文件中模型的参数和FunASR保持一致,训练的学习率,步数等其他的超参数和Wenet的Conformer baseline保持一致。我怀疑是学习策略导致的问题

请问,方便share一下,【训练的学习率,步数等其他的超参数和Wenet的Conformer baseline保持一致】,这些超参数么?我来check对比一下

funasr_paraformer_conf.json funasr_paraformerV2_conf.json wenet_paraformer_conf.json wenet_paraformerV2_conf.json 都是默认的配置

魔搭上模型是老版本funasr训练的,多了一个配置:normalize: UtteranceMVN 不过,funasr1.0,我之前测试移除normalize,也可以到5.1

我说的魔搭模型是https://www.modelscope.cn/models/iic/speech_paraformer_asr_nat-aishell1-pytorch 如你所言,这个norm感觉影响不是很大。 我用默认的配置在FunASR框架里paraformer是跑不到5.1的,conformer也是只有5.29,真的怪,我已经反复检查过conf和Github保持一致,这个问题已经困扰我很久了。 我在钉钉中也问过你,当时你让我用2卡跑,但是看上去改善并不是很大。

最近在忙着新模型开源,有点忙,可以等一等

paramformerv2吗? @LauraGPT

paraformer v2 不知道咋解码,用 ctc greedy search 作为align 结果解码效果很差(训练和推理不一致),这个方案感觉有严重的漏洞

不是没开源吗