nomadkaraoke/python-audio-separator

哪个模型提取音乐中的人声效果最好?

Closed this issue · 10 comments

哪个模型提取音乐中的人声效果最好?

我觉得是 htdemucs_6s

kim_vocal 我没有试过,我提取人声是用的 htdemucs_6s,去混响是 5_HP-Karaoke-UVR,我本来降噪打算用UVR-DeNoise和去混响用UVR-DeEcho-DeReverb,但是这两个没有给到我想要的效果,也可能是因为我测试的太少了,你根据你情况选择模型多测一测,也可以测试不同参数

我觉得是 htdemucs_6s

htdemucs_6s,为什么我在使用 -m htdemucs_6s 找不到这个模型呢

我觉得是 htdemucs_6s

htdemucs_6s,为什么我在使用 -m htdemucs_6s 找不到这个模型呢

-m htdemucs_6s.yaml

混响

ok

我觉得是 htdemucs_6s

htdemucs_6s,为什么我在使用 -m htdemucs_6s 找不到这个模型呢

-m htdemucs_6s.yaml

好的,多谢,正在研究这块,对于音乐来说,什么时候需要去混响,一般只需要用提取出人声即可吗,比如就掉一个-m htdemucs_6s.yaml ,需要再对vocal,调用去混响吗?

混响

ok

我觉得是 htdemucs_6s

htdemucs_6s,为什么我在使用 -m htdemucs_6s 找不到这个模型呢

-m htdemucs_6s.yaml

好的,多谢,正在研究这块,对于音乐来说,什么时候需要去混响,一般只需要用提取出人声即可吗,比如就掉一个-m htdemucs_6s.yaml ,需要再对vocal,调用去混响吗?

我现在研究的不是音乐方面的,我是在搞视频的,我的流程是先人声分离,然后将分离好的Vocal去除混响。
主要是看你提取出来的效果的怎么样,如果分离出来的Vocal效果不如意(有杂音,混响重),就可以再去去混响和降噪的步骤

混响

ok

我觉得是 htdemucs_6s

htdemucs_6s,为什么我在使用 -m htdemucs_6s 找不到这个模型呢

-m htdemucs_6s.yaml

好的,多谢,正在研究这块,对于音乐来说,什么时候需要去混响,一般只需要用提取出人声即可吗,比如就掉一个-m htdemucs_6s.yaml ,需要再对vocal,调用去混响吗?

我现在研究的不是音乐方面的,我是在搞视频的,我的流程是先人声分离,然后将分离好的Vocal去除混响。 主要是看你提取出来的效果的怎么样,如果分离出来的Vocal效果不如意(有杂音,混响重),就可以再去去混响和降噪的步骤

明白了,我这边也有视频的,也是先人声分离,我之前用过music_source_spearator、 现在在尝试用UVR5 这个cli, 降噪或者VAD 静音检查有合适的模型推荐吗这里面

混响

ok

我觉得是 htdemucs_6s

htdemucs_6s,为什么我在使用 -m htdemucs_6s 找不到这个模型呢

-m htdemucs_6s.yaml

好的,多谢,正在研究这块,对于音乐来说,什么时候需要去混响,一般只需要用提取出人声即可吗,比如就掉一个-m htdemucs_6s.yaml ,需要再对vocal,调用去混响吗?

我现在研究的不是音乐方面的,我是在搞视频的,我的流程是先人声分离,然后将分离好的Vocal去除混响。 主要是看你提取出来的效果的怎么样,如果分离出来的Vocal效果不如意(有杂音,混响重),就可以再去去混响和降噪的步骤

明白了,我这边也有视频的,也是先人声分离,我之前用过music_source_spearator、 现在在尝试用UVR5 这个cli, 降噪或者VAD 静音检查有合适的模型推荐吗这里面

降噪可以试一试UVR-DeNoise模型,VAD 静音检查我没涉及过就不知道了

Chinese (simplified):

你好!请接受我对以下翻译消息的歉意 - 谷歌翻译并不完美😄

因此,“最佳”很难客观地定义,因为每个人对听起来更好的声音的偏好略有不同,并且不同的音频输入文件来自不同的来源,并且某些型号在特定输入下效果更好。

我之前在这里发了一条讨论评论,其中提到了一些我建议尝试的模型:
#82 (comment)

如果我试图尽可能清晰地分离人声,我个人可能会选择以下模型之一:

  • MDX23C-8KFFT-InstVoc_HQ_2.ckpt
  • model_mel_band_roformer_ep_3005_sdr_11.4360.ckpt

但最终,我鼓励您尝试 4-5 种不同的模型(理想情况下,至少从 audio-separator 目前支持的 5 种不同架构中各选择一个,因为不同的架构有不同的优势/劣势)。

然后,选择产生最适合您效果的那个 - 甚至可以在 Audacity 等音频编辑器中亲自检查生成的音频文件的波形和频谱图。

祝你好运!😄


English:

Hello! Please accept my apologies for the translated message below - google translate isn't perfect 😄

So, "best" is quite hard to define objectively as everyone has slightly different preferences for what sounds better to them, and different audio input files which come from different sources and some models work better with specific inputs.

I posted a discussion comment here a while back which mentions a few models I recommend trying:
#82 (comment)

If I was trying to separate vocals as cleanly as possible, personally I probably one of these models:

  • MDX23C-8KFFT-InstVoc_HQ_2.ckpt
  • model_mel_band_roformer_ep_3005_sdr_11.4360.ckpt

But ultimately, I would encourage you to try 4-5 different models (ideally at least one from each of the 5 different architectures currently supported by audio-separator, as different architectures have different strengths/weaknesses).

Then, choose the one which produces the results which sound best to you - maybe even inspect the waveforms and spectrograms yourself for the resulting audio files in an audio editor like Audacity.

Good luck! 😄