关于增强后的语音问题

Question

关于增强后的语音问题

lymiou opened this issue 4 years ago · 15 comments

您好，我想问下为什么增强后的语音发出来的只有吱吱吱的声音呢？
下面是它对应的语谱图，请问下是出了什么问题呢？期待您的解答，谢谢！

Answer 1 · 2020-05-16T04:43:43.000Z

0dB的时候首先任务比较难，确实有吱吱的声音，主要是模型不够强大，带来的非线性失真

On Fri, 15 May 2020 at 19:37, lymiou ***@***.***> wrote: 您好，我想问下为什么增强后的语音发出来的只有吱吱吱的声音呢？下面是它对应的语谱图，请问下是出了什么问题呢？期待您的解答，谢谢！ [image: image] <https://user-images.githubusercontent.com/46339102/82108425-e69e2580-9760-11ea-9ed4-871079d63e87.png> — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub <#57>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/ABJGHUXL7VRVOZSQ3G2OFRLRRX35HANCNFSM4NCWY3CQ> .

Answer 2 · 2020-05-16T06:02:47.000Z

0dB的时候首先任务比较难，确实有吱吱的声音，主要是模型不够强大，带来的非线性失真
…
On Fri, 15 May 2020 at 19:37, lymiou @.***> wrote: 您好，我想问下为什么增强后的语音发出来的只有吱吱吱的声音呢？下面是它对应的语谱图，请问下是出了什么问题呢？期待您的解答，谢谢！ [image: image] https://user-images.githubusercontent.com/46339102/82108425-e69e2580-9760-11ea-9ed4-871079d63e87.png — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub <#57>, or unsubscribe https://github.com/notifications/unsubscribe-auth/ABJGHUXL7VRVOZSQ3G2OFRLRRX35HANCNFSM4NCWY3CQ .

谢谢您的解答，还有一点想麻烦您解答一下，项目里的特征提取采用的是什么方法呢？好像不是MFCC，再次感谢您！

Answer 3 · 2020-05-17T01:52:02.000Z

您好，分离的结果是对的，是否使用了全部数据训练？、

…

On Sat, 16 May 2020 at 10:37, lymiou ***@***.***> wrote: 您好，我想问下为什么增强后的语音发出来的只有吱吱吱的声音呢？下面是它对应的语谱图，请问下是出了什么问题呢？期待您的解答，谢谢！ [image: image] <https://user-images.githubusercontent.com/46339102/82108425-e69e2580-9760-11ea-9ed4-871079d63e87.png> — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub <#57>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/ADFXTSMCYXPOHXIGFN3PMQDRRX35HANCNFSM4NCWY3CQ> .

Answer 4 · 2020-05-17T01:56:11.000Z

您好，分离的结果是对的，是否使用了全部数据训练？、
…
On Sat, 16 May 2020 at 10:37, lymiou @.***> wrote: 您好，我想问下为什么增强后的语音发出来的只有吱吱吱的声音呢？下面是它对应的语谱图，请问下是出了什么问题呢？期待您的解答，谢谢！ [image: image] https://user-images.githubusercontent.com/46339102/82108425-e69e2580-9760-11ea-9ed4-871079d63e87.png — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub <#57>, or unsubscribe https://github.com/notifications/unsubscribe-auth/ADFXTSMCYXPOHXIGFN3PMQDRRX35HANCNFSM4NCWY3CQ .

您好，是的，使用了mini_data文件夹下的数据，另外train_speech中还另加了一些语音数据

Answer 5 · 2020-05-17T07:49:33.000Z

数据太少了，需要使用全部timit数据训练

…

On Sun, 17 May 2020 at 09:56, lymioumm ***@***.***> wrote: 您好，分离的结果是对的，是否使用了全部数据训练？、 … <#m_-3999892883733078355_> On Sat, 16 May 2020 at 10:37, lymiou *@*.***> wrote: 您好，我想问下为什么增强后的语音发出来的只有吱吱吱的声音呢？下面是它对应的语谱图，请问下是出了什么问题呢？期待您的解答，谢谢！ [image: image] https://user-images.githubusercontent.com/46339102/82108425-e69e2580-9760-11ea-9ed4-871079d63e87.png — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub <#57 <#57>>, or unsubscribe https://github.com/notifications/unsubscribe-auth/ADFXTSMCYXPOHXIGFN3PMQDRRX35HANCNFSM4NCWY3CQ . 您好，是的，使用了mini_data文件夹下的数据，另外train_speech中还另加了一些语音数据 — You are receiving this because you commented. Reply to this email directly, view it on GitHub <#57 (comment)>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/ADFXTSO5K22PTO3HI6A355LRR474NANCNFSM4NCWY3CQ> .

Answer 6 · 2020-05-17T07:51:26.000Z

数据太少了，需要使用全部timit数据训练
…
On Sun, 17 May 2020 at 09:56, lymioumm @.> wrote: 您好，分离的结果是对的，是否使用了全部数据训练？、 … <#m_-3999892883733078355_> On Sat, 16 May 2020 at 10:37, lymiou @.> wrote: 您好，我想问下为什么增强后的语音发出来的只有吱吱吱的声音呢？下面是它对应的语谱图，请问下是出了什么问题呢？期待您的解答，谢谢！ [image: image] https://user-images.githubusercontent.com/46339102/82108425-e69e2580-9760-11ea-9ed4-871079d63e87.png — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub <#57 <#57>>, or unsubscribe https://github.com/notifications/unsubscribe-auth/ADFXTSMCYXPOHXIGFN3PMQDRRX35HANCNFSM4NCWY3CQ . 您好，是的，使用了mini_data文件夹下的数据，另外train_speech中还另加了一些语音数据 — You are receiving this because you commented. Reply to this email directly, view it on GitHub <#57 (comment)>, or unsubscribe https://github.com/notifications/unsubscribe-auth/ADFXTSO5K22PTO3HI6A355LRR474NANCNFSM4NCWY3CQ .

好的，明白了，谢谢您！

Answer 7 · 2020-06-21T15:12:19.000Z

您好，看到你跑出了增强后的结果，想请问您是用的python3吗？
有遇到spectrogram_to_wav.py这个文件里real_to_complex这个函数报错吗？
报错是显示相乘的两项维度不一致，具体可以看我提出的issue#58，谢谢您！

Answer 8 · 2020-06-22T01:52:23.000Z

您好！请检查下spectrogram的维度

…

On Sun, 21 Jun 2020 at 23:12, QianYing1996 ***@***.***> wrote: 您好，看到你跑出了增强后的结果，想请问您是用的python3吗？有遇到spectrogram_to_wav.py这个文件里real_to_complex这个函数报错吗？报错是显示相乘的两项维度不一致，具体可以看我提出的issue#58，谢谢您！ — You are receiving this because you commented. Reply to this email directly, view it on GitHub <#57 (comment)>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/ADFXTSNQHEF7RZ6SZPLZVYLRXYPN7ANCNFSM4NCWY3CQ> .

Answer 9 · 2020-06-22T02:18:31.000Z

您好，谢谢您的回复，请问可以具体说下怎么看spectrogram的维度是否正确吗？是对训练语料有什么要求吗？
我是用mini_data跑的，没有修改源码，就遇到了这个问题。
我是刚入门语音的小白，麻烦您指点一下，谢谢！

Answer 10 · 2020-06-22T04:44:46.000Z

试着print(spectrogram.shape)

…

On Mon, 22 Jun 2020 at 10:18, QianYing1996 ***@***.***> wrote: 您好，谢谢您的回复，请问可以具体说下怎么看spectrogram的维度是否正确吗？是对训练语料有什么要求吗？我是用mini_data跑的，没有修改源码，就遇到了这个问题。我是刚入门语音的小白，麻烦您指点一下，谢谢！ — You are receiving this because you commented. Reply to this email directly, view it on GitHub <#57 (comment)>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/ADFXTSPZPIZIAHWYUPCWZCTRX25QHANCNFSM4NCWY3CQ> .

Answer 11 · 2021-04-24T05:05:12.000Z

您好，我想问下为什么增强后的语音发出来的只有吱吱吱的声音呢？
下面是它对应的语谱图，请问下是出了什么问题呢？期待您的解答，谢谢！

Answer 12 · 2021-04-24T05:09:17.000Z

您好，我是刚接触语音增强的小白，本来是打算用这份代码学习的，结果运行了好几次minidata里的数据，代码是原封不动运行的，环境也是按照要求去配置的，，，但增强后的结果除了吱吱吱吱吱吱吱吱吱吱吱，基本的混合语音都听不到了，只有吱吱吱的声音，我快疯了，，这个怎么回事，您最终怎么解决这个问题的，，万分感谢，我快被搞疯了。

Answer 13 · 2021-04-24T05:19:51.000Z

你把增强的wav和mix wav发给我听听，用mini data 训练数据是不够的，需要更大的训练数据来训练，才有比较好的结果。另外你可以试下SNR高的例子增强看看效果，验证代码是否正确

…

On Fri, 23 Apr 2021 at 22:09, smylab ***@***.***> wrote: 您好，我是刚接触语音增强的小白，本来是打算用这份代码学习的，结果运行了好几次minidata里的数据，代码是原封不动运行的，环境也是按照要求去配置的，，，但增强后的结果除了吱吱吱吱吱吱吱吱吱吱吱，基本的混合语音都听不到了，只有吱吱吱的声音，我快疯了，，这个怎么回事，您最终怎么解决这个问题的，，万分感谢，我快被搞疯了。 — You are receiving this because you commented. Reply to this email directly, view it on GitHub <#57 (comment)>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/ABJGHUSIN6A2F6W3K3SABN3TKJHAVANCNFSM4NCWY3CQ> .

Answer 14 · 2021-04-24T07:13:56.000Z

你把增强的wav和mix wav发给我听听，用mini data 训练数据是不够的，需要更大的训练数据来训练，才有比较好的结果。另外你可以试下SNR高的例子增强看看效果，验证代码是否正确
…
On Fri, 23 Apr 2021 at 22:09, smylab @.***> wrote: 您好，我是刚接触语音增强的小白，本来是打算用这份代码学习的，结果运行了好几次minidata里的数据，代码是原封不动运行的，环境也是按照要求去配置的，，，但增强后的结果除了吱吱吱吱吱吱吱吱吱吱吱，基本的混合语音都听不到了，只有吱吱吱的声音，我快疯了，，这个怎么回事，您最终怎么解决这个问题的，，万分感谢，我快被搞疯了。 — You are receiving this because you commented. Reply to this email directly, view it on GitHub <#57 (comment)>, or unsubscribe https://github.com/notifications/unsubscribe-auth/ABJGHUSIN6A2F6W3K3SABN3TKJHAVANCNFSM4NCWY3CQ .

感谢您的回复，谢谢。这是0db和5db的minidata测试结果，按道理说如果因为数据集小，没充分的训练模型，增强后的结果最起码不会比原始的混合语音差才对啊。感谢您给出的建议，这个问题困惑了我好几天，我马上用大数据集再训练测试一下。

sednn_minidata_test.zip

Answer 15 · 2021-04-24T09:31:46.000Z

您好，我想问下为什么增强后的语音发出来的只有吱吱吱的声音呢？
下面是它对应的语谱图，请问下是出了什么问题呢？期待您的解答，谢谢！

你把增强的wav和mix wav发给我听听，用mini data 训练数据是不够的，需要更大的训练数据来训练，才有比较好的结果。另外你可以试下SNR高的例子增强看看效果，验证代码是否正确
…
On Fri, 23 Apr 2021 at 22:09, smylab @.***> wrote: 您好，我是刚接触语音增强的小白，本来是打算用这份代码学习的，结果运行了好几次minidata里的数据，代码是原封不动运行的，环境也是按照要求去配置的，，，但增强后的结果除了吱吱吱吱吱吱吱吱吱吱吱，基本的混合语音都听不到了，只有吱吱吱的声音，我快疯了，，这个怎么回事，您最终怎么解决这个问题的，，万分感谢，我快被搞疯了。 — You are receiving this because you commented. Reply to this email directly, view it on GitHub <#57 (comment)>, or unsubscribe https://github.com/notifications/unsubscribe-auth/ABJGHUSIN6A2F6W3K3SABN3TKJHAVANCNFSM4NCWY3CQ .

感动哭，感谢作者对我们初学者的一一回复，大数据集训练就没有吱吱吱吱吱的声音了，增强效果很好，之前一直找不到问题所在，感谢。