关于论文中音乐tokenize和音乐生成示例的问题
Closed this issue · 1 comments
Ash-one commented
您好,非常喜欢这篇一统模态的工作!有两个小问题希望能够解答:
首先论文中提到resulting in a combined music vocabulary size of 8192. We encode 5 seconds music into 250 latent frames, ultimately generating a 250 × 4 codes matrix.
,这和表格1中关于Music的参数似乎并不一致?
此外,在论文中提到针对音乐的部分使用包括歌词在内的元数据,但是在实例中没有展示带有歌词的音频,这是出于什么原因?(顺便示例中的音乐和久美子反差太大了哈哈😂)
JunZhan2000 commented
hi你好
- 表格1里写错了,应该是8192,感谢纠正
- 我们的尝试中,用带人声的音乐数据训练,也可以生成非人声的音乐,但是目前的做法在生成歌声上效果不好