关于论文中音乐tokenize和音乐生成示例的问题

Question

关于论文中音乐tokenize和音乐生成示例的问题

Closed this issue 3 months ago · 1 comments

您好，非常喜欢这篇一统模态的工作！有两个小问题希望能够解答：

首先论文中提到resulting in a combined music vocabulary size of 8192. We encode 5 seconds music into 250 latent frames, ultimately generating a 250 × 4 codes matrix. ，这和表格1中关于Music的参数似乎并不一致？

此外，在论文中提到针对音乐的部分使用包括歌词在内的元数据，但是在实例中没有展示带有歌词的音频，这是出于什么原因？（顺便示例中的音乐和久美子反差太大了哈哈😂）

Answer 1 · 2024-05-22T01:48:44.000Z

hi你好

表格1里写错了，应该是8192，感谢纠正
我们的尝试中，用带人声的音乐数据训练，也可以生成非人声的音乐，但是目前的做法在生成歌声上效果不好