数据对齐与不对齐的影响

Question

数据对齐与不对齐的影响

zzyh3434 opened this issue 4 months ago · 4 comments

您好，请问数据对齐与不对齐对模型的影响是什么呢？因为看到您给出的result中不同模型用到的数据有对齐和不对齐，不知道这样不同的数据格式对模型对比是否有影响呢？

Answer 1 · 2024-03-03T13:31:44.000Z

数据对齐是指在ASR获取文本信息之后，获得每个文本token对应的时间范围，将每个时间段中音频、视频模态视为一个整体计算特征的平均值，以获得与文本token长度一致，时间对应的特征序列。在提供的MMSA框架中，提供了几种通过模型、启发式“对齐”的方法，这些方法的作用是将音视频模态序列长度与文本模态统一，进而支持通过concat的早期融合方法。

对齐与非对齐方法对性能可能的影响在于：

（主要）音视频的序列长度，对齐后的特征长度较短，（或许）更有利于特征表示学些，及高效训练。
提供的模态特征粒度；（对应于每个文本 token）或（对应于固定时间间隔，例如20ms）。这种影响，我个人感觉于当前文本模态占主导地位有关联。

目前普遍的结果是：对于小模型（非端到端）而言，对齐数据、使用模型、启发式对齐后的数据输入模型训练能得到更好的模型性能。当然对于现在的趋势大模型（使用预训练模态特征抽取工具的端到端模型）而言，还是使用原始数据比较直接，也不会造成累计误差。

Answer 2 · 2024-03-04T15:23:25.000Z

非常感谢您的回答！

Answer 3 · 2024-03-18T09:18:39.000Z

提问的很好，谢谢楼主

Answer 4 · 2024-03-20T06:24:37.000Z

对于config配置中：'seq_lens': [50, 500, 375], 'feature_dims': [768, 74, 35],如果对齐体现在config中就是seq_lens保持一致吗？