2021 AIAC 赛道一-两面包夹芝士方案决赛第17名

模型分预训练和微调两个阶段，其中预训练是使用pointwise作为训练数据，任务为tag多分类；微调阶段使用pairwise作为训练集，任务为视频对相似度回归任务

将bert和视频transformers进行冻结；
使用全连接层将文本和视频embeddings映射到256；
使用se-gate进行融合获得视频embedding；
将pairwise的视频对embeddings取出计算余弦相似度并和label做mse loss；
对没有出现在label.tsv文件中的视频对做了一个半监督loss。具体地，我们将每个batch中的视频进行两两配对，如果该视频对在label中出现，则是取label做mse loss；如果视频对没有在label中出现，则将0、0.5、1作为它们标签，并计算loss，最后取三者中最小的loss进行梯度回传。
优化器：BertAdam lr: 3e-4

文本使用bert，并取最后一层的32*768的embedding；
将视频原始32*1536的embedding降维到32*768embedding，并和上面获得的text embedding拼接成64*768的embedding；
将64*768的embedding输入到6层的cross modality transformers中；
使用Binary focal loss对该网络进行tag多分类预训练；
优化器：BertAdam lr: 5e-5

chenjiashuo123/AIAC-2021-Task1-Rank17