CVAE for Image Caption

本文件是基于CVAE的Image Caption任务的项目。

1.Data

此Project基于Mscoco数据集进行，其中coco_dataset：coco caption原始数据，我们采用Andrej Karpathy的数据切分方法。位于39服务器/home/liuhui/vae_caption/目录下。 data：使用rnn_attn/create_input_files.py生成的数据，包含resize了的图片和caption

2.Code

本文件包含不同的对照试验，其中包含基于RNN的image caption模型，基于RNN的CVAE模型，基于Transformer的CVAE模型以及对CVAE模型中间隐变量进行重构的实验。本项目参考sgrvinod/a-PyTorch-Tutorial-to-Image-Captioning。

其中包含的文件夹说明如下：

rnn_attn：使用LSTM + Image attention生成caption，并对attention权重进行可视化。

rnn_cvae：使用LSTM+CVAE对Image Caption进行生成的Model，其中包含CNN Fine-tune的部分。

T_cvae：使用Transformer + Image attention生成caption。使用beam search, 其中beam-width = 10.

rnn_cvae_z和T_cvae_z：对rnn+cvae和Transformer+cvae的隐变量进行重构和MSE loss的实验代码。

PKULiuHui/vae_caption

CVAE for Image Caption

1.Data

2.Code