weiyuk/fluent-cap

关于中文数据集的疑问

bigbrother001 opened this issue · 1 comments

作者你好,我从你的项目中下载了flickr8k-cn数据集,但是论文《Adding Chinese Captions to Images》中提到flickr8k-cn数据集中的中文Caption应该有的是机器翻译的,有的是人工翻译的,有的是人撰写的。请问从download_cn_data.sh中下载的中文Caption是哪一种情况?

你好,通过download_cn_data.sh下载的数据集中包含了机器翻译和人工翻译的数据,train/val集合是机器翻译的句子,test集合是人工翻译的句子。