THUDM/KBRD

Generate Response 报错

Lingzhi-WANG opened this issue · 4 comments

Hi, 我在运行
python scripts/display_model.py -t redial -mf saved/transformer_rec_both_rgcn_0 -dt test
时,报错如下:
RuntimeError: Need to set model argument to use create_agent.
尝试了python scripts/display_model.py -t redial -mf saved/transformer_rec_both_rgcn_0 -dt test -m transformer_rec
又报了别的错误

这个问题是您代码更新后造成的问题吗?还是我的问题?我看其他issue下有人运行成功过。
如果您可以将你们的完整response生成结果(response+recommended movie)分享,那是最好不过的了。

希望可以得到您的回复~

Hi @Lingzhi-WANG ,

  1. 请先确保您已经训练了模型,并且 ./saved/transformer_rec_both_rgcn_0 存有训练好的模型的 checkpoint;
  2. 为了保证代码import的是此repo根目录里经过修改的parlai,请卸载用pip安装的parlai.

Best,

感谢你的回复!
我没有pip 安装parlai,所以应该不存在您提到的第二个问题。

我已经训练了模型,我分别运行了
bash scripts/both.sh 2 0
bash scripts/baseline.sh 2 0
bash scripts/both.sh 2 0
bash scripts/baseline.sh 2 0
python scripts/score.py --name-1 saved/release_baseline --name-2 saved/both_rgcn --num 2 --metric recall@50
到这里为止,都正常运行
然后运行 python scripts/display_model.py -t redial -mf saved/transformer_rec_both_rgcn_0 -dt test
出错,

saved 下有文件:
transformer_rec_both_rgcn_0.dict
transformer_rec_both_rgcn_0.dict.opt
transformer_rec_both_rgcn_1.dict
transformer_rec_both_rgcn_1.dict.opt
...

saved/tensorboard 下有文件:
May11_07-41task-redial__model-autorec__batchsize-64__hiddensize-128__learningrate-0.001__model_file-saved
May11_07-57task-redial__model-kbrd__batchsize-256__dim-128__learningrate-0.003__model_file-saved
May11_07-58task-redial__model-kbrd__batchsize-256__dim-128__learningrate-0.003__model_file-saved
May11_08-01task-redial__model-kbrd__batchsize-256__dim-128__learningrate-0.003__model_file-saved
May11_10-32task-redial__model-kbrd__batchsize-256__dim-128__learningrate-0.003__model_file-saved
May11_13-19task-redial__model-kbrd__batchsize-256__dim-128__learningrate-0.003__model_file-saved
May11_16-18task-redial__model-autorec__batchsize-64__hiddensize-128__learningrate-0.001__model_file-saved
May12_01-29task-redial__model-autorec__batchsize-64__hiddensize-128__learningrate-0.001__model_file-saved
May12_01-50task-redial__model-autorec__batchsize-64__hiddensize-128__learningrate-0.001__model_file-saved
May11_13-43task-redial__model-kbrd__batchsize-256__dim-128__learningrate-0.003__model_file-saved

这里有什么地方有问题的吗?

希望能得到您的回复!

Hi @Lingzhi-WANG

感谢迅速的 followup:

saved 下有文件:

transformer_rec_both_rgcn_0.dict
transformer_rec_both_rgcn_0.dict.opt
transformer_rec_both_rgcn_1.dict
transformer_rec_both_rgcn_1.dict.opt

这里没有看到保存的model checkpoint,transformer_rec_both_rgcn_0.dict.opt 保存的这个run的超参信息,transformer_rec_both_rgcn_0.dict保存的应该是vocabulary。正常运行的模型应该会有如下文件:

transformer_rec_both_rgcn_0
transformer_rec_both_rgcn_0.dict
transformer_rec_both_rgcn_0.dict.opt
transformer_rec_both_rgcn_0.opt
transformer_rec_both_rgcn_0.test
transformer_rec_both_rgcn_0.trainstats
transformer_rec_both_rgcn_0.valid

其中 transformer_rec_both_rgcn_0 是 model checkpoint(没有后缀名),可以通过检查文件大小简单判断(其余文件都只有几KB,model checkpoint 有几百MB)。请您检查训练过程是否正常结束

Best,

Hi, 之前报错的问题已经解决了!非常感谢!