thuiar/MMSA

关于bert预训练模型本地应该下载的位置

Opened this issue · 3 comments

您好 感谢清华大学团队对MMSA框架的开源工作!在此想请问一下如果我在不python不安装mmsa pypi的条件下 关于bert预训练模型下载之后所应该存放的路径 之前单独跑通过self_mm的代码 不过好像mmsa框架里的整体代码架构和self_mm不太相同 所以想请问应该下载那几个文件 并且存放路径在哪里呢

夹在预训练模型(Bert)的代码对应于

self.tokenizer = tokenizer_class.from_pretrained(pretrained)

如果服务器能连外网的话,直接运行代码(会自动下载相关文件);如果不能这里要改成存放自己手动下载的预训练模型文件夹的路径;https://huggingface.co/google-bert/bert-base-uncased/tree/main 下载 pytorch_model.bin 和 config.json 放进文件夹即可

感谢您的回答 请问是将(pretrained)中的pretrained改成自己的bert的bin和json所在文件夹的绝对路径吗 另外如果想要跑中文数据集的话又该如何处理呢 是将json文件改成中文版的吗

感谢您的回答 请问是将(pretrained)中的pretrained改成自己的bert的bin和json所在文件夹的绝对路径吗 另外如果想要跑中文数据集的话又该如何处理呢 是将json文件改成中文版的吗

嗯,是的,中文要用在中文数据集上预训练的模型,bin 和 json 都要进行更换