WuHuRestaurant/xf_event_extraction2020Top1

请教bert模型版本和vocab.txt 中 unused更改问题,谢谢

VonnOoO opened this issue · 4 comments

train.sh中有{export BERT_TYPE="roberta_wwm"  # roberta_wwm / ernie_1  / uer_large},去下载时有RoBERTa-wwm-ext、RoBERTa-wwm-ext-large、BERT-wwm-ext、BERT-wwm等版本,麻烦请问具体是哪一个呢?
另外{并将 vocab.txt 中的两个 unused 改成 [INV] 和 [BLANK](详见 processor 代码中的 fine_grade_tokenize)},我看各个版本vocab.txt中有[unused1]...[unsued99],查看processor中我也没懂怎么来改,麻烦指教下,谢谢!
  1. RoBERTa-wwm-ext 是 base 版本,项目中用的就是这个

2.我是手动改的 随便把 vocab.txt 中的两个 unused 改成 [INV] 和 [BLANK] 就行

随便改两个都可以吗?比如[unused1]->[INV], [unused2]->[BLANK] 这样对吧?谢谢