长文本,大数据集的config调整思路咨询
VillardX opened this issue · 4 comments
VillardX commented
作者您好,我的自用数据集是长文本,每个样本的文本长度大概是2000字,且只包含flat的实体。大概有2000条数据,共计约2万个实体标记,实体类别为9类,原生的bert-base-chinese只支持max_len=512,所以我对自己的文本数据进行了max_len=500的截断,并使用resume_zh.json的设置参数进行训练,仅修改了batch_size=4(不然爆显存),但是最终效果f1=0.75,甚至比BERT+CRF的baseline都低。想向您请教一下,是哪里的参数设置出问题了呢,请给个指导思路,不胜感激,谢谢~
ljynlp commented
首先看看模型是否已经拟合,也可以尝试删除scheduler来增大模型的收敛速度;其次小batch size可能导致模型训练不稳定,可以尝试采用更小的len来截断,增大batch size;还可以分析一下模型测试集的输出,unified模型可能预测出了除flat以外其他类型的实体,导致了精准率偏低。
VillardX commented
好的,感谢回复~