长文本，大数据集的config调整思路咨询

Question

长文本，大数据集的config调整思路咨询

VillardX opened this issue 2 years ago · 4 comments

作者您好，我的自用数据集是长文本，每个样本的文本长度大概是2000字，且只包含flat的实体。大概有2000条数据，共计约2万个实体标记，实体类别为9类，原生的bert-base-chinese只支持max_len=512，所以我对自己的文本数据进行了max_len=500的截断，并使用resume_zh.json的设置参数进行训练，仅修改了batch_size=4(不然爆显存)，但是最终效果f1=0.75，甚至比BERT+CRF的baseline都低。想向您请教一下，是哪里的参数设置出问题了呢，请给个指导思路，不胜感激，谢谢~

Answer 1 · 2022-11-15T15:03:41.000Z

首先看看模型是否已经拟合，也可以尝试删除scheduler来增大模型的收敛速度；其次小batch size可能导致模型训练不稳定，可以尝试采用更小的len来截断，增大batch size；还可以分析一下模型测试集的输出，unified模型可能预测出了除flat以外其他类型的实体，导致了精准率偏低。

Answer 2 · 2022-11-19T13:10:23.000Z

好的，感谢回复~