baidu/DDParser

自己训练模型时的数据格式

DongFang1314 opened this issue · 7 comments

image
如图,我在执行sh run_trash.sh时候报错了,我打印了这个puncts.shape 数值为(1,1,0)
image
请问是哪里的问题呢?
这是我标点符号那一行的数据
image

训练数据与我们提供的测试数据集格式一致,请检查是否有问题。

感谢回复,训练数据是参考您们的测试数据集格式test.txt,如下,不知道哪里有问题
image

看你的截图你的训练集只有一条数据,建议你多提供一些数据。
若想在当前数据下跑通有以下2个方案:
1.在run_train.sh增加--punct参数。
2.数据集里面至少有一个符号出现的次数大于等于config.ini中min_freq的值。
后续会修复这个问题。

感谢,加了--punct参数可以跑通了
然而在我调用模型的时候遇到这么个错,NameSpace没有n_feat_embed
image
这里应该怎么改?

我看你代码不是最新的,建议先更新最新的代码测试下

可以了,我把ddparser升级为0.1.2之后可以使用自己训练的模型了。
不过我发现自己训练的模型好像会覆盖原生自带的模型参数,也就是说不是像bert微调模型那样会继承之前的参数,而是模型参数完全依赖自己提供的训练数据,是这样嘛

目前没有提供fine-tuning的功能,需要用户自行修改相关逻辑。