自己训练模型时的数据格式

Question

DongFang1314 opened this issue 4 years ago · 7 comments

如图，我在执行sh run_trash.sh时候报错了，我打印了这个puncts.shape 数值为(1,1,0)

请问是哪里的问题呢？
这是我标点符号那一行的数据

Answer 1 · 2020-12-23T07:52:09.000Z

训练数据与我们提供的测试数据集格式一致，请检查是否有问题。

Answer 2 · 2020-12-23T08:00:54.000Z

感谢回复，训练数据是参考您们的测试数据集格式test.txt,如下，不知道哪里有问题

Answer 3 · 2020-12-23T08:55:59.000Z

看你的截图你的训练集只有一条数据，建议你多提供一些数据。
若想在当前数据下跑通有以下2个方案：
1.在run_train.sh增加--punct参数。
2.数据集里面至少有一个符号出现的次数大于等于config.ini中min_freq的值。
后续会修复这个问题。

Answer 4 · 2020-12-24T07:03:06.000Z

感谢，加了--punct参数可以跑通了
然而在我调用模型的时候遇到这么个错，NameSpace没有n_feat_embed

这里应该怎么改？

Answer 5 · 2020-12-24T08:28:47.000Z

我看你代码不是最新的，建议先更新最新的代码测试下

Answer 6 · 2020-12-25T02:04:51.000Z

可以了，我把ddparser升级为0.1.2之后可以使用自己训练的模型了。
不过我发现自己训练的模型好像会覆盖原生自带的模型参数，也就是说不是像bert微调模型那样会继承之前的参数，而是模型参数完全依赖自己提供的训练数据，是这样嘛

Answer 7 · 2020-12-25T07:09:55.000Z

目前没有提供fine-tuning的功能，需要用户自行修改相关逻辑。