z814081807/DeepNER

关于伪标签的一些问题

zyccyz opened this issue · 2 comments

您好,感谢您的开源,想问一下伪标签的获取过程是否代码里有提供呢?这个伪标签是否是one hot label?请问一般如果提供测试集然后目标是在该测试集上获取不错的分数,可以直接对测试集打上伪标签吗?伪标签这方面知识比较匮乏,如果过于简单还请见谅。希望得到您的回复!

您好,感谢您的开源,想问一下伪标签的获取过程是否代码里有提供呢?这个伪标签是否是one hot label?请问一般如果提供测试集然后目标是在该测试集上获取不错的分数,可以直接对测试集打上伪标签吗?伪标签这方面知识比较匮乏,如果过于简单还请见谅。希望得到您的回复!

伪标签其实就是模型预测的结果,你跑一下预测就得到了伪标签; 让预测得到的文本格式和训练集一样,只需要把预测的这一部分加到训练集里面重新训就可以了,这是比赛里面经常用的伪标签tricks,一般会有一些微弱提升(可以用在测试集上,这个比赛有一部分不是测试集的未标注样本,所以用了提升更大,用在测试集上提升会比较微弱)。可以知乎搜一下伪标签/半监督学习关键字找些高赞的看一下会清楚很多。 另外伪标签可以使用这种one-hot 也就是hard label, 也可以使用soft label ( logits)

感谢您的回复!对我很有帮助!!!🙏🙏🙏