yangbisheng2009/nsfw-resnet

如何训练高准召模型

zcdliuwei opened this issue · 7 comments

你好,我想使用您的代码,在自己的数据上训练一个鉴黄模型,目标是黄图VS正常图片的二分类。数据都是动漫图片。目标只有一个,即把露点的黄图一定要全部检测出来,不能放过黄图,正常图片的一部分被当成黄图可以接受。
我用您的代码训练了一下,黄图检测准确率不够高,所以想请教一下,我应该如何提升模型的鉴黄能力,来满足上述目标,数据有几十万张,期待您的回复,谢谢

几十万张图片,不算少了。其实我建议优先查查你的数据质量,我做这个工程的时候,其实大部分精力是在数据质量标注上

几十万张图片,不算少了。其实我建议优先查查你的数据质量,我做这个工程的时候,其实大部分精力是在数据质量标注上

我们这个数据标签,其实是调用阿里云的接口获得的,阿里云接口返回了三个标签:block(涉黄)、review(疑似涉黄)、pass(正常),不过阿里云返回的标签,有一定比例不准确,比如涉黄的图片里面,有一些其实可以认定为pass,不过他确实把裸体的图片基本都禁止掉了。因为数据量比较大,如果手动检查和标注,非常耗时,所以求助您

那你的数据质量低,这就很麻烦

有没有什么办法,能在我不是特别尽善尽美的标签上,训练一个高召回的鉴黄模型,以保证输出的图像不露点?
或者,您可以提供您的预训练模型吗,我在您的模型上面,再微调一下。微调不需要使用很大的数据量,我就可以手动标注一个小批量数据了
谢谢回答

我的模型已经被商用了

我建议,如果不会调整网络结构,那就在数据上花功夫

建议,如果不会调整网络结构,那就在数据上花功夫

好的,谢谢回复,我再研究一下