yangbisheng2009/nsfw-resnet

如何训练高准召模型

zcdliuwei opened this issue 2 years ago · 7 comments

zcdliuwei commented 2 years ago

你好，我想使用您的代码，在自己的数据上训练一个鉴黄模型，目标是黄图VS正常图片的二分类。数据都是动漫图片。目标只有一个，即把露点的黄图一定要全部检测出来，不能放过黄图，正常图片的一部分被当成黄图可以接受。
我用您的代码训练了一下，黄图检测准确率不够高，所以想请教一下，我应该如何提升模型的鉴黄能力，来满足上述目标，数据有几十万张，期待您的回复，谢谢

yangbisheng2009 commented a year ago

几十万张图片，不算少了。其实我建议优先查查你的数据质量，我做这个工程的时候，其实大部分精力是在数据质量标注上

zcdliuwei commented a year ago

几十万张图片，不算少了。其实我建议优先查查你的数据质量，我做这个工程的时候，其实大部分精力是在数据质量标注上

我们这个数据标签，其实是调用阿里云的接口获得的，阿里云接口返回了三个标签：block(涉黄)、review(疑似涉黄)、pass(正常)，不过阿里云返回的标签，有一定比例不准确，比如涉黄的图片里面，有一些其实可以认定为pass，不过他确实把裸体的图片基本都禁止掉了。因为数据量比较大，如果手动检查和标注，非常耗时，所以求助您

yangbisheng2009 commented a year ago

那你的数据质量低，这就很麻烦

zcdliuwei commented a year ago

有没有什么办法，能在我不是特别尽善尽美的标签上，训练一个高召回的鉴黄模型，以保证输出的图像不露点？
或者，您可以提供您的预训练模型吗，我在您的模型上面，再微调一下。微调不需要使用很大的数据量，我就可以手动标注一个小批量数据了
谢谢回答

yangbisheng2009 commented a year ago

我的模型已经被商用了

yangbisheng2009 commented a year ago

我建议，如果不会调整网络结构，那就在数据上花功夫

zcdliuwei commented a year ago

建议，如果不会调整网络结构，那就在数据上花功夫

好的，谢谢回复，我再研究一下