kerlomz/captcha_trainer

大佬,求推荐采集标注样本 的教程

bcaixl opened this issue · 6 comments

现在可以从网站上爬取下来很多验证码,但是怎么处理成合格的样本数据?求推荐教程

目前只能算是采集到了样本,但是如何标注样本和验证样本还不是很理解,求教大佬解惑

xxxx_md5.jpg

可以在目标网站验证后再保存样本 @bcaixl

xxxx_md5.jpg

可以在目标网站验证后再保存样本 @bcaixl

我现在直接在目标网站上抓了样本回来,样本的命名是以数字.png 命名的,比如:0.png 1.png 2.png,这样的数据可以用作者的修改名称的py文件修改名字后用来喂数据吗?

https://github.com/kerlomz/captcha_spider

参考这个呗

哇,先感谢了,我拜读一下

xxxx_md5.jpg
可以在目标网站验证后再保存样本 @bcaixl

我现在直接在目标网站上抓了样本回来,样本的命名是以数字.png 命名的,比如:0.png 1.png 2.png,这样的数据可以用作者的修改名称的py文件修改名字后用来喂数据吗?

样本都不好好命名,训练个鬼啊