bishion/spider

阿里网店的极限词检查

Python

spider

阿里巴巴极限词检查

功能点

针对阿里的页面做了过滤
自动调用极限词接口
自动翻页
支持图片识别,并且会打印图片链接以及对应的敏感词列表
支持白名单

可能需要安装的第三方包

PyExecJs
bs4
requests

更新日志

20190519

支持图片识别
支持白名单,其中白名单配在同级目录下的 white_list.ini 中
打印含有敏感词的图片以及它们的对应关系

20190518

支持翻页
只检查标题, 详情
解决上个版本中没有对阿里详情页二次跳转的bug
加入百度的 OCR 功能

Bug 解决

如果程序包名跟系统包名冲突，会报很多诡异的问题。我的是一个包名叫 site，结果一直报找不到module(pycharm有这个问题，命令行执行没有)
长时间扫 1688 的网页会被强制登录
ini 的文件路径需要使用 os.path.dirname(os.path.abspath(file)),不然会一直报找不到某个section，而不是提示你文件不存在