多重判断网站文件扫描(网页相似性,关键词,状态码)
一个完整的全自动扫描器,判断404页面的方法必不可少在这里 我采用 网页相似性,关键词,状态码的判断方法
提取网页有2种 一种是标签 ,一种是文本内容,我采用的是文本内容提取,但是方法很粗糙直接BeautifulSoup到body用get_text()提取
分词 TF-IDF算法 我直接用的jieba 提取关键词 有个方法就是TF-IDF算法的 还有个 什么rank算法,弄好后计算余弦相似性
定义一个根本不存在的页面 ,另一个为字典路径
准备一些网页200的的关键词 我这里准备的“不存在” ,“404/search_children” 其后是我们常见的 404页面 js加载的 找孩子
│ aleenscan.py
└─aleenscan
aleen.py
aleen.pyc
test.py
__init__.py
__init__.pyc
后文,此方法也算不上严谨,相对于传统扫描器稍好一点