aleenscan

多重判断网站文件扫描(网页相似性,关键词,状态码)

功能

一个完整的全自动扫描器，判断404页面的方法必不可少在这里我采用网页相似性,关键词,状态码的判断方法

提取网页有2种一种是标签，一种是文本内容，我采用的是文本内容提取，但是方法很粗糙直接BeautifulSoup到body用get_text()提取

分词 TF-IDF算法我直接用的jieba 提取关键词有个方法就是TF-IDF算法的还有个什么rank算法，弄好后计算余弦相似性

定义一个根本不存在的页面，另一个为字典路径

准备一些网页200的的关键词我这里准备的“不存在” ，“404/search_children” 其后是我们常见的 404页面 js加载的找孩子

│  aleenscan.py
└─aleenscan
        aleen.py
        aleen.pyc
        test.py
        __init__.py
        __init__.pyc

后文,此方法也算不上严谨，相对于传统扫描器稍好一点