/spider

百度搜索爬虫,基于python2.7,支持翻页,默认抓取前十页搜索结果,可以获取到标题、简介和真实网址,含日志、数据库代码

Primary LanguagePython

baiduSpider

抓取百度搜索结果首页内容,获取到搜索结果的标题、简介和原网址,原网址稍微有些麻烦,通过百度的链接有一次302跳转,不过通过拦截跳转还是可以得到真实链接的,记录一下