这个仓库里面主要是python和Node爬虫
python爬虫主要有2种. selenium 这种模拟浏览器的 urllib这种拿字符串的
node 的爬虫也是2中. 直接调用别人的网页协议,发请求的 类似urllib这种拿字符串的,用cheerio解析网页, 在2者比较中. Python 开发速度比较快,但是效率要低 node 开发速度慢一点(主要是{}tm太烦),但是跑起来飞快d
一些简单但是类似的爬虫就不贴上来了,原理都是一样的 ,数据库一般2种, mysql和mongodb sql和nosql都会一点