/level1

Primary LanguagePythonGNU General Public License v3.0GPL-3.0

level1

csdn3:

这是一个多进程爬取csdn所有用户的blog文章的程序,爬取后可以自动插入到我的另一个项目http://shuipfcms.ouchaonihao.com/ 中,

a链接爬取进程: 该程序开启多个进程爬取起始链接‘blog.csdn.net’,使用消息队列的机制不断提取a链接放入到爬取队列,然后分析该地址是否是用户blog地址 如符合规则将该地址放到另一个用户队列,该类进程的处理机制为: 从a链接队列中获一条数据(为url地址)->获取该url地址中的所有a链接->判断该地址是否爬取过->判断是否是环路->插入该队列->分析该条数据是用户blog地址->插入用户blog队列。

用户blog爬取进程: 该类进程将开启多个进程同时读取用户blog队列,该类进程处理机制大概如下: 从用户blog队列获取一条数据(用户的blog url地址)->获取该用户的所有文章列表->获取用户相关信息生成一条json数据,将该数据放到content队列中。

conten爬取进程: 该类进程将开启多个进程同时读取content队列,该类进程处理机制大概如下: 从content队列获取一条数据(一个用户相关的所用文章的url地址)->获取文章正文、标题、时间、分类等信息->格式化数据->将数据插入到项目目http://shuipfcms.ouchaonihao.com/ 中。

关闭与启动: 该程序在关闭时将会把该程序爬取过的所有信息保存为本地信息(将保存在workdir/data中),在下次启动该程序是将会自动加载该类信息到内存,程序将不会爬取以前爬取过的数据。

日志: 所有日志到保存在workdir/log下。

本地数据: 抓取的每个有用户的数据将保存到workdir/users/用户名.json

mongodb: 该程序包含将数据插入mongodb数据库的功能。默认没有开启.