版本 v0.0.2
- 用于抓取微信公众号最新文章生成xml文件
- git clone https://github.com/buildlove/crawler.git
- 使用命令行 python weixin_xml.py 或 python weixin_xml.py online
- 离线使用命令行 python weixin_xml.py offline
python环境为2.7,依赖插件:BeautifulSoup, json(详见"weixin_xml.py源代码")
- getHTML函数:请求URL函数成功时打印"加入页面:url"
- writeFile函数:写入html到指定文件
- parselink函数:解析节点,寻找微信文章链接
- wrapPageNode函数:用来获取搜狗搜索的微信号信息列表
- dict_to_list函数:用来转换dict为list
- getArticleTitle函数:用来解析搜狗最新文章页面中js片段获取文章的标题和url
- console函数:以{key:value}的方式打印字典或列表中的字典
- online函数:控制在线run
- offline函数:控制离线run
- main函数:用来控制离线和在线的切换
##版本历史
- 新增抓取信息生成xml功能
- 新增计算函数运行时间模块
- 新增createXML函数创建并解析xml
- 新增文件xml用来存放抓取的xml
- 新增离线抓取功能
- 新增输入微信号,得到微信号列表(dict)和文章列表(list)
- 新增在线下载,请求url写入请求的html文件为离线下载文件
- 新增命令行输入python weixin_xml.py offline为离线下载(只有当离线文件存在时才能使用离线请求)
- 新增命令行输入python weixin_xml.py online为在线下载(默认为在线下载)
- 新增getHTML函数:请求URL函数成功时打印"加入页面:url"
- 新增writeFile函数:写入html到指定文件
- 新增parselink函数:解析节点,寻找微信文章链接
- 新增wrapPageNode函数:用来获取搜狗搜索的微信号信息列表
- 新增dict_to_list函数:用来转换dict为list
- 新增getArticleTitle函数:用来解析搜狗最新文章页面中js片段获取文章的标题和url
- 新增console函数:以{key:value}的方式打印字典或列表中的字典
- 新增online函数:控制在线run
- 新增offline函数:控制离线run
- 新增main函数:用来控制离线和在线的切换
searchPage
name: #微信名称
number: #微信号
artlink: #微信号文章页面链接
funcms: #微信功能介绍
sptit: #微信认证
artSrc: #微信最新文章链接
artTit: #微信最新文章标题
articleList
"title": #文章标题
"digest":
"content":
"fileid":
"content_url" #文章 url
"source_url":
"cover":
"subtype":
"is_multi":