1. getArticle
爬虫获取文章内容(以金融之家 http://www.jrzj.com/ 为例)标题写入txt
2.getArticleInCSV
爬虫获取文章内容(以金融之家 http://www.jrzj.com/ 为例)标题,标签,日期写入csv
3.getArticleSql
爬取文章保存到数据库
1.get_pic
下载漫画
2.get_pic_thread
多线程下载漫画
1.get_news
爬取搜狐新闻,并将新闻保存到本地
1.download
http://www.sdedu.gov.cn/sdjy/_ztzl/810993/917785/index.html
这个连接中有不少培养质量报告,把这些学校的报告下载下来。主要是文件命名上,要体现出报告的学校和年度,比如:济南大学 2014.pdf,山东大学2015.pdf等
1.html2pdf
将html网页保存为pdf文档
1. contact.py
处理页面中的viewstate参数