magicpython: A Python repository from cberranger

python 爬虫示例仓库

getArticle

1. getArticle

爬虫获取文章内容(以金融之家 http://www.jrzj.com/ 为例)标题写入txt
2.getArticleInCSV

爬虫获取文章内容(以金融之家 http://www.jrzj.com/ 为例)标题，标签，日期写入csv
3.getArticleSql

爬取文章保存到数据库

getPic

1.get_pic

下载漫画
2.get_pic_thread

多线程下载漫画

getSohuNews

1.get_news
爬取搜狐新闻，并将新闻保存到本地

getPDF

1.download
http://www.sdedu.gov.cn/sdjy/_ztzl/810993/917785/index.html
这个连接中有不少培养质量报告，把这些学校的报告下载下来。主要是文件命名上，要体现出报告的学校和年度，比如：济南大学       2014.pdf，山东大学2015.pdf等

html2pdf

1.html2pdf
将html网页保存为pdf文档

dealViewState

1. contact.py
处理页面中的viewstate参数

cberranger/magicpython

python 爬虫示例仓库

getArticle

getPic

getSohuNews

getPDF

html2pdf

dealViewState