原作者地址: http://www.jianshu.com/p/696922f268df
抓取单个地址的单张图片.py: 抓取地址:这段代码主要是利用urllib.request库,对某个图片的具体网址进行爬取,也就是模拟右键下载的功能,感觉有点弱爆了,但确实让我对爬虫的基本原理有了进一步的了解。
抓取天极图片网某个网址的全部图片.py: 主要使用urllib、re模块,先获取网址的html源码来解析、再通过正则表达式提取包含jpg文件的网址、最后遍历各个图片网址重新生成jpg文件。因为数据量很小,所以也没有做伪装。
爬取简书上某个文章地址的主体内容.py: 水使用bs4、requests、codecs模块,给定某博客单篇内容的地址,将地址解析成完整的html数据返回,然后通过beautifulsoup分析结构、获取相应区块的内容,最后生成、保存文件。整体上加强了对bs4、requests、codecs模块的理解。