这是一个练习的小爬虫。把博客园老男孩金角大王的python教程全部爬取生成文件。
webUrl = 'http://www.cnblogs.com/alex3714/articles/5885096.html'
-
reptile.py
爬取文件之后在浏览器中打开
-
webhtml.py
给定链接,爬取文件,生成文件
-
buildhtml.py
给定链接,爬取文件,生成文件的模块
-
beautiful.py
分析爬取的文件,使用buildhtml模块,爬取文件生成文件
-
rehtml.py
删除爬取的无用的文件
-
all_down.py
所有文件下载
-
big_down.py
大文件下载
-
samll_down.py
小文件下载
-
spiderHtml.py
gitbook 书籍网页爬取下载
爬去煎蛋网的图片,练习爬虫
- down.py 下载煎蛋网的gril图片
├── speak
│ ├── restspeak.py 百度语音合成识别 网上的小例子
│ ├── speak.py 百度语音合成 网上的小例子
│ └── speaktest.py 百度语音合成 测试通过
-
zip.py 文件压缩
-
word.py 瓦尔登湖文本的词频统计
- PIL官方网站:https://pillow.readthedocs.io/en/3.4.x/
- Hibernate官网:http://hibernate.org/
- python项目:https://zhuanlan.zhihu.com/p/22164270
- GitHub网址仓库:https://github.com/lovesw/repositoryName(仓库名称)
- Android实例:http://www.haolizi.net/example/tags_Android_1.html
- 各种源码创库:https://github.com/worldligang/CodeReading
- BeautifulSoup文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#id10
- 影音学堂网址:https://python.freelycode.com/
- Python 中文文档:http://www.pythondoc.com/
- Django1.8 中文教程:http://www.kancloud.cn/wizardforcel/django-chinese-docs-18/98891
- 一译:http://python.usyiyi.cn/
- Python开发者社区:http://www.pythontab.com/
- Python3.5中文教程:http://docs.pythontab.com/python/python3.5/