/python

Primary LanguagePython

保存教程网页

这是一个练习的小爬虫。把博客园老男孩金角大王的python教程全部爬取生成文件。

webUrl = 'http://www.cnblogs.com/alex3714/articles/5885096.html'

  • reptile.py

    爬取文件之后在浏览器中打开

  • webhtml.py

    给定链接,爬取文件,生成文件

  • buildhtml.py

    给定链接,爬取文件,生成文件的模块

  • beautiful.py

    分析爬取的文件,使用buildhtml模块,爬取文件生成文件

  • rehtml.py

    删除爬取的无用的文件

下载

  • all_down.py

    所有文件下载

  • big_down.py

    大文件下载

  • samll_down.py

    小文件下载

  • spiderHtml.py

    gitbook 书籍网页爬取下载

保存gril图片

爬去煎蛋网的图片,练习爬虫

  • down.py 下载煎蛋网的gril图片

百度语音

├── speak

│ ├── restspeak.py 百度语音合成识别 网上的小例子

│ ├── speak.py 百度语音合成 网上的小例子

│ └── speaktest.py 百度语音合成 测试通过

小工具

  • zip.py 文件压缩

  • word.py 瓦尔登湖文本的词频统计

备注