网络爬虫(Web Crawlers)学习笔记。
web抓取框架Scrapy学习笔记。
- 01-URL.py:用Python抓取指定URL页面。
- 02-BFS.py:使用队列来实现爬虫的广度优先搜索(BFS)算法。
- 03-Chrome.py:伪装浏览器来访问网站。
- 04-Login.py:模拟用户登录(以登录 CSDN 网站为例)。
- 05-tieba.py:爬取百度贴吧的HTML网页到本地。
- 06-JDprice.py:爬虫获取京东的商品价格,并把爬取结果保存至Excel。
- 07-BaiduLenovo.py:百度搜索框联想词的获取。
- 08-IdentifyingCode.py:读取验证码图片。
- 09-downPicture.py:爬取某个网页上的所有图片资源。
- 10-zhihuLogin.py:知乎网的登录。
- 11-CSDNBlogList.py:根据用户名,获取该用户的CSDN的博客列表。
- 12-ChromeCookie.py:在Python中使用Chrome浏览器已有的Cookies发起HTTP请求。
- 13-CookieDeciphering.py:Chrome 33+浏览器 Cookies encrypted_value 解密。
- 14-ChromePassword.py:获取Chrome浏览器已保存的账号和密码。
- 15-ZhihuAnswerList.py:获取某个用户的知乎回答列表及赞同数(静态网页爬虫)。
- 16-selenium.py:动态爬虫工具 selenium 的安装与使用(通过控制浏览器实现)。
- 17-Phantomjs.py:动态爬虫工具 Phantomjs 的安装与使用(通过JS渲染实现)。
- 18-WeiboAnalbum.py:爬取新浪微博某个用户的头像相册(通过分析API JSON)。
- 19-BeautifulSoup.py:Beautiful Soup 学习笔记(python3中的爬虫匹配神器)。
- 20-DoubanMovieTop250.py:爬取豆瓣评分最高的250部电影(使用Beautiful Soup)。
- 21-DoubanMovieTypeTop.py:按类别爬取豆瓣评分最高的电影(使用Beautiful Soup)。
- 22-PyQuery.py:Python中PyQuery库的使用总结。
- 23-C315Check.py:根据物流防伪码,查询所购商品是否正品。