爬取知乎网的推荐页面的所有问题、问题链接、问题链以及关于对问题的回答,然后将它们打印在控制台。后序进阶会将爬去结果保存到数据库中,详细教程见我博客codingXiaxw' blog 。博客地址为:http://codingxiaxw.cn 爬虫系列项目地址为: http://codingxiaxw.cn/2016/10/20/20-%E7%94%A8Java%E5%86%99%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB%E4%B8%80%E4%B9%8B%E9%A1%B9%E7%9B%AE%E4%BB%8B%E7%BB%8D/
博客用了以下四篇文章来介绍,目前完成了前三篇,所以附上经过前三篇文章的教程后得到的爬取效果:
博客一览表:
目前只用到IntelliJ IDEA + chrome 后序完成第四篇文章介绍的知识时,会用到数据库MySQL
其中只有三个.java文件是需要的,SpaceMessage.java、Demo.java、Main.java、Main2.java、Main3.Java这四个文件是我玩玩写的demo,只需看Spider.java、Main4.java、Zhihu.java这三个文件。
- Spider.java:1.sendGet()方法获取网页源码。2.regexString()方法用于返回和网页源码匹配到的结果(即我们需要的内容)。
- Zhihu.java:封装我们需要的内容。
- Main4.java:传入需要爬取页面的url。
- git clone https://github.com/codingXiaxw/Crawler.git
- 打开IDEA,File-->NEW-->open-->打开该文件