禁止爬虫可能会更好

Question

禁止爬虫可能会更好

kxxoling opened this issue 10 years ago · 5 comments

对于爬虫来说，使用 JavaScript 获取数据的页面基本上毫无意义，只有几个静态页面需要爬虫。禁止爬虫的话还能减轻服务器负担。

Answer 1 · 2015-03-09T02:11:05.000Z

这个我不是很了解，我们用的是angularjs，要禁止哪些页面呢？

Answer 2 · 2015-03-09T03:20:45.000Z

只需要允许这几个页面就可以了：
http://githuber.info/index
http://githuber.info/donate
http://githuber.info/about
http://githuber.info/report

Answer 3 · 2015-03-21T12:53:50.000Z

@numbbbbb angularjs 不是对SEO支持不好么，是怎么做到可以爬虫的呢？

Answer 4 · 2015-03-22T07:49:04.000Z

@wuchong 额，我没注意是用 Angular 写的。。。不过 Google 的爬虫应该是可以运行 JS 的，比如这个搜索结果：关于 githuber.info/about
另外，想要支持其它爬虫可以用 PreRender 之类的技术，Node 有 prerenader.io，Java 有 HTMLUnit，Python 有 Phantom 等等。

Answer 5 · 2015-03-24T05:48:03.000Z

个人认为这个issue可以关掉了。
一来，对于现在的站点来说没有实质性需要做的事情。
另外，支持爬虫其实很简单的，单页路由用hash可以用“#!”作为起始最为开始标志（目前仅支持google），用path的话后端针对性的吐出不同的视图即可（个人博客是这样处理的）。
当然，这又是一个和本issue完全不同的另一件事。
综上，关掉这个issue呗！