numbbbbb/githuber.info

禁止爬虫可能会更好

kxxoling opened this issue · 5 comments

对于爬虫来说,使用 JavaScript 获取数据的页面基本上毫无意义,只有几个静态页面需要爬虫。禁止爬虫的话还能减轻服务器负担。

这个我不是很了解,我们用的是angularjs,要禁止哪些页面呢?

@numbbbbb angularjs 不是对SEO支持不好么,是怎么做到可以爬虫的呢 ?

@wuchong 额,我没注意是用 Angular 写的。。。不过 Google 的爬虫应该是可以运行 JS 的,比如这个搜索结果:关于 githuber.info/about
另外,想要支持其它爬虫可以用 PreRender 之类的技术,Node 有 prerenader.io,Java 有 HTMLUnit,Python 有 Phantom 等等。

个人认为这个issue可以关掉了。
一来,对于现在的站点来说没有实质性需要做的事情。
另外,支持爬虫其实很简单的,单页路由用hash可以用“#!”作为起始最为开始标志(目前仅支持google),用path的话后端针对性的吐出不同的视图即可(个人博客是这样处理的)。
当然,这又是一个和本issue完全不同的另一件事。
综上,关掉这个issue呗!