/php_css_selector_spider

赶集,58同城采集商家手机号码

Primary LanguagePHP

简介

这是一个针对网页抓取分类信息的程序,使用php+mysql,基于thinkphp框架。

良好的扩展性

  • 针对不同网站的html结构不一样,只需要在后台新增一条相应的正则表达式的规则,再抓取的时候就可以选择相对应的 规则进行抓取,此处对于正则的功底要求较高,后续版本中 会改进。

商业友好的开源协议

遵循Apache2开源协议发布。Apache Licence是著名的非盈利开源组织Apache采用的协议。该协议和BSD类似,鼓励代码共享和尊重原作者的著作权,同样允许代码修改,再作为开源或商业软件发布。