/lianjia-crawler

A Spider for lianjia.com

Primary LanguagePython

链家爬虫

使用make即可自动爬取、解析、清晰数据。spider.py是爬虫的代码,clean.py是清晰数据的代码。

依赖

  • Scrapy:爬取数据
  • BeautifulSoap4:解析网页(scrapy内置parser获取文本有bug)
  • Pandas:数据清洗