/job_spider

2016年拉勾、携程、智联互联网招聘职位爬虫程序数据以及数据分析

Primary LanguagePython

job_spider

2016年完成的三大互联网招聘网站职位数据抓取、数据清理、数据分析、数据展示程序。

一共包含了十万+原始数据以及清理后的可处理职位数据

针对目标站的反爬虫特性,拉勾网使用了requests慢速抓取,智联以及前程无忧使用了scrapy框架异步抓取,分别使用了sqlite3和mysql数据库保存

数据整理方面清理了无效数据、异常数据、统一了数据格式,然后对数据进行简单的分析之后使用web站点的图表进行了展示,并且提供了交流功能,当时学生时间仓促做的比较多瑕疵可以通过启动app.py文件在本地127.0.0.1:5000端口查看