2016年完成的三大互联网招聘网站职位数据抓取、数据清理、数据分析、数据展示程序。
一共包含了十万+原始数据以及清理后的可处理职位数据
针对目标站的反爬虫特性,拉勾网使用了requests慢速抓取,智联以及前程无忧使用了scrapy框架异步抓取,分别使用了sqlite3和mysql数据库保存
数据整理方面清理了无效数据、异常数据、统一了数据格式,然后对数据进行简单的分析之后使用web站点的图表进行了展示,并且提供了交流功能,当时学生时间仓促做的比较多瑕疵可以通过启动app.py文件在本地127.0.0.1:5000端口查看