JobsAnalysis 又名 Job-Sniffer。是一个用户爬取拉勾网IT岗位信息并且将其进行可视化的项目。这是我作为FZU毕业设计的作品。
本系统通过分析各大就业网站(拉勾网)IT岗位的招聘信息,然后提取有价值的数据,进行适当数据清洗以及加工,将其按结构化存储。然后使用Spark进行离线计算统计分析。最后将其用美观的图表形式(echarts)展示在web端。并且配置后台管理系统,可以进行可视化管理、控制,同时可以进行自动化配置,使数据爬取以及分析自动化进行。具体的课题内容包括下面四个部分:
- 数据爬取:爬取就业网站招聘信息,并且对招聘信息进行数据清洗以及格式 化存储在mysql数据库中。
- 数据分析:使用Spark进行离线分析,分析统计各种数据结果以及关联性。
- 数据展示:将数据在WEB端进行图标展示。
- 可视化后台:提供可视化后台管理,可以在后台进行管理配置包括分析的配置以及任务、自动化配置。
本课题主要旨在为求业者提供更深入的市场理解。以及对目前技术海洋的一个探索。主要表现在下面几个维度:
- 地区维度:本系统提供所有岗位在不同区域的表现统计分析。因此可以让求职者在抉择工作地点的选择上可以有客观的认识。且在指定的地点上,可以观察这个地点的产业结构以及需求情况。
- 工作维度:通过对具体工作的分析。求职者可以查看自己想从事的工作类型的具体分布(如后端开发的所有工作的分布)以此来实现以利益、市场为驱动的抉择。
- 关系维度:通过对薪水与不同因素的对比来观测提取出其中的关系。可以为求职者在抉择公司类型的时候提供客观认识。
经过本系统的设计与实现,完成了这个自动化分析项目。可以方便的让自己以及他人犹豫在选择学习什么语言、找什么工作、去哪里工作的时候有一个客观的依据。以及对目前所学的技能未来发展有一个知性的认识,从而不用每次都苦苦等待网上所谓最新的语言排行榜。得益于自动化,这个项目可以一直挂载在我的服务器上,常年使用而不过时。 谈到结果,从分析上可以很明显的看到。全国层面上来看,单从就业需求量来说,北上广深杭占据了全国大部分,其中尤以北京最为突出。而平均工资也是北京最为高的约为16K每月。其他城市工资参差不齐,全国平均工资维持在5K-10K之间。而全国以成长型公司为主体、初创型次之(一线城市更是突出这种趋势),可以看出IT行业的年轻化、朝气蓬勃的市场形势。工作需求最多的,还是后端语言。其中以Java、PHP等需求量最为广泛。其次是移动开发类,Android与IOS无论是薪水还是需求量几乎旗鼓相当,而WP等小众移动软件则显示出寥寥无几的情形。在关系上当月薪接近30K时,本科学历呈现出更大的优势;成长型(A轮)可能为提高更加诱人的待遇;工作四年左右的时候几乎可以享受到人生最高的价值;金融类、移动互联网公司可能有更高的待遇;小公司可能可以提供不错的待遇但是最好的待遇还是潜藏在大公司里面…… 上述的这些结论都是基于最近一次的数据个人简单分析的。具体的分析结果还请及时关注本系统。 最后,遗憾的是本系统并没涉及什么高深的分析算法,比如回归分析、关联分析等等。这也是因为我考虑到我毕业后主要是工程相关的工作因此就没有去学习这些技术。说到底,还是心有不甘吧!