拉勾/猎聘 数据分析/数据挖掘岗位 爬取与分析
1.项目描述:
本项目是基于python的拉勾/猎聘网站上的北京公司的数据分析/数据挖掘岗位数据的爬取和分析。包括代码(爬虫、预处理、可视化分析)、网页请求参数文本、爬取的数据以及一份分析报告。
通过本项目,你可以练习使用requests获取页面;使用beautifulsoup和json解析网页,提取目标信息;使用pandas,结合re等模块对数据进行清洗和整理;使用matplotlib实现可视化成图;以及使用jieba模块进行简单的分词、使用wordcloud模块制作简单的词云。你还可以学到基本的数据分析思路。
本项目侧重于对岗位数据的描述性分析。
2.存在的不足:
(1)爬虫部分,猎聘网站反爬措施,导致爬取数量较少(只有400条)。猎聘的反爬措施有两个,一是登陆限制(未登录只能浏览前10页),二是请求频率限制。前者需要模拟用户登陆状态,后者需要使用ip池。本项目没有采取这些方法,只是对第二个问题,使用了简单的思路予以解决。
(2)数据采集量不理想。本项目猎聘网站数据只抓取了400条。应当汇集一段时间内抓取的所有数据,构成较大的数据集。
(3)目标信息的提取不理想。绝大部分信息可以完整提取,但对岗位职责和岗位要求,由于其不规则性,没有简单的方法完整地提取所有信息,本项目只使用冒号分割提取了大部分的数据。
(4)分析不够深入。
(5)代码清晰,但不够简洁。
针对以上问题,以后会逐步对项目进行改进。