jobs_analysis

拉勾/猎聘数据分析/数据挖掘岗位爬取与分析

1.项目描述：
本项目是基于python的拉勾/猎聘网站上的北京公司的数据分析/数据挖掘岗位数据的爬取和分析。包括代码（爬虫、预处理、可视化分析）、网页请求参数文本、爬取的数据以及一份分析报告。
通过本项目，你可以练习使用requests获取页面；使用beautifulsoup和json解析网页，提取目标信息；使用pandas，结合re等模块对数据进行清洗和整理；使用matplotlib实现可视化成图；以及使用jieba模块进行简单的分词、使用wordcloud模块制作简单的词云。你还可以学到基本的数据分析思路。
本项目侧重于对岗位数据的描述性分析。

2.存在的不足：
（1）爬虫部分，猎聘网站反爬措施，导致爬取数量较少（只有400条）。猎聘的反爬措施有两个，一是登陆限制（未登录只能浏览前10页），二是请求频率限制。前者需要模拟用户登陆状态，后者需要使用ip池。本项目没有采取这些方法，只是对第二个问题，使用了简单的思路予以解决。
（2）数据采集量不理想。本项目猎聘网站数据只抓取了400条。应当汇集一段时间内抓取的所有数据，构成较大的数据集。
（3）目标信息的提取不理想。绝大部分信息可以完整提取，但对岗位职责和岗位要求，由于其不规则性，没有简单的方法完整地提取所有信息，本项目只使用冒号分割提取了大部分的数据。
（4）分析不够深入。
（5）代码清晰，但不够简洁。

针对以上问题，以后会逐步对项目进行改进。

coder-liusen/jobs_analysis

jobs_analysis