/pku-recruitment-bigdata-analysis

Recruitment bigdata analysis project for big data lesson.

Primary LanguagePython

企业招聘与就业市场大数据分析

项目介绍及分工

传送门:项目ppt

部署流程

相关依赖安装(若本地环境已有docker和docker-compose可忽略)

pip install -r requirements.txt

启动项目

bash startup.sh

若出现报错,说明集群未启动完全,可再次运行上述命令

停止项目

docker-compose down

部署验证

注意:

  1. 若在服务器中运行,需将127.0.0.1或localhost替换为服务器网址才能在主机中访问相关服务。
  2. 项目启动后需要等待一小段时间才能访问数据分析看板。

就业分析平台服务

访问 http://127.0.0.1:8000/ 进入企业招聘平台。若成功运行,可实现下述服务:

  1. 可视化数据看板 查看利用当前数据统计分析信息制作的可视化数据看板。 数据看板

  2. 基于评论文本情感分类的公司评分

  • 点击主页可视化数据看板左上角算法岗开发岗选择指定的岗位。
  • 右下角图为实时的基于评论文本情感分类的六大公司评分结果。根据实时数据读取方式,待启动服务十天后,每五分钟读取一次最新评论,更新公司得分。 公司评分
  1. 薪资预测服务
  • 在选定特定岗位后,点击左上角预测薪资,进入薪资预测服务。
  • 选定待预测的岗位、地区、学历信息,页面返回薪资预测结果。 信息 预测结果

大数据生态系统组件查看

成功运行本项目后,可通过下述对应网址查看大数据生态系统下的相关组件:

说明

模型服务

调用前端预测功能后,请稍等片刻,spark集群运行模型需要一定的时间

预测服务

可视化前端

为了前端内容的顺畅显示,前期我们将数据一次性从hive中导出为csv,而不需每次启动前端调用spark集群。

以导出“公司常见福利词”为例,从hive中导出hql命令如下:

set hive.exec.mode.local.auto=true;
set hive.exec.mode.local.auto.inputbytes.max=52428800;
set hive.exec.mode.local.auto.input.files.max=10;

INSERT OVERWRITE DIRECTORY 'welfare.csv'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
SELECT fl, count(1)
FROM (
    SELECT b.fl
    FROM job
    LATERAL VIEW explode(split(welfare, '')) b AS fl
) AS a
WHERE fl <> '其他'
GROUP BY fl;