DeepSai/project-exp-entity

Python

project-exp-entity

项目经历实体，也是项目经历摘要，从cv的项目经历中抽取若干短标签，作为对项目的概括描述。

step 1

将数据从spark平台上拉到本地处理速度太慢，所以先在spark平台上抽取所需要的字段，再拉到本地进行json解析。

从spark平台上抽取相关的cv字段：包括基本信息中的project、work，算法解析信息中的cv_tag。见cv_pro_alg.py, cv_pro_alg.sh

step 2

从join后的json数据中抽取所需内容：提取项目经历名称，项目描述，项目职责，四级、三级、二级职能。难点在于将项目经历对应到工作经历，进而对应到算法识别出的职能，见 cluster_by_func.py

step 3

实体化，抽取标签：

项目名称
业务标签
skill
职能