/biendata

开放学术精准画像比赛top15,xgboost + pagerank

Primary LanguagePythonGNU General Public License v3.0GPL-3.0

biendata

开放学术精准画像比赛top15,xgboost + pagerank

竞赛任务简介

##任务1: 学者画像信息抽取

学者画像信息具体包括学者的主页地址、性别、职位等。随着互联网越来越普及,与学者相关的网页的数量和内容的丰富度和复杂度都大大增加,其中包含了学者的大量冗余信息,通过整合互联网上多种来源的学者数据,采用合适的机器学习模型,获得学者的精准信息是一项潜在有效的学者画像技术。

##任务2: 学者兴趣标签预测

研究兴趣是学者画像的重要组成部分,其不仅是学者本身的研究心得或研究拓展方向的集中体现,也能从中窥视不同背景的学者对研究领域热点或学科研究趋势的关注度、敏感度的集体反映。与学者画像信息抽取类似,通过整合互联网上的大规模多源信息,可以对学者的研究兴趣进行判断。

##任务3: 学者未来影响力预测

学术影响力用来衡量学者在专业理论及技术方面的影响,常用的评价指标有论文被引量,期刊影响因子、作者H指数等,其中论文被引量是一个重要而直观的指标。本任务的目的是基于学者当前的相关学术数据预测其未来某段时间内的总论文被引量。