OAG-WhoIsWho 赛道二

在由AMiner、智源举办的同名消岐竞赛中取得0.95097的成绩，在Final Leaderboard中排名第5，获取奖金￥2,000。

简介

由于论文分配算法的局限性，现有的收录各种论文的学术系统内部存在着大量的论文分配错误。赛题要求根据论文的详细信息以及作者与论文之间的联系，去区分属于不同作者的同名论文，然后准确快速的将论文分配到系统中已有作者档案，获得良好的论文消歧结果。

将数据文件train_pub.json 、train_author.json 、whole_author_profile.json、whole_author_profile_pub.json、cna_valid_unass_competition.json、cna_valid_pub.json、cna_test_unass_competition.json、cna_test_pub.json放置于NDModel\data\下
在NDModel\util目录下执行data_process.py，会在data目录下生成 all_author_info.txt、 all_author_info_with_year.pickle、 all_author_info_with_paperid.pickle文件，这三个文件为预处理的作者的档案信息；执行get_corpus.py，获得训练embedding以及bert的语料
执行train_triplet.py，训练短文本的embedding
执行gen_feature.py，会在NDModel\data\feature目录下生成feature_list_train.txt，在NDModel\data\instance目录下生成train_instance.pickle
执行model.py，进行训练与预测，在NDModel\model目录下生成xgboost_best.model（模型）、paper2candidates.pkl、paper2features.pkl（保存预测中间变量），在NDModel\data\res目录下生成result.json（最终结果文件）