/idaccuracy-georgehuangcool

idaccuracy-georgehuangcool created by GitHub Classroom

Primary LanguageR

Review Assignment Due Date

科技论文数据库作者识别号的适用性

科技论文数据库的发展与成熟推动了科学经济学从理论探讨走向实证分析。诸多基础问题需要以科学家个体为研究单位,需要使用科学家个人的论文发表作为因变量。这首先需要解决科技论文作者姓名消岐问题,即如何从论文数据库中识别出对应科学家的论文。

过去十年,主流的科技论文数据库先后推出了作者识别号系统,辅助研究人员检索论文。但是各大数据库的识别号系统的准确性,已经在华人科学家群体中的适用性缺乏研究。

本题目,以AMnier数据库为例,尝试解决这个问题。

AMiner于 2006 年 3 月推出,是新一代科技情报分析与挖掘平台,由清华大学计算机科学与技术系教授唐杰率领团队建立,聚合了全球各个国家和地区的学者画像、机构画像、期刊画像等数据,覆盖各个学科领域包括自然科学、社会科学、人文科学等。(https://www.aminer.org/)AMiner 从分布式网络中提取和整合学术数据,为每位研究人员创建基于语义的个人资料,使用生成概率模型对论文、作者和发表地点等主题方面进行建模,分析和发现研究人员社交网络中的有趣模式,以及基于建模结果实现诸如专业知识搜索和关联搜索的若干搜索服务;为研究人员提供了一个档案数据集。( You Song et al., 2008 )

作业一

题目如下:

  1. 使用R中的数据读写,文件路径,for循环语句,读入路径“/assignment_idaccuracy/Aminer”总的所有文件,并将数据合并成为一个data.frame输出。
  • 要求data.frame中至少要包括论文的doi号,发表年份,杂志,标题;
  1. 使用apply家族函数替代上述步骤中的for循环

  2. 将2中代码封装成为一个可以在命令行运行的脚本,脚本的唯一一个参数为aminer论文文件所在的路径。