/Scopus2Histcite

把在Scopus网站搜索得到的结果,转化成能用Histcite进行分析的文本的脚本

Primary LanguagePython

Scopus2HistCite

非常欣喜地发现这个小脚本在他诞生后的数年后仍然有人在使用,甚至在得到公众号科研利器王老师的推荐。 enter description here

最初的脚本是windows下面写的,使用的是python2。以现在的眼光看来,写的很丑陋 虽然我现在早已转到用OSX作为我的主力使用系统,但是HISTCITE毕竟只有WINDOWS版本. 准备抽空改进一下, 谢谢给我鼓励的人们.

原来的介绍

个人工作中,经常会有这样的情况:从一篇或者几篇文章出发,找出此领域中被引用比较多,开山祖师级别的文献,作文献二次检索是比较容易想到的思路。

二次检索可以用scopus网站,不过怎么找出二次检索之后,哪些文献比较重要呢?很容易想到有类似功能的Histocite,感谢罗昭锋的博客等老师的大力推广,我在多年前就已经使用过这个软件进行文献检索。

经过观察 scopus的导出格式和 histcite的导入格式,发现其实histcite所需要的信息在scopus里都有,但是要经过一系列的加工,把无用的信息给去除,还要进行一系列的关键字代替。

代替过程:逐行读入原来的ris文件,并作相应处理

  1. 第一行,写入FN Thomson Reuters Web of Knowledge™。第二行 写入VR 1.0
  2. 原来ris文件,每篇文献记录间用单行隔开
  3. 每篇文献由数行组成,每行开头两个字符有相应的意义,转成相应的histcite标记
'TI', # title
'T2', # jounal
'AU', # author,这个代替最麻烦
'VL', # volumn
'IS', # issue
'SP', # start page
'EP', # end page
'PY', # public year
'DO' # doi ?这个不重要
  1. 具体代替思路可见下图,其实读源代码更清楚 enter description here

重构完毕, 改进点

  • 用python3代替了python2
  • 代码写的更加清楚点,不像原来那么"丑"
  • 基本思路和原来一样,搞清楚不同的mark是什么意思,搞清楚一条文章记录的"起转承接",作相应的代替

使用方法

  • 推荐使用文献引文分析利器 HistCite 详细使用教程暨 HistCite Pro 首发页面
  • git clone我的repo或者直接下载 python脚本
  • 从scopus网站导出文献记录,有两个注意点
    1. 要换成英文版scopus enter description here
    2. 导出时,要选择ris格式,要注意把References选上。 enter description here
  • 导出的文献名是scopus.ris,放在和Scopus2Histcite.py同一个目录下, 运行这个脚本 python3 Scopus2Histcite.py
  • 或者放到任意位置, python3 Scopus2Histcite.py \path\to\your\risfile
  • 会在当前目录下生成savedres.txt,用前面修改版的HistCite Pro导入。