pigingithub/Scopus2Histcite

把在Scopus网站搜索得到的结果，转化成能用Histcite进行分析的文本的脚本

Python

Scopus2HistCite

非常欣喜地发现这个小脚本在他诞生后的数年后仍然有人在使用，甚至在得到公众号科研利器王老师的推荐。

最初的脚本是windows下面写的，使用的是python2。以现在的眼光看来，写的很丑陋 虽然我现在早已转到用OSX作为我的主力使用系统,但是HISTCITE毕竟只有WINDOWS版本. 准备抽空改进一下, 谢谢给我鼓励的人们.

原来的介绍

个人工作中，经常会有这样的情况：从一篇或者几篇文章出发，找出此领域中被引用比较多，开山祖师级别的文献，作文献二次检索是比较容易想到的思路。

二次检索可以用scopus网站，不过怎么找出二次检索之后，哪些文献比较重要呢？很容易想到有类似功能的Histocite，感谢罗昭锋的博客等老师的大力推广，我在多年前就已经使用过这个软件进行文献检索。

经过观察 scopus的导出格式和 histcite的导入格式，发现其实histcite所需要的信息在scopus里都有，但是要经过一系列的加工，把无用的信息给去除，还要进行一系列的关键字代替。

代替过程:逐行读入原来的ris文件，并作相应处理

第一行，写入FN Thomson Reuters Web of Knowledge™。第二行写入VR 1.0
原来ris文件，每篇文献记录间用单行隔开
每篇文献由数行组成，每行开头两个字符有相应的意义，转成相应的histcite标记

'TI', # title
'T2', # jounal
'AU', # author,这个代替最麻烦
'VL', # volumn
'IS', # issue
'SP', # start page
'EP', # end page
'PY', # public year
'DO' # doi ?这个不重要

具体代替思路可见下图，其实读源代码更清楚

重构完毕, 改进点

用python3代替了python2
代码写的更加清楚点,不像原来那么"丑"
基本思路和原来一样,搞清楚不同的mark是什么意思,搞清楚一条文章记录的"起转承接",作相应的代替

使用方法

推荐使用文献引文分析利器 HistCite 详细使用教程暨 HistCite Pro 首发页面，
git clone我的repo或者直接下载 python脚本
从scopus网站导出文献记录，有两个注意点
1. 要换成英文版scopus
2. 导出时，要选择ris格式，要注意把References选上。
导出的文献名是scopus.ris，放在和Scopus2Histcite.py同一个目录下，运行这个脚本 python3 Scopus2Histcite.py
或者放到任意位置， python3 Scopus2Histcite.py \path\to\your\risfile
会在当前目录下生成savedres.txt，用前面修改版的HistCite Pro导入。