知网数据论文信息爬取
可根据关键搜索爬去论文相关数据。可爬取的字段如下:
中文名 | 题名 | 作者 | 来源 | 发表时间 | 数据库 | 被引数 | 下载数 |
---|---|---|---|---|---|---|---|
csv文件对应名 | title | author | source | date | data | quote | download |
首次运行时,需要完成 Python 虚拟环境的创建以及依赖库的安装。
在终端使用install.bat
(windows)或install.sh
(Linux, Mac)脚本进行自动安装,或者使用以下命令手动安装。
若使用了方式一安装请忽略该方法
使用下面的命令创建 Python 虚拟环境
# (cnki_venv可自定义名字)
python -m venv cnki_venv
使用下面的命令安装依赖库
pip install -r requirements.txt
在具体操作之前请确保上面的安装步骤已经完成。
keyword: 'xxxx'
page: 3
path: 'xxxxx'
参数解释:
keyword: 搜索的论文关键字
page: 爬取的论文页数
path: 爬取的论文数据保存路径
在终端使用run.bat
(windows)或run.sh
(Linux, Mac)脚本进行自动安装,或者使用以下命令手动安装。
在终端输入以下命令
python cnki.py