主题：基于文本聚类与共现分析的情报安全热点及趋势研究

作者：171860512 陈锟、175070001 黄陶宁（留学生）

指导老师：石进

摘要：

随着世界近些年现代化水平的不断提高，情报领域的发展也随之显得尤为重要，许多领域都依靠情报数据生存。随着当下趋势发展，大数据背景下的情报安全研究显得相当重要。本文通过Rstudio与Ucinet软件对Web of Science近五年发布的情报安全领域的文章进行文本聚类和主题词共现分析研究，探讨当前大数据背景下的相关热点问题和发展趋势，帮助研究人员以及学者选择值得研究的方向。

关键词：

共现分析；文本聚类分析；R语言；Ucinet；

仓库介绍：

本仓库分为两个部分：

1、数据文件

1.1 WOS_data.sav

2016年至2020年的情报安全领域研究方向的占比数据，作为SPSS分析的近五年情报安全的热门研究方向的数据文件。

1.2 2016年数据.xlsx

Web of Science上2016-2020年情报安全方面的内容的源数据。

1.3 2016TI_split.xlsx

对1.2中文件通过Excel自带的分列功能进行分词工作，将停用词剔除，并检查每个关键词的研究意义，得出可以单独处理的关键词表。

1.4 2016TI_splitlast.xlsx

将预处理好的信息表导入R，对关键词表进行数据连接及删除重复的关键词，得出关键词共现关系表，保存为.xlsx形式文件。

1.5 共现分析矩阵.xlsx

对1.4文件建数据透视表。

1.6 共现矩阵ucinet文件.##h, ##d

作为Ucinet中的Netdraw数据可视化工具的数据文件。

2、源代码

2.1 爬取WOS html文件数据.py：

通过pycharm将Web of Science导出的html数据转换成excel表格数据，结果为1.2文件。

2.2 文本聚类分析代码.r：

首先，将文件导入到RStudio后，对各个文本的主题、摘要进行分词，并去除停用词。其次，通过TF-IDF方法获得文本向量的权值。最后，通过K-means算法对文本进行聚。

2.3 分词矩阵构建转换_共现关系表.r：

将预处理好的信息表导入R，对关键词表进行数据连接及删除重复的关键词，得出关键词共现关系表，保存为.xlsx形式文件，结果为1.4文件。

alpsugarfree/starlight