英文文献的《中图法》自动分类、相似文献智能推荐小程序。帮助**图书馆更方便地整理、管理英文图书文献,减轻图书馆员采访编目的负担。
图书馆或文献数据库 | 英文文献采用的分类法 |
---|---|
北京大学图书馆、北京师范大学图书馆、四川大学图书馆、南开大学图书馆、上海图书馆、浙江图书馆、读秀学术搜索、超星发现系统、吉林大学图书馆、首都图书馆等 | 《中图法》 |
中山大学图书馆、广东省立中山图书馆、上海交通大学图书馆等 | 《中图法》《国会图书馆分类法》 |
**科学院文献情报中心等 | 《中图法》《国会图书馆分类法》《科图法》 |
**科学技术大学图书馆 | 《中图法》《科图法》 |
国家图书馆、Calis联合目录检索系统、南京图书馆、四川省图书馆、武汉大学图书馆、复旦大学图书馆、华东师大图书馆、浙江大学图书馆 | 《中图法》《国会图书馆分类法》《杜威十进制分类法》 |
【功能1:英文文献归类】标注了**图书馆分类号的英文图书十分稀缺。我们通过中文图书英译、英文图书回译(back translation)、近义词替换添加、噪声注入等文本增强方法,基于9万册英文图书训练了20类中图分类号的图书分类模型。在测试集上,20类英文图书分类的总体正确率在86%以上。
【功能2:相似文献推荐】基于Fasttext文本向量,输入英文文献的名称、关键词,从59000多册英文文献中,推荐相似度高的20册文献。使用球树(ball tree)优化检索效率。
链接:https://pan.baidu.com/s/1mVG9xd9qbOGfgsB7CF6JIw
提取码:1234
在Windows环境下,下载后解压,点击app.exe即可使用。
farm 0.8.0
torch 1.8.1
transformers 4.6.1
Pillow 9.1.0
tkinter(python通常自带的库)
标注了**图书馆分类号的英文图书十分稀缺。我们通过中文图书英译、英文图书回译(back translation)等文本增强方法,基于9万册英文图书训练了20类中图分类号的图书分类模型。 在测试集上,总体的正确率(accuracy)达到90.69%。除E军事类、N自然科学综合类分类效果稍差,其他类别的分类F1分数均在80%甚至90%以上。具体如下表所示。
指标\类别 | 查准率precision | 查全率recall | F1值 |
---|---|---|---|
B哲学心理 | 0.9246 | 0.9191 | 0.9219 |
C社会科学综合 | 0.7837 | 0.8418 | 0.8117 |
D政治法律 | 0.9300 | 0.9238 | 0.9269 |
E军事 | 0.8571 | 0.7317 | 0.7895 |
F经济 | 0.9138 | 0.9149 | 0.9144 |
G文化科学教育 | 0.9118 | 0.8812 | 0.8962 |
H语言文字 | 0.9333 | 0.9744 | 0.9534 |
I文学 | 0.9211 | 0.8537 | 0.8861 |
J艺术 | 0.9071 | 0.9300 | 0.9184 |
K历史地理 | 0.8464 | 0.8435 | 0.8450 |
N自然科学综合 | 0.6842 | 0.6667 | 0.6753 |
O数理科学与化学 | 0.9163 | 0.9327 | 0.9244 |
P天文地球科学 | 0.8984 | 0.9350 | 0.9163 |
Q生物科学 | 0.8876 | 0.8815 | 0.8846 |
R医学卫生 | 0.9431 | 0.9469 | 0.9450 |
S农业科学 | 0.8788 | 0.9477 | 0.9119 |
T工业技术 | 0.9307 | 0.8969 | 0.9135 |
U交通运输 | 0.8072 | 0.9054 | 0.8535 |
V航空航天 | 0.8727 | 0.9057 | 0.8889 |
X环境、安全科学 | 0.8544 | 0.8800 | 0.8670 |
-
下载基于BERT的英文图书分类模型文件。链接:https://pan.baidu.com/s/11VY1mGjOsDvZT808f_1T7w 提取码:wq6l
-
安装好环境依赖后,将app.py与模型文件夹book_bert_english放置在同一目录下。运行app.py程序(最好使用命令行方式运行,速度更快一些),即出现英文图书分类小程序用户界面。
-
将待分类的英文图书信息(标题 关键词 摘要等)放置在一个txt文档中,点击小程序界面的“上传英文图书txt文件 每册书一行”按钮,选择上传该txt文档。稍等片刻,即可在窗口中出现自动分类结果。
-
点击“保存自动分类结果文档”按钮,将分类结果输出保存为txt文档。每行的格式为“图书文本 分类结果 分类概率”,字段之间用制表符分隔。可以直接复制粘贴到Excel文件中。