/word2vec_textrank

从中文文本中自动提取摘要

Primary LanguagePython

简介

1、本文中第一种方法是Word2vec+textrank,针对段落进行提取
2、第二种利用textrank4zh工具提取关键句,见脚本textrank4zh.py

安装环境

math
numpy
jieba
gensim
networkx
itertools
textrank4zh

摘要生成

本方法的摘要生成是抽取式,通过把段落训练词向量,得到句子的向量。再通过pagerank方法得到权重高的向量,从而得到对应的句子

示例

word2vec_textranl/word2vec_textrank.py:

content = '原标题:专访:俄方希望与中方寻找双边贸易新增长点——访俄罗斯工业和贸易部长曼图罗夫新华社记者栾海高兰<br>
“在当前贸易保护主义抬头背景下,俄方希望与中方共同应对风险,化消极因素为机遇,寻找俄中贸易的新增长点”,<br>
俄罗斯工业和贸易部长丹尼斯·曼图罗夫日前在接受     新华社记者专访时说。曼图罗夫表示,**一直是俄重要的战略协作伙伴。<br>
当前俄中关系保持快速发展,双方不断在贸易和工业领域寻找新的合作点。据他介绍,今年1月至7月,俄中双边贸易额同比增长超25%,达近600亿美元。<br>
曼图罗夫说,俄中两国正在飞机轮船和其他交通工具制造、无线电设备研发、制药和化工等工业领域开展合作。俄中投资基金支持了两国众多开发项目,投资方对该基金继续注资的兴趣十分浓厚。<br>
在回顾日前结束的第四届东方经济论坛时,曼图罗夫表示,这一论坛已成为俄与**和其他东北亚国家讨论重大经济合作议题的平台。<br>
“在本届论坛期间,俄方与海外企业共签署220项各类协议,协议总金额达3.1万亿卢布(1美元约合66卢布)”。<br>
曼图罗夫说,俄工业和贸易部在本届论坛上与俄外贝加尔边疆区的一家矿业公司负责人进行磋商,以落实中方企业持有该公司股份的相关事宜。根据相关协议,俄中企业将在外贝加尔边疆区的金矿区联合勘探。<br>
据俄方估算,这一俄中合作项目有望年产黄金约6.5吨,在2020年前使该边疆区贵金属开采量比目前增加约40%,从而有力促进当地经济发展。责任编辑:张义凌'

print(do(content))

运行结果如下:

 关键句:
 当前俄中关系保持快速发展,双方不断在贸易和工业领域寻找新的合作点。<br>
 据他介绍,今年1月至7月,俄中双边贸易额同比增长超25%,达近600亿美元。俄中投资基金支持了两国众多开发项目,投资方对该基金继续注资的兴趣十分浓厚。


textrank4zh.py:
运行结果如下: 摘要: 0 0.10636689669924555 原标题:专访:俄方希望与中方寻找双边贸易新增长点——访俄罗斯工业和贸易部长曼图罗夫新华社记者栾海高兰 “在当前贸易保护主义抬头背景下,俄方希望与中方共同应对风险,化消极因素为机遇,寻找俄中贸易的新增长点”,俄罗斯工业和贸易部长丹尼斯·曼图罗夫日前在接受新华社记者专访时说
8 0.0961579730882088 曼图罗夫说,俄工业和贸易部在本届论坛上与俄外贝加尔边疆区的一家矿业公司负责人进行磋商,以落实中方企业持有该公司股份的相关事宜
4 0.09384810578387712 曼图罗夫说,俄中两国正在飞机轮船和其他交通工具制造、无线电设备研发、制药和化工等工业领域开展合作