LowinLi/Text-Summarizer-Pytorch-Chinese

最近又尝试新的模型吗?

Closed this issue · 5 comments

跟你用的同样的数据集,ernie-gen结果好像好点

输入: ['国务院大部制机构改革方案10日公布铁道部并入交通部政企分开建铁路总公司被媒体称为末任铁道部部长的盛光祖表示铁道部虽然将被撤销但铁路职工不存在安置问题也不会裁员铁路票价一直偏低今后要按照市场规律按照企业化经营的模式来定票价']
输出: ['盛光祖:铁路票价一直偏低']

输入: ['百盛青岛啤酒城项目金狮广场已现雏形外墙醒目的大字预示着这里将来的商业繁荣百盛14亿收购青岛购物中心相关消息称百盛未来新开门店将以店中店和购物中心为主不再开设单体百货外资第一百货品牌百盛也开始走自我转型的道路']
输出: ['百盛 14亿收购青岛购物中心不再开设单体百货']

输入: ['正快速老龄化的**将拥有世界上最大的老龄产业市场到2050年**老年人口的消费潜力将增长到106万亿元左右GDP占比将增长到33%老龄金融业和老龄房地产业将是增长的两大亮点今天上午全国老龄工作办发布了最新的**老龄产业发展报告']
输出: [' 2050年**老龄人口消费潜力将达 106万亿元']

但是有些致命问题也无法避免,最近有什么好的方法吗?

什么致命问题?

什么致命问题?

生成式摘要总会有可能生成题不对文的问题,我用ernie-gen训练的结果rouge评分比您的高两三分,在实际场景中还是会出现完全不对题的问题

什么致命问题?

生成式摘要总会有可能生成题不对文的问题,我用ernie-gen训练的结果rouge评分比您的高两三分,在实际场景中还是会出现完全不对题的问题

机器生成摘要,不可避免会产生一部分人看到后,完全没办法理解的文本。直观感觉,如果在实际场景的特定领域内,添加大量的摘要训练数据,也许会减少这个“致命问题”占比。

跟你用的同样的数据集,ernie-gen结果好像好点

输入: ['国务院大部制机构改革方案10日公布铁道部并入交通部政企分开建铁路总公司被媒体称为末任铁道部部长的盛光祖表示铁道部虽然将被撤销但铁路职工不存在安置问题也不会裁员铁路票价一直偏低今后要按照市场规律按照企业化经营的模式来定票价']
输出: ['盛光祖:铁路票价一直偏低']

输入: ['百盛青岛啤酒城项目金狮广场已现雏形外墙醒目的大字预示着这里将来的商业繁荣百盛14亿收购青岛购物中心相关消息称百盛未来新开门店将以店中店和购物中心为主不再开设单体百货外资第一百货品牌百盛也开始走自我转型的道路']
输出: ['百盛 14亿收购青岛购物中心不再开设单体百货']

输入: ['正快速老龄化的**将拥有世界上最大的老龄产业市场到2050年**老年人口的消费潜力将增长到106万亿元左右GDP占比将增长到33%老龄金融业和老龄房地产业将是增长的两大亮点今天上午全国老龄工作办发布了最新的**老龄产业发展报告']
输出: [' 2050年**老龄人口消费潜力将达 106万亿元']

但是有些致命问题也无法避免,最近有什么好的方法吗?

请问你是自己用ernie-gen编写的摘要生成吗?还是有开源的项目?

跟你用的同样的数据集,ernie-gen结果好像好点
输入: ['国务院大部制机构改革方案10日公布铁道部并入交通部政企分开建铁路总公司被媒体称为末任铁道部部长的盛光祖表示铁道部虽然将被撤销但铁路职工不存在安置问题也不会裁员铁路票价一直偏低今后要按照市场规律按照企业化经营的模式来定票价']
输出: ['盛光祖:铁路票价一直偏低']
输入: ['百盛青岛啤酒城项目金狮广场已现雏形外墙醒目的大字预示着这里将来的商业繁荣百盛14亿收购青岛购物中心相关消息称百盛未来新开门店将以店中店和购物中心为主不再开设单体百货外资第一百货品牌百盛也开始走自我转型的道路']
输出: ['百盛 14亿收购青岛购物中心不再开设单体百货']
输入: ['正快速老龄化的**将拥有世界上最大的老龄产业市场到2050年**老年人口的消费潜力将增长到106万亿元左右GDP占比将增长到33%老龄金融业和老龄房地产业将是增长的两大亮点今天上午全国老龄工作办发布了最新的**老龄产业发展报告']
输出: [' 2050年**老龄人口消费潜力将达 106万亿元']
但是有些致命问题也无法避免,最近有什么好的方法吗?

请问你是自己用ernie-gen编写的摘要生成吗?还是有开源的项目?

有其他方法,基于ernie1.0的ernie-gen不太行