- 在现在这样一个大数据时代,新闻资讯作为获取信息的有效途径,存在信息冗杂、分类不清、表达不直观等问题,为此我们团队不断寻找创新新闻表现形式的突破口,最终发现了地图。它作为一类重要的信息载体,在信息展示方面具有直观、多维的特点。
- 由此,我们尝试将新闻与地图融合,借助百度飞桨,实现新闻在地图上的可视化表达。同时,根据新闻文本内容,我们可以尝试性地探究新闻情感、主题在时空上的分布特征。
- 使用Baidu AI Studio完成,项目链接:https://aistudio.baidu.com/aistudio/projectdetail/1301096
- 在本例中,我们首先载入示例数据
- 利用Senta模型对文本进行情感倾向分析,计算得到情感得分
- 利用LDA主题模型,对文本进行主题分析,得到各个主题的关键词分布以及新闻对应的主题
- 随后,利用飞桨进行命名实体识别,提取新闻中的地名,并结合百度地图进行地理编码
- 最后,我们使用Mapbox-GL对新闻进行地图的可视化,将之前的分析结果呈现在地图上
- 使用百度飞桨Paddle实现情感分析、分词、命名实体识别
- 使用百度地图完成地理编码
- 使用Gensim、Requests等库完成新闻主题分析
- 使用Mapbox-GL完成结果的地图可视化
- 本例中,我们提供了长江网上5月1日至5月5日的244条新闻作为示例数据
- 实际平台中,我们采用的是定时运行的分布式爬虫,结合新闻智能提取算法对各新闻源网站进行新闻提取。代码可以参考base_scrape.py
- 在本例中,我们仅演示了武汉地点名的提取,对于全国地点名的提取需要额外的处理步骤,可以参考geocoder.py