/2016ESRI-web-C280

2016ESRI杯中国大学生GIS软件开发竞赛web与移动开发组特等奖,基于社会感知的酒店竞业市场分析可视化系统

Primary LanguagePython

基于社会感知的酒店竞业市场分析可视化系统

众源时空信息聚合平台

##开发者信息:

滁州学院 13地信 吴凯鹏 刘洋 彭少伟 李伟伟

##1 作品简介: 本作品聚焦对接高星级酒店内外部众源信息平台中的各类异构异源数据,如用户关注行为所引发的需求数据、兴趣行为所引发的偏好数据、搜索行为所引发的行为数据和评论行为所引发的口碑数据,采用信息抽取、自然语言处理、地理信息时空挖掘等技术方法,在对用户情感、关注观点、酒店服务质量和酒店价格趋势等分析的基础上,对内进行酒店实体质检分析,对外进行面向城市、商圈、酒店群空间尺度的竞业市场分析,为高星级酒店提供运营监控、竞业分析、酒店对比和城市市场分析功能。
系统主要包括:基于网络口碑为酒店提供实时性的全网舆评监控服务和酒店内部运营质检功能,挖掘点评信息价值,帮助酒店管理者维护在线声誉;通过OTA(Online Travel Agent在线旅游服务商)、社交媒体等站点数据来源提取酒店用户轨迹,通过价格、流出数和服务区等分析,为酒店发现潜在竞争对手;通过对酒店实体特征、价格、历史订房数的对比,帮助酒店管理人员多角度分析酒店特点,借此提升酒店运营质量;分析城市空间结构、景点关联等情况,为酒店提供行面向城市、商圈、酒店群的特征可视化。

##2 需求分析: 目前,**在线酒店市场保持着快速的发展模式,然而在在线酒店经营管理中,酒店业整体经营情况面临着巨大考验,供求失衡、政策紧缩、恶性竞争、在线平台带来的冲击等导致大量酒店无法保持原有的销售体系,生存空间频频受到挤压。在这样一个供求关系剧变的市场中,酒店亟须快速响应市场,推出差异化的产品和服务,在多面夹击的竞争环境中占据一席之地。
我们从在线酒店的特点入手,围绕用户选择和入住酒店的整个过程,将酒店业分为住前、住中和住后环节,不同环节均有不同的数据来源。住前数据即用户入住前的选择行为数据,例如搜索、浏览、预订行为等,这些数据反映整个市场需求和用户偏好。住中数据即酒店在用户入住过程中形成的数据,这些数据反映酒店的当前及历史经营状况。住后数据即用户住后的反馈数据,例如用户点评、调查问卷等,反映酒店的产品及服务的价值。我们注意到,通过对这些数据进行挖掘,可以有效解决在线酒店业中信息不畅,客源失控等问题,但由于酒店行业的封闭性,导致该行业对数据的利用程度十分低下。
所以,根据北京大学刘瑜教授提出的“社会感知”概念,我们将酒店时空大数据作为感知城市酒店经济发展的工具,通过对在线酒店相关数据进行爬取处理并提取特征,以GIS方法分析酒店竞争关系,使用ArcGIS平台进行功能的快速开发,构建酒店竞业市场时空可视化分析系统。基于大量用户行为数据分析其中蕴含的价值,帮助酒店改善自己的经营活动和经营理念。

##3 作品亮点: 网络口碑数据:系统拥抱多渠道、开放的酒店众源评论数据,克服文本分析中数据结构化的难点,采用自然语言处理技术对点评进行情感值分析和领域特征值观点抽取,建立酒店的网络口碑模型。
适应发展趋势:系统落脚于时下热门的大数据,紧跟酒店行业互联网化发展趋势,抓住OTA、PMS和数据挖掘融合的机会,打造具有特色的竞业市场时空挖掘与决策支持系统。
把握行业需求:探索互联网转型下用户行为变化的盲区,抓住用户行为和习惯在酒店营销决策上的重要性,提出行之有效的统一管理功能,提供多方位有深度的决策信息辅助。
时空挖掘分析:系统区别于专注于文本分析的数据挖掘公司,也不仅仅局限于数据的统计分析,将融合酒店属性信息与酒店相关的位置信息,开展时空分析视角,聚焦城市区域尺度下大数据的时空挖掘与分析。
综上,作品基于多渠道开放的酒店众源评论数据,抓住OTA、PMS和数据挖掘融合的机会,把握互联网转型下酒店行业的迫切需求,面向更为垂直的中等时空尺度下的酒店群进行时空信息挖掘,在对用户情感、关注观点、酒店服务质量和酒店价格趋势等分析的基础上,结合面向城市、商圈、酒店群空间尺度的竞业市场分析,解决互联网冲击下酒店服务业对用户需求和用户行为的失联问题。

##4 总体设计: 4.1系统架构
通过对在线旅游服务商、微博网站等目标站点进行分布式数据爬取和信息抽取,实现特征词观点抽取、情感值分析等处理。基于建模数据,采用服务区分析、核密度分析等GIS技术分析数据的时空特点,使用数据可视化手段展示数据背后的含义。最后,面对互联网冲击下酒店服务业对用户需求和用户行为的失联问题,为高星级酒店提供运营监控、竞业分析、酒店对比和城市市场分析功能。
![Alt text](https://github.com/18010927657/ESRI2016-C280/raw/master/Screenshots/1 系统架构图.png)
图1 系统架构

4.2后端设计
后端架构主要分为三个部分:数据爬取层、数据处理层、服务发布层。
4.2.1数据爬取层
我们基于Redis内存数据库,构建分布式集群用于数据的抓取,其架构图如下所示:
![Alt text](https://github.com/18010927657/ESRI2016-C280/raw/master/Screenshots/2 爬虫系统架构.png)
图2 分布式爬取系统架构

4.2.2数据处理层
在数据处理上,我们专注于自然语言处理中的特征词观点抽取和情感值分析。在特征词观点抽取上,我们在THULAC工具的分词和词性判读基础上,采用了基于词共现的特征词抽取方法,利用统计特征词与观点词的共现频率,具体采用PMI互信息计算方法对观点词的属向进行判读。情感值分析上,我们首先通过对酒店评论数据的抓取,获取到酒店评论语料,通过人工筛选得到约五万条正面评论语料、四万条负面评论语料,最后基于贝叶斯公式建立朴素贝叶斯情感分类器,使用拉普拉斯进行归一化处理得到情感值。
![Alt text](https://github.com/18010927657/ESRI2016-C280/raw/master/Screenshots/5 特征词提取流程.png)
图3 特征词提取流程
![Alt text](https://github.com/18010927657/ESRI2016-C280/raw/master/Screenshots/4 情感值分析.png)
图4 情感值分析

4.2.3服务发布层
为了快速功能的快速开发以及爬虫项目管理的考虑,我们统一使用了Python语言作为我们的后端编写语言,通过Flask框架,在虚拟环境搭建了一个轻量的后端服务,通过MySQL进行数据管理,其中还使用内存型数据库Redis作为缓存层,借助其优秀的性能对大批量访问的服务进行缓存处理。
我们使用了ArcGIS Server进行地理服务的管理,其中酒店数据通过要素服务的发布,轮询其Rest接口使用地理数据的增删改查。系统架构如下:
![Alt text](https://github.com/18010927657/ESRI2016-C280/raw/master/Screenshots/6 服务发布框架.png)
图5 服务发布框架

##5 功能模块描述 5.1运营监控
基于网络口碑为酒店提供实时性的全网舆评监控服务和酒店内部运营质检功能,挖掘点评信息价值,帮助酒店管理者维护在线声誉,该模块功能包括:①评论监控,一站式管理查看酒店评论信息,高亮展示酒店评论实体词评价。②运营质检,实时检查分析评论数据,发现酒店内部运营问题,辅助酒店维修工作。③舆评监控,通过GeoEvent对接社交平台,对酒店品牌、酒店名、酒店位置等因素多方位进行实时舆情监控。
![Alt text](https://github.com/18010927657/ESRI2016-C280/raw/master/Screenshots/4.4 运营质检.jpg)
图6 运营质检

5.2竞业分析
通过OTA、社交媒体等站点数据来源提取酒店用户轨迹,通过价格、流出数和服务区等分析,为酒店发现潜在竞争对手。功能主要有:①基本信息展示,通过领域特征词和观点词的挖掘,结合观点可视化手段,清晰迅速地展示领域特征词所对应的用户评价观点,展示酒店情感、评分统计和形容词词云。②竞争分析,通过用户轨迹抽取酒店客户流出多发位置,然后以相似价格定位作为特征获取高相似价格定位和高客户流入的目标酒店,最后通过服务区分析查看目标酒店与自身酒店服务区的重叠情况,从而为酒店发现潜在竞争对手。
Alt text
图7 情感统计
Alt text
图8 观点统计
Alt text
图9 用户来源图
Alt text
图10 局部轨迹图
Alt text
图11 潜在竞争服务区分析
![Alt text](https://github.com/18010927657/ESRI2016-C280/raw/master/Screenshots/1.4.2 客源流出计算.PNG)
图12 客源流出计算
Alt text
图13 用户轨迹

5.3 酒店对比
通过对酒店实体特征、价格、历史订房数的对比,帮助酒店管理人员多角度分析酒店特点,借此提升酒店运营质量。
Alt text
图14 酒店对比
Alt text
图15 房价监控

5.4城市市场分析
分析城市空间结构、景点关联等情况,为酒店提供行面向城市、商圈、酒店群的特征可视化。该模块功能如下:①订房热度,该功能依赖于ArcGIS Server中发布的GP服务,模型流程为:利用渔网工具生成渔网点,据此使用泰森多边形工具生成蜂窝六边形,然后通过点和面的叠置分析获悉城市订房热度分布情况,借此商家可以了解城市的订房变化情况。②服务覆盖分析,本功能基于酒店发布在各大OTA上的详细信息,通过网页爬取,文本抽取的方式,获取到酒店信息发布者对周边设施的主观认知,通过地理编码服务进行分析,从而绘制得到酒店发布者主观认知下的酒店与周边设施OD网络,据此分析酒店最远周边设施,绘制最远设施服务覆盖。③景点关联分析,通过该功能可以查看客源轨迹分布情况,同时可以分析其与景点的关联从而发现该酒店与景点的关联情况。
Alt text
图16 订房蜂窝热度图
Alt text
图17 景点关联图
Alt text
图18 设施最远覆盖图