本项目所采用的数据采集于杭州移动3G网络,网络拓扑和数据采集结构如图所示。在用户移动设备(User Equipment/UE)连接到互联网(Internet)的过程中主要经过了三个环节,包括无线电接入网(Radio Access Network)、核心网(Core Network)和公用网(Public Network)。移动收发基站(Base Transceiver Station/BST)首先将用户数据转发到基站控制器(Base Station Controller/BSC),之后在核心网中,数据包通过Gb接口被路由到业务GPRS支撑结点(Serving GPRS Support Nodes/SGSN),之后被路由到网关GPRS支撑结点(Gateway GPRS Support Nodes/GGSN), 网关GPRS支撑结点提供了内部移动网络和外部互联网之间的连通性,IP数据包通过Gn接口同时被转发到网络流量挖掘平台(Network Traffic Mining Platform/NTMP),经过深度包检测(Deep Packet Inspection/DPI)抽取得到HTTP日志及相关信息,上传并存储于分布式数据仓库HDFS。
本项目所采用的数据集包含2012年8月16至28日大约两周的数据,数据包含移动用户识别码(IMSI)、用户上网过程所所连接基站的位置区编码(LAC)联合小区标识(CI),以及HTTP请求的参数包括时间戳等。本项目通过IMSI字段区分不同用户,并将LAC 联合CI 与基站位置数据相关联转换成为经纬度坐标,结合HTTP请求对应的时间戳即得到用户轨迹。原始数据量约为500GB,采用Spark对数据进行数据融合和统计分析,数据集基本情况如表所示。
本项目首先针对群体时空模式进行挖掘。如图是基站在研究区域范围内分布密度的统计图。可见,城市中心区域的基站分布的密度较大而郊区分布密度较小。一般而言,移动3G网络基站的空间覆盖范围最大可达数百至数千米,因此,本项目研究城市空间区域基本能够被基站完全覆盖。
如图是按小时为时间粒度进行统计的工作日和双休日,城市总接入用户的平均数统计。可见,白天(8时至18时)接入的用户总数较多,而夜间相对较少,同时工作日接入的用户总数较双休日略多。
- 空间点模式分析
本项目针对城市区域的研究采用了网格分隔法,是指对城市空间区域按照网格进行切分,将地理空间切分成为均等大小的方块,并基于不同网格分块内的用户行为统计对城市空间和居民的时空行为在大尺度范围内进行研究。经实验对比,网格切分的空间粒度选为200至500米最为适宜,一方面能够与基站的定位精度相匹配,另一方面能够保证大多数网格区域内都具有一定的用户数量,使得统计特性得到满足。
平面空间点模式分析,是指对空间内大量点的分布规律进行刻画,所使用的方法通常可以被归为两大类,分别用于检测空间过程的一阶或二阶影响。检测空间过程的一阶影响,是指研究点分布的均值随空间位置变化而变化的过程,通常使用的方法是核密度估计(Kernel Density Estimation);检测空间过程的二阶影响,是指对点分布在空间内的相互依赖关系进行考察,通常使用的方法是Ripley’s K函数,该函数使用研究范围内两点之间的距离来对空间点的聚集模式进行度量。基于空间点模式进行分析,能够揭示出城市人口在城市空间内分布的基本规律。
如图是针对单日用户连接总数的核密度进行估计的结果,反映出城市空间范围内人口分布密度情况,可见,西湖周边区域作为城市的核心区域人口分布较为密集,而向四周逐渐呈现出扩散递减的趋势。
研究空间过程的二阶影响还可以使用L函数,它是K函数的一个变形,可以用来衡量空间点分布模式随空间尺度变化的规律,优点是能够保持方差相对稳定。如图是工作日和双休日采用L函数得到的统计结果,可见,城市人口分布在空间上呈现出明显的聚集性,并且工作日更为凸显,根据函数的峰值可以推断,城市人口的特征空间尺度约为6200米左右。
- 群体移动性分析
如图是人口移动距离随时间变化的统计结果,时间窗口粒度为一个小时,图中的箱线图包含了五个主要统计量:最小值、中位数、最大值,以及第一四分位数和第三四分位数,揭示出了数据的基本分布情况,可见,城市人口在工作日相对于双休日的移动平均距离更大,并在早、晚高峰均凸显出较为明显的通勤特征,符合客观规律。
如图是城市人口单日内移动方向和距离的统计结果,图中对每个用户均在两个相邻的时间窗口的近似位置进行连线,并按照东、南、西、北、东南、东北、西南、西北八个方向进行分类统计每个方位角度范围内的平均移动距离。如图分别选取了位于市中心东(C)、南(D)、西(A)、北(B)、中间(E)五个不同地点进行观测,每个方位均对应了一个雷达图,图中各个方向的半径分别表示了单日内人口向各个方向转移距离的期望,可见,从区位关系上看,各个地点的转移方向均不同程度偏向中心城区,说明中心城区也是城市职能的强中心。
- 热点区域分布
热点区域是指在时间窗口W内,人口分布最为密集的区域,可以用该时间窗口内连接某区域内所有基站的总人数作为该窗口内该区域的人口密集的估计,并将所有区域中人口密集最高的前百分之X的区域定义为该时间窗口内的热点区域。研究热点区域(人口最为稠密区域)发生的时空模式对城市规划,城市空间的组织和结构调整,以及相关公共资源都有重要的指导意义。城市交通的阻塞与热点区域的发生密切相关,如果不能对热点区域进行良好的检测和管控,将极有可能导致踩踏事件等类似悲剧的发生。理解热点区域的发生规律,将有助于优化城市交通设施的建设,城市公共设施例如网络基站的部署,同时能够作为进一步挖掘的基础,对城市人口激增情况进行预测与预警。
如图分别是对工作日、双休日以及白天、夜间各个时间段统计出的单日内热点区域出现的空间位置与频率,其中柱形高度正比于该区域成为热点区域出现的总时长,可见,城市的热点区域对应于城市的核心区域,杭州市区与西湖相邻的东北区域是白天热点区域的高发区域,该区域一方面承担了城市主要商业区的功能,另一方面也是城市的主要交通枢纽,与其南北相邻的两块区域则是夜间热点区域的高发区域,这部分区域以住宅区为主,工作日人口活动区域相对比较集中,双休日较为发散,与人类活动规律相符。
为了更为清晰的对热点区域出现的时空可能存在的周期模式进行研究,采用K-Means聚类方法对各热点区域中热点出现的时间序列进行聚类。如图显示了某周内各个热点区域热点出现的时间分布,若某区域是时间窗口内的热点区域,则用有色色块进行标注,可见,热点主要分为三种模式,白天出现(对应区域可推测为商业区),夜间出现(对应区域可推测为住宅区),突发出现(可能与突发事件相关,例如活动的开展等)。
- 区域人流更迭速率
更迭速率是对单位时间内人口变化程度的度量,可以采用相邻时间窗口内包含的人口差集的大小与人口的并集的大小的比值进行估计。研究人流更迭速率的时空模式有助于从宏观层面对城市的动态情况进行实时监控,基于人流更迭速率能够对城市道路的行车速率进行估计,从而反映出道路的拥堵情况,及时进行交通管控,同时能够有效发现城市区域规划或道路规划中可能存在的不合理之处,经实地调查之后做出相应调整,还有助于理解城市人口的通勤需求,对各种交通资源的配置进行优化。本项目基于网格法对城市不同区域的人流更迭速率分别进行统计,并对比了不同一天内,不同时段不同区域的人流更迭速率,并进行分析和合理推测。
如图是对一天内不同时段各区域人流更迭速率的统计结果。上午8时及下午6时对应了一天内通勤的早高峰和晚高峰,相对于中午和夜间时段人流更迭速率更高,同时,人流更迭速率相对较高的区域和城市的主要道路高度重合,这一方面是因为在通勤过程中不同于室内,没有固定网络例如WiFi网络,因此更多用户会采用3G上网,同时在通勤过程中随着用户位置不断变化,连接的基站也不断切换,因此相同区域中不同时间窗口内用户的重叠度较低。
如图是对工作日与双休日所有时段的人流速率进行正则化后的结果,可见,白天的人流速率明显高于夜间,同时在早晚高峰达到最高,双休日的人流速率低于工作日,早晚通勤行为并不明显。因此,工作日的早晚高峰是进行交通管制的必要时段,同时针对不同区域的监控进行异常点检测,还能有效侦测出城市中的交通异常情况,并及时进行疏导,方便人们出行并避免灾难的发生。
- 区域差异指数与区域间相似性
差异指数是指某区域人口密度的天内分布相对于城市所有区域人口密度的天内分布的差异。差异指数反应的是某区域相对于城市整体而言的特异性。需要注意的是,这里所指的人口密度并不是真实人口密度,而是通过区域内连接基站的总人数估计出的人口密度,由于夜间相对于白天使用移动网络的人口数量下降,因此一天内城市总人口密度存在涨落。
如图是针对工作日一天内不同时间城市各区域差异指数进行统计并经过正则化后的结果,其中每个子图对应一个时间窗口,包括白天、夜间、早晚高峰等典型时段,各子图表达了差异指数在空间中的分布情况,红色区域和蓝色区域分别对应了人口分布相对密集和稀疏的区域,区域红色越深表示人口分布越密集,越蓝表示人口分布越稀疏,需要注意的是图中仅对人口相对稠密的区域进行统计,部分郊区人眼稀少,差异指数随时间波动严重导致度量不准确。如图可见,夜间时段人口较为密集的分散在杭州市周边区域,而白天时段则较为密集的集中于中心区域,显示出城市人口流动的潮汐效应。
如图首先选取了三个典型的区域进行研究,其中A、B、C三个地点分别对应艮秋立交桥、黄龙时代广场、三塘北村东区。艮秋立交桥是杭州市通勤区域的典型代表,位于杭州市交通主干道交叉路口处;黄龙时代广场是杭州市典型的商业区;三塘北村东区是杭州市典型的住宅区,分别对应了杭州市区三种不同的主要功能区域。
如图是三个典型区域的差异指数随时间的变化的分布统计,可见,以艮秋立交桥为代表的城市交通勤区域在早、晚高峰人口分布均呈现出明显的密集性,而以黄龙时代广场为代表的城市商业区和以三塘北村东区为代表的城市住宅区则分别在白天和夜间呈现出密集性。
借助差异指数,能够分析城市不同区域的功能特征。根据对典型区域的研究结果,城市中交通要道对应区域在早、晚高峰的通勤时段人口分布将会相对密集,在商业区或办公区,工作日白天等上班时段人口分布将会相对密集,在住宅区或休闲娱乐区域,非工作时段人口分布将会相对密集,因此采用了聚类的方法以各区域差异指数的时间序列作为特征进行聚类,将具有相似差异指数序列(及对应相同功能)的区域聚在一起,挖掘得到不同功能区域在城市空间中的分布情况。
以下是以各功能区域差异指数的时间序列作为特征进行K-Means聚类的结果。如图是不同类别区域在城市空间中的分布情况。三种不同颜色对应了三种不同类别的区域,根据三种不同类别区域的空间分布情况,结合城市规划的先验知识,可以推测出,三种不同颜色的区域分别对应了城市中的通勤区、办公区及商业区、娱乐休闲区及住宅区,这三种典型的城市功能区域。
如图是三种不同类别区域的差异指数的均值随时间的变化情况,可见,各个聚类中心的差异指数随时间的变化情况,和上图中三个典型区域的差异指数随时间的变化情况一一对应,印证了之前对三种类别区域功能的假设。
基于差异指数还能够进一步计算出不同区域之间的相关性。一般而言,具有相同功能的区域之间由于差异指数的时间序列类似,因此具有正相关关系,不同功能区域之间可能相关性较弱或因为功能存在互补性而呈现出负相关关系。通过考察区域之间相关关系同区域距离之间的关系,能够获知功能区域分布的集中或分散程度,不同功能区域如果分布较为集中,则可能出现类似北京回龙观等超大规模城区,导致巨大钟摆式的通勤现象,给城市交通造成了很大隐患,不同功能区域如果分布较为分散,则会给城市管理造成更大困难,成为城市发展的阻力。
如图是城市不同区域之间的相关性以及区域之间距离关系的回归结果,其中,横坐标是区域之间的距离,采用对数坐标,纵坐标是区域之间的相关性。通过观察,发现区域间相关性与距离存在负对数线性关系。图中的实线是计算出的真实值,虚线是进行对数拟合的结果,可见,在4000米距离尺度范围内区域间呈现出正相关关系,大于4000米则呈现出弱负相关性。