随着信息通讯技术的不断发展,各行各业都产生了海量的数据,与此同时,一门新的学科应运而生—— 数据挖掘。数据挖掘是从大量数据(包括文本数据)中挖掘出隐含的、先前未知的、对决策有潜在价值的信 息、知识和关联关系,并基于这些信息和相应规则建立可用于决策支持与优化分析的模型,提供可支持预测 性决策的方法和工具。此外,数据挖掘还可帮助企业和科研团体发现业务与学科中的新趋势,揭示已知的 事实,预测未知的结果,因此“数据挖掘”已成为其保持竞争力的必要手段。
在大数据发展的背景下,交通领域的各类大数据同样以惊人的速度产生,并被应用于各种各样的应用 场景。例如,基于手机信令数据分析城市人口分布及交通出行分布特征,从而为交通规划的进一步决策提 供量化依据;利用网约车数据分析城市路网流量,进而优化信号配时方案,提升交通控制方案的效率;利用 线圈、视频、浮动车等多源数据,实现对路网交通状态的识别和实时监控等;利用公交IC卡数据和公交GPS 数据推算公交乘客的出行OD矩阵,进而诊断公交线路的瓶颈站点和瓶颈断面,为公交线路优化与运营管理 提供决策依据。
在对交通大数据的处理过程中,面对规模庞大的交通大数据,交通工程师和研究者所面对的数据日益 纷杂,传统的数据分析技术在一些方面存在种种局限性。这种局限性往往是由于大数据本身的多源性、庞 杂性、紧迫性等特点带来的。如果没有强有力的工具,我们将难以有效理解数据,造成“数据丰富,知识贫 乏”的窘境。因此,需要新的理论知识和数据挖掘方法来指导我们有效分析大数据,进而构建基于大数据的 新一代交通工程方法与理论体系。针对这一问题,在大数据时代应运而生的机器学习、统计模型、数据库等 方法和工具可以帮助交通领域的研究者和从业者对大数据进行有效的挖掘,本书也在这一需求下应运 而生。
现有的数据挖掘方法和工具在交通领域的应用还存在一定的局限。为了有效克服这些问题,本书选择 了合适的数据挖掘工具,结合相应的机器学习和深度学习算法探索有效的数据分析方法。更重要的是,作 为一本面向交通运输工程专业的数据分析类教材书,本书结合了交通领域的大量实例,对各类理论方法与 分析工具的学习提供了诸多参考,非常有助于交通工程专业背景的初学者迅速、深入掌握各类大数据分析 的工具与方法。
书稿代码可以在各章节文件夹内的配套代码
中获取。
本书现提供部分慕课教学视频供读者参考学习,暂通过百度网盘进行分享,文件提取密码均为tlab。该套慕课视频正在持续建设中,未来将不断更新。
- 第5章 机器学习简介
- 第7章 支持向量机
- 第8章 决策树
本书为了方便读者的使用,将数据集分别命名为DATASET-A以及DATASET-B。 其中DATASET-A是2016年11月1日至2016年11月30日的网约车原始轨迹数据, 读者可以访问滴滴盖亚数据开放计划, 选择“2016年11月成都市二环局部区域轨迹数据”进行下载。DATASET-B是在 原始轨迹数据基础上,进行网格化和特征提取后的衍生数据,读者可以访问 样例数据获取数据处理代码。 对于无法顺利获取数据的读者,为了帮助大家进行各类算例的实践操作,编者又进一步利用随机数生成了一套数据集,命名为DATASET-C。
原始数据是.tar.gz
压缩包格式,一天的网约车数据存储在一个压缩包内,共计30个压缩包。
每个压缩包中包含两个文件,例如2016年11月1日的数据压缩包包含order_20161101
和
gps_20161101
两个文件,其中order_xxxx
为订单数据,gps_xxxx
为轨迹数据,
本书主要使用轨迹数据。读者将所有压缩包下载完成后,需将各个压缩包中的轨迹数据解压到
同一文件夹中。
DATASET-A为2016年11月1日的原始轨迹数据gps_20161101
。
DATASET-B为原始数据经过网格化和特征提取后的衍生数据,需使用本项目下的
generate_dataset.py
自行生成。使用该代码,需要在命令行中输入如下命令:
python generate_dataset.py -d [数据存储地址]
读者可使用以上代码,自动生成DATASET-B.csv
文件,其中[数据存储地址]
需要替换为数据所在文件夹的地址,例如,若数据存储在C:\Users\Administrator\Desktop\data\
目录下,则需要使用命令python generate_dataset.py -d C:\Users\Administrator\Desktop\data\
。
此外,读者也可以将该代码直接复制到数据所在文件夹,然后输入命令python generate_dataset.py
即可。
DATASET-C为按一定规则随机生成的数据,包含DATASET-C-A.csv
和DATASET-C-B.csv
,可以分别替代DATASET-A和DATASET-B进行本书涉及的各项操作。
该数据可从以下百度网盘链接获取,点击此处下载,提取码为:tlab。