描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787302611967
交通领域需要有一本图书能够系统地梳理交通时空数据处理中所涉及的各种基
础知识,总结数据处理过程中的各类解决方案,介绍如何用跨学科的方法从数据中挖掘出
有价值的信息
基 础 篇
第1章 绪论 2
1.1 多源交通时空大数据简介 2
1.1.1 传统集计统计数据 3
1.1.2 个体连续追踪数据 4
1.1.3 地理空间信息数据 5
1.2 为什么要用Python处理交通大数据 6
1.2.1 常用数据处理技术 6
1.2.2 Python在交通大数据领域中的优势 8
1.2.3 Python与SQL的比较 9
1.3 大规模数据处理的解决方案 9
1.3.1 决定大数据处理性能的三个硬件要素 9
1.3.2 分布式数据处理架构 11
1.4 本章习题 14
第2章 Python数据处理基础 15
2.1 Python的环境配置 15
2.1.1 Python的集成开发环境 15
2.1.2 Anaconda的安装 16
2.1.3 Jupyter Notebook的使用 16
2.1.4 Python第三方库的安装 18
2.2 Python基本语法 19
2.2.1 对象与变量 19
2.2.2 运算符 20
2.2.3 内置数据类型 20
2.2.4 语句 24
2.2.5 函数 26
2.2.6 包的使用 27
2.2.7 数据分析常用第三方库简介 28
2.3 pandas数据处理基础 29
2.3.1 数据文件的编码格式与存储形式 30
2.3.2 数据表的行列处理 33
2.3.3 数据的表格运算 41
2.4 时空大数据的处理思维 46
2.4.1 复杂数据处理任务的解决思路 46
2.4.2 数据处理任务分解实例:地铁换乘量识别 49
2.5 数据处理中表格运算的常用技巧 51
2.5.1 分组编号 51
2.5.2 去除重复的记录 53
2.5.3 个体ID重新编号 54
2.5.4 生成数据之间的对应表 55
2.5.5 时空插值 58
2.6 本章习题 60
2.6.1 思考题 60
2.6.2 Python基础代码练习 60
2.6.3 pandas基础代码练习 62
第3章 数据可视化基础 64
3.1 可视化的基本原则 64
3.1.1 为什么要可视化 64
3.1.2 可视化的基本原则 65
3.1.3 可视化中需要注意的问题 69
3.2 可视化的颜色选择 69
3.2.1 可视化的配色为什么重要 69
3.2.2 可视化的颜色色相的选择 70
3.2.3 颜色空间 72
3.2.4 Brewer调色板 73
3.3 可视化的图表类型 75
3.3.1 可视化图表的类型与选择思路 75
3.3.2 对比型图表 77
3.3.3 趋势型图表 82
3.3.4 分布型图表 86
3.3.5 构成型图表 95
3.3.6 联系型图表 98
3.4 可视化的技术与工具 101
3.4.1 常用可视化工具简介 101
3.4.2 Web数据可视化技术 102
3.4.3 时空大数据的Web可视化 105
3.5 本章习题 107
第4章 地理信息处理基础 108
4.1 GIS的基本概念 108
4.1.1 什么是GIS 108
4.1.2 互联网 GIS:基于位置的服务LBS 109
4.1.3 常用的GIS工具 110
4.2 空间数据的基本概念 112
4.2.1 空间数据结构 112
4.2.2 空间数据文件 114
4.3 坐标系的基本概念 118
4.3.1 地理坐标系与投影坐标系 118
4.3.2 火星坐标系 123
4.3.3 地理空间数据的坐标系定义与转换 124
4.4 栅格化 126
4.4.1 为什么数据需要栅格化 126
4.4.2 栅格化的基本原理 127
4.5 地图底图 131
4.5.1 瓦片地图:Web地图的加载原理 131
4.5.2 Python中地图底图的加载 132
4.6 本章习题 134
第5章 网络爬虫基础 135
5.1 网络爬虫的基本概念 135
5.1.1 什么是网络爬虫 135
5.1.2 为什么要用爬虫 136
5.1.3 爬虫的注意事项 137
5.2 网络加载、请求与解析 138
5.2.1 网页的加载 138
5.2.2 网页的请求 140
5.2.3 网页的解析 146
5.3 开放平台 150
5.3.1 什么是开放平台 150
5.3.2 什么是API和SDK 150
5.3.3 地图开放平台 151
5.4 常见数据的爬虫思路 152
5.4.1 公交与地铁线网数据 152
5.4.2 行政区划矢量面数据 153
5.4.3 POI数据 154
5.4.4 房价数据 155
5.4.5 路网数据 155
5.4.6 数据爬取的注意事项 156
5.5 本章习题 156
应 用 篇
第6章 出租车GPS数据—时空大数据处理基础 158
6.1 出租车GPS数据简介 158
6.2 出租车GPS数据的读取与数据清洗 159
6.2.1 数据的读取 159
6.2.2 数据异常的清洗 160
6.3 出租车数据的时间完整性评估 166
6.3.1 时空大数据的质量评估 166
6.3.2 出租车GPS数据的时间完整性评估 167
6.4 出租车数据的空间完整性评估 172
6.4.1 出租车GPS数据空间分布栅格图 173
6.4.2 出租车GPS数据空间分布散点图 180
6.4.3 出租车GPS数据空间分布热力图 182
6.4.4 数据分布不同绘制方式的总结 185
6.5 出租车订单出行特征分析 187
6.5.1 出租车出行订单的OD提取 187
6.5.2 出租车出行订单持续时间的统计 191
6.5.3 出租车出行订单的栅格OD可视化 194
6.5.4 出租车出行的OD期望线绘制 199
6.6 本章习题 203
第7章
地铁IC刷卡数据—城市轨道交通客流分析 204
7.1 数据与思路 204
7.1.1 IC刷卡数据简介 204
7.1.2 地铁线路与站点GIS数据简介 205
7.1.3 思路简介 205
7.2 地铁拓扑网络的构建 206
7.2.1 地铁网络构建思路 206
7.2.2 地铁线网数据读取与整理 208
7.2.3 网络的轨道边 209
7.2.4 网络的换乘边 211
7.2.5 网络的构建 213
7.3 地铁出行路径提取 214
7.3.1 IC刷卡数据中的OD提取 215
7.3.2 出行路径提取 217
7.4 轨道断面客流分布可视化 220
7.4.1 断面客流集计 220
7.4.2 断面客流分布绘制 222
7.5 轨道断面客流蛛网图可视化 226
7.5.1 可视化思路 226
7.5.2 断面线型的生成 227
7.5.3 线型平移与可视化绘制 233
7.6 本章习题 236
第8章
共享单车数据—轨道站点衔接需求分析 237
8.1 共享单车数据简介 237
8.2 共享单车的出行链重构 239
8.2.1 出行链重构思路 239
8.2.2 出行链重构的代码实现 240
8.2.3 骑行与停车提取 242
8.3 共享单车使用特征分析 243
8.3.1 骑行距离 244
8.3.2 骑行次数 246
8.3.3 用车时长 248
8.3.4 停车时长与单车利用率 250
8.4 轨道衔接出行识别 252
8.4.1 KDTree空间搜索算法的原理 253
8.4.2 KDTree的代码实现 255
8.4.3 KDTree识别轨道衔接出行 256
8.4.4 轨道衔接单车骑行范围分析 258
8.5 本章习题 262
第9章
公交GPS数据—城市公交运行状况分析 263
9.1 公交GPS数据简介 263
9.2 公交GPS数据的预处理 266
9.2.1 采样间隔 266
9.2.2 地图匹配 269
9.3 公交车辆运行图绘制 274
9.3.1 单辆车的运行图绘制 275
9.3.2 多辆车的运行图绘制 278
9.4 公交到离站信息识别 281
9.4.1 识别思路 281
9.4.2 单辆车到离站识别的代码实现 282
9.4.3 多辆车到离站信息的批量识别 288
9.5 公交运行指标 290
9.5.1 单程耗时与运营速度 290
9.5.2 到站间隔 294
9.6 本章习题 296
第10章
TransBigData—交通时空大数据处理、分析可视化工具 297
10.1 TransBigData简介 297
10.2 TransBigData的方法介绍 298
10.2.1 数据质量分析与数据预处理 298
10.2.2 数据栅格化 299
10.2.3 数据聚合集计 300
10.2.4 数据可视化 300
10.2.5 轨迹数据处理 301
10.2.6 GIS处理方法 301
10.2.7 地图底图加载 302
10.2.8 坐标转换与距离计算 302
10.2.9 数据获取 303
10.3 TransBigData使用示例 303
10.4 本章习题 310
方 法 篇
第11章 聚类 312
11.1 什么是聚类 312
11.2 K-均值聚类 313
11.3 密度聚类DBSCAN 314
11.4 层次聚类Hierarchical 315
11.5 实例:基于sklearn包的聚类算法的实现 318
11.5.1 测试数据集的生成 318
11.5.2 聚类方法的实现 321
11.5.3 聚类结果的比较 322
11.6
实例:DBSCAN密度聚类算法识别共享单车停车聚集区域 325
11.6.1 共享单车停车存量识别 325
11.6.2 DBSCAN识别共享单车停车聚集区域 327
11.7 本章习题 329
第12章 分类 330
12.1 什么是分类 330
12.2 分类算法的介绍 331
12.2.1 K邻近 331
12.2.2 支持向量机 332
12.2.3 决策树 334
12.2.4 随机森林 338
12.2.5 逻辑回归 338
12.2.6 人工神经网络 339
12.3 分类模型的评价 340
12.3.1 数据集的划分与交叉验证 340
12.3.2 混淆矩阵 341
12.3.3 ROC曲线和AUC值 342
12.4 实例:基于sklearn包的分类算法的实现 344
12.4.1 分类算法实现与决策边界绘制 344
12.4.2 分类模型的代码实现 345
12.4.3 模型评价 347
12.5 本章习题 348
第13章 降维与矩阵分解 349
13.1 什么是降维 349
13.2 主成分分析 350
13.2.1 PCA是什么 350
13.2.2 PCA的原理与求解 352
13.2.3 PCA的代码实现 359
13.3 奇异值分解 366
13.3.1 SVD是什么 366
13.3.2 SVD的求解 368
13.3.3 SVD的代码实现 371
13.4 非负矩阵分解 376
13.4.1 什么是NMF 376
13.4.2 NMF的代码实现 378
13.5 鲁棒主成分分析 382
13.5.1 为什么要有RPCA 382
13.5.2 RPCA的求解 382
13.5.3 RPCA的代码实现 384
13.6 实例:利用SVD分解分析出租车需求模式 386
13.6.1 矩阵分解如何帮助理解时空矩阵 386
13.6.2 利用SVD分解分析出租车需求模式 389
13.6.3 结果分析 397
13.7 本章习题 398
第14章 空间统计 399
14.1 什么是空间统计 399
14.1.1 空间统计简介 399
14.1.2 PySAL:在Python中实现空间统计 400
14.2 空间关系权重 400
14.2.1 空间关系权重的定义 400
14.2.2 空间关系权重的选择 402
14.2.3 Python中空间关系权重的获取 403
14.3 空间自相关与热点分析 407
14.3.1 空间自相关 407
14.3.2 热点分析 410
14.3.3 Python空间自相关与热点分析 412
14.4 地理加权回归 417
14.4.1 线性回归与小二乘法 417
14.4.2 地理加权回归 419
14.4.3 Python地理加权回归 421
14.5 本章习题 431
第15章 复杂网络与社区发现 432
15.1 什么是复杂网络 432
15.1.1 网络的基本概念 432
15.1.2 复杂网络的特性 433
15.2 社区发现的原理与实现 434
15.2.1 复杂网络中的社区 434
15.2.2 非重叠社区划分算法 435
15.2.3 重叠社区划分算法 436
15.3 实例:基于社区发现的共享单车市场导向分区 438
15.3.1 课题思路 438
15.3.2 数据预处理 440
15.3.3 网络构建 442
16.3.4 社区发现与结果整理 444
16.3.5 结果的可视化 447
15.4 本章习题 450
大数据时代已经到来,随着数据的逐步开放,交通领域的研究课题或多或少都要接
触、使用时空大数据。交通领域中大数据的实际应用需求增加,也促使交通数据分析师、
交通数据科学家的职业诞生。交通领域的从业者迫切需要强有力的工具和技术应对日益纷
杂的交通数据。
交通领域目前需要处理的数据通常规模巨大、种类繁多,数据通常涉及个体级别连
续追踪的时空数据。其中,数据所包含的重要的信息包括:谁?什么时候?在哪里?
数据通常有多种来源,各种类型的数据格式不同、数据特征不同、数据质量不同,
则要求我们的处理技术能够灵活多变,针对不同数据情况有不同的处理方法。在时间层面
的连续追踪,相比传统的数据库检索处理,在处理过程中则更加强调连续数据之间时间序
列前后的逻辑,我们关注的不再只是单一的某条数据,而是时间上连续的几条、几十条
记录;在空间层面的GPS定位数据,在处理过程中则要求我们能够将经纬度转换、距离计
算、空间位置关系判断、空间聚合集计等地理空间数据处理技术紧密、高效、无缝地与整
个数据处理流程相衔接。如何应对多源时空大数据?前面提到的众多要求对我们所需掌握
的数据处理技术带来了巨大挑战。
在获取交通时空数据后,我们马上就会面临着以下工作:如何处理数据?如何处理
GPS定位数据的经纬度信息?如何可视化数据?如何获取其他辅助的数据(如路网、公交
和地铁线路等)?同时,我们还要关注:各类数据有什么特征?怎么样处理这些数据才更
合适、更高效?
然而,这其中所遇到的很多问题都是传统的交通学科所学课程内容无法囊括与解答
的。交通学子可能需要在没有接触过编程的时候就需要写出足以处理大规模数据的代码,
在没有学习了解地理坐标系与投影坐标系的情况下就要处理经纬度数据,在没有学习过数
据可视化的基本原则时就需要绘制图表并展示数据。这样的工作很可能是低效的,数据处
理所产生的结果也可能是有偏差或错误的。
因此,交通领域需要有一本教材能够系统地梳理交通时空数据处理中所涉及的各种基
础知识,总结数据处理过程中的各类解决方案,介绍如何用跨学科的方法从数据中挖掘出
有价值的信息。
本书,就是为这一目的而生。
评论
还没有评论。