书籍详情

基于云计算的数据科学

基于云计算的数据科学

作者:瓦利阿帕·拉克什曼南 著

出版社:中国电力出版社

出版时间:2020-03-01

ISBN:9787519840136

定价:¥98.00

购买这本书可以去
内容简介
  在本书中,你将学到: ·使用App Engine应用实现自动化定期数据摄取。 ·在Google Data Studio中创建并生成数据仪表板。 ·构建实时数据分析管道,实现流式数据分析。 ·使用Google BigQuery实现可交互式数据探索。 ·在Cloud Dataproc群集上创建贝叶斯模型。 ·使用Spark构建逻辑回归机器学习模型。 ·使用Cloud Dataflow数据管道计算时间聚合特征。 ·使用TensorFlow构建高性能预测模型。 ·将你的模型部署为微服务,并且从批处理和实时数据管道中使用它。
作者简介
  Valliappa Lakshmanan是Google云计算平台专家服务部门的技术主管。他希望将机器学习普及化,让任何人、从任何地方,在无需深入了解统计学、编程知识,也无需购买大量硬件的情况下使用Google云平台提供的卓越架构。
目录
目录
前言 1
第 1 章 用数据做出更好的决策 9
许多相似的决策 11
数据工程师的角色 12
云计算让数据工程师成为可能 14
云计算使数据科学能力得到倍增 18
用案例研究揭示难解的真相 20
基于概率的决策 21
数据和工具 27
代码入门 28
本章总结 30
第 2 章 将数据摄取到云端 31
航空公司准点数据 31
可知性 33
训练 – 服务偏差 34
下载程序 35
数据集属性36
为什么不就地存储数据? 38
向上扩展 40
水平扩展 42
使用 Colossus 和 Jupiter 让数据存放在原位 44
摄取数据 47
对 Web 表单进行反向工程 48
下载数据集51
数据探索和清理 53
将数据上传到 Google 云端存储 55
每月下载计划 58
使用 Python 摄取数据 61
Flask Web App 68
在 App Engine 上运行 69
确保 URL 的安全 70
计划 Cron 任务 70
本章总结 73
代码实验 74
第 3 章 创建引人注目的仪表板 76
使用数据仪表板对模型进行解释 77
为什么要先构建数据仪表板? 79
准确、忠实于数据且良好的设计 80
将数据加载到 Google Cloud SQL 83
创建 Google Cloud SQL 实例 83
与 Google 云计算平台交互84
控制对 MySQL 的访问 86
创建表 87
向表中填充数据 89
建立第一个模型 90
应急表 91
阈值优化 92
机器学习 93
构建数据仪表板 94
Data Studio 入门 94
创建图表 96
为最终用户添加控件 98
用饼图显示所占比例 100
解释应急表105
本章总结 107
第 4 章 流数据:发布和摄取 109
设计事件馈送 109
时间校正 112
Apache Beam/Cloud Dataflow 113
解析机场数据 115
添加时区信息 116
将时间转换为 UTC 117
修正日期 120
创建事件 121
在云中运行数据管道 122
将事件流发布到 Cloud Pub/Sub 126
获取要发布的数据记录 129
对数据记录进行分页 130
构建事件集合 130
发布事件集合 131
实时流式处理 132
Java Dataflow 中的流式数据 133
执行流数据处理 138
使用 BigQuery 分析流式数据 140
实时数据仪表板 141
本章总结 144
第 5 章 交互式数据探索 145
探索性数据分析 146
将航班数据加载到 BigQuery 中 148
无服务器列式数据库的优点 148
访问控制 151
联合查询 156
摄取 CSV 文件 158
Cloud Datalab 中的探索性数据分析 164
Jupyter 笔记本 165
Cloud Datalab 166
在 Cloud Datalab 中安装软件包 169
适用于 Google 云计算平台的 Jupyter 魔术命令 170
质量控制 176
反常的数值176
清除异常数据:大数据是不同的 178
不同出发延误条件下的抵达延误 182
概率决策阈值的应用 184
经验概率分布函数 185
答案 187
评估模型 188
随机乱序分组 188
按日期分割189
训练和测试191
本章总结 196
第 6 章 Cloud Dataproc上的 贝叶斯分类器 197
MapReduce 和 Hadoop 生态系统 197
MapReduce 的工作原理 198
Apache Hadoop 200
Google Cloud Dataproc200
需要更高级的工具 202
关注任务,而不是集群 204
初始化操作205
使用 Spark SQL 进行量化 206
Cloud Dataproc 上的 Google Cloud Datalab 208
使用 BigQuery 进行独立检查 209
Google Cloud Datalab 中的 Spark SQL 211
直方图均衡化 215
动态调整群集大小 219
使用 Pig 实现贝叶斯分类 222
在 Cloud Dataproc 上运行 Pig 任务 224
将日期限制在训练数据集中 225
决策标准 226
对贝叶斯模型进行评估 229
本章总结 231
第 7 章 机器学习:Spark上的逻辑回归 233
逻辑回归 234
Spark 机器学习库 237
开始使用 Spark 机器学习 238
Spark 逻辑回归 239
创建训练数据集 241
处理边界情况 243
创建训练示例 245
训练 246
使用模型进行预测 249
对模型进行评估 250
特征工程 253
实验框架 254
创建保留数据集 257
特性点的选择 258
特征点的缩放和剪切 261
特征转换 263
变量分类 267
可扩展、可重复和实时性 269
本章总结 270
第 8 章 时间窗化的聚合特征 272
平均时间的需求 272
Java 中的 Dataflow 274
建立开发环境 275
使用 Beam 过滤数据 276
数据管道的控制选项和文本 I/O 280
在云端运行281
解析为对象283
计算平均时间 286
分组及合并286
并行执行和侧面输入 289
调试 291
BigQueryIO 292
对航班对象进行转换 294
批处理模式下的滑动窗口计算 295
在云端运行297
监控、故障排除和性能调整 299
数据管道的故障排除 301
侧面输入的限制 302
重新设计数据管道 305
删除重复项307
本章总结 310
第 9 章 使用TensorFlow的 机器学习分类器 312
使用更复杂的模型 313
将数据读入 TensorFlow 317
建立实验 322
线性分类器323
训练和评估的输入函数 325
服务输入函数 326
创建实验 326
执行训练 327
云中的分布式训练 329
对 ML 模型进行改进 331
深度神经网络模型 332
嵌入 335
宽深模型 337
超参数调整341
部署模型 349
使用模型预测 350
对该模型的解释 351
本章总结 353
第 10章 实时机器学习 355
调用预测服务 356
用于服务请求和响应的 Java 类357
发送请求并解析响应 359
预测服务的客户端 360
将预测结果添加到航班信息 361
批量输入和输出 361
数据处理管道 363
识别无效的服务响应 364
批量处理服务请求 365
流式数据管道 367
扁平化 PCollections 368
执行流式数据管道 369
延迟的和无序的数据记录 371
水印和触发器 376
事务,吞吐量和延迟 378
几种可选的流式接收器 379
Cloud Bigtable 380
设计表 382
设计行键 383
流式传输至 Cloud Bigtable 384
查询 Cloud Bigtable 中的数据 386
评估模型的性能 387
持续训练的必要性 388
评估管道 389
性能评估 391
边际分布 391
检查模型的行为 393
识别行为变化 396
本章总结 398
全书总结 398
附录 有关机器学习数据集中敏感数据的注意事项 401
猜您喜欢

读书导航