书籍详情
O'Reilly:基于AWS的数据科学实践
作者:[美]克里斯·弗雷格利(Chris Fregly),[美]安杰·巴斯(Antje Barth),孟然 译
出版社:中国电力出版社
出版时间:2022-10-01
ISBN:9787519869663
定价:¥148.00
购买这本书可以去
内容简介
将Amazon AI和ML服务栈应用到真实世界的应用场景,如自然语言处理、计算机视觉、欺诈检测、对话式设备等。使用Amazon SageMaker Autopilot,通过自动化机器学习(AutoML)实现特定应用场景的子集。深入理解一个基于BERT的自然语言处理场景的模型开发的完整生命周期,包括数据接入、数据分析以及更多。将所有组件包装成一个可重复的机器学习运维流水线。通过Amazon Kinesis和Amazon Managed Streaming for Apache Kafka(MSK),在实时数据流中探索实时机器学习、异常检测和流分析。了解数据科学项目和工作流中的最佳安全实践,包括在数据接入和分析、模型训练和部署过程中应用AWS Identity and Access Management(IAM)、鉴权、授权。
作者简介
Chris Fregly是AWS的首席AI和机器学习开发者和布道者,居住在旧金山。他经常在全世界的AI和机器学习会议上演讲,包括O’Reilly AI Superstream系列。之前,Chris曾是PipelineAI的创建者,Databricks的解决方案工程师,以及Netflix的软件工程师。Antje Barth是AWS的高级AI和机器学习开发者和倡导者,居住于德国杜塞尔多夫。Antje是“Women in Big Data”杜塞尔多夫分部的联合创始人,她频繁在全世界的AI和机器学习会议和聚会上演讲。她同时也任职于O’Reilly AI Superstream大会并策划内容。
目录
目录
前言 . 1
第1 章 基于AWS 的数据科学概述 . 9
1.1 云计算的益处 9
1.2 数据科学流水线与工作流 12
1.3 机器学习运维最佳实践 15
1.4 使用Amazon SageMaker 实现Amazon 人工智能服务和机器学习
自动化 19
1.5 在AWS 上实现数据接入、探索与准备21
1.6 使用Amazon SageMaker 训练和调试模型 .27
1.7 使用Amazon SageMaker 和AWS Lambda 函数部署模型 30
1.8 AWS 上的流分析和机器学习 31
1.9 AWS 基础设施和定制化硬件 32
1.10 使用标签、预算和告警减少开销 .36
1.11 小结 .36
第2 章 数据科学的应用场景 39
2.1 在每个行业实现创新 .39
2.2 个性化产品推荐 40
2.3 使用Amazon Rekognition 检测不当视频 47
2.4 需求预测 49
2.5 使用Amazon Fraud Detector 识别虚假账号 53
2.6 使用Amazon Macie 检测隐私泄漏 54
2.7 对话装置和语音助手 .56
2.8 文本分析和自然语言处理 56
2.9 认知式搜索和自然语言理解 62
2.10 智能客户支持中心 63
2.11 工业人工智能服务和预测性维护 64
2.12 使用AWS IoT 和Amazon SageMaker 实现家庭自动化 65
2.13 从医疗卫生档案中提取医疗信息 .66
2.14 自我优化的智能云基础设施 67
2.15 认知式的预测性商业智能 .69
2.16 培养下一代人工智能和机器学习开发者 73
2.17 使用量子计算实现大自然的操作系统 78
2.18 提升性能并节省开支 83
2.19 小结 .85
第3 章 自动化机器学习 87
3.1 用SageMaker Autopilot 实现自动化机器学习 88
3.2 用SageMaker Autopilot 跟踪实验 90
3.3 用SageMaker Autopilot 训练并部署文本分类器 .90
3.4 用Amazon Comprehend 实现自动化机器学习 105
3.5 小结 .109
第4 章 将数据接入云 111
4.1 数据湖 112
4.2 用Amazon Athena 查询Amazon S3 数据湖 119
4.3 用AWS Glue Crawler 持续接入新数据 .125
4.4 用Amazon Redshift Spectrum 构建数据湖仓 .127
4.5 在Amazon Athena 和Amazon Redshift 之间选择 135
4.6 降低开销并提升性能 135
4.7 小结 .143
第5 章 探索数据集 145
5.1 AWS 上可用于浏览数据的工具 .146
5.2 使用 SageMaker Studio 可视化数据湖 147
5.3 查询数据仓库 .161
5.4 使用Amazon QuickSight 创建数据仪表170
5.5 使用Amazon SageMaker 和Apache Spark 检测数据质量问题 .171
5.6 数据集的偏差检测 179
5.7 使用 SageMaker Clarify 检测不同类别的数据偏移问题 188
5.8 使用AWS Glue DataBrew 分析数据 189
5.9 节省开支并提升性能 191
5.10 小结 194
第6 章 为模型训练准备数据集 195
6.1 特征选择和特征工程 195
6.2 使用 SageMaker 处理任务进行规模化特征工程 210
6.3 通过 SageMaker 特征存储(Feature Store)共享特征 218
6.4 使用 SageMaker Data Wrangler 接入并转换数据 .222
6.5 使用Amazon SageMaker 追踪构件和实验谱系 223
6.6 使用 AWS Glue DataBrew 接入并转换数据 228
6.7 小结 .231
第7 章 训练第一个模型 . 233
7.1 理解SageMaker 基础设施 233
7.2 使用SageMaker JumpStart 部署预先训练的BERT 模型 238
7.3 开发一个SageMaker 模型 240
7.4 自然语言处理简史 242
7.5 BERT 转换器架构 .245
7.6 从头训练 BERT .247
7.7 微调预先训练的 BERT 模型 249
7.8 创建训练脚本 .253
7.9 从SageMaker 笔记本启动训练脚本 260
7.10 评估模型 .267
7.11 使用SageMaker 调试器调试和剖析模型训练 272
7.12 阐述和解释模型预测 278
7.13 检测模型偏差并解释预测 284
7.14 BERT 的更多训练选项 290
7.15 节省开支并提升性能 300
7.16 小结 306
第8 章 规模化训练与优化模型 307
8.1 自动发现模型的最优超参数 307
8.2 对额外的 SageMaker 超参数调优任务应用热启动 315
8.3 使用SageMaker 分布式训练扩大训练规模 .319
8.4 节省开支并提升性能 327
8.5 小结 .331
第9 章 部署模型到生产环境 . 333
9.1 选择实时预测或批量预测 .333
9.2 使用 SageMaker Endpoints 进行实时预测 335
9.3 使用Amazon CloudWatch 控制 SageMaker Endpoints 自动伸缩 .343
9.4 部署新模型与更新模型的策略 348
9.5 测试与比较新模型 352
9.6 模型性能监控与漂移检测 .364
9.7 监控已部署的 SageMaker Endpoints 数据质量 .368
9.8 监控已部署的 SageMaker Endpoints 模型质量 .374
9.9 监控已部署的 SageMaker Endpoints 偏差漂移 .379
9.10 监控已部署的SageMaker Endpoints 特征归因(Feature Attribution)
漂移 382
9.11 使用SageMaker 批量转换进行批量预测 385
9.12 AWS Lambda 函数与Amazon API 网关 .391
9.13 优化和管理边缘模型 392
9.14 使用TorchServe 部署PyTorch 模型 .392
9.15 使用AWS Deep Java 库进行TensorFlow-BERT 推理 .395
9.16 节省开支并提升性能 397
9.17 小结 403
第10 章 流水线和机器学习运维 . 405
10.1 机器学习运维 405
10.2 软件流水线 407
10.3 机器学习流水线 408
10.4 使用SageMaker 流水线进行流水线编排 412
10.5 使用SageMaker 流水线实现自动化 .424
10.6 更多流水线选项 429
10.7 人机回圈工作流 439
10.8 节省开支并提升性能 445
10.9 小结 447
第11 章 流分析与机器学习 449
11.1 在线学习与离线学习 450
11.2 流应用 450
11.3 对流数据实现窗口查询451
11.4 AWS 上的流分析和机器学习 455
11.5 使用Amazon Kinesis,AWS Lambda 和Amazon SageMaker 进行
实时产品评价分类 .457
11.6 使用Amazon Kinesis Data Firehose 实现流数据接入 .458
11.7 使用流分析汇总实时产品评价 463
11.8 设置Amazon Kinesis 数据分析 464
11.9 Amazon Kinesis 数据分析应用 473
11.10 使用Apache Kafka, AWS Lambda 和Amazon SageMaker 进行
产品评价分类 480
11.11 节省开支并提升性能 .482
11.12 小结 484
第12 章 用AWS 保证数据科学安全 485
12.1 AWS 与客户的责任共担模型485
12.2 应用 AWS 身份和访问管理(IAM) 486
12.3 隔离计算和网络环境 495
12.4 安全访问Amazon S3 的数据 498
12.5 数据静态加密 507
12.6 数据传输加密 511
12.7 安全使用 SageMaker Notebook 实例 .513
12.8 安全使用 SageMaker Studio .515
12.9 安全运行SageMaker 任务和模型 517
12.10 安全使用 AWS Lake Formation 522
12.11 通过 AWS 加密信息管理服务安全使用数据库凭据 522
12.12 治理 523
12.13 可审计性 527
12.14 节省开支并提升性能 .528
12.15 小结 530
前言 . 1
第1 章 基于AWS 的数据科学概述 . 9
1.1 云计算的益处 9
1.2 数据科学流水线与工作流 12
1.3 机器学习运维最佳实践 15
1.4 使用Amazon SageMaker 实现Amazon 人工智能服务和机器学习
自动化 19
1.5 在AWS 上实现数据接入、探索与准备21
1.6 使用Amazon SageMaker 训练和调试模型 .27
1.7 使用Amazon SageMaker 和AWS Lambda 函数部署模型 30
1.8 AWS 上的流分析和机器学习 31
1.9 AWS 基础设施和定制化硬件 32
1.10 使用标签、预算和告警减少开销 .36
1.11 小结 .36
第2 章 数据科学的应用场景 39
2.1 在每个行业实现创新 .39
2.2 个性化产品推荐 40
2.3 使用Amazon Rekognition 检测不当视频 47
2.4 需求预测 49
2.5 使用Amazon Fraud Detector 识别虚假账号 53
2.6 使用Amazon Macie 检测隐私泄漏 54
2.7 对话装置和语音助手 .56
2.8 文本分析和自然语言处理 56
2.9 认知式搜索和自然语言理解 62
2.10 智能客户支持中心 63
2.11 工业人工智能服务和预测性维护 64
2.12 使用AWS IoT 和Amazon SageMaker 实现家庭自动化 65
2.13 从医疗卫生档案中提取医疗信息 .66
2.14 自我优化的智能云基础设施 67
2.15 认知式的预测性商业智能 .69
2.16 培养下一代人工智能和机器学习开发者 73
2.17 使用量子计算实现大自然的操作系统 78
2.18 提升性能并节省开支 83
2.19 小结 .85
第3 章 自动化机器学习 87
3.1 用SageMaker Autopilot 实现自动化机器学习 88
3.2 用SageMaker Autopilot 跟踪实验 90
3.3 用SageMaker Autopilot 训练并部署文本分类器 .90
3.4 用Amazon Comprehend 实现自动化机器学习 105
3.5 小结 .109
第4 章 将数据接入云 111
4.1 数据湖 112
4.2 用Amazon Athena 查询Amazon S3 数据湖 119
4.3 用AWS Glue Crawler 持续接入新数据 .125
4.4 用Amazon Redshift Spectrum 构建数据湖仓 .127
4.5 在Amazon Athena 和Amazon Redshift 之间选择 135
4.6 降低开销并提升性能 135
4.7 小结 .143
第5 章 探索数据集 145
5.1 AWS 上可用于浏览数据的工具 .146
5.2 使用 SageMaker Studio 可视化数据湖 147
5.3 查询数据仓库 .161
5.4 使用Amazon QuickSight 创建数据仪表170
5.5 使用Amazon SageMaker 和Apache Spark 检测数据质量问题 .171
5.6 数据集的偏差检测 179
5.7 使用 SageMaker Clarify 检测不同类别的数据偏移问题 188
5.8 使用AWS Glue DataBrew 分析数据 189
5.9 节省开支并提升性能 191
5.10 小结 194
第6 章 为模型训练准备数据集 195
6.1 特征选择和特征工程 195
6.2 使用 SageMaker 处理任务进行规模化特征工程 210
6.3 通过 SageMaker 特征存储(Feature Store)共享特征 218
6.4 使用 SageMaker Data Wrangler 接入并转换数据 .222
6.5 使用Amazon SageMaker 追踪构件和实验谱系 223
6.6 使用 AWS Glue DataBrew 接入并转换数据 228
6.7 小结 .231
第7 章 训练第一个模型 . 233
7.1 理解SageMaker 基础设施 233
7.2 使用SageMaker JumpStart 部署预先训练的BERT 模型 238
7.3 开发一个SageMaker 模型 240
7.4 自然语言处理简史 242
7.5 BERT 转换器架构 .245
7.6 从头训练 BERT .247
7.7 微调预先训练的 BERT 模型 249
7.8 创建训练脚本 .253
7.9 从SageMaker 笔记本启动训练脚本 260
7.10 评估模型 .267
7.11 使用SageMaker 调试器调试和剖析模型训练 272
7.12 阐述和解释模型预测 278
7.13 检测模型偏差并解释预测 284
7.14 BERT 的更多训练选项 290
7.15 节省开支并提升性能 300
7.16 小结 306
第8 章 规模化训练与优化模型 307
8.1 自动发现模型的最优超参数 307
8.2 对额外的 SageMaker 超参数调优任务应用热启动 315
8.3 使用SageMaker 分布式训练扩大训练规模 .319
8.4 节省开支并提升性能 327
8.5 小结 .331
第9 章 部署模型到生产环境 . 333
9.1 选择实时预测或批量预测 .333
9.2 使用 SageMaker Endpoints 进行实时预测 335
9.3 使用Amazon CloudWatch 控制 SageMaker Endpoints 自动伸缩 .343
9.4 部署新模型与更新模型的策略 348
9.5 测试与比较新模型 352
9.6 模型性能监控与漂移检测 .364
9.7 监控已部署的 SageMaker Endpoints 数据质量 .368
9.8 监控已部署的 SageMaker Endpoints 模型质量 .374
9.9 监控已部署的 SageMaker Endpoints 偏差漂移 .379
9.10 监控已部署的SageMaker Endpoints 特征归因(Feature Attribution)
漂移 382
9.11 使用SageMaker 批量转换进行批量预测 385
9.12 AWS Lambda 函数与Amazon API 网关 .391
9.13 优化和管理边缘模型 392
9.14 使用TorchServe 部署PyTorch 模型 .392
9.15 使用AWS Deep Java 库进行TensorFlow-BERT 推理 .395
9.16 节省开支并提升性能 397
9.17 小结 403
第10 章 流水线和机器学习运维 . 405
10.1 机器学习运维 405
10.2 软件流水线 407
10.3 机器学习流水线 408
10.4 使用SageMaker 流水线进行流水线编排 412
10.5 使用SageMaker 流水线实现自动化 .424
10.6 更多流水线选项 429
10.7 人机回圈工作流 439
10.8 节省开支并提升性能 445
10.9 小结 447
第11 章 流分析与机器学习 449
11.1 在线学习与离线学习 450
11.2 流应用 450
11.3 对流数据实现窗口查询451
11.4 AWS 上的流分析和机器学习 455
11.5 使用Amazon Kinesis,AWS Lambda 和Amazon SageMaker 进行
实时产品评价分类 .457
11.6 使用Amazon Kinesis Data Firehose 实现流数据接入 .458
11.7 使用流分析汇总实时产品评价 463
11.8 设置Amazon Kinesis 数据分析 464
11.9 Amazon Kinesis 数据分析应用 473
11.10 使用Apache Kafka, AWS Lambda 和Amazon SageMaker 进行
产品评价分类 480
11.11 节省开支并提升性能 .482
11.12 小结 484
第12 章 用AWS 保证数据科学安全 485
12.1 AWS 与客户的责任共担模型485
12.2 应用 AWS 身份和访问管理(IAM) 486
12.3 隔离计算和网络环境 495
12.4 安全访问Amazon S3 的数据 498
12.5 数据静态加密 507
12.6 数据传输加密 511
12.7 安全使用 SageMaker Notebook 实例 .513
12.8 安全使用 SageMaker Studio .515
12.9 安全运行SageMaker 任务和模型 517
12.10 安全使用 AWS Lake Formation 522
12.11 通过 AWS 加密信息管理服务安全使用数据库凭据 522
12.12 治理 523
12.13 可审计性 527
12.14 节省开支并提升性能 .528
12.15 小结 530
猜您喜欢