书籍详情
MLOps工程实践:工具、技术与企业级应用
作者:陈雨强,郑曌,谭中意,卢冕
出版社:机械工业出版社
出版时间:2023-09-01
ISBN:9787111733294
定价:¥109.00
购买这本书可以去
内容简介
内容简介这是一本能指导企业利用MLOps技术构建可靠、高效、可复用、可扩展的机器学习模型从而实现AI工程化落地的著作。由国内AI领域的独角兽企业第四范式的联合创始人和技术VP领衔撰写,从工具、技术、企业级应用、成熟度评估4个维度对MLOps进行了全面的讲解。本书的主要内容包括如下9个方面:(1)MLOps的核心概念和方法,可以帮助读者全面了解MLOps的基本原理;(2)MLOps涉及的几种角色,以及这些角色之间如何协作;(3)机器学习项目的基础知识和全流程,是学习和应用MLOps的基础;(4)MLOps中的数据处理、主要流水线工具Airflow和MLflow、特征平台和实时特征平台OpenMLDB、推理工具链Adlik,为读者系统讲解MLOps的技术和工具;(5)云服务供应商的端到端MLOps解决方案;(6)第四范式、网易、小米、腾讯、众安金融等企业的MLOps工程实践案例和经验;(7)MLOps的成熟度模型,以及微软、谷歌和信通院对MLOps成熟度模型的划分;(8)针对不同规模的企业和团队的MLOps最佳实践,帮助他们量身定做MLOps策略;(9)MLOps的未来发展趋势,以及如何将新技术融入MLOps实践中。本书深入浅出、循序渐进地讲解了如何在实际项目中利用MLOps进行机器学习模型的部署、监控与优化,以及如何利用MLOps实现持续集成与持续交付等高效的工作流程。通过企业级的MLOps案例和解决方案,帮助读者轻松掌握MLOps的设计思路以及如何应用MLOps解决实际问题。
作者简介
暂缺《MLOps工程实践:工具、技术与企业级应用》作者简介
目录
CONTENTS
目??录
作者简介
前言
第1章 全面了解MLOps1
1.1 人工智能的趋势和现状 1
1.1.1 趋势1:人工智能在企业中加速落地,彰显更多业务价值 1
1.1.2 趋势2:人工智能应用从以模型为中心向以数据为中心转变 3
1.1.3 现状:人工智能落地成功率低,
成本高 4
1.2 人工智能的问题、挑战以及应对措施 5
1.2.1 问题1:机器学习代码只是整个系统的一小部分 5
1.2.2 问题2:数据是最主要的问题 6
1.2.3 挑战:人工智能系统
如何规模化落地 7
1.2.4 应对措施:MLOps 8
1.3 MLOps简介 8
1.3.1 MLOps的定义 8
1.3.2 MLOps相关的工具和平台 12
1.3.3 MLOps的优势 13
1.4 MLOps与DevOps 14
1.4.1 DevOps的3个优点 14
1.4.2 MLOps延续了DevOps的优点 17
1.4.3 MLOps和DevOps的不同之处 19
1.4.4 MLOps和DevOps的目标与
实践理念 20
1.5 MLOps与其他XOps的区别 20
1.5.1 MLOps与AIOps的区别 21
1.5.2 MLOps与DataOps的区别 21
1.5.3 MLOps与ModelOps的区别 22
1.5.4 XOps的相同点:
都基于DevOps原则 22
1.6 本章小结 22
第2章 MLOps涉及的角色23
2.1 角色类型 23
2.1.1 产品经理 24
2.1.2 数据科学家 24
2.1.3 数据工程师 25
2.1.4 机器学习工程师 26
2.1.5 DevOps工程师 27
2.1.6 IT运维工程师 27
2.2 角色划分以及角色之间
存在的问题 28
2.2.1 角色划分 28
2.2.2 问题1:技术栈不一致导致人工智能模型线上、线下效果不一致 28
2.2.3 问题2:关注点不同导致对系统的
需求不同 29
2.2.4 协作问题及解决办法 30
2.3 本章小结 30
第3章 机器学习项目概论31
3.1 机器学习项目简介 31
3.1.1 机器学习的定义 31
3.1.2 机器学习相关概念 33
3.1.3 机器学习能解决的问题 37
3.1.4 机器学习项目度量 38
3.1.5 机器学习项目难以落地的
原因 41
3.2 深入理解机器学习项目全流程 44
3.2.1 方案调研 45
3.2.2 方案投产 49
3.3 本章小结 51
第4章 MLOps中的数据部分52
4.1 从以模型为中心到以数据为中心 52
4.1.1 以模型为中心的时代 52
4.1.2 以数据为中心的时代 53
4.2 MLOps中的数据生命周期管理 55
4.3 数据存储架构演进 56
4.4 MLOps中主要的数据问题及
解决方案 57
4.4.1 常见的数据质量问题及
解决方案 57
4.4.2 时序数据穿越问题及解决方案 59
4.4.3 离线和实时数据一致性问题及
解决方案 64
4.4.4 数据安全问题及解决方案 66
4.4.5 数据共享与复用问题及
解决方案 67
4.5 本章小结 67
第5章 流水线工具69
5.1 Airflow 69
5.1.1 Airflow的功能和应用场景 69
5.1.2 Airflow的核心概念 72
5.1.3 Airflow的使用方法 72
5.2 MLflow 80
5.2.1 MLflow的功能和应用场景 80
5.2.2 MLflow的核心概念 81
5.2.3 MLflow的使用方法 82
5.3 其他流水线工具 91
5.4 本章小结 93
第6章 特征平台94
6.1 特征平台的概念和起源 94
6.2 特征平台的特性 96
6.3 特征平台的现状 97
6.4 主流的特征平台 98
6.4.1 Tecton的特征平台 99
6.4.2 AWS的SageMaker特征平台 100
6.4.3 Databricks的特征平台 102
6.4.4 Feast项目 103
6.4.5 OpenMLDB项目 105
6.5 特征平台的发展趋势 106
6.6 本章小结 107
第7章 实时特征平台
OpenMLDB108
7.1 实时特征平台构建方法论 108
7.1.1 机器学习闭环 108
7.1.2 实时特征计算 109
7.1.3 痛点:线上线下计算一致性
校验带来的高成本 110
7.1.4 目标:开发即上线 112
7.1.5 技术需求 112
7.1.6 抽象架构 113
7.1.7 OpenMLDB架构设计实践 114
7.2 OpenMLDB项目介绍 116
7.2.1 设计理念 116
7.2.2 生产级机器学习特征平台 116
7.2.3 核心特性 117
7.2.4 常见问题 117
7.3 核心模块—在线引擎 118
7.3.1 概览 118
7.3.2 Apache ZooKeeper 119
7.3.3 Nameserver 119
7.3.4 Tablet 120
7.4 核心数据结构 122
7.4.1 背景介绍 122
7.4.2 双层跳表索引 122
7.4.3 预聚合技术 124
7.4.4 性能表现 125
7.5 高级特性—主从集群部署 127
7.5.1 定义和目标 127
7.5.2 技术方案 127
7.5.3 主从集群搭建实践 130
7.5.4 主从集群部署常见问题 131
7.6 高级特性—双存储引擎 133
7.6.1 内存和磁盘双存储
引擎架构 133
7.6.2 功能支持对比 134
7.6.3 性能对比 135
7.7 执行流程介绍 136
7.7.1 执行流程概览 136
7.7.2 执行模式概览 137
7.7.3 离线模式 137
7.7.4 在线模式 138
7.7.5 请求模式 138
7.8 实践 139
7.8.1 准备 140
7.8.2 使用流程 141
7.8.3 实时特征计算的结果说明 144
7.9 生态整合—在线数据源Kafka 145
7.9.1 简介 145
7.9.2 准备工作 146
7.9.3 步骤1:启动OpenMLDB
并创建数据库 146
7.9.4 步骤2:启动Kafka
并创建Topic 147
7.9.5 步骤3:启动Connector 147
7.9.6
目??录
作者简介
前言
第1章 全面了解MLOps1
1.1 人工智能的趋势和现状 1
1.1.1 趋势1:人工智能在企业中加速落地,彰显更多业务价值 1
1.1.2 趋势2:人工智能应用从以模型为中心向以数据为中心转变 3
1.1.3 现状:人工智能落地成功率低,
成本高 4
1.2 人工智能的问题、挑战以及应对措施 5
1.2.1 问题1:机器学习代码只是整个系统的一小部分 5
1.2.2 问题2:数据是最主要的问题 6
1.2.3 挑战:人工智能系统
如何规模化落地 7
1.2.4 应对措施:MLOps 8
1.3 MLOps简介 8
1.3.1 MLOps的定义 8
1.3.2 MLOps相关的工具和平台 12
1.3.3 MLOps的优势 13
1.4 MLOps与DevOps 14
1.4.1 DevOps的3个优点 14
1.4.2 MLOps延续了DevOps的优点 17
1.4.3 MLOps和DevOps的不同之处 19
1.4.4 MLOps和DevOps的目标与
实践理念 20
1.5 MLOps与其他XOps的区别 20
1.5.1 MLOps与AIOps的区别 21
1.5.2 MLOps与DataOps的区别 21
1.5.3 MLOps与ModelOps的区别 22
1.5.4 XOps的相同点:
都基于DevOps原则 22
1.6 本章小结 22
第2章 MLOps涉及的角色23
2.1 角色类型 23
2.1.1 产品经理 24
2.1.2 数据科学家 24
2.1.3 数据工程师 25
2.1.4 机器学习工程师 26
2.1.5 DevOps工程师 27
2.1.6 IT运维工程师 27
2.2 角色划分以及角色之间
存在的问题 28
2.2.1 角色划分 28
2.2.2 问题1:技术栈不一致导致人工智能模型线上、线下效果不一致 28
2.2.3 问题2:关注点不同导致对系统的
需求不同 29
2.2.4 协作问题及解决办法 30
2.3 本章小结 30
第3章 机器学习项目概论31
3.1 机器学习项目简介 31
3.1.1 机器学习的定义 31
3.1.2 机器学习相关概念 33
3.1.3 机器学习能解决的问题 37
3.1.4 机器学习项目度量 38
3.1.5 机器学习项目难以落地的
原因 41
3.2 深入理解机器学习项目全流程 44
3.2.1 方案调研 45
3.2.2 方案投产 49
3.3 本章小结 51
第4章 MLOps中的数据部分52
4.1 从以模型为中心到以数据为中心 52
4.1.1 以模型为中心的时代 52
4.1.2 以数据为中心的时代 53
4.2 MLOps中的数据生命周期管理 55
4.3 数据存储架构演进 56
4.4 MLOps中主要的数据问题及
解决方案 57
4.4.1 常见的数据质量问题及
解决方案 57
4.4.2 时序数据穿越问题及解决方案 59
4.4.3 离线和实时数据一致性问题及
解决方案 64
4.4.4 数据安全问题及解决方案 66
4.4.5 数据共享与复用问题及
解决方案 67
4.5 本章小结 67
第5章 流水线工具69
5.1 Airflow 69
5.1.1 Airflow的功能和应用场景 69
5.1.2 Airflow的核心概念 72
5.1.3 Airflow的使用方法 72
5.2 MLflow 80
5.2.1 MLflow的功能和应用场景 80
5.2.2 MLflow的核心概念 81
5.2.3 MLflow的使用方法 82
5.3 其他流水线工具 91
5.4 本章小结 93
第6章 特征平台94
6.1 特征平台的概念和起源 94
6.2 特征平台的特性 96
6.3 特征平台的现状 97
6.4 主流的特征平台 98
6.4.1 Tecton的特征平台 99
6.4.2 AWS的SageMaker特征平台 100
6.4.3 Databricks的特征平台 102
6.4.4 Feast项目 103
6.4.5 OpenMLDB项目 105
6.5 特征平台的发展趋势 106
6.6 本章小结 107
第7章 实时特征平台
OpenMLDB108
7.1 实时特征平台构建方法论 108
7.1.1 机器学习闭环 108
7.1.2 实时特征计算 109
7.1.3 痛点:线上线下计算一致性
校验带来的高成本 110
7.1.4 目标:开发即上线 112
7.1.5 技术需求 112
7.1.6 抽象架构 113
7.1.7 OpenMLDB架构设计实践 114
7.2 OpenMLDB项目介绍 116
7.2.1 设计理念 116
7.2.2 生产级机器学习特征平台 116
7.2.3 核心特性 117
7.2.4 常见问题 117
7.3 核心模块—在线引擎 118
7.3.1 概览 118
7.3.2 Apache ZooKeeper 119
7.3.3 Nameserver 119
7.3.4 Tablet 120
7.4 核心数据结构 122
7.4.1 背景介绍 122
7.4.2 双层跳表索引 122
7.4.3 预聚合技术 124
7.4.4 性能表现 125
7.5 高级特性—主从集群部署 127
7.5.1 定义和目标 127
7.5.2 技术方案 127
7.5.3 主从集群搭建实践 130
7.5.4 主从集群部署常见问题 131
7.6 高级特性—双存储引擎 133
7.6.1 内存和磁盘双存储
引擎架构 133
7.6.2 功能支持对比 134
7.6.3 性能对比 135
7.7 执行流程介绍 136
7.7.1 执行流程概览 136
7.7.2 执行模式概览 137
7.7.3 离线模式 137
7.7.4 在线模式 138
7.7.5 请求模式 138
7.8 实践 139
7.8.1 准备 140
7.8.2 使用流程 141
7.8.3 实时特征计算的结果说明 144
7.9 生态整合—在线数据源Kafka 145
7.9.1 简介 145
7.9.2 准备工作 146
7.9.3 步骤1:启动OpenMLDB
并创建数据库 146
7.9.4 步骤2:启动Kafka
并创建Topic 147
7.9.5 步骤3:启动Connector 147
7.9.6
猜您喜欢