书籍详情
数据应用工程:方法论与实践
作者:钟大伟,高铎,王鹏,宋超 著
出版社:机械工业出版社
出版时间:2022-07-01
ISBN:9787111704096
定价:¥129.00
购买这本书可以去
内容简介
这是一本讲解组织数据能力建设与数据应用工程化的著作,它旨在为企业应用和管理数据提供组织建设、技术体系和行业解决方案方面的理论指导和实践经验。本书是几位作者在数据领域十几年工作经验的总结,得到了业界10余位专家的一致好评。无论是像互联网行业的数据原生类企业,还是正在数字化转型的传统企业,本书将为他们大规模、工程化地发挥数据的价值提供有意的参考。本书的内容大致分为如下四个方面:(1)行业分析从宏观角度阐述了数字化变革带来的问题和不确定性,并引出了解决这些问题需要掌握的理论和方法。(2)理论方法一方面,详细讲解了企业和组织的技术能力建设发方法、发展规律以及成熟度评估,帮助企业打下应用数据的坚实基础;一方面,详细介绍了数据应用成熟度模型的评估、运用和设计,以及数据工程的过程和方法。(3)知识体系详细讲解了数据治理与管理的方法,以及整个大数据体系的技术与架构。(4)实践案例通过4个综合案例分别讲解了数据工程与治理、业务数据化以及数据的工程化应用,既有企业级别的数据管理案例,还有业务级别的营销案例,不仅有To B场景,还有To G场景。
作者简介
钟大伟中科院博士,资深大数据专家,拥有15年技术开发和管理经验,一直从事数据处理、大数据研发和数据治理相关的工作。从地图数据处理到大数据处理,带领过多个数据研发团队、数据分析团队、数据治理团队,拥有丰富的数据工程经验。掌握数据生产管理方法,熟悉数据产品设计,对数据治理理论有深入全面的研究。在数据资产管理、生命周期管理、元数据管理、数据质量管理、数据安全合规管理等方面有丰富的实践经验。高铎某头部互联网公司资深专家,拥有10余年数据营销、数据治理和数据应用领域工作经验。曾任职TalkingData、百度等公司,参与产品规划、渠道运营、技术管理、销售管理、解决方案等不同类型工作。多次在乌镇世界互联网大会、全球移动互联网大会(GMIC)、中国国际数码互动娱乐展览会(ChinaJoy)等大会作为演讲嘉宾;曾担任国内数个年度营销奖项(如金网奖、金鼠标、艾菲奖、MMA、灵犀奖等)评审嘉宾;参与主办过4届中国年度移动应用风云榜。有5项国家公开授予的LBS相关专利,发表EI索引AI相关论文4篇。王鹏人工智能和大数据领域的资深专家,有超过15年的数据应用和实践经验。现在就职于百度,担任百度工业大数据&工业互联网产品负责人,曾就职于高德、四维图新、TalkingData,从事数据治理、数据产品相关工作。在大数据和人工智能领域有深厚的积淀,擅长通过数据挖掘业务机会,有丰富的数据治理和GIS领域数据经验,对于数据在营销、风控、工业、政府等多个领域应用经验丰富。宋超现就职于河南省自然资源电子政务中心,拥有10余年自然资源数据管理经验。在自然资源大数据应用领域积累深厚,精通自然资源管理业务、业务流程重组以及模型搭建技术。先后参与10余项省级以上科研项目研究,近年来获省部级、省级科技进步奖等多项奖励,发表核心科技期刊论文多篇。
目录
赞誉
前言
第一部分 行业分析
第1章 数字化时代的变革与挑战 2
1.1 数字经济与生产变革 2
1.1.1 从农业经济到数字经济,从土地到数据 3
1.1.2 从规模化生产到个性化定制生产,从IT到DT 8
1.2 数字化时代的变革动能 10
1.2.1 技术发展创造变革 11
1.2.2 “新基建”提速变革 14
1.2.3 商业竞争驱动变革 16
1.2.4 社会治理需要变革 20
1.2.5 政府政策引导变革 22
1.3 数字化变革中的不确定性与挑战 25
1.3.1 环境不确定性 25
1.3.2 数字化变革的挑战 30
1.4 本章小结 37
第二部分 理论方法
第2章 技术变革与组织应用技术的规律 40
2.1 组织面对技术变革的三大挑战 40
2.1.1 新技术不断涌现,技术选择的挑战 41
2.1.2 创新风险很高,技术应用发展规划的挑战 45
2.1.3 发展常遇瓶颈,持续提升的挑战 47
2.2 事物发展的“第一性原理” 48
2.2.1 成熟度 48
2.2.2 成熟度模型 49
2.2.3 成熟度模型分类 51
2.3 技术创新规律与成熟度评估 56
2.3.1 技术发展生命周期规律 56
2.3.2 基于就绪水平的技术研发成熟度评估 57
2.3.3 考虑宣传期望的技术发展成熟度曲线 59
2.4 组织技术应用的发展规律与成熟度评估 61
2.4.1 指导早期信息化规划的诺兰成长阶段模型 62
2.4.2 诺兰模型在网络时代与智能时代的扩展 63
2.5 组织技术应用的能力建设规律与成熟度评估 65
2.5.1 从质量方法发展来的能力成熟度模型 65
2.5.2 能力成熟度模型的基础原理 68
2.5.3 软件领域广泛应用的能力成熟度模型 73
2.5.4 数据领域广泛应用的能力成熟度模型 75
2.6 本章小结 81
第3章 数据应用成熟度模型 82
3.1 模型开发背景 82
3.2 数据应用成熟度模型框架 86
3.2.1 模型框架说明 86
3.2.2 模型阶段与维度说明 87
3.3 数据应用成熟度模型评估 88
3.3.1 发展评估—数据应用维度 88
3.3.2 能力评估—数据工程维度 92
3.3.3 能力评估—数据治理维度 94
3.3.4 数据应用成熟度综合评估 96
3.4 数据应用成熟度模型的运用 101
3.4.1 模型运用流程 101
3.4.2 成熟度进阶建议和措施 102
3.5 数据工程过程 104
3.5.1 数据工程过程概述 105
3.5.2 数据理解过程 108
3.5.3 数据设计过程 111
3.5.4 数据处理过程—数据开发 114
3.5.5 数据处理过程—数据分析与数据科学建模 124
3.5.6 数据部署过程 129
3.5.7 数据运营过程 131
3.5.8 数据工程支持过程 133
3.6 数据治理过程?? 134
3.6.1 数据治理维度概述 134
3.6.2 宏观决策域 135
3.6.3 核心治理域—基本治理过程 137
3.6.4 核心治理域—综合治理过程 141
3.7 本章小结 143
第三部分 知识体系
第4章 数据治理与管理 146
4.1 元数据管理 147
4.1.1 元数据概述 147
4.1.2 元数据定义 147
4.1.3 元数据分类 148
4.1.4 元数据管理详解 152
4.2 数据质量管理 154
4.2.1 数据质量概述 154
4.2.2 数据质量问题 156
4.2.3 数据质量测量与评价 159
4.2.4 数据质量问题的解决方法 170
4.2.5 如何做好数据质量管理 173
4.3 数据安全管理 175
4.3.1 数据安全的内容与特点 175
4.3.2 数据安全管理流程 179
4.3.3 数据合规要求的法规体系 181
4.3.4 数据安全的基础合规要求 183
4.3.5 个人信息处理的专门合规要求 186
4.3.6 数据安全管理的技术和方法 196
4.4 本章小结 207
第5章 大数据技术详解 208
5.1 大数据技术的方法和流行开源组件 208
5.1.1 大数据的4V特性与技术挑战 208
5.1.2 大数据技术的主要方法 209
5.1.3 大数据技术的流行开源组件 211
5.2 大数据系统架构 212
5.2.1 MPP数据库架构 212
5.2.2 Hadoop体系的架构 215
5.2.3 两种架构的对比 218
5.2.4 存储与计算分离及云化的未来架构 220
5.3 大数据存储技术 221
5.3.1 分布式文件存储系统 222
5.3.2 分布式数据库系统 225
5.3.3 分布式消息传递系统 232
5.4 大数据计算技术 234
5.4.1 离线批处理 234
5.4.2 实时流处理 236
5.5 大数据分析技术 239
5.5.1 OLAP技术介绍 239
5.5.2 实时OLAP系统的两种架构模型 240
5.5.3 OLAP相关技术分类 241
5.5.4 OLAP技术典型流行产品示例 242
5.6 数据科学技术 244
5.6.1 机器学习的基础概念 244
5.6.2 有监督机器学习算法 250
5.6.3 无监督机器学习算法 260
5.7 本章小结 264
第四部分 实践案例
第6章 数据工程与治理案例——移动大数据的数据处理实践 266
6.1 统一的大数据工程与治理架构 266
6.2 数据仓库设计 268
6.2.1 数据模型架构设计 269
6.2.2 数据管理规范设计 ......
前言
第一部分 行业分析
第1章 数字化时代的变革与挑战 2
1.1 数字经济与生产变革 2
1.1.1 从农业经济到数字经济,从土地到数据 3
1.1.2 从规模化生产到个性化定制生产,从IT到DT 8
1.2 数字化时代的变革动能 10
1.2.1 技术发展创造变革 11
1.2.2 “新基建”提速变革 14
1.2.3 商业竞争驱动变革 16
1.2.4 社会治理需要变革 20
1.2.5 政府政策引导变革 22
1.3 数字化变革中的不确定性与挑战 25
1.3.1 环境不确定性 25
1.3.2 数字化变革的挑战 30
1.4 本章小结 37
第二部分 理论方法
第2章 技术变革与组织应用技术的规律 40
2.1 组织面对技术变革的三大挑战 40
2.1.1 新技术不断涌现,技术选择的挑战 41
2.1.2 创新风险很高,技术应用发展规划的挑战 45
2.1.3 发展常遇瓶颈,持续提升的挑战 47
2.2 事物发展的“第一性原理” 48
2.2.1 成熟度 48
2.2.2 成熟度模型 49
2.2.3 成熟度模型分类 51
2.3 技术创新规律与成熟度评估 56
2.3.1 技术发展生命周期规律 56
2.3.2 基于就绪水平的技术研发成熟度评估 57
2.3.3 考虑宣传期望的技术发展成熟度曲线 59
2.4 组织技术应用的发展规律与成熟度评估 61
2.4.1 指导早期信息化规划的诺兰成长阶段模型 62
2.4.2 诺兰模型在网络时代与智能时代的扩展 63
2.5 组织技术应用的能力建设规律与成熟度评估 65
2.5.1 从质量方法发展来的能力成熟度模型 65
2.5.2 能力成熟度模型的基础原理 68
2.5.3 软件领域广泛应用的能力成熟度模型 73
2.5.4 数据领域广泛应用的能力成熟度模型 75
2.6 本章小结 81
第3章 数据应用成熟度模型 82
3.1 模型开发背景 82
3.2 数据应用成熟度模型框架 86
3.2.1 模型框架说明 86
3.2.2 模型阶段与维度说明 87
3.3 数据应用成熟度模型评估 88
3.3.1 发展评估—数据应用维度 88
3.3.2 能力评估—数据工程维度 92
3.3.3 能力评估—数据治理维度 94
3.3.4 数据应用成熟度综合评估 96
3.4 数据应用成熟度模型的运用 101
3.4.1 模型运用流程 101
3.4.2 成熟度进阶建议和措施 102
3.5 数据工程过程 104
3.5.1 数据工程过程概述 105
3.5.2 数据理解过程 108
3.5.3 数据设计过程 111
3.5.4 数据处理过程—数据开发 114
3.5.5 数据处理过程—数据分析与数据科学建模 124
3.5.6 数据部署过程 129
3.5.7 数据运营过程 131
3.5.8 数据工程支持过程 133
3.6 数据治理过程?? 134
3.6.1 数据治理维度概述 134
3.6.2 宏观决策域 135
3.6.3 核心治理域—基本治理过程 137
3.6.4 核心治理域—综合治理过程 141
3.7 本章小结 143
第三部分 知识体系
第4章 数据治理与管理 146
4.1 元数据管理 147
4.1.1 元数据概述 147
4.1.2 元数据定义 147
4.1.3 元数据分类 148
4.1.4 元数据管理详解 152
4.2 数据质量管理 154
4.2.1 数据质量概述 154
4.2.2 数据质量问题 156
4.2.3 数据质量测量与评价 159
4.2.4 数据质量问题的解决方法 170
4.2.5 如何做好数据质量管理 173
4.3 数据安全管理 175
4.3.1 数据安全的内容与特点 175
4.3.2 数据安全管理流程 179
4.3.3 数据合规要求的法规体系 181
4.3.4 数据安全的基础合规要求 183
4.3.5 个人信息处理的专门合规要求 186
4.3.6 数据安全管理的技术和方法 196
4.4 本章小结 207
第5章 大数据技术详解 208
5.1 大数据技术的方法和流行开源组件 208
5.1.1 大数据的4V特性与技术挑战 208
5.1.2 大数据技术的主要方法 209
5.1.3 大数据技术的流行开源组件 211
5.2 大数据系统架构 212
5.2.1 MPP数据库架构 212
5.2.2 Hadoop体系的架构 215
5.2.3 两种架构的对比 218
5.2.4 存储与计算分离及云化的未来架构 220
5.3 大数据存储技术 221
5.3.1 分布式文件存储系统 222
5.3.2 分布式数据库系统 225
5.3.3 分布式消息传递系统 232
5.4 大数据计算技术 234
5.4.1 离线批处理 234
5.4.2 实时流处理 236
5.5 大数据分析技术 239
5.5.1 OLAP技术介绍 239
5.5.2 实时OLAP系统的两种架构模型 240
5.5.3 OLAP相关技术分类 241
5.5.4 OLAP技术典型流行产品示例 242
5.6 数据科学技术 244
5.6.1 机器学习的基础概念 244
5.6.2 有监督机器学习算法 250
5.6.3 无监督机器学习算法 260
5.7 本章小结 264
第四部分 实践案例
第6章 数据工程与治理案例——移动大数据的数据处理实践 266
6.1 统一的大数据工程与治理架构 266
6.2 数据仓库设计 268
6.2.1 数据模型架构设计 269
6.2.2 数据管理规范设计 ......
猜您喜欢