书籍详情
数据架构:数据科学家的第一本书(原书第2版)
作者:[美] W.H.因蒙 著,黄智濒 陶袁译 译
出版社:机械工业出版社
出版时间:2021-05-01
ISBN:9787111679608
定价:¥89.00
购买这本书可以去
内容简介
本书由“数据仓库之父”Inmon和“Data Vault之父”Linstedt领衔撰写,带领读者从宏观视角了解数据架构的基本概念和原则,是数据科学家、分析师和管理者在入门阶段的必备参考读物。本书创新性地提出终端状态架构的概念,新增了关于可视化和大数据的章节,以及文本管理和分析等来自不同行业的实例。通过阅读本书,读者将通晓数据收集、治理、提取、分析等不同阶段的核心技术,进而学会将大数据技术融入现有的信息基础设施或数据仓库系统。
作者简介
暂缺《数据架构:数据科学家的第一本书(原书第2版)》作者简介
目录
献词
译者序
第1章 数据架构与数据类型1
1.1 数据架构简介1
1.1.1 细分数据1
1.1.2 重复性和非重复性非结构化数据2
1.1.3 数据的“分水岭”2
1.1.4 文本数据和非文本数据3
1.1.5 各种形式的数据3
1.1.6 商业价值4
1.2 数据基础设施4
1.2.1 重复性数据的两种类型4
1.2.2 重复性结构化数据5
1.2.3 重复性大数据6
1.2.4 两种基础设施6
1.2.5 基础设施的优化7
1.2.6 比较两种基础设施8
1.3 分水岭8
1.3.1 企业数据的分类8
1.3.2 什么是分水岭9
1.3.3 重复性非结构化数据9
1.3.4 非重复性非结构化数据10
1.3.5 不同的环境12
1.4 企业数据统计图13
1.5 企业数据分析16
1.6 数据的生命周期:理解时间线上的数据19
1.7 数据简史23
1.7.1 纸带和打孔卡23
1.7.2 磁带23
1.7.3 磁盘存储器24
1.7.4 数据库管理系统24
1.7.5 耦合处理器24
1.7.6 在线事务处理24
1.7.7 数据仓库25
1.7.8 并行数据管理25
1.7.9 数据保险箱25
1.7.10 大数据25
1.7.11 分水岭26
第2章 终端状态架构——“世界地图”27
2.1 架构组件27
2.2 终端状态架构中不同类型的数据28
2.3 通过模型塑造数据29
2.4 数据仓库在哪里30
2.5 不同类型的问题在终端状态架构中得到不同的回答31
2.6 数据湖中的数据31
2.7 终端状态架构中的元数据32
2.8 网络化元数据32
2.9 演变的经验33
2.10 数据湖架构34
第3章 终端状态架构中的转换35
3.1 冗余数据35
3.2 转换35
3.3 定制数据36
3.4 转换文本37
3.5 转换应用数据37
3.6 将数据转换为定制状态38
3.7 将数据转换为批量存储38
3.8 自动生成数据的转换39
3.9 转换批量数据39
3.10 转换和冗余40
第4章 大数据41
4.1 大数据简史41
4.1.1 类比—占领制高点41
4.1.2 占领制高点42
4.1.3 IBM 360的标准化42
4.1.4 在线事务处理42
4.1.5 Teradata和MPP处理43
4.1.6 Hadoop和大数据43
4.1.7 IBM和Hadoop43
4.1.8 坚守制高点43
4.2 何谓大数据43
4.2.1 另一种定义44
4.2.2 大体量44
4.2.3 廉价存储44
4.2.4 罗马人口普查方法44
4.2.5 非结构化数据45
4.2.6 大数据中的数据46
4.2.7 重复性数据的语境46
4.2.8 非重复性数据47
4.2.9 非重复性数据的语境47
4.3 并行处理49
4.4 非结构化数据53
4.4.1 无处不在的文本信息53
4.4.2 基于结构化数据的决策53
4.4.3 商业价值建议54
4.4.4 重复性和非重复性非结构化信息54
4.4.5 易于分析55
4.4.6 语境化56
4.4.7 一些语境化方法56
4.4.8 Map Reduce57
4.4.9 手工分析58
4.5 将重复性非结构化数据语境化58
4.5.1 解析重复性非结构化数据59
4.5.2 重铸输出数据59
4.6 文本消歧59
4.6.1 从叙述性数据库到分析性数据库60
4.6.2 文本消歧的输入60
4.6.3 映射61
4.6.4 输入/输出61
4.6.5 文档分解和命名值处理62
4.6.6 文档预处理63
4.6.7 电子邮件63
4.6.8 电子表格64
4.6.9 报告反编译器64
4.7 分类法65
4.7.1 数据模型和分类法66
4.7.2 分类法的适用性67
4.7.3 什么是分类法67
4.7.4 多种语言的分类法68
4.7.5 商业分类法还是私人分类法68
4.7.6 分类法和文本消歧的动态过程68
4.7.7 分类法和文本消歧的分离技术68
4.7.8 分类法的不同类型69
4.7.9 分类法—随着时间的推移进行维护70
第5章 孤岛式应用环境71
5.1 孤岛式应用的挑战71
5.2 构建孤岛式应用73
5.3 孤岛式应用是什么样的74
5.4 当前值数据74
5.5 限度的历史数据75
5.6 高可用性76
5.7 孤岛式应用之间的重叠76
5.8 冻结业务需求77
5.9 拆除孤岛式应用77
第6章 数据保险箱78
6.1 数据保险箱2.0简介78
6.1.1 数据保险箱的起源和背景78
6.1.2 什么是数据保险箱2.0建模80
6.1.3 如何定义数据保险箱2.0方法论81
6.1.4 为什么需要数据保险箱2.0架构81
6.1.5 数据保险箱2.0的实施范围81
6.1.6 数据保险箱2.0的商业利益81
6.1.7 数据保险箱1.0简介82
6.2 数据保险箱建模简介83
6.2.1 数据保险箱模型的概念83
6.2.2 数据保险箱模型的定义83
6.2.3 数据保险箱模型的组成部分83
6.2.4 业务键为何如此重要84
6.2.5 数据保险箱和数据仓库的关系85
6.2.6 如何转换到数据保险箱建模85
6.2.7 为什么要对暂存区的数据进行限制86
6.2.8 数据保险箱模型的基本规则86
6.2.9 为什么需要很多链接结构87
6.2.10 数据保险箱2.0的主键选项87
6.3 数据保险箱架构简介93
译者序
第1章 数据架构与数据类型1
1.1 数据架构简介1
1.1.1 细分数据1
1.1.2 重复性和非重复性非结构化数据2
1.1.3 数据的“分水岭”2
1.1.4 文本数据和非文本数据3
1.1.5 各种形式的数据3
1.1.6 商业价值4
1.2 数据基础设施4
1.2.1 重复性数据的两种类型4
1.2.2 重复性结构化数据5
1.2.3 重复性大数据6
1.2.4 两种基础设施6
1.2.5 基础设施的优化7
1.2.6 比较两种基础设施8
1.3 分水岭8
1.3.1 企业数据的分类8
1.3.2 什么是分水岭9
1.3.3 重复性非结构化数据9
1.3.4 非重复性非结构化数据10
1.3.5 不同的环境12
1.4 企业数据统计图13
1.5 企业数据分析16
1.6 数据的生命周期:理解时间线上的数据19
1.7 数据简史23
1.7.1 纸带和打孔卡23
1.7.2 磁带23
1.7.3 磁盘存储器24
1.7.4 数据库管理系统24
1.7.5 耦合处理器24
1.7.6 在线事务处理24
1.7.7 数据仓库25
1.7.8 并行数据管理25
1.7.9 数据保险箱25
1.7.10 大数据25
1.7.11 分水岭26
第2章 终端状态架构——“世界地图”27
2.1 架构组件27
2.2 终端状态架构中不同类型的数据28
2.3 通过模型塑造数据29
2.4 数据仓库在哪里30
2.5 不同类型的问题在终端状态架构中得到不同的回答31
2.6 数据湖中的数据31
2.7 终端状态架构中的元数据32
2.8 网络化元数据32
2.9 演变的经验33
2.10 数据湖架构34
第3章 终端状态架构中的转换35
3.1 冗余数据35
3.2 转换35
3.3 定制数据36
3.4 转换文本37
3.5 转换应用数据37
3.6 将数据转换为定制状态38
3.7 将数据转换为批量存储38
3.8 自动生成数据的转换39
3.9 转换批量数据39
3.10 转换和冗余40
第4章 大数据41
4.1 大数据简史41
4.1.1 类比—占领制高点41
4.1.2 占领制高点42
4.1.3 IBM 360的标准化42
4.1.4 在线事务处理42
4.1.5 Teradata和MPP处理43
4.1.6 Hadoop和大数据43
4.1.7 IBM和Hadoop43
4.1.8 坚守制高点43
4.2 何谓大数据43
4.2.1 另一种定义44
4.2.2 大体量44
4.2.3 廉价存储44
4.2.4 罗马人口普查方法44
4.2.5 非结构化数据45
4.2.6 大数据中的数据46
4.2.7 重复性数据的语境46
4.2.8 非重复性数据47
4.2.9 非重复性数据的语境47
4.3 并行处理49
4.4 非结构化数据53
4.4.1 无处不在的文本信息53
4.4.2 基于结构化数据的决策53
4.4.3 商业价值建议54
4.4.4 重复性和非重复性非结构化信息54
4.4.5 易于分析55
4.4.6 语境化56
4.4.7 一些语境化方法56
4.4.8 Map Reduce57
4.4.9 手工分析58
4.5 将重复性非结构化数据语境化58
4.5.1 解析重复性非结构化数据59
4.5.2 重铸输出数据59
4.6 文本消歧59
4.6.1 从叙述性数据库到分析性数据库60
4.6.2 文本消歧的输入60
4.6.3 映射61
4.6.4 输入/输出61
4.6.5 文档分解和命名值处理62
4.6.6 文档预处理63
4.6.7 电子邮件63
4.6.8 电子表格64
4.6.9 报告反编译器64
4.7 分类法65
4.7.1 数据模型和分类法66
4.7.2 分类法的适用性67
4.7.3 什么是分类法67
4.7.4 多种语言的分类法68
4.7.5 商业分类法还是私人分类法68
4.7.6 分类法和文本消歧的动态过程68
4.7.7 分类法和文本消歧的分离技术68
4.7.8 分类法的不同类型69
4.7.9 分类法—随着时间的推移进行维护70
第5章 孤岛式应用环境71
5.1 孤岛式应用的挑战71
5.2 构建孤岛式应用73
5.3 孤岛式应用是什么样的74
5.4 当前值数据74
5.5 限度的历史数据75
5.6 高可用性76
5.7 孤岛式应用之间的重叠76
5.8 冻结业务需求77
5.9 拆除孤岛式应用77
第6章 数据保险箱78
6.1 数据保险箱2.0简介78
6.1.1 数据保险箱的起源和背景78
6.1.2 什么是数据保险箱2.0建模80
6.1.3 如何定义数据保险箱2.0方法论81
6.1.4 为什么需要数据保险箱2.0架构81
6.1.5 数据保险箱2.0的实施范围81
6.1.6 数据保险箱2.0的商业利益81
6.1.7 数据保险箱1.0简介82
6.2 数据保险箱建模简介83
6.2.1 数据保险箱模型的概念83
6.2.2 数据保险箱模型的定义83
6.2.3 数据保险箱模型的组成部分83
6.2.4 业务键为何如此重要84
6.2.5 数据保险箱和数据仓库的关系85
6.2.6 如何转换到数据保险箱建模85
6.2.7 为什么要对暂存区的数据进行限制86
6.2.8 数据保险箱模型的基本规则86
6.2.9 为什么需要很多链接结构87
6.2.10 数据保险箱2.0的主键选项87
6.3 数据保险箱架构简介93
猜您喜欢