书籍详情
多根层次数据分布模型:论大数据时代的数据管理
作者:张建英 著
出版社:科学出版社
出版时间:2017-05-01
ISBN:9787030525710
定价:¥89.00
购买这本书可以去
内容简介
人类进入信息社会大数据时代,传统数据管理面临很多挑战,数据管理正面临一场科学革命。本书从大数据发展现状出发,在人类DIKW知识层次中认识“数据”,阐述大数据时代以数据为中心的必然性,进而提出数据管理的新范式,即以系统科学及开放复杂巨系统为主要特征的范式,并论述数据管理正在向新范式转换;为解决数据系统中众多管理问题,从数据语义出发给出数据分布模型概念,并论述其是大数据时代数据管理的核心与基础;定义了一种数据分布模型——MHM;另外,本书还涉及数据管理的几个主要方面,包括数据一致性、事务处理、访问控制、扩展性等,实验表明MHM在性能、可靠性方面的优势,同时讨论MHM潜在的适用范围。
作者简介
张建英
目录
前言
第1章 导论 1
1.1 数据管理面临着一场科学革命 1
1.2 社会数据管理 3
1.3 数据分布模型 7
1.4 本书的组织结构 9
第一篇 大数据时代的数据管理
第2章 数据管理的现状 13
2.1 云计算及云数据管理 13
2.2 大数据简介 16
2.3 大数据的社会影响 18
2.4 大数据的困境及思考 20
第3章 数据在DIKW体系中的地位 23
3.1 信息 23
3.2 数据 24
3.3 信息与数据的关系 26
3.3.1 谁是第一性 26
3.3.2 在认识论中把握信息与数据 27
3.3.3 信息第一性的意义 30
3.4 知识 31
3.5 智慧 32
3.6 转识成智 35
3.7 认识数据、信息、知识、智慧、道德关系的意义 37
第4章 以教据为中心组织计算 40
4.1 不同类型数据的关系 40
4.1.1 数据质量 40
4.1.2 结构化、非结构化、半结构化数据 40
4.1.3 三类数据的层次关系 41
4.2 Hadoop与大数据处理 43
4.3 Hadoop与数据管理 44
4.4 以数据为中心的必然性 46
第5章 数据管理的新范式 49
5.1 数据管理的科学革命 49
5.2 数据管理的范式转变 53
5.2.1 库恩范式与格雷范式 53
5.2.2 数据管理新范式——系统科学范式 55
5.2.3 开放的复杂巨系统 58
5.2.4 数据管理的再认识 60
5.3 数据管理技术的调整与变更 62
5.3.1 本地封闭世界假设 63
5.3.2 数据的最终一致性 64
5.3.3 CAP与BASE 66
5.3.4 事务 67
5.4 系统科学范式下的数据组织与控制 73
5.4.1 数据的组织结构与数据模型 73
5.4.2 多根树 74
5.4.3 基于多根树的数据组织 75
5.4.4 基于多根树的数据控制 77
第二篇 数据模型与数据分布模型
第6章 大数据时代的数据模型 85
6.1 常用的数据模型 85
6.1.1 层次模型 85
6.1.2 网状模型 86
6.1.3 关系模型 86
6.1.4 半结构化数据模型与XML 87
6.1.5 面向对象的数据模型 88
6.2 典型应用 89
6.2.1 数据仓库 89
6.2.2 DNS数据库 89
6.2.3 几个大规模数据存储管理系统 91
6.2.4 key value存储 95
6.2.5 大数据数据模型 100
6.3 ER模型及其表达能力 101
6.4 影响数据模型选择的因素 103
第7章 数据分布 106
7.1 数据分布的单位 106
7.1.1 数据分布以文件为单位 106
7.1.2 数据分布以片段为单位 106
7.1.3 数据分布以key-value对为单位 107
7.2 数据分布面临的挑战 107
7.3 依赖于数据分布的管理方面 110
7.3.1 查询处理 110
7.3.2 数据一致性、事务的实现 111
7.3.3 安全访问控制 111
7.3.4 扩展性 111
7.3.5 并行处理 112
7.3.6 可用性 112
7.3.7 其他 112
第8章 数据分布模型 113
8.1 没有数据分布模型的困难 113
8.1.1 系统通用性变差 113
8.1.2 应用系统开发效率低下 114
8.1.3 跨系统管理困难 114
8.1.4 系统进化困难 115
8.1.5 大数据管理系统难以落地 116
8.2 构建数据分布模型的可能性 116
8.2.1 数据分布模型特点 116
8.2.2 ER模型是数据模型的概念基础 ll7
8.2.3 现实世界是分布式存在、层次管理的 ll8
8.2.4 复杂信息管理系统的核心与基础 119
8.2.5 社会发展的必然结果 120
8.3 数据分布模型要考虑的因素 121
8.3.1 性能 121
8.3.2 多种因素的平衡 122
8.3.3 数据的语义 124
8.3.4 系统学的基本原理 125
8.3.5 可变性 127
8.3.6 简单性 128
8.3.7 定性与定量的统一 129
第三篇 多根层次数据分布模型MHM
第9章 MHM的提出 133
9.1 基于多根树的MHM 133
9.2 从图到多根树 l35
9.2.1 数据图中的菱形与回路 135
9.2.2 模式图与数据图之间的关系 l36
9.2.3 将数据图近似成多根树 137
9.3 祖先完整性与控制完整性 l38
9.3.1 祖先完整性 138
9.3.2 控制完整性 138
9.3.3 祖先完整性与控制完整性的现实意义 140
9.4 多根树的操作及现实意义 141
9.4.1 并 141
9.4.2 差 143
9.4.3 交 144
9.4.4 缩窄 144
9.4.5 融合 147
9.4.6 提取 148
9.4.7 基线 150
第10章 MHM与数据分布 154
10.1 MHM作为数据分布模型 l54
10.1.1 控制节点选取的原则 154
10.1.2 与其他数据模型的区别 l55
10.2 基于MHM的数据分布例子 156
10.3 基于非关系数据模型的MHM l59
10.3.1 基于XML的MHM 159
10.3.2 基于层次数据模型的MHM 159
10.3.3 基于网状数据模型的MHM 159
10.3.4 基于key value的MHM 160
第11章 MHM与系统科学范式 161
11.1 MHM与系统科学原理 161
11.1.1 MHM的整体性 161
11.1.2 MHM的层次性 162
11.1.3 MHM的开放性 163
11.1.4 MHM的目的性 163
11.1.5 MHM的突变性 164
11.1.6 MHM的稳定性 l65
11.1.7 MHM的自组织性 165
11.1.8 MHM的相似性 l65
11.2 MHM与系统论规律 166
11.2.1 MHM与结构功能相关律 l66
11.2.2 MHM与信息反馈律 166
11.2.3 MHM与竞争协同律 167
11.2.4 MHM与涨落有序律 167
11.2.5 MHM与优化演化律 167
第四篇 基于MHM的数据管理
第12章 基于MHM的数据一致性 171
12.1 数据一致性与数据溯源 171
12.2 物理时间戳与逻辑时间戳 174
12.3 基于模糊物理时间戳的多版本 175
12.4 引用数据的复制 177
12.4.1 引用数据的异步复制 177
12.4.2 引用数据复制与完整性约束 178
12.4.3 几点说明 l79
第13章 基于MHM的事务处理 182
13.1 基于本地封闭式世界假设的事务模型 l82
13.2 数据最终一致性对事务的支持 184
13.3 基于MHM的事务的隔离性级别 l87
13.4 不一致性与隔离性级别 189
13.5 事务提交与撤销 190
第14章 MHM可用性 192
14.1 跨层访问 192
14.2 多根树复制 193
14.2.1 多根树复制 193
14.2.2 多根树缓存 194
14.3 副本更新 195
第15章 基于MHM的访问控制 197
15.1 大规模分布式系统的访问控制 197
15.2 用户&区域 198
15.3 基于数据域的访问控制模型 201
15.4 基于MHM访问控制示例 202
15.4.1 在TPGC中应用 202
15.4.2 —个实际项目中的应用 204
第16章 MHM扩展性 206
16.1 扩展性与性能 206
16.2 扩展性与效率 209
16.3 MHM的扩展性 210
16.3.1 扩展的实现 210
16.3.2 基于MHM的TPC C扩展性 212
第17章 MHM的性能实验及适用范围 214
17.1 TPC C应用例子 214
17.1.1 基于MHM的性能实验环境 214
17.1.2 TPGC实验结果 216
17.1.3 实验结果分析 218
17.2 MHM适用范围 218
17.2.1 数据仓库 218
17.2.2 电商数据库 220
17.2.3 社交网络数据库 22l
17.2.4 无线传感器网络数据库 223
17.2.5 移动数据库 224
17.2.6 GIS数据库 225
参考文献 226
插图目录
图4.1 数据金字塔 42
图5.1 数据系统示例 64
图5.2 多根树例子 74
图5.3 买家卖家模式图 76
图5.4 单根控制 78
图5.5 多根独立控制 79
图5.6 买家多根主辅控制 80
图5.7 卖家多根主辅控制 80
图5.8 联合控制 81
图6.1 ER图中的时间 103
图9.1 子结构特征 135
图9.2 Empi是个孤立点 139
图9.3 多根树:并、交、差 142
图9.4 缩窄 146
图9.5 融合 147
图9.6 多根树提取 149
图9.7 基线 152
图10.1 TPGC模式 157
图10.2 服务器间架构 157
图12.1 模糊时间戳 177
图13.1 模糊时间戳与事务一致性 186
图14.1 跨层访问 192
图14.2 透明访问 193
图15.1 服务器&区域 199
图15.2 TPC C架构例子 203
图15.3 权限管理实例 205
图16.1 TPGC扩展 213
图17.1 性能实验环境 215
图17.2 最大的TPM 217
图17.3 24节点不同并行活动的TPM 217
表格目录
表13.1 隔离性级别 190
表15.1 各区域中的用户 204
猜您喜欢