书籍详情

多根层次数据分布模型:论大数据时代的数据管理

多根层次数据分布模型:论大数据时代的数据管理

作者:张建英 著

出版社:科学出版社

出版时间:2017-05-01

ISBN:9787030525710

定价:¥89.00

购买这本书可以去
内容简介
  人类进入信息社会大数据时代,传统数据管理面临很多挑战,数据管理正面临一场科学革命。本书从大数据发展现状出发,在人类DIKW知识层次中认识“数据”,阐述大数据时代以数据为中心的必然性,进而提出数据管理的新范式,即以系统科学及开放复杂巨系统为主要特征的范式,并论述数据管理正在向新范式转换;为解决数据系统中众多管理问题,从数据语义出发给出数据分布模型概念,并论述其是大数据时代数据管理的核心与基础;定义了一种数据分布模型——MHM;另外,本书还涉及数据管理的几个主要方面,包括数据一致性、事务处理、访问控制、扩展性等,实验表明MHM在性能、可靠性方面的优势,同时讨论MHM潜在的适用范围。
作者简介
  张建英
目录
前言 第1章 导论 1 1.1 数据管理面临着一场科学革命 1 1.2 社会数据管理 3 1.3 数据分布模型 7 1.4 本书的组织结构 9 第一篇 大数据时代的数据管理 第2章 数据管理的现状 13 2.1 云计算及云数据管理 13 2.2 大数据简介 16 2.3 大数据的社会影响 18 2.4 大数据的困境及思考 20 第3章 数据在DIKW体系中的地位 23 3.1 信息 23 3.2 数据 24 3.3 信息与数据的关系 26 3.3.1 谁是第一性 26 3.3.2 在认识论中把握信息与数据 27 3.3.3 信息第一性的意义 30 3.4 知识 31 3.5 智慧 32 3.6 转识成智 35 3.7 认识数据、信息、知识、智慧、道德关系的意义 37 第4章 以教据为中心组织计算 40 4.1 不同类型数据的关系 40 4.1.1 数据质量 40 4.1.2 结构化、非结构化、半结构化数据 40 4.1.3 三类数据的层次关系 41 4.2 Hadoop与大数据处理 43 4.3 Hadoop与数据管理 44 4.4 以数据为中心的必然性 46 第5章 数据管理的新范式 49 5.1 数据管理的科学革命 49 5.2 数据管理的范式转变 53 5.2.1 库恩范式与格雷范式 53 5.2.2 数据管理新范式——系统科学范式 55 5.2.3 开放的复杂巨系统 58 5.2.4 数据管理的再认识 60 5.3 数据管理技术的调整与变更 62 5.3.1 本地封闭世界假设 63 5.3.2 数据的最终一致性 64 5.3.3 CAP与BASE 66 5.3.4 事务 67 5.4 系统科学范式下的数据组织与控制 73 5.4.1 数据的组织结构与数据模型 73 5.4.2 多根树 74 5.4.3 基于多根树的数据组织 75 5.4.4 基于多根树的数据控制 77 第二篇 数据模型与数据分布模型 第6章 大数据时代的数据模型 85 6.1 常用的数据模型 85 6.1.1 层次模型 85 6.1.2 网状模型 86 6.1.3 关系模型 86 6.1.4 半结构化数据模型与XML 87 6.1.5 面向对象的数据模型 88 6.2 典型应用 89 6.2.1 数据仓库 89 6.2.2 DNS数据库 89 6.2.3 几个大规模数据存储管理系统 91 6.2.4 key value存储 95 6.2.5 大数据数据模型 100 6.3 ER模型及其表达能力 101 6.4 影响数据模型选择的因素 103 第7章 数据分布 106 7.1 数据分布的单位 106 7.1.1 数据分布以文件为单位 106 7.1.2 数据分布以片段为单位 106 7.1.3 数据分布以key-value对为单位 107 7.2 数据分布面临的挑战 107 7.3 依赖于数据分布的管理方面 110 7.3.1 查询处理 110 7.3.2 数据一致性、事务的实现 111 7.3.3 安全访问控制 111 7.3.4 扩展性 111 7.3.5 并行处理 112 7.3.6 可用性 112 7.3.7 其他 112 第8章 数据分布模型 113 8.1 没有数据分布模型的困难 113 8.1.1 系统通用性变差 113 8.1.2 应用系统开发效率低下 114 8.1.3 跨系统管理困难 114 8.1.4 系统进化困难 115 8.1.5 大数据管理系统难以落地 116 8.2 构建数据分布模型的可能性 116 8.2.1 数据分布模型特点 116 8.2.2 ER模型是数据模型的概念基础 ll7 8.2.3 现实世界是分布式存在、层次管理的 ll8 8.2.4 复杂信息管理系统的核心与基础 119 8.2.5 社会发展的必然结果 120 8.3 数据分布模型要考虑的因素 121 8.3.1 性能 121 8.3.2 多种因素的平衡 122 8.3.3 数据的语义 124 8.3.4 系统学的基本原理 125 8.3.5 可变性 127 8.3.6 简单性 128 8.3.7 定性与定量的统一 129 第三篇 多根层次数据分布模型MHM 第9章 MHM的提出 133 9.1 基于多根树的MHM 133 9.2 从图到多根树 l35 9.2.1 数据图中的菱形与回路 135 9.2.2 模式图与数据图之间的关系 l36 9.2.3 将数据图近似成多根树 137 9.3 祖先完整性与控制完整性 l38 9.3.1 祖先完整性 138 9.3.2 控制完整性 138 9.3.3 祖先完整性与控制完整性的现实意义 140 9.4 多根树的操作及现实意义 141 9.4.1 并 141 9.4.2 差 143 9.4.3 交 144 9.4.4 缩窄 144 9.4.5 融合 147 9.4.6 提取 148 9.4.7 基线 150 第10章 MHM与数据分布 154 10.1 MHM作为数据分布模型 l54 10.1.1 控制节点选取的原则 154 10.1.2 与其他数据模型的区别 l55 10.2 基于MHM的数据分布例子 156 10.3 基于非关系数据模型的MHM l59 10.3.1 基于XML的MHM 159 10.3.2 基于层次数据模型的MHM 159 10.3.3 基于网状数据模型的MHM 159 10.3.4 基于key value的MHM 160 第11章 MHM与系统科学范式 161 11.1 MHM与系统科学原理 161 11.1.1 MHM的整体性 161 11.1.2 MHM的层次性 162 11.1.3 MHM的开放性 163 11.1.4 MHM的目的性 163 11.1.5 MHM的突变性 164 11.1.6 MHM的稳定性 l65 11.1.7 MHM的自组织性 165 11.1.8 MHM的相似性 l65 11.2 MHM与系统论规律 166 11.2.1 MHM与结构功能相关律 l66 11.2.2 MHM与信息反馈律 166 11.2.3 MHM与竞争协同律 167 11.2.4 MHM与涨落有序律 167 11.2.5 MHM与优化演化律 167 第四篇 基于MHM的数据管理 第12章 基于MHM的数据一致性 171 12.1 数据一致性与数据溯源 171 12.2 物理时间戳与逻辑时间戳 174 12.3 基于模糊物理时间戳的多版本 175 12.4 引用数据的复制 177 12.4.1 引用数据的异步复制 177 12.4.2 引用数据复制与完整性约束 178 12.4.3 几点说明 l79 第13章 基于MHM的事务处理 182 13.1 基于本地封闭式世界假设的事务模型 l82 13.2 数据最终一致性对事务的支持 184 13.3 基于MHM的事务的隔离性级别 l87 13.4 不一致性与隔离性级别 189 13.5 事务提交与撤销 190 第14章 MHM可用性 192 14.1 跨层访问 192 14.2 多根树复制 193 14.2.1 多根树复制 193 14.2.2 多根树缓存 194 14.3 副本更新 195 第15章 基于MHM的访问控制 197 15.1 大规模分布式系统的访问控制 197 15.2 用户&区域 198 15.3 基于数据域的访问控制模型 201 15.4 基于MHM访问控制示例 202 15.4.1 在TPGC中应用 202 15.4.2 —个实际项目中的应用 204 第16章 MHM扩展性 206 16.1 扩展性与性能 206 16.2 扩展性与效率 209 16.3 MHM的扩展性 210 16.3.1 扩展的实现 210 16.3.2 基于MHM的TPC C扩展性 212 第17章 MHM的性能实验及适用范围 214 17.1 TPC C应用例子 214 17.1.1 基于MHM的性能实验环境 214 17.1.2 TPGC实验结果 216 17.1.3 实验结果分析 218 17.2 MHM适用范围 218 17.2.1 数据仓库 218 17.2.2 电商数据库 220 17.2.3 社交网络数据库 22l 17.2.4 无线传感器网络数据库 223 17.2.5 移动数据库 224 17.2.6 GIS数据库 225 参考文献 226 插图目录 图4.1 数据金字塔 42 图5.1 数据系统示例 64 图5.2 多根树例子 74 图5.3 买家卖家模式图 76 图5.4 单根控制 78 图5.5 多根独立控制 79 图5.6 买家多根主辅控制 80 图5.7 卖家多根主辅控制 80 图5.8 联合控制 81 图6.1 ER图中的时间 103 图9.1 子结构特征 135 图9.2 Empi是个孤立点 139 图9.3 多根树:并、交、差 142 图9.4 缩窄 146 图9.5 融合 147 图9.6 多根树提取 149 图9.7 基线 152 图10.1 TPGC模式 157 图10.2 服务器间架构 157 图12.1 模糊时间戳 177 图13.1 模糊时间戳与事务一致性 186 图14.1 跨层访问 192 图14.2 透明访问 193 图15.1 服务器&区域 199 图15.2 TPC C架构例子 203 图15.3 权限管理实例 205 图16.1 TPGC扩展 213 图17.1 性能实验环境 215 图17.2 最大的TPM 217 图17.3 24节点不同并行活动的TPM 217 表格目录 表13.1 隔离性级别 190 表15.1 各区域中的用户 204
猜您喜欢

读书导航