书籍详情
海量射电天文观测数据的存储与处理研究
作者:石聪明
出版社:科学技术文献出版社
出版时间:2022-09-01
ISBN:9787518991747
定价:¥39.00
购买这本书可以去
内容简介
本书充分应用信息管理及相关学科知识,根据当前天文海量数据管理中存在的关键问题,重点开展存储与检索、传输、归档3个方面的关键技术研究。最后,以两个射电望远镜的数据管理为例[明安图射电频谱日像仪(MUSER)和平方公里阵列(SKA)射电望远镜],通过数据仿真、实例化测试、性能对比、理论分析来验证本书相关内容的正确性。具体说明如下:①针对海量射电天文观测数据记录的高效存储与检索需求,基于观测数据具有固定的采样间隔和固定数量的连续观测数据记录按序存放在文件中的时序数据特征,本书提出了一种以集合中的补集思想为核心的面向时序数据的数据库系统,即负数据库系统。负数据库系统将文件中存在记录及首尾记录之间丢失记录的元数据信息视为全集,把文件中首尾记录之间丢失记录的元数据信息看成补集,通过补集构建出来的文件逻辑结构关系,能够推导出文件中存在记录的元数据信息。本书给出完整的形式化定义及严格的理论证明。实测结果表明:在记录入库、数据检索及要入库的记录数方面,负数据库系统比需要存储文件中所有存在记录的元数据信息的常用数据管理系统分别快18.8倍、快1.5~6.9倍及减少(N-2)/N×100%(N指文件中的固定记录数)。进而说明,负数据库系统能够在大幅降低存储开销和记录数的同时提供较高的检索性能。②针对海量射电天文观测数据的跨区域高速传输需求,本书提出带状态检测和重传功能的两路异步消息传输模型——高效消息传输模型。该模型是指用两路异步消息传输来分别单向高速传输数据消息和反馈消息,通过超时重传来确保数据消息送达接收方,以及通过实时状态检测来决定是否继续向接收方发送消息。该模型能够克服当前很多远程数据传输技术都使用的出错重传方法存在的需要等待对端反馈消息而降低数据消息传输效率的不足。基于高效消息传输模型实现了一套高效数据传输系统,该系统的性能测试结果表明:在传输文件为数百kB时,该系统获得的平均传输速度比现有系统快将近40倍;同时,在数百MB这个量级和使用较少的并发数时,该系统获得的平均传输速度达到1172 MB/s(该速度基本上实现了10 Gb/s网络带宽的满负载),比现有系统快将近3.4倍。进而说明,实现的高效数据传输系统有效地提高了数据传输性能,缩短了数据传输时间。③针对海量射电天文观测数据在进行高可靠性归档时尽可能降低数据冗余的需求,本书提出基于纠删码的归档模型——低冗余归档模型。该模型是指将纠删码技术集成到带状态检测和重传功能的两路异步消息传输模型中的数据消息接收方而形成的归档模型。该模型能够克服现有系统使用副本技术归档时存在的高数据冗余的不足。基于低冗余归档模型和RS(4,2)算法实现了一套低冗余归档系统,该系统的性能测试结果表明:在相同的实验环境下,该系统获得的平均异地归档速度是现有系统未启用3副本策略时的1.4倍,且只需要增加50%的额外存储开销就能达到基于3副本策略时需要200%的额外存储开销才能达到的数据可靠性;并发数和HWM是该系统调优的关键参数。进而说明,实现的低冗余归档系统具有较高的归档速度,能以较低的数据冗余获得较高的数据可靠性。
作者简介
暂缺《海量射电天文观测数据的存储与处理研究》作者简介
目录
第一章 绪论
1.1 研究背景
1.1.1 大数据时代的信息管理
1.1.2 天文大数据时代对信息管理的需求
1.1.3 天文大数据处理面临的问题与困难
1.2 研究意义及价值
1.3 国内外研究现状
1.3.1 海量数据的存储
1.3.2 海量数据的处理
1.3.3 海量数据的传输
1.3.4 存储/归档系统中的数据冗余技术
1.4 研究内容及思路
1.5 结构
第二章 负数据库模型与原理
2.1 时序数据的基本定义
2.2 时序数据管理
2.2.1 时序数据文件中的术语
2.2.2 与时序数据相关的函数定义
2.2.3 时序数据组织结构
2.2.4 有损时序数据文件
2.2.5 时序数据管理
2.3 负数据库
2.3.1 记录结构
2.3.2 记录入库
2.3.3 数据检索
2.3.3.1 获取符合条件的Value1实例
2.3.3.2 获取精准位置序号范围
2.3.3.3 推导出符合检索条件的记录集合
2.4 性能分析与讨论
2.4.1 记录数分析
2.4.2 最优性能分析
2.4.3 最差性能分析
2.4.4 讨论
2.5 本章小结
第三章 观测数据远程传输
3.1 应用需求
3.2 NGAS介绍
3.2.1 数据归档功能
3.2.2 数据同步功能
3.2.3 远程传输
3.3 消息传输模型
3.3.1 带重传的同步消息传输模型
3.3.2 带状态检测和重传功能的两路异步消息传输模型
3.4 数据传输系统的设计与实现
3.4.1 Pub-Server与Sub-Server的设计
3.4.2 Pub-Server与Sub-Server的实现
3.4.3 Subscriber-Server与Subscriber-Client的设计与
实现
3.5 性能测试
3.5.1 单机环境下的性能测试
3.5.2 模拟环境下的性能测试
3.6 分析与讨论
3.7 本章小结
第四章 观测数据低冗余归档
4.1 应用需求
4.2 纠删码算法选择
4.2.1 相关概念和性能指标
4.2.2 算法分析
4.3 归档模型及其归档系统
4.3.1 归档模型
4.3.2 归档系统的设计与实现
4.4 性能测试
4.4.1 实验环境
4.4.2 小文件对性能的影响
4.4.3 文件大小对性能的影响
4.4.4 并发数对性能的影响
4.4.5 HWM对性能的影响
4.5 分析与讨论
4.6 本章小结
第五章 负数据库在MUSER中的应用
5.1 明安图射电频谱日像仪简介
5.2 MUSER负数据库的设计与实现
5.2.1 记录结构的设计
5.2.2 记录结构的实现
5.2.3 记录入库
5.2.4 数据检索
5.3 3种系统的部署
5.4 MUSER负数据库的性能测试
5.4.1 记录入库性能
5.4.2 数据检索性能
5.4.3 丢帧率对检索性能的影响
5.5 分析与讨论
5.6 本章小结
第六章 结论与展望
6.1 研究结论
6.2 不足与展望
参考文献
1.1 研究背景
1.1.1 大数据时代的信息管理
1.1.2 天文大数据时代对信息管理的需求
1.1.3 天文大数据处理面临的问题与困难
1.2 研究意义及价值
1.3 国内外研究现状
1.3.1 海量数据的存储
1.3.2 海量数据的处理
1.3.3 海量数据的传输
1.3.4 存储/归档系统中的数据冗余技术
1.4 研究内容及思路
1.5 结构
第二章 负数据库模型与原理
2.1 时序数据的基本定义
2.2 时序数据管理
2.2.1 时序数据文件中的术语
2.2.2 与时序数据相关的函数定义
2.2.3 时序数据组织结构
2.2.4 有损时序数据文件
2.2.5 时序数据管理
2.3 负数据库
2.3.1 记录结构
2.3.2 记录入库
2.3.3 数据检索
2.3.3.1 获取符合条件的Value1实例
2.3.3.2 获取精准位置序号范围
2.3.3.3 推导出符合检索条件的记录集合
2.4 性能分析与讨论
2.4.1 记录数分析
2.4.2 最优性能分析
2.4.3 最差性能分析
2.4.4 讨论
2.5 本章小结
第三章 观测数据远程传输
3.1 应用需求
3.2 NGAS介绍
3.2.1 数据归档功能
3.2.2 数据同步功能
3.2.3 远程传输
3.3 消息传输模型
3.3.1 带重传的同步消息传输模型
3.3.2 带状态检测和重传功能的两路异步消息传输模型
3.4 数据传输系统的设计与实现
3.4.1 Pub-Server与Sub-Server的设计
3.4.2 Pub-Server与Sub-Server的实现
3.4.3 Subscriber-Server与Subscriber-Client的设计与
实现
3.5 性能测试
3.5.1 单机环境下的性能测试
3.5.2 模拟环境下的性能测试
3.6 分析与讨论
3.7 本章小结
第四章 观测数据低冗余归档
4.1 应用需求
4.2 纠删码算法选择
4.2.1 相关概念和性能指标
4.2.2 算法分析
4.3 归档模型及其归档系统
4.3.1 归档模型
4.3.2 归档系统的设计与实现
4.4 性能测试
4.4.1 实验环境
4.4.2 小文件对性能的影响
4.4.3 文件大小对性能的影响
4.4.4 并发数对性能的影响
4.4.5 HWM对性能的影响
4.5 分析与讨论
4.6 本章小结
第五章 负数据库在MUSER中的应用
5.1 明安图射电频谱日像仪简介
5.2 MUSER负数据库的设计与实现
5.2.1 记录结构的设计
5.2.2 记录结构的实现
5.2.3 记录入库
5.2.4 数据检索
5.3 3种系统的部署
5.4 MUSER负数据库的性能测试
5.4.1 记录入库性能
5.4.2 数据检索性能
5.4.3 丢帧率对检索性能的影响
5.5 分析与讨论
5.6 本章小结
第六章 结论与展望
6.1 研究结论
6.2 不足与展望
参考文献
猜您喜欢