数据库理论
-
数据质量管理实践手册[英]罗伯特·霍克(Robert Hawker)本书深入剖析了组织中数据质量的重要性及提升方法,为组织打造优质数据提供了全面的指导。书中首先揭示了糟糕的数据质量对企业流程、决策及合规的潜在影响,进而阐述了提高数据质量的核心要素和端到端的实践流程。详细解析了数据质量提升方案的每个步骤,从构建业务案例到管理初期的繁忙阶段,再到确定关键利益相关者并明确数据规则,为读者提供了清晰的操作路径。此外,书中还介绍了数据监控与修正的有效方法,并探讨了如何将良好的数据实践融入企业日常运营。最后,作者总结了一份提升数据质量的完整纲要,配以实例和模板工具,以点燃读者的探索热情,并助力数据质量工作持续高效推进。本书是企业数据质量管理的指南,适合各类组织的数据从业者和管理者阅读参考。 -
原理、架构和代码分析王凤刚在云计算和互联网快速发展的驱动下,分布式技术领域产生了很多新的热点,分布式数据库就是其中之一。但是,目前对分布式数据库的理解和研究多停留在理论层面,本书以Greenplum分布式数据库为例,深入剖析分布式技术在工业级产品里的实现细节,为读者呈现从理论到实践的“全景图”。本书共3篇:第1篇主要介绍分布式数据库基础理论,包括经典的CAP理论、一致性算法相关的理论、并发控制相关的理论等;第2篇具体介绍Greenplum数据库,从分布式事务、分布式计算和分布式存储3个方面,深入代码层级,讲述分布式理论在工业上的实现;第3篇是总结和展望,介绍云原生数据库和新技术带给Greenplum和数据库管理系统的机遇和挑战。本书打破以理论介绍和架构介绍为主的思路,深入分析工业化的实现,实践性强。本书主要面向数据库领域的科研工作者和学者,也可作为高校计算机类专业的分布式数据库相关课程的参考资料。 -
数据指标体系李渝方这是一套数据指标体系全流程构建(从规划、框架设计、数据采集加工到应用)方法论与实践指南。它不仅深入浅出地分享了通用的数据指标体系构建策略,还通过多个行业实例展示了具体操作方法。书中从数据采集入手,借助BI工具Superset实践构建过程。本着“一切技术都是为业务服务的”这一宗旨,本书除了包含数据指标体系构建相关内容外,还结合统计学原理及Excel、Python等工具,深入剖析数据指标波动对业务的影响,旨在帮助读者深入理解数据指标与实际业务的底层关联,把数据指标体系落地到业务中。第一篇(第1章):深度解读数据指标体系的基础知识,让读者充分理解数据指标,并掌握构建策略、全流程和方法概要,其中包括数据指标体系分类标准、评判优质指标的4个标准、选择数据指标的4个注意事项、数据指标体系3要素、构建指标体系的7个策略等重点。第二篇(第2~6章):从实践层面出发,带领读者基于业务目标一步步提炼5类产品(工具类、内容类、社交类、交易类、游戏类)的关键数据指标,并通过精细的维度拆解,呈现清晰的指标规划图谱。本篇还在最后站在分析维度的角度给出了数据指标分析的方法论。第三篇(第7章和第8章):在第二篇形成的规划图谱的基础上,给出数据指标构建的完整方法论,并以在线教育、电子书阅读工具、图文内容社区、网约车平台、社交电商这五大典型行业为例,完整解读如何将方法论应用于实践。第四篇(第9章和第10章):揭秘数据从埋点收集到清洗加工的全过程,包括原始数据采集、数据处理与指标开发、数仓模型构建等。这是实现高效数据处理的关键,也是数据分析师技能之一。第五篇(第11章和第12章):通过实际案例指导读者搭建数据指标体系,并展示如何利用数据指标体系监控业务动态,分析数据异动,量化其对整体业务的影响。其中包括25种BI数据可视化方法、2个监控看板实战案例、精准定位数据异动的方法、4种数据异动类型、1套异动维度拆解策略,以及7种量化数据异动贡献度的方法。 -
R语言范超 朱雪宁 等如何从数据中挖掘价值?一是要锻炼数据思维;二是需要选择一个便利快捷的工具。R语言在数据分析方面有着灵活、高效的优势。本书以R语言为基础,深度讲解从数据思维到实战的全过程。在章节组织上,本书从R语言简介及优势入手,再到数据读取、清洗、描述、建模等数据分析的各个环节,由浅入深逐个讲解,是一本实务分析中的“R语言指南”。同时,本书采用大量实际案例辅以说明,既有助于上手分析,也可用于教学使用。本书所有代码、数据可在狗熊会官网(http://www.xiong99.com.cn/create.php)免费下载。同时,关注狗熊会微信公众号,可获取更多扩展资源。 -
大智小技VI爱可生开源社区“大智小技”系列图书由爱可生开源社区发起,将每年在社区发布的优质技术内容进行筛选分类整理编辑而成。《大智小技VI:数据库生产实战漫笔》作为系列图书的第六部,延续了MySQL故障案例以及技术分享等经典章节。国产数据库学习热情高涨,我们对OceanBase篇的内容进行了扩增。社区的经典专栏“一问一实验”全新归来,看看ChatDBA是如何解决数据库故障的。 -
Redis应用实例黄健宏本书将从内部组件、外部应用和数据结构3个方面为读者介绍Redis常见、经典的用法与实例,并且所有实例均附有完整的Python代码,方便读者学习和参考。全书分3个部分:第一部分讲内部组件,介绍的实例通常用于系统内部,如缓存、锁、计数器、迭代器、速率限制器等,这些都是很多系统中不可或缺的部分;第二部分讲外部应用,介绍的实例都是一些日常常见的、用户可以直接接触到的应用,如直播弹幕、社交关系、排行榜、分页、地理位置等;第三部分讲数据结构,介绍的实例是一些使用Redis实现的常见数据结构,如先进先出队列、栈、优先队列和矩阵等。本书希望通过展示常见的Redis应用实例来帮助读者了解使用Redis解决各类问题的方法,并加深读者对Redis各项命令及数据结构的认识,使读者真正成为能够使用Redis解决各类问题的Redis专家。本书适合对Redis有基本了解且想要进一步掌握Redis及键值数据库具体应用的技术人群,是理想的Redis技术进阶读物。 -
DAMA数据管理知识体系指南[美]DAMA国际《DAMA数据管理知识体系指南(第2版修订版)》是在DMBOK1和DMBOK2的基础上进行的第三次修订,是DAMA国际对过去30多年数据管理领域领域知识和实践的总结,是一部数据管理基础工具书。本书从数据处理道德规范、数据治理、数据架构、数据建模和设计、数据存储和操作、数据安全、数据集成和互操作性、文档和内容管理、参考数据和主数据、数据仓库和商业智能、元数据管理、数据质量管理、大数据数据科学、数据管理成熟度评估、数据管理组织和角色期望、数据管理和组织变革管理等方面对数据管理知识体系进行了系统介绍,并描述如何在数据管理功能领域中应用这些原则。 -
大数据治理李浥东 沈华伟 范举本书是中国计算机学会青年计算机科技论坛在2021年举办的“大数据治理的关键技术路径”深度思辨论坛的成果,着重讨论大数据治理的内涵和大数据治理的可行技术路径,包括大数据治理的背景与内涵、大数据安全与隐私保护、大数据管理与数据流转、面向大数据应用的算法治理等内容。书末还收录了深度思辨论坛的起源、论坛组织纪实与精彩观点,梳理了大数据治理中的挑战,并对未来的潜在研究方向进行了展望。本书适合从事大数据相关工作的研究者和工程师阅读。 -
数据博弈论刘文奇本书系统地建立了数据博弈论。首先,论述了数据资产的属性以及数据资产的价值的信息经济学基础;其次,阐述了公共数据库的公共产品属性和数据共享信任博弈的基本模型,并分析了复杂网络上的公共数据演化博弈。第三,建立了供应链预测数据共享博弈模型,获得了带有"廉价谈话"的供应链预测数据共享博弈的子博弈精炼纳什均衡。第四,系统分析了数据共享的信任机制设计,建立的基于公共数据的电子证据区块链框架。第五,系统给出了数据主权博弈与国际科学数据共享机制,建立了数字税的非对称市场双头垄断博弈模型,并给出了近似解。第六,在多人宗族博弈理论基础上,建立了多智能体的分布式生成对抗网络模型,得到了数据真实性博弈的均衡解的条件及算法。第七,在平均场博弈基础上,给出了深度强化学习的理论基础和算法。 -
智慧医院赵杰 何贤英本书系统性地总结了当前我国前沿数字技术的起源、发展和应用,详细阐述了国内外智慧医院建设的现状以及所面临的挑战,充分研究了智慧医院在智慧医疗、智慧服务、智慧管理和协同诊疗等应用场景的建设策略,全面介绍了数字技术在智慧医院建设中的应用,并展望了数字技术引领下的智慧医院发展趋势。本书立足于学术和多学科交叉建设的角度,介绍了数字技术赋能智慧医院的建设现状、建设策略、应用场景以及发展趋势,以供读者更好地了解智慧医院建设的全貌,对于我国智慧医疗、协同诊疗等医院智慧化建设具有良好的参考价值。本书结构清晰、内容翔实,从实际应用的维度探讨了智慧医院与数字技术的深度融合,适合从事智慧医院、数字化医疗相关工作的读者阅读,也适合高等院校相关专业的学生和教师阅读。
