数据库
-
Spark大数据算法[美]Mahmoud Parsian(马哈默德 帕瑞斯安)利用这本书,你将学习以下内容:了解如何选择Spark转换实现优化的解决方案。探索强大的转换和归约,包括reduceByKey()、combineByKey()和mapPartitions()。理解数据分区以实现优化查询。使用PySpark设计模式构建和应用模型。对图数据应用motif查找算法。使用GraphFrames API分析图数据。对临床医学和基因组数据应用PySpark算法。学习如何在ML算法中使用和应用特征工程。了解并使用实用的数据设计模式。 -
数据挖掘竞赛实战许可乐本书围绕数据挖掘竞赛,讲解了各种类型数据挖掘竞赛的解题思路、方法和技巧,并辅以对应的实战案例。全书共11章。第1章介绍数据挖掘竞赛的背景、意义和现状。从第2章开始,介绍了各种不同类型的数据挖掘竞赛包括结构化数据、自然语言处理、计算机视觉(图像)、计算机视觉(视频)、强化学习。每种类型的数据挖掘竞赛包含理论篇和实战篇:理论篇介绍通用的解题流程和关键技术;实战篇选取比较有代表性的赛题,对赛题的优秀方案进行深入分析,并提供方案对应的实现代码。本书适合数据挖掘竞赛爱好者、人工智能相关专业在校大学生、人工智能方向从业人员及对人工智能感兴趣的读者阅读。 -
大数据可信计算蒋昌俊,章昭辉随着数字经济的发展,大数据应用范围越来越广泛,各类大数据平台承载着海量的数据资源。大量敏感资源和重要数据要赋能数字经济的发展,可信安全地利用大数据极其重要。《大数据可信计算》汇集了作者及其研究团队的研究成果,介绍了大数据可信计算的体系及其关键技术以及相应平台系统的设计与实现,主要内容包括原位虚拟大数据中心平台体系、大数据感知与勘探技术、多源多维数据融合计算技术、基于多模型融合的信用评估技术、大数据安全的测试与评估技术、原位虚拟大数据中心平台系统、基于区块链的大数据共享与协作系统、可信金融交易风险防控系统。 -
CockroachDB权威指南[澳]盖伊·哈里森 ,[美]杰西·塞尔德斯,[美]本·达内尔本书介绍如何使用CockroachDB创建可扩展的应用,并在为最终用户提供无缝交付能力的同时保障系统性能。全书共15章,分为三部分:第一部分(第1~4章)介绍CockroachDB的历史背景,包括数据库的演进和分布式云数据库的出现,内容涵盖分布式SQL的核心概念、CockroachDB的架构和功能、CockroachDB适用场景下的用例;第二部分(第5~8章)介绍CockroachDB中模式设计的基本原理,涵盖应用的设计和实现,以及与其他数据库的集成;第三部分(第9~15章)涵盖单区域和多区域部署的规划和执行,核心内容包括备份和灾难恢复、安全、可观测性、管理和故障排除以及集群优化。 -
数据生态治理系统工程曾自强 著随着数字经济的不断发展,数据价值得到越来越广泛而深入的体现。目前我国信息数据资源80%以上掌握在各级政府部门手里,受数据孤岛、技术壁垒、法制缺失、数据标准不统一等因素影响,大量数据未能得到充分开放、共享或利用,不利于推动我国数字产业化与产业数字化的发展。政府、企业和个人是数据开放、共享和交易的基本主体,技术与法制是数据流动的重要保障,它们共同形成一个复杂开放的数据生态系统,其治理是一项集政策、理论、方法、技术、法律和文化于一体的复杂系统工程。本书在剖析数据生态治理问题的基础上,运用系统工程思想,从数据、问题、系统、技术和法制几个层面探析数据生态治理的基本原则,构建了一套数据生态治理系统工程的方法论体系,为促进我国数字经济发展提供了决策指导和政策启示。全书共15章,分为数据篇、治理篇、系统篇、技术篇和法制篇五个部分,体系完整、逻辑严谨、案例丰富、内容翔实,可供相关专业本科生、研究生、教师和研究人员阅读或作为教材使用,也可为政府在数据治理领域决策、制定政策提供参考。 -
深入浅出存储引擎文小飞全书分为3篇:1.第1篇首先会详细讲解存储引擎的全貌,让读者能对存储引擎有一个整体的思维框架,介绍存储引擎的两大分支:基于b+树的存储引擎、基于lsm派系的存储引擎,其次对存储引擎部分涉及的一些数据结构、存储介质等概念做一个简要的介绍,为后面内容的深入学习做铺垫。2.第二篇主要介绍基于b+树的存储引擎,在理论部分重点回答为什么选择b+树做存储引擎索引结构、b+树存储引擎解决哪些问题以及如何解决。在实践部分选择开源社区中比较有名的boltdb存储引擎项目来讲解其内部核心源码的实现细节。3.第三篇主要介绍基于lsm派系的存储引擎,理论部分重点介绍lsm tree中各组件的功能及作用,并在此基础上扩展介绍其他几类lsm派系存储引擎的实现思路,帮助读者开阔视野,实践部分分别以bitcask、moss、leveldb等开源项目的核心源码来展开,介绍其内部实现细节。通过阅读本书,读者不仅能对存储引擎,尤其是单机的存储引擎有一个整体的框架,而且能对两类存储引擎的实现思路及背后原理有个深刻的掌握,只有深刻理解了存储引擎的背后实现原理,读者不仅可以自己动手开发自己的存储引擎,更可以很快掌握关系型数据库或者NoSql这类组件的核心原理,对未来实际应用与开发提供参考。 -
10天学会Excel数据分析宋翔编写本书的目的是使读者可以在最z短时间内掌握Excel 数据分析。本书以数据分析的整体流程和知识难易度来安排各章内容及其在全书中的次序,每一章内容都紧密围绕数据分析展开。全书共10 章,每天学习一章,10 天就能学会Excel 中的大多数数据分析工具的用法和技巧。本书的主要内容包括数据分析的基本概念和流程、Excel 中的数据分析工具的功能和特点、导入外部数据和输入不同类型的数据、修复有问题的数据、设置数据格式、排序、筛选、分类汇总、数据透视表、公式和函数基础知识、提取和格式化文本、汇总和统计数据、计算日期、模拟分析、单变量求解、规划求解、分析工具库、图表的基本概念和基础操作、创建不同类型的图表、导入和刷新数据、使用Power Query 编辑器整理数据、使用Power Pivot 创建数据模型、创建计算列和度量值、销售分析和客户分析等。本书适合所有想要学习使用Excel 进行数据分析的用户阅读,也可作为各类院校和培训班的Excel 数据分析教材。 -
智能数据服务、安全与应用优化陈宇 于蒙 汪玉洁 赵坤很多企业尤其是制造企业越来越重视预测与决策方面的智能化和精准度,这使得企业对数据个性化、多样化的需求日趋强烈。本书正是基于这样的需求,提出随需而变的数据空间引擎设计方法,探讨智能数据服务、安全及应用优化等方面的问题、技术与方法。全书共分5章,分别介绍数据空间引擎设计与管理系统架构、海量异构数据集成方法与技术、智能数据服务方法、智能制造领域数字孪生技术,以及多维度安全与隐私保障体系构建。 本书内容结合理论与实践场景,适合异构数据集成服务、数据空间技术及数字孪生技术的研发人员及对此感兴趣的读者阅读,也适合作为各类院校相关专业师生的参考书 -
机器学习大数据平台的构建、任务实现与数据治理[美] 弗拉德·里斯库蒂亚(Vlad Riscutia)著 叶伟民、刘华、余灵 译主要内容● 数据字典和数据治理● 数据质量管控、合规和分发● 构建自动化管道以提高可靠性● 数据摄取、存储和分发● 支持生产环境中的数据建模、分析和机器学习 -
新型数据库系统金培权 赵旭剑数据库技术自从上世纪60年代诞生以来,经历了网状数据库、层次数据库等发展阶段,zui终在80年代确立了关系数据库技术的主导地位。关系数据库技术经过几十年的发展,在各行各业都取得了巨大的成功。但是,进入21世纪后,随着互联网、物联网、云计算等技术的快速发展,传统的关系数据库技术由于在可扩展性、灵活性等方面存在的不足,难以支持层出不穷的新型应用。在此背景下,键值数据库、文档数据库、列存储数据库、图数据库等新型数据库技术因运而生。本书与现有的介绍关系数据库技术为主的书籍不同,重点介绍当前数据库领域中出现的各类新型数据库系统的概念、基础理论、关键技术以及典型应用。在理论方面,本书除了介绍各类新型数据库系统中基本的理论和原理之外,还将侧重于对这些理论的研究背景和动机进行讨论,使读者能够了解新型数据库系统在设计上的先进性,并通过与成熟的关系数据库技术的对比,明了新型数据库技术的应用方向以及存在的局限性。在应用方面,本书将侧重与实际软件工程相结合,通过实际的应用示例介绍各类新型数据库系统在实际应用中的使用方法和流程,使读者能够真正做到学以致用。
