数据库挖掘/数据仓库
-
MongoDB数据建模和模式设计[美]丹尼尔·库帕 [美]帕斯卡·德斯马雷斯 [美]史蒂夫·霍伯曼本书包括导论以及对齐(Align)、细化(Refine)、设计(Design)三章。通过将业务术语、逻辑和物理三个建模层次重命名为对齐、细化、设计,在名称中包含了该层次所做的工作。导论介绍了数据模型的三个特征——精确性、最小化和可视化;数据模型的三个组件——实体、关系和属性;数据模型的三个层次——业务术语(对齐)、逻辑(细化)和物理(设计),以及数据建模的三个视角——关系、维度和查询。第1章对齐是关于通用业务术语的,以便每个人都能在术语和总体计划范围上保持一致。第2章细化是关于搜集业务需求的,即完善我们对项目的了解,专注于关键业务要点。第3章设计是关于技术需求的,即针对独特软硬件需求进行模型设计。对齐、细化和设计,这就是本书遵循的方法,并通过“宠物之家”案例对概念加以强化。本书适合需要将建模技能扩展到MongoDB的数据专业人员,或者熟悉MongoDB但需要提高模式设计技能的技术人员。 -
算力芯片濮元恺本书介绍了超级计算机算力和AI算力的异同,从CPU流水线开始,描述主要的众核处理器架构和功能部件设计。在GPU和NPU等加速器部分,介绍了GPU为何能从单纯的图形任务处理器变成通用处理器。GPU在设计逻辑、存储体系、线程管理,以及面向AI的张量处理器方面成为最近几年全世界科技行业最瞩目的明星。本书对华为等厂商推出的NPU芯片设计也做了架构描述,中国也拥有独立自主知识产权的高算力芯片,并且支持多芯片、高带宽互连。本书也回顾了近20年来主流的CPU、GPU芯片架构的特点,介绍了存储与互连总线技术,即大模型专用AI超级计算机的中枢核心。 -
时序大数据平台TDengine核心原理与实战TDengine团队本书由浅入深地阐述了时序大数据平台TDengine的核心原理与实战案例。首先,本书为读者提供了时序数据的基础知识和TDengine的核心特性概览,包括数据模型、数据写入、数据查询、数据订阅和流计算等;其次,详细介绍了TDengine的日常运维管理,包括安装部署、资源规划、图形化管理、数据安全等关键内容;然后,深入讲解了如何利用TDengine进行应用开发,涵盖多种编程语言的连接器使用、订阅数据,以及自定义函数的开发等高级功能;接下来,为数据库研发爱好者揭秘TDengine的内核设计,从分布式架构到存储引擎、查询引擎、数据订阅,再到流计算引擎的详细阐述;最后,通过分析典型应用场景案例,展示TDengine如何在实际业务中发挥作用。本书架构清晰,内容丰富,理论与实践相结合,适合作为需要使用TDengine进行大数据处理的开发者、架构师和产品经理的技术参考与培训资料。 -
用数据说话博蓄诚品 编著本书从读者熟悉的Excel出发,首先对数据的收集、整理、分析、多维透视进行了简要概述,接着引入了PowerBI,以实现对数据更精准的分析及可视化操作。全书共8章,内容包括如何使用Excel规范录入及整理数据源,如何使用函数、数据透视表及其他常见数据分析工具对数据进行加工,PowerQuery编辑器的应用、PowerBI数据建模、DAX公式的应用、报表的创建和编辑,以及可视化对象的数据交互等。在讲解过程中安排了大量的实操案例,以达到学以致用、举一反三的目的。本书结构合理,内容循序渐进、通俗易懂。本书适合Excel及PowerBI入门及进阶读者、数据分析新手阅读使用,同时可用作职业院校及培训机构相关专业的教材及参考书。 -
R语言实战 数据整理、可视化、建模与挖掘薛震 孙玉林本书是一本数据科学的入门与提升教程,全书共5篇,按照由浅入深、循序渐进的方式介绍R语言的基本语法与实际应用,并结合现实数据进行实战操作。内容涵盖R语言的安装与运行、数据对象的创建与编程、R语言初级与高级绘图、数据的管理与清洗、统计分析与数据降维、无监督与有监督学习、利用R Markdown创建动态报告和制作幻灯片等。本书为读者提供了相关案例的源码(获取方式见封底)。本书适合对数据可视化、统计建模、数据分析、数据挖掘感兴趣的研究人员和工程技术人员阅读,也可作为高等院校数学、统计学、数据科学、计算机科学、人工智能、云计算、大数据分析、生物医学、工业统计等方向本科生或研究生的参考教程。 -
大数据技术与应用中国产业发展研究院本书是围绕我国国民经济和社会发展第十四个五年规划和2035 年远景目标等重大要求, 由中国通信学会、中国产业发展研究院联合组织编写的“新基建核心技术与融合应用丛书” 之一。大数据技术的战略意义不在于掌握庞大的数据信息, 而在于对这些含有意义的数据进行专业化处理。换而言之, 如果把大数据比作一种产业, 那么这种产业实现盈利的关键在于提高对数据的“加工能力”, 通过“加工” 实现数据的“增值”。本书立足数字经济浪潮, 以促进数据合规高效流通使用、赋能实体经济为主线, 重点围绕大数据采集、流通、安全、治理及应用等全生命周期进行编写, 覆盖大数据存储、计算、管理、安全与治理、资产管理与流通、分析、平台、产业与应用等环节, 对培育新质生产力, 推动我国数字经济高质量发展具有重要参考价值。本书适合IT、金融、研究机构相关从业人员以及高等院校相关专业的学生使用, 也可供对大数据感兴趣的读者阅读。 -
数据结构俞勇、张铭、陈越、韩文弢本书是计算机领域本科教育教学改革试点工作计划(“101计划”)系列教材之一,秉承“发展经典,关注前沿;问题先导,内容溯源;章节灵活,难度适配”原则编写而成。全书共16章,包括绪论,线性表,栈与队列,字符串,树与二叉树,优先级队列,图,图应用,不相交集,内排序,查找与高级查找,外排序,查找与索引,算法基础,高级算法。本书提供配套教学课件、各章知识点教案、各章引入视频、配套实验教材(C、C 、Java、Python等语言实现),以及实践教学平台等教学资源,可作为高等学校计算机类专业本科生“数据结构”课程教材。 -
产业数字化国家工业信息安全发展研究中心 清华大学数据治理研究中心洞见产业新生态,解码数字新经济行业场景真实展示 实际案例深度梳理,感受数字转型路径风格谭建荣院士、郭华东院士、邬贺铨院士、张宏科院士 共同推荐《产业数字化——释义、场景及应用案例》以《“十四五”数字经济发展规划》中产业数字化部分的核心内容为纲领,从入选工业和信息化部的大数据产业发展示范项目中,选取了具有产业代表性的来自生产一线的数字化转型实践案例,连同数字化建设和转型的共性基础内容,组织了42 个案例,从实践背景、方法手段、主要应用的技术、实践过程中遇到的典型问题、实施流程、典型应用场景等方面,分享了多个行业、多家单位的实践经验,以期帮助读者对产业数字化转型产生更为具体的了解和体会、获得间接经验,为读者提升数字认知和工作能力做一定的基础铺垫。本书适合具有产业数字化转型需求的相关企业的管理者、运维人员阅读参考,也适合相关院校作为大数据、数据运维相关专业的产教融合教材使用。 -
一本书讲透数据资产入表王琰 孟庆国 刘晗 朱越 等内容简介这是一部能指引零基础读者顺利完成数据资产入表的实操性著作。它不仅为读者提供了数据资产入表所需的全部知识,还给出了实际操作层面的方法指引;既是数据资产入表的初学者指南,也是企业实施数据资产入表操作的工作手册。本书由数据资产管理领域的标杆企业亿信华辰倾情奉献,同时融合了行业的先进实践经验,开创性提出“数据资产三次入表理论”(数据原始资源入表、数据产品入表、数据金融资产入表),得到了来自学术界和企业界的12位数据资产管理专家的高度评价和强烈推荐。本书分为四部分,不仅从战略、方法、工具、实操、案例等角度为读者提供了全面的数据资产入表知识体系,还前瞻性地探讨了数据资产入表后的价值挖掘、资产评估和金融创新。第一部分 数据资产入表全景概览(第1和第2章)深入分析数据资产入表的宏观背景、核心目标及其对企业乃至社会的价值,为读者描绘数据资产入表的时代意义和发展蓝图。第二部分 数据资产入表核心知识体系(第3~5章)详解数据资产入表所需的会计原理、法律框架和大数据技术基础,建立全面而深入的知识体系,为实操打下坚实基础。第三部分 数据资产入表实操指南(第6~9章)系统阐述实施策略与具体步骤,涵盖数据原始资源入表与数据产品入表的关键环节,提供详尽的实操指南。第四部分 数据资产入表后的价值挖掘(第10~13章)指导企业探索金融创新工具的应用,实现数据的资产化和资本化,释放数据资源的巨大潜在价值。此外,附录包含“数据资产入表36问”“数据要素相关标准清单”等内容,插页给出了“数据资产入表知识地图”。 -
大数据技术基础与应用主编 张燕 邹立达 张睿 于晓 林培光当今社会,大数据技术已广泛应用于各行各业,大数据相关的存储和分布式计算等基本知识也成为了时下大学生尤其是计算机相关专业学生应具备的常识。本书在内容上去繁就简,重点介绍大数据的相关基本概念和原理,包括存储原理和分布式处理的原理。本书主要围绕Hadoop大数据处理平台(第2章),介绍其中涉及的HDFS(第3章)、HBase(第4章)等存储技术和Hadoop MapReduce分布式处理技术(第6章);介绍了大数据相关的存储技术NoSQL数据库(第5章)以及数据仓库技术Hive(第7章);并对新兴的大数据平台Spark(第8章)以及其他流行的大数据技术(第9章)进行了介绍。 本书适合计算机专业的低年级学生作为大数据入门课程的教材或者其他专业学生的大数据课程教材。
