数据库挖掘/数据仓库
-
轨迹数据分析方法及应用杨雨晴随着信息、互联网、社交媒体、卫星定位、基于位置的服务(Location Based Services,LBS)等技术的发展,轨迹数据领域迎来了大数据时代。在轨迹大数据背景下,轨迹数据分析的关注度得到持续攀升,它能够借助移动对象的时空特征和移动行为信息发现新知识和模式,从而为智慧城市计算与服务、交通管理与规划、物流管理、智能制造、旅游路径推荐、自然灾害预测与预警、疫情传播监测等诸多领域提供决策支持与服务。本书以轨迹数据相关分析及挖掘技术为主要研究对象,针对轨迹大数据背景下轨迹数据的特征及分析需求,对数据噪声处理、特征提取、相似性度量、参数依赖及复杂轨迹聚类等问题开展了深入研究。 本书可供从事大数据、数据挖掘、机器学习、轨迹数据分析等相关领域的科研及工程人员参考,也可作为高等院校计算机、软件工程及自动化、信息与通信工程等专业的本科生和研究生的学习参考书。 -
算力芯片濮元恺本书介绍了超级计算机算力和AI算力的异同,从CPU流水线开始,描述主要的众核处理器架构和功能部件设计。在GPU和NPU等加速器部分,介绍了GPU为何能从单纯的图形任务处理器变成通用处理器。GPU在设计逻辑、存储体系、线程管理,以及面向AI的张量处理器方面成为最近几年全世界科技行业最瞩目的明星。本书对华为等厂商推出的NPU芯片设计也做了架构描述,中国也拥有独立自主知识产权的高算力芯片,并且支持多芯片、高带宽互连。本书也回顾了近20年来主流的CPU、GPU芯片架构的特点,介绍了存储与互连总线技术,即大模型专用AI超级计算机的中枢核心。 -
基于西藏地区环境大数据的健康特征分析与空间模型查欣洁生态文明建设与生态环境保护,已被我国作为社会可持续发展的重要基础。西藏自治区作为地球上最独特的地质?—地理—?生态—?环境单元——青藏高原的主体,是全球变化的“敏感区”,也是开展地球与生命演化、圈层相互作用及人地关系研究的天然实验室。随着人口增长、社会经济发展和科技进步,人类活动对地球生态环境的影响越来越强烈,西藏自治区也在国家生态安全屏障保护与建设中占有越来越重要的地位。由于特殊的地理位置,复杂的自然环境、地质背景和气候条件,使高原生态环境敏感且极其脆弱,环境本底十分复杂,资源环境开发利用的生态阈值较低,资源环境承载能力极为有限。因此,通过利用空间模型探索生态环境因子与人类健康间的关系,可以发掘出生态环境数据更大的价值,为当地政府制定人口管理和易地搬迁等相关政策提供科学依据。 -
经典并行与量子并行刘宇航本书深入浅出介绍后摩尔时代的并行计算核心技术,理论与实践并重,同时兼顾数学模型、结构模型、编程模型。本书具有以下特色:从概念上明确算势与算力的联系与区别,强调在后摩尔时代背景下从潜在能力(算势)到实际能力(算力)的充分转化的重要性;注重量化分析和理论推导,单列一章对计算性能模型和存储性能进行了介绍;注重并行应用程序的设计,单列一章介绍并对比分析了共享存储编程与非共享存储编程的基本原理;注重融会贯通,培养整体观念,分别考察了共享存储结构和分布式存储结构,揭示潜在的可利用的并行硬件资源以及对应的编程方法;编制了大量的原创的有助于提高读者理解深度和应用知识能力的例题;在国内外同类教材或专著中,率先以算势和算力的统一的视角,系统对比了经典并行计算与量子并行计算,促进两个领域的沟通融合。 -
Apache ShardingSphere权威指南潘娟 张亮 [阿尔及利亚]亚幸·西·塔伊布(Yacine Si Tayeb)Apache ShardingSphere 是一个基于可插拔特性和云原生原则的新开源生态系统,将其用于分布式数据基础设施有助于增强数据库性能。本书首先简要概述数据库管理系统在生产环境中面临的主要挑战和数据库软件的内核概念;然后介绍使用分布式数据库解决方案、弹性伸缩、用户身份认证、SOL授权、全链路监控、数据库网关和 DistSOL的真实示例,全面讲解 ShardingSphere 的架构组件,以及如何利用它们配置和插入现有的基础架构并管理数据和应用;接着介绍生态系统的客户端 ShardingSphere-JDBC 和 ShardingSphere-Proxy,以及它们如何同时或独立地工作以满足实际需求;最后讲解如何定制可插拔架构以定义个性化的用户策略和无缝管理多个配置,并在各种场景下对数据库进行基准测试和性能测试。 -
基于R语言分析的心理语言学眼动数据处理王敬欣,李琳R语言在心理语言学研究中的应用已经有相当长的历史,但什么情况下要对数据进行怎样的处理,模型应该如何构建,得到结果后应该如何科学地读取和规范地报告等问题仍未得到很好的解决,本书意在解决这些问题。本书首先介绍了R语言基础知识、基本统计思路和初步数据整理,对经由真实眼动研究得到的数据进行清理、转换和描述性统计,以及数据可视化等操作,然后介绍了线性混合模型和最大随机效应,结果解释、整理和提升,power分析和Bayes分析在R语言中的实现;接着介绍了线性混合模型和重复测量方差分析结果的比较;最后介绍了多种眼动指标整理的方法。 -
大数据开发实战猿媛之家本书深入探讨了大数据技术的核心概念和实际应用。从大数据的基础架构Hadoop开始,逐步解析了分布式协调服务Zookeeper、数据仓库Hive、面向列的数据库HBase等关键技术。此外,还介绍了数据迁移工具Sqoop、数据采集工具Flume、发布订阅消息系统Kafka等实用工具。本书还深入讲解了数据处理分析引擎Spark、全文搜索引擎Elasticsearch及分布式处理引擎Flink的工作原理和应用实例。最后,通过电商推荐系统实战和Flink实现电商用户行为分析两个案例,展示了大数据技术在实际业务中的应用。本书附带全书实例源代码、电子版本教程(下载方式见封底),以及可扫码观看的长达13个小时的部分实例操作视频,帮助读者更深入了解大数据技术的具体内容,非常适合对大数据技术感兴趣的读者,尤其是想要深入了解大数据技术原理和应用的开发者和管理者阅读。 -
循序渐进Spark大数据应用开发柳伟卫《循序渐进Spark大数据应用开发》结合作者一线开发实践,循序渐进地介绍了新版Apache Spark 3.x的开发技术。全书共10章,第1章和第2章主要介绍Spark的基本概念、安装,并演示如何编写最简单的Spark程序。第3章深入探讨了Spark的核心组件RDD。第4章讲解了Spark集群管理,帮助读者理解任务提交与执行的基本原理。第5章介绍了Spark SQL,这是处理结构化数据的基础工具。第6章展示了Spark Web UI,通过界面化的方式了解Spark集群运行状况。第7章和第8章分别介绍了Spark流式数据处理框架Spark Streaming和Structured Streaming。第9章和第10章则分别介绍了业界流行的机器学习和图计算处理框架MLlib和GraphX。书中各章节还提供了丰富的实战案例和上机练习题,以便读者在学习的同时进行实际操作,迅速提升动手能力。《循序渐进Spark大数据应用开发》技术先进,案例丰富,适合对Spark大数据应用感兴趣的学生、大数据开发人员及架构师使用,也可作为培训机构和高校大数据课程的教学用书。 -
CIM关键技术开发与城市大数据治理修文群本书针对CIM规划建设中存在关键技术难点,以BIM/IOT数据空间化、语义化为基础,建立城市级CIM搜索引擎,开展CIM要素高效查询与综合管理,推动VR/AR、数字孪生、可视化决策等应用。内容包括:1以GIS为基础的CIM管理、CIM轻量级目录索引与搜索引擎建设、BIM与视频数据轻量化、空间化、语义化处理,以有效解决数据存储、计算能力不足所导致CIM开发瓶颈;2结合国内外GIS、BIM、IOT主流产品(ESRI、AUTODESK、UNITY、超图、海康等)实际操作与编程开发,针对“BIM-GIS一体化、视频-GIS一体化、三维视频地图”等关键技术,给出可操作性方案,作为CIM建设实施之实用指南。 -
大模型核心原理与企业落地实践林学森、吴锋、王劲涛、代声馨"全书分两大篇。第 1 篇原理篇(第 1、2 章),尝试引导读者共同探索和揭秘研发领域大模型背后的核心原理,以使读者“既知其然,又知其所以然”,并为后续章节的学习打下坚实的基础。从概率、**化等基础理论入手,进而深入浅出地阐述 Transformer、神经元等大模型的核心组成元素,以及评估方法、数据工程建设等通用能力的建设。针对技术细节,采用通俗易懂的行文风格,并辅以大量的图表和数据,“零基础”的读者也可以高效地学习。第 2 篇应用实践篇(第3 ~ 8章),是产业界**实践成果的总结。选取代码生成、代码转换、知识问答、推理加速、运维运营等研发大模型领域的高频业务作为剖析对象,详细展示作者在针对这些问题时的端到端思考,包括设计理念、关键技术瓶颈、解决方案及落地结果等。无论你是初学者还是行业专家,都能在本书中找到宝贵的知识和实用的技巧,本书将帮助你在大模型技术的浪潮中乘风破浪。"
