读书网 - dushu.com

数据库挖掘/数据仓库

一本书讲透数据跨境流动

林梓瀚

这是一本从理论与实践双重角度讲解数据跨境流动的著作，既系统讲解了数据跨境流动的经济价值、制度建设、技术路径、企业管理、场景识别，又给出了数据跨境流动面向未来的解释框架，包括经济形态、表征行为、应用架构与底层技术等。本书覆盖了数据跨境流动所需的知识，详细讨论了在实际操作中的落地实操方法，具备系统性、落地性与前瞻性三大特点，融合了作者多年研究与落地经验，中国电子信息产业集团原总法律顾问、中国信息化百人会执委、上海数据交易所党总支书记、广东省数据要素产业协会秘书长等17位来自学界和业界的专家联袂推荐。本书共9章，分为4个部分，全面讲述了数据跨境流动的定义、政策法律体系以及开展数据跨境流动的合规方法与技术保障选择，并从经济形态、应用框架和底层技术对数据跨境流动的未来发展趋势做出研判，帮助读者掌握数据跨境流动的发展动向。第一部分基础概览（第1章和第2章）介绍数据跨境流动的基本定义、发展阶段及数据跨境流动的内涵，同时从全球治理、全球经济发展、全球科技发展3个角度阐明数据跨境流动所蕴含的巨大价值。第二部分核心规则体系（第3章和第4章）详细介绍我国对数据跨境流动的政策以及相关法律体系，梳理了基本的合规规则，为后续的实操奠定了基础。第三部分操作指引（第5章至第7章）介绍数据处理者的内部实操，包括数据出境业务的梳理、内部合规制度建设等，并列举了重点行业梳理数据出境场景以及数据字段的方法，同时介绍了相关安全保障技术的技术原理及应用价值等。第四部分域外规则要点（第8章和第9章）介绍了国际机构、国际贸易协定、全球主要经济体有关数据跨境流动的规则，以及这些规则对我国境内数据处理者开展数据跨境流动的影响，另外还描述了全球未来经济形态和相关技术的发展路径，并探讨了它们与数据跨境流动的关系。
大数据开发实战

猿媛之家

本书深入探讨了大数据技术的核心概念和实际应用。从大数据的基础架构Hadoop开始，逐步解析了分布式协调服务Zookeeper、数据仓库Hive、面向列的数据库HBase等关键技术。此外，还介绍了数据迁移工具Sqoop、数据采集工具Flume、发布订阅消息系统Kafka等实用工具。本书还深入讲解了数据处理分析引擎Spark、全文搜索引擎Elasticsearch及分布式处理引擎Flink的工作原理和应用实例。最后，通过电商推荐系统实战和Flink实现电商用户行为分析两个案例，展示了大数据技术在实际业务中的应用。本书附带全书实例源代码、电子版本教程（下载方式见封底），以及可扫码观看的长达13个小时的部分实例操作视频，帮助读者更深入了解大数据技术的具体内容，非常适合对大数据技术感兴趣的读者，尤其是想要深入了解大数据技术原理和应用的开发者和管理者阅读。
基于R语言分析的心理语言学眼动数据处理

王敬欣,李琳

R语言在心理语言学研究中的应用已经有相当长的历史，但什么情况下要对数据进行怎样的处理，模型应该如何构建，得到结果后应该如何科学地读取和规范地报告等问题仍未得到很好的解决，本书意在解决这些问题。本书首先介绍了R语言基础知识、基本统计思路和初步数据整理，对经由真实眼动研究得到的数据进行清理、转换和描述性统计，以及数据可视化等操作，然后介绍了线性混合模型和最大随机效应，结果解释、整理和提升，power分析和Bayes分析在R语言中的实现；接着介绍了线性混合模型和重复测量方差分析结果的比较；最后介绍了多种眼动指标整理的方法。
循序渐进Spark大数据应用开发

柳伟卫

《循序渐进Spark大数据应用开发》结合作者一线开发实践，循序渐进地介绍了新版Apache Spark 3.x的开发技术。全书共10章，第1章和第2章主要介绍Spark的基本概念、安装，并演示如何编写最简单的Spark程序。第3章深入探讨了Spark的核心组件RDD。第4章讲解了Spark集群管理，帮助读者理解任务提交与执行的基本原理。第5章介绍了Spark SQL，这是处理结构化数据的基础工具。第6章展示了Spark Web UI，通过界面化的方式了解Spark集群运行状况。第7章和第8章分别介绍了Spark流式数据处理框架Spark Streaming和Structured Streaming。第9章和第10章则分别介绍了业界流行的机器学习和图计算处理框架MLlib和GraphX。书中各章节还提供了丰富的实战案例和上机练习题，以便读者在学习的同时进行实际操作，迅速提升动手能力。《循序渐进Spark大数据应用开发》技术先进，案例丰富，适合对Spark大数据应用感兴趣的学生、大数据开发人员及架构师使用，也可作为培训机构和高校大数据课程的教学用书。
经典并行与量子并行

刘宇航

本书深入浅出介绍后摩尔时代的并行计算核心技术，理论与实践并重，同时兼顾数学模型、结构模型、编程模型。本书具有以下特色：从概念上明确算势与算力的联系与区别，强调在后摩尔时代背景下从潜在能力（算势）到实际能力（算力）的充分转化的重要性；注重量化分析和理论推导，单列一章对计算性能模型和存储性能进行了介绍；注重并行应用程序的设计，单列一章介绍并对比分析了共享存储编程与非共享存储编程的基本原理；注重融会贯通，培养整体观念，分别考察了共享存储结构和分布式存储结构，揭示潜在的可利用的并行硬件资源以及对应的编程方法；编制了大量的原创的有助于提高读者理解深度和应用知识能力的例题；在国内外同类教材或专著中，率先以算势和算力的统一的视角，系统对比了经典并行计算与量子并行计算，促进两个领域的沟通融合。
Apache ShardingSphere权威指南

潘娟张亮 [阿尔及利亚]亚幸·西·塔伊布（Yacine Si Tayeb）

Apache ShardingSphere 是一个基于可插拔特性和云原生原则的新开源生态系统，将其用于分布式数据基础设施有助于增强数据库性能。本书首先简要概述数据库管理系统在生产环境中面临的主要挑战和数据库软件的内核概念；然后介绍使用分布式数据库解决方案、弹性伸缩、用户身份认证、SOL授权、全链路监控、数据库网关和 DistSOL的真实示例，全面讲解 ShardingSphere 的架构组件，以及如何利用它们配置和插入现有的基础架构并管理数据和应用；接着介绍生态系统的客户端 ShardingSphere-JDBC 和 ShardingSphere-Proxy，以及它们如何同时或独立地工作以满足实际需求；最后讲解如何定制可插拔架构以定义个性化的用户策略和无缝管理多个配置，并在各种场景下对数据库进行基准测试和性能测试。
基于西藏地区环境大数据的健康特征分析与空间模型

查欣洁

生态文明建设与生态环境保护，已被我国作为社会可持续发展的重要基础。西藏自治区作为地球上最独特的地质？—地理—？生态—？环境单元——青藏高原的主体，是全球变化的“敏感区”，也是开展地球与生命演化、圈层相互作用及人地关系研究的天然实验室。随着人口增长、社会经济发展和科技进步，人类活动对地球生态环境的影响越来越强烈，西藏自治区也在国家生态安全屏障保护与建设中占有越来越重要的地位。由于特殊的地理位置，复杂的自然环境、地质背景和气候条件，使高原生态环境敏感且极其脆弱，环境本底十分复杂，资源环境开发利用的生态阈值较低，资源环境承载能力极为有限。因此，通过利用空间模型探索生态环境因子与人类健康间的关系，可以发掘出生态环境数据更大的价值，为当地政府制定人口管理和易地搬迁等相关政策提供科学依据。
金融数据统计分析

[美]詹姆斯·E.金特尔

本书涵盖了使用统计分析和数据科学方法对财务数据进行建模和分析的方法。第1章概述了金融市场，描述了市场运作并使用探索性数据分析来说明金融数据的性质。第2章介绍了探索性数据分析的方法，尤其是图形方法，并在实际财务数据上进行了说明。第3章介绍了可用于财务分析的概率分布，特别是重尾分布，并介绍了计算机模拟财务数据的方法。第4章介绍了统计推断的基本方法，尤其是在分析中使用线性模型，第5章介绍了时间序列的方法，其中特别强调了适用于财务数据分析的模型和方法。附录还描述了如何使用R从互联网获取当前财务数据。
轨迹数据分析方法及应用

杨雨晴

随着信息、互联网、社交媒体、卫星定位、基于位置的服务（Location Based Services，LBS）等技术的发展，轨迹数据领域迎来了大数据时代。在轨迹大数据背景下，轨迹数据分析的关注度得到持续攀升，它能够借助移动对象的时空特征和移动行为信息发现新知识和模式，从而为智慧城市计算与服务、交通管理与规划、物流管理、智能制造、旅游路径推荐、自然灾害预测与预警、疫情传播监测等诸多领域提供决策支持与服务。本书以轨迹数据相关分析及挖掘技术为主要研究对象，针对轨迹大数据背景下轨迹数据的特征及分析需求，对数据噪声处理、特征提取、相似性度量、参数依赖及复杂轨迹聚类等问题开展了深入研究。本书可供从事大数据、数据挖掘、机器学习、轨迹数据分析等相关领域的科研及工程人员参考，也可作为高等院校计算机、软件工程及自动化、信息与通信工程等专业的本科生和研究生的学习参考书。
多模态数据融合与挖掘技术

薛哲

随着信息技术和各类互联网平台的快速发展，图像、视频、文本等多模态数据呈现爆发式的增长，多模态数据已经成为大数据的主要呈现形式，针对海量多模态数据进行分析和处理、从多个模态中获取知识和价值的现实需求越来越高。本书详细介绍一系列前沿的多模态数据融合与挖掘方法，从多模态聚类、多模态分类等层面对多模态融合与挖掘相关进展进行介绍，具体介绍基于深度多样图对比学习的多模态聚类方法、基于聚类引导的自适应结构增强网络的多模态聚类方法、基于深度子空间学习的半监督多模态数据语义标注方法以及基于深度受限低秩子空间学习的多模态半监督分类方法。在不同数据集上的实验结果验证了所介绍方法的有效性。