读书网 - dushu.com

数据库

向量数据库

梁楠

《向量数据库：大模型驱动的智能检索与应用》系统地介绍向量数据库的原理、技术实现及其应用，重点分析传统数据库在处理高维向量数据时的局限性，并提供相应的解决方案。《向量数据库：大模型驱动的智能检索与应用》分为4个部分，共13章，内容涵盖从理论基础到技术实践的多个方面，详细讨论高维向量表示中的信息丢失、嵌入空间误差和维度诅咒等问题，结合FAISS和Milvus等主流开源工具，深入剖析向量数据库的索引机制、搜索算法和优化策略。通过实际案例，展示向量数据库在推荐系统、行为分析、智能诊断、语义搜索等领域的应用，并特别强调企业级语义搜索系统的开发与部署经验。《向量数据库：大模型驱动的智能检索与应用》不仅提供深度的理论指导，还通过丰富的案例帮助读者掌握如何构建高效的向量搜索引擎，适合从事搜索引擎与推荐系统开发的工程师，数据科学、人工智能及相关领域的从业者、研究人员，以及对向量数据库与相似性搜索感兴趣的读者，也可作为培训机构和高校相关课程的教学用书。
轻松拿捏大数据算法面试

杨国栋徐扬徐振超等

内容简介这是6位来自多个大厂的大数据工程师联合力扣撰写的，深度解读大数据算法面试母题的求职手册。本融合了几位作者总计数百次面试他人和被他人面试的经验，结合对大厂招聘的真实需求，深度解读精选自力扣的近百道具有代表性的算法题。这些题目覆盖了几乎所有大数据从业者需要掌握的算法题类型，它们有的来自力扣多年的专业沉淀，有的来自各家企业的真实招聘题库。各位作者从实际应用场景出发，解读每道题出现在面试中的底层逻辑，然后给出具体的解题思路和编程示例，并从时间复杂度和空间复杂度两个层面分析示例程序。第1章和第2章从数据结构这个层面解读数组、链表、字符串、哈希表、栈、队列、树和图，这是所有算法的基础，然后深入分析了排序、递归、分治、贪心、回溯算法以及动态规划等基础算法的母题。第3章和第4章则聚焦大数据领域，从计算与存储两个维度解读面试中常见的算法题，比如Top k问题、中位数问题、位图算法问题、有序哈希字典问题、树存储问题、索引设计问题、海量数据写入与存储问题等。第5章和第6章精选了多道来自真实面试的算法题进行精讲，并从如何高效刷题、如何准备面试两个层面给出精准指导。
大模型工程化

腾讯游戏数据团队

大模型在众多领域得到了广泛应用，促进了AI技术的整合和创新。然而，在实际应用过程中，直接将大模型应用于特定行业常常难以达到预期效果。本书详细阐述如何在游戏经营分析场景中利用大模型实现数据体系的建设。本书分为6个部分，共16章。第1部分主要介绍大模型技术的发展与应用，从大模型的发展现状展开，重点介绍大模型与数据体系的相关知识。第2部分主要介绍大模型下的关键基础设施，涵盖湖仓一体引擎、湖仓的关键技术、实时数据写入和高效数据分析等内容。第3部分主要介绍大模型下的数据资产，围绕数据资产重塑、数据资产标准、数据资产建设、数据资产运营展开。第4部分主要介绍自研领域大模型的技术原理，涵盖领域大模型的基础、需求理解算法、需求匹配算法、需求转译算法等内容。第5部分主要介绍大模型的工程化原理，涉及工程化的基础、技术筹备、建设要点、安全策略等内容。第6部分介绍大模型在游戏领域的应用，通过游戏领域的经营分析案例，系统地阐述如何实现业务需求。本书适合致力于大模型技术应用的数据工程师阅读，也适合寻求AI自动化编程解决方案的软件开发者阅读，还适合希望利用AI提升业务效率的企业决策者阅读。
数据驱动的供应链金融

冯天驰姜桂林唐丽华李邕

内容介绍这是一本指导供应链金融相关企业做好数据工作，并利用数据驱动供应链金融产品和服务的设计与运营的著作。在数据要素赋能各行各业的大背景下，传统供应链金融产品和服务过于依赖模式设计和经验判断的问题，通过数据驱动的方法能得到很好的解决。本书将详细指导供应链金融相关企业做好数据实施工作，并将数据成果应用到供应链金融产品和服务的设计与运营工作中，提供科学的方法论和标准的操作流程。本书共12章，从逻辑上可以分为四个部分。第一部分：总体概述（第1~3章）该部分阐述了本书所述的供应链金融的范围、参与方、数据工作的目标与内容、工作团队组成等。第二部分：数据实施工作（第4~7章）该部分包括业务调研和信息系统调研、构建数据基础、市场分析测算、风险分析等内容，阐述了确定数据、整合数据、分析数据及最终形成结论的过程，是全书的重点和难点。其中，金融企业了解、整合和运用核心企业供应链数据的过程，需要双方明确分工、密切配合、共同完成工作。第三部分：数据成果运用（第8~11章）该部分包括风险规则形成与系统实现、对接核心企业数据、供应链金融产品设计、数据运营等内容。这些工作主要是站在金融企业的角度进行阐述，核心企业处于配合地位。第四部分：知识沉淀（第12章）该部分阐述如何更好地实现知识沉淀和标准工具建设。类似项目经验、资料和管理方法这样的知识和工具均具有长期效应，有助于金融企业不断沉淀知识，提升效率，形成竞争优势。
公共管理大数据集成平台理论、方法与应用

陈晓红等

《公共管理大数据集成平台理论、方法与应用》主要介绍了国家自然科学基金重大研究计划集成项目“大数据驱动的公共管理决策创新模式与集成示范平台”的研究成果，内容涵盖公共管理大数据的治理、分析、预测、决策及集成平台构建的理论方法与关键技术，并展示了在公共安全、生态环境和交通运输等领域的应用示范。《公共管理大数据集成平台理论、方法与应用》在理论上提出了大数据驱动下的公共管理智能决策新范式，为学科发展提供了方向；在实践上，有效整合了公共管理领域的数据资源，为解决社会治理与城市管理问题提供了决策参考，并为建成国际水准的公共管理科学数据平台和智库奠定了基础。
Kubernetes设计模式

[英] 比尔金伊卜亚姆(Bilgin Ibryam) [德] 罗兰·胡贝塔(Roland Hu？)

本书主要内容包括：基本模式篇介绍构建以及运行基于容器的云原生应用程序的核心原则与实践。行为模式篇介绍各类容器和平台交互的管理。结构化模式篇介绍通过组织容器解决特定的用例。配置模式篇介绍如何处理Kubernetes中应用程序的配置。安全模式篇介绍如何提高运行在Kubernetes之上的应用程序的安全性。高级模式篇涵盖更复杂的主题，例如操作器、自动伸缩以及集群内镜像构建等。
商业分析

桑吉瓦·加吉亚，凯文·勒瓦差拉，艾利森·

本书针对高校商学院商业分析课程编写，内容涵盖了所有相关的商业分析主题，而且各个主题在设计上都是模块化的，教师授课时可灵活地选择最符合其课程目标的主题。比如，本书可以适用于涵盖数据处理（第2章）、数据可视化（第3章）、综合指标（第3章）、统计理论（第4章和第5章）和回归分析（第6章和第7章）的入门课程，或侧重于预测（第8、9、10、11和12章）和预测性建模（第13章）的高级商业分析课程。为适应不同学生对于统计软件的需求，本书每个知识点都提供了Excel和 R语言两种分析方法和实际操作，而且所有的例题和习题都是使用撰写本书时最新版本的软件解决的，即Microsoft Office Professional 2016、Analytic Solver 2019和 R语言3.5.3版本。本书的最终目的是让学生更好地理解、管理和可视化数据，学会应用适当的分析工具，并对研究结果及其相关性进行沟通。
城市计算

郑宇

本书概述了城市计算的定义、框架和主要研究问题，以典型应用为案例着重介绍大数据中异构数据的融合和协同计算技术。
数据产品开发与经营

钱勇项灵刚林建兴于冰冰等

这是一本讲解在数据要素大背景下，企业如何将数据资源开发成数据产品，进而通过数据产品实现数据资产化和资本化的著作，为企业释放数据价值提供了科学的方法论和国内领先的实践方案。这本书由全球数据资产理事会（DAC）组织编写，融合了国内数据资产管理领域多家企业的10位专家的研究成果和实战经验，得到了湖南数据产业集团、广州数据集团、深圳数据交易所、浙江大数据交易中心、华为、平安、安永、毕马威、德勤、普华永道、浙江大学等企业、机构和高校等近20位高层领导、技术专家和学者的高度评价和一致推荐。从概念到方法，从理论到实践，从产业政策到行业解决方案，本书将为读者构建全面的数据产品知识体系，核心内容如下：（1）国家和地方出台的数据资产相关政策及其解读，为数据资产实践提供法律准绳；（2）详细阐释数据从原始数据到数据资源、数据产品、数据资产，再到数据资本的价值实现路径；（3）原创数据资产运营框架，包含数据战略模块、核心运营模块和基础支持模块，明确了数据产品在整个数据资产运营体系中的作用；（4）系统梳理并厘清原始数据、数据资源、数据资源化、数据资源来源、数据资源存储、数据资源质量、数据资源管理等核心概念及其基础知识；（5）详细介绍数据产品的核心概念、产品类型、产品形态、产品价值；（6）原创数据产品高速动车组模型，重点阐述了价值牵引、场景驱动、合规支撑三大数据产品开发策略；（7）原创数据产品设计五步法，将数据产品设计分为场景设计、价值设计、构件设计、交付与运营、安全合规设计5个步骤；（8）提出数据产品开发全景图，为资源型、服务型、智能型等不同类型的数据产品开发提供科学方法；（9）原创数据产品运营增长框架，为数据产品的运营和增长提供方法论；（10）从实践角度讲解数据产品开发方法如何落地，以及不同类型的数据产品的开发经验；（11）从数据产品交易、数据资产运营和数据资本创新3个维度深度讲解数据产品的经营方法和逻辑，实现从数据产品到数据资本的闭环。
数据资产入表与数据交易合规指南

江翔宇

内容简介这是一部立足于当下行业实践和政策指引，从工作程序和实体法律角度，对企业数据资产入表的基本内涵、具体流程、数据交易与入表工作的合规要点进行分析归纳的专著，旨在通过深入浅出的分析帮助读者实现在数据交易、数据资产入表领域的快速认知同步。作者曾经在金融监管部门、金融机构和头部互联网平台工作，是国内较早开展数据领域法律实践的律师，曾经为众多企业在场内进行数据交易的产品提供合规评估，为多个大型数据平台企业和金融机构提供数据合规、金融科技的法律服务，包括个人信息合规自评估、证券业跨行业数据共享监管沙盒项目、垂类大模型合规项目等，具有丰富的法律实践和研究深度、广度。全书共12章，主要内容如下：第1和2章数据要素市场与数据资产入表的内涵介绍首先，从数据要素市场出发对国家层面的政策和法律沿袭进行了梳理与分析，对国家顶层设计文件“数据二十条”的主要内容进行了介绍；然后，对数据资产入表的内涵和意义以及各个相关概念进行比较分析；最后，对数据资产入表的具体操作进行简明扼要的解读，帮助读者透彻理解数据要素市场和数据资产入表的底层逻辑。第3~6章数据资产入表的重点合规问题及入表准备首先，对数据资产入表与数据确权的关系进行了深入分析，明确了权属清晰对数据资产入表的底层重要性；然后，对确权相关的合规问题以及其他涉及数据资产入表的合规问题进行了深入分析，厘清了关键合规要点，特别是数据来源的合规性；最后，对数据资产入表的准备工作和主要路径进行了介绍和梳理，帮助读者迅速掌握操作思路和落地路径。第7~10章数据资产入表的数据分类合规重点就数据资产入表在主要领域的开展难点进行分析，并就上市公司和非上市公司的具体案例进行分析，给出启示。具体分为数据资产入表与公共数据、数据资产入表与个人数据、数据资产入表与人工智能三个部分，分别从数据资产入表角度对各自的合规难点、立法现状、未来展望加以深入浅出的剖析。第11章数据资产入表衍生金融化利用的思考与展望就数据资产化之后的数据资本化，即数据资产入表的金融化利用问题进行了积极而冷静的分析与思考。首先对金融意义下的数据资产管理内涵进行了分析，然后对目前数据资产的金融化探索与实践进行了分析，对其中的法律难点问题进行归纳，并对普遍性开展的难点进行分析和展望。第12章数据资产入表与数据交易首先，对数据资产入表与数据交易之间的紧密联系进行分析；然后，对数据交易的概念、内涵以及法律性质进行分析，并对场内数据交易和场外数据交易进行比较分析；最后，对数据交易中的合规性审查要点进行分析归纳。