数据库理论
-
数据产品开发与经营钱勇 项灵刚 林建兴 于冰冰 等这是一本讲解在数据要素大背景下,企业如何将数据资源开发成数据产品,进而通过数据产品实现数据资产化和资本化的著作,为企业释放数据价值提供了科学的方法论和国内领先的实践方案。这本书由全球数据资产理事会(DAC)组织编写,融合了国内数据资产管理领域多家企业的10位专家的研究成果和实战经验,得到了湖南数据产业集团、广州数据集团、深圳数据交易所、浙江大数据交易中心、华为、平安、安永、毕马威、德勤、普华永道、浙江大学等企业、机构和高校等近20位高层领导、技术专家和学者的高度评价和一致推荐。从概念到方法,从理论到实践,从产业政策到行业解决方案,本书将为读者构建全面的数据产品知识体系,核心内容如下:(1)国家和地方出台的数据资产相关政策及其解读,为数据资产实践提供法律准绳;(2)详细阐释数据从原始数据到数据资源、数据产品、数据资产,再到数据资本的价值实现路径;(3)原创数据资产运营框架,包含数据战略模块、核心运营模块和基础支持模块,明确了数据产品在整个数据资产运营体系中的作用;(4)系统梳理并厘清原始数据、数据资源、数据资源化、数据资源来源、数据资源存储、数据资源质量、数据资源管理等核心概念及其基础知识;(5)详细介绍数据产品的核心概念、产品类型、产品形态、产品价值;(6)原创数据产品高速动车组模型,重点阐述了价值牵引、场景驱动、合规支撑三大数据产品开发策略;(7)原创数据产品设计五步法,将数据产品设计分为场景设计、价值设计、构件设计、交付与运营、安全合规设计5个步骤;(8)提出数据产品开发全景图,为资源型、服务型、智能型等不同类型的数据产品开发提供科学方法;(9)原创数据产品运营增长框架,为数据产品的运营和增长提供方法论;(10)从实践角度讲解数据产品开发方法如何落地,以及不同类型的数据产品的开发经验;(11)从数据产品交易、数据资产运营和数据资本创新3个维度深度讲解数据产品的经营方法和逻辑,实现从数据产品到数据资本的闭环。 -
轻松拿捏大数据算法面试杨国栋 徐扬 徐振超 等内容简介这是6位来自多个大厂的大数据工程师联合力扣撰写的,深度解读大数据算法面试母题的求职手册。本融合了几位作者总计数百次面试他人和被他人面试的经验,结合对大厂招聘的真实需求,深度解读精选自力扣的近百道具有代表性的算法题。这些题目覆盖了几乎所有大数据从业者需要掌握的算法题类型,它们有的来自力扣多年的专业沉淀,有的来自各家企业的真实招聘题库。各位作者从实际应用场景出发,解读每道题出现在面试中的底层逻辑,然后给出具体的解题思路和编程示例,并从时间复杂度和空间复杂度两个层面分析示例程序。第1章和第2章从数据结构这个层面解读数组、链表、字符串、哈希表、栈、队列、树和图,这是所有算法的基础,然后深入分析了排序、递归、分治、贪心、回溯算法以及动态规划等基础算法的母题。第3章和第4章则聚焦大数据领域,从计算与存储两个维度解读面试中常见的算法题,比如Top k问题、中位数问题、位图算法问题、有序哈希字典问题、树存储问题、索引设计问题、海量数据写入与存储问题等。第5章和第6章精选了多道来自真实面试的算法题进行精讲,并从如何高效刷题、如何准备面试两个层面给出精准指导。 -
数据资产入表与数据交易合规指南江翔宇内容简介这是一部立足于当下行业实践和政策指引,从工作程序和实体法律角度,对企业数据资产入表的基本内涵、具体流程、数据交易与入表工作的合规要点进行分析归纳的专著,旨在通过深入浅出的分析帮助读者实现在数据交易、数据资产入表领域的快速认知同步。作者曾经在金融监管部门、金融机构和头部互联网平台工作,是国内较早开展数据领域法律实践的律师,曾经为众多企业在场内进行数据交易的产品提供合规评估,为多个大型数据平台企业和金融机构提供数据合规、金融科技的法律服务,包括个人信息合规自评估、证券业跨行业数据共享监管沙盒项目、垂类大模型合规项目等,具有丰富的法律实践和研究深度、广度。全书共12章,主要内容如下:第1和2章数据要素市场与数据资产入表的内涵介绍首先,从数据要素市场出发对国家层面的政策和法律沿袭进行了梳理与分析,对国家顶层设计文件“数据二十条”的主要内容进行了介绍;然后,对数据资产入表的内涵和意义以及各个相关概念进行比较分析;最后,对数据资产入表的具体操作进行简明扼要的解读,帮助读者透彻理解数据要素市场和数据资产入表的底层逻辑。第3~6章数据资产入表的重点合规问题及入表准备首先,对数据资产入表与数据确权的关系进行了深入分析,明确了权属清晰对数据资产入表的底层重要性;然后,对确权相关的合规问题以及其他涉及数据资产入表的合规问题进行了深入分析,厘清了关键合规要点,特别是数据来源的合规性;最后,对数据资产入表的准备工作和主要路径进行了介绍和梳理,帮助读者迅速掌握操作思路和落地路径。第7~10章数据资产入表的数据分类合规重点就数据资产入表在主要领域的开展难点进行分析,并就上市公司和非上市公司的具体案例进行分析,给出启示。具体分为数据资产入表与公共数据、数据资产入表与个人数据、数据资产入表与人工智能三个部分,分别从数据资产入表角度对各自的合规难点、立法现状、未来展望加以深入浅出的剖析。第11章数据资产入表衍生金融化利用的思考与展望就数据资产化之后的数据资本化,即数据资产入表的金融化利用问题进行了积极而冷静的分析与思考。首先对金融意义下的数据资产管理内涵进行了分析,然后对目前数据资产的金融化探索与实践进行了分析,对其中的法律难点问题进行归纳,并对普遍性开展的难点进行分析和展望。第12章数据资产入表与数据交易首先,对数据资产入表与数据交易之间的紧密联系进行分析;然后,对数据交易的概念、内涵以及法律性质进行分析,并对场内数据交易和场外数据交易进行比较分析;最后,对数据交易中的合规性审查要点进行分析归纳。 -
数据驱动的供应链金融冯天驰 姜桂林 唐丽华 李邕内容介绍这是一本指导供应链金融相关企业做好数据工作,并利用数据驱动供应链金融产品和服务的设计与运营的著作。在数据要素赋能各行各业的大背景下,传统供应链金融产品和服务过于依赖模式设计和经验判断的问题,通过数据驱动的方法能得到很好的解决。本书将详细指导供应链金融相关企业做好数据实施工作,并将数据成果应用到供应链金融产品和服务的设计与运营工作中,提供科学的方法论和标准的操作流程。本书共12章,从逻辑上可以分为四个部分。第一部分:总体概述(第1~3章)该部分阐述了本书所述的供应链金融的范围、参与方、数据工作的目标与内容、工作团队组成等。第二部分:数据实施工作(第4~7章)该部分包括业务调研和信息系统调研、构建数据基础、市场分析测算、风险分析等内容,阐述了确定数据、整合数据、分析数据及最终形成结论的过程,是全书的重点和难点。其中,金融企业了解、整合和运用核心企业供应链数据的过程,需要双方明确分工、密切配合、共同完成工作。第三部分:数据成果运用(第8~11章)该部分包括风险规则形成与系统实现、对接核心企业数据、供应链金融产品设计、数据运营等内容。这些工作主要是站在金融企业的角度进行阐述,核心企业处于配合地位。第四部分:知识沉淀(第12章)该部分阐述如何更好地实现知识沉淀和标准工具建设。类似项目经验、资料和管理方法这样的知识和工具均具有长期效应,有助于金融企业不断沉淀知识,提升效率,形成竞争优势。 -
数据认责[美]大卫-普罗特金本书提供了关于如何在数据治理中建立和运行数据认责工作的适用且可操作的信息和说明,旨在为新任数据专员或数据治理经理提供在数据认责方面所需的知识,以确保其工作有效和高效。本书分为11章,包括:数据认责和数据治理:二者如何结合;了解数据认责的类型;认责管理的角色和职责;实施数据认责;培训业务型数据专员;数据认责实践;数据专员的重要角色;衡量数据认责进度:指标;数据认责成熟度评估;大数据和数据湖认责;基于数据域开展数据治理和认责。本书内容丰富,理论和实践相结合,易读性和可操作性强,可以作为数据质量管理的入门和进阶用书,还可作为数据治理、信息技术、数据分析等领域人员的参考用书,尤其适合对数据认责感兴趣的读者和负责组织以及运行数据认责工作的人员阅读。 -
大模型工程化腾讯游戏数据团队大模型在众多领域得到了广泛应用,促进了AI技术的整合和创新。然而,在实际应用过程中,直接将大模型应用于特定行业常常难以达到预期效果。本书详细阐述如何在游戏经营分析场景中利用大模型实现数据体系的建设。本书分为6个部分,共16章。第1部分主要介绍大模型技术的发展与应用,从大模型的发展现状展开,重点介绍大模型与数据体系的相关知识。第2部分主要介绍大模型下的关键基础设施,涵盖湖仓一体引擎、湖仓的关键技术、实时数据写入和高效数据分析等内容。第3部分主要介绍大模型下的数据资产,围绕数据资产重塑、数据资产标准、数据资产建设、数据资产运营展开。第4部分主要介绍自研领域大模型的技术原理,涵盖领域大模型的基础、需求理解算法、需求匹配算法、需求转译算法等内容。第5部分主要介绍大模型的工程化原理,涉及工程化的基础、技术筹备、建设要点、安全策略等内容。第6部分介绍大模型在游戏领域的应用,通过游戏领域的经营分析案例,系统地阐述如何实现业务需求。本书适合致力于大模型技术应用的数据工程师阅读,也适合寻求AI自动化编程解决方案的软件开发者阅读,还适合希望利用AI提升业务效率的企业决策者阅读。 -
科研活动中的过犹不及效应岳婷、杨立英“过犹不及”效应在科研活动中表现为倒U型现象,即结果随影响因素的增加表现出“先升后降”的特征,这给科研政策的制定提出了一定的挑战。现有科学学研究对倒U型现象的研究缺乏系统性和全面性。本书聚焦于科研活动中倒U型现象的形成机制,主要研究内容包括:对科研活动中已发现的倒U型现象及其解释理论进行全面、系统的梳理;构建一套科研生态系统,将科研活动元素有机地组织起来,用于定位可能发生倒U型现象的科研活动元素;借鉴社会系统中倒U型现象的解释,提出科研活动中倒U型现象的形成机制模型,并应用这一模型,甄别出4种新的倒U型现象,为相关科研政策提供证据支撑。 -
数据治理石秀峰 李晓燕 赵佳本书是一本数据治理领域的实战型手册,共8章,内容包括:数据治理的基本概念、数据治理的价值、数据治理的核心职能、实施数据治理的前提、实施数据治理的五个阶段、数据治理的十大核心能力建设、数据治理工具与技术、数据治理行业实践案例。本书语言通俗易懂,体系完整,案例丰富,系统全面地介绍了数据治理的目标、价值、方式、方法、工具等相关知识,可以帮助读者快速理解数据治理的概念,认识数据治理的架构,掌握数据治理的基本方法。本书读者对象主要是CEO、CDO、CIO、CTO,以及数据治理、企业数字化转型领域的相关管理者和项目负责人。本书也适合作为高校数字经济、数据科学与大数据技术、大数据管理与应用等专业的数据治理相关课程教材。 -
OLAP引擎底层原理与设计实践高英举 许一腾这是一本从OLAP核心概念出发,以Presto为例,从整体执行流程到不同SQL的执行原理,完整呈现OLAP查询的核心流程和OLAP引擎设计思路,并指导读者形成OLAP引擎设计解决方案的专业技术工具书。本书不仅面向初级读者介绍了OLAP查询的基本原理和Presto使用方法,还从源码级剖析了OLAP引擎核心原理,包括SQL查询解析器、优化器、调度器、执行器等核心组件,并将内容扩展到OLAP引擎的常见高性能优化方案上。全书由浅入深,图文并茂,把晦涩难懂的内容讲解得透彻易懂。本书分为6篇,包括14章。第一篇(第1章和第2章)总体介绍业界常见的OLAP引擎并分析其优劣,讨论OLAP引擎的技术发展趋势及选型方法,介绍Presto背景知识及其使用方法、技巧。第二篇(第3章和第4章)串讲OLAP查询执行的整个过程,并概要性介绍查询解析器、优化器、调度器、执行器等核心模块的工作原理,目的是让读者形成整体认知。第三篇(第5~8章)以例讲理,对多种经典SQL的执行原理进行解析,复杂度从前到后逐章递增,包含了投影变换、过滤、行数限定、排序以及多种聚合场景。第四篇(第9章和第10章)详解分布式查询执行的数据交换机制,涵盖了查询规划、调度、执行的多个阶段等重点内容。第五篇(第11章和第12章)以Presto为例整体介绍流行的OLAP引擎扩展机制——插件体系与连接器。第六篇(第13章和第14章)主要介绍函数的设计原理与开发实战,这部分首先介绍函数注册、解析识别、调用等重要流程,最后从标量函数、聚合函数两方面入手,用多个实际案例介绍高级API(注解框架)的开发方法以及低级API的底层开发方法。 -
大数据治理李浥东 沈华伟 范举本书是中国计算机学会青年计算机科技论坛在2021年举办的“大数据治理的关键技术路径”深度思辨论坛的成果,着重讨论大数据治理的内涵和大数据治理的可行技术路径,包括大数据治理的背景与内涵、大数据安全与隐私保护、大数据管理与数据流转、面向大数据应用的算法治理等内容。书末还收录了深度思辨论坛的起源、论坛组织纪实与精彩观点,梳理了大数据治理中的挑战,并对未来的潜在研究方向进行了展望。本书适合从事大数据相关工作的研究者和工程师阅读。
