书籍详情
大数据理论与工程实践
作者:陆晟,刘振川,汪关盛 等 著
出版社:人民邮电出版社
出版时间:2018-12-01
ISBN:9787115496836
定价:¥58.00
购买这本书可以去
内容简介
本书主要面向架构师,或者是有具体大数据问题需要解决的工程师;也适合从零开始搭建大数据结构,或者需要将现有的非大数据的需求修改成大数据方案的读者。你将从书中学到以下方面的知识:◎数据存储◎计算资源◎计算模型◎大数据应用◎数据治理◎大数据与人工智能
作者简介
陆晟博士曾任IBM中国研究院研究员,涉及高性能计算、人机交互、虚拟世界等领域,*早在国内推广云计算相关技术。参与创立过烽火安网公司,创立了北京敏思创想软件技术有限公司。此外,先后担任过VMware主任工程师、品友互动技术工程副总裁、猪八戒网商业基础设施中心高级总监兼大数据事业部总经理等职务。现任美数信息科技公司首席技术官。从1995年开始参与中国教育和科研网的建设工作,并以第六完成人获江苏省科技进步二等奖,以第二作者参与过《计算机网络安全导论》第1版的编著。获得国内外专利授权超过15项。刘振川长期担任品友互动首席研究员。从事广告行业十余年,历经了国内数字广告从0到1的诞生及发展过程。熟悉广告行业的各个技术模块,主导设计开发广告投放、数据分析、人群画像、算法支撑等系统。目前的研究专注于数字营销的智能决策方向。汪关盛美数信息科技公司创始人、国际数据管理协会(DAMA)中国分会资深顾问。从事数据行业20多年,曾任职美国银行、毕马威、美国在线、谷歌等公司,担任资深咨询员和首席构架师。1999年成立美数集团公司。2012年起兼任北京交通大学大数据教授,讲授大数据相关的硕士和博士全英文课程。受邀在中国平安、腾讯、阿里巴巴、复旦大学在内的多家国内知名企业和高校做过主题演讲。
目录
第 1 章 概述 1
大数据处理的特征 / 3
基本处理模型 / 5
工程角度的大数据历史 / 8
大数据的基本处理框架 / 10
大数据的技术实施方法 / 13
第 2 章 数据 21
数据存储 / 23
数据寻址 / 28
列式存储 / 34
键值对高速缓存 / 43
持久化的高速缓存 / 54
大数据表 / 65
第 3 章 计算资源 73
集群总线 / 75
资源调度 / 91
资源控制 / 97
第 4 章 计算模型 109
MapReduce / 111
SQL 类查询 / 115
流式计算 / 119
图计算 / 125
第 5 章 大数据应用 133
搜索信息匹配 / 136
搜索信息排名 / 140
文档相似性判定 / 147
文档主题生成 / 152
用户画像 / 163
广告投放决策 / 175
基数计算 / 191
第 6 章 数据治理 199
元数据管理 / 202
主数据管理 / 207
数据标准 / 209
数据管理成熟度评估 / 213
数据资产 / 220
数据治理的组织构架 / 230
第 7 章 大数据和人工智能 233
大数据和计算机视觉 / 236
大数据和语音识别 / 259
大数据和博弈 / 284
术语表 291
作者介绍 299
大数据处理的特征 / 3
基本处理模型 / 5
工程角度的大数据历史 / 8
大数据的基本处理框架 / 10
大数据的技术实施方法 / 13
第 2 章 数据 21
数据存储 / 23
数据寻址 / 28
列式存储 / 34
键值对高速缓存 / 43
持久化的高速缓存 / 54
大数据表 / 65
第 3 章 计算资源 73
集群总线 / 75
资源调度 / 91
资源控制 / 97
第 4 章 计算模型 109
MapReduce / 111
SQL 类查询 / 115
流式计算 / 119
图计算 / 125
第 5 章 大数据应用 133
搜索信息匹配 / 136
搜索信息排名 / 140
文档相似性判定 / 147
文档主题生成 / 152
用户画像 / 163
广告投放决策 / 175
基数计算 / 191
第 6 章 数据治理 199
元数据管理 / 202
主数据管理 / 207
数据标准 / 209
数据管理成熟度评估 / 213
数据资产 / 220
数据治理的组织构架 / 230
第 7 章 大数据和人工智能 233
大数据和计算机视觉 / 236
大数据和语音识别 / 259
大数据和博弈 / 284
术语表 291
作者介绍 299
猜您喜欢