书籍详情
大数据集成
作者:董欣 著;王秋月 译
出版社:机械工业出版社
出版时间:2017-05-01
ISBN:9787111559863
定价:¥79.00
购买这本书可以去
内容简介
本书作者在多年研究传统数据集成的基础上,着重分析了大数据背景下的大数据集成。和传统的数据集成相比,大数据集成具有一些新的挑战,例如数据和数据源的海量性、数据的多样性和数据的动态性等。本书共分6章,包括大数据集成的挑战和机遇、模式对齐、记录链接、数据融合、出现的新问题和结论,系统地讨论了解决大数据集成中关键问题的一些重要研究成果和方法,对大数据集成的研究者和实践者都很有帮助。另外本书也可以作为学生学习该领域的入门读物。
作者简介
Xin Luna Dong(董欣), 2013年加入谷歌公司担任高级研究员,研究兴趣包括数据集成、数据清洗和知识管理。在加入谷歌之前,她是AT&T实验室的研究员。董欣博士硕士毕业于北京大学,本科毕业于南开大学。Divesh Srivastava AT&T实验室数据库领域首席科学家.
目录
丛书前言
译者序
前言
第1章 大数据集成的挑战和机遇1
1.1 传统数据集成2
1.1.1 航班示例:数据源2
1.1.2 航班示例:数据集成7
1.1.3 数据集成:体系结构和三个主要步骤10
1.2 大数据集成:挑战12
1.2.1 “V”维度13
1.2.2 案例研究:深网数据量15
1.2.3 案例研究:抽取的领域数据18
1.2.4 案例研究:深网数据的质量22
1.2.5 案例研究:浅网结构化数据25
1.2.6 案例研究:抽取的知识三元组28
1.3 大数据集成:机遇30
1.3.1 数据冗余性31
1.3.2 长数据32
1.3.3 大数据平台33
1.4 章节安排33
第2章 模式对齐34
2.1 传统模式对齐:快速导览35
2.1.1 中间模式35
2.1.2 属性匹配36
2.1.3 模式映射37
2.1.4 查询问答38
2.2 应对多样性和高速性的挑战39
2.2.1 概率模式对齐39
2.2.2 按需集成用户反馈52
2.3 应对多样性和海量性的挑战54
2.3.1 集成深网数据55
2.3.2 集成Web表格59
第3章 记录链接68
3.1 传统记录链接:快速导览69
3.1.1 两两匹配71
3.1.2 聚类72
3.1.3 分块74
3.2 应对海量性挑战76
3.2.1 使用MapReduce并行分块77
3.2.2 meta-blocking:修剪两两匹配83
3.3 应对高速性挑战88
3.4 应对多样性挑战95
3.5 应对真实性挑战100
3.5.1 时态记录链接100
3.5.2 具有唯一性约束的记录链接107
第4章 大数据集成:数据融合113
4.1 传统数据融合:快速导览114
4.2 应对真实性挑战116
4.2.1 数据源的准确度117
4.2.2 值为真的概率118
4.2.3 数据源之间的复制关系121
4.2.4 端到端的解决方案128
4.2.5 扩展性和适应性131
4.3 应对海量性挑战134
4.3.1 基于MapReduce框架做离线融合135
4.3.2 在线数据融合136
4.4 应对高速性挑战142
4.5 应对多样性挑战146
第5章 大数据集成:出现的新问题149
5.1 众包的角色149
5.1.1 利用传递关系150
5.1.2 众包端到端的工作流155
5.1.3 未来的工作158
5.2 数据源选择158
5.2.1 静态数据源160
5.2.2 动态数据源162
5.2.3 未来的工作166
5.3 数据源分析166
5.3.1 Bellman系统167
5.3.2 概述数据源170
5.3.3 未来的工作174
第6章 结论175
参考文献177
索引184
猜您喜欢