书籍详情
数据科学理论与实践
作者:朝乐门 著
出版社:清华大学出版社
出版时间:2017-10-01
ISBN:9787302480549
定价:¥59.00
购买这本书可以去
内容简介
本书重点讲解数据科学的核心理论与代表性实践,在编写过程中充分借鉴了国外著名大学设立的相关课程以及全球畅销的外文专著,而且也考虑到了国内相关课程定位与专业人才的培养需求。全书共包括8个部分: 数据科学的基础理论、理论基础、流程与方法、技术与工具、数据产品及开发、典型案例及实践、R语言学习笔记与参考手册以及数据科学的重要资源。本书的读者范围广,可以满足数据科学与大数据技术、计算机科学与技术、管理工程、工商管理、数据统计、数据分析、信息管理与信息系统等多个专业的老师、学生(含硕士生和博士生)的教学与自学需要。作者以本教材为基础,将提供MOOC公开课,助力培养数据科学领域的人才。
作者简介
朝乐门,1979年生,中国人民大学数据工程与知识工程教育部重点实验室、信息资源管理学院副教授,博士生导师;章鱼大数据首席数据科学家;中国计算机学会信息系统专委员会委员、ACM高级会员、国际知识管理协会正式委员、全国高校大数据教育联盟大数据教材专家指导委员会委员;主持完成国家自然科学基金、国家社会科学基金等重要科学研究项目10余项;参与完成核高基、973、863、国家自然科学基金重点项目、国家社会科学基金重大项目等国家重大科研项目10余项;获得北京市中青年骨干教师称号、国际知识管理与智力资本杰出成就奖、Emerald/EFMD国际杰出博士论文奖、国家自然科学基金项目优秀项目、中国大数据学术创新奖、中国大数据创新百人榜单、中国人民大学优秀博士论文奖等多种奖励30余项。朝乐门是我国第一部系统阐述数据科学理念、理论、方法、技术和工具的重要专著——《数据科学》(清华大学出版社,2016)的作者,也是数据科学与大数据技术专业*个领域本体“DataScienceOntology”研发团队的总负责人。
目录
第1章基础理论
如何开始学习
1.1术语定义
1.2研究目的
1.3发展简史
1.4理论体系
1.5基本原则
1.6数据科学家
如何继续学习
习题
参考文献
第2章理论基础
如何开始学习
2.1数据科学的学科地位
2.2统计学
2.3机器学习
2.4数据可视化
如何继续学习
习题
参考文献
第3章流程与方法
如何开始学习
3.1基本流程
3.2数据加工
3.3数据审计
3.4数据分析
3.5数据可视化
3.6数据故事化
3.7项目管理
如何继续学习
习题
参考文献
第4章技术与工具
如何开始学习
4.1技术体系
4.2MapReduce
4.3Hadoop
4.4Spark
4.5NoSQL与NewSQL
4.6R与Python
4.7发展趋势
如何继续学习
习题
参考文献
第5章数据产品及开发
如何开始学习
5.1定义
5.2主要特征
5.3关键活动
5.4数据柔术
5.5数据能力
5.6数据战略
5.7数据治理
如何继续学习
习题
参考文献
第6章典型案例及实践
如何开始学习
6.12012年美国总统大选
6.2统计分析
6.3机器学习
6.4数据可视化
6.5SparkR编程
如何继续学习
习题
参考文献
附录AR语言学习笔记与参考手册
学习与参考指南
1. R变量定义方法
2. R语句的写法
3. R中的赋值语句
4. R的文件读写路径——当前工作目录
5. R的变量查找机制——搜索路径
6. R中查看帮助的方法
7. R区分大小写字母
8. R的注释
9. R的语句
10. R中的变量命名规范
11. R中的关键字/保留字
12. R中的默认数据类型
13. R中数据类型的判断与强制类型转换
14. R中的向量
15. R中的列表
16. R中的数据框
17. R中的因子类型
18. R中的循环语句
19. R中的选择语句
20. R中的特殊运算符
21. R中的快速生成数列的方法
22. R中自定义函数
23. R中常用的数学函数
24. R中的字符串处理函数
25. R中的常用统计函数
26. R中的随机数
27. R包的用法
28. R中的矩阵
29. R中的数组
30. R中的面向对象编程
31. R中的S4类
32. R中的数据可视化
33. R的输入输出
34. R中的正则表达式
35. R的数据集
36. R第三方包——R的灵魂
37. 基于R的数据加工
附录B数据科学的重要资源
1. 学术期刊
2. 国际会议
3. 研究机构
4. 课程资源
5. 硕士学位项目
6. 专家学者
7. 相关工具
附录C术语索引
后记
图目录
图11DIKW金字塔2
图12数据与数值的区别3
图13大数据的本质4
图14大数据的特征5
图15DIKUW模型及应用8
图16数据洞见8
图17业务数据化与数据业务化9
图18常用驱动方式9
图19数据的层次性9
图110大数据生态系统10
图111Gartner技术成熟度曲线11
图112数据科学的萌芽期(1974—2009年)11
图113数据科学的快速发展期(2010—2013年)12
图114数据科学的逐渐成熟期(2014年至今)13
图115数据科学的理论体系14
图116数据科学的主要内容15
图117数据科学的“三世界原则”16
图118数据科学的“三个要素”及“3C精神”17
图119数据范式与知识范式的区别18
图120数据管理范式的变化18
图121大数据的资产属性19
图122常用驱动方式20
图123CAPTCHA项目21
图124ReCAPTCHA项目21
图125数据与算法之间的关系22
图126BellKors Pragmatic Chaos团队获得Netflix奖23
图127Netflix奖公测结果23
图128RStudio中编辑Markdown的窗口25
图129数据科学家团队28
图130学习数据科学的四则原则29
图21数据科学的理论基础35
图22统计方法的分类(目的与思路视角)37
图23统计学中的数据推断37
图24数据统计方法的类型(方法论视角)38
图25数据统计基本方法38
图26元分析与基本分析39
图27GFT预测与美国疾病控制中心数据的对比40
图28GFT估计与实际数据的误差(2013年2月)40
图29大数据时代的思维模式的转变41
图210西洋双陆棋42
图211自动驾驶42
图212机器学习的基本思路42
图213机器学习的三要素44
图214机器学习的类型45
图215KNN算法的基本步骤46
图216决策树示例——识别鸟类48
图217感知器示例50
图218前向神经网络50
图219归纳学习与分析学习52
图220增强学习53
图221IBM Watson54
图222Pepper机器人54
图223机器学习及其应用55
图224Anscombe四组数据的可视化57
图225John Snow的鬼地图(Ghost Map)58
图31数据科学的基本流程62
图32量化自我63
图33整齐数据与干净数据的区别64
图34整齐数据示意图64
图35残差67
图36数据分析的类型68
图37Analytics 1.0~3.069
图38数据加工方法70
图39数据审计与数据清洗71
图310缺失数据的处理步骤72
图311冗余数据的处理方法72
图312数据分箱处理的步骤与类型73
图313均值平滑与边界值平滑74
图314内容集成76
图315结构集成76
图316数据脱敏处理77
图317数据连续性的定义及重要性81
图318可视化审计82
图319Gartner分析学价值扶梯模型83
图320冰激凌的销量与谋杀案的发生数量84
图321数据分析的类型86
图322拿破仑进军俄国惨败而归的历史事件的可视化87
图323可视化分析学的相关学科87
图324可视化分析学模型88
图325数据可视化的方法体系89
图326视觉图形元素与视觉通道89
图327雷达图示例89
图328齐美尔连带89
图329视觉隐喻的示例——美国政府机构的设置90
图330地铁路线图的创始人Henry Beck91
图331Henry Beck的伦敦地铁线路图91
图332视觉突出的示例92
图333完图法则的示例92
图334视觉通道的选择与展示94
图335视觉通道的精确度对比94
图336视觉通道的可辨认性——某公司产品销售示意图95
图337视觉通道的可分离性差95
图338上下文导致视觉假象196
图339上下文导致视觉假象296
图340对亮度和颜色的相对判断容易造成视觉假象的示例96
图341数据可视化与数据故事化描述97
图342数据的故事化描述及故事的展现98
图343项目管理的主要内容101
图344数据科学项目的基本流程102
图41大数据产业全景图107
图42基础设施108
图43分析工具109
图44企业应用109
图45行业应用110
图46跨平台基础设施和分析工具110
图47开源系统111
图48数据源与Apps111
图49数据资源111
图410MapReduce执行过程113
图411MapReduce对中间数据的处理116
图412以MapReduce为核心和以YARN为核心的软件栈对比118
图413下一代MapReduce框架118
图414Apache Hadoop官网119
图415Apache Hadoop生态系统119
图416Hadoop MapReduce数据处理流程121
图417Apache Hive官网122
图418Apache Pig官网123
图419Apache Mahout官网124
图420Apache HBase官网125
图421HBase与Hadoop项目125
图422HBase逻辑模型126
图423Apache Zookeeper官网127
图424Apache Flume官网127
图425Apache Sqoop官网128
图426Spark 技术架构130
图427Spark执行流程130
图428Spark Scheduler134
图429传统关系数据库的优点与缺点136
图430关系数据库与NoSQL数据库之间的关系138
图431NoSQL数据分布的两个基本途径139
图432分片处理140
图433主从复制141
图434对等复制142
图435数据不一致性142
图436CAP理论143
图437Memcached官网146
图438一致性散列的分配方式147
图439服务器增加时的变化147
图440计算模式的演变150
图441数据管理的新变化152
图51数据产品开发中的数据与数据柔术157
图52数据产品开发与数据柔术160
图53数据产品的多样性160
图54数据产品的层次性161
图55Google全球商机洞察(Global Market Finder)162
图56数据产品链162
图57传统产品开发与数据产品开发的区别163
如何开始学习
1.1术语定义
1.2研究目的
1.3发展简史
1.4理论体系
1.5基本原则
1.6数据科学家
如何继续学习
习题
参考文献
第2章理论基础
如何开始学习
2.1数据科学的学科地位
2.2统计学
2.3机器学习
2.4数据可视化
如何继续学习
习题
参考文献
第3章流程与方法
如何开始学习
3.1基本流程
3.2数据加工
3.3数据审计
3.4数据分析
3.5数据可视化
3.6数据故事化
3.7项目管理
如何继续学习
习题
参考文献
第4章技术与工具
如何开始学习
4.1技术体系
4.2MapReduce
4.3Hadoop
4.4Spark
4.5NoSQL与NewSQL
4.6R与Python
4.7发展趋势
如何继续学习
习题
参考文献
第5章数据产品及开发
如何开始学习
5.1定义
5.2主要特征
5.3关键活动
5.4数据柔术
5.5数据能力
5.6数据战略
5.7数据治理
如何继续学习
习题
参考文献
第6章典型案例及实践
如何开始学习
6.12012年美国总统大选
6.2统计分析
6.3机器学习
6.4数据可视化
6.5SparkR编程
如何继续学习
习题
参考文献
附录AR语言学习笔记与参考手册
学习与参考指南
1. R变量定义方法
2. R语句的写法
3. R中的赋值语句
4. R的文件读写路径——当前工作目录
5. R的变量查找机制——搜索路径
6. R中查看帮助的方法
7. R区分大小写字母
8. R的注释
9. R的语句
10. R中的变量命名规范
11. R中的关键字/保留字
12. R中的默认数据类型
13. R中数据类型的判断与强制类型转换
14. R中的向量
15. R中的列表
16. R中的数据框
17. R中的因子类型
18. R中的循环语句
19. R中的选择语句
20. R中的特殊运算符
21. R中的快速生成数列的方法
22. R中自定义函数
23. R中常用的数学函数
24. R中的字符串处理函数
25. R中的常用统计函数
26. R中的随机数
27. R包的用法
28. R中的矩阵
29. R中的数组
30. R中的面向对象编程
31. R中的S4类
32. R中的数据可视化
33. R的输入输出
34. R中的正则表达式
35. R的数据集
36. R第三方包——R的灵魂
37. 基于R的数据加工
附录B数据科学的重要资源
1. 学术期刊
2. 国际会议
3. 研究机构
4. 课程资源
5. 硕士学位项目
6. 专家学者
7. 相关工具
附录C术语索引
后记
图目录
图11DIKW金字塔2
图12数据与数值的区别3
图13大数据的本质4
图14大数据的特征5
图15DIKUW模型及应用8
图16数据洞见8
图17业务数据化与数据业务化9
图18常用驱动方式9
图19数据的层次性9
图110大数据生态系统10
图111Gartner技术成熟度曲线11
图112数据科学的萌芽期(1974—2009年)11
图113数据科学的快速发展期(2010—2013年)12
图114数据科学的逐渐成熟期(2014年至今)13
图115数据科学的理论体系14
图116数据科学的主要内容15
图117数据科学的“三世界原则”16
图118数据科学的“三个要素”及“3C精神”17
图119数据范式与知识范式的区别18
图120数据管理范式的变化18
图121大数据的资产属性19
图122常用驱动方式20
图123CAPTCHA项目21
图124ReCAPTCHA项目21
图125数据与算法之间的关系22
图126BellKors Pragmatic Chaos团队获得Netflix奖23
图127Netflix奖公测结果23
图128RStudio中编辑Markdown的窗口25
图129数据科学家团队28
图130学习数据科学的四则原则29
图21数据科学的理论基础35
图22统计方法的分类(目的与思路视角)37
图23统计学中的数据推断37
图24数据统计方法的类型(方法论视角)38
图25数据统计基本方法38
图26元分析与基本分析39
图27GFT预测与美国疾病控制中心数据的对比40
图28GFT估计与实际数据的误差(2013年2月)40
图29大数据时代的思维模式的转变41
图210西洋双陆棋42
图211自动驾驶42
图212机器学习的基本思路42
图213机器学习的三要素44
图214机器学习的类型45
图215KNN算法的基本步骤46
图216决策树示例——识别鸟类48
图217感知器示例50
图218前向神经网络50
图219归纳学习与分析学习52
图220增强学习53
图221IBM Watson54
图222Pepper机器人54
图223机器学习及其应用55
图224Anscombe四组数据的可视化57
图225John Snow的鬼地图(Ghost Map)58
图31数据科学的基本流程62
图32量化自我63
图33整齐数据与干净数据的区别64
图34整齐数据示意图64
图35残差67
图36数据分析的类型68
图37Analytics 1.0~3.069
图38数据加工方法70
图39数据审计与数据清洗71
图310缺失数据的处理步骤72
图311冗余数据的处理方法72
图312数据分箱处理的步骤与类型73
图313均值平滑与边界值平滑74
图314内容集成76
图315结构集成76
图316数据脱敏处理77
图317数据连续性的定义及重要性81
图318可视化审计82
图319Gartner分析学价值扶梯模型83
图320冰激凌的销量与谋杀案的发生数量84
图321数据分析的类型86
图322拿破仑进军俄国惨败而归的历史事件的可视化87
图323可视化分析学的相关学科87
图324可视化分析学模型88
图325数据可视化的方法体系89
图326视觉图形元素与视觉通道89
图327雷达图示例89
图328齐美尔连带89
图329视觉隐喻的示例——美国政府机构的设置90
图330地铁路线图的创始人Henry Beck91
图331Henry Beck的伦敦地铁线路图91
图332视觉突出的示例92
图333完图法则的示例92
图334视觉通道的选择与展示94
图335视觉通道的精确度对比94
图336视觉通道的可辨认性——某公司产品销售示意图95
图337视觉通道的可分离性差95
图338上下文导致视觉假象196
图339上下文导致视觉假象296
图340对亮度和颜色的相对判断容易造成视觉假象的示例96
图341数据可视化与数据故事化描述97
图342数据的故事化描述及故事的展现98
图343项目管理的主要内容101
图344数据科学项目的基本流程102
图41大数据产业全景图107
图42基础设施108
图43分析工具109
图44企业应用109
图45行业应用110
图46跨平台基础设施和分析工具110
图47开源系统111
图48数据源与Apps111
图49数据资源111
图410MapReduce执行过程113
图411MapReduce对中间数据的处理116
图412以MapReduce为核心和以YARN为核心的软件栈对比118
图413下一代MapReduce框架118
图414Apache Hadoop官网119
图415Apache Hadoop生态系统119
图416Hadoop MapReduce数据处理流程121
图417Apache Hive官网122
图418Apache Pig官网123
图419Apache Mahout官网124
图420Apache HBase官网125
图421HBase与Hadoop项目125
图422HBase逻辑模型126
图423Apache Zookeeper官网127
图424Apache Flume官网127
图425Apache Sqoop官网128
图426Spark 技术架构130
图427Spark执行流程130
图428Spark Scheduler134
图429传统关系数据库的优点与缺点136
图430关系数据库与NoSQL数据库之间的关系138
图431NoSQL数据分布的两个基本途径139
图432分片处理140
图433主从复制141
图434对等复制142
图435数据不一致性142
图436CAP理论143
图437Memcached官网146
图438一致性散列的分配方式147
图439服务器增加时的变化147
图440计算模式的演变150
图441数据管理的新变化152
图51数据产品开发中的数据与数据柔术157
图52数据产品开发与数据柔术160
图53数据产品的多样性160
图54数据产品的层次性161
图55Google全球商机洞察(Global Market Finder)162
图56数据产品链162
图57传统产品开发与数据产品开发的区别163
猜您喜欢