书籍详情
数据科学与大数据技术导论
作者:方志军 著
出版社:华中科技大学出版社
出版时间:2019-10-01
ISBN:9787568052207
定价:¥41.00
购买这本书可以去
内容简介
本书根据新工科建设及应用型本科院校人才培养对数据科学与大数据技术教学方面的需求,力求简单易懂,以Python为主线,按照学习者的知识逻辑展开,呈现数据科学与大数据技术的基本知识、基本概念、基本方法。本书内容主要包括:什么是大数据、Python基础知识、数据分析与可视化、数据挖掘、机器学习、大数据处理等。本书可作为普通高等院校计算机、大数据、人工智能等相关学科专业的教材用书。其他理工科专业的同学或有兴趣的广大读者,也可以作为学习数据科学、大数据技术、数据管理及应用等方面基础知识的自学教材或参考用书。
作者简介
暂缺《数据科学与大数据技术导论》作者简介
目录
第1章 什么是大数据 1
1.1 数据、大数据及数据挖掘 1
1.1.1 数据 1
1.1.2 大数据 2
1.1.3 数据挖掘 3
1.1.4 数据挖掘的技术基础 4
1.2 大数据与统计学 6
1.3 机器学习与人工智能 7
1.3.1 机器学习与人工智能 7
1.3.2 机器学习的定义 8
1.4 相关领域应用 9
1.4.1 数据挖掘的相关案例 9
1.4.2 大数据应用领域 12
1.5 小结 15
1.6 习题 16
第2章 Python基础知识 17
2.1 Python概述 17
2.1.1 Python简介 17
2.1.2 Python的特点 18
2.1.3 Python集成开发环境的搭建 19
2.2 Python数据类型 22
2.2.1 数字 22
2.2.2 字符串 27
2.2.3 索引与分片 33
2.2.4 列表 35
2.2.5 元组 41
2.2.6 可变与不可变类型 44
2.2.7 字典 46
2.2.8 集合与不可变集合 50
2.3 判断与循环 56
2.3.1 判断语句 56
2.3.2 循环语句 62
2.3.3 一些简单实例 69
2.4 函数与模块 72
2.4.1. Python函数 72
2.4.2 内置函数 77
2.4.3 模块 81
2.4.4 阶段案例—学生管理系统 86
2.5 文件读写 91
2.5.1 读文件 91
2.5.2 写文件 92
2.5.3 中文文件的读写 94
2.6 异常与警告 95
2.6.1 异常 95
2.6.2 警告 103
2.7 本章小结 104
2.8 习题 105
第3章 数据分析与可视化 107
3.1 Python数据分析包 107
3.1.1 Pandas 107
3.1.2 Numpy 108
3.1.3 SciPy 108
3.1.4 Matplotlib 109
3.2 数据准备 110
3.2.1 数据类型 110
3.2.2 数据结构 110
3.2.3 数据导入 119
3.2.4 数据导出 122
3.3 数据处理 125
3.3.1 数据清洗 125
3.3.2 数据抽取 130
3.3.3 排名索引 141
3.3.4 数据合并 145
3.3.5 数据计算 150
3.3.6 数据分组 151
3.3.7 日期处理 153
3.4 数据分析 159
3.4.1 基本统计 159
3.4.2 分组分析 161
3.4.3 分布分析 162
3.4.4 交叉分析 165
3.4.5 结构分析 167
3.4.6 相关分析 169
3.5 数据可视化 171
3.5.1 饼图 171
3.5.2 散点图 172
3.5.3 折线图 174
3.5.4 柱形图 179
3.5.5 直方图 182
3.6 本章小结 183
3.7 习题 184
第4章 数据挖掘(SQL/Python) 186
4.1 数据挖掘绪论 186
4.1.1 数据挖掘定义 186
4.1.2 数据挖掘源起 187
4.1.3 数据挖掘研究目标 188
4.1.4 数据挖掘开源工具 190
4.2数据存储 194
4.2.1 数据库数据 194
4.2.2 数据仓库 195
4.2.3 数据仓库建模和实现 197
4.2.4 非关系型数据库 201
4.2.5 实时流数据与框架 203
4.3 数据挖掘技术 204
4.3.1 分类与预测 204
4.3.2 聚类分析 207
4.3.3 关联规则 212
4.3.4 离群点检测 215
4.3.5 时间序列分析 218
4.4 数据挖掘应用 220
4.4.1 系统日志和时间挖掘 220
4.4.2 社交媒体挖掘 222
4.4.3 文本挖掘 225
4.4.4 推荐系统 227
4.4.5 数据挖掘与智慧城市 228
4.5 习题 232
第5章 机器学习 241
5.1机器学习概述 241
5.1.1 机器学习的概念 241
5.1.2 机器学习的历史 242
5.1.3 机器学习的发展 243
5.2 回归分析 243
5.2.1 线性回归介绍 243
5.2.2 线性回归相关性 247
5.2.3 多项式回归数据拟合 250
5.2.4 非线性回归 250
5.3 分类算法 251
5.3.1 k近邻算法 251
5.3.2 决策树算法 253
5.3.3 支持向量机算法 255
5.3.4 朴素贝叶斯算法 256
5.4 聚类算法 259
5.4.1 k-means算法 259
5.4.2 层次聚类算法 262
5.5 深度学习 263
5.5.1 人工神经网络 263
5.5.2 感知机和深度神经网络 264
5.5.3 循环网络 265
5.5.4 卷积神经网络 266
5.5.5 自编码器 267
5.6 机器学习的应用 268
5.7 本章小结 270
5.8 习题 271
第6章 大数据处理 273
6.1 Hadoop概述 273
6.1.1 Hadoop简介 273
6.1.2 Hadoop的特性 274
6.1.3 Hadoop的发展 274
6.2 Hadoop生态系统 275
6.2.1 HDFS 276
6.2.2 MapReduce 276
6.2.3 HBase 277
6.2.4 Hive 277
6.2.5 Pig 277
6.2.6 Zookeeper 277
6.2.7 Mahout 277
6.2.8 Sqoop 277
6.2.9 Flume 278
6.2.10 Ambari 278
6.3 Hadoop集群的安装与配置 278
6.3.1 操作系统CentOS的安装 279
6.3.2 创建Hadoop用户与系统设置 279
6.3.3 安装Java 280
6.3.4 安装Hadoop 281
6.3.5 克隆虚拟机与网络设置 284
6.3.6 SSH无密码登录设置 285
6.3.7 启停和验证集群 286
6.4 分布式文件系统HDFS 288
6.4.1 HDFS相关概念 288
6.4.2 HDFS体系结构 289
6.4.3 HDFS的数据读写过程 290
6.4.4 HDFS文件访问与控制 293
6.4.5 编程实践:HDFS文件上传、下载与读写 294
6.5 MapReduce编程模型 295
6.5.1 MapReduce基本原理 295
6.5.2 MapReduce的工作机制 297
6.5.3 编程实践:统计日志 299
6.6 资源管理调度框架YARN 303
6.6.1 YARN设计思路 303
6.6.2 YARN体系结构 304
6.6.3 YARN工作流程 306
6.6.4 编程实践:在YARN上运行WordCount程序 307
6.7 Spark 310
6.7.1 Spark简介 310
6.7.2 Spark生态系统 311
6.7.3 Spark运行架构 312
6.7.4 Spark的部署和应用架构 316
6.7.5 Spark集群的安装与配置 317
6.7.6 Pyspark安装与配置 321
6.7.7 编程实践:统计素数数量 326
6.8 本章小结 328
6.9 习题 329
1.1 数据、大数据及数据挖掘 1
1.1.1 数据 1
1.1.2 大数据 2
1.1.3 数据挖掘 3
1.1.4 数据挖掘的技术基础 4
1.2 大数据与统计学 6
1.3 机器学习与人工智能 7
1.3.1 机器学习与人工智能 7
1.3.2 机器学习的定义 8
1.4 相关领域应用 9
1.4.1 数据挖掘的相关案例 9
1.4.2 大数据应用领域 12
1.5 小结 15
1.6 习题 16
第2章 Python基础知识 17
2.1 Python概述 17
2.1.1 Python简介 17
2.1.2 Python的特点 18
2.1.3 Python集成开发环境的搭建 19
2.2 Python数据类型 22
2.2.1 数字 22
2.2.2 字符串 27
2.2.3 索引与分片 33
2.2.4 列表 35
2.2.5 元组 41
2.2.6 可变与不可变类型 44
2.2.7 字典 46
2.2.8 集合与不可变集合 50
2.3 判断与循环 56
2.3.1 判断语句 56
2.3.2 循环语句 62
2.3.3 一些简单实例 69
2.4 函数与模块 72
2.4.1. Python函数 72
2.4.2 内置函数 77
2.4.3 模块 81
2.4.4 阶段案例—学生管理系统 86
2.5 文件读写 91
2.5.1 读文件 91
2.5.2 写文件 92
2.5.3 中文文件的读写 94
2.6 异常与警告 95
2.6.1 异常 95
2.6.2 警告 103
2.7 本章小结 104
2.8 习题 105
第3章 数据分析与可视化 107
3.1 Python数据分析包 107
3.1.1 Pandas 107
3.1.2 Numpy 108
3.1.3 SciPy 108
3.1.4 Matplotlib 109
3.2 数据准备 110
3.2.1 数据类型 110
3.2.2 数据结构 110
3.2.3 数据导入 119
3.2.4 数据导出 122
3.3 数据处理 125
3.3.1 数据清洗 125
3.3.2 数据抽取 130
3.3.3 排名索引 141
3.3.4 数据合并 145
3.3.5 数据计算 150
3.3.6 数据分组 151
3.3.7 日期处理 153
3.4 数据分析 159
3.4.1 基本统计 159
3.4.2 分组分析 161
3.4.3 分布分析 162
3.4.4 交叉分析 165
3.4.5 结构分析 167
3.4.6 相关分析 169
3.5 数据可视化 171
3.5.1 饼图 171
3.5.2 散点图 172
3.5.3 折线图 174
3.5.4 柱形图 179
3.5.5 直方图 182
3.6 本章小结 183
3.7 习题 184
第4章 数据挖掘(SQL/Python) 186
4.1 数据挖掘绪论 186
4.1.1 数据挖掘定义 186
4.1.2 数据挖掘源起 187
4.1.3 数据挖掘研究目标 188
4.1.4 数据挖掘开源工具 190
4.2数据存储 194
4.2.1 数据库数据 194
4.2.2 数据仓库 195
4.2.3 数据仓库建模和实现 197
4.2.4 非关系型数据库 201
4.2.5 实时流数据与框架 203
4.3 数据挖掘技术 204
4.3.1 分类与预测 204
4.3.2 聚类分析 207
4.3.3 关联规则 212
4.3.4 离群点检测 215
4.3.5 时间序列分析 218
4.4 数据挖掘应用 220
4.4.1 系统日志和时间挖掘 220
4.4.2 社交媒体挖掘 222
4.4.3 文本挖掘 225
4.4.4 推荐系统 227
4.4.5 数据挖掘与智慧城市 228
4.5 习题 232
第5章 机器学习 241
5.1机器学习概述 241
5.1.1 机器学习的概念 241
5.1.2 机器学习的历史 242
5.1.3 机器学习的发展 243
5.2 回归分析 243
5.2.1 线性回归介绍 243
5.2.2 线性回归相关性 247
5.2.3 多项式回归数据拟合 250
5.2.4 非线性回归 250
5.3 分类算法 251
5.3.1 k近邻算法 251
5.3.2 决策树算法 253
5.3.3 支持向量机算法 255
5.3.4 朴素贝叶斯算法 256
5.4 聚类算法 259
5.4.1 k-means算法 259
5.4.2 层次聚类算法 262
5.5 深度学习 263
5.5.1 人工神经网络 263
5.5.2 感知机和深度神经网络 264
5.5.3 循环网络 265
5.5.4 卷积神经网络 266
5.5.5 自编码器 267
5.6 机器学习的应用 268
5.7 本章小结 270
5.8 习题 271
第6章 大数据处理 273
6.1 Hadoop概述 273
6.1.1 Hadoop简介 273
6.1.2 Hadoop的特性 274
6.1.3 Hadoop的发展 274
6.2 Hadoop生态系统 275
6.2.1 HDFS 276
6.2.2 MapReduce 276
6.2.3 HBase 277
6.2.4 Hive 277
6.2.5 Pig 277
6.2.6 Zookeeper 277
6.2.7 Mahout 277
6.2.8 Sqoop 277
6.2.9 Flume 278
6.2.10 Ambari 278
6.3 Hadoop集群的安装与配置 278
6.3.1 操作系统CentOS的安装 279
6.3.2 创建Hadoop用户与系统设置 279
6.3.3 安装Java 280
6.3.4 安装Hadoop 281
6.3.5 克隆虚拟机与网络设置 284
6.3.6 SSH无密码登录设置 285
6.3.7 启停和验证集群 286
6.4 分布式文件系统HDFS 288
6.4.1 HDFS相关概念 288
6.4.2 HDFS体系结构 289
6.4.3 HDFS的数据读写过程 290
6.4.4 HDFS文件访问与控制 293
6.4.5 编程实践:HDFS文件上传、下载与读写 294
6.5 MapReduce编程模型 295
6.5.1 MapReduce基本原理 295
6.5.2 MapReduce的工作机制 297
6.5.3 编程实践:统计日志 299
6.6 资源管理调度框架YARN 303
6.6.1 YARN设计思路 303
6.6.2 YARN体系结构 304
6.6.3 YARN工作流程 306
6.6.4 编程实践:在YARN上运行WordCount程序 307
6.7 Spark 310
6.7.1 Spark简介 310
6.7.2 Spark生态系统 311
6.7.3 Spark运行架构 312
6.7.4 Spark的部署和应用架构 316
6.7.5 Spark集群的安装与配置 317
6.7.6 Pyspark安装与配置 321
6.7.7 编程实践:统计素数数量 326
6.8 本章小结 328
6.9 习题 329
猜您喜欢