书籍详情
Python数据分析与可视化
作者:吕云翔,李伊琳 著
出版社:人民邮电出版社
出版时间:2021-02-01
ISBN:9787115544346
定价:¥49.80
购买这本书可以去
内容简介
使用Python进行数据分析与可视化是十分便利且高效的,因此Python被认为是**秀的数据分析工具之一。本书从理论和实战两个角度对数据分析与可视化和Python工具进行了介绍。本书采用理论分析和Python编程实战相结合的形式,按照数据分析与可视化的基本步骤,数据分析与可视化的基本理论知识和相应的Python库进行了详细的介绍,让读者能够在了解基本理论知识的同时快速上手实现数据分析与可视化的程序。本书适合Python初学者、数据分析从业人员以及高等院校计算机科学、软件工程、大数据、人工智能等相关专业的师生阅读。
作者简介
比利时布鲁塞尔大学应用科学学院应用信息技术专业硕士、经济学院工商管理专业硕士。具有多年的软件开发、项目管理、计算机教学经验。对IT行业具有较全面的认识。2003至今任北航软件学院副教授。研究领域包括:软件工程 IT项目管理。
目录
第1章 数据分析是什么 1
1.1 数据分析与数据挖掘的关系 1
1.2 机器学习与数据分析的关系 1
1.3 数据分析的基本步骤 2
1.4 Python和数据分析 2
1.5 本章小结 3
第2章 Python——从了解Python开始 4
2.1 Python及pandas、scikit-learn、Matplotlib的安装 4
2.1.1 Windows操作系统下Python的安装 4
2.1.2 macOS下Python的安装 5
2.1.3 pandas、scikit-learn和Matplotlib的安装 5
2.1.4 使用科学计算发行版Python进行快速安装 5
2.2 Python基础知识 6
2.2.1 缩进 6
2.2.2 模块化的系统 7
2.2.3 注释 7
2.2.4 语法 7
2.3 重要的Python库 7
2.3.1 pandas 7
2.3.2 scikit-learn 8
2.3.3 Matplotlib 8
2.3.4 其他 8
2.4 Jupyter 9
2.5 本章小结 9
第3章 数据预处理——不了解数据,一切都是空谈 10
3.1 了解数据 10
3.2 数据质量 12
3.2.1 完整性 12
3.2.2 一致性 13
3.2.3 准确性 14
3.2.4 及时性 14
3.3 数据清洗 14
3.4 特征工程 16
3.4.1 特征选择 16
3.4.2 特征构建 16
3.4.3 特征提取 17
3.5 本章小结 17
第4章 NumPy——数据分析基础工具 18
4.1 多维数组对象:ndarray对象 18
4.1.1 ndarray对象的创建 19
4.1.2 ndarray对象的数据类型 21
4.2 ndarray对象的索引、切片和迭代 21
4.3 ndarray对象的shape操作 23
4.4 ndarray对象的基础操作 23
4.5 本章小结 25
第5章 pandas——处理结构化数据 26
5.1 基本数据结构 26
5.1.1 Series 26
5.1.2 DataFrame 28
5.2 基于pandas的Index对象的访问操作 32
5.2.1 pandas的Index对象 33
5.2.2 索引的不同访问方式 35
5.3 数学统计和计算工具 38
5.3.1 统计函数:协方差、相关系数、排序 38
5.3.2 窗口函数 40
5.4 数学聚合和分组运算 45
5.4.1 agg函数的聚合操作 47
5.4.2 transform函数的转换操作 48
5.4.3 apply函数的一般操作 49
5.5 本章小结 49
第6章 数据分析与知识发现——一些常用的方法 50
6.1 分类分析 50
6.1.1 逻辑回归 51
6.1.2 线性判别分析 51
6.1.3 支持向量机 51
6.1.4 决策树 52
6.1.5 k近邻 53
6.1.6 朴素贝叶斯 54
6.2 关联分析 54
6.2.1 基本概念 54
6.2.2 经典算法 55
6.3 聚类分析 60
6.3.1 k均值算法 60
6.3.2 DBSCAN 61
6.4 回归分析 62
6.4.1 线性回归分析 63
6.4.2 支持向量回归 63
6.4.3 k近邻回归 63
6.5 本章小结 64
第7章 scikit-learn——实现数据的分析 65
7.1 分类方法 65
7.1.1 逻辑回归 65
7.1.2 支持向量机 66
7.1.3 最近邻 67
7.1.4 决策树 68
7.1.5 随机梯度下降 68
7.1.6 高斯过程分类 69
7.1.7 多层感知器 69
7.1.8 朴素贝叶斯 70
7.2 回归方法 71
7.2.1 最小二乘法 71
7.2.2 岭回归 71
7.2.3 Lasso回归 72
7.2.4 贝叶斯岭回归 72
7.2.5 决策树回归 73
7.2.6 高斯过程回归 73
7.2.7 最近邻回归 74
7.3 聚类方法 75
7.3.1 k均值 75
7.3.2 相似性传播 76
7.3.3 均值漂移 76
7.3.4 谱聚类 77
7.3.5 层次聚类 77
7.3.6 DBSCAN 78
7.3.7 BIRCH 79
7.4 本章小结 80
第8章 Matplotlib——交互式图表绘制 81
8.1 基本布局对象 81
8.2 图表样式的修改以及图表装饰项接口 84
8.3 基础图表绘制 88
8.3.1 直方图 88
8.3.2 散点图 89
8.3.3 饼图 91
8.3.4 柱状图 92
8.3.5 折线图 95
8.3.6 表格 96
8.3.7 不同坐标系下的图像 97
8.4 matplot3D 98
8.5 Matplotlib与Jupyter结合 99
8.6 本章小结 101
第9章 实战:影评数据分析与电影推荐 102
9.1 明确目标与数据准备 102
9.1.1 明确目标 102
9.1.2 数据采集与处理 102
9.1.3 工具选择 103
9.2 初步分析 104
9.2.1 用户角度分析 104
9.2.2 电影角度分析 107
9.3 电影推荐 110
9.4 本章小结 111
第10章 实战:汽车贷款违约的数据分析 112
10.1 数据分析常用的Python库 112
10.2 数据样本分析 113
10.2.1 初步分析样本的所有变量 113
10.2.2 变量类型分析 114
10.2.3 Python代码实践 115
10.3 数据分析的预处理 116
10.3.1 目标变量探索 116
10.3.2 X变量初步探索 117
10.3.3 连续变量的缺失值处理 118
10.3.4 分类变量的缺失值处理 120
10.4 数据分析的模型建立与模型评估 122
10.4.1 数据预处理与训练集划分 122
10.4.2 采用回归模型进行数据分析 123
10.4.3 采用决策树模型进行数据分析 125
10.4.4 采用随机森林模型优化决策树模型 127
10.5 本章小结 128
第11章 实战:Python表格数据分析 129
11.1 背景介绍 129
11.2 前期准备与基本操作 130
11.2.1 基本术语概念说明 130
11.2.2 安装openpyxl并创建一个工作簿 130
11.2.3 从Excel工作簿中读取数据 131
11.2.4 迭代访问数据 133
11.2.5 修改与插入数据 135
11.3 进阶内容 137
11.3.1 为Excel工作簿添加公式 137
11.3.2 为Excel工作簿添加条件格式 139
11.3.3 为Excel工作簿添加图表 142
11.4 数据分析实例 145
11.4.1 背景与前期准备 145
11.4.2 使用openpyxl读取数据并将其转化为Dataframe对象 145
11.4.3 绘制数值列直方图 146
11.4.4 绘制相关性矩阵 147
11.4.5 绘制散布矩阵 149
11.4.6 将可视化结果插入Excel工作簿中 150
11.5 本章小结 151
第12章 实战:利用手机的购物评论分析手机特征 152
12.1 项目介绍 152
12.2 从Kaggle上下载数据 152
12.3 筛选想要的数据 156
12.4 分析数据 159
12.4.1 算法介绍 159
12.4.2 算法应用 160
12.5 本章小结 171
第13章 实战:基于k近邻模型预测葡萄酒种类的数据分析与可视化 172
13.1 机器学习的模型和数据 172
13.2 k近邻模型的介绍与初步建立 173
13.2.1 k近邻模型的初步建立 173
13.2.2 使用专业库建立k近邻模型 178
13.2.3 使用scikit-learn 182
13.3 数据可视化 183
13.4 本章小结 185
第14章 实战:美国波士顿房价预测 186
14.1 数据清洗 187
14.2 数据分析 195
14.3 分析结果 199
14.4 本章小结 199
1.1 数据分析与数据挖掘的关系 1
1.2 机器学习与数据分析的关系 1
1.3 数据分析的基本步骤 2
1.4 Python和数据分析 2
1.5 本章小结 3
第2章 Python——从了解Python开始 4
2.1 Python及pandas、scikit-learn、Matplotlib的安装 4
2.1.1 Windows操作系统下Python的安装 4
2.1.2 macOS下Python的安装 5
2.1.3 pandas、scikit-learn和Matplotlib的安装 5
2.1.4 使用科学计算发行版Python进行快速安装 5
2.2 Python基础知识 6
2.2.1 缩进 6
2.2.2 模块化的系统 7
2.2.3 注释 7
2.2.4 语法 7
2.3 重要的Python库 7
2.3.1 pandas 7
2.3.2 scikit-learn 8
2.3.3 Matplotlib 8
2.3.4 其他 8
2.4 Jupyter 9
2.5 本章小结 9
第3章 数据预处理——不了解数据,一切都是空谈 10
3.1 了解数据 10
3.2 数据质量 12
3.2.1 完整性 12
3.2.2 一致性 13
3.2.3 准确性 14
3.2.4 及时性 14
3.3 数据清洗 14
3.4 特征工程 16
3.4.1 特征选择 16
3.4.2 特征构建 16
3.4.3 特征提取 17
3.5 本章小结 17
第4章 NumPy——数据分析基础工具 18
4.1 多维数组对象:ndarray对象 18
4.1.1 ndarray对象的创建 19
4.1.2 ndarray对象的数据类型 21
4.2 ndarray对象的索引、切片和迭代 21
4.3 ndarray对象的shape操作 23
4.4 ndarray对象的基础操作 23
4.5 本章小结 25
第5章 pandas——处理结构化数据 26
5.1 基本数据结构 26
5.1.1 Series 26
5.1.2 DataFrame 28
5.2 基于pandas的Index对象的访问操作 32
5.2.1 pandas的Index对象 33
5.2.2 索引的不同访问方式 35
5.3 数学统计和计算工具 38
5.3.1 统计函数:协方差、相关系数、排序 38
5.3.2 窗口函数 40
5.4 数学聚合和分组运算 45
5.4.1 agg函数的聚合操作 47
5.4.2 transform函数的转换操作 48
5.4.3 apply函数的一般操作 49
5.5 本章小结 49
第6章 数据分析与知识发现——一些常用的方法 50
6.1 分类分析 50
6.1.1 逻辑回归 51
6.1.2 线性判别分析 51
6.1.3 支持向量机 51
6.1.4 决策树 52
6.1.5 k近邻 53
6.1.6 朴素贝叶斯 54
6.2 关联分析 54
6.2.1 基本概念 54
6.2.2 经典算法 55
6.3 聚类分析 60
6.3.1 k均值算法 60
6.3.2 DBSCAN 61
6.4 回归分析 62
6.4.1 线性回归分析 63
6.4.2 支持向量回归 63
6.4.3 k近邻回归 63
6.5 本章小结 64
第7章 scikit-learn——实现数据的分析 65
7.1 分类方法 65
7.1.1 逻辑回归 65
7.1.2 支持向量机 66
7.1.3 最近邻 67
7.1.4 决策树 68
7.1.5 随机梯度下降 68
7.1.6 高斯过程分类 69
7.1.7 多层感知器 69
7.1.8 朴素贝叶斯 70
7.2 回归方法 71
7.2.1 最小二乘法 71
7.2.2 岭回归 71
7.2.3 Lasso回归 72
7.2.4 贝叶斯岭回归 72
7.2.5 决策树回归 73
7.2.6 高斯过程回归 73
7.2.7 最近邻回归 74
7.3 聚类方法 75
7.3.1 k均值 75
7.3.2 相似性传播 76
7.3.3 均值漂移 76
7.3.4 谱聚类 77
7.3.5 层次聚类 77
7.3.6 DBSCAN 78
7.3.7 BIRCH 79
7.4 本章小结 80
第8章 Matplotlib——交互式图表绘制 81
8.1 基本布局对象 81
8.2 图表样式的修改以及图表装饰项接口 84
8.3 基础图表绘制 88
8.3.1 直方图 88
8.3.2 散点图 89
8.3.3 饼图 91
8.3.4 柱状图 92
8.3.5 折线图 95
8.3.6 表格 96
8.3.7 不同坐标系下的图像 97
8.4 matplot3D 98
8.5 Matplotlib与Jupyter结合 99
8.6 本章小结 101
第9章 实战:影评数据分析与电影推荐 102
9.1 明确目标与数据准备 102
9.1.1 明确目标 102
9.1.2 数据采集与处理 102
9.1.3 工具选择 103
9.2 初步分析 104
9.2.1 用户角度分析 104
9.2.2 电影角度分析 107
9.3 电影推荐 110
9.4 本章小结 111
第10章 实战:汽车贷款违约的数据分析 112
10.1 数据分析常用的Python库 112
10.2 数据样本分析 113
10.2.1 初步分析样本的所有变量 113
10.2.2 变量类型分析 114
10.2.3 Python代码实践 115
10.3 数据分析的预处理 116
10.3.1 目标变量探索 116
10.3.2 X变量初步探索 117
10.3.3 连续变量的缺失值处理 118
10.3.4 分类变量的缺失值处理 120
10.4 数据分析的模型建立与模型评估 122
10.4.1 数据预处理与训练集划分 122
10.4.2 采用回归模型进行数据分析 123
10.4.3 采用决策树模型进行数据分析 125
10.4.4 采用随机森林模型优化决策树模型 127
10.5 本章小结 128
第11章 实战:Python表格数据分析 129
11.1 背景介绍 129
11.2 前期准备与基本操作 130
11.2.1 基本术语概念说明 130
11.2.2 安装openpyxl并创建一个工作簿 130
11.2.3 从Excel工作簿中读取数据 131
11.2.4 迭代访问数据 133
11.2.5 修改与插入数据 135
11.3 进阶内容 137
11.3.1 为Excel工作簿添加公式 137
11.3.2 为Excel工作簿添加条件格式 139
11.3.3 为Excel工作簿添加图表 142
11.4 数据分析实例 145
11.4.1 背景与前期准备 145
11.4.2 使用openpyxl读取数据并将其转化为Dataframe对象 145
11.4.3 绘制数值列直方图 146
11.4.4 绘制相关性矩阵 147
11.4.5 绘制散布矩阵 149
11.4.6 将可视化结果插入Excel工作簿中 150
11.5 本章小结 151
第12章 实战:利用手机的购物评论分析手机特征 152
12.1 项目介绍 152
12.2 从Kaggle上下载数据 152
12.3 筛选想要的数据 156
12.4 分析数据 159
12.4.1 算法介绍 159
12.4.2 算法应用 160
12.5 本章小结 171
第13章 实战:基于k近邻模型预测葡萄酒种类的数据分析与可视化 172
13.1 机器学习的模型和数据 172
13.2 k近邻模型的介绍与初步建立 173
13.2.1 k近邻模型的初步建立 173
13.2.2 使用专业库建立k近邻模型 178
13.2.3 使用scikit-learn 182
13.3 数据可视化 183
13.4 本章小结 185
第14章 实战:美国波士顿房价预测 186
14.1 数据清洗 187
14.2 数据分析 195
14.3 分析结果 199
14.4 本章小结 199
猜您喜欢