书籍详情

Python数据分析:零基础入门到实战开发

Python数据分析:零基础入门到实战开发

作者:张玉皓 著

出版社:中国铁道出版社

出版时间:2020-11-01

ISBN:9787113267377

定价:¥69.80

购买这本书可以去
内容简介
  本书讲解主要以Python数据分析相关内容为主,还涉及数据分析背后的数学思维。全书内容主要分为三部分。第一部分为Python数据分析相关技能,包括NumPy、pandas等重要的第三方库的使用技巧;第二部分为数据分析相关统计学知识,主要包含构建模型的流程、思路,以及数学原理的解析;第三部分为实战,主要是结合Python数据分析工具与统计学知识的实践操作。对于那些想要进入数据分析领域的初学者非常适合阅读本书,即使你没有扎实的Python编程基础,没有深厚的数理统计功底,依然可以通过本书的学习对数据分析技术产生浓厚的兴趣,以及对数据分析的原理与应用有更加整体的认识和理解。
作者简介
  张玉皓毕业于中国科学院大学计算机应用技术专业,在国际ROBOmaster人工智能挑战大赛上与中科院自动化所、伯克利大学、哥伦比亚大学同台竞技,荣获第八名。映客直播实习期间,参与直播间文本分析,计算直播间受欢迎指标的项目。京东实习期间,参与京东商城全品类评论短文本聚类项目,将短文本智能聚类,积累短对话语料库。毕业斩获瓜子二手车、映客、马蜂窝、百度、京东等大厂offer,后就职于京东零售,从事NLP算法领域智能客服的优化工作。
目录

目 录
第1章 什么是数据分析
1.1 Python开发环境 1
1.2 数据分析的前世今生 2
1.2.1 数据分析历史 2
1.2.2 数据分析的现实应用 2
1.2.3 数据分析的技能需求 3
1.3 数据分析流程 4
1.3.1 数据导入、清洗 5
1.3.2 单变量分析 6
1.3.3 多变量分析 6
1.3.4 选择模型 6
1.3.5 估计与假设检验 7
1.3.6 可视化 8
1.4 数据分析经典案例 8
1.4.1 犯罪率的下降与法律条文的生成 8
1.4.2 利用数据观察校园作弊行为 9
1.4.3 靠统计学致富的数学家 11
1.5 数据分析的第一个实战 12
1.5.1 单变量探索 12
1.5.2 多变量分析 16
1.5.3 选择模型 21
1.5.4 假设检验 25
第2章 Python知识进阶
2.1 Python语言 28
2.1.1 Python的历史 29
2.1.2 Python的特色 29
2.2 Python技巧与进阶 31
2.2.1 数据类型方面的技巧 31
2.2.2 数字方面的使用技巧 32
2.2.3 枚举 34
2.2.4 匿名函数的应用 35
2.2.5 装饰器:语法糖 37
2.2.6 列表生成式 39
2.2.7 迭代器与生成器 39
2.3 Python编程的易错点 41
2.3.1 全局变量与局部变量 42
2.3.2 闭包 43
2.3.3 函数传参 44
2.3.4 列表和数组的区别 45
2.3.5 变量和按引用传递 45
2.3.6 None:一个独特的类型 47
2.4 小结 48
第3章 NumPy的入门与进阶
3.1 ndarray数组 49
3.1.1 ndarray数组的创建 49
3.1.2 C和Fortran顺序 51
3.2 索引 51
3.2.1 基本索引 51
3.2.2 高维数组的索引 52
3.2.3 高阶索引 54
3.3 广播机制 56
3.4 NumPy数组的运算 58
3.4.1 NumPy的数值计算 58
3.4.2 比较与排序 59
3.4.3 NumPy的数组计算 60
3.4.4 ufunc高级应用 61
3.4.5 NumPy初等函数与math内置初等函数的区别 63
3.4.6 NumPy中的多项式函数 64
3.4.7 其他功能函数 65
第4章 pandas的入门与进阶
4.1 pandas的数据结构 66
4.1.1 Series的创建 67
4.1.2 Series的数值计算 68
4.1.3 DataFrame的创建 69
4.1.4 DataFrame的基本属性 70
4.2 pandas数据结构的基本操作 72
4.2.1 转置 72
4.2.2 索引 73
4.2.3 DataFrame的关系型操作 75
4.2.4 DataFrame的画图操作 76
4.2.5 查看数据 80
4.3 pandas数据结构的进阶操作 81
4.3.1 数据导入导出 81
4.3.2 表格合并 83
4.3.3 读写文件中的编码问题 90
4.3.4 删除与替换数据 92
4.3.5 表格整体性分析 96
4.3.6 GroupBy分组运算 98
4.3.7 综合练习 103
第5章 SciPy入门与进阶
5.1 SciPy中的常数与函数 106
5.1.1 SciPy中的常数 106
5.1.2 SciPy中的special模块 107
5.2 SciPy中的科学计算工具 108
5.2.1 求解多元方程组 108
5.2.2 拟合方程 110
5.2.3 最优化算法 113
5.2.4 统计分布 116
5.2.5 积分 120
5.2.6 插值 121
第6章 可视化
6.1 可视化的魅力 124
6.1.1 别出心裁的可视化 124
6.1.2 可视化的基本理论 126
6.1.3 可视化实例 127
6.2 matplotlib第三方库的基本功能 131
6.2.1 matplotlib绘图的基础组件 131
6.2.2 饼图 134
6.2.3 条形图 139
6.2.4 散点图 142
6.2.5 折线图 145
6.2.6 箱线图 146
6.2.7 小提琴图 148
6.2.8 Basemap简单介绍 150
6.3 交互式绘图 151
6.3.1 matplotlib的简单交互式绘图 151
6.3.2 pyecharts可视化库 154
第7章 时间序列
7.1 datetime库的简单介绍 160
7.1.1 时间坐标的构造 160
7.1.2 时间和字符串的转换 161
7.2 时间序列中pandas的应用 162
7.2.1 DatetimeIndex 162
7.2.2 pandas中时间坐标的构造 163
7.2.3 PeriodIndex(时间索引类型) 164
7.2.4 采样 166
7.2.5 超前或滞后 167
7.2.6 移动窗口函数 168
7.3 时间序列的时区转换 169
第8章 数据分析中的统计学
8.1 有趣的选择 171
8.2 数据分析回答ofo多久才能退押金 172
8.3 统计学在数据分析中扮演的角色 178
8.4 数据预处理 178
8.4.1 数据清洗 178
8.4.2 数据集成 180
8.4.3 数据变换 181
8.5 特征工程 182
8.5.1 过滤法 183
8.5.2 包装法 186
8.5.3 嵌入式方法 190
8.5.4 正则化 193
8.6 模型训练 194
8.7 模型评估 199
8.8 数据分析中的其他问题 201
8.8.1 数据泄露 201
8.8.2 大数据下的数据分析 202
8.8.3 辛普森悖论 204
8.8.4 数据集的划分 205
8.8.5 优化调参 206
第9章 豆瓣电影TOP 250数据分析
9.1 项目介绍 210
9.1.1 爬虫的简单介绍 210
9.1.2 网页的构成 210
9.1.3 实战中的爬虫技术介绍 211
9.1.4 实战中数据存储与读取 215
9.1.5 实战中的界面设计 216
9.1.6 实战中的数据可视化 219
9.2 数据库操作 224
9.2.1 数据库的安装与配置 225
9.2.2 数据存储到数据库 227
9.3 数据库标准语言 228
9.3.1 创建数据库、表 229
9.3.2 表的删除与更新 229
9.3.3 查询 230
9.3.4 聚合与排序 230
9.3.5 数据更新 231
9.3.6 表的集合运算 232
9.3.7 Python和数据库语言的关系 234
第10章 Python丰富的可视化案例
10.1 turtle库的简单使用 236
10.2 北上广深租房分析可视化案例 238
10.2.1 数据爬取 238
10.2.2 读取数据 240
10.2.3 数据分析 241
第11章 Python预测应用——SVM预测股票涨跌
11.1 SVM介绍 246
11.1.1 SVM原理 246
11.1.2 核函数 247
11.2 SVM实战 249
11.2.1 数据预处理 249
11.2.2 训练模型 251
11.2.3 遗传算法 252
第12章 文本分析《三国演义》:挖掘人物图谱
12.1 项目简单说明 262
12.1.1 代码分块介绍 262
12.1.2 效果图展示 265
12.2 工程具体实现 265
12.2.1 设计思想 266
12.2.2 代码详解 266
12.2.3 可视化 267
目 录
第1章 什么是数据分析
1.1 Python开发环境 1
1.2 数据分析的前世今生 2
1.2.1 数据分析历史 2
1.2.2 数据分析的现实应用 2
1.2.3 数据分析的技能需求 3
1.3 数据分析流程 4
1.3.1 数据导入、清洗 5
1.3.2 单变量分析 6
1.3.3 多变量分析 6
1.3.4 选择模型 6
1.3.5 估计与假设检验 7
1.3.6 可视化 8
1.4 数据分析经典案例 8
1.4.1 犯罪率的下降与法律条文的生成 8
1.4.2 利用数据观察校园作弊行为 9
1.4.3 靠统计学致富的数学家 11
1.5 数据分析的第一个实战 12
1.5.1 单变量探索 12
1.5.2 多变量分析 16
1.5.3 选择模型 21
1.5.4 假设检验 25
第2章 Python知识进阶
2.1 Python语言 28
2.1.1 Python的历史 29
2.1.2 Python的特色 29
2.2 Python技巧与进阶 31
2.2.1 数据类型方面的技巧 31
2.2.2 数字方面的使用技巧 32
2.2.3 枚举 34
2.2.4 匿名函数的应用 35
2.2.5 装饰器:语法糖 37
2.2.6 列表生成式 39
2.2.7 迭代器与生成器 39
2.3 Python编程的易错点 41
2.3.1 全局变量与局部变量 42
2.3.2 闭包 43
2.3.3 函数传参 44
2.3.4 列表和数组的区别 45
2.3.5 变量和按引用传递 45
2.3.6 None:一个独特的类型 47
2.4 小结 48
第3章 NumPy的入门与进阶
3.1 ndarray数组 49
3.1.1 ndarray数组的创建 49
3.1.2 C和Fortran顺序 51
3.2 索引 51
3.2.1 基本索引 51
3.2.2 高维数组的索引 52
3.2.3 高阶索引 54
3.3 广播机制 56
3.4 NumPy数组的运算 58
3.4.1 NumPy的数值计算 58
3.4.2 比较与排序 59
3.4.3 NumPy的数组计算 60
3.4.4 ufunc高级应用 61
3.4.5 NumPy初等函数与math内置初等函数的区别 63
3.4.6 NumPy中的多项式函数 64
3.4.7 其他功能函数 65
第4章 pandas的入门与进阶
4.1 pandas的数据结构 66
4.1.1 Series的创建 67
4.1.2 Series的数值计算 68
4.1.3 DataFrame的创建 69
4.1.4 DataFrame的基本属性 70
4.2 pandas数据结构的基本操作 72
4.2.1 转置 72
4.2.2 索引 73
4.2.3 DataFrame的关系型操作 75
4.2.4 DataFrame的画图操作 76
4.2.5 查看数据 80
4.3 pandas数据结构的进阶操作 81
4.3.1 数据导入导出 81
4.3.2 表格合并 83
4.3.3 读写文件中的编码问题 90
4.3.4 删除与替换数据 92
4.3.5 表格整体性分析 96
4.3.6 GroupBy分组运算 98
4.3.7 综合练习 103
第5章 SciPy入门与进阶
5.1 SciPy中的常数与函数 106
5.1.1 SciPy中的常数 106
5.1.2 SciPy中的special模块 107
5.2 SciPy中的科学计算工具 108
5.2.1 求解多元方程组 108
5.2.2 拟合方程 110
5.2.3 最优化算法 113
5.2.4 统计分布 116
5.2.5 积分 120
5.2.6 插值 121
第6章 可视化
6.1 可视化的魅力 124
6.1.1 别出心裁的可视化 124
6.1.2 可视化的基本理论 126
6.1.3 可视化实例 127
6.2 matplotlib第三方库的基本功能 131
6.2.1 matplotlib绘图的基础组件 131
6.2.2 饼图 134
6.2.3 条形图 139
6.2.4 散点图 142
6.2.5 折线图 145
6.2.6 箱线图 146
6.2.7 小提琴图 148
6.2.8 Basemap简单介绍 150
6.3 交互式绘图 151
6.3.1 matplotlib的简单交互式绘图 151
6.3.2 pyecharts可视化库 154
第7章 时间序列
7.1 datetime库的简单介绍 160
7.1.1 时间坐标的构造 160
7.1.2 时间和字符串的转换 161
7.2 时间序列中pandas的应用 162
7.2.1 DatetimeIndex 162
7.2.2 pandas中时间坐标的构造 163
7.2.3 PeriodIndex(时间索引类型) 164
7.2.4 采样 166
7.2.5 超前或滞后 167
7.2.6 移动窗口函数 168
7.3 时间序列的时区转换 169
第8章 数据分析中的统计学
8.1 有趣的选择 171
8.2 数据分析回答ofo多久才能退押金 172
8.3 统计学在数据分析中扮演的角色 178
8.4 数据预处理 178
8.4.1 数据清洗 178
8.4.2 数据集成 180
8.4.3 数据变换 181
8.5 特征工程 182
8.5.1 过滤法 183
8.5.2 包装法 186
8.5.3 嵌入式方法 190
8.5.4 正则化 193
8.6 模型训练 194
8.7 模型评估 199
8.8 数据分析中的其他问题 201
8.8.1 数据泄露 201
8.8.2 大数据下的数据分析 202
8.8.3 辛普森悖论 204
8.8.4 数据集的划分 205
8.8.5 优化调参 206
第9章 豆瓣电影TOP 250数据分析
9.1 项目介绍 210
9.1.1 爬虫的简单介绍 210
9.1.2 网页的构成 210
9.1.3 实战中的爬虫技术介绍 211
9.1.4 实战中数据存储与读取 215
9.1.5 实战中的界面设计 216
9.1.6 实战中的数据可视化 219
9.2 数据库操作 224
9.2.1 数据库的安装与配置 225
9.2.2 数据存储到数据库 227
9.3 数据库标准语言 228
9.3.1 创建数据库、表 229
9.3.2 表的删除与更新 229
9.3.3 查询 230
9.3.4 聚合与排序 230
9.3.5 数据更新 231
9.3.6 表的集合运算 232
9.3.7 Python和数据库语言的关系 234
第10章 Python丰富的可视化案例
10.1 turtle库的简单使用 236
10.2 北上广深租房分析可视化案例 238
10.2.1 数据爬取 238
10.2.2 读取数据 240
10.2.3 数据分析 241
第11章 Python预测应用——SVM预测股票涨跌
11.1 SVM介绍 246
11.1.1 SVM原理 246
11.1.2 核函数 247
11.2 SVM实战 249
11.2.1 数据预处理 249
11.2.2 训练模型 251
11.2.3 遗传算法 252
第12章 文本分析《三国演义》:挖掘人物图谱
12.1 项目简单说明 262
12.1.1 代码分块介绍 262
12.1.2 效果图展示 265
12.2 工程具体实现 265
12.2.1 设计思想 266
12.2.2 代码详解 266
12.2.3 可视化 267
猜您喜欢

读书导航