书籍详情
Python大数据分析 Big Data Analysis with Python
作者:(美) Ivan Marin著 ; 雷依冰,张晨曦 译
出版社:北京航空航天大学出版社
出版时间:2023-04-01
ISBN:9787512440715
定价:¥69.00
购买这本书可以去
内容简介
这本书先介绍了如何使用Ppandas在Python中进行数据操作,教您熟悉统计分析和绘图技术。还将通过多个实践测试,让您学会使用Dask分析分布在多台计算机上的数据。接着还将为您介绍如何在内存无法容纳全部数据时,为绘图聚合数据。本书还将带领您探索Hadoop(HDFS和YARN),它可帮助您处理更大的数据集。此外,这本书还介绍了Spark相关知识,并解释了它如何与其他工具进行交互。Python大数据分析是为Python开发人员、数据分析师和数据科学家设计的,他们需要亲自动手控制数据并将其转化为有影响力的见解。书中关于统计度量和关系数据库的基本知识将帮助您理解在本书中的各种概念。
作者简介
Ivan Marin是一名系统架构师和数据科学家,目前就职于位于坎皮纳斯的软件公司Daitan Group。他设计用于大量数据的大数据系统,并使用Python和Spark端到端实现机器学习管道。他还是圣保罗数据科学、机器学习和Python活跃组织者,并在大学级别教授Python数据科学课程。
目录
第1章Python数据科学堆栈1
1.1概述1
1.2Python库和软件包2
1.2.1IPython:一个功能强大的交互式shell2
1.2.2Jupyter Notebook4
1.2.3使用IPython还是Jupyter8
1.2.4Numpy9
1.2.5Scipy10
1.2.6Matplotlib10
1.2.7Pandas11
1.3使用Pandas11
1.3.1读取数据12
1.3.2数据操作13
1.4数据类型转换21
1.5聚合和分组24
1.6从Pandas导出数据26
1.7Pandas可视化29
1.8总结31
第2章统计数据可视化33
2.1概述33
2.2可视化图表34
2.3图表的组件36
2.4Seaborn40
2.5图的类型41
2.5.1折线图(Line graph)42
2.5.2散点图(Scatter plot)45
2.5.3直方图(Histogram)48
2.5.4箱线图(Boxplot)51
2.6Pandas DataFrame54
2.7修改图的组件57
2.7.1配置轴对象的标题和标签57
2.7.2修改线条颜色和样式60
2.7.3修改图的大小60
2.8导出图像63
2.9总结67
第3章使用大数据框架69
3.1概述69
3.2Hadoop70
3.2.1使用HDFS操控数据71
3.3Spark数据处理平台73
3.3.1Spark SOL以及Pandas DataFrame75
3.4Parquet文件80
3.4.1编写Parquet文件81
3.4.2使用Parquet和Partitions提高分析性能82
3.5处理非结构化数据84
3.6总结87
第4章Spark DataFrame89
4.1概述89
4.2使用Spark DataFrame使用方法90
4.3从Spark DataFrame中写入输出94
4.4探索和了解Spark DataFrame更多特点95
4.5使用Spark DataFrame对数据进行相关操作98
4.6Spark DataFrame绘制图形106
4.7总结112
第5章处理缺失值以及相关性分析114
5.1概述114
5.2设置Jupyter Notebook115
5.3缺失值116
5.4处理Spark DataFrame中的缺失值119
5.5相关性121
5.6总结126
第6章进行探索性数据分析127
6.1概述127
6.2定义商业问题128
6.2.1问题识别129
6.2.2需求收集130
6.2.3数据管道和工作流130
6.2.4识别可测量的指标130
6.2.5文档和展示131
6.3将商业问题转化为可测量的度量标准和进行探索性数据分析(Exploratory Data Analysis, EDA)131
6.3.1数据采集132
6.3.2数据生成分析132
6.3.3KPI可视化133
6.3.4特征重要性133
6.4数据科学项目生命周期的结构化方法145
6.4.1第一阶段:理解和定义业务问题146
6.4.2第二阶段:数据访问与发现146
6.4.3第三阶段:数据工程和预处理147
6.4.4第四阶段:模型开发148
6.5总结149
第7章大数据分析中的再现性150
7.1概述150
7.2Jupyter Notebooks的再现性151
7.2.1业务问题介绍152
7.2.2记录方法和工作流程152
7.2.3数据管道153
7.2.4相关性153
7.2.5使用源代码版本控制153
7.2.6模块化过程154
7.3以可复制的方式收集数据154
7.3.1标记单元格和代码单元格中的功能155
7.3.2解释标记语言中的业务问题156
7.3.3提供数据源的详细介绍157
7.3.4解释标记中的数据属性157
7.4进行编码实践和标准编写162
7.4.1环境文件162
7.4.2编写带有注释的可读代码162
7.4.3工作流程的有效分割163
7.4.4工作流文档163
7.5避免重复167
7.5.1使用函数和循环优化代码168
7.5.2为代码/算法重用开发库/包169
7.6总结170
第8章创建完整的分析报告171
8.1概述171
8.2Spark可从不同的数据源读取数据172
8.3在Spark DataFrame上进行SQL操作173
8.4生成统计测量值181
8.5总结185
附录187
1.1概述1
1.2Python库和软件包2
1.2.1IPython:一个功能强大的交互式shell2
1.2.2Jupyter Notebook4
1.2.3使用IPython还是Jupyter8
1.2.4Numpy9
1.2.5Scipy10
1.2.6Matplotlib10
1.2.7Pandas11
1.3使用Pandas11
1.3.1读取数据12
1.3.2数据操作13
1.4数据类型转换21
1.5聚合和分组24
1.6从Pandas导出数据26
1.7Pandas可视化29
1.8总结31
第2章统计数据可视化33
2.1概述33
2.2可视化图表34
2.3图表的组件36
2.4Seaborn40
2.5图的类型41
2.5.1折线图(Line graph)42
2.5.2散点图(Scatter plot)45
2.5.3直方图(Histogram)48
2.5.4箱线图(Boxplot)51
2.6Pandas DataFrame54
2.7修改图的组件57
2.7.1配置轴对象的标题和标签57
2.7.2修改线条颜色和样式60
2.7.3修改图的大小60
2.8导出图像63
2.9总结67
第3章使用大数据框架69
3.1概述69
3.2Hadoop70
3.2.1使用HDFS操控数据71
3.3Spark数据处理平台73
3.3.1Spark SOL以及Pandas DataFrame75
3.4Parquet文件80
3.4.1编写Parquet文件81
3.4.2使用Parquet和Partitions提高分析性能82
3.5处理非结构化数据84
3.6总结87
第4章Spark DataFrame89
4.1概述89
4.2使用Spark DataFrame使用方法90
4.3从Spark DataFrame中写入输出94
4.4探索和了解Spark DataFrame更多特点95
4.5使用Spark DataFrame对数据进行相关操作98
4.6Spark DataFrame绘制图形106
4.7总结112
第5章处理缺失值以及相关性分析114
5.1概述114
5.2设置Jupyter Notebook115
5.3缺失值116
5.4处理Spark DataFrame中的缺失值119
5.5相关性121
5.6总结126
第6章进行探索性数据分析127
6.1概述127
6.2定义商业问题128
6.2.1问题识别129
6.2.2需求收集130
6.2.3数据管道和工作流130
6.2.4识别可测量的指标130
6.2.5文档和展示131
6.3将商业问题转化为可测量的度量标准和进行探索性数据分析(Exploratory Data Analysis, EDA)131
6.3.1数据采集132
6.3.2数据生成分析132
6.3.3KPI可视化133
6.3.4特征重要性133
6.4数据科学项目生命周期的结构化方法145
6.4.1第一阶段:理解和定义业务问题146
6.4.2第二阶段:数据访问与发现146
6.4.3第三阶段:数据工程和预处理147
6.4.4第四阶段:模型开发148
6.5总结149
第7章大数据分析中的再现性150
7.1概述150
7.2Jupyter Notebooks的再现性151
7.2.1业务问题介绍152
7.2.2记录方法和工作流程152
7.2.3数据管道153
7.2.4相关性153
7.2.5使用源代码版本控制153
7.2.6模块化过程154
7.3以可复制的方式收集数据154
7.3.1标记单元格和代码单元格中的功能155
7.3.2解释标记语言中的业务问题156
7.3.3提供数据源的详细介绍157
7.3.4解释标记中的数据属性157
7.4进行编码实践和标准编写162
7.4.1环境文件162
7.4.2编写带有注释的可读代码162
7.4.3工作流程的有效分割163
7.4.4工作流文档163
7.5避免重复167
7.5.1使用函数和循环优化代码168
7.5.2为代码/算法重用开发库/包169
7.6总结170
第8章创建完整的分析报告171
8.1概述171
8.2Spark可从不同的数据源读取数据172
8.3在Spark DataFrame上进行SQL操作173
8.4生成统计测量值181
8.5总结185
附录187
猜您喜欢