书籍详情

Python数据处理、分析、可视化与数据化运营

作者：宋天龙著

出版社：人民邮电出版社

出版时间：2020-08-01

ISBN：9787115527592

定价：¥49.80

购买这本书可以去

京东

¥41.70

内容简介

　　本书的编写主要围绕Python在企业中的数据分析工作实践，着眼于构建完整的数据分析框架、方法和技能的培养和训练。全书共10章，其中第1章和第2章介绍了进行Python数据分析的准备工作和Python基础知识；第3~9章介绍了数据对象的读写、数据清洗和预处理、数据可视化、基本数据统计分析和高级数据建模分析、自然语言理解和文本挖掘、数据分析部署和应用等完整工作技能和方法；第10章介绍了数据分析在数据化运营中的完整应用思路、维度和框架。本书内容深入浅出，均以企业真实需求引导学习，具有很强的实用性和操作性。本书可以作为普通高等院校本科、专科统计、商务分析、大数据等专业的课程教材，也可以作为从事数据分析工作的人员的参考用书。

作者简介

　　宋天龙（TonySong），历任Webtrekk中国区数据总监（Webtrekk，德国**的网站数据分析服务提供商），国美在线大数据中心经理，数据常青藤和数据研究与商业应用博主。萝卜课堂和天善学院特邀讲师，百度文库认证作家、36大数据、站长之家、互联网分析沙龙专栏作家。

第 1章认识Python 1
1．1　Python与数据分析　1
1．1．1　Python的概念　1
1．1．2　数据分析与Python　2
1．2　如何准备Python程序环境　2
1．2．1　如何安装Python程序　2
1．2．2　如何安装第三方库　3
1．3　Python数据分析库　5
1．3．1　Pandas　5
1．3．2　Scipy　5
1．3．3　Numpy　5
1．3．4　Scikit-Learn　6
1．3．5　Statsmodels　6
1．3．6　Gensim　6
1．4　Python交互环境Jupyter　6
1．4．1　启动Jupyter　7
1．4．2　Jupyter的功能区　7
1．4．3　Jupyter的常用操作　8
1．4．4　Jupyter的魔术命令　11
1．4．5　Jupyter的配置　13
1．5　执行第一个Python程序　14
1．6　新手常见误区　16
1．6．1随意升级库到最新版本　16
1．6．2纠结于使用Python2还是Python3　16
1．6．3　纠结于选择32位还是64位版本　16
实训：打印自己的名字　17
思考与练习　17
第　2章 Python语言基础　18
2．1　基础规则　18
2．1．1　Python解释器　18
2．1．2　编码声明　18
2．1．3　缩进和执行域　18
2．1．4　长语句断行　19
2．1．5　单行和多行注释　19
2．1．6　变量的命名和赋值规则　20
2．2　数据类型　20
2．2．1　数字型数据　21
2．2．2字符型数据　21
2．2．3　日期型数据　22
2．2．4　数据类型的判断与转换　22
2．3　数据结构　24
2．3．1　列表和列表推导式　24
2．3．2　元组和元组推导式　27
2．3．3　字典和字典推导式　28
2．3．4　集合和集合推导式　30
2．3．5　数据结构的判断与转换　32
2．4　条件表达式与判断　33
2．4．1　单层条件判断　33
2．4．2　嵌套条件判断　33
2．4．3　多条件判断中的and和or　34
2．4．4　多条件判断中的链式比较、all和any　34
2．4．5　基于条件表达式的赋值　35
2．5　循环和流程控制　35
2．5．1　for循环和条件表达式　35
2．5．2　while循环和条件表达式　36
2．5．3　循环嵌套　36
2．5．4　无限循环　36
2．5．5　break和continue控制　36
2．6　运算符　37
2．6．1　算术运算符　37
2．6．2　赋值运算符　38
2．6．3　比较运算符　39
2．6．4　逻辑运算符　39
2．6．5　成员运算符　39
2．6．6　身份运算符　40
2．6．7　运算符优先级　40
2．7　字符串处理和正则表达式　41
2．7．1　字符串格式化的3种方法　41
2．7．2　字符串的编译执行　43
2．7．3　内置字符串处理方法　44
2．7．4　正则表达式应用　46
2．8　功能模块的封装　49
2．8．1　函数　49
2．8．2　匿名函数　50
2．8．3　类　51
2．9　高阶计算函数的应用　53
2．9．1　map　53
2．9．2　reduce　53
2．9．3　filter　54
2．10　导入Python库　55
2．10．1　导入标准库和第三方库　55
2．10．2　导入自定义库　56
2．10．3　使用库的别名　56
2．10．4　不同库的导入顺序　57
2．11　Pandas库基础　57
2．11．1　创建数据对象　57
2．11．2　查看数据信息　58
2．11．3　数据切片和切块　59
2．11．4　数据筛选和过滤　60
2．11．5　数据预处理操作　61
2．11．6　数据合并和匹配　63
2．11．7　数据分类汇总　64
2．11．8　高级函数使用　64
2．12　新手常见误区　65
2．12．1　错误的缩进导致功能范围混乱　65
2．12．2　混淆赋值和条件判断符号　65
2．12．3　列表长度与初始索引、终止索引误用　66
2．12．4　表达式或功能缺少冒号　66
2．12．5　变量名的冲突问题　66
2．12．6　混淆int和round对浮点数的取整　67
实训：对列表中的元素按不同逻辑处理　67
思考与练习　68
第3章　数据对象的读写　69
3．1　目录与文件操作　69
3．1．1　获取目录信息　69
3．1．2　目录的基本操作　70
3．1．3　路径与目录的组合与拆分　72
3．1．4　目录的判断　72
3．1．5　遍历目录　73
3．1．6　文件的基本操作　74
3．2数据文件的读取与写入　75
3．2．1　读写普通文件　75
3．2．2　读写csv、txt、tsv等数据文件　79
3．2．3　读写Excel文件　83
3．2．4　读写JSON文件　86
3．2．5　读写XML文件　88
3．2．6　读写SPSS Statistics /SAS/Stata数据文件　90
3．2．7　读写R数据文件　94
3．3数据库的读取与写入　96
3．3．1读写结构化数据库MySQL　96
3．3．2读写非结构化数据库MongoDB　101
3．4　数据对象持久化　103
3．4．1使用pickle读写持久化对象　103
3．4．2使用sklearn读写持久化对象　104
3．5　新手常见误区　105
3．5．1　不注意工作路径导致无法找到文件　105
3．5．2　忽视不同操作系统下路径的表示方法问题　105
3．5．3　文件对象未正常关闭导致数据或程序异常　105
3．5．4　pickle读写对象无法执行read和write方法　106
3．5．5　默认读取的多段落数据末尾有\而不处理　106
3．5．6　文件write写入的对象不是字符串　107
实训：多条件数据库读写操作　107
思考与练习　108
第4章　数据清洗和预处理　109
4．1　数据审核　109
4．1．1　查看数据状态　109
4．1．2　审核数据类型　109
4．1．3　分析数据分布趋势　110
4．2　缺失值处理　111
4．2．1　查看缺失值记录　111
4．2．2　查看缺失值列　112
4．2．3　NA值处理　112
4．3　异常值处理　113
4．3．1　基于经验值的判断和选择　113
4．3．2　基于均值标准差的判断和选择　114
4．3．3　基于分位数的判断和选择　115
4．4　重复值处理　115
4．4．1　判断缺失值　116
4．4．2　去除重复值　116
4．5　数据抽样　116
4．5．1　随机抽样　116
4．5．2　分层抽样　116
4．6　数据格式与值变换　117
4．6．1　字符串转日期　117
4．6．2　提取日期和时间　118
4．6．3　提取时间元素　118
4．7　数据标准化和归一化　120
4．7．1　Z-SCORE数据标准化　120
4．7．2　MaxMin数据归一化　121
4．8　数据离散化和二元化　121
4．8．1　基于自定义区间的离散化　121
4．8．2　基于分位数法离散化　122
4．8．3　基于指定条件的二元化　122
4．9　分类特征处理　123
4．9．1　分类特征转数值索引　123
4．9．2　OneHotencode 转换　124
4．10　特征选择　124
4．11　分词　125
4．12　文本转向量　127
4．13　新手常见误区　127
4．13．1　没有先做NA值处理导致后续清洗工作频繁报错　127
4．13．2　直接抛弃异常值　128
4．13．3　用数值索引代替分类字符串参与模型计算　128
4．13．4　使用分位数法离散化并做不同周期的数据对比　128
4．13．5　把抽样当作一个必备工作环节　129
实训：综合性数据预处理　129
思考与练习　130
第5章　数据可视化　131
5．1　可视化应用概述　131
5．1．1　常用数据可视化库　131
5．1．2　如何选择恰当的可视化方式　132
5．2　简单数据信息的可视化　133
5．2．1　使用条形图和柱形图表达数据差异　134
5．2．2　使用折线图和柱形图展示趋势　136
5．2．3　使用饼图和面积图展示成分或结构信息　138
5．2．4　使用散点图或蜂窝图展示数据间关系　141
5．3　复杂数据信息的可视化　142
5．3．1　使用成对关系图对多组数据同时做关系可视化　142
5．3．2　使用带回归拟合线的散点图做回归拟合的可视化　143
5．3．3　使用热力图做相关关系可视化　144
5．3．4　使用日历图展示不同时间下的销售分布　145
5．3．5　使用箱型图和散点图查看数据分布规律　146
5．3．6　使用分类柱形图展示多个维度细分值分布　147
5．3．7　使用等高线绘制核密度分布　148
5．3．8　使用坡度图绘制数据变化差异　149
5．3．9　使用漏斗图展示不同转化环节的完成情况　150
5．3．10　使用关系图展示不同元素见的关联关系　151
5．3．11　使用雷达图展示多个元素在不同属性上的差异　153
5．3．12　用词云展示关键字分布　154
5．4　新手常见误区　155
5．4．1　没有明确的可视化目标　155
5．4．2　通过特殊图形设置误导受众　156
5．4．3　选择过于“花哨”的图形却忽略了可视化的本质　156
5．4．4　缺乏根据信息表达目标选择“最佳”图形的意识　156
5．4．5　信息过载　156
实训：综合性数据可视化　157
思考与练习　157
第6章　基本数据统计分析　159
6．1　描述性统计分析　159
6．1．1　通用描述信息　160
6．1．2　集中性趋势　161
6．1．3　离散性趋势　162
6．2　交叉对比和趋势分析　163
6．2．1　交叉对比分析　163
6．2．2　交叉趋势分析　164
6．3　结构与贡献分析　165
6．3．1　占比分析　166
6．3．2　二八法则分析　166
6．3．3　ABC分析法　168
6．3．4　长尾分析　170
6．4　分组与聚合分析　171
6．4．1　使用分位数聚合分析　171
6．4．2　基于均值和标准差的聚合分析　172
6．5　相关性分析　173
6．5．1　Pearson相关性分析　173
6．5．2　Spearman相关性分析　174
6．5．3　Kendall相关性分析　175
6．6　主成分分析与因子分析　175
6．6．1　主成分分析　176
6．6．2　因子分析　177
6．7　漏斗、路径与归因分析　178
6．7．1　漏斗分析　178
6．7．2　路径分析　179
6．7．3　归因分析　179
6．8　新手常见误区　181
6．8．1　把数据陈述当作数据结论　181
6．8．2　通过单一指标得出数据结论　181
6．8．3　注重分析过程但没有分析结论　182
6．8．4　忽视数据分析的落地性　182
实训：基本数据统计分析思维训练　182
思考与练习　183
第7章　高级数据建模分析　184
7．1使用KMeans聚类算法挖掘用户潜在特征　184
7．1．1　算法引言　184
7．1．2　案例背景　185
7．1．3　数据源概述　185
7．1．4　案例过程　185
7．1．5　用户特征分析　189
7．2　使用CART预测用户是否会产生转化　189
7．2．1　算法引言　189
7．2．2　案例背景　190
7．2．3　数据源概述　190
7．2．4　案例过程　191
7．2．5　分析用户的转化可能性　194
7．3　使用主成分分析+岭回归预测广告UV量　195
7．3．1　算法引言　195
7．3．2　案例背景　196
7．3．3　数据源概述　196
7．3．4　案例过程　196
7．3．5　获得广告UV量　200
7．3．6　拓展思考　201
7．4　使用Apriori关联分析提高商品销量　201
7．4．1　算法引言　201
7．4．2　案例背景　202
7．4．3　数据源概述　202
7．4．4　案例过程　202
7．4．5　通过关联分析结果提高销量　207
7．5　使用Prefixspan序列关联找到用户下一个访问页面　207
7．5．1　算法引言　207
7．5．2　案例背景　208
7．5．3　数据源概述　208
7．5．4　案例过程　208
7．5．5　通过序列模式引导用户页面访问行为　212
7．5．6　拓展思考　213
7．6　使用auto ARIMA时间序列预测线下门店销量　213
7．6．1　算法引言　213
7．6．2　案例背景　214
7．6．3　数据源概述　214
7．6．4　案例过程　215
7．6．5　得到未来7天的销售量　220
7．7　使用IsolationForest异常检测找到异常广告流量　220
7．7．1　算法引言　220
7．7．2　案例背景　221
7．7．3　数据源概述　222
7．7．4　案例过程　224
7．7．5　分析异常检测结果　227
7．8　新手常见误区　229
7．8．1　认为某种算法适用于所有应用场景　229
7．8．2　并不是模型拟合程度越高效果越好　230
7．8．3　应用回归模型时忽略自变量是否产生变化　230
7．8．4　关联分析可以跨维度做分析　231
7．8．5　很多时候模型得到的异常未必是真的异常　231
实训　231
实训1　预测用户是否流失　231
实训2　预测目标用户的总订单金额　232
实训3　找到整体用户频繁购买的商品　233
思考与练习　233
第8章　自然语言理解和文本挖掘　234
8．1　使用结巴分词提取用户评论关键字　234
8．1．1　算法引言　234
8．1．2　案例背景　235
8．1．3　数据源概述　235
8．1．4　案例过程　235
8．1．5　分析用户评论关键字　238
8．2　使用LDA主题模型做新闻主题分析　239
8．2．1　算法引言　239
8．2．2　案例背景　240
8．2．3　数据源概述　240
8．2．4　案例过程　240
8．2．5　分析主题结果　242
8．3　使用随机森林预测用户评分倾向　244
8．3．1　算法引言　244
8．3．2　案例背景　245
8．3．3　数据源概述　245
8．3．4　案例过程　245
8．3．5　预测新用户的评分　248
8．4　使用TextRank自动生成文章摘要和关键短语　249
8．4．1　算法引言　249
8．4．2　案例背景　250
8．4．3　数据源概述　250
8．4．4　案例过程　250
8．5　新手常见误区　252
8．5．1　混淆中文分词与英文分词引擎　252
8．5．2　只用词频计算词的重要性　252
8．5．3　忽略文本预处理环节　253
实训：提取关键字、关键短语和摘要信息　253
思考与练习　254
第9章　数据分析部署和应用　255
9．1　批量合并数据文件　255
9．1．1　应用背景　255
9．1．2　工作需求　255
9．1．3　实现过程　256
9．2　从数据库中抽取数据并生成结果文件　259
9．2．1　应用背景　259
9．2．2　工作需求　260
9．2．3　实现过程　260
9．3　发送普通Email并附带数据文件　264
9．3．1　应用背景　264
9．3．2　工作需求　264
9．3．3　实现过程　265
9．4　发送HTML富媒体样式的邮件　269
9．4．1　应用背景　269
9．4．2　工作需求　269
9．4．3　实现过程　269
9．5　系统自动执行Python脚本和数据任务　272
9．5．1　应用背景　272
9．5．2　工作需求　272
9．5．3　实现过程　272
9．6　新手常见误区　277
9．6．1　不注重自动化的工作方式　277
9．6．2　数据输出物的美观度也是一种数据价值　278
9．6．3　缺乏对自动化作业任务的监控　278
实训：将日常发送邮件工作自动化　278
思考与练习　279
第　10章数据分析与数据化运营　280
10．1　数据报告矩阵　280
10．1．1　临时分析　280
10．1．2　实时分析　280
10．1．3　日常报告　281
10．1．4　专题分析　282
10．1．5　项目分析　282
10．2　分析指标矩阵　283
10．2．1　会员运营　283
10．2．2　商品运营　284
10．2．3　广告运营　285
10．2．4　网站运营　286
10．3　探索维度矩阵　286
10．3．1　目标端　286
10．3．2　媒体端　287
10．3．3　用户端　288
10．3．4　网站端　289
10．3．5　竞争端　289
10．4　应用场景矩阵　290
10．4．1　效果预测　290
10．4．2　结论定义　290
10．4．3　数据探究　291
10．4．4　业务执行　291
10．5　新手常见误区　292
10．5．1　把数据陈列当作数据结论　292
10．5．2　数据结论产生于单一指标　292
10．5．3　由数据立场扭曲的数据结论　293
10．5．4　忽视多种数据落地方式　293
实训：搭建针对企业的数据化运营应用体系　294
思考与练习　294

猜您喜欢

搜索架构之道

设计模式

软件测试导论