书籍详情
Python数据分析与数据化运营(第2版)
作者:宋天龙 著
出版社:机械工业出版社
出版时间:2019-07-01
ISBN:9787111627760
定价:¥129.00
购买这本书可以去
内容简介
这是一本将数据分析技术与数据使用场景深度结合的著作,从实战角度讲解了如何利用Python进行数据分析和数据化运营。 畅销书全新、大幅升级,第1版近乎100%的好评,第2版不仅将Python升级到了新的版本,而且对具体内容进行了大幅度的补充和优化。作者是有10余年数据分析与数据化运营的资深大数据专家,书中对50余个数据工作流知识点、14个数据分析与挖掘主题、4个数据化运营主题、8个综合性案例进行了全面的讲解,能让数据化运营结合数据使用场景360°落地。 全书一共9章,分为两个部分: 第一部分(第1-4章) Python数据分析与挖掘 首先介绍了Python和数据化运营的基本知识,然后详细讲解了Python数据获取(结构化和非结构化)、预处理、分析和挖掘的关键技术和经验,包含10大类预处理经验、14个数据分析与挖掘主题,50余个知识点。 第二部分(第5~9章) Python数据化运营 这是本书的核心,详细讲解了会员运营、商品运营、流量运营和内容运营4大主题,以及提升数据化运营价值的方法。每个运营主题中都包含了基本知识、评估指标、应用场景、数据分析模型、数据分析小技巧、数据分析大实话以及2个综合性的应用案例。
作者简介
宋天龙(TonySong) 大数据技术专家,触脉咨询合伙人兼副总裁,前Webtrekk中国区技术和咨询负责人(Webtrekk,德国的在线数据分析服务提供商)。 擅长数据挖掘、建模、分析与运营,精通端到端数据价值场景设计、业务需求转换、数据结构梳理、数据建模与学习以及数据工程交付。在电子商务、零售、银行、保险等多个行业拥有丰富的数据项目工作经验,参与过集团和企业级数据体系规划、DMP与数据仓库建设、大数据产品开发、网站流量系统建设、个性化智能推荐与精准营销、企业大数据智能等。参与实施客户案例包括联合利华、Webpower、德国OTTO集团电子商务(中国)、Esprit中国、猪八戒网、顺丰优选、乐视商城、泰康人寿、酒仙网、国美在线、迪信通等。 著有多部畅销书: 《Python数据分析与数据化运营》 《网站数据挖掘与分析:系统方法与商业实践》 《企业大数据系统构建实战:技术、架构、实施与应用》
目录
前言
第1章 Python和数据化运营1
1.1 用Python做数据化运营1
1.1.1 Python是什么1
1.1.2 数据化运营是什么2
1.1.3 Python用于数据化运营5
1.2 数据化运营所需的Python相关工具和组件5
1.2.1 Python程序6
1.2.2 Python交互环境Jupyter7
1.2.3 Python第三方库23
1.2.4 数据库和客户端29
1.2.5 SSH远程客户端30
1.3 内容延伸:Python的OCR和tensorflow31
1.3.1 OCR工具:Tesseract-ocr31
1.3.2 机器学习框架:TensorFlow31
1.4 第1个用Python实现的数据化运营分析实例、销售预测32
1.4.1 案例概述32
1.4.2 案例过程32
1.4.3 案例小结36
1.5 本章小结37
第2章 数据化运营的数据来源40
2.1 数据化运营的数据来源类型40
2.1.1 数据文件40
2.1.2 数据库41
2.1.3 API42
2.1.4 流式数据43
2.1.5 外部公开数据43
2.1.6 其他来源44
2.2 使用Python获取运营数据44
2.2.1 从文本文件读取运营数据44
2.2.2 从Excel获取运营数据55
2.2.3 从关系型数据库MySQL读取运营数据57
2.2.4 从非关系型数据库MongoDB读取运营数据64
2.2.5 从API获取运营数据68
2.3 内容延伸:读取非结构化网页、文本、图像、视频、语音72
2.3.1 从网页中获取运营数据72
2.3.2 读取非结构化文本数据73
2.3.3 读取图像数据74
2.3.4 读取视频数据78
2.3.5 读取语音数据81
2.4 本章小结85
第3章 10条数据化运营不得不知道的数据预处理经验87
3.1 数据清洗:缺失值、异常值和重复值的处理87
3.1.1 数据列缺失的4种处理方法87
3.1.2 不要轻易抛弃异常数据89
3.1.3 数据重复就需要去重吗90
3.1.4 代码实操:Python数据清洗92
3.2 将分类数据和顺序数据转换为标志变量100
3.2.1 分类数据和顺序数据是什么100
3.2.2 运用标志方法处理分类和顺序变量101
3.2.3 代码实操:Python标志转换101
3.3 大数据时代的数据降维104
3.3.1 需要数据降维的情况104
3.3.2 基于特征选择的降维105
3.3.3 基于特征转换的降维106
3.3.4 基于特征组合的降维112
3.3.5 代码实操:Python数据降维114
3.4 解决样本类别分布不均衡的问题123
3.4.1 哪些运营场景中容易出现样本不均衡124
3.4.2 通过过抽样和欠抽样解决样本不均衡124
3.4.3 通过正负样本的惩罚权重解决样本不均衡124
3.4.4 通过组合/集成方法解决样本不均衡125
3.4.5 通过特征选择解决样本不均衡125
3.4.6 代码实操:Python处理样本不均衡125
3.5 数据化运营要抽样还是全量数据128
3.5.1 什么时候需要抽样128
3.5.2 如何进行抽样129
3.5.3 抽样需要注意的几个问题130
3.5.4 代码实操:Python数据抽样131
3.6 解决运营数据的共线性问题135
3.6.1 如何检验共线性135
3.6.2 解决共线性的5种常用方法136
3.6.3 代码实操:Python处理共线性问题137
3.7 有关相关性分析的混沌139
3.7.1 相关和因果是一回事吗139
3.7.2 相关系数低就是不相关吗139
3.7.3 代码实操:Python相关性分析140
3.8 标准化,让运营数据落入相同的范围141
3.8.1 实现中心化和正态分布的Z-Score141
3.8.2 实现归一化的Max-Min142
3.8.3 用于稀疏数据的MaxAbs142
3.8.4 针对离群点的RobustScaler142
3.8.5 代码实操:Python数据标准化处理142
3.9 离散化,对运营数据做逻辑分层145
3.9.1 针对时间数据的离散化145
3.9.2 针对多值离散数据的离散化146
3.9.3 针对连续数据的离散化146
3.9.4 针对连续数据的二值化147
3.9.5 代码实操:Python数据离散化处理147
3.10 内容延伸:非结构化数据的预处理151
3.10.1 网页数据解析151
3.10.2 网络用户日志解析159
3.10.3 图像的基本预处理164
3.10.4 自然语言文本预处理169
3.11 本章小结172
第4章 跳过运营数据分析和挖掘的“大坑”174
4.1 聚类分析174
4.1.1 当心数据异常对聚类结果的影响175
4.1.2 超大数据量时应该放弃K均值算法175
4.1.3 聚类不仅是建模的终点,更是重要的中间预处理过程177
4.1.4 高维数据上无法应用聚类吗178
4.1.5 如何选择聚类分析算法179
4.1.6 案例:客户特征的聚类与探索性分析179
4.2 回归分析196
4.2.1 注意回归自变量之间的共线性问题197
4.2.2 相关系数、判定系数和回归系数之间是什么关系197
4.2.3 判定系数是否意味着相应的因果联系197
4.2.4 注意应用回归模型时研究自变量是否产生变化198
4.2.5 如何选择回归分析算法198
4.2.6 案例:大型促销活动前的销售预测199
4.3 分类分析206
4.3.1 防止分类模型的过拟合问题207
4.3.2 使用关联算法做分类分析207
4.3.3 用分类分析来提炼规则、提取变量、处理缺失值208
4.3.4 类别划分:分类算法和聚类算法都是好手209
4.3.5 如何选择分类分析算法210
4.3.6 案例:用户流失预测分析与应用210
4.4 关联分析221
4.4.1 频繁规则不一定是有效规则221
4.4.2 不要被啤酒尿布的故事禁锢你的思维222
4.4.3 被忽略的“负相关”模式真的毫无用武之地吗223
4.4.4 频繁规则只能打包组合应用吗2
第1章 Python和数据化运营1
1.1 用Python做数据化运营1
1.1.1 Python是什么1
1.1.2 数据化运营是什么2
1.1.3 Python用于数据化运营5
1.2 数据化运营所需的Python相关工具和组件5
1.2.1 Python程序6
1.2.2 Python交互环境Jupyter7
1.2.3 Python第三方库23
1.2.4 数据库和客户端29
1.2.5 SSH远程客户端30
1.3 内容延伸:Python的OCR和tensorflow31
1.3.1 OCR工具:Tesseract-ocr31
1.3.2 机器学习框架:TensorFlow31
1.4 第1个用Python实现的数据化运营分析实例、销售预测32
1.4.1 案例概述32
1.4.2 案例过程32
1.4.3 案例小结36
1.5 本章小结37
第2章 数据化运营的数据来源40
2.1 数据化运营的数据来源类型40
2.1.1 数据文件40
2.1.2 数据库41
2.1.3 API42
2.1.4 流式数据43
2.1.5 外部公开数据43
2.1.6 其他来源44
2.2 使用Python获取运营数据44
2.2.1 从文本文件读取运营数据44
2.2.2 从Excel获取运营数据55
2.2.3 从关系型数据库MySQL读取运营数据57
2.2.4 从非关系型数据库MongoDB读取运营数据64
2.2.5 从API获取运营数据68
2.3 内容延伸:读取非结构化网页、文本、图像、视频、语音72
2.3.1 从网页中获取运营数据72
2.3.2 读取非结构化文本数据73
2.3.3 读取图像数据74
2.3.4 读取视频数据78
2.3.5 读取语音数据81
2.4 本章小结85
第3章 10条数据化运营不得不知道的数据预处理经验87
3.1 数据清洗:缺失值、异常值和重复值的处理87
3.1.1 数据列缺失的4种处理方法87
3.1.2 不要轻易抛弃异常数据89
3.1.3 数据重复就需要去重吗90
3.1.4 代码实操:Python数据清洗92
3.2 将分类数据和顺序数据转换为标志变量100
3.2.1 分类数据和顺序数据是什么100
3.2.2 运用标志方法处理分类和顺序变量101
3.2.3 代码实操:Python标志转换101
3.3 大数据时代的数据降维104
3.3.1 需要数据降维的情况104
3.3.2 基于特征选择的降维105
3.3.3 基于特征转换的降维106
3.3.4 基于特征组合的降维112
3.3.5 代码实操:Python数据降维114
3.4 解决样本类别分布不均衡的问题123
3.4.1 哪些运营场景中容易出现样本不均衡124
3.4.2 通过过抽样和欠抽样解决样本不均衡124
3.4.3 通过正负样本的惩罚权重解决样本不均衡124
3.4.4 通过组合/集成方法解决样本不均衡125
3.4.5 通过特征选择解决样本不均衡125
3.4.6 代码实操:Python处理样本不均衡125
3.5 数据化运营要抽样还是全量数据128
3.5.1 什么时候需要抽样128
3.5.2 如何进行抽样129
3.5.3 抽样需要注意的几个问题130
3.5.4 代码实操:Python数据抽样131
3.6 解决运营数据的共线性问题135
3.6.1 如何检验共线性135
3.6.2 解决共线性的5种常用方法136
3.6.3 代码实操:Python处理共线性问题137
3.7 有关相关性分析的混沌139
3.7.1 相关和因果是一回事吗139
3.7.2 相关系数低就是不相关吗139
3.7.3 代码实操:Python相关性分析140
3.8 标准化,让运营数据落入相同的范围141
3.8.1 实现中心化和正态分布的Z-Score141
3.8.2 实现归一化的Max-Min142
3.8.3 用于稀疏数据的MaxAbs142
3.8.4 针对离群点的RobustScaler142
3.8.5 代码实操:Python数据标准化处理142
3.9 离散化,对运营数据做逻辑分层145
3.9.1 针对时间数据的离散化145
3.9.2 针对多值离散数据的离散化146
3.9.3 针对连续数据的离散化146
3.9.4 针对连续数据的二值化147
3.9.5 代码实操:Python数据离散化处理147
3.10 内容延伸:非结构化数据的预处理151
3.10.1 网页数据解析151
3.10.2 网络用户日志解析159
3.10.3 图像的基本预处理164
3.10.4 自然语言文本预处理169
3.11 本章小结172
第4章 跳过运营数据分析和挖掘的“大坑”174
4.1 聚类分析174
4.1.1 当心数据异常对聚类结果的影响175
4.1.2 超大数据量时应该放弃K均值算法175
4.1.3 聚类不仅是建模的终点,更是重要的中间预处理过程177
4.1.4 高维数据上无法应用聚类吗178
4.1.5 如何选择聚类分析算法179
4.1.6 案例:客户特征的聚类与探索性分析179
4.2 回归分析196
4.2.1 注意回归自变量之间的共线性问题197
4.2.2 相关系数、判定系数和回归系数之间是什么关系197
4.2.3 判定系数是否意味着相应的因果联系197
4.2.4 注意应用回归模型时研究自变量是否产生变化198
4.2.5 如何选择回归分析算法198
4.2.6 案例:大型促销活动前的销售预测199
4.3 分类分析206
4.3.1 防止分类模型的过拟合问题207
4.3.2 使用关联算法做分类分析207
4.3.3 用分类分析来提炼规则、提取变量、处理缺失值208
4.3.4 类别划分:分类算法和聚类算法都是好手209
4.3.5 如何选择分类分析算法210
4.3.6 案例:用户流失预测分析与应用210
4.4 关联分析221
4.4.1 频繁规则不一定是有效规则221
4.4.2 不要被啤酒尿布的故事禁锢你的思维222
4.4.3 被忽略的“负相关”模式真的毫无用武之地吗223
4.4.4 频繁规则只能打包组合应用吗2
猜您喜欢