书籍详情

Python数据分析与数据化运营

Python数据分析与数据化运营

作者:宋天龙

出版社:机械工业出版社

出版时间:2017-12-01

ISBN:9787111584605

定价:¥99.00

购买这本书可以去
内容简介
  本书内容从逻辑上共分为两大部分,第壹部分是有关数据分析类的主题,第二部分是有关数据化运营的主题。第壹部分的内容包括1/2/3/4章和附录,主要介绍了Python和数据化运营的基本知识、数据来源获取、数据预处理以及数据分析和挖掘的关键经验。第二部分的内容包括5/6/7/8/9章的内容,分别介绍了会员运营、商品运营、流量运营和内容运营四个大主题,以及提升数据化运营价值度的方法。在每个数据化运营主题中都包含了基本知识、评估指标、应用场景、数据分析模型、数据分析小技巧、数据分析大实话以及2个应用案例。
作者简介
暂缺《Python数据分析与数据化运营》作者简介
目录
目录 Contents \n
赞誉 \n
前言 \n
第1章 Python和数据化运营1 \n
1.1 用Python做数据化运营1 \n
1.1.1 Python是什么1 \n
1.1.2 数据化运营是什么2 \n
1.1.3 Python用于数据化运营5 \n
1.2 数据化运营所需的Python相关工具和组件6 \n
1.2.1 Python程序6 \n
1.2.2 Python IDE7 \n
1.2.3 Python第三方库8 \n
1.2.4 数据库和客户端16 \n
1.2.5 SSH远程客户端18 \n
1.3 内容延伸:Python的OCR和TensorFlow18 \n
1.3.1 OCR工具:Tesseract-OCR18 \n
1.3.2 机器学习框架—TensorFlow19 \n
1.4 第一个用Python实现的数据化运营分析实例—销售预测20 \n
1.4.1 案例概述20 \n
1.4.2 案例过程20 \n
1.4.3 案例小结28 \n
1.5 本章小结28 \n
第2章 数据化运营的数据来源31 \n
2.1 数据化运营的数据来源类型31 \n
2.1.1 数据文件31 \n
2.1.2 数据库32 \n
2.1.3 API33 \n
2.1.4 流式数据34 \n
2.1.5 外部公开数据34 \n
2.1.6 其他35 \n
2.2 使用Python获取运营数据35 \n
2.2.1 从文本文件读取运营数据35 \n
2.2.2 从Excel获取运营数据46 \n
2.2.3 从关系型数据库MySQL读取运营数据48 \n
2.2.4 从非关系型数据库MongoDB读取运营数据56 \n
2.2.5 从API获取运营数据59 \n
2.3 内容延伸:读取非结构化网页、文本、图像、视频、语音64 \n
2.3.1 从网页中爬取运营数据64 \n
2.3.2 读取非结构化文本数据65 \n
2.3.3 读取图像数据65 \n
2.3.4 读取视频数据68 \n
2.3.5 读取语音数据70 \n
2.4 本章小结75 \n
第3章 11条数据化运营不得不知道的数据预处理经验76 \n
3.1 数据清洗:缺失值、异常值和重复值的处理76 \n
3.1.1 数据列缺失的4种处理方法76 \n
3.1.2 不要轻易抛弃异常数据78 \n
3.1.3  数据重复就需要去重吗79 \n
3.1.4 代码实操:Python数据清洗81 \n
3.2 将分类数据和顺序数据转换为标志变量89 \n
3.2.1 分类数据和顺序数据是什么89 \n
3.2.2 运用标志方法处理分类和顺序数据90 \n
3.2.3 代码实操:Python标志转换90 \n
3.3 大数据时代的数据降维94 \n
3.3.1 需要数据降维的情况94 \n
3.3.2 基于特征选择的降维94 \n
3.3.3 基于维度转换的降维96 \n
3.3.4 代码实操:Python数据降维97 \n
3.4 解决样本类别分布不均衡的问题100 \n
3.4.1 哪些运营场景中容易出现样本不均衡100 \n
3.4.2 通过过抽样和欠抽样解决样本不均衡101 \n
3.4.3 通过正负样本的惩罚权重解决样本不均衡101 \n
3.4.4 通过组合/集成方法解决样本不均衡102 \n
3.4.5 通过特征选择解决样本不均衡102 \n
3.4.6 代码实操:Python处理样本不均衡102 \n
3.5 如何解决运营数据源的冲突问题106 \n
3.5.1 为什么会出现多数据源的冲突107 \n
3.5.2 如何应对多数据源的冲突问题109 \n
3.6 数据化运营要抽样还是全量数据109 \n
3.6.1 什么时候需要抽样110 \n
3.6.2 如何进行抽样110 \n
3.6.3 抽样需要注意的几个问题111 \n
3.6.4 代码实操:Python数据抽样113 \n
3.7 解决运营数据的共线性问题116 \n
3.7.1 如何检验共线性117 \n
3.7.2 解决共线性的5种常用方法117 \n
3.7.3 代码实操:Python处理共线性问题118 \n
3.8 有关相关性分析的混沌120 \n
3.8.1 相关和因果是一回事吗120 \n
3.8.2 相关系数低就是不相关吗121 \n
3.8.3 代码实操:Python相关性分析121 \n
3.9 标准化,让运营数据落入相同的范围122 \n
3.9.1 实现中心化和正态分布的Z-Score122 \n
3.9.2 实现归一化的Max-Min123 \n
3.9.3 用于稀疏数据的MaxAbs123 \n
3.9.4 针对离群点的RobustScaler123 \n
3.9.5 代码实操:Python数据标准化处理123 \n
3.10 离散化,对运营数据做逻辑分层126 \n
3.10.1 针对时间数据的离散化127 \n
3.10.2 针对多值离散数据的离散化127 \n
3.10.3 针对连续数据的离散化127 \n
3.10.4 针对连续数据的二值化128 \n
3.10.5 代码实操:Python数据离散化处理128 \n
3.11 数据处理应该考虑哪些运营业务因素133 \n
3.11.1 考虑固定和突发运营周期133 \n
3.11.2 考虑运营需求的有效性134 \n
3.11.3 考虑交付时要贴合运营落地场景134 \n
3.11.4 不要忽视业务专家经验135 \n
3.11.5 考虑业务需求的变动因素136 \n
3.12 内容延伸:非结构化数据的预处理137 \n
3.12.1 网页数据解析137 \n
3.12.2 网络用户日志解析144 \n
3.12.3 图像的基本预处理148 \n
3.12.4 自然语言文本预处理154 \n
3.13 本章小结157 \n
第4章 跳过运营数据分析和挖掘的“大坑”159 \n
4.1 聚类分析159 \n
4.1.1 当心数据异常对聚类结果的影响160 \n
4.1.2 超大数据量时应该放弃K均值算法160 \n
4.1.3 聚类不仅是建模的终点,更是重要的中间预处理过程162 \n
4.1.4 高维数据上无法应用聚类吗163 \n
4.1.5 如何选择聚类分析算法164 \n
4.1.6 代码实操:Python聚类分析164 \n
4.2 回归分析172 \n
4.2.1 注意回归自变量之间的共线性问题172 \n
4.2.2 相关系数、判定系数和回归系数之间到底什么关系172 \n
4.2.3 判定系数是否意味着相应的因果联系173 \n
4.2.4 注意应用回归模型时研究自变量是否产生变化173 \n
4.2.5 如何选择回归分析算法174 \n
4.2.6 代码实操:Python回归分析174 \n
4.3 分类分析183 \n
4.3.1 防止分类模型的过拟合问题183 \n
4.3.2 使用关联算法做分类分析183 \n
4.3.3 用分类分析来提炼规则、提取变量、处理缺失值184 \n
4.3.4
猜您喜欢

读书导航