书籍详情

Python预测分析与机器学习

作者：王沁晨

出版社：清华大学出版社

出版时间：2022-05-01

ISBN：9787302592549

定价：¥89.00

购买这本书可以去

内容简介

　　本书从理解问题定义、了解数据内的高层信息、数据清理、视化数据，到基础建模、模型优化，分享一个数据分析师的视角与思路。在预测分析的流程中，一步步用详细的图文代码讲解使用到的库，如何正确使用各个库中的方法和函数，以及在遇到类似的问题时如何套用学过的知识。本书共8章。第1章对预测分析的流程进行一个高层次的概述。第2章介绍本书需要安装使用的库，并讲解数据清理步骤的执行。第3章讲解基础建模需考虑的细节，结合第4章的模型选择，可以搭建一个基础的预测管道。第5章和第6章分别从模型和数据的角度讲解如何优化预测表现。第7章讲解时间序列这一特殊数据的预测方法。后，第8章总结全书学习到的内容，解决一个实战问题。本书面向3类读者。第1类，有编程基础但毫无数据科学背景，有意入门的读者；第2类，有数据科学理论基础，有意进入实操的读者，如刚毕业没有业界经验的学生；第3类，有数据科学理论基础与实操经验，但日常工作集中在数据分析管道中的数据分析师。

作者简介

　　王沁晨，多伦多大学圣乔治校区计算机专业，曾在加拿大零售企业Loblaw Companies担任机器学习数据分析师，从公司传统的大型数据库中筛选有效信息、清理数据、人工数据挖掘、视化，到基础建模、模型优化、数据再筛选，再到结合商业需求创造扩展性强的实用管线，让项目从理论性的头脑风暴变现为商业价值。

第1章预测分析与机器学习的实用价值
1．1人工智能、机器学习与数据分析的关系
1．2什么是预测分析
1．3预测分析在各行业中的应用
1．4预测分析流程概览
1．5小结
第2章数据清理
2．1建立编程环境
2．1．1Anaconda简介及安装
2．1．2Jupyter Notebook 简介及安装
2．1．3Pandas简介及安装
2．1．4scikitlearn 简介及安装
2．1．5XGBoost、LightGBM、CatBoost简介及安装
2．1．6TensorFlow简介及安装
2．2面对异构数据如何下手
2．2．1什么是异构数据
2．2．2如何处理异构数据
2．3数据误差
2．3．1各类数据误差及其影响
2．3．2如何处理数据误差
2．4数据重新格式化
第3章基础建模
3．1判断何为X和y
3．1．1X和y的定义
3．1．2X和y的选择对预测的影响
3．2训练集、验证集与测试集
3．2．1三者的定义及关系
3．2．2如何使用sklearn分离3个集
3．2．3如何使用Pandas手动分离3个集
3．3数据泄露
3．3．1不同类型的数据泄露
3．3．2发现并避免目标泄露
3．3．3避免训练集与测试集的相互污染
3．4偏差与方差
3．4．1定义偏差与方差
3．4．2过拟合与欠拟合
3．4．3实践中的过拟合与欠拟合
3．5小结

第4章模型选择
4．1朴素贝叶斯分类器
4．2关联规则算法
4．3K近邻算法
4．4K均值聚类算法
4．5回归算法
4．5．1线性回归
4．5．2罗吉斯蒂回归
4．6深度神经网络
4．7决策树
4．8森林算法
4．8．1随机森林
4．8．2随机树
4．8．3孤立森林
4．9提升方法
4．9．1Adaboost
4．9．2XGBoost和LightGBM
4．9．3CatBoost
第5章模型优化
5．1损失函数和衡量指标
5．1．1分类问题的衡量指标
5．1．2回归问题的衡量指标
5．1．3损失函数
5．2K折交叉验证
5．3超参数调试
5．3．1网格搜索法
5．3．2随机搜索法
5．3．3遗传算法
5．4函数正则化
第6章数据优化
6．1数据规范化
6．2异常值清理
6．3平滑法
6．4聚类
6．5特征工程
第7章时间序列
7．1时间序列简介
7．2时间序列数据探索
7．2．1加法模型下的可视化图
7．2．2乘法模型下的部分可视化图
7．3时间序列特征提取
7．3．1时间特征
7．3．2滞后特征
7．3．3基于移动窗口的特征
7．3．4基于展开窗口的特征
7．4时间序列模型
7．4．1自回归模型
7．4．2滑动平均模型
7．4．3整合移动平均自回归模型
7．4．4季节性整合移动平均自回归模型
第8章实战
8．1M5预测分析比赛介绍
8．1．1数据介绍
8．1．2评估标准
8．2数据清理
8．3基础建模
8．4优化

猜您喜欢

Scratch少儿编程一本通

工业互联网标识解析技术及应用

ArkTS鸿蒙应用开发入门到实战