书籍详情
工业大数据分析算法实战
作者:田春华 著
出版社:机械工业出版社
出版时间:2022-10-01
ISBN:9787111709619
定价:¥158.00
购买这本书可以去
内容简介
《工业大数据分析算法实践》以工业大数据的特点和需求为牵引,阐述了工业大数据分析的算法与实现机制,使具有工科背景读者建立起数据思维,灵活利用数据分析算法进行实际问题的建模,并实现分析项目高效迭代与落地。具体主题覆盖了工业大数据分析工程思维和软件栈,工业数据的数据探索,预处理方法和常用机器学习算法,故障诊断、质量优化、流程优化的分析算法,专家规则驱动方法,以及工业数据分析工程等内容。《工业大数据分析算法实践》分10章,可划分为四个部分。第一部分(第1章)是数据分析概览,目的是建立起数据分析算法的概念框架,并给出学习路线。第2~5章是第二部分,侧重在通用数据分析算法,包括数据预处理、机器学习、时序挖掘算法和*优化等其他算法。第三部分包括第6~8章,讨论了工业分析的算法思路,覆盖了生产质量分析(PQM)、生产效率优化(PEM)等典型分析课题的算法组合套路。第四部分侧重在分析工程方法,第9章讨论了工业专家知识沉淀方法,第10章讨论了数据分析的软件工程。《工业大数据分析算法实践》适合工业大数据分析从业者、工业企业研发技术人员、工业互联网企业数据分析师阅读,也可作为上述人员的培训教材和相关专业师生的参考书。
作者简介
田春华 博士,北京工业大数据创新中心首席数据科学家,清华大学工业大数据研究中心,首席数据科学家;曾任IBM中国研究院研究经理,IEEE、INFORMS、ACM等学术组织及国际学术会议分会主席、执行委员、国际学术期刊审稿人。长期负责数据挖掘算法研究和产品工作,在高端装备制造、石油石化、新能源、航空与港口等行业,帮助几十家国内外领先企业成功实施资产管理、运营优化、营销洞察等数据分析项目。参与了多个工业大数据相关标准的制定工作、白皮书的编写工作、竞赛支持工作。发表论文近百篇,拥有40余项国际国内发明专利授权。
目录
目录
丛书序一
丛书序二
前言
第1章工业大数据分析概览
1.1工业大数据分析的范畴与特点
1.1.1数据分析的范畴
1.1.2典型分析主题
1.1.3工业数据分析的特点
1.1.4数据分析的典型手段
1.2数据挖掘的过程方法
1.2.1CRISP-DM简介
1.2.2分析课题的执行路径
1.3数据分析工具软件
1.3.1脚本语言软件
1.3.2图形化桌面软件
1.3.3云端分析软件
1.4工业大数据分析师的算法修养
1.4.1分析算法理解的维度与路径
1.4.2必读图书
1.4.3分析算法背后的朴素思想
1.4.4工程化思维
参考文献
第2章数据预处理
2.1数据操作基础
2.1.1数据框的基本操作
2.1.2数据可视化
2.2数据分析的数据操作技巧
2.2.1cumsum等primitive函数的利用:避免循环
2.2.2带时间戳的数据框合并
2.2.3时序数据可视化:多个子图共用一个x轴
2.2.4时序数据可视化:NA用来间隔显示时序
2.2.5参数区间的对比显示(在概率密度图上)
2.2.6获取R文件的所在路径
2.2.7分段线性回归如何通过lm()实现
2.3探索型数据分析(EDA)
2.3.1引言
2.3.2R语言EDA包
2.3.3其他工具包
2.3.4小结
2.4数据质量问题
2.4.1数据的业务化
2.4.2业务的数据化
2.4.3机理演绎法
2.4.4细致求实的基本素养
2.4.5小结
2.5特征提取
2.5.1基于数据类型的特征提取
2.5.2基于关联关系的特征自动生成
2.5.3基于语法树的变量间组合特征生成
2.6特征选择
2.6.1特征选择的框架
2.6.2搜索策略
2.6.3子集评价
2.6.4小结
参考文献
第3章机器学习算法
3.1统计分析
3.1.1概率分布
3.1.2参数估计
3.1.3假设检验
3.2统计分布拟合
3.2.1引言
3.2.2基于核函数的非参数方法
3.2.3单概率分布的参数化拟合
3.2.4混合概率分布估计
3.2.5小结
3.3线性回归模型
3.3.1引言
3.3.2基础线性回归模型——OLS模型
3.3.3OLS模型检验
3.3.4鲁棒线性回归
3.3.5结构复杂度惩罚(正则化)
3.3.6扩展
3.4多元自适应回归样条(MARS)
3.4.1引言
3.4.2前向计算过程
3.4.3后剪枝过程
3.4.4变量重要性评价
3.4.5MARS与其他算法的关系
3.5神经网络
3.5.1ANN逼近能力的直观理解
3.5.2极限学习机
3.6决策树
3.6.1决策树的概念
3.6.2决策树构建过程
3.6.3常用决策树算法
3.7支持向量机(SVM)
3.7.1引言
3.7.2epsilon-SVR算法
3.7.3nu-SVR算法
3.7.4不同SVM算法包的差异
3.7.5扩展
3.8隐马尔可夫模型
3.8.1引言
3.8.2工作原理
3.8.3示例
3.8.4讨论
3.9概率图模型与贝叶斯方法
3.9.1引言
3.9.2朴素贝叶斯
3.9.3贝叶斯网络
3.9.4一般图模型
3.9.5讨论与扩展阅读
3.10集成学习
3.10.1引言
3.10.2Bagging方法
3.10.3Boosting方法
3.10.4Stacking方法
3.11模型评价
3.11.1引言
3.11.2评价指标
3.11.3评价方法
3.11.4特征重要度
3.12聚类
3.12.1引言
3.12.2基于距离的聚类:K-means、PAM
3.12.3基于层次的聚类:Hclust
3.12.4基于密度的聚类:DBSCAN
3.12.5基于分布的聚类:GMM
3.12.6聚类结果的评价
3.13关联规则
3.13.1引言
3.13.2关联规则概念与度量指标
3.13.3关联规则实现过程
3.13.4关联规则算法
3.13.5关联规则可视化
3.13.6关联规则评价
3.14深度学习
3.14.1引言
3.14.2深度学习算法分类
3.14.3深度学习框架
3.14.4常见疑惑
3.14.5深度学习算法的加速
3.15机器学习算法的其他视角
3.15.1计算负载模式
3.15.2并行化计算
3.15.3新计算范式
参考文献
第4章时序数据挖掘算法
4.1时序算法简介
4.2信号处理算法
4.2.1傅里叶变换的直观理解
4.2.2时频分析
4.2.3时序变换
4.2.4压缩感知
4.3时序分解
4.3.1STL
4.3.2奇异谱分析
4.3.3EMD及扩展方法
4.4时序分割
4.4.1Changepoint
4.4.2TreeSplit
4.4.3Autoplait
4.4.4应用示例
4.5时序再表征
4.6序列模式挖掘
4.6.1数值型频繁模式
4.6.2符号型频繁模式
4.7时序异常检测
4.7.1基于度量的方法
4.7.2基于模型重构的方法
4.7.3基于频繁模式挖掘的方法
4.8时序聚类
4.8.1DTW距离
4.8.2SAX距离
4.9时序分类
4.9.1经典分析算法
4.9.2深度学习的方法
4.10时序预测
4.10.1基于时序分解的预测算法
4.10.2基于回归建模的预测算法
参考文献
第5章其他算法
5.1优化算法
5.1.1模型分类
5.1.2经典组合优化模型
5.1.3典型工具
5.2规则推理算法
5.3系统辨识算法
5.3.1算法分类
5.3.2典型工具
5.4特定数据类型的算法
5.4.1文本数据
5.4.2图像数据
5.4.3时空数据
参考文献
第6章工业分析中的典型处理方法
6.1工业分析中的数据预处理
6.1.1工况划分
6.1.2数据缺失
6.1.3时间数据不连续
6.1.4强噪声
6.1.5大惯性系统
6.1.6趋势项的消除
6.2通用时序特征
6.3典型征兆特征
6.3.1毛刺检测特征
6.3.2单调趋势模式
6.3.3平稳过程的漂移检测
6.3.4多点位不一致
6.3.5超界
6.3.6变点检测
6.3.7一维曲线平滑与分区
6.3.8二维形状分析
6.3.9持续某种状态
6.4工业时序分析问题
6.4.1工业时序数据的特点
6.4.2短时序分类问题
6.4.3长时序分类问题
6.4.4不同类型问题的转换
参考文献
第7章生产质量数据分析算法
7.1概述
7.2基础算法
7.2.1物料跟踪模型
7.2.2过程稳定性监控
7.3时空模式分析
7.4连续流程生产
7.4.1应用示例
7.4.2工况划分
7.4.3操作参数优化
7.4.4其他分析
7.5批次流程生产
7.5.1应用示例
7.5.2理想工艺过程拟合
7.5.3动态控制优化
7.6离散生产
7.6.1应用示例
7.6.2佳工艺路径挖掘
7.6.3异常排查
7.6.4操作参数优化
7.7总结
参考文献
第8章生产效率优化
8.1决策优化问题的建模思路
8.2线性规划的建模技巧
8.2.1绝对值
8.2.2Min-Max问题
8.2.3分式目标函数
8.2.4范围约束
8.3整数规划的建模技巧
8.3.1决策变量值域不连续
8.3.2目标函数不连续
8.3.3或关系约束
8.3.4条件型约束
8.3.5逻辑表达式
8.3.6消除变量相乘
8.3.7大M法
8.4应用示例:电梯养护服务优化
8.4.1业务问题描述
8.4.2问题一:路线优化
8.4.3问题二:排班计划
8.4.4思考与小结
8.5经营预测类问题
8.5.1预测量的要素分解方法
8.5.2例外场景的处理
8.5.3宏观环境变化的处理方法
参考文献
第9章行业知识沉淀方法
9.1讨论范畴
9.1.1知识类型
9.1.2技术方法
9.1.3业务领域
9.1.4方法论的作用
9.1.5现有的知识沉淀方法论
9.2知识沉淀方法的维度模型
9.3模型要素维度
9.3.1共性要素
9.3.2传感器异常报警
9.3.3异常预警:“特征量-征兆量-研判规则”的范式
9.3.4健康评估:“劣化度-健康度-综合评价”的范式
9.3.5故障类型研判:“特征量-证据/现象-推理逻辑”的范式
9.3.6故障处置效果监控:“症状-异常类型/严重等级-处置措施-状态”的范式
9.3.7故障预测:4种思路
9.3.8性能优化:无固定范式
9.4设备对象维度
9.5建模方法维度
9.5.1专家规则驱动的方法:AI-FIT-PM过程模型
9.5.2少量样本驱动的方法
9.5.3数据驱动的方法
9.5.4不同方法间的转化
9.6软件维度
9.6.1领域建模
9.6.2模型研发环境
9.6.3模型部署运行环境
9.7应用示例1:磨煤机堵磨预警
9.8应用示例2:磨煤机暗断煤检测
9.9应用示例3:发电机线棒高温预警
9.9.1案例背景
9.9.2系统动力学模型
9.9.3异常预警规则模型
9.9.4故障排查逻辑
9.10讨论与总结
参考文献
第10章数据分析软件工程
10.1数据分析项目失败的原因
10.2传统的数据分析模式
10.3生产环境下的机器学习模型
10.3.1应用范式
10.3.2模型格式
10.4MLOps
10.4.1MLOps的内容
10.4.2MLOps与其他Ops的关系
10.4.3MLOps的支撑软件
10.4.4工业数据分析MLOps的特点
10.4.5MLOps的适用范围
10.5分析应用组件
10.5.1分析服务引擎
10.5.2Web应用引擎
10.6分析报告工具
10.6.1交互式报告工具
10.6.2基于Markdown的报告工具
10.6.3基于Office API的报告工具
10.7计算任务管理
10.7.1任务管理
10.7.2计算并行化
10.8总结
参考文献
丛书序一
丛书序二
前言
第1章工业大数据分析概览
1.1工业大数据分析的范畴与特点
1.1.1数据分析的范畴
1.1.2典型分析主题
1.1.3工业数据分析的特点
1.1.4数据分析的典型手段
1.2数据挖掘的过程方法
1.2.1CRISP-DM简介
1.2.2分析课题的执行路径
1.3数据分析工具软件
1.3.1脚本语言软件
1.3.2图形化桌面软件
1.3.3云端分析软件
1.4工业大数据分析师的算法修养
1.4.1分析算法理解的维度与路径
1.4.2必读图书
1.4.3分析算法背后的朴素思想
1.4.4工程化思维
参考文献
第2章数据预处理
2.1数据操作基础
2.1.1数据框的基本操作
2.1.2数据可视化
2.2数据分析的数据操作技巧
2.2.1cumsum等primitive函数的利用:避免循环
2.2.2带时间戳的数据框合并
2.2.3时序数据可视化:多个子图共用一个x轴
2.2.4时序数据可视化:NA用来间隔显示时序
2.2.5参数区间的对比显示(在概率密度图上)
2.2.6获取R文件的所在路径
2.2.7分段线性回归如何通过lm()实现
2.3探索型数据分析(EDA)
2.3.1引言
2.3.2R语言EDA包
2.3.3其他工具包
2.3.4小结
2.4数据质量问题
2.4.1数据的业务化
2.4.2业务的数据化
2.4.3机理演绎法
2.4.4细致求实的基本素养
2.4.5小结
2.5特征提取
2.5.1基于数据类型的特征提取
2.5.2基于关联关系的特征自动生成
2.5.3基于语法树的变量间组合特征生成
2.6特征选择
2.6.1特征选择的框架
2.6.2搜索策略
2.6.3子集评价
2.6.4小结
参考文献
第3章机器学习算法
3.1统计分析
3.1.1概率分布
3.1.2参数估计
3.1.3假设检验
3.2统计分布拟合
3.2.1引言
3.2.2基于核函数的非参数方法
3.2.3单概率分布的参数化拟合
3.2.4混合概率分布估计
3.2.5小结
3.3线性回归模型
3.3.1引言
3.3.2基础线性回归模型——OLS模型
3.3.3OLS模型检验
3.3.4鲁棒线性回归
3.3.5结构复杂度惩罚(正则化)
3.3.6扩展
3.4多元自适应回归样条(MARS)
3.4.1引言
3.4.2前向计算过程
3.4.3后剪枝过程
3.4.4变量重要性评价
3.4.5MARS与其他算法的关系
3.5神经网络
3.5.1ANN逼近能力的直观理解
3.5.2极限学习机
3.6决策树
3.6.1决策树的概念
3.6.2决策树构建过程
3.6.3常用决策树算法
3.7支持向量机(SVM)
3.7.1引言
3.7.2epsilon-SVR算法
3.7.3nu-SVR算法
3.7.4不同SVM算法包的差异
3.7.5扩展
3.8隐马尔可夫模型
3.8.1引言
3.8.2工作原理
3.8.3示例
3.8.4讨论
3.9概率图模型与贝叶斯方法
3.9.1引言
3.9.2朴素贝叶斯
3.9.3贝叶斯网络
3.9.4一般图模型
3.9.5讨论与扩展阅读
3.10集成学习
3.10.1引言
3.10.2Bagging方法
3.10.3Boosting方法
3.10.4Stacking方法
3.11模型评价
3.11.1引言
3.11.2评价指标
3.11.3评价方法
3.11.4特征重要度
3.12聚类
3.12.1引言
3.12.2基于距离的聚类:K-means、PAM
3.12.3基于层次的聚类:Hclust
3.12.4基于密度的聚类:DBSCAN
3.12.5基于分布的聚类:GMM
3.12.6聚类结果的评价
3.13关联规则
3.13.1引言
3.13.2关联规则概念与度量指标
3.13.3关联规则实现过程
3.13.4关联规则算法
3.13.5关联规则可视化
3.13.6关联规则评价
3.14深度学习
3.14.1引言
3.14.2深度学习算法分类
3.14.3深度学习框架
3.14.4常见疑惑
3.14.5深度学习算法的加速
3.15机器学习算法的其他视角
3.15.1计算负载模式
3.15.2并行化计算
3.15.3新计算范式
参考文献
第4章时序数据挖掘算法
4.1时序算法简介
4.2信号处理算法
4.2.1傅里叶变换的直观理解
4.2.2时频分析
4.2.3时序变换
4.2.4压缩感知
4.3时序分解
4.3.1STL
4.3.2奇异谱分析
4.3.3EMD及扩展方法
4.4时序分割
4.4.1Changepoint
4.4.2TreeSplit
4.4.3Autoplait
4.4.4应用示例
4.5时序再表征
4.6序列模式挖掘
4.6.1数值型频繁模式
4.6.2符号型频繁模式
4.7时序异常检测
4.7.1基于度量的方法
4.7.2基于模型重构的方法
4.7.3基于频繁模式挖掘的方法
4.8时序聚类
4.8.1DTW距离
4.8.2SAX距离
4.9时序分类
4.9.1经典分析算法
4.9.2深度学习的方法
4.10时序预测
4.10.1基于时序分解的预测算法
4.10.2基于回归建模的预测算法
参考文献
第5章其他算法
5.1优化算法
5.1.1模型分类
5.1.2经典组合优化模型
5.1.3典型工具
5.2规则推理算法
5.3系统辨识算法
5.3.1算法分类
5.3.2典型工具
5.4特定数据类型的算法
5.4.1文本数据
5.4.2图像数据
5.4.3时空数据
参考文献
第6章工业分析中的典型处理方法
6.1工业分析中的数据预处理
6.1.1工况划分
6.1.2数据缺失
6.1.3时间数据不连续
6.1.4强噪声
6.1.5大惯性系统
6.1.6趋势项的消除
6.2通用时序特征
6.3典型征兆特征
6.3.1毛刺检测特征
6.3.2单调趋势模式
6.3.3平稳过程的漂移检测
6.3.4多点位不一致
6.3.5超界
6.3.6变点检测
6.3.7一维曲线平滑与分区
6.3.8二维形状分析
6.3.9持续某种状态
6.4工业时序分析问题
6.4.1工业时序数据的特点
6.4.2短时序分类问题
6.4.3长时序分类问题
6.4.4不同类型问题的转换
参考文献
第7章生产质量数据分析算法
7.1概述
7.2基础算法
7.2.1物料跟踪模型
7.2.2过程稳定性监控
7.3时空模式分析
7.4连续流程生产
7.4.1应用示例
7.4.2工况划分
7.4.3操作参数优化
7.4.4其他分析
7.5批次流程生产
7.5.1应用示例
7.5.2理想工艺过程拟合
7.5.3动态控制优化
7.6离散生产
7.6.1应用示例
7.6.2佳工艺路径挖掘
7.6.3异常排查
7.6.4操作参数优化
7.7总结
参考文献
第8章生产效率优化
8.1决策优化问题的建模思路
8.2线性规划的建模技巧
8.2.1绝对值
8.2.2Min-Max问题
8.2.3分式目标函数
8.2.4范围约束
8.3整数规划的建模技巧
8.3.1决策变量值域不连续
8.3.2目标函数不连续
8.3.3或关系约束
8.3.4条件型约束
8.3.5逻辑表达式
8.3.6消除变量相乘
8.3.7大M法
8.4应用示例:电梯养护服务优化
8.4.1业务问题描述
8.4.2问题一:路线优化
8.4.3问题二:排班计划
8.4.4思考与小结
8.5经营预测类问题
8.5.1预测量的要素分解方法
8.5.2例外场景的处理
8.5.3宏观环境变化的处理方法
参考文献
第9章行业知识沉淀方法
9.1讨论范畴
9.1.1知识类型
9.1.2技术方法
9.1.3业务领域
9.1.4方法论的作用
9.1.5现有的知识沉淀方法论
9.2知识沉淀方法的维度模型
9.3模型要素维度
9.3.1共性要素
9.3.2传感器异常报警
9.3.3异常预警:“特征量-征兆量-研判规则”的范式
9.3.4健康评估:“劣化度-健康度-综合评价”的范式
9.3.5故障类型研判:“特征量-证据/现象-推理逻辑”的范式
9.3.6故障处置效果监控:“症状-异常类型/严重等级-处置措施-状态”的范式
9.3.7故障预测:4种思路
9.3.8性能优化:无固定范式
9.4设备对象维度
9.5建模方法维度
9.5.1专家规则驱动的方法:AI-FIT-PM过程模型
9.5.2少量样本驱动的方法
9.5.3数据驱动的方法
9.5.4不同方法间的转化
9.6软件维度
9.6.1领域建模
9.6.2模型研发环境
9.6.3模型部署运行环境
9.7应用示例1:磨煤机堵磨预警
9.8应用示例2:磨煤机暗断煤检测
9.9应用示例3:发电机线棒高温预警
9.9.1案例背景
9.9.2系统动力学模型
9.9.3异常预警规则模型
9.9.4故障排查逻辑
9.10讨论与总结
参考文献
第10章数据分析软件工程
10.1数据分析项目失败的原因
10.2传统的数据分析模式
10.3生产环境下的机器学习模型
10.3.1应用范式
10.3.2模型格式
10.4MLOps
10.4.1MLOps的内容
10.4.2MLOps与其他Ops的关系
10.4.3MLOps的支撑软件
10.4.4工业数据分析MLOps的特点
10.4.5MLOps的适用范围
10.5分析应用组件
10.5.1分析服务引擎
10.5.2Web应用引擎
10.6分析报告工具
10.6.1交互式报告工具
10.6.2基于Markdown的报告工具
10.6.3基于Office API的报告工具
10.7计算任务管理
10.7.1任务管理
10.7.2计算并行化
10.8总结
参考文献
猜您喜欢