书籍详情
基于机器学习的数据缺失值填补:理论与方法
作者:赖晓晨,张立勇,刘辉,吴霞 著
出版社:机械工业出版社
出版时间:2020-09-01
ISBN:9787111663058
定价:¥79.00
购买这本书可以去
内容简介
内容介绍 这是一部讲解如何基于机器学习技术实现数据缺失值填补的专著,与传统的基于统计学的缺失值填补方法相比,效率上得到了较大的提升。作者基于多年的研究和实践成果,创新性地提出了基于神经网络的缺失值填补方法和基于TS模型的缺失值填补方法。 全书共8章,可分为4个部分。 第壹部分(第1~3章):首先介绍缺失值填补领域的缺失数据机制、基本概念、性能度量等基础知识,随后详细阐述目前基于统计学、机器学习的缺失值填补理论与方法。 第二部分(第4~5章):对目前神经网络在缺失值填补领域的研究成果进行归纳总结,并从网络模型、填补方案角度阐述神经网络填补方法的设计及应用。 第三部分(第6~7章):详细介绍面向不完整数据的TS建模过程,随后通过特征选择算法处理TS建模中的特征冗余问题,并从前提参数优化和结论参数优化两个角度改进TS模型。 第四部分(第8章):以缺失值填补方法在我国贫困问题研究中的应用为例,展现缺失值填补方法的现实意义。
作者简介
作者介绍 赖晓晨 大连理工大学软件学院副教授、博士、硕士生导师,“宝钢教育”教师奖获得者,中国计算机学会会员。主要科研方向为人工智能、嵌入式系统,参与多项国家自然科学基金、国家重大研发计划、科技部973项目、863项目研究,发表SCI/EI收录学术论文20余篇,获得辽宁省技术发明三等奖1次。先后主持教改与课程建设项目3项、省部级项目14项、主持国家金课一门。与Google、Intel、ARM、Xilinx等国际公司有长期教学合作关系。张立勇 大连理工大学控制科学与工程学院讲师、博士、硕士生导师。主要科研方向为数据挖掘与机器学习,参与多项国家自然科学基金、国家重点研发计划、科技部973项目、863项目研究。发表学术论文60多篇,被SCI/EI收录50余篇;出版学术专著2部。获得辽宁省科技进步二等奖1次、三等奖2次,辽宁省自然科学学术成果一等奖1次,获授权国家发明专利5项。刘辉 大连理工大学讲师,主要研究方向为基于人工智能的数字化驱动教学模式研究,主讲多门线上课程。先后获得“教学之星”大赛全国一等奖、辽宁省微课教学比赛一等奖、辽宁省教育教学信息化大赛一等奖。教学经验丰富,善于用浅显的语言刻画复杂概念。吴霞 大连理工大学软件学院硕士研究生,主要研究方向是机器学习与不完整数据分析,在SCI核心期刊、国际会议上发表多篇不完整数据分析相关论文,对基于机器学习的缺失值填补有充足的知识储备及见解。
目录
前言
第1章 绪论 1
1.1 缺失值填补的背景与意义 1
1.2 缺失值填补方法的研究现状概述 3
1.2.1 基于统计学的缺失值填补方法 3
1.2.2 基于机器学习的缺失值填补方法 4
1.3 缺失值填补的应用 7
1.4 本章小结 10
参考文献 11
第2章 缺失数据的处理方法 14
2.1 数据缺失机制 14
2.1.1 完全随机缺失 15
2.1.2 随机缺失 15
2.1.3 非随机缺失 16
2.2 缺失数据的处理 17
2.2.1 不做处理 17
2.2.2 不完整样本删除 19
2.2.3 缺失值填补 20
2.3 缺失值填补概述 22
2.3.1 基本概念 22
2.3.2 方法分类 24
2.3.3 性能度量 26
2.4 本章小结 29
参考文献 29
第3章 缺失值填补方法 31
3.1 基于样本间相似度的填补方法 31
3.1.1 均值填补法 31
3.1.2 热平台填补法 34
3.1.3 K最近邻填补法 36
3.1.4 基于聚类的填补方法 39
3.2 基于属性间相关性的填补方法 46
3.2.1 基于线性回归的填补方法 46
3.2.2 基于非线性回归的填补方法 51
3.2.3 基于神经网络的填补方法 54
3.3 基于参数估计的期望最大化填补方法 60
3.3.1 参数估计法 60
3.3.2 期望最大化填补法 63
3.4 针对缺失数据不确定性的填补方法 66
3.4.1 多重填补法 67
3.4.2 基于证据理论的填补方法 72
3.5 本章小结 78
参考文献 79
第4章 面向不完整数据的神经网络填补方法 81
4.1 基于自组织映射网络的填补方法 81
4.1.1 自组织映射网络理论 81
4.1.2 自组织映射网络的缺失值处理 85
4.2 基于单层感知机的填补方法 87
4.2.1 单层感知机理论 87
4.2.2 传统单层感知机的改进 88
4.2.3 单层感知机填补模型 89
4.3 基于多层感知机的填补方法 91
4.3.1 多层感知机理论 91
4.3.2 基于多层感知机集群的填补方法 93
4.3.3 基于多层感知机简化集群的填补方法 95
4.4 基于自编码器及其变体的填补方法 96
4.4.1 基于自编码器的填补法 97
4.4.2 基于径向基函数自编码器的填补法 99
4.4.3 基于广义回归自编码器的填补法 102
4.4.4 基于对偶传播自编码器的填补法 104
4.4.5 基于极限学习机自编码器的填补法 106
4.5 面向不完整数据的属性关联型神经元建模与填补方法 107
4.5.1 基于去跟踪自编码器的填补法 108
4.5.2 基于关联增强型自编码器的填补法 112
4.5.3 基于多任务学习的填补方法 114
4.6 典型神经网络填补模型实验 117
4.6.1 实验设计 118
4.6.2 不同网络模型的填补精度 120
4.6.3 自编码器的自跟踪性 121
4.6.4 去跟踪自编码器的去跟踪性 123
4.7 本章小结 124
参考文献 124
第5章 神经网络填补方法的优化设计 127
5.1 面向不完整数据的代价函数 127
5.2 两阶段式填补方案 131
5.2.1 训练阶段 132
5.2.2 填补阶段 135
5.3 融合式填补方案 143
5.3.1 基于缺失值变量的神经网络动态填补方案 143
5.3.2 缺失值变量与模型参数的动态更新 144
5.3.3 时间复杂度 147
5.4 典型神经网络填补方案实验 149
5.4.1 实验设计 149
5.4.2 不同填补方案的填补精度 152
5.4.3 MVPT填补方案的收敛性 154
5.5 本章小结 155
参考文献 156
第6章 基于TS建模的非线性回归填补法 157
6.1 模糊数学基础 157
6.1.1 模糊数学与模糊集合 157
6.1.2 模糊数学在缺失值填补中的应用 158
6.2 TS模型 159
6.2.1 TS模型基本结构 159
6.2.2 TS模型研究与应用现状 160
6.3 基于TS模型的填补方法 163
6.3.1 基于TS模型的填补方法概述 163
6.3.2 前提参数获取 165
6.3.3 结论参数获取 168
6.3.4 缺失值填补 169
6.4 基于特征选择的TS模型填补法 170
6.4.1 特征选择算法概述 170
6.4.2 基于特征选择的TS模型填补法 177
6.5 TS模型填补方法实验 178
6.5.1 实验设计 178
6.5.2 TS模型与回归模型的填补效果对比 179
6.5.3 特征选择对TS模型拟合精度的影响 181
6.5.4 特征选择对TS模型填补精度的影响 183
6.6 本章小结 186
参考文献 186
第7章 TS模型填补方法的优化设计 188
7.1 面向类不均衡数据的TS模型优化 188
7.1.1 TS模型中的FCM算法 188
7.1.2 FCM算法存在的问题 190
7.1.3 DPC算法 192
7.1.4 类不均衡数据的MDF算法 195
7.1.5 MDF算法实验 196
7.2 基于交替学习策略的TS模型填补方法 204
7.2.1 TS结论参数与填补值的交替学习策略 206
7.2.2 交替学习策略的迭代收敛性 208
7.2.3 交替学习策略下线性回归填补法实验 209
7.2.4 交替学习策略下TS模型填补法实验 210
7.3 本章小结 212
参考文献 212
第8章 基于缺失值填补的中国贫困家庭特征分析 213
8.1 精准扶贫过程中的数据缺失问题 213
8.1.1 我国贫困问题研究 213
8.1.2 中国家庭追踪调查中的数据缺失问题 214
8.2 CFPS数据集缺失值填补 216
8.2.1 基于去跟踪自编码器的动态缺失值填补 216
8.2.2 缺失值填补精度 217
8.3 贫困家庭识别 219
8.3.1 多维贫困测度 219
8.3.2 贫困的维度指标及临界剥夺值 220
8.3.3 基于层次分析法的多维贫困指标权重计算 223
8.3.4 CFPS2016数据集的多维贫困家庭识别 227
8.4 基于聚类算法的贫困家庭类别划分 229
8.4.1 层次聚类算法 229
8.4.2 贫困家庭聚类 230
8.5 贫困家庭典型特征分析 232
8.5.1 多重聚类特征选择算法 232
8.5.2 贫困家庭典型特征选择 233
8.6 本章小结 235
参考文献 236
第1章 绪论 1
1.1 缺失值填补的背景与意义 1
1.2 缺失值填补方法的研究现状概述 3
1.2.1 基于统计学的缺失值填补方法 3
1.2.2 基于机器学习的缺失值填补方法 4
1.3 缺失值填补的应用 7
1.4 本章小结 10
参考文献 11
第2章 缺失数据的处理方法 14
2.1 数据缺失机制 14
2.1.1 完全随机缺失 15
2.1.2 随机缺失 15
2.1.3 非随机缺失 16
2.2 缺失数据的处理 17
2.2.1 不做处理 17
2.2.2 不完整样本删除 19
2.2.3 缺失值填补 20
2.3 缺失值填补概述 22
2.3.1 基本概念 22
2.3.2 方法分类 24
2.3.3 性能度量 26
2.4 本章小结 29
参考文献 29
第3章 缺失值填补方法 31
3.1 基于样本间相似度的填补方法 31
3.1.1 均值填补法 31
3.1.2 热平台填补法 34
3.1.3 K最近邻填补法 36
3.1.4 基于聚类的填补方法 39
3.2 基于属性间相关性的填补方法 46
3.2.1 基于线性回归的填补方法 46
3.2.2 基于非线性回归的填补方法 51
3.2.3 基于神经网络的填补方法 54
3.3 基于参数估计的期望最大化填补方法 60
3.3.1 参数估计法 60
3.3.2 期望最大化填补法 63
3.4 针对缺失数据不确定性的填补方法 66
3.4.1 多重填补法 67
3.4.2 基于证据理论的填补方法 72
3.5 本章小结 78
参考文献 79
第4章 面向不完整数据的神经网络填补方法 81
4.1 基于自组织映射网络的填补方法 81
4.1.1 自组织映射网络理论 81
4.1.2 自组织映射网络的缺失值处理 85
4.2 基于单层感知机的填补方法 87
4.2.1 单层感知机理论 87
4.2.2 传统单层感知机的改进 88
4.2.3 单层感知机填补模型 89
4.3 基于多层感知机的填补方法 91
4.3.1 多层感知机理论 91
4.3.2 基于多层感知机集群的填补方法 93
4.3.3 基于多层感知机简化集群的填补方法 95
4.4 基于自编码器及其变体的填补方法 96
4.4.1 基于自编码器的填补法 97
4.4.2 基于径向基函数自编码器的填补法 99
4.4.3 基于广义回归自编码器的填补法 102
4.4.4 基于对偶传播自编码器的填补法 104
4.4.5 基于极限学习机自编码器的填补法 106
4.5 面向不完整数据的属性关联型神经元建模与填补方法 107
4.5.1 基于去跟踪自编码器的填补法 108
4.5.2 基于关联增强型自编码器的填补法 112
4.5.3 基于多任务学习的填补方法 114
4.6 典型神经网络填补模型实验 117
4.6.1 实验设计 118
4.6.2 不同网络模型的填补精度 120
4.6.3 自编码器的自跟踪性 121
4.6.4 去跟踪自编码器的去跟踪性 123
4.7 本章小结 124
参考文献 124
第5章 神经网络填补方法的优化设计 127
5.1 面向不完整数据的代价函数 127
5.2 两阶段式填补方案 131
5.2.1 训练阶段 132
5.2.2 填补阶段 135
5.3 融合式填补方案 143
5.3.1 基于缺失值变量的神经网络动态填补方案 143
5.3.2 缺失值变量与模型参数的动态更新 144
5.3.3 时间复杂度 147
5.4 典型神经网络填补方案实验 149
5.4.1 实验设计 149
5.4.2 不同填补方案的填补精度 152
5.4.3 MVPT填补方案的收敛性 154
5.5 本章小结 155
参考文献 156
第6章 基于TS建模的非线性回归填补法 157
6.1 模糊数学基础 157
6.1.1 模糊数学与模糊集合 157
6.1.2 模糊数学在缺失值填补中的应用 158
6.2 TS模型 159
6.2.1 TS模型基本结构 159
6.2.2 TS模型研究与应用现状 160
6.3 基于TS模型的填补方法 163
6.3.1 基于TS模型的填补方法概述 163
6.3.2 前提参数获取 165
6.3.3 结论参数获取 168
6.3.4 缺失值填补 169
6.4 基于特征选择的TS模型填补法 170
6.4.1 特征选择算法概述 170
6.4.2 基于特征选择的TS模型填补法 177
6.5 TS模型填补方法实验 178
6.5.1 实验设计 178
6.5.2 TS模型与回归模型的填补效果对比 179
6.5.3 特征选择对TS模型拟合精度的影响 181
6.5.4 特征选择对TS模型填补精度的影响 183
6.6 本章小结 186
参考文献 186
第7章 TS模型填补方法的优化设计 188
7.1 面向类不均衡数据的TS模型优化 188
7.1.1 TS模型中的FCM算法 188
7.1.2 FCM算法存在的问题 190
7.1.3 DPC算法 192
7.1.4 类不均衡数据的MDF算法 195
7.1.5 MDF算法实验 196
7.2 基于交替学习策略的TS模型填补方法 204
7.2.1 TS结论参数与填补值的交替学习策略 206
7.2.2 交替学习策略的迭代收敛性 208
7.2.3 交替学习策略下线性回归填补法实验 209
7.2.4 交替学习策略下TS模型填补法实验 210
7.3 本章小结 212
参考文献 212
第8章 基于缺失值填补的中国贫困家庭特征分析 213
8.1 精准扶贫过程中的数据缺失问题 213
8.1.1 我国贫困问题研究 213
8.1.2 中国家庭追踪调查中的数据缺失问题 214
8.2 CFPS数据集缺失值填补 216
8.2.1 基于去跟踪自编码器的动态缺失值填补 216
8.2.2 缺失值填补精度 217
8.3 贫困家庭识别 219
8.3.1 多维贫困测度 219
8.3.2 贫困的维度指标及临界剥夺值 220
8.3.3 基于层次分析法的多维贫困指标权重计算 223
8.3.4 CFPS2016数据集的多维贫困家庭识别 227
8.4 基于聚类算法的贫困家庭类别划分 229
8.4.1 层次聚类算法 229
8.4.2 贫困家庭聚类 230
8.5 贫困家庭典型特征分析 232
8.5.1 多重聚类特征选择算法 232
8.5.2 贫困家庭典型特征选择 233
8.6 本章小结 235
参考文献 236
猜您喜欢