书籍详情

Java机器学习

Java机器学习

作者:[美] 乌黛·卡马特(Dr.,Uday,Kamath),克里希纳·肖佩拉(K 著,陈瑶 陈峰 刘江一等译 译

出版社:机械工业出版社

出版时间:2018-10-01

ISBN:9787111609193

定价:¥89.00

购买这本书可以去
内容简介
  本书涵盖了机器学习中的经典技术,如分类、聚类、降维、离群值检测、半监督学习和主动学习。同时介绍了近期高深的主题,包括流数据学习、深度学习以及大数据学习的挑战。每一章指定一个主题,包括通过案例研究,介绍前沿的基于Java的工具和软件,以及完整的知识发现周期:数据采集、实验设计、建模、结果及评估。每一章都是独立的,提供了很大的使用灵活性。附带的网站提供了源码和数据。对于学生和数据分析从业员来说,这确实很难得,大家可以直接用刚学到的方法进行实验,或者通过将这些方法应用到真实环境中,加深对它们的理解。
作者简介
  Uday Kamath博士是BAE系统应用智能公司的首席数据科学家,专门研究可扩展机器学习,并在反洗钱(AML)、金融犯罪欺诈检验、网络空间安全和生物信息学领域拥有20年的研究经验。Kamath博士负责BAE系统应用智能公司AI部门核心产品的研究分析,这些产品涉及的领域有行为科学、社交网络和大数据机器学习方面。在Kenneth De Jong博士的指导下,他获得了乔治梅森大学的博士学位,他的论文研究聚焦于大数据和自动化序列挖掘的机器学习领域。Krishna Choppella在BAE系统应用智能公司的角色是作为解决方案架构师,构建工具和客户解决方案。他有20年的Java编程经验,主要兴趣是数据科学、函数编程和分布式计算。
目录
推荐序
译者序
前言
作者简介
审校者简介
第1章 机器学习回顾1
 1.1 机器学习历史和定义2
 1.2 哪些不属于机器学习3
 1.3 机器学习概念和术语4
 1.4 机器学习类型及其子类6
 1.5 用于机器学习的数据集8
 1.6 机器学习的应用10
 1.7 机器学习中的实际问题10
 1.8 机器学习角色与过程11
1.8.1 角色12
1.8.2 过程12
 1.9 机器学习工具和数据集14
 1.10 小结16
第2章 监督学习在现实世界中的实践方法18
 2.1 正式描述和符号19
2.1.1 数据质量分析20
2.1.2 描述性数据分析20
2.1.3 可视化分析20
 2.2 数据转换与预处理21
2.2.1 特征构造22
2.2.2 处理缺失值22
2.2.3 离群值23
2.2.4 离散化24
2.2.5 数据采样24
2.2.6 训练集、验证集和测试集26
 2.3 特征关联分析与降维28
2.3.1 特征搜索技术29
2.3.2 特征评估技术29
 2.4 模型建立32
2.4.1 线性模型32
2.4.2 非线性模型35
2.4.3 集成学习和元学习器40
 2.5 模型评价、评估和比较42
2.5.1 模型评价42
2.5.2 模型评估指标43
2.5.3 模型比较45
 2.6 Horse Colic分类案例研究47
2.6.1 业务问题48
2.6.2 机器学习映射48
2.6.3 数据分析48
2.6.4 监督学习实验49
2.6.5 结果、观察和分析58
 2.7 小结60
 2.8 参考文献61
第3章 无监督机器学习技术63
 3.1 与监督学习共同存在的问题63
 3.2 无监督学习的特定问题64
 3.3 特征分析和降维64
3.3.1 符号64
3.3.2 线性方法64
3.3.3 非线性方法67
 3.4 聚类70
3.4.1 聚类算法70
3.4.2 谱聚类75
3.4.3 仿射传播75
3.4.4 聚类的验证和评估77
 3.5 离群值或异常值检测79
3.5.1 离群值算法79
3.5.2 离群值评估技术85
 3.6 实际案例研究86
3.6.1 工具和软件86
3.6.2 业务问题86
3.6.3 机器学习映射86
3.6.4 数据收集87
3.6.5 数据质量分析87
3.6.6 数据采样和转换88
3.6.7 特征分析和降维88
3.6.8 聚类模型、结果和评估91
3.6.9 离群值模型、结果和评估94
 3.7 小结95
 3.8 参考文献95
第4章 半监督学习和主动学习98
 4.1 半监督学习99
4.1.1 表示、符号和假设条件99
4.1.2 半监督学习技术101
4.1.3 半监督学习的案例研究106
 4.2 主动学习111
4.2.1 表示和符号112
4.2.2 主动学习场景112
4.2.3 主动学习方法112
4.2.4 不确定性采样112
4.2.5 版本空间采样113
4.2.6 数据分布采样115
 4.3 主动学习中的案例研究116
4.3.1 工具和软件116
4.3.2 业务问题116
4.3.3 机器学习映射116
4.3.4 数据采集117
4.3.5 数据采样和转换117
4.3.6 特征分析和降维117
4.3.7 模型、结果和评估117
4.3.8 主动学习结果分析121
 4.4 小结121
 4.5 参考文献122
第5章 实时流机器学习123
 5.1 假设条件和数学符号124
 5.2 基本的流处理和计算技术124
5.2.1 流计算124
5.2.2 滑动窗口125
5.2.3 采样126
 5.3 概念漂移和漂移探测127
5.3.1 数据管理128
5.3.2 局部内存128
 5.4 增量监督学习130
5.4.1 建模技术130
5.4.2 在线环境的验证、评估和比较136
 5.5 使用聚类的增量无监督学习138
 5.6 使用离群值检测的无监督学习148
5.6.1 基于分区的聚类离群值检测148
5.6.2 基于距离的聚类离群值检测149
 5.7 流学习案例研究151
5.7.1 工具和软件152
5.7.2 业务问题152
5.7.3 机器学习映射152
5.7.4 数据采集153
5.7.5 数据采样和转换154
5.7.6 模型、结果和评估155
5.7.7 流学习结果分析158
 5.8 小结160
 5.9 参考文献160
第6章 概率图建模163
 6.1 回顾概率163
 6.2 图的概念166
6.2.1 图的结构和属性166
6.2.2 子图和团167
6.2.3 路、迹和环167
 6.3 贝叶斯网络168
6.3.1 表示169
6.3.2 推断171
6.3.3 学习180
 6.4 马尔可夫网络和条件随机场186
6.4.1 表示187
6.4.2 推断188
6.4.3 学习189
6.4.4 条件随机场189
 6.5 特殊网络190
6.5.1 树增强型网络190
6.5.2 马尔可夫链190
 6.6 工具和使用193
6.6.1 OpenMarkov193
6.6.2 Weka贝叶斯网络图形界面194
 6.7 案例研究194
6.7.1 业务问题196
6.7.2 机器学习映射196
6.7.3 数据采样和转换196
6.7.4 特征分析196
6.7.5 模型、结果和评估197
6.7.6 结果分析200
 6.8 小结201
 6.9 参考文献201
第7章 深度学习203
 7.1 多层前馈神经网络203
7.1.1 输入、神经元、激活函数和数学符号203
7.1.2 多层神经网络204
 7.2 神经网络的局限209
 7.3 深度学习210
 7.4 案例研究231
7.4.1 工具和软件232
7.4.2 业务问题232
7.4.3 机器学习映射233
7.4.4 数据采样和转换233
7.4.5 特征分析233
7.4.6 模型、结果和评估233
 7.5 小结242
 7.6 参考文献243
第8章 文本挖掘和自然语言处理245
 8.1 NLP及其子领域和任务246
8.1.1 文本分类247
8.1.2 词性标注247
8.1.3 文本聚类247
8.1.4 信息抽取和命名实体识别247
8.1.5 情感分析和观点挖掘247
8.1.6 指代消解248
8.1.7 词义消歧248
8.1.8 机器翻译248
8.1.9 语义推理及推断249
8.1.10 文本摘要249
8.1.11 自动问答249
 8.2 挖掘非结构化数据的问题249
 8.3 文本处理和转换250
8.3.1 文档收集与标准化250
8.3.2 词元化251
8.3.3 停止词移除251
8.3.4 词干提取或词形还原251
8.3.5 局部/全局字典或词汇表252
8.3.6 特征抽取/生成253
8.3.7 特征表示和相似度255
8.3.8 特征选择和降维258
 8.4 文本挖掘主题259
8.4.1 文本分类260
8.4.2 主题建模260
8.4.3 文本聚类263
8.4.4 命名实体识别267
8.4.5 深度学习与NLP270
 8.5 工具和使用272
8.5.1 Mallet272
8.5.2 用Mallet进行主题建模273
8.5.3 业务问题274
8.5.4 机器学习映射274
8.5.5 数据采集274
8.5.6 数据采样和转换275
8.5.7 特征分析和降维276
8.5.8 模型、结果和评估276
8.5.9 文本处理结果分析277
 8.6 小结278
 8.7 参考文献278
第9章 大数据机器学习:最终领域281
 9.1 大数据的特点283
 9.2 大数据机器学习283
 9.3 批量大数据机器学习290
 9.4 案例研究294
9.4.1 业务问题296
9.4.2 机器学习映射296
9.4.3 数据采集296
9.4.4 数据采样和转换296
9.4.5 使用Spark MLlib作为大数据机器学习平台298
 9.5 实时大数据机器学习305
 9.6 机器学习的未来310
 9.7 小结310
 9.8 参考文献311
附录A 线性代数313
附录B 概率论317
猜您喜欢

读书导航