书籍详情
Alink权威指南:基于Flink的机器学习实例入门(Java)
作者:杨旭 著
出版社:电子工业出版社
出版时间:2021-10-01
ISBN:9787121420580
定价:¥149.00
购买这本书可以去
内容简介
全书围绕Alink(阿里在Flink基础上做的开源版本)的展开,以实例为主阐述Alink的使用。 ?以机器学习的知识架构将各个章节串联起来,每个章节配合实例,用户更容易理解和入手尝试。 ?数据会采用读者能免费下载的数据集,在加上Alink本身是开源的、免费的。用户试用起来没有成本。 ?实例实现的源代码,准备放在Alink开源git上,大家容易看到,可以直接下载,代码旁边会有实体书的介绍 ?以机器学习的知识架构将各个章节串联起来,每个章节配合实例,用户更容易理解和入手尝试。 ?数据会采用读者能免费下载的数据集,在加上Alink本身是开源的、免费的。用户试用起来没有成本。 ?实例实现的源代码,准备放在Alink开源git上,大家容易看到,可以直接下载,代码旁边会有实体书的介绍
作者简介
2004年获南开大学数学博士学位;随后在南开大学信息学院从事博士后研究工作;2006年加入微软亚洲研究院,进行符号计算、大规模矩阵计算及机器学习算法研究;2010年加入阿里巴巴,从事大数据相关的统计和机器学习算法研发。著有《重构大数据统计》《机器学习在线》等。
目录
目 录
第1章 Alink快速上手\t1
1.1 Alink是什么\t1
1.2 免费下载、安装\t1
1.3 Alink的功能\t2
1.3.1 丰富的算法库\t2
1.3.2 多样的使用体验\t3
1.3.3 与SparkML的对比\t3
1.4 关于数据和代码\t4
1.5 简单示例\t5
1.5.1 数据的读/写与显示\t5
1.5.2 批式训练和批式预测\t7
1.5.3 流式处理和流式预测\t9
1.5.4 定义Pipeline,简化操作\t10
1.5.5 嵌入预测服务系统\t12
第2章 系统概况与核心概念\t14
2.1 基本概念\t14
2.2 批式任务与流式任务\t15
2.3 Alink=A+link\t18
2.3.1 BatchOperator和StreamOperator\t19
2.3.2 link方式是批式算法/流式算法的通用使用方式\t20
2.3.3 link的简化\t23
2.3.4 组件的主输出与侧输出\t23
2.4 Pipeline与PipelineModel\t24
2.4.1 概念和定义\t24
2.4.2 深入介绍\t25
2.5 触发Alink任务的执行\t28
2.6 模型信息显示\t29
2.7 文件系统与数据库\t34
2.8 Schema String\t36
第3章 文件系统与数据文件\t38
3.1 文件系统简介\t38
3.1.1 本地文件系统\t39
3.1.2 Hadoop文件系统\t41
3.1.3 阿里云OSS文件系统\t43
3.2 数据文件的读入与导出\t45
3.2.1 CSV格式\t47
3.2.2 TSV、LibSVM、Text格式\t53
3.2.3 AK格式\t56
第4章 数据库与数据表\t60
4.1 简介\t60
4.1.1 Catalog的基本操作\t60
4.1.2 Source和Sink组件\t61
4.2 Hive示例\t62
4.3 Derby示例\t65
4.4 MySQL示例\t67
第5章 支持Flink SQL\t70
5.1 基本操作\t70
5.1.1 注册\t70
5.1.2 运行\t71
5.1.3 内置函数\t74
5.1.4 用户定义函数\t74
5.2 简化操作\t75
5.2.1 单表操作\t76
5.2.2 两表的连接(JOIN)操作\t80
5.2.3 两表的集合操作\t82
5.3 深入介绍Table Environment\t86
5.3.1 注册数据表名\t87
5.3.2 撤销数据表名\t88
5.3.3 扫描已注册的表\t89
第6章 用户定义函数(UDF/UDTF)\t90
6.1 用户定义标量函数(UDF)\t90
6.1.1 示例数据及问题\t91
6.1.2 UDF的定义\t91
6.1.3 使用UDF处理批式数据\t92
6.1.4 使用UDF处理流式数据\t93
6.2 用户定义表值函数(UDTF)\t95
6.2.1 示例数据及问题\t95
6.2.2 UDTF的定义\t96
6.2.3 使用UDTF处理批式数据\t96
6.2.4 使用UDTF处理流式数据\t99
第7章 基本数据处理\t101
7.1 采样\t101
7.1.1 取“前”N个数据\t102
7.1.2 随机采样\t102
7.1.3 加权采样\t104
7.1.4 分层采样\t105
7.2 数据划分\t106
7.3 数值尺度变换\t108
7.3.1 标准化\t109
7.3.2 MinMaxScale\t111
7.3.3 MaxAbsScale\t112
7.4 向量的尺度变换\t113
7.4.1 StandardScale、MinMaxScale、MaxAbsScale\t113
7.4.2 正则化\t115
7.5 缺失值填充\t116
第8章 线性二分类模型\t119
8.1 线性模型的基础知识\t119
8.1.1 损失函数\t119
8.1.2 经验风险与结构风险\t121
8.1.3 线性模型与损失函数\t122
8.1.4 逻辑回归与线性支持向量机(Linear SVM)\t123
8.2 二分类评估方法\t125
8.2.1 基本指标\t126
8.2.2 综合指标\t128
8.2.3 评估曲线\t131
8.3 数据探索\t136
8.3.1 基本统计\t138
8.3.2 相关性\t140
8.4 训练集和测试集\t144
8.5 逻辑回归模型\t145
8.6 线性SVM模型\t147
8.7 模型评估\t149
8.8 特征的多项式扩展\t153
8.9 因子分解机\t157
第9章 朴素贝叶斯模型与决策树模型\t160
9.1 朴素贝叶斯模型\t160
9.2 决策树模型\t162
9.2.1 决策树的分裂指标定义\t165
9.2.2 常用的决策树算法\t167
9.2.3 指标计算示例\t169
9.2.4 分类树与回归树\t172
9.2.5 经典的决策树示例\t173
9.3 数据探索\t176
9.4 使用朴素贝叶斯方法\t179
9.5 蘑菇分类的决策树\t185
第10章 特征的转化\t191
10.1 整体流程\t195
10.1.1 特征哑元化\t197
10.1.2 特征的重要性\t198
10.2 减少模型特征的个数\t200
10.3 离散特征转化\t202
10.3.1 独热编码\t202
10.3.2 特征哈希\t204
第11章 构造新特征\t207
11.1 数据探索\t208
11.2 思路\t210
11.2.1 用户和品牌的各种特征\t211
11.2.2 二分类模型训练\t212
11.3 计算训练集\t213
11.3.1 原始数据划分\t213
11.3.2 计算特征\t214
11.3.3 计算标签\t222
11.4 正负样本配比\t224
11.5 决策树\t226
11.6 集成学习\t227
11.6.1 Bootstrap aggregating\t228
11.6.2 Boosting\t229
11.6.3 随机森林与GBDT\t232
11.7 使用随机森林算法\t233
11.8 使用GBDT算法\t234
第12章 从二分类到多分类\t235
12.1 多分类模型评估方法\t235
12.1.1 综合指标\t237
12.1.2 关于每个标签值的二分类指标\t238
12.1.3 Micro、Macro、Weighted计算的指标\t239
12.2 数据探索\t241
12.3 使用朴素贝叶斯进行多分类\t244
12.4 二分类器组合\t246
12.5 Softmax算法\t249
12.6 多层感知器分类器\t253
第13章 常用多分类算法\t256
13.1 数据准备\t256
13.1.1 读取MNIST数据文件\t257
13.1.2 稠密向量与稀疏向量\t258
13.1.3 标签值的统计信息\t261
13.2 Softmax算法\t262
13.3 二分类器组合\t264
13.4 多层感知器分类器\t265
13.5 决策树与随机森林\t267
13.6 K最近邻算法\t270
第14章 在线学习\t273
14.1 整体流程\t273
14.2 数据准备\t275
14.3 特征工程\t277
14.4 特征工程处理数据\t279
14.5 在线训练\t280
14.6 模型过滤\t283
第15章 回归的由来\t286
15.1 平均数\t287
15.2 向平均数方向的回归\t288
15.3 线性回归\t289
第16章 常用回归算法\t292
16.1 回归模型的评估指标\t292
16.2 数据探索\t294
16.3 线性回归\t297
16.4 决策树与随机森林\t300
16.5 GBDT回归\t301
第17章 常用聚类算法\t303
17.1 聚类评估指标\t304
17.1.1 基本评估指标\t304
17.1.2 基于标签值的评估指标\t306
17.2 K-Means聚类\t308
17.2.1 算法简介\t308
17.2.2 K-Means实例\t309
17.3 高斯混合模型\t314
17.3.1 算法介绍\t314
17.3.2 GMM实例\t316
17.4 二分K-Means聚类\t317
17.5 基于经纬度的聚类\t320
第18章 批式与流式聚类\t324
18.1 稠密向量与稀疏向量\t324
18.2 使用聚类模型预测流式数据\t326
18.3 流式聚类\t329
第19章 主成分分析\t331
19.1 主成分的含义\t333
19.2 两种计算方式\t337
19.3 在聚类方面的应用\t339
19.4 在分类方面的应用\t343
第20章 超参数搜索\t347
20.1 示例一:尝试正则系数\t348
20.2 示例二:搜索GBDT超参数\t349
20.3 示例三:最佳聚类个数\t350
第21章 文本分析\t353
21.1 数据探索\t353
21.2 分词\t355
21.2.1 中文分词\t356
21.2.2 Tokenizer和RegexTokenizer\t359
21.3 词频统计\t363
21.4 单词的区分度\t365
21.5 抽取关键词\t367
21.5.1 原理简介\t367
21.5.2 示例\t369
21.6 文本相似度\t371
21.6.1 文本成对比较\t372
21.6.2 最相似的TopN\t375
21.7 主题模型\t387
21.7.1 LDA模型\t388
21.7.2 新闻的主题模型\t390
21.7.3 主题与原始分类的对比\t392
21.8 组件使用小结\t396
第22章 单词向量化\t398
22.1 单词向量预训练模型\t399
22.1.1 加载模型\t399
22.1.2 查找相似的单词\t400
22.1.3 单词向量\t402
22.2 单词映射为向量\t406
第23章 情感分析\t412
23.1 使用提供的特征\t413
23.1.1 使用朴素贝叶斯方法\t416
23.1.2 使用逻辑回归算法\t419
23.2 如何提取特征\t423
23.3 构造更多特征\t426
23.4 模型保存与预测\t430
23.4.1 批式/流式预测任务\t430
23.4.2 嵌入式预测\t431
第24章 构建推荐系统\t433
24.1 与推荐相关的组件介绍\t434
24.2 常用推荐算法\t437
24.2.1 协同过滤\t437
24.2.2 交替最小二乘法\t438
24.3 数据探索\t439
24.4 评分预测\t444
24.5 根据用户推荐影片\t446
24.6 计算相似影片\t452
24.7 根据影片推荐用户\t454
24.8 计算相似用户\t457
第1章 Alink快速上手\t1
1.1 Alink是什么\t1
1.2 免费下载、安装\t1
1.3 Alink的功能\t2
1.3.1 丰富的算法库\t2
1.3.2 多样的使用体验\t3
1.3.3 与SparkML的对比\t3
1.4 关于数据和代码\t4
1.5 简单示例\t5
1.5.1 数据的读/写与显示\t5
1.5.2 批式训练和批式预测\t7
1.5.3 流式处理和流式预测\t9
1.5.4 定义Pipeline,简化操作\t10
1.5.5 嵌入预测服务系统\t12
第2章 系统概况与核心概念\t14
2.1 基本概念\t14
2.2 批式任务与流式任务\t15
2.3 Alink=A+link\t18
2.3.1 BatchOperator和StreamOperator\t19
2.3.2 link方式是批式算法/流式算法的通用使用方式\t20
2.3.3 link的简化\t23
2.3.4 组件的主输出与侧输出\t23
2.4 Pipeline与PipelineModel\t24
2.4.1 概念和定义\t24
2.4.2 深入介绍\t25
2.5 触发Alink任务的执行\t28
2.6 模型信息显示\t29
2.7 文件系统与数据库\t34
2.8 Schema String\t36
第3章 文件系统与数据文件\t38
3.1 文件系统简介\t38
3.1.1 本地文件系统\t39
3.1.2 Hadoop文件系统\t41
3.1.3 阿里云OSS文件系统\t43
3.2 数据文件的读入与导出\t45
3.2.1 CSV格式\t47
3.2.2 TSV、LibSVM、Text格式\t53
3.2.3 AK格式\t56
第4章 数据库与数据表\t60
4.1 简介\t60
4.1.1 Catalog的基本操作\t60
4.1.2 Source和Sink组件\t61
4.2 Hive示例\t62
4.3 Derby示例\t65
4.4 MySQL示例\t67
第5章 支持Flink SQL\t70
5.1 基本操作\t70
5.1.1 注册\t70
5.1.2 运行\t71
5.1.3 内置函数\t74
5.1.4 用户定义函数\t74
5.2 简化操作\t75
5.2.1 单表操作\t76
5.2.2 两表的连接(JOIN)操作\t80
5.2.3 两表的集合操作\t82
5.3 深入介绍Table Environment\t86
5.3.1 注册数据表名\t87
5.3.2 撤销数据表名\t88
5.3.3 扫描已注册的表\t89
第6章 用户定义函数(UDF/UDTF)\t90
6.1 用户定义标量函数(UDF)\t90
6.1.1 示例数据及问题\t91
6.1.2 UDF的定义\t91
6.1.3 使用UDF处理批式数据\t92
6.1.4 使用UDF处理流式数据\t93
6.2 用户定义表值函数(UDTF)\t95
6.2.1 示例数据及问题\t95
6.2.2 UDTF的定义\t96
6.2.3 使用UDTF处理批式数据\t96
6.2.4 使用UDTF处理流式数据\t99
第7章 基本数据处理\t101
7.1 采样\t101
7.1.1 取“前”N个数据\t102
7.1.2 随机采样\t102
7.1.3 加权采样\t104
7.1.4 分层采样\t105
7.2 数据划分\t106
7.3 数值尺度变换\t108
7.3.1 标准化\t109
7.3.2 MinMaxScale\t111
7.3.3 MaxAbsScale\t112
7.4 向量的尺度变换\t113
7.4.1 StandardScale、MinMaxScale、MaxAbsScale\t113
7.4.2 正则化\t115
7.5 缺失值填充\t116
第8章 线性二分类模型\t119
8.1 线性模型的基础知识\t119
8.1.1 损失函数\t119
8.1.2 经验风险与结构风险\t121
8.1.3 线性模型与损失函数\t122
8.1.4 逻辑回归与线性支持向量机(Linear SVM)\t123
8.2 二分类评估方法\t125
8.2.1 基本指标\t126
8.2.2 综合指标\t128
8.2.3 评估曲线\t131
8.3 数据探索\t136
8.3.1 基本统计\t138
8.3.2 相关性\t140
8.4 训练集和测试集\t144
8.5 逻辑回归模型\t145
8.6 线性SVM模型\t147
8.7 模型评估\t149
8.8 特征的多项式扩展\t153
8.9 因子分解机\t157
第9章 朴素贝叶斯模型与决策树模型\t160
9.1 朴素贝叶斯模型\t160
9.2 决策树模型\t162
9.2.1 决策树的分裂指标定义\t165
9.2.2 常用的决策树算法\t167
9.2.3 指标计算示例\t169
9.2.4 分类树与回归树\t172
9.2.5 经典的决策树示例\t173
9.3 数据探索\t176
9.4 使用朴素贝叶斯方法\t179
9.5 蘑菇分类的决策树\t185
第10章 特征的转化\t191
10.1 整体流程\t195
10.1.1 特征哑元化\t197
10.1.2 特征的重要性\t198
10.2 减少模型特征的个数\t200
10.3 离散特征转化\t202
10.3.1 独热编码\t202
10.3.2 特征哈希\t204
第11章 构造新特征\t207
11.1 数据探索\t208
11.2 思路\t210
11.2.1 用户和品牌的各种特征\t211
11.2.2 二分类模型训练\t212
11.3 计算训练集\t213
11.3.1 原始数据划分\t213
11.3.2 计算特征\t214
11.3.3 计算标签\t222
11.4 正负样本配比\t224
11.5 决策树\t226
11.6 集成学习\t227
11.6.1 Bootstrap aggregating\t228
11.6.2 Boosting\t229
11.6.3 随机森林与GBDT\t232
11.7 使用随机森林算法\t233
11.8 使用GBDT算法\t234
第12章 从二分类到多分类\t235
12.1 多分类模型评估方法\t235
12.1.1 综合指标\t237
12.1.2 关于每个标签值的二分类指标\t238
12.1.3 Micro、Macro、Weighted计算的指标\t239
12.2 数据探索\t241
12.3 使用朴素贝叶斯进行多分类\t244
12.4 二分类器组合\t246
12.5 Softmax算法\t249
12.6 多层感知器分类器\t253
第13章 常用多分类算法\t256
13.1 数据准备\t256
13.1.1 读取MNIST数据文件\t257
13.1.2 稠密向量与稀疏向量\t258
13.1.3 标签值的统计信息\t261
13.2 Softmax算法\t262
13.3 二分类器组合\t264
13.4 多层感知器分类器\t265
13.5 决策树与随机森林\t267
13.6 K最近邻算法\t270
第14章 在线学习\t273
14.1 整体流程\t273
14.2 数据准备\t275
14.3 特征工程\t277
14.4 特征工程处理数据\t279
14.5 在线训练\t280
14.6 模型过滤\t283
第15章 回归的由来\t286
15.1 平均数\t287
15.2 向平均数方向的回归\t288
15.3 线性回归\t289
第16章 常用回归算法\t292
16.1 回归模型的评估指标\t292
16.2 数据探索\t294
16.3 线性回归\t297
16.4 决策树与随机森林\t300
16.5 GBDT回归\t301
第17章 常用聚类算法\t303
17.1 聚类评估指标\t304
17.1.1 基本评估指标\t304
17.1.2 基于标签值的评估指标\t306
17.2 K-Means聚类\t308
17.2.1 算法简介\t308
17.2.2 K-Means实例\t309
17.3 高斯混合模型\t314
17.3.1 算法介绍\t314
17.3.2 GMM实例\t316
17.4 二分K-Means聚类\t317
17.5 基于经纬度的聚类\t320
第18章 批式与流式聚类\t324
18.1 稠密向量与稀疏向量\t324
18.2 使用聚类模型预测流式数据\t326
18.3 流式聚类\t329
第19章 主成分分析\t331
19.1 主成分的含义\t333
19.2 两种计算方式\t337
19.3 在聚类方面的应用\t339
19.4 在分类方面的应用\t343
第20章 超参数搜索\t347
20.1 示例一:尝试正则系数\t348
20.2 示例二:搜索GBDT超参数\t349
20.3 示例三:最佳聚类个数\t350
第21章 文本分析\t353
21.1 数据探索\t353
21.2 分词\t355
21.2.1 中文分词\t356
21.2.2 Tokenizer和RegexTokenizer\t359
21.3 词频统计\t363
21.4 单词的区分度\t365
21.5 抽取关键词\t367
21.5.1 原理简介\t367
21.5.2 示例\t369
21.6 文本相似度\t371
21.6.1 文本成对比较\t372
21.6.2 最相似的TopN\t375
21.7 主题模型\t387
21.7.1 LDA模型\t388
21.7.2 新闻的主题模型\t390
21.7.3 主题与原始分类的对比\t392
21.8 组件使用小结\t396
第22章 单词向量化\t398
22.1 单词向量预训练模型\t399
22.1.1 加载模型\t399
22.1.2 查找相似的单词\t400
22.1.3 单词向量\t402
22.2 单词映射为向量\t406
第23章 情感分析\t412
23.1 使用提供的特征\t413
23.1.1 使用朴素贝叶斯方法\t416
23.1.2 使用逻辑回归算法\t419
23.2 如何提取特征\t423
23.3 构造更多特征\t426
23.4 模型保存与预测\t430
23.4.1 批式/流式预测任务\t430
23.4.2 嵌入式预测\t431
第24章 构建推荐系统\t433
24.1 与推荐相关的组件介绍\t434
24.2 常用推荐算法\t437
24.2.1 协同过滤\t437
24.2.2 交替最小二乘法\t438
24.3 数据探索\t439
24.4 评分预测\t444
24.5 根据用户推荐影片\t446
24.6 计算相似影片\t452
24.7 根据影片推荐用户\t454
24.8 计算相似用户\t457
猜您喜欢