书籍详情

Alink权威指南:基于Flink的机器学习实例入门(Python)

Alink权威指南:基于Flink的机器学习实例入门(Python)

作者:杨旭

出版社:电子工业出版社

出版时间:2022-03-01

ISBN:9787121431289

定价:¥149.00

购买这本书可以去
内容简介
  全书围绕Alink(阿里在Flink基础上做的开源版本)的展开,以实例为主阐述Alink的使用。?以机器学习的知识架构将各个章节串联起来,每个章节配合实例,用户更容易理解和入手尝试。?数据会采用读者能免费下载的数据集,在加上Alink本身是开源的、免费的。用户试用起来没有成本。?实例实现的源代码,准备放在Alink开源git上,大家容易看到,可以直接下载,代码旁边会有实体书的介绍?以机器学习的知识架构将各个章节串联起来,每个章节配合实例,用户更容易理解和入手尝试。?数据会采用读者能免费下载的数据集,在加上Alink本身是开源的、免费的。用户试用起来没有成本。?实例实现的源代码,准备放在Alink开源git上,大家容易看到,可以直接下载,代码旁边会有实体书的介绍
作者简介
  2004年获南开大学数学博士学位;随后在南开大学信息学院从事博士后研究工作;2006年加入微软亚洲研究院,进行符号计算、大规模矩阵计算及机器学习算法研究;2010年加入阿里巴巴,从事大数据相关的统计和机器学习算法研发。著有《重构大数据统计》《机器学习在线》等。
目录
目 录
VII
目 录
第1章 Alink快速上手 ...................................................................................................... 1
1.1 Alink是什么 ..............................................................................................................1
1.2 免费下载、安装 ........................................................................................................2
1.3 Alink的功能 ..............................................................................................................2
1.3.1 丰富的算法库 ................................................................................................2
1.3.2 多样的使用体验 ............................................................................................3
1.3.3 与SparkML的对比 .......................................................................................4
1.4 关于数据和代码 ........................................................................................................5
1.5 简单示例 ....................................................................................................................6
1.5.1 数据的读/写与显示 .......................................................................................6
1.5.2 批式训练和批式预测 ....................................................................................7
1.5.3 流式处理和流式预测 ..................................................................................10
1.5.4 定义Pipeline,简化操作 ............................................................................ 11
1.5.5 嵌入预测服务系统 ......................................................................................13
第2章 系统概况与核心概念 .......................................................................................... 15
2.1 基本概念 ..................................................................................................................15
2.2 批式任务与流式任务 ..............................................................................................16
Alink 权威指南:基于 Flink 的机器学习实例入门(Python)
VIII
2.3 Alink=A+link ...........................................................................................................19
2.3.1 BatchOperator和StreamOperator ...............................................................20
2.3.2 link方式是批式算法/流式算法的通用使用方式 ......................................21
2.3.3 link的简化 ...................................................................................................24
2.3.4 组件的主输出与侧输出 ..............................................................................25
2.4 Pipeline与PipelineModel .......................................................................................25
2.4.1 概念和定义 ..................................................................................................25
2.4.2 深入介绍 ......................................................................................................27
2.5 触发Alink任务的执行 ...........................................................................................29
2.6 模型信息显示 ..........................................................................................................31
2.7 文件系统与数据库 ..................................................................................................35
2.8 Schema String ..........................................................................................................37
第3章 文件系统与数据文件 .......................................................................................... 39
3.1 文件系统简介 ..........................................................................................................39
3.1.1 本地文件系统 ..............................................................................................40
3.1.2 Hadoop文件系统 .........................................................................................42
3.1.3 阿里云OSS文件系统 .................................................................................44
3.2 数据文件的读入与导出 ..........................................................................................46
3.2.1 CSV格式 .....................................................................................................47
3.2.2 TSV格式、LibSVM格式和Text格式 ......................................................54
3.2.3 AK格式 .......................................................................................................58
第4章 数据库与数据表 .................................................................................................. 61
4.1 简介 ..........................................................................................................................61
4.1.1 Catalog的基本操作 .....................................................................................61
4.1.2 Source组件和Sink组件 .............................................................................62
4.2 Hive示例 .................................................................................................................63
4.3 Derby示例 ...............................................................................................................66
4.4 MySQL示例 ............................................................................................................68
目 录
IX
第5章 支持Flink SQL ................................................................................................... 70
5.1 基本操作 ..................................................................................................................70
5.1.1 注册 ..............................................................................................................70
5.1.2 运行 ..............................................................................................................71
5.1.3 内置函数 ......................................................................................................74
5.1.4 用户定义函数 ..............................................................................................74
5.2 简化操作 ..................................................................................................................75
5.2.1 单表操作 ......................................................................................................76
5.2.2 两表的连接(JOIN)操作 ..........................................................................80
5.2.3 两表的集合操作 ..........................................................................................82
第6章 用户定义函数(UDF/UDTF) ............................................................................ 87
6.1 用户定义标量函数(UDF) ..................................................................................87
6.1.1 示例数据及问题 ..........................................................................................88
6.1.2 UDF的定义 .................................................................................................88
6.1.3 使用UDF处理批式数据 ............................................................................89
6.1.4 使用UDF处理流式数据 ............................................................................90
6.2 用户定义表值函数(UDTF) ...............................................................................92
6.2.1 示例数据及问题 ..........................................................................................92
6.2.2 UDTF的定义 ...............................................................................................92
6.2.3 使用UDTF处理批式数据 ..........................................................................93
猜您喜欢

读书导航