书籍详情

人工智能与大数据：基础概念和模型（卷1）

作者：（新加坡）周志华（Chew Chee Hua）

出版社：人民邮电出版社

出版时间：2022-04-01

ISBN：9787115575753

定价：¥119.90

购买这本书可以去

内容简介

　　本书介绍了人工智能和大数据涉及的核心概念和模型。书中涉及概念包括监督和非监督学习、数据类型、可视化、线性回归、逻辑回归、分类回归树、神经网络等。同时，本书理论和实际并重，基于真实的实例和数据集，引入了R语言演示实际计算和操作，为读者展示解决实际问题的代码，从而让读者掌握在实际生活中解决相关问题的方法。本书适合想要综合学习人工智能、大数据和数据科学，尤其是想要依靠这些学科解决实际问题的人学习，也适合作为相关课程的参考教材。

作者简介

　　Chew Chee Hua（中文名：周志华），新加披南洋理工大学高级讲师，主讲课程包括分析学、机器学习、商业分析及应用机器学习、分析战略等。曾为政府机构、银行、保险公司、医院和大型企业设计和领导高级分析解决方案。

第 1 章介绍和概述． 1
1．1　主要的成功案例和应用．1
1．1．1 Netflix 的 120 亿美元营收目标．1
1．1．2　在医院急诊部使用有限的信息拯救生命．3
1．1．3　癌症诊断与损伤预后．5
1．1．4 从零开始使用低预算连续赢得 20 场比赛．6
1．1．5　壳牌公司深海石油钻探的预测性资产维护．7
1．1．6　预测选举结果．8
1．1．7　星展银行预测现金需求和优化调度．9
1．1．8　新加坡税务局检测税务欺诈．10
1．1．9　违规和欺诈贷款风险检测．11
1．2　适合 ADA 解决的问题特征．12
1．3　数据分析、数据科学和人工智能的区别．13
1．4 analysis 和 analytics ．14
1．5　组织 ADA 能力的发展曲线．15
1．6　规划、开发和部署 ADA ．18
1．7　四大预测模型．19
第 2 章基本概念和原则． 21
2．1　本章目标．21
2．2　可视化和模型．21
2．3　监督学习和无监督学习．24
2．4　模型的可解释性．25
2．5　原则 1：正确模型不唯一．26
2．5．1　模型和等式．28
2．5．2　评估预测模型．29
2．6　原则 2：训练数据和测试数据分离． 31
2．6．1　在训练 - 测试拆分前进行分层．33
2．6．2　有效地执行分层和训练 - 测试拆分．34
2．6．3　训练集与测试集之间的权衡．39
2．7　原则 3：风险校正模型． 39
2．7．1　多项式插值定理的影响．40
2．7．2　模型复杂度．41
第 3 章数据探索和摘要． 47
3．1　本章目标．47
3．2　数据初探和 R 语言的 data．table ．47
3．2．1 data．table 的语法．48
3．2．2　示例：2014 年的纽约航班．48
3．2．3　行筛选．51
3．2．4 列排序．52
3．2．5　筛选几列并进行重命名．53
3．2．6　进一步的数据探索和问题．53
3．3　公共用途微观样本数据．59
3．3．1 探索 PUMS 中的健康保险覆盖面数据．60
3．3．2　在 R 中导入数据和摘要概述．61
3．3．3　缺失值概述．66
3．3．4　绘制单一连续变量的图形摘要—概率密度．67
3．3．5　绘制单一分类变量的图形摘要—条形图．71
3．3．6　绘制分类变量X 和连续变量Y 的图形摘要—箱线图．73
3．3．7　绘制连续变量X 和连续变量Y 的图形摘要—散点图．75
3．3．8　绘制连续变量X 和分类变量X 的图形摘要—抖动
散点图．76
3．4　结论．79
第 4 章数据结构和可视化． 83
4．1　本章目标．83
4．2　数据结构的格式．83
4．3　检查数据结构．85
4．3．1　连续数据和分类数据．85
4．3．2　定类数据与定序数据．87
4．4　可视化．90
4．5　结论．93
第 5 章数据清洗和准备． 95
5．1　本章目标．95
5．2　缺失值．95
5．2．1　更正不一致的缺失值记录．96
5．2．2 NA 和 NULL ．98
5．2．3　处理（真实存在的）缺失值．99
5．3　处理分类数据中的 NA 和错误值．100
5．4　处理连续数据中的 NA 和错误值．100
5．5　结论．102
第 6 章线性回归：最佳实践． 105
6．1　本章目标．105
6．2　相关性．105
6．2．1　强相关和因果关系．108
6．2．2　强相关和直线关系．109
6．2．3　弱相关性和无趋势．110
6．3　单输入变量的线性回归．112
6．4　多重R 方和调整R 方．115
6．5　线性回归方程和线性回归模型．117
6．6　模型诊断图．118
6．7　有影响力的异常值．119
6．8　向模型中增加一个二次项．121
6．9　多因子的线性回归．123
6．10　训练 - 测试拆分．135
6．11　结论．137
第 7 章逻辑回归：最佳实践． 140
7．1　本章目标．140
7．2　相对风险和胜算比．140
7．3　单一连续输入变量的二元逻辑回归．145
7．3．1　示例：基于学习时长预测考试结果．148
7．3．2　逻辑回归的混淆矩阵．152
7．4　多输入变量的二元逻辑回归．154
7．5　多元逻辑回归．159
7．5．1　多分类值Y 的逻辑函数．160
7．5．2　示例：影响服务评级的因素．161
7．6　结论．166
第 8 章分类回归树． 171
8．1　本章目标．171
8．2　预测心脏病发作的模型和要求．172
8．3　阶段 1：使用二分法将树增长到最大值．175
8．3．1　度量分类变量结点的杂质．176
8．3．2 CART 树的增长过程．179
8．4 阶段 2：用最弱连接剪枝法将树修剪到最小值．180
8．4．1　最弱连接剪枝．182
8．4．2 rpart 包中的α 和cp ．185
8．4．3 k 折交叉验证和 1 标准误差规则．185
8．5 示例：CART 模型在定向信用卡营销中的运用
（Y 为分类数据）．187
8．6 示例：CART 模型在汽车燃油效率中的运用
（Y 为连续数据）．198
8．7　通过代理项自动处理缺失值．205
8．8　结论．211
8．9 rpart 包的重要函数和参数总结．212
第 9 章神经网络． 219
9．1　本章目标．219
9．2　大脑处理信息过程的建模．220
9．3　信息的处理、关联和传输．221
9．4　示例：巧克力口味测试．222
9．5　通过增加权重训练神经网络．226
9．5．1　反向传播．226
9．5．2　弹性反向传播和权重回溯．228
9．6　设计神经网络需要考虑的细节．229
9．6．1　规范所有输入变量的取值范围．229
9．6．2　限制网络复杂度．230
9．6．3 neuralnet 和 nnet ．230
9．7　示例：不孕风险．231
9．8　结论．236、
第 10 章字符串和文本挖掘． 240
10．1　本章目标．240
10．2　处理字符串．240
10．3　基本的文本挖掘概念．247
10．3．1　示例：对期刊标题进行分析的字符串操作．249
10．3．2　示例：对期刊标题分析的文本挖掘操作．252
10．3．3　文档要素矩阵．256
10．3．4　非索引字．257
10．4　情绪分析．259
10．5　结论．266
第 11 章结束感想和后续计划． 269
附录 A R 和 RStudio 的安装． 271
A．1 下载安装 R ．271
A．2 下载安装 RStudio ．273
A．3 在 RStudio 中将 R 升级到最新版本．274
附录 B 基本的 R 命令和脚本． 275
B．1 RStudio 界面的 4 个面板．275
B．2 检查和设置工作目录．280
B．3 将数据输入 RStudio ．281
B．4 R 中的对象命名约定．284
B．5 R 中的通用运算符．285
B．6 R 函数．285
B．7 创建你自己的 R 函数．287
B．8 练习 R ．288

猜您喜欢

人人都能玩赚数字人

机器人系统设计与实践

基于本体的大数据归约技术