书籍详情

大数据分析与应用实战

大数据分析与应用实战

作者:邹庆士

出版社:清华大学出版社

出版时间:2021-06-01

ISBN:9787302575337

定价:¥128.00

购买这本书可以去
内容简介
  本书主要介绍大数据分析与应用,包括数据驱动程序设计、数据前处理、统计机器学习基础、无监督式学习、监督式学习、其他学习方式(集成学习、深度学习、强化学习)等6章内容。 本书特色:文字说明、程序代码与执行结果等交叉呈现,有助于阅读理解;提供来自不同领域的资料处理与分析范例;同时掌握数据分析两大主流工具—— R 与 Python;凸显第四代与第三代程序语言的不同之处。 本书读者对象:计算机、人工智能、大数据等相关专业的本科生、研究生,对大数据分析与应用感兴趣的社会读者,以及大数据分析与应用行业的工程技术人员。
作者简介
  邹庆士,明志科技大学机械工程系特聘教授兼人工智能暨数据科学研究中心主任。主要从事人工智能与统计机器学习、博弈理论应用、演化式多目标化、弹性制造与工业控制等领域的教学、科研工作。1988年在台湾中原大学工学院取得学士学位,1990年在台湾中原大学机械工程研究所取得硕士学位,1994年在台湾科技大学取得运筹学博士学位,毕业后在台湾中华大学企业管理学系暨经营管理研究所、台湾世新大学信息管理学系暨研究所、台北商业大学信息与决策科学研究所任教,长期讲授“数据科学导论”“统计机器学习与决策”“人工智能”等课程。近年来提供大数据分析培训与咨询服务,主持气象、交通、互联网、电子商务、金融科技、智慧养殖、绿能发电、环境辐射、化工制程等跨领域大数据分析建模产学合作案例,协助从业者学习实际应用统计机器学习技术,并与两岸多所大专院校合作开授R/Python语言数据科学讲座,分享跨领域数据解析的实践经验,致力于培育理论与实践兼具的跨域人才。
目录
第1章  数据驱动程序设计 1 1.1  套件管理 1 1.1.1  基本套件 5 1.1.2  建议套件 6 1.1.3  贡献套件 9 1.2  环境与辅助说明 11 1.3  R语言数据对象 17 1.3.1  向量 18 1.3.2  矩阵 22 1.3.3  数组 25 1.3.4  列表 28 1.3.5  数据集 31 1.3.6  因子 38 1.3.7  R语言原生数据对象取值  42 1.3.8  R语言衍生数据对象 49 1.4  Python语言数据对象 54 1.4.1  Python语言原生数据对象处理  54 1.4.2  Python语言衍生数据对象取值  62 1.4.3  Python语言类别变量编码  68 1.5  向量化与隐式循环 71 1.6  编程范式与面向对象概念 77 1.6.1  R语言S3类别 80 1.6.2  Python语言面向对象 84 1.7  控制流程与自定义函数 89 1.7.1  控制流程 89 1.7.2  自定义函数 92 1.8  数据导入与导出 99 1.8.1  R语言数据导入及导出  99 1.8.2  Python语言数据导入及导出  101 1.9  程序调试与效率监测 105 第2章  数据前处理 112 2.1  数据管理 112 2.1.1  R语言数据组织与排序  113 2.1.2  Python语言数据排序  119 2.1.3  R语言数据变形 123 2.1.4  Python语言数据变形  127 2.1.5  R语言数据清理 128 2.1.6  Python语言数据清理  151 2.2  数据摘要与汇总 154 2.2.1  摘要统计量 155 2.2.2  R语言群组与摘要 163 2.2.3  Python语言群组与摘要  172 2.3  特征工程 183 2.3.1  特征转换与移除 183 2.3.2  特征提取的主成分分析  198 2.3.3  特征选择 211 2.3.4  结语 216 2.4  大数据处理概念 217 2.4.1  文本数据处理 218 2.4.2  Hadoop分布式文件系统  232 2.4.3  Spark集群计算框架 233 第3章  统计机器学习基础 237 3.1  随机误差模型 238 3.1.1  统计机器学习类型 243 3.1.2  过度拟合 244 3.2  模型性能评量 247 3.2.1  回归模型性能指标 247 3.2.2  分类模型性能指标 250 3.2.3  模型性能可视化 259 3.3  模型选择与评定 263 3.3.1  重抽样与数据分割方法  263 3.3.2  单类模型参数调校 273 3.3.3  比较不同类的模型 287 3.4  相似性与距离 290 3.5  相关与独立 293 3.5.1  数值变量与顺序尺度类别变量  293 3.5.2  名目尺度类别变量 298 3.5.3  类别变量可视化关联检验  307 第4章  无监督式学习 315 4.1  数据可视化 316 4.2  关联形态挖掘 324 4.2.1  关联形态评估准则 324 4.2.2  在线音乐城关联规则分析  325 4.2.3  结语 333 4.3  聚类分析 334 4.3.1  k均值聚类法 335 4.3.2  阶#层式聚类 346 4.3.3  密度聚类 351 4.3.4  聚类结果评估 355 4.3.5  结语 356 第5章  监督式学习 357 5.1  线性回归与分类 358 5.1.1  多元线性回归 358 5.1.2  偏#小二乘法回归 379 5.1.3  岭回归、套索回归与弹性网罩惩罚模型 385 5.1.4  线性判别分析 392 5.1.5  逻辑回归分类与广义线性模型  398 5.2  非线性分类与回归 401 5.2.1  朴素贝叶斯分类 401 5.2.2  k近邻法分类 413 5.2.3  支持向量机分类 422 5.2.4  分类与回归树 445 第6章  其他学习方式 479 6.1  集成学习 479 6.1.1  拔靴集成法 480 6.1.2  多模激发法 480 6.1.3  随机森林 489 6.1.4  结语 490 6.2  深度学习 490 6.2.1  人工神经网络简介 491 6.2.2  多层感知机 493 6.2.3  卷积神经网络 502 6.2.4  递归神经网络 507 6.2.5  自动编码器 510 6.2.6  受限玻尔兹曼机 511 6.2.7  深度信念网络 513 6.2.8  深度学习参数调校 513 6.3  强化学习 516 参考文献 521 索引 523
猜您喜欢

读书导航