书籍详情

大数据分布式计算与案例

大数据分布式计算与案例

作者:李丰

出版社:中国人民大学出版社

出版时间:2016-07-01

ISBN:9787300230276

定价:¥29.00

购买这本书可以去
内容简介
  大数据分布式计算课程是大数据方向应用统计专业硕士学生的专业必修课,通过本课程的学习使学生能够掌握目前大数据挖掘领域常用的并行计算方法,加深学生对统计并行计算的理解,培养学生使用在现代并行架构下利用统计方法深入挖掘大数据中的数据结构并能解决一些实际问题的能力。
作者简介
  李丰 中央财经大学统计与数学学院硕士生导师,院长助理。瑞典斯德哥尔摩大学统计学系统计学博士。研究方向与兴趣:大数据与复杂模型、贝叶斯推断与统计计算、计量经济与预测方法、多元模型等。曾获国际贝叶斯协会青年旅行奖励、瑞典Knut and Alice Wallenberg 基金会奖励。任中国统计教育学会高等教育分会副秘书长。金融工程与风险管理国际研讨会执行秘书等。
目录
目录第1章 统计分析与并行计算1.1 并行计算与并行计算机1.2 统计计算的并行原理||以矩阵乘法为例1.3 基于R 的单机并行计算 1.4 基于Python 的单机并行计算 1.5 大数据背景下的数据采集和存储 1.6 参考文献 第2章 Hadoop 基础 2.1 Hadoop 历史、生态系统 2.2 Hadoop 的分布式文件系统(HDFS) 2.3 MapReduce 工作原理 2.4 Hadoop 上运行MapReduce 2.5 MapReduce 实例: 分层随机抽样 2.6 MapReduce 实例: 聚类分析 2.7 参考文献 第3章 基于Hadoop 的分布式算法和模型实现 3.1 R 中实现Hadoop 分布式计算 3.2 Mahout 与大数据机器学习 3.3 利用Mahout 进行数据挖掘 3.4 Mahout 实例: Logistics 回归和随机森林分类算法 3.5 Mahout 实例: 随机森林的分布式实现 3.6 参考文献 第4章 统计模型的MapReduce 实现详解 4.1 泊松回归模型: 付费搜索广告分析 4.2 判别分析: 气象因素对雾霾影响分析 4.3 分块Logistics 回归 4.4 文本分类 4.5 朴素贝叶斯模型 4.6 岭回归模型 4.7 推荐系统 4.8 参考文献 第5章 分布式文件访问与计算 5.1 Hive 基础 5.2 HiveQL 数据定义(DDL) 5.3 HBase 5.4 Hive 实例: FoodMart 案例 5.5 Hive 实例: Hive Streaming 交互计算 5.6 参考文献 第6章 Spark 与统计模型 6.1 Spark 简介 6.2 Spark 工作原理介绍 6.3 Pyspark 命令介绍 6.4 Spark 实例: 通过Word Count 了解Spark 工作流程 6.5 Spark 实例: 二分类学习 6.6 Spark 实例: 决策树模型 6.7 参考文献 附录A Hadoop 安装运行 A.1 单机伪分布式安装 A.2 全分布式集群 附录B Mahout 安装与运行 附录C Hive 安装运行 C.1 准备 C.2 安装Hive C.3 配置Hive 附录D HBase 安装运行 D.1 安装配置HBase D.2 启动HBase
猜您喜欢

读书导航