书籍详情

大数据分析技术

大数据分析技术

作者:李俊翰,聂强

出版社:机械工业出版社

出版时间:2022-08-01

ISBN:9787111712084

定价:¥59.00

购买这本书可以去
内容简介
  本书主要面向高职大数据技术专业的学生,注重大数据分析技术的应用和实践。本书每个项目主要分为两个部分。部分是大数据分析技术的理论知识,主要讲解了大数据分析模型、Python数据分析工具、NumPy和Pandas数据分析库、Matplotlib数据分析可视化库、Hadoop及其常用组件以及scikitlearn机器学习库的基本原理和操作。第二部分是任务实施,通过17个实操任务充分展现了大数据分析技术的主要功能和特点。 \n本书既可作为高等职业院校大数据技术、信息安全与管理、软件技术、计算机网络技术、云计算技术等专业的教材,也适合有一定Python编程经验并对大数据分析技术感兴趣的读者阅读。
作者简介
  李俊翰,中共党员,执教13年。教学经验丰富。作为主研参与大数据技术与应用国家专业教学资源库建设工作,主持子课程《应用程序开发基础(Java)》;发表SCI2篇,中文核心3篇;完成软件著作权1项,实用新型专利4项,横向课题2项;作为指导教师,指导学生参加全国职业院校技能大赛“大数据技术与应用”赛项获二等奖,重庆市职业院校技能竞赛“大数据技术与应用”赛项获得一等奖3项,“一带一路”暨金砖国际技能大赛大数据赛项三等奖等;主参编教材《大数据采集与爬虫》《大数据平台应用》《Python编程基础》《Spark大数据实时分析实战》;作为主讲教师先后承担《数据预处理》《大数据编程基础(Python)》和《大数据可视化技术》等十余门课程。
目录
目录 \n
前言 \n
项目1 认识大数据分析 \n
1.1 大数据分析概述 \n
1.1.1 大数据分析的概念和发展 \n
1.1.2 大数据分析的作用和影响 \n
1.2 大数据分析模型 \n
1.2.1 大数据分析的技术和工具 \n
1.2.2 大数据分析的流程 \n
1.2.3 大数据分析的模型简介 \n
【任务实施】 \n
任务1 网站用户活跃度指标综合分析 \n
任务2 身高体重指标数据关联分析 \n
练习题 \n
项目2 安装Python数据分析工具 \n
2.1 Python数据分析基本概念 \n
2.1.1 Python数据分析的特点 \n
2.1.2 Python与其他数据分析工具的比较 \n
2.2 Python数据分析常用库介绍 \n
2.2.1 NumPy简介 \n
2.2.2 Pandas简介 \n
2.2.3 SciPy简介 \n
2.2.4 Matplotlib简介 \n
2.2.5 scikitlearn简介 \n
2.2.6 Statmodels简介 \n
2.2.7 Seaborn简介 \n
【任务实施】 \n
任务1 在Windows系统中安装Anaconda \n
任务2 运行Jupyter Notebook \n
任务3 PyCharm的安装和使用 \n
练习题 \n
项目3 使用NumPy实现统计分析和处理 \n
3.1 NumPy的基本概念 \n
3.1.1 NumPy基础理论和引用方法 \n
3.1.2 ndarry对象 \n
3.1.3 NumPy数据类型 \n
3.1.4 NumPy数组属性 \n
3.1.5 NumPy切片和索引 \n
3.2 NumPy函数 \n
3.2.1 NumPy数学函数 \n
3.2.2 NumPy数组维度操作函数 \n
3.2.3 NumPy创建数组函数 \n
3.2.4 NumPy常用IO函数 \n
3.2.5 NumPy广播 \n
【任务实施】 \n
任务1 使用Numpy实现股票数据分析 \n
任务2 使用Numpy实现豆瓣电影数据 \n
分析 \n
练习题 \n
项目4 Pandas数据分析和处理 \n
4.1 Pandas的基本概念 \n
4.1.1 Pandas基础理论和引用方法 \n
4.1.2 Pandas基本数据结构 \n
4.2 Pandas的基本用法 \n
4.2.1 创建Pandas对象 \n
4.2.2 查看Pandas基本数据 \n
4.2.3 Pandas索引和切片 \n
4.2.4 Pandas缺失值和空值处理 \n
4.2.5 Pandas连接和合并数据 \n
4.2.6 Pandas分组 \n
4.2.7 Pandas重塑 \n
4.2.8 Pandas数据透视表 \n
4.2.9 Pandas时间序列 \n
4.2.10 Pandas分类 \n
4.2.11 Pandas IO操作 \n
【任务实施】 \n
任务1 使用Pandas实现水果销售数据分析 \n
任务2 使用Pandas实现用户消费行为数据分析 \n
任务3 使用Pandas实现电商销售数据分析 \n
练习题 \n
项目5 Matplotlib数据分析可视化库 \n
5.1 Matplotlib的基本概念 \n
5.1.1 Matplotlib基础理论和引用方法 \n
5.1.2 散点图 \n
5.1.3 条形图 \n
5.1.4 折线图 \n
5.1.5 饼图 \n
5.1.6 直方图 \n
5.1.7 箱形图 \n
5.2 组合图 \n
5.2.1 曲线组合图 \n
5.2.2 柱状、散点、折线组合图 \n
5.2.3 直方图组合图123 【任务实施】 \n
任务1 使用饼图实现零售总额数据分析 \n
任务2 使用折线图实现零售总额数据分析 \n
任务3 使用双柱状图实现零售总额变化情况数据分析 \n
练习题 \n
项目6 基于Hadoop的数据分析 \n
6.1 掌握Hadoop框架和生态组件 \n
6.1.1 Hadoop简介 \n
6.1.2 Hadoop核心组件和工作原理 \n
6.1.3 Hadoop安装、部署和应用 \n
6.2 Hadoop生态组件 \n
6.2.1 Hadoop生态圈简介 \n
6.2.2 Hive的安装、部署和应用 \n
6.2.3 Spark的安装、部署和应用 \n
6.2.4 HBase的安装、部署和应用 \n
6.2.5 Kafka的安装、部署和应用 \n
6.2.6 Flume的安装、部署和应用 \n
6.2.7 Sqoop的安装、部署和应用 \n
6.2.8 Zookeeper的安装、部署和应用 \n
【任务实施】 \n
任务1 使用Hadoop及其组件Hive实现数据分析 \n
任务2 使用Hadoop及其组件Spark实现数据分析 \n
练习题 \n
项目7 基于scikitlearn机器学习库的数据分析 \n
7.1 掌握机器学习基本概念 \n
7.1.1 机器学习简介 \n
7.1.2 机器学习基本流程 \n
7.1.3 机器学习开发流程 \n
7.1.4 机器学习算法分类 \n
7.2 掌握scikitlearn的基本用法 \n
7.2.1 scikitlearn的安装和引用方法 \n
7.2.2 scikitlearn的基本用法 \n
【任务实施】 \n
任务1 使用scikitlearn实现鸢尾花数据分析 \n
任务2 使用scikitlearn实现波士顿房价数据分析 \n
练习题 \n
参考文献
猜您喜欢

读书导航