数据清洗
作者:黑马程序员
出版社:清华大学出版社
出版时间:2020-04-01
ISBN:9787302550877
定价:¥49.80
第1章 数据清洗概述
1.1 数据清洗的背景
1.1.1 数据质量概述
1.1.2 数据质量的评价指标
1.1.3 数据质量的问题分类
1.2 数据清洗的定义
1.3 数据清洗的原理
1.4 数据清洗的基本流程
1.5 数据清洗的策略
1.6 常见的数据清洗方法
1.7 本章小结
1.8 本章习题
第2章 初识ETL
2.1 基于ETL的数据清洗
2.1.1 ETL的概念
2.1.2 ETL的体系结构
2.2 ETL关键技术
2.2.1 数据的抽取
2.2.2 数据的清洗转换
2.2.3 数据的加载
2.3 ETL常见工具介绍
2.4 本章小结
2.5 本章习题
第3章 Kettle工具的基本使用
3.1 Kettle简介
3.1.1 Kettle概述
3.1.2 Kettle的设计原则203.2 Kettle的下载安装
3.3 Kettle的基本概念
3.3.1 转换
3.3.2 作业
3.4 Kettle的基本功能
3.4.1 转换管理
3.4.2 作业管理
3.4.3 数据库连接
3.5 本章小结
3.6 本章习题
第4章 数据抽取
4.1 抽取文本数据
4.1.1 TSV文件的抽取
4.1.2 CSV文件的抽取
4.2 抽取Web数据
4.2.1 HTML网页的数据抽取
4.2.2 XML文件的数据抽取
4.2.3 JSON文件的数据抽取
4.3 抽取数据库数据
4.3.1 抽取关系型数据库的数据
4.3.2 抽取非关系型数据库的数据
4.4 本章小结
4.5 本章习题
第5章 数据的清洗与检验
5.1 数据去重
5.1.1 完全去重
5.1.2 不完全去重
5.2 缺失值处理
5.2.1 缺失值清洗策略
5.2.2 去除缺失值
5.2.3 填充缺失值
5.3 异常值
5.3.1 出现异常值的原因
5.3.2 检测异常值
5.3.3 删除包含异常值的记录
……
第6章 数据转换
第7章 数据加载
第8章 综合案例——构建DVD租赁商店数据仓库