书籍详情
基于R语言的数据清洗技术
作者:白世贞,魏胜,薛宁 著
出版社:经济管理出版社
出版时间:2022-03-01
ISBN:9787509683149
定价:¥59.00
购买这本书可以去
内容简介
数据分析指的是将数据转化为价值的一个完整过程,而分析数据只是其中的一个环节而已,第一步工作应该是梳理业务目标。人们在进行数据分析的时候,业务目标与分析数据之间还有一个环节的工作——数据清洗。当你辛辛苦苦梳理完业务目标,结果还没有对数据进行必要的清洗工作就去分析,那么分析的结果很有可能是完全错误的。而《基于R语言的数据清洗技术》的目标就是带领读者去识别数据中可能存在的问题,并借助R语言这个工具将问题数据清洗干净,这样才会使得后续的分析结果更加真实可信。
作者简介
白世贞,1962年生,山东菏泽人,系统工程博士,常年从事工商管理、物流与供应链管理的研究与教学。主持国家自然科学基金、国家科技支撑计划重点专项子课题等***项目5项;在SSGI期刊收录、《中国管理科学》等国内A刊发表论文30余篇;出版《供应链复杂系统建模与仿真》等专著5部;主编出版***规划教材4部。魏胜,吉林大学企业管理专业博士,哈尔滨商业大学管理学院副教授,在《数理统计与管理》《经济管理》等期刊发表论文7篇。薛宁,河南南阳人,哈尔滨商业大学管理学院2018级博士生。研究方向:物流与供应链管理。参与多项国家社科基金项目。
目录
1 认识本书的数据集
1.1 引言
1.2 涉及数据清洗的基本函数
1.2.1 进行缺失值判断-is.na函数
1.2.2 进行频次统计-table函数
1.2.3 进行数据定位-which函数
1.2.4 进行数据概览-summar函数
1.2.5 输出选定部分-head函数
1.3 读入数据
1.4 数据的结构与基本信息
1.4.1 该数据集的结构
1.4.2 该数据集的基本信息
1.5 业务目标与数据清洗工作
2 识别与清洗数值型数据中的异常值
2.1 引言
2.2 梳理业务目标
2.3 快速清洗异常数据
2.3.1 快速识别与删除缺失值
2.3.2 快速识别离群值
2.4 清洗离群值
2.4.1 利用经验清洗离群值
2.4.2 利用均值与标准差检测离群值
2.4.3 截去部分离群值
2.4.4 利用四分位差检测离群值
2.5 其他数值数据清洗技术
2.5.1 最大值与最小值
2.5.2 排序
2.5.3 数值变量的分位数
2.5.4 自定义函数:数据截断
2.6 小结
……
3 利用正则表达式检测字符型数据
4 处理时间与日期类型的数据
5 重复数据及其异常值
6 多数据集处理
7 用户分析与数据清洗工作
8 清洗字符型数据
参考文献
后记
1.1 引言
1.2 涉及数据清洗的基本函数
1.2.1 进行缺失值判断-is.na函数
1.2.2 进行频次统计-table函数
1.2.3 进行数据定位-which函数
1.2.4 进行数据概览-summar函数
1.2.5 输出选定部分-head函数
1.3 读入数据
1.4 数据的结构与基本信息
1.4.1 该数据集的结构
1.4.2 该数据集的基本信息
1.5 业务目标与数据清洗工作
2 识别与清洗数值型数据中的异常值
2.1 引言
2.2 梳理业务目标
2.3 快速清洗异常数据
2.3.1 快速识别与删除缺失值
2.3.2 快速识别离群值
2.4 清洗离群值
2.4.1 利用经验清洗离群值
2.4.2 利用均值与标准差检测离群值
2.4.3 截去部分离群值
2.4.4 利用四分位差检测离群值
2.5 其他数值数据清洗技术
2.5.1 最大值与最小值
2.5.2 排序
2.5.3 数值变量的分位数
2.5.4 自定义函数:数据截断
2.6 小结
……
3 利用正则表达式检测字符型数据
4 处理时间与日期类型的数据
5 重复数据及其异常值
6 多数据集处理
7 用户分析与数据清洗工作
8 清洗字符型数据
参考文献
后记
猜您喜欢