书籍详情

干净的数据:数据清洗入门与实践

干净的数据:数据清洗入门与实践

作者:斯夸尔

出版社:人民邮电出版社

出版时间:2016-04-01

ISBN:9787115420473

定价:¥49.00

购买这本书可以去
内容简介
  本书主要内容包括:数据清洗在数据科学领域中的重要作用,文件格式、数据类型、字符编码的基本概念,组织和处理数据的电子表格与文本编辑器,各种格式数据的转换方法,解析和清洗网页上的HTML 文件的三种策略,提取和清洗PDF 文件中数据的方法,检测和清除RDBMS 中的坏数据的解决方案,以及使用书中介绍的方法清洗来自Twitter 和Stack Overflow 的数据。
作者简介
暂缺《干净的数据:数据清洗入门与实践》作者简介
目录
目录 第1 章 为什么需要清洗数据 1 1.1 新视角 1 1.2 数据科学过程 2 1.3 传达数据清洗工作的内容 3 1.4 数据清洗环境 4 1.5 入门示例 5 1.6 小结 9 第2 章 基础知识——格式、 类型与编码 11 2.1 文件格式 11 2.1.1 文本文件与二进制文件 11 2.1.2 常见的文本文件格式 14 2.1.3 分隔格式 14 2.2 归档与压缩 20 2.2.1 归档文件 20 2.2.2 压缩文件 21 2.3 数据类型、空值与编码 24 2.3.1 数据类型 25 2.3.2 数据类型间的相互转换 29 2.3.3 转换策略 30 2.3.4 隐藏在数据森林中的空值 37 2.3.5 字符编码 41 2.4 小结 46 第3 章 数据清洗的老黄牛——电子表格和文本编辑器 47 3.1 电子表格中的数据清洗 47 3.1.1 Excel 的文本分列功能 47 3.1.2 字符串拆分 51 3.1.3 字符串拼接 51 3.2 文本编辑器里的数据清洗 54 3.2.1 文本调整 55 3.2.2 列选模式 56 3.2.3 加强版的查找与替换功能 56 3.2.4 文本排序与去重处理 58 3.2.5 Process Lines Containing 60 3.3 示例项目 60 3.3.1 第一步:问题陈述 60 3.3.2 第二步:数据收集 60 3.3.3 第三步:数据清洗 61 3.3.4 第四步:数据分析 63 3.4 小结 63 第4 章 讲通用语言——数据转换 64 4.1 基于工具的快速转换 64 4.1.1 从电子表格到CSV 65 4.1.2 从电子表格到JSON 65 4.1.3 使用phpMyAdmin 从SQL语句中生成CSV 或JSON 67 4.2 使用PHP 实现数据转换 69 4.2.1 使用PHP 实现SQL 到JSON的数据转换 69 4.2.2 使用PHP 实现SQL 到CSV的数据转换 70 4.2.3 使用PHP 实现JSON 到CSV的数据转换 71 4.2.4 使用PHP 实现CSV 到JSON的数据转换 71 4.3 使用Python 实现数据转换 72 4.3.1 使用
猜您喜欢

读书导航