书籍详情
O'Reilly:Tableau Prep即学即用
作者:[美]卡尔·阿尔钦
出版社:中国电力出版社
出版时间:2022-08-01
ISBN:9787519864439
定价:¥128.00
购买这本书可以去
内容简介
了解准备数据时需要注意的事项。了解处理数据字段时要使用哪些Tableau Prep函数。分析数据集的形态和概貌。对输出数据进行分析,了解如何通过Tableau Prep实现工作流程自动化。学习如何使用Tableau Prep函数来清理数据。探索在实际场景中使用Tableau Prep相关技术的方法。通过管理和记录输出,使他人可以使用你的数据。
作者简介
Carl Allchin是Tableau大使,也是伦敦信息实验室(The Information Lab)的“另一位主教练”。伦敦信息实验室拥有全球领先的数据分析培训课程。Carl在金融服务领域担任商业智能分析师和管理人员的时间超过十年,他通过咨询、博客教授市场领先的数据解决方案,为数百家公司提供支持服务。Carl是Preppin’Data的创始人之一。
目录
目录
前言 .1
第1 章 为何需要自助式数据准备 .9
1.1 自助式数据可视化简史 9
1.2 获取“正确的数据” . 10
1.3 自助式数据准备的机会 11
1.4 玩转Tableau Prep 12
1.5 小结 13
第一部分 入门
第2 章 Tableau Prep Builder 入门 17
2.1 从哪里获得Tableau Prep Builder 17
2.2 如何获取Prep Builder 的许可 18
2.3 Tableau Prep Builder 界面 19
2.4 数据准备的基本步骤 . 21
2.4.1 输入步骤 22
2.4.2 清理步骤 23
2.4.3 输出步骤 24
2.4.4 保存流程 24
2.5 小结 26
第3 章 数据准备规划 .27
3.1 阶段1:了解你的数据 . 28
3.2 阶段2:明确目标状态 . 29
3.3 阶段3:确定数据从KYD 到预期状态所需的转换 31
3.4 阶段4:构建工作流程 . 33
3.5 小结 35
第4 章 塑造数据 37
4.1 在输入的数据集中寻找什么 37
4.2 什么数据形态最适合在Tableau 中进行分析 . 38
4.3 改变Prep Builder 中的数据集结构 . 40
4.3.1 Pivot(转换) 40
4.3.2 Aggregate(汇总) . 41
4.3.3 Join(连接) . 42
4.3.4 Union(联合) . 43
4.4 将数据重组技术应用于冰淇淋味的香皂案例 44
4.4.1 步骤1:将列数据转换为行数据 . 44
4.4.2 步骤2:将行数据转换为列数据 . 45
4.5 小结 46
第5 章 连接文件中的数据 47
5.1 基于文件之上的文件 . 47
5.1.1 电子表格 48
5.1.2 其他文件类型 48
5.2 在哪里可以找到你的数据文件 . 49
5.3 如何在Prep 中连接到文件 . 50
5.4 使用文件输入保存流程的注意事项 52
5.5 小结 52
第6 章 连接到数据库 .53
6.1 什么是数据库 53
6.2 如何在Prep Builder 中连接到数据库 55
6.3 何时应避免连接到数据库 58
6.4 小结 58
第二部分 数据类型
第7 章 处理数字 61
7.1 我们的数字意味着什么 62
7.2 数字的类型 . 62
7.3 用作类别还是度量 62
7.4 汇总 63
7.5 数字的格式化 63
7.6 控制数值数据的函数 . 64
7.7 小结 66
第8 章 处理日期问题 .67
8.1 为什么日期很重要? . 67
8.2 日期的各个部分 67
8.3 日期查询表 . 68
8.4 新纪元日期 . 69
8.5 Excel 序号 70
8.6 输入日期 71
8.6.1 makedate() 函数 71
8.6.2 dateparse() 函数 71
8.7 小结 73
第9 章 处理字符串数据 74
9.1 字符串意味着什么 74
9.2 字符串数据有何不同 . 75
9.2.1 字符顺序 75
9.2.2 字符串格式化注意事项 76
9.3 常用于字符串数据准备的函数 . 78
9.4 使用字符串数据的分组和替换选项 79
9.5 小结 80
第10 章 处理布尔数据 81
10.1 什么是布尔数据 . 81
10.1.1 为什么它在数据分析中如此有用 . 81
10.1.2 具有布尔逻辑的函数 83
10.2 小结 . 90
第三部分 数据的形态
第11 章 数据概要分析 93
11.1 什么是数据概况 . 93
11.2 为什么可视化数据集很重要 94
11.2.1 安斯库姆四要素 . 94
11.2.2 可视化与数据表 . 95
11.3 Prep Builder 如何配置文件数据 96
11.3.1 生成直方图和迷你直方图 . 97
11.3.2 选择概要或详细视图 99
11.3.3 突出显示数值 100
11.3.4 查看维度计数 101
11.4 排序 102
11.5 小结 102
第12 章 数据集采样 103
12.1 一个简单的规则:如果可能,全部使用 103
12.2 绕过技术限制的数据采样 103
12.2.1 数据规模 . 104
12.2.2 数据速度 . 104
12.3 需要采样的其他理由 105
12.3.1 缩短建设时间 105
12.3.2 确定你需要什么 . 105
12.4 采样技术 . 106
12.4.1 固定行数 . 106
12.4.2 随机采样 . 107
12.5 何时不要采样 108
12.6 小结 109
第13 章 将列转为行 110
13.1 何时在Tableau Prep Builder 中进行数据转换 . 110
13.2 如何将列转为行 112
13.3 小结 116
第14 章 将行转为列 117
14.1 何时使用行到列的数据转换 . 117
14.2 如何将行转为列 118
14.3 小结 121
第15 章 Prep Builder 中的汇总功能 . 122
15.1 比较Prep Builder 和Desktop 中的计算方法 122
15.2 Prep Builder 中的哪些计算方式不同 123
15.3 添加汇总的步骤 127
15.4 剩下的数据在哪里 . 131
15.5 详细程度计算选项 . 133
15.6 小结 133
第16 章 将数据集连接到一起 134
16.1 如何在Prep Builder 中连接数据集 134
16.2 加入逻辑与术语 137
16.3 Prep Builder 中的连接类型 139
16.4 何时使用每种连接类型 144
16.5 小结 145
第17 章 联合数据 . 146
17.1 什么是union(联合) . 146
17.2 如果数据结构不一样怎么办 . 148
17.3 何时联合数据 149
17.3.1 月度数据集 150
17.3.2 来自网络资源的数据集 150
17.3.3 公司合并 . 152
17.4 多表和通配符联合 . 152
17.5 小结 154
第18 章 计算 . 155
18.1 计算在数据准备中的作用是什么 155
18.2 创建一个计算字段 . 156
18.3 计算的基础知识 158
18.3.1 参考列表 . 158
18.3.2 语法 159
18.3.3 描述 160
18.3.4 示例 160
18.4 建立计算 . 160
18.4.1 当计算顺利进行时 . 160
18.4.2 当计算出现问题时 . 161
18.4.3 编辑计算字段 163
18.4.4 建议 163
18.5 计算的类型 164
18.5.1 数值计算 . 164
18.5.2 字符串计算 165
18.5.3 日期计算 . 165
18.5.4 带有布尔输出的条件计算 165
18.5.5 逻辑运算 . 165
18.5.6 类型转换 . 165
18.6 详细程度和排名计算 166
18.7 小结 167
第四部分 输出
第19 章 选择输出 . 171
19.1 输出类型 . 171
19.1.1 发布到文件 172
19.1.2 发布到Tableau 服务器 173
19.2 何时在Prep Builder 中输出数据 173
19.2.1 在输出步骤中输出数据 173
19.2.2 在Tableau Desktop 上预览输出数据 176
19.3 输出数据时的其他考虑 178
19.4 小结 179
第20 章 输出到数据库 180
20.1 何时向数据库写入数据 180
20.1.1 清理数据 . 180
20.1.2 简化的数据连接 . 181
20.1.3 阶段表和参考表 . 181
20.2 写入数据库的设置 . 181
20.3 需要注意的问题 185
20.4 小结 186
第21 章 Tableau Prep Conductor 入门 187
21.1 何时使用Tableau Prep Conductor 187
21.2 如何获得Prep Conductor 188
21.3 加载一个流程到Prep Conductor 188
21.4 使用Prep Conductor 的其他好处 195
21.5 小结 196
第五部分 清理数据
第22 章 创建附加数据 199
22.1 何时不要去创建数据 199
22.1.1 Tableau Desktop 中的动态计算 199
22.1.2 数据连接中的重复记录 201
22.2 创建附加的列 201
22.2.1 使用计算 . 201
22.2.2 将行转为列 202
22.2.3 连接数据集 203
22.3 创建附加行 204
22.3.1 将列转为行 204
22.3.2 数据集联合 204
22.3.3 数据集支撑 205
22.3.4 连接数据集 205
22.4 小结 205
第23 章 过滤 . 206
23.1 什么是过滤器 207
23.2 不同类型的过滤器 . 207
23.2.1 选择过滤 . 207
23.2.2 计算过滤 . 210
23.2.3 通配符过滤 211
23.2.4 空值过滤 . 213
23.3 何时过滤掉列 213
23.4 何时过滤掉行 213
23.5 小结 214
第24 章 在输入过程中删除数据 . 215
24.1 在加载数据集之前对其进行更改 215
24.2 性能慢、生成慢、输出慢 216
24.3 删除数据列 218
24.4 删除记录 . 221
24.5 小结 223
第25 章 拆分数据字段 224
25.1 基本分割 . 225
25.2 高级拆分:当自动拆分不能如期进行的时候 227
25.3 什么时候不要拆分数据 229
25.3.1 地址数据 . 229
25.3.2 没有明确的定界符 . 230
25.4 小结 230
第26 章 基于分组的数据清理 231
26.1 什么是分组 231
26.2 为什么使用分组 232
26.2.1 提高准确率 232
26.2.2 数据层次结构导向 . 232
26.2.3 平滑机构重组 233
26.3 分组技术 . 234
26.3.1 手动分组 . 234
26.3.2 计算 236
26.3.3 内置函数 . 238
26.4 小结 241
第27 章 空值处理 . 242
27.1 什么是空值 242
27.2 什么时候可以接受空值 243
27.3 如何删除或替换空值 245
27.3.1 ISNULL() 函数 245
27.3.2 ZN() 函数 246
27.3.3 合并操作 . 247
27.4 小结 249
第28 章 使用数据角色 250
28.1 如何使用数据角色 . 251
28.2 自定义数据角色 253
28.3 小结 257
第29 章 处理多余字符 258
29.1 什么是多余的字符 . 258
29.2 多余字符引起的问题 259
29.3 去除多余字符 261
29.3.1 含有错别字的字符串 262
29.3.2 带有多余字符的数字 263
29.3 3 有错别字的日期 . 264
29.4 小结 265
第30 章 去除重复数据 266
30.1 如何识别重复的数据 266
30.2 重复的原因 267
30.2.1 系统加载 . 267
30.2.2 每项度量的行 268
30.2.3 连接 269
30.3 如何处理重复数据 . 270
30.3.1 汇总:技巧1 270
30.3.2 汇总:技巧2 272
30.3.3 将行转换成列 274
30.4 小结 275
第31 章 使用正则表达式 276
31.1 什么是正则表达式 . 276
31.2 如何在Tableau Prep 中使用正则表达式 . 276
31.3 REGEXP_EXTRACT() 和REGEXP_EXTRACT_NTH() 277
31.3.1 REGEXP_MATCH() 函数 277
31.3.2 REGEXP_REPLACE() 函数 . 278
31.4 Regex(正则表达式)应用案例 . 278
31.4.1 替换常见错误 278
31.4.2 匿名评论或反馈 . 279
31.5 常用的正则表达式命令 280
31.6 小结 281
第32 章 实现高级连接 282
32.1 多连接条件 282
32.2 非等价连接条件 285
32.2.1 用连接来过滤数据 . 286
32.2.2 区间连接 . 287
32.3 OR 语句 289
32.4 小结 291
第33 章 创建LOD 计算 . 292
33.1 什么是追加 292
33.2 通过LOD 计算来研究追加 292
33.2.1 何时使用LOD 计算 293
33.2.2 如何在Prep Builder 中编写LOD 计算方法 . 294
33.2.3 LOD 计算在做什么 298
33.3 小结 300
第34 章 分析计算 . 301
34.1 什么是表计算 301
34.2 在Prep Builder 中应用表计算逻辑 304
34.2.1 关键词 . 305
34.2.2 分析计算 . 305
34.3 应用案例 . 309
34.3.1 筛选前N 条记录 . 309
34.3.2 过滤掉一定比例的数据 310
34.4 小结 312
第六部分 基础知识拓展
第35 章 挑战复杂的数据准备场景 . 315
35.1 挑战 315
35.2 从哪里开始 316
35.3 逻辑步骤 . 318
35.4 做出改变 . 321
35.5 做好迭代准备 322
35.6 小结 324
第36 章 处理自由文本 325
36.1 什么是自由文本 325
36.2 为什么自由文本有用 325
36.3 如何在Tableau 中分析自由文本 326
36.3.1 拆分字符串 327
36.3.2 将列转为行 328
36.3.3 清理大小写和标点符号 330
36.3.4 使用连接来删除常见词 330
36.3.5 将剩余的值进行分组 332
36.4 小结 333
第37 章 使用更智能的过滤 335
37.1 计算 335
37.1.1 布尔计算 . 335
37.1.2 逻辑计算 . 336
37.1.3 正则计算 . 337
37.2 区间连接 . 339
37.3 百分比异常 339
37.3.1 手动输入:LOD 计算 339
37.3.2 重新加载的数据:连接到以前的输出 . 342
37.3.3 汇总各类型的平均生产成本 . 343
37.3.4 将数据集连接到一起 343
37.4 组合技术运用 344
37.5 小结 345
第38 章 处理兑换率 346
38.1 兑换率问题 346
38.2 在Tableau Prep 中应用兑换率 . 347
38.2.1 第1 步:为转换创建一致的数据粒度 . 347
38.2.2 第2 步:将数据集连接在一起 348
38.2.3 第3 步:应用兑换率 349
38.3 兑换率的长期策略 . 349
38.3.1 频率管理 . 349
38.3.2 维护历史表 350
38.4 小结 350
第39 章 支撑你的数据 351
39.1 什么是支撑 351
39.2 数据支撑所解决的问题 354
39.3 数据支撑带来的挑战 354
39.4 传统的数据支撑技术 355
39.4.1 第1 步:输入数据集 356
39.4.2 第2 步:建立连接计算 356
39.4.3 第3 步:将两个数据集连接在一起 357
39.4.4 第4 步:过滤掉不需要的行 . 359
39.5 新数据支撑技术 360
39.5.1 第1 步:输入数据集 361
39.5.2 第2 步:连接数据集 361
39.5.3 第3 步:添加报告日期 362
39.5.4 第4 步:移除支撑值 363
39.6 结果 363
39.7 小结 364
第40 章 连接编程脚本 365
40.1 何时使用Prep 中的脚本步骤 365
40.2 在Prep 中设置计算机以使用脚本 . 366
40.3 使用脚本步骤 370
40.4 小结 372
第41 章 处理Prep Builder 错误 . 373
41.1 参数错误 . 373
41.2 空白的概况窗格或数据窗格 . 374
41.2.1 更改计算或删除下游的数据字段 374
41.2.2 数据源已发生改变 . 375
41.3 计算字段内的错误 . 376
41.3.1 不完整的计算 376
41.3.2 不支持的函数 378
41.4 小结 378
第七部分 管理你的数据
第42 章 数据准备的文档记录 381
42.1 基本的文档 381
42.1.1 文件夹结构 381
42.1.2 文件名 . 382
42.1.3 数据源 . 382
42.1.4 输出 383
42.2 步骤名称 . 383
42.3 清理步骤 . 383
42.4 步骤描述 . 384
42.5 颜色 385
42.6 连接 385
42.7 联合 386
42.8 小结 387
第43 章 决定在何处准备数据 388
43.1 需要考虑的过程 388
43.2 数据准备vs 可视化分析 . 389
43.2.1 数据素养 . 389
43.2.2 组织规模 . 389
43.2.3 技术硬件的质量 . 390
43.2.4 数据投资的历史状况 390
43.3 软件性能 . 390
43.3.1 采样 390
43.3.2 功能性 . 391
43.3.3 文档 392
43.4 小结 393
第44 章 管理数据 . 394
44.1 什么是敏感数据 394
44.1.1 公开 394
44.1.2 秘密 395
44.1.3 机密 395
44.1.4 受限 395
44.2 基于敏感度管理数据 395
44.3 生产环境与开发环境 396
44.4 删除数据 . 397
44.4.1 当数据变得过时或不相关时 . 397
44.4.2 当客户或顾客离开时 397
44.5 小结 398
第45 章 存储数据 . 399
45.1 不可访问 . 399
45.1.1 不要犯法 . 400
45.1.2 不要删除业务数据 . 400
45.1.3 将数据的访问权授予专家 401
45.1.4 记录你的资料来源 . 401
45.2 缓慢/ 无响应的性能 . 401
45.3 覆盖写入风险 401
45.3.1 授予只读访问权 . 402
45.3.2 发布前的培训 402
45.4 输出要写到哪里 403
45.5 小结 403
第46 章 在数据中使用标识符和键 . 404
46.1 什么是标识符 404
46.2 什么是数据库中的Key(键) 405
46.3 在Tableau Prep 中使用键和标识符 406
46.4 在Prep Builder 中创建标识符数据字段 . 408
46.5 小结 411
第47 章 保持数据更新 412
47.1 刷新数据 . 412
47.2 完全刷新vs 增量刷新 413
47.3 设置不同类型的刷新 413
47.3.1 Full Refresh(完全刷新) . 413
47.3.2 Incremental Refresh(增量刷新) . 414
47.4 刷新数据源时的注意事项 417
47.4.1 更改数据值 417
47.4.2 改变数据源的结构 . 417
47.4.3 新数据,新输入 . 418
47.5 小结 418
第48 章 使用历史表 419
48.1 为什么需要历史表 . 419
48.2 创建历史表时需要考虑的问题 420
48.2.1 连接到实时数据的能力 420
48.2.2 信息的相关性 421
48.2.3 更新频率 . 421
48.2.4 粒度级别 . 421
48.3 性能 421
48.4 数据法规 . 422
48.5 历史表示例 422
48.6 小结 426
第49 章 评估是否完全需要Prep Builder 427
49.1 Tableau 数据准备历史 . 427
49.2 何时先试试Tableau Desktop 428
49.2.1 简单数据连接 428
49.2.2 数据联合 . 429
49.2.3 单个转换 . 431
49.3 何时使用Prep Builder . 432
49.4 小结 433
第50 章 最后的思考 434
前言 .1
第1 章 为何需要自助式数据准备 .9
1.1 自助式数据可视化简史 9
1.2 获取“正确的数据” . 10
1.3 自助式数据准备的机会 11
1.4 玩转Tableau Prep 12
1.5 小结 13
第一部分 入门
第2 章 Tableau Prep Builder 入门 17
2.1 从哪里获得Tableau Prep Builder 17
2.2 如何获取Prep Builder 的许可 18
2.3 Tableau Prep Builder 界面 19
2.4 数据准备的基本步骤 . 21
2.4.1 输入步骤 22
2.4.2 清理步骤 23
2.4.3 输出步骤 24
2.4.4 保存流程 24
2.5 小结 26
第3 章 数据准备规划 .27
3.1 阶段1:了解你的数据 . 28
3.2 阶段2:明确目标状态 . 29
3.3 阶段3:确定数据从KYD 到预期状态所需的转换 31
3.4 阶段4:构建工作流程 . 33
3.5 小结 35
第4 章 塑造数据 37
4.1 在输入的数据集中寻找什么 37
4.2 什么数据形态最适合在Tableau 中进行分析 . 38
4.3 改变Prep Builder 中的数据集结构 . 40
4.3.1 Pivot(转换) 40
4.3.2 Aggregate(汇总) . 41
4.3.3 Join(连接) . 42
4.3.4 Union(联合) . 43
4.4 将数据重组技术应用于冰淇淋味的香皂案例 44
4.4.1 步骤1:将列数据转换为行数据 . 44
4.4.2 步骤2:将行数据转换为列数据 . 45
4.5 小结 46
第5 章 连接文件中的数据 47
5.1 基于文件之上的文件 . 47
5.1.1 电子表格 48
5.1.2 其他文件类型 48
5.2 在哪里可以找到你的数据文件 . 49
5.3 如何在Prep 中连接到文件 . 50
5.4 使用文件输入保存流程的注意事项 52
5.5 小结 52
第6 章 连接到数据库 .53
6.1 什么是数据库 53
6.2 如何在Prep Builder 中连接到数据库 55
6.3 何时应避免连接到数据库 58
6.4 小结 58
第二部分 数据类型
第7 章 处理数字 61
7.1 我们的数字意味着什么 62
7.2 数字的类型 . 62
7.3 用作类别还是度量 62
7.4 汇总 63
7.5 数字的格式化 63
7.6 控制数值数据的函数 . 64
7.7 小结 66
第8 章 处理日期问题 .67
8.1 为什么日期很重要? . 67
8.2 日期的各个部分 67
8.3 日期查询表 . 68
8.4 新纪元日期 . 69
8.5 Excel 序号 70
8.6 输入日期 71
8.6.1 makedate() 函数 71
8.6.2 dateparse() 函数 71
8.7 小结 73
第9 章 处理字符串数据 74
9.1 字符串意味着什么 74
9.2 字符串数据有何不同 . 75
9.2.1 字符顺序 75
9.2.2 字符串格式化注意事项 76
9.3 常用于字符串数据准备的函数 . 78
9.4 使用字符串数据的分组和替换选项 79
9.5 小结 80
第10 章 处理布尔数据 81
10.1 什么是布尔数据 . 81
10.1.1 为什么它在数据分析中如此有用 . 81
10.1.2 具有布尔逻辑的函数 83
10.2 小结 . 90
第三部分 数据的形态
第11 章 数据概要分析 93
11.1 什么是数据概况 . 93
11.2 为什么可视化数据集很重要 94
11.2.1 安斯库姆四要素 . 94
11.2.2 可视化与数据表 . 95
11.3 Prep Builder 如何配置文件数据 96
11.3.1 生成直方图和迷你直方图 . 97
11.3.2 选择概要或详细视图 99
11.3.3 突出显示数值 100
11.3.4 查看维度计数 101
11.4 排序 102
11.5 小结 102
第12 章 数据集采样 103
12.1 一个简单的规则:如果可能,全部使用 103
12.2 绕过技术限制的数据采样 103
12.2.1 数据规模 . 104
12.2.2 数据速度 . 104
12.3 需要采样的其他理由 105
12.3.1 缩短建设时间 105
12.3.2 确定你需要什么 . 105
12.4 采样技术 . 106
12.4.1 固定行数 . 106
12.4.2 随机采样 . 107
12.5 何时不要采样 108
12.6 小结 109
第13 章 将列转为行 110
13.1 何时在Tableau Prep Builder 中进行数据转换 . 110
13.2 如何将列转为行 112
13.3 小结 116
第14 章 将行转为列 117
14.1 何时使用行到列的数据转换 . 117
14.2 如何将行转为列 118
14.3 小结 121
第15 章 Prep Builder 中的汇总功能 . 122
15.1 比较Prep Builder 和Desktop 中的计算方法 122
15.2 Prep Builder 中的哪些计算方式不同 123
15.3 添加汇总的步骤 127
15.4 剩下的数据在哪里 . 131
15.5 详细程度计算选项 . 133
15.6 小结 133
第16 章 将数据集连接到一起 134
16.1 如何在Prep Builder 中连接数据集 134
16.2 加入逻辑与术语 137
16.3 Prep Builder 中的连接类型 139
16.4 何时使用每种连接类型 144
16.5 小结 145
第17 章 联合数据 . 146
17.1 什么是union(联合) . 146
17.2 如果数据结构不一样怎么办 . 148
17.3 何时联合数据 149
17.3.1 月度数据集 150
17.3.2 来自网络资源的数据集 150
17.3.3 公司合并 . 152
17.4 多表和通配符联合 . 152
17.5 小结 154
第18 章 计算 . 155
18.1 计算在数据准备中的作用是什么 155
18.2 创建一个计算字段 . 156
18.3 计算的基础知识 158
18.3.1 参考列表 . 158
18.3.2 语法 159
18.3.3 描述 160
18.3.4 示例 160
18.4 建立计算 . 160
18.4.1 当计算顺利进行时 . 160
18.4.2 当计算出现问题时 . 161
18.4.3 编辑计算字段 163
18.4.4 建议 163
18.5 计算的类型 164
18.5.1 数值计算 . 164
18.5.2 字符串计算 165
18.5.3 日期计算 . 165
18.5.4 带有布尔输出的条件计算 165
18.5.5 逻辑运算 . 165
18.5.6 类型转换 . 165
18.6 详细程度和排名计算 166
18.7 小结 167
第四部分 输出
第19 章 选择输出 . 171
19.1 输出类型 . 171
19.1.1 发布到文件 172
19.1.2 发布到Tableau 服务器 173
19.2 何时在Prep Builder 中输出数据 173
19.2.1 在输出步骤中输出数据 173
19.2.2 在Tableau Desktop 上预览输出数据 176
19.3 输出数据时的其他考虑 178
19.4 小结 179
第20 章 输出到数据库 180
20.1 何时向数据库写入数据 180
20.1.1 清理数据 . 180
20.1.2 简化的数据连接 . 181
20.1.3 阶段表和参考表 . 181
20.2 写入数据库的设置 . 181
20.3 需要注意的问题 185
20.4 小结 186
第21 章 Tableau Prep Conductor 入门 187
21.1 何时使用Tableau Prep Conductor 187
21.2 如何获得Prep Conductor 188
21.3 加载一个流程到Prep Conductor 188
21.4 使用Prep Conductor 的其他好处 195
21.5 小结 196
第五部分 清理数据
第22 章 创建附加数据 199
22.1 何时不要去创建数据 199
22.1.1 Tableau Desktop 中的动态计算 199
22.1.2 数据连接中的重复记录 201
22.2 创建附加的列 201
22.2.1 使用计算 . 201
22.2.2 将行转为列 202
22.2.3 连接数据集 203
22.3 创建附加行 204
22.3.1 将列转为行 204
22.3.2 数据集联合 204
22.3.3 数据集支撑 205
22.3.4 连接数据集 205
22.4 小结 205
第23 章 过滤 . 206
23.1 什么是过滤器 207
23.2 不同类型的过滤器 . 207
23.2.1 选择过滤 . 207
23.2.2 计算过滤 . 210
23.2.3 通配符过滤 211
23.2.4 空值过滤 . 213
23.3 何时过滤掉列 213
23.4 何时过滤掉行 213
23.5 小结 214
第24 章 在输入过程中删除数据 . 215
24.1 在加载数据集之前对其进行更改 215
24.2 性能慢、生成慢、输出慢 216
24.3 删除数据列 218
24.4 删除记录 . 221
24.5 小结 223
第25 章 拆分数据字段 224
25.1 基本分割 . 225
25.2 高级拆分:当自动拆分不能如期进行的时候 227
25.3 什么时候不要拆分数据 229
25.3.1 地址数据 . 229
25.3.2 没有明确的定界符 . 230
25.4 小结 230
第26 章 基于分组的数据清理 231
26.1 什么是分组 231
26.2 为什么使用分组 232
26.2.1 提高准确率 232
26.2.2 数据层次结构导向 . 232
26.2.3 平滑机构重组 233
26.3 分组技术 . 234
26.3.1 手动分组 . 234
26.3.2 计算 236
26.3.3 内置函数 . 238
26.4 小结 241
第27 章 空值处理 . 242
27.1 什么是空值 242
27.2 什么时候可以接受空值 243
27.3 如何删除或替换空值 245
27.3.1 ISNULL() 函数 245
27.3.2 ZN() 函数 246
27.3.3 合并操作 . 247
27.4 小结 249
第28 章 使用数据角色 250
28.1 如何使用数据角色 . 251
28.2 自定义数据角色 253
28.3 小结 257
第29 章 处理多余字符 258
29.1 什么是多余的字符 . 258
29.2 多余字符引起的问题 259
29.3 去除多余字符 261
29.3.1 含有错别字的字符串 262
29.3.2 带有多余字符的数字 263
29.3 3 有错别字的日期 . 264
29.4 小结 265
第30 章 去除重复数据 266
30.1 如何识别重复的数据 266
30.2 重复的原因 267
30.2.1 系统加载 . 267
30.2.2 每项度量的行 268
30.2.3 连接 269
30.3 如何处理重复数据 . 270
30.3.1 汇总:技巧1 270
30.3.2 汇总:技巧2 272
30.3.3 将行转换成列 274
30.4 小结 275
第31 章 使用正则表达式 276
31.1 什么是正则表达式 . 276
31.2 如何在Tableau Prep 中使用正则表达式 . 276
31.3 REGEXP_EXTRACT() 和REGEXP_EXTRACT_NTH() 277
31.3.1 REGEXP_MATCH() 函数 277
31.3.2 REGEXP_REPLACE() 函数 . 278
31.4 Regex(正则表达式)应用案例 . 278
31.4.1 替换常见错误 278
31.4.2 匿名评论或反馈 . 279
31.5 常用的正则表达式命令 280
31.6 小结 281
第32 章 实现高级连接 282
32.1 多连接条件 282
32.2 非等价连接条件 285
32.2.1 用连接来过滤数据 . 286
32.2.2 区间连接 . 287
32.3 OR 语句 289
32.4 小结 291
第33 章 创建LOD 计算 . 292
33.1 什么是追加 292
33.2 通过LOD 计算来研究追加 292
33.2.1 何时使用LOD 计算 293
33.2.2 如何在Prep Builder 中编写LOD 计算方法 . 294
33.2.3 LOD 计算在做什么 298
33.3 小结 300
第34 章 分析计算 . 301
34.1 什么是表计算 301
34.2 在Prep Builder 中应用表计算逻辑 304
34.2.1 关键词 . 305
34.2.2 分析计算 . 305
34.3 应用案例 . 309
34.3.1 筛选前N 条记录 . 309
34.3.2 过滤掉一定比例的数据 310
34.4 小结 312
第六部分 基础知识拓展
第35 章 挑战复杂的数据准备场景 . 315
35.1 挑战 315
35.2 从哪里开始 316
35.3 逻辑步骤 . 318
35.4 做出改变 . 321
35.5 做好迭代准备 322
35.6 小结 324
第36 章 处理自由文本 325
36.1 什么是自由文本 325
36.2 为什么自由文本有用 325
36.3 如何在Tableau 中分析自由文本 326
36.3.1 拆分字符串 327
36.3.2 将列转为行 328
36.3.3 清理大小写和标点符号 330
36.3.4 使用连接来删除常见词 330
36.3.5 将剩余的值进行分组 332
36.4 小结 333
第37 章 使用更智能的过滤 335
37.1 计算 335
37.1.1 布尔计算 . 335
37.1.2 逻辑计算 . 336
37.1.3 正则计算 . 337
37.2 区间连接 . 339
37.3 百分比异常 339
37.3.1 手动输入:LOD 计算 339
37.3.2 重新加载的数据:连接到以前的输出 . 342
37.3.3 汇总各类型的平均生产成本 . 343
37.3.4 将数据集连接到一起 343
37.4 组合技术运用 344
37.5 小结 345
第38 章 处理兑换率 346
38.1 兑换率问题 346
38.2 在Tableau Prep 中应用兑换率 . 347
38.2.1 第1 步:为转换创建一致的数据粒度 . 347
38.2.2 第2 步:将数据集连接在一起 348
38.2.3 第3 步:应用兑换率 349
38.3 兑换率的长期策略 . 349
38.3.1 频率管理 . 349
38.3.2 维护历史表 350
38.4 小结 350
第39 章 支撑你的数据 351
39.1 什么是支撑 351
39.2 数据支撑所解决的问题 354
39.3 数据支撑带来的挑战 354
39.4 传统的数据支撑技术 355
39.4.1 第1 步:输入数据集 356
39.4.2 第2 步:建立连接计算 356
39.4.3 第3 步:将两个数据集连接在一起 357
39.4.4 第4 步:过滤掉不需要的行 . 359
39.5 新数据支撑技术 360
39.5.1 第1 步:输入数据集 361
39.5.2 第2 步:连接数据集 361
39.5.3 第3 步:添加报告日期 362
39.5.4 第4 步:移除支撑值 363
39.6 结果 363
39.7 小结 364
第40 章 连接编程脚本 365
40.1 何时使用Prep 中的脚本步骤 365
40.2 在Prep 中设置计算机以使用脚本 . 366
40.3 使用脚本步骤 370
40.4 小结 372
第41 章 处理Prep Builder 错误 . 373
41.1 参数错误 . 373
41.2 空白的概况窗格或数据窗格 . 374
41.2.1 更改计算或删除下游的数据字段 374
41.2.2 数据源已发生改变 . 375
41.3 计算字段内的错误 . 376
41.3.1 不完整的计算 376
41.3.2 不支持的函数 378
41.4 小结 378
第七部分 管理你的数据
第42 章 数据准备的文档记录 381
42.1 基本的文档 381
42.1.1 文件夹结构 381
42.1.2 文件名 . 382
42.1.3 数据源 . 382
42.1.4 输出 383
42.2 步骤名称 . 383
42.3 清理步骤 . 383
42.4 步骤描述 . 384
42.5 颜色 385
42.6 连接 385
42.7 联合 386
42.8 小结 387
第43 章 决定在何处准备数据 388
43.1 需要考虑的过程 388
43.2 数据准备vs 可视化分析 . 389
43.2.1 数据素养 . 389
43.2.2 组织规模 . 389
43.2.3 技术硬件的质量 . 390
43.2.4 数据投资的历史状况 390
43.3 软件性能 . 390
43.3.1 采样 390
43.3.2 功能性 . 391
43.3.3 文档 392
43.4 小结 393
第44 章 管理数据 . 394
44.1 什么是敏感数据 394
44.1.1 公开 394
44.1.2 秘密 395
44.1.3 机密 395
44.1.4 受限 395
44.2 基于敏感度管理数据 395
44.3 生产环境与开发环境 396
44.4 删除数据 . 397
44.4.1 当数据变得过时或不相关时 . 397
44.4.2 当客户或顾客离开时 397
44.5 小结 398
第45 章 存储数据 . 399
45.1 不可访问 . 399
45.1.1 不要犯法 . 400
45.1.2 不要删除业务数据 . 400
45.1.3 将数据的访问权授予专家 401
45.1.4 记录你的资料来源 . 401
45.2 缓慢/ 无响应的性能 . 401
45.3 覆盖写入风险 401
45.3.1 授予只读访问权 . 402
45.3.2 发布前的培训 402
45.4 输出要写到哪里 403
45.5 小结 403
第46 章 在数据中使用标识符和键 . 404
46.1 什么是标识符 404
46.2 什么是数据库中的Key(键) 405
46.3 在Tableau Prep 中使用键和标识符 406
46.4 在Prep Builder 中创建标识符数据字段 . 408
46.5 小结 411
第47 章 保持数据更新 412
47.1 刷新数据 . 412
47.2 完全刷新vs 增量刷新 413
47.3 设置不同类型的刷新 413
47.3.1 Full Refresh(完全刷新) . 413
47.3.2 Incremental Refresh(增量刷新) . 414
47.4 刷新数据源时的注意事项 417
47.4.1 更改数据值 417
47.4.2 改变数据源的结构 . 417
47.4.3 新数据,新输入 . 418
47.5 小结 418
第48 章 使用历史表 419
48.1 为什么需要历史表 . 419
48.2 创建历史表时需要考虑的问题 420
48.2.1 连接到实时数据的能力 420
48.2.2 信息的相关性 421
48.2.3 更新频率 . 421
48.2.4 粒度级别 . 421
48.3 性能 421
48.4 数据法规 . 422
48.5 历史表示例 422
48.6 小结 426
第49 章 评估是否完全需要Prep Builder 427
49.1 Tableau 数据准备历史 . 427
49.2 何时先试试Tableau Desktop 428
49.2.1 简单数据连接 428
49.2.2 数据联合 . 429
49.2.3 单个转换 . 431
49.3 何时使用Prep Builder . 432
49.4 小结 433
第50 章 最后的思考 434
猜您喜欢