书籍详情
SAS数据挖掘与分析项目实战
作者:尚涛 著
出版社:中国铁道出版社
出版时间:2020-08-01
ISBN:9787113268503
定价:¥79.80
购买这本书可以去
内容简介
本书讲述了在实际运营中核心的数据挖掘分析案例,为读者重点展示了SAS在精准营销、客户流失预警、客户分群、广告点击、信用卡欺诈、信用风险评分等领域中的具体应用。 本书分为16章,以数据挖掘基础知识介绍开始,循序渐进地讲述了Kaggle数据科学社区调查数据分析、考察汽车耗油量与里程数的关系分析、影响汽车销售的关键因子分析、健身运动中耗氧量回归分析、旅客量预测分析、客户群分类判别分析、销售公司的客户分群、员工离职预测、广告点击率预测、产品精准营销模型、电信客户流失预警、银行贷款用户风险分析、信用风险评分卡的开发以及信用卡反欺诈预测模型等案例。后一章介绍了与数据挖掘项目中的时间成本有较大关系的SAS数据清洗的相关技术。 本书案例丰富,实用性较强,特别适合从事数据挖掘、统计建模、机器学习、商业分析、运营分析等工作的人员使用,也可作为数学、统计学、金融管理、计算机等专业的学生学习SAS数据挖掘应用的参考书籍。
作者简介
尚涛,毕业于上海交通大学数学系,拥有数学专业硕士学位,研究方向为数据挖掘及机器学习领域,曾任职于支付平台、平安科技、易方达基金,现任职于南方基金,专注于信用风险评分、精准营销、推荐系统、文本挖掘等领域数据挖掘项目的研发工作以及企业的数据化运营落地工作,拥有超过10年数据挖掘和优化建模的经验,以及多年使用SPSS、SAS、R、Python等建模软件的经验。在从业经历中,多次为所在公司的业务方提供数据挖掘技术服务,成功实施了众多深受好评的数据挖掘项目,取得了较好的业务价值。
目录
第1章数据挖掘知识介绍
11数据挖掘算法简介
111分类
112聚类
113关联
114预测
12分类模型的相关概念
121数据说明
122混淆矩阵
123ROC曲线和AUC面积
124提升(Lift)
125KS曲线
13数据挖掘过程中关键问题处理
131数据准备
132定义变量及数据抽样
133变量选择
134缺失值处理
135模型比较
14SAS STAT介绍
第2章Kaggle数据科学社区调查分析
21描述性统计分析的主要内容
211数据的频数分析
212数据的集中趋势分析
213数据的离散程度分析
214数据的分布
215绘制统计图
22SAS描述性分析过程介绍
221PROC FREQ过程
222PROC MEANS过程
223PROC UNIVARIATE过程
23调查数据说明
24数据探索
25Kaggle社区用户画像分析
251人员属性
252工作属性
253技能属性
254学习属性
第3章考察汽车耗油量与里程数的关系
31项目背景
32非线性回归简介
33非线性回归过程说明
34广义线性模型过程
35数据文件说明
36数据探索
37模型建立
38结果分析
第4章影响汽车销售的关键因子分析
41数据说明
42因子分析的基本原理
421因子分析模型
422因子旋转
423计算因子得分
43因子分析的步骤和SAS过程
431因子分析的步骤
432FACTOR过程说明
44模型开发及结果解释
45主成分分析和因子分析的区别
第5章健身运动中耗氧量回归分析
51线性回归模型
52REG过程
521过程选项
522MODEL语句选项
523关键字选项
524PLOT语句选项
53数据说明
54相关性分析
55回归分析
56逐步回归
561逐步回归过程
562利用逐步回归选择变量
第6章旅客量预测分析
61项目背景
62数据文件说明
63平稳随机过程概述
631自回归模型
632滑动平均模型
633自回归滑动平均模型
64ARMA模型的识别
641基于相关函数的定阶方法
642利用信息准则法定阶
65模型参数的估计
66时间序列的分析步骤
67SAS系统的ARIMA过程
671ARIMA语句选项
672IDENTIFY语句选项
673ESTIMATE语句选项
674FORECAST语句选项
675ARIMA建模过程
68数据探索
681平稳性检验
682序列变换
69自相关函数检验
610模型参数估计
611预测
第7章客户群分类判别分析
71业务背景及数据说明
72判别分析的数学原理
73判别分析的SAS过程
731DISCRIM过程
732CANDISC过程
733STEPDISC过程
74数据探索
75客户群判别模型建立
76模型应用
第8章销售公司的客户分群分析
81项目背景
811客户细分的概念
812客户细分模型
813客户细分模型的基本流程
814细分方法介绍
82聚类分析的数学原理
821聚类的数学原理
822距离和相似距离
823聚类方法
824聚类数的确定
825聚类分析步骤
83SAS中的聚类过程
831Cluster系统聚类过程
832Fastclus快速聚类过程
833Varclus方差聚类过程
834Tree聚类树型输出过程
84数据文件说明
85数据探索
851变量衍生
852变量标准化
853变量相关性分析
86模型建立
87客户画像分析
88模型应用
第9章员工离职预测
91项目背景
92数据说明
93数据探索
94数据建模
941变量相关分析
942决策树建模
95模型评估与应用
第10章广告点击率预测
101业务背景
1011网络广告发展情况
1012计算广告学
102数据说明
103数据不平衡的处理方式
1031收集更多的数据
1032改变模型性能评价指标
1033重新对样本进行采样
104模型开发与评估
1041样本欠抽样
1042模型开发
1043模型评估
105CTR模型的发展脉络
第11章产品精准营销推荐
111项目背景
1111业务背景
1112数据说明
1113项目目标
112数据探索
1121变量描述性统计分析
1122变量缺失值处理
1123变量衍生处理
113模型建设
1131欠抽样
1132数据集分割
1133模型开发
1134模型评估
114模型应用
1141产品自动化推荐系统
1142易受到市场环境等各种因素的影响
1143人群特征漂移需要不断优化模型
第12章通信客户流失预警模型
121项目背景
1211客户流失分析要解决的问题
1212分析客户流失的类型
1213如何进行客户流失分析
122数据说明
123因变量定义
124样本抽取
125数据探索
126模型开发
1261变量衍生
1262变量选择
1263相关性处理
1264模型结果
127模型评估
1271开发样本上的模型性能
1272验证样本上的模型性能
128模型应用
第13章银行贷款用户风险分析
131案例背景
132因变量定义
133样本抽取
134数据探索
1341为什么要进行数据探索
1342数据分布情况
135模型建设
1351变量衍生
1352变量选择
1353共线性处理
1354模型结果
136模型性能评估
1361开发样本上的模型性能
1362验证样本上的模型性能
137模型应用
第14章信用风险评分卡开发
141信用评分模型简介
142信用卡模型的开发过程
143案例背景及项目目标确定
1431项目背景说明
1432确定项目目标
144数据获取
145数据质量检验
146项目参数设定
1461排除规则确定
1462表现和观察窗口
1463确定“坏”的定义
1464滚动率分析
1465客户分群
147数据探索
1471数据分布分析
1472缺失值的处理
1473极端值的处理
148模型开发
1481证据权重(WOE)
1482信息值(IV)
1483变量选择
1484变量分组
1485变量相关性分析
1486模型迭代开发
149模型评估
1491混淆矩阵
1492KS统计量
1493ROC曲线
1410评分卡创建
14101评分尺度变换
14102变量分值分配
1411评分卡实施
1412监测与报告
1413拒绝推断
1414运用评分卡需要注意的事项
第15章信用卡反欺诈预测模型
151信用卡欺诈概述
1511信用卡欺诈的种类
1512智能反欺诈管理
1513其他反欺诈技术
152案例背景
153数据探索
154模型开发
1541不使用分层抽样策略
1542使用分层抽样策略
155总结
第16章SAS数据清洗技术
161数据清洗简介
1611数据清洗
1612数据探索
162数据导入
1621读入数据到SAS系统的方法
1622指定数据文件的位置
1623读入由空格分隔的原始数据
1624读入列对齐的原始数据
1625读入非标准格式的数据
1626读入一个观测占据多行的数据文件
1627读入原数据文件的一部分
1628IMPORT过程读入分隔数据文件
163数据格式处理
164SAS函数
1641字符函数
1642数值函数
165缺失值处理
166数据抽样
1661等比例分层抽样
1662不等比例分层抽样
1663分层抽样
11数据挖掘算法简介
111分类
112聚类
113关联
114预测
12分类模型的相关概念
121数据说明
122混淆矩阵
123ROC曲线和AUC面积
124提升(Lift)
125KS曲线
13数据挖掘过程中关键问题处理
131数据准备
132定义变量及数据抽样
133变量选择
134缺失值处理
135模型比较
14SAS STAT介绍
第2章Kaggle数据科学社区调查分析
21描述性统计分析的主要内容
211数据的频数分析
212数据的集中趋势分析
213数据的离散程度分析
214数据的分布
215绘制统计图
22SAS描述性分析过程介绍
221PROC FREQ过程
222PROC MEANS过程
223PROC UNIVARIATE过程
23调查数据说明
24数据探索
25Kaggle社区用户画像分析
251人员属性
252工作属性
253技能属性
254学习属性
第3章考察汽车耗油量与里程数的关系
31项目背景
32非线性回归简介
33非线性回归过程说明
34广义线性模型过程
35数据文件说明
36数据探索
37模型建立
38结果分析
第4章影响汽车销售的关键因子分析
41数据说明
42因子分析的基本原理
421因子分析模型
422因子旋转
423计算因子得分
43因子分析的步骤和SAS过程
431因子分析的步骤
432FACTOR过程说明
44模型开发及结果解释
45主成分分析和因子分析的区别
第5章健身运动中耗氧量回归分析
51线性回归模型
52REG过程
521过程选项
522MODEL语句选项
523关键字选项
524PLOT语句选项
53数据说明
54相关性分析
55回归分析
56逐步回归
561逐步回归过程
562利用逐步回归选择变量
第6章旅客量预测分析
61项目背景
62数据文件说明
63平稳随机过程概述
631自回归模型
632滑动平均模型
633自回归滑动平均模型
64ARMA模型的识别
641基于相关函数的定阶方法
642利用信息准则法定阶
65模型参数的估计
66时间序列的分析步骤
67SAS系统的ARIMA过程
671ARIMA语句选项
672IDENTIFY语句选项
673ESTIMATE语句选项
674FORECAST语句选项
675ARIMA建模过程
68数据探索
681平稳性检验
682序列变换
69自相关函数检验
610模型参数估计
611预测
第7章客户群分类判别分析
71业务背景及数据说明
72判别分析的数学原理
73判别分析的SAS过程
731DISCRIM过程
732CANDISC过程
733STEPDISC过程
74数据探索
75客户群判别模型建立
76模型应用
第8章销售公司的客户分群分析
81项目背景
811客户细分的概念
812客户细分模型
813客户细分模型的基本流程
814细分方法介绍
82聚类分析的数学原理
821聚类的数学原理
822距离和相似距离
823聚类方法
824聚类数的确定
825聚类分析步骤
83SAS中的聚类过程
831Cluster系统聚类过程
832Fastclus快速聚类过程
833Varclus方差聚类过程
834Tree聚类树型输出过程
84数据文件说明
85数据探索
851变量衍生
852变量标准化
853变量相关性分析
86模型建立
87客户画像分析
88模型应用
第9章员工离职预测
91项目背景
92数据说明
93数据探索
94数据建模
941变量相关分析
942决策树建模
95模型评估与应用
第10章广告点击率预测
101业务背景
1011网络广告发展情况
1012计算广告学
102数据说明
103数据不平衡的处理方式
1031收集更多的数据
1032改变模型性能评价指标
1033重新对样本进行采样
104模型开发与评估
1041样本欠抽样
1042模型开发
1043模型评估
105CTR模型的发展脉络
第11章产品精准营销推荐
111项目背景
1111业务背景
1112数据说明
1113项目目标
112数据探索
1121变量描述性统计分析
1122变量缺失值处理
1123变量衍生处理
113模型建设
1131欠抽样
1132数据集分割
1133模型开发
1134模型评估
114模型应用
1141产品自动化推荐系统
1142易受到市场环境等各种因素的影响
1143人群特征漂移需要不断优化模型
第12章通信客户流失预警模型
121项目背景
1211客户流失分析要解决的问题
1212分析客户流失的类型
1213如何进行客户流失分析
122数据说明
123因变量定义
124样本抽取
125数据探索
126模型开发
1261变量衍生
1262变量选择
1263相关性处理
1264模型结果
127模型评估
1271开发样本上的模型性能
1272验证样本上的模型性能
128模型应用
第13章银行贷款用户风险分析
131案例背景
132因变量定义
133样本抽取
134数据探索
1341为什么要进行数据探索
1342数据分布情况
135模型建设
1351变量衍生
1352变量选择
1353共线性处理
1354模型结果
136模型性能评估
1361开发样本上的模型性能
1362验证样本上的模型性能
137模型应用
第14章信用风险评分卡开发
141信用评分模型简介
142信用卡模型的开发过程
143案例背景及项目目标确定
1431项目背景说明
1432确定项目目标
144数据获取
145数据质量检验
146项目参数设定
1461排除规则确定
1462表现和观察窗口
1463确定“坏”的定义
1464滚动率分析
1465客户分群
147数据探索
1471数据分布分析
1472缺失值的处理
1473极端值的处理
148模型开发
1481证据权重(WOE)
1482信息值(IV)
1483变量选择
1484变量分组
1485变量相关性分析
1486模型迭代开发
149模型评估
1491混淆矩阵
1492KS统计量
1493ROC曲线
1410评分卡创建
14101评分尺度变换
14102变量分值分配
1411评分卡实施
1412监测与报告
1413拒绝推断
1414运用评分卡需要注意的事项
第15章信用卡反欺诈预测模型
151信用卡欺诈概述
1511信用卡欺诈的种类
1512智能反欺诈管理
1513其他反欺诈技术
152案例背景
153数据探索
154模型开发
1541不使用分层抽样策略
1542使用分层抽样策略
155总结
第16章SAS数据清洗技术
161数据清洗简介
1611数据清洗
1612数据探索
162数据导入
1621读入数据到SAS系统的方法
1622指定数据文件的位置
1623读入由空格分隔的原始数据
1624读入列对齐的原始数据
1625读入非标准格式的数据
1626读入一个观测占据多行的数据文件
1627读入原数据文件的一部分
1628IMPORT过程读入分隔数据文件
163数据格式处理
164SAS函数
1641字符函数
1642数值函数
165缺失值处理
166数据抽样
1661等比例分层抽样
1662不等比例分层抽样
1663分层抽样
猜您喜欢