书籍详情
大数据挖掘与统计机器学习
作者:吕晓玲 宋捷
出版社:中国人民大学出版社
出版时间:2016-07-01
ISBN:9787300231013
定价:¥35.00
购买这本书可以去
内容简介
大数据时代的到来,使我们的生活在政治、经济、社会、文化各个领域都产生了很大改变。“数据科学”一词应运而生。如何更好地对海量数据进行分析、得出结论并做出智能决策是统计工作者面临的机遇与挑战。本书介绍数据挖掘与统计机器学习领域最常用的模型和算法,包括最基础的线性回归和线性分类方法,以及模型选择和模型评价的概念和方法,进而介绍非线性的回归和分类方法(包括决策树与组合方法、支持向量机、神经网络以及在此基础上发展的深度学习方法)。最后介绍无监督的学习中的聚类方法和业界广泛使用的推荐系统方法。除了方法的理论讲解之外,我们给出了每种方法的R语言实现,以及应用Python语言实现深度学习和支持向量机两种方法。本书的一个亮点是最后一章给出的两个大数据案例,数据量均在10G左右。我们同时给出了单机版(Python、数据库、R)和分布式(Hadoop、Hive、Spark)两种实现方案。原始数据和程序代码均可在出版社提供的网址下载。本书面向的主要读者是应用统计专业硕士,希望能够拓展到统计专业高年级的本科生以及其他各个领域有数据分析需求的学生和从业人员。
作者简介
吕晓玲,吉林省吉林市人。现任中国人民大学统计学院副教授,北京五校联合大数据分析硕士培养协同创新平台总协调人。本科与硕士毕业于南开大学数学系概率统计专业,博士毕业于香港城市大学管理科学系。曾经是奥地利约翰开普勒大学应用统计系以及美国加州大学伯克利分校统计系访问学者。一直从事数据挖掘和统计机器学习领域的理论研究,及其在消费者行为方面的应用研究。在数据挖掘以及市场营销方面的项目涉及的领域包括银行、电子商务、交通、教育、广播电视、移动互联网等。宋捷,四川眉山人。现任首都经济贸易大学统计学院副教授。本科与硕士毕业于四川大学数学系概率统计专业,博士毕业于中国人民大学统计学院。一直从事机器学习与数据挖掘相关领域的理论研究。
目录
第1章概述1.1名词演化1.2基本内容1.3数据智慧第2章线性回归方法2.1多元线性回归2.2压缩方法:岭回归与Lasso2.3*Lasso 模型的求解与理论性质2.4损失函数加罚的建模框架2.5上机实践第3章线性分类方法3.1分类问题综述与评价准则3.2Logistic回归3.3线性判别3.4上机实践第4章模型评价与选择4.1基本概念4.2*理论方法4.3数据重利用方法4.4上机实践第5章决策树与组合方法5.1决策树5.2Bagging5.3Boosting5.4随机森林5.5上机实践第6章神经网络与深度学习6.1神经网络6.2深度学习6.3上机实践第7章支持向量机7.1线性可分支持向量机7.2软间隔支持向量机7.3一些拓展7.4上机实践第8章聚类分析8.1基于距离的聚类8.2基于模型和密度的聚类8.3稀疏聚类8.4双向聚类8.5上机实践第9章推荐系统9.1基于邻居的推荐9.2潜在因子与矩阵分解算法9.3上机实践第10章大数据案例分析10.1智能手机用户监测数据案例分析10.2美国航空数据案例分析参考文献大数据挖掘与统计机器学习
猜您喜欢