书籍详情
机器学习:实用案例解析
作者:Drew Conway & John Myles White 著,陈开江 刘逸哲 孟晓楠 译罗森林 审校
出版社:机械工业出版社
出版时间:2013-03-01
ISBN:9787111417316
定价:¥69.00
购买这本书可以去
内容简介
O’Reilly Media通过图书、杂志、在线服务、调查研究和会议等方式传播创新知识。自1978年开始,O’Reilly一直都是前沿发展的见证者和推动者。超级极客们正在开创着未来,而我们关注真正重要的技术趋势——通过放大那些“细微的信号”来刺激社会对新科技的应用。作为技术社区中活跃的参与者,O’Reilly的发展充满了对创新的倡导、创造和发扬光大。O’Reilly为软件开发人员带来革命性的“动物书”;创建第一个商业网站(GNN);组织了影响深远的开放源代码峰会,以至于开源软件运动以此命名;创立了Make杂志,从而成为DIY革命的主要先锋;公司一如既往地通过多种形式缔结信息与人的纽带。O’Reilly的会议和峰会集聚了众多超级极客和高瞻远瞩的商业领袖,共同描绘出开创新产业的革命性思想。作为技术人士获取信息的选择,O’Reilly现在还将先锋专家的知识传递给普通的计算机用户。无论是通过书籍出版,在线服务或者面授课程,每一项O’Reilly的产品都反映了公司不可动摇的理念——信息是激发创新的力量。
作者简介
Drew Conway,机器学习专家,拥有丰富的数据分析、处理工作经验。目前主要利用数学、统计学和计算机技术研究国际关系、冲突和恐怖主义等。他曾作为研究员在美国情报和国防部门供职数年。他拥有纽约大学政治系博士学位,曾为多种杂志撰写文章,是机器学习领域的著名学者。John Myles White,机器学习专家,拥有丰富的数据分析、处理工作经验。目前主要从理论和实验的角度来研究人类如何做出决定,同时还是几个流行的R语言程序包的主要维护者,包括ProjectTemplate和log4r。他拥有普林斯顿大学哲学系博士学位,曾为多家技术杂志撰稿,发表过许多关于机器学习的论文,并在众多国际会议上发表演讲。译者介绍陈开江,新浪微博搜索部研发工程师,曾独立负责微博内容反垃圾系统、微博精选内容挖掘算法、自助客服系统(包括自动回复、主动挖掘、舆情监测)等项目,目前主要从事社交挖掘、推荐算法研究、机器学习、自然语言处理相关工作,研究兴趣是社交网络的个性化推荐。刘逸哲,阿里巴巴,CBU基础平台部搜索与推荐团队核心技术与query分析方向负责人,机器学习技术领域及圈子负责人。曾任中国雅虎相关性团队、自然语言处理团队算法工程师;AvePoint.inc开发工程师,从事企业级搜索引擎开发。研究兴趣是机器学习、自然语言处理及个性化推荐等算法在大规模数据上的应用。孟晓楠,一淘广告技术,阿里非搜索广告算法负责人,负责用户行为分析、建模与细分,RTB竞价算法,展示广告CTR预估与SEM优化。曾工作于网易杭州研究院,参与过分布式全文检索系统和网易博客产品的数据挖掘算法开发。研究兴趣是计算广告技术、机器学习、大数据技术、信息检索等。
目录
前言 1
第1章 使用R语言 9
R与机器学习 10
第2章 数据分析 36
分析与验证 36
什么是数据 37
推断数据的类型 40
推断数据的含义 42
数值摘要表 43
均值、中位数、众数 44
分位数 46
标准差和方差 47
可视化分析数据 49
列相关的可视化 68
第3章 分类:垃圾过滤 77
非此即彼:二分类 77
漫谈条件概率 81
试写第一个贝叶斯垃圾分类器 82
第4章 排序:智能收件箱 97
次序未知时该如何排序 97
按优先级给邮件排序 98
实现一个智能收件箱 102
第5章 回归模型:预测网页访问量 128
回归模型简介 128
预测网页流量 142
定义相关性 152
第6章 正则化:文本回归 155
数据列之间的非线性关系:超越直线 155
避免过拟合的方法 164
文本回归 174
第7章 优化:密码破译 182
优化简介 182
岭回归 188
密码破译优化问题 193
第8章 PCA:构建股票市场指数 203
无监督学习 203
主成分分析 204
第9章 MDS:可视化地研究参议员相似性 212
基于相似性聚类 212
如何对美国参议员做聚类 219
第10章 kNN:推荐系统 229
k近邻算法 229
R语言程序包安装数据 235
第11章 分析社交图谱 239
社交网络分析 239
用黑客的方法研究Twitter的社交关系图数据 244
分析Twitter社交网络 252
第12章 模型比较 270
SVM:支持向量机 270
算法比较 280
参考文献 287
第1章 使用R语言 9
R与机器学习 10
第2章 数据分析 36
分析与验证 36
什么是数据 37
推断数据的类型 40
推断数据的含义 42
数值摘要表 43
均值、中位数、众数 44
分位数 46
标准差和方差 47
可视化分析数据 49
列相关的可视化 68
第3章 分类:垃圾过滤 77
非此即彼:二分类 77
漫谈条件概率 81
试写第一个贝叶斯垃圾分类器 82
第4章 排序:智能收件箱 97
次序未知时该如何排序 97
按优先级给邮件排序 98
实现一个智能收件箱 102
第5章 回归模型:预测网页访问量 128
回归模型简介 128
预测网页流量 142
定义相关性 152
第6章 正则化:文本回归 155
数据列之间的非线性关系:超越直线 155
避免过拟合的方法 164
文本回归 174
第7章 优化:密码破译 182
优化简介 182
岭回归 188
密码破译优化问题 193
第8章 PCA:构建股票市场指数 203
无监督学习 203
主成分分析 204
第9章 MDS:可视化地研究参议员相似性 212
基于相似性聚类 212
如何对美国参议员做聚类 219
第10章 kNN:推荐系统 229
k近邻算法 229
R语言程序包安装数据 235
第11章 分析社交图谱 239
社交网络分析 239
用黑客的方法研究Twitter的社交关系图数据 244
分析Twitter社交网络 252
第12章 模型比较 270
SVM:支持向量机 270
算法比较 280
参考文献 287
猜您喜欢