书籍详情
预测性文本挖掘基础
作者:(美) 绍洛姆·韦斯(Sholom M.Weiss) (澳)尼亭·因杜尔亚(Nitin Indurkhya)(美)张潼(Tong zhang),赵仲孟 侯, 迪 译
出版社:西安交通大学出版社
出版时间:2012-10-01
ISBN:9787560544274
定价:¥43.00
购买这本书可以去
内容简介
电脑普及带来的一个结果是文档以数字形式呈现出来,加之Internet的广泛使用,这些文档就变得唾手可得。文本挖掘,即对非结构化的自然语言文本的分析过程,主要针对的是如何从这些文档中提取信息。《预测性文本挖掘基础》是一本入门级的教科书,是在修订施普林格已经成功出版的文本挖掘领域的参考书基础上得到的,旨在能够帮助读者了解这个快速发展的领域。同时,该书也整合了包括数据挖掘、机器学习、数据库以及计算语言学方面很多的理论,因此这本独一无二的书也提供了一些文本挖掘方面比较实用的建议。书中深层次地讨论了文档分类、信息检索、聚类和组织文档、信息提取、基于web的数据源的预测和评价问题。要学习《预测性文本挖掘基础》,如果读者有数据挖掘方面的知识自然很好,但这并不是必须的。书中有些地方涉及到一些高级概念,这些需要读者有一定的数学功底,当然我们也提供了一些直观上的解释来帮助那些非专业读者。
作者简介
绍洛姆·韦斯,是美国纽约州约克镇的IBM预测模型小组的研究成员,同时也是美国新泽西州罗格斯大学计算机科学专业的荣誉教授。霓廷·因杜尔亚,是澳大利亚新南威尔士大学计算机科学工程学院的讲师,同时也是数据挖掘公司Data-Miner有限公司的创始人和总裁。张潼,在美国斯坦福大学获得计算机科学博士学位,现在是美国新泽西州罗格斯大学统计系的教授。
目录
推荐序
译者序
前言
第1章 文本挖掘概述
1.1 文本挖掘有什么特别之处?
1.1.1 结构化或非结构化数据?
1.1.2 文本数据是否不同于数值数据?
1.2 文本挖掘可以解决什么类型的问题?
1.3 文本分类
1.4 信息检索
1.5 文档聚类与组织
1.6 信息提取
1.7 预测与评估
1.8 下章内容
1.9 小结
1.10 历史与文献评述
1.11 问题与练习
第2章 从文本信息到数值向量
2.1 文档收集
2.2 文档标准化
2.3 标记化
2.4 词形转化
2.4.1 词干变形
2.4.2 化词干为词根
2.5 预测向量生成
2.5.1 多词特征
2.5.2 正确答案的标签
2.5.3 通过属性分级选择特征
2.6 语句边界确定
2.7 词性标签化
2.8 词义消歧
2.9 短语识别
2.10 命名实体识别
2.11 语法分析
2.12 特征生成
2.13 小结
2.14 历史与文献评述
2.15 课后练习
第3章 用文本进行预测
3.1 识别文档符合模式
3.2 需要多少文档才可以满足预测需求?
3.3 文档分类
3.4 从文本中学习预测
3.4.1 相似性与最近邻法
3.4.2 文档相似性
3.4.3 决策规则
3.4.4 决策树
3.4.5 概率估计
3.4.6 线性评分方法
3.5 性能评估
3.5.1 当前与未来的性能估计
3.5.2 从学习方法中获取最大收益
3.6 应用
3.7 小结
3.8 历史与文献评述
3.9 问题与练习
第4章 信息检索和文本挖掘
第5章 文档集的结构发现
第6章 在文档中查询信息
第7章 面向预测的数据源:数据库、混杂数据与Web
第8章 实例分析
第9章 新研究方向
附录A 软件说明
参考文献
作者索引
主题索引
译者序
前言
第1章 文本挖掘概述
1.1 文本挖掘有什么特别之处?
1.1.1 结构化或非结构化数据?
1.1.2 文本数据是否不同于数值数据?
1.2 文本挖掘可以解决什么类型的问题?
1.3 文本分类
1.4 信息检索
1.5 文档聚类与组织
1.6 信息提取
1.7 预测与评估
1.8 下章内容
1.9 小结
1.10 历史与文献评述
1.11 问题与练习
第2章 从文本信息到数值向量
2.1 文档收集
2.2 文档标准化
2.3 标记化
2.4 词形转化
2.4.1 词干变形
2.4.2 化词干为词根
2.5 预测向量生成
2.5.1 多词特征
2.5.2 正确答案的标签
2.5.3 通过属性分级选择特征
2.6 语句边界确定
2.7 词性标签化
2.8 词义消歧
2.9 短语识别
2.10 命名实体识别
2.11 语法分析
2.12 特征生成
2.13 小结
2.14 历史与文献评述
2.15 课后练习
第3章 用文本进行预测
3.1 识别文档符合模式
3.2 需要多少文档才可以满足预测需求?
3.3 文档分类
3.4 从文本中学习预测
3.4.1 相似性与最近邻法
3.4.2 文档相似性
3.4.3 决策规则
3.4.4 决策树
3.4.5 概率估计
3.4.6 线性评分方法
3.5 性能评估
3.5.1 当前与未来的性能估计
3.5.2 从学习方法中获取最大收益
3.6 应用
3.7 小结
3.8 历史与文献评述
3.9 问题与练习
第4章 信息检索和文本挖掘
第5章 文档集的结构发现
第6章 在文档中查询信息
第7章 面向预测的数据源:数据库、混杂数据与Web
第8章 实例分析
第9章 新研究方向
附录A 软件说明
参考文献
作者索引
主题索引
猜您喜欢