书籍详情

文本挖掘与Python实践

文本挖掘与Python实践

作者:刘金花

出版社:四川大学出版社

出版时间:2021-08-01

ISBN:9787569045383

定价:¥68.00

购买这本书可以去
内容简介
  本书从文本数据具有的特点以及文本挖掘具有的价值和意义开始,讲解了文本数据的获取和预处理的方法(包括中英文的文本预处理),给出了文本向量化表示方法。本书从统计机器学习方法和深度神经网络两个角度,介绍了包括向量空间模型以及词、句子和文档级的分布式表示;针对文本分类问题,介绍了传统文本分类方法、深度神经网络分类方法(多层感知机文本分类、卷积神经网络文本分类和循环神经网络文本分类)和文本分类的评价指标;针对文本聚类,包括文档相似度度量方法,介绍了基于划分、层次、密度的基础性聚类算法,以及谱聚类等高级聚类方法和文本聚类的评价指标;在理论学习的基础上,介绍了文本主题的挖掘技术,包括潜在语义分析、非负矩阵分解、概率潜在语义分析和潜在狄利克雷分布等;最后从文本内容、主题和基于时间信息三个方面介绍了文本数据可视化的方法与工具。本书不仅对文本挖掘的相关理论模型进行了详细的推理和全面介绍,而且在每个算法模型之后都会给出实例,在理论与实践之间做了很好的平衡与衔接。
作者简介
  刘金花,1987年生,硕士,山西医科大学汾阳学院讲师。主要研究方向为机器学习、数据挖掘。
目录
1 概述
1.1 文本数据
1.2 文本挖掘与分析
1.3 小结
2 数据获取及预处理
2.1 数据获取
2.2 数据清洗
2.3 数据预处理
2.4 N元语法模型
2.5 小结
3 文本向量化
3.1 向量空间模型
3.2 分布文本表示模型
3.3 句子向量化
3.4 文档向量化
3.5 小结
4 文本分类
4.1 文本分类基础
4.2 传统文本分类算法
4.3 深度神经网络方法
4.4 文本分类评价
4.5 小结
5 文本聚类
5.1 文本聚类基础
5.2 基于划分的聚类
5.3 基于层次的聚类
5.4 基于密度的聚类
5.5 谱聚类
5.6 文本聚类评价
5.7 小结
6 主题模型
6.1 潜在语义分析
6.2 非负矩阵分解(NMF)
6.3 概率潜在语义分析(PLSA)
6.4 潜在狄利克雷分布(LDA)
6.5 小结
7 文本数据可视化
7.1 文本内容可视化
7.2 文本主题可视化
7.3 基于时间信息的数据可视化
7.4 小结
参考文献
猜您喜欢

读书导航