书籍详情
双语语料构建与双语文本聚类研究
作者:章成志
出版社:南京大学出版社
出版时间:2019-06-01
ISBN:9787305223785
定价:¥50.00
购买这本书可以去
内容简介
《双语语料构建与双语文本聚类研究》以多语言文本为研究对象,进行基于多语言文本的文本挖掘,涉及任务主要分为三块内容,多语言文本的采集,其中包括了平行语料和可比语料,对多语言语料的评估以及多语言文本的聚类。其中,多语言文本的聚类研究中,针对多语言文本的关键词抽取、平行语料和可比语料的文本聚类进行了相关实验。任务中主要针对中英文语料进行相关挖掘,实验中使用的研究方法具有普适性,可以运用到其他语种的文本挖掘中。
作者简介
暂缺《双语语料构建与双语文本聚类研究》作者简介
目录
第1章 绪论
1.1 研究背景
1.2 研究意义
1.3 研究内容框架
1.4 本书章节安排
第2章 相关研究工作综述
2.1 双语语料采集研究综述
2.1.1 基于网络资源的可比语料采集
2.1.2 基于平行网页的平行语料采集
2.2 可比语料评估研究综述
2.2.1 可比语料的可比度度量
2.2.2 跨语言文档相似度计算
2.3 多语言文本关键词抽取研究综述
2.3.1 候选关键词的选取
2.3.2 有监督的关键词抽取方法
2.3.3 无监督的关键词抽取方法
2.4 多语言文本聚类研究综述
2.4.1 文本表示模型
2.4.2 文本聚类算法
2.4.3 多语言文本聚类
第3章 双语语料采集与构建研究
3.1 双语平行网页发现
3.1.1 总体流程与关键技术
3.1.2 网页结果评估与分析
3.2 双语可比语料构建
3.2.1 总体流程与关键技术
3.2.2 可比语料构建结果与分析
3.3 本章小结
第4章 双语可比语料评估研究
4.1 可比语料可比度度量
4.1.1 总体流程与关键技术
4.1.2 可比度度量结果与分析
4.2 可比语料的评估
4.2.1 总体流程与关键技术
4.2.2 语料评估结果与分析
4.3 本章小结
第5章 双语文本关键词挖掘研究
5.1 关键词分布特点分析
5.1.1 中文关键词分布特点分析
5.1.2 英文关键词分布特点分析
5.2 关键词抽取方法思路与关键技术
5.2.1 关键词抽取总体流程
5.2.2 关键词抽取中的特征计算方法
5.3 实验与结果分析
5.3.1 特征归一化与结果评价
5.3.2 中文关键词抽取实验结果
5.3.3 英文关键词抽取实验结果
5.4 本章小结
第6章 双语文本聚类研究
6.1 平行语料聚类研究
6.1.1 平行语料聚类的总体流程
6.1.2 中英文平行语料聚类的关键技术
6.1.3 文本聚类结果与分析
6.2 可比语料聚类研究
6.2.1 可比语料聚类的总体流程
6.2.2 中英文可比语料聚类的关键技术
6.2.3 文本聚类结果与分析
6.3 本章小结
第7章 结束语
7.1 总结
7.2 未来研究工作
7.2.1 双语语料采集与构建
7.2.2 双语可比语料评估
7.2.3 双语文本关键词抽取与双语文本聚类
附录
附录A 基于搜索引擎方法采集可比语料的种子词对示例
附录B Wikipedia可比语料采集种子词样例
附录C Wikipedia可比语料中的对齐标题(部分)
附录D 图情核心期刊在CNKI(19982011)中的检索结果
附录E 图书情报期刊在EBSCO数据库中检索和下载情况
附录F 基于传统统计和词频统计的语料相似度结果
附录G 基于术语度的可比语料与其他领域语料比较结果
参考文献
索引
1.1 研究背景
1.2 研究意义
1.3 研究内容框架
1.4 本书章节安排
第2章 相关研究工作综述
2.1 双语语料采集研究综述
2.1.1 基于网络资源的可比语料采集
2.1.2 基于平行网页的平行语料采集
2.2 可比语料评估研究综述
2.2.1 可比语料的可比度度量
2.2.2 跨语言文档相似度计算
2.3 多语言文本关键词抽取研究综述
2.3.1 候选关键词的选取
2.3.2 有监督的关键词抽取方法
2.3.3 无监督的关键词抽取方法
2.4 多语言文本聚类研究综述
2.4.1 文本表示模型
2.4.2 文本聚类算法
2.4.3 多语言文本聚类
第3章 双语语料采集与构建研究
3.1 双语平行网页发现
3.1.1 总体流程与关键技术
3.1.2 网页结果评估与分析
3.2 双语可比语料构建
3.2.1 总体流程与关键技术
3.2.2 可比语料构建结果与分析
3.3 本章小结
第4章 双语可比语料评估研究
4.1 可比语料可比度度量
4.1.1 总体流程与关键技术
4.1.2 可比度度量结果与分析
4.2 可比语料的评估
4.2.1 总体流程与关键技术
4.2.2 语料评估结果与分析
4.3 本章小结
第5章 双语文本关键词挖掘研究
5.1 关键词分布特点分析
5.1.1 中文关键词分布特点分析
5.1.2 英文关键词分布特点分析
5.2 关键词抽取方法思路与关键技术
5.2.1 关键词抽取总体流程
5.2.2 关键词抽取中的特征计算方法
5.3 实验与结果分析
5.3.1 特征归一化与结果评价
5.3.2 中文关键词抽取实验结果
5.3.3 英文关键词抽取实验结果
5.4 本章小结
第6章 双语文本聚类研究
6.1 平行语料聚类研究
6.1.1 平行语料聚类的总体流程
6.1.2 中英文平行语料聚类的关键技术
6.1.3 文本聚类结果与分析
6.2 可比语料聚类研究
6.2.1 可比语料聚类的总体流程
6.2.2 中英文可比语料聚类的关键技术
6.2.3 文本聚类结果与分析
6.3 本章小结
第7章 结束语
7.1 总结
7.2 未来研究工作
7.2.1 双语语料采集与构建
7.2.2 双语可比语料评估
7.2.3 双语文本关键词抽取与双语文本聚类
附录
附录A 基于搜索引擎方法采集可比语料的种子词对示例
附录B Wikipedia可比语料采集种子词样例
附录C Wikipedia可比语料中的对齐标题(部分)
附录D 图情核心期刊在CNKI(19982011)中的检索结果
附录E 图书情报期刊在EBSCO数据库中检索和下载情况
附录F 基于传统统计和词频统计的语料相似度结果
附录G 基于术语度的可比语料与其他领域语料比较结果
参考文献
索引
猜您喜欢