书籍详情
基于索引行聚类的英语动词型式自动识别与提取研究
作者:于涛
出版社:外语教学与研究出版社
出版时间:2018-01-01
ISBN:9787513596596
定价:¥61.90
购买这本书可以去
内容简介
《基于索引行聚类的英语动词型式自动识别与提取研究》关注概括和提取语言型式。本书中采用相似度分析方法,在索引行自动聚类的基础上实现英语动词型式的自动识别与提取,围绕索引行聚类的影响因素及分组数量的选择,型式自动识别的准确率及其影响因素进行探究,建构了英语动词型式自动提取模型,该模型以后可能广泛应用于语言教学、语言研究及自动语法检查中。
作者简介
于涛,文学博士,江苏师范大学外国语学院副教授,副院长,硕士生导师。研究方向为:应用语言学与语料库语言学。曾主持江苏省社科基金项目一项(已结题),现主持国家社科基金项目 \
目录
绪论 1
0.1 研究背景 1
0.2 本研究的理论及实践意义 4
0.2.1 理论意义 4
0.2.2 实践意义 6
0.3 本研究概述 9
0.3.1 研究目的 9
0.3.2 研究问题及研究对象 9
0.3.3 研究步骤 10
0.3.3.1 语料及预处理 11
0.3.3.2 特征集的建立及其转换 11
0.3.3.3 权重计算 13
0.3.3.4 索引行聚类 14
0.3.3.5 型式提取 15
0.4 本书结构 15
0.5 小结 16
第一章 型式与型式语法 17
1.1 型式 17
1.1.1 型式研究的缘起与发展 17
1.1.2 型式的定义 20
1.1.3 型式实例 21
1.1.4 型式元素及其编码 23
1.1.5 本研究中判别型式的六个标准 26
1.2 型式语法 26
1.2.1 短语学思想与习语原则 27
1.2.2 词汇与语法关系及各自地位 28
1.2.2.1 词汇语法不可分 28
1.2.2.2 词汇为中心的研究 30
1.2.3 型式与意义的关系 32
1.3 型式语法的优缺点 35
1.3.1 型式语法与传统语法的差异 35
1.3.2 型式语法的优点 36
1.3.3 型式语法的不足 37
1.4 以型式语法为理论基础的相关研究 40
1.5 小结 41
第二章 型式识别方法与相关应用研究 42
2.1 型式识别标准 42
2.2 型式总结的必要性 43
2.3 型式的识别 44
2.3.1 型式的人工识别 45
2.3.2 型式人工识别辅助工具的开发 48
2.3.3 型式的自动识别 48
2.3.3.1 型式自动识别的理据 48
2.3.3.2 型式的自动识别研究 51
2.4 现有的语言型式网络平台数据库 52
2.4.1 基于机器处理的网络数据库 53
2.4.2 基于人工处理的网络数据库 54
2.5 小结 56
第三章 聚类分析 57
3.1 文本表示 58
3.2 特征选择及其权重 59
3.2.1 特征选择 59
3.2.2 权重计算 60
3.3 相似度计算 61
3.3.1 相似度计算的源起及理据 61
3.3.2 相似度计算方法 61
3.3.3 相似度分析在语言研究中的应用 63
3.4 聚类算法 64
3.4.1 划分聚类 65
3.4.2 层次聚类 66
3.5 聚类质量评价指标 67
3.6 聚类在本研究的应用理据 68
3.7 小结 69
第四章 文本预处理与特征集的建立及转换 70
4.1 研究概述 70
4.2 语料选取 70
4.3 研究工具 72
4.3.1 语料预处理工具 72
4.3.2 自主开发的模块及脚本 72
4.4 语料预处理流程 73
4.5 动词型式中的必要元素及其转换方法 75
4.5.1 型式列表中元素的总体特征 75
4.5.2 具体词形的处理方法 77
4.5.2.1 右侧搭配词处理方法 77
4.5.2.2 左侧搭配词处理方法 90
4.5.2.3 两侧搭配词处理方法 90
4.5.3 相邻单词组合的处理方法 90
4.5.4 词类标签及语义类标签的转换方法 98
4.5.4.1 词类标签的转换方法 98
4.5.4.2 语义类标签转换方法 102
4.5.5 转换顺序及步骤 104
4.6 小结 105
第五章 索引行聚类及型式自动提取方法 106
5.1 特征表示方法、特征权重与位置权重的计算 106
5.1.1 特征及特征权重 106
5.1.1.1 功能词处理方法 107
5.1.1.2 特征标记方法 107
5.1.1.3 型式边界的界定 108
5.1.1.4 索引行跨距的设定 110
5.1.1.5 特征权重计算方法 112
5.1.2 位置权重 112
5.1.3 特征—索引行矩阵的生成 113
5.2 聚类算法 114
5.2.1 相似度计算 114
5.2.2 K均值算法 115
5.2.2.1 K均值聚类 115
5.2.2.2 K值的选择标准 115
5.3 型式自动提取 116
5.4 小结 117
猜您喜欢