书籍详情
听觉信息处理研究前沿
作者:党建武,俞凯 等著
出版社:上海交通大学出版社
出版时间:2021-05-01
ISBN:9787313222060
定价:¥248.00
购买这本书可以去
内容简介
听觉信息处理技术的创新能够推动实现高度智能化机器感知系统的发展,本分册主要介绍了国内外听觉信息处理方面的研究现状和阶段性成果,通过对人类言语产生与听觉机理,听觉机理的计算理论与方法,语音信号处理,语音识别声学建模,特殊场景语音识别,声纹与语种识别,韵律、情绪及音乐分析,统计语音合成,口语对话系统等技术研究成果的阐述与分析,展示我国在这些研究领域的优势与特色,并提出未来的技术挑战与发展方向。
作者简介
俞凯,“国家杰青”获得者,青年千人计划入选者,上海市“东方学者”特聘教授,特别研究员,博导,上海交通大学智能语音技术实验室负责人。研究领域:人机口语交互,获“科学中国人 2016年度人物”,2014 年度“吴文俊人工智能科学技术奖”进步奖,发表论文 50 余篇。党建武,天津大学计算机学院教授,语音科学家,现兼任国立大学法人日本北陆先端科学技术大学院大学信息科学学院教授。他研发出的人的发音机制及控制的生理计算模型一直在该领域处于领先地位,并以此生理计算模型为基础展开人脑在语音生成和感知方面的研究。他的研究室还进行记忆的神经生理模型及知识描述等研究。他组织和分担过美日、中日多项国际合作研究开发项目。党建武在JASA等科学技术杂志上发表了数十篇论文及二百余篇国际国内会议研究。
目录
1 言语产生和听觉的机理及其研究/党建武 赵 彬 魏建国 ………… 1
1.1 言语产生和感知的机理 ………………………………………………… 3
1.1.1 有声语言产生的条件 …………………………………………… 3
1.1.2 语音产生的机理 ………………………………………………… 5
1.1.3 语音感知的机理 ………………………………………………… 7
1.2 声源的产生与声道的调制 …………………………………………… 13
1.2.1 声源产生机理与感知 ………………………………………… 13
1.2.2 声道的调制机理 ……………………………………………… 18
1.3 言语产生与感知的相互作用 ………………………………………… 24
1.3.1 言语链 ………………………………………………………… 24
1.3.2 言语感知运动理论 …………………………………………… 26
1.3.3 言语感知机理研究的发展与挑战 …………………………… 27
1.3.4 镜像神经元和言语听觉 运动整合 …………………………… 28
1.4 言语的脑功能研究 …………………………………………………… 30
1.4.1 言语的脑认知研究发展 ……………………………………… 30
1.4.2 言语的认知神经机理 ………………………………………… 33
1.4.3 言语功能障碍及康复训练 …………………………………… 42
1.5 语音信号处理方法简介 ……………………………………………… 47
1.5.1 基于产生机理的信号处理方法 ……………………………… 48
1.5.2 基于感知机理的信号处理方法 ……………………………… 52
参考文献 ……………………………………………………………………… 55
2 语音增强与麦克风阵列信号处理/付中华 ……………………………… 69
2.1 信号模型………………………………………………………………… 71
2.1.1 时域信号模型 ………………………………………………… 71
2.1.2 频域信号模型与短时傅里叶变换技术 ……………………… 72
2.2 评价方法………………………………………………………………… 74
2.2.1 主观评价方法与指标 ………………………………………… 74
2.2.2 客观评价方法与指标 ………………………………………… 76
2.3 单声道语音增强 ……………………………………………………… 78
2.3.1 时域维纳滤波器增强原理 …………………………………… 80
2.3.2 频域维纳滤波器增强原理 …………………………………… 81
2.3.3 噪声功率谱的估计 …………………………………………… 84
2.3.4 基于深度学习的语音增强 …………………………………… 87
2.4 麦克风阵列语音增强 ………………………………………………… 92
2.4.1 固定波束 ……………………………………………………… 93
2.4.2 自适应波束 …………………………………………………… 106
2.4.3 后置滤波技术 ………………………………………………… 113
参考文献 ……………………………………………………………………… 119
3 语音识别声学建模/俞 凯 徐 波 戴礼荣………………………… 123
3.1 统计语音识别概述 …………………………………………………… 125
3.2 基于隐马尔可夫模型的经典声学建模方法 ……………………… 127
3.2.1 HMM……………………………………………………………… 127
3.2.2 GMM HMM在语音识别中的使用 ……………………………… 130
3.2.3 模型改进及问题分析 ………………………………………… 132
3.2.4 自适应技术 …………………………………………………… 132
3.2.5 鉴别性训练技术 ……………………………………………… 136
3.3 结合深度学习的声学建模方法……………………………………… 138
3.3.1 深度学习基础 ………………………………………………… 138
3.3.2 CD DNN HMM混合建模……………………………………………149
3.3.3 深度学习在声学建模中的综合应用 ………………………… 152
3.3.4 深度学习训练加速 …………………………………………… 162
3.3.5 深度学习自适应技术 ………………………………………… 167
3.3.6 深度学习框架下的序列鉴别性训练 ………………………… 171
3.3.7 端到端声学建模 ……………………………………………… 174
参考文献 …………………………………………………………… 179
4 特殊场景语音识别(抗噪、低资源)/谢 磊 张鹏远 钱彦旻
杜 俊 ………………………………………………………………………… 191
4.1 鲁棒语音识别前端 …………………………………………………… 193
4.1.1 噪声鲁棒性语音识别方法 …………………………………… 193
4.1.2 鲁棒性特征 …………………………………………………… 194
4.1.3 信号域增强 …………………………………………………… 195
4.1.4 特征增强/ 补偿方法 ………………………………………… 207
4.2 环境表达与声学模型自适应………………………………………… 209
4.2.1 自适应与鲁棒性 ……………………………………………… 209
4.2.2 基于保守训练的自适应 ……………………………………… 210
4.2.3 基于线性变换的自适应 ……………………………………… 212
4.2.4 基于环境感知的自适应 ……………………………………… 213
4.2.5 参数结构化自适应及自适应训练 …………………………… 216
4.3 多语种声学与语言建模 ……………………………………………… 217
4.3.1 基于知识共享的多语言声学建模技术 ……………………… 217
4.3.2 小语种语言模型建模技术 …………………………………… 221
参考文献 ……………………………………………………………………… 224
5 声纹识别与语种识别/王龙标 李 明 郑 方 程星亮 李蓝天
………………………………………………………………………………… 237
5.1 声纹识别与语种识别简介 …………………………………………… 239
5.1.1 传统方法 ……………………………………………………… 241
5.1.2 深度学习方法 ………………………………………………… 242
5.1.3 迁移学习、多任务学习及多数据库联合学习 ……………… 246
5.2 声纹识别经典算法 …………………………………………………… 246
5.2.1 特征提取 ……………………………………………………… 246
5.2.2 GMM-UBM-MAP ………………………………………………… 249
5.2.3 i-vector ……………………………………………………… 252
5.2.4 PLDA………………………………………………………………256
5.3 鲁棒性声纹识别算法 ………………………………………………… 261
5.3.1 复杂环境声纹识别 …………………………………………… 262
5.3.2 时变声纹识别 ………………………………………………… 265
5.3.3 短语音声纹识别 ……………………………………………… 267
5.3.4 防声纹假冒闯入对策 ………………………………………… 270
5.4 基于深度学习的声纹及语种识别算法……………………………… 275
5.4.1 广义统计量 …………………………………………………… 276
5.4.2 Tandem及Bottleneck特征…………………………………… 278
5.4.3 典型模型结构 ………………………………………………… 279
5.5 评价指标、数据库及工具包 ………………………………………… 283
5.5.1 评价指标 ……………………………………………………… 283
5.5.2 数据库及工具包 ……………………………………………… 284
参考文献 ……………………………………………………………………… 285
6 韵律、情绪及音乐分析/陶建华 李爱军 李 伟 …………………… 305
6.1 言语韵律 ……………………………………………………………… 307
6.1.1 言语韵律基本概念与理论 …………………………………… 307
6.1.2 韵律分析与建模 ……………………………………………… 313
6.1.3 韵律标注系统 ………………………………………………… 317
6.1.4 汉语韵律研究的挑战 ………………………………………… 320
6.2 情感语音 ……………………………………………………………… 322
6.2.1 情感语音的声学特征 ………………………………………… 322
6.2.2 语音的情感分类与识别 ……………………………………… 324
6.2.3 情感语音合成 ………………………………………………… 331
6.3 音乐内容分析理解 …………………………………………………… 336
6.3.1 音乐和语音的关系 …………………………………………… 336
6.3.2 音乐旋律分析 ………………………………………………… 340
6.3.3 音乐节奏分析 ………………………………………………… 344
参考文献 ……………………………………………………………………… 349
7 统计语音合成/凌震华 陶建华 ………………………………………… 355
7.1 语音合成概述 ………………………………………………………… 357
7.2 基于隐马尔可夫模型的统计语音合成方法 ……………………… 359
7.2.1 隐马尔可夫模型 ……………………………………………… 359
7.2.2 基于HMM的统计参数语音合成 …………………………… 361
7.2.3 基于HMM的统计参数语音合成关键技术 ………………… 363
7.2.4 基于HMM的语音合成灵活性 ……………………………… 366
7.2.5 基于HMM的统计参数语音合成方法的优缺点 …………… 372
7.3 结合深度学习的统计语音合成方法………………………………… 374
7.3.1 深度学习关键技术 …………………………………………… 374
7.3.2 基于深度学习的声学建模方法 ……………………………… 379
7.3.3 基于深度学习的频谱特征提取与频谱生成后滤波 ………… 391
7.3.4 基于神经网络的波形生成方法 ……………………………… 394
7.4 基于神经网络的语音合成前端处理………………………………… 399
7.4.1 基于深度学习的字音转换 …………………………………… 399
7.4.2 基于深度学习的韵律边界预测 ……………………………… 400
7.5 基于神经网络的语音合成端到端建模方法 ……………………… 402
参考文献 ……………………………………………………………………… 406
8 人机口语对话系统/俞 凯 陈 露 …………………………………… 415
8.1 人机口语对话系统概述 ……………………………………………… 417
8.1.1 人机口语对话系统发展历史及分类 ………………………… 417
8.1.2 任务型人机口语对话系统的基本架构 ……………………… 418
8.1.3 对话系统的评估 ……………………………………………… 420
8.2 口语理解 ……………………………………………………………… 422
8.2.1 口语理解基本概念 …………………………………………… 422
8.2.2 口语理解算法前沿 …………………………………………… 427
8.2.3 口语理解中的不确定性建模 ………………………………… 437
8.2.4 上下文建模及领域自适应 …………………………………… 440
8.2.5 研究展望 ……………………………………………………… 445
8.3 对话状态跟踪 ………………………………………………………… 446
8.3.1 基于部分可观测马尔可夫决策过程(POMDP)的对话管理
框架概述 ……………………………………………………… 446
8.3.2 对话状态跟踪 ………………………………………………… 447
8.3.3 对话状态跟踪挑战赛 ………………………………………… 449
8.3.4 基于统计的DST模型………………………………………… 449
8.3.5 基于规则的DST模型………………………………………… 450
8.3.6 基于规则与统计相结合的DST模型………………………… 451
8.3.7 端到端的DST模型…………………………………………… 453
8.3.8 多领域DST模型……………………………………………… 457
8.4 对话策略优化 ………………………………………………………… 458
8.4.1 强化学习及其在对话策略优化中的应用 …………………… 458
8.4.2 深度强化学习在对话策略优化中的应用 …………………… 463
8.4.3 对话策略优化的高级技术 …………………………………… 466
8.4.4 用户模拟器 …………………………………………………… 469
参考文献 ……………………………………………………………………… 475
9 面向健康医疗的语音技术/贾 珈 ……………………………………… 489
9.1 言语感知的脑机制 …………………………………………………… 491
9.1.1 言语感知机理 ………………………………………………… 491
9.1.2 言语感知障碍的脑机制 ……………………………………… 499
9.2 助听技术与听障评估 ………………………………………………… 503
9.2.1 人工电子耳的构成 …………………………………………… 505
9.2.2 人工电子耳语音信号编码方案 ……………………………… 506
9.2.3 人工电子耳的当前技术挑战 ………………………………… 507
9.2.4 听障评估技术 ………………………………………………… 507
9.3 嗓音障碍产生机制与客观评估技术………………………………… 510
9.3.1 嗓音障碍产生机制 …………………………………………… 511
9.3.2 嗓音障碍的声学客观评估方法 ……………………………… 512
9.4 言语康复训练与学习 ………………………………………………… 515
9.4.1 言语康复技术概述 …………………………………………… 516
9.4.2 可视化言语康复训练 ………………………………………… 519
参考文献 ……………………………………………………………………… 525
索引 ……………………………………………………………………………… 529
1.1 言语产生和感知的机理 ………………………………………………… 3
1.1.1 有声语言产生的条件 …………………………………………… 3
1.1.2 语音产生的机理 ………………………………………………… 5
1.1.3 语音感知的机理 ………………………………………………… 7
1.2 声源的产生与声道的调制 …………………………………………… 13
1.2.1 声源产生机理与感知 ………………………………………… 13
1.2.2 声道的调制机理 ……………………………………………… 18
1.3 言语产生与感知的相互作用 ………………………………………… 24
1.3.1 言语链 ………………………………………………………… 24
1.3.2 言语感知运动理论 …………………………………………… 26
1.3.3 言语感知机理研究的发展与挑战 …………………………… 27
1.3.4 镜像神经元和言语听觉 运动整合 …………………………… 28
1.4 言语的脑功能研究 …………………………………………………… 30
1.4.1 言语的脑认知研究发展 ……………………………………… 30
1.4.2 言语的认知神经机理 ………………………………………… 33
1.4.3 言语功能障碍及康复训练 …………………………………… 42
1.5 语音信号处理方法简介 ……………………………………………… 47
1.5.1 基于产生机理的信号处理方法 ……………………………… 48
1.5.2 基于感知机理的信号处理方法 ……………………………… 52
参考文献 ……………………………………………………………………… 55
2 语音增强与麦克风阵列信号处理/付中华 ……………………………… 69
2.1 信号模型………………………………………………………………… 71
2.1.1 时域信号模型 ………………………………………………… 71
2.1.2 频域信号模型与短时傅里叶变换技术 ……………………… 72
2.2 评价方法………………………………………………………………… 74
2.2.1 主观评价方法与指标 ………………………………………… 74
2.2.2 客观评价方法与指标 ………………………………………… 76
2.3 单声道语音增强 ……………………………………………………… 78
2.3.1 时域维纳滤波器增强原理 …………………………………… 80
2.3.2 频域维纳滤波器增强原理 …………………………………… 81
2.3.3 噪声功率谱的估计 …………………………………………… 84
2.3.4 基于深度学习的语音增强 …………………………………… 87
2.4 麦克风阵列语音增强 ………………………………………………… 92
2.4.1 固定波束 ……………………………………………………… 93
2.4.2 自适应波束 …………………………………………………… 106
2.4.3 后置滤波技术 ………………………………………………… 113
参考文献 ……………………………………………………………………… 119
3 语音识别声学建模/俞 凯 徐 波 戴礼荣………………………… 123
3.1 统计语音识别概述 …………………………………………………… 125
3.2 基于隐马尔可夫模型的经典声学建模方法 ……………………… 127
3.2.1 HMM……………………………………………………………… 127
3.2.2 GMM HMM在语音识别中的使用 ……………………………… 130
3.2.3 模型改进及问题分析 ………………………………………… 132
3.2.4 自适应技术 …………………………………………………… 132
3.2.5 鉴别性训练技术 ……………………………………………… 136
3.3 结合深度学习的声学建模方法……………………………………… 138
3.3.1 深度学习基础 ………………………………………………… 138
3.3.2 CD DNN HMM混合建模……………………………………………149
3.3.3 深度学习在声学建模中的综合应用 ………………………… 152
3.3.4 深度学习训练加速 …………………………………………… 162
3.3.5 深度学习自适应技术 ………………………………………… 167
3.3.6 深度学习框架下的序列鉴别性训练 ………………………… 171
3.3.7 端到端声学建模 ……………………………………………… 174
参考文献 …………………………………………………………… 179
4 特殊场景语音识别(抗噪、低资源)/谢 磊 张鹏远 钱彦旻
杜 俊 ………………………………………………………………………… 191
4.1 鲁棒语音识别前端 …………………………………………………… 193
4.1.1 噪声鲁棒性语音识别方法 …………………………………… 193
4.1.2 鲁棒性特征 …………………………………………………… 194
4.1.3 信号域增强 …………………………………………………… 195
4.1.4 特征增强/ 补偿方法 ………………………………………… 207
4.2 环境表达与声学模型自适应………………………………………… 209
4.2.1 自适应与鲁棒性 ……………………………………………… 209
4.2.2 基于保守训练的自适应 ……………………………………… 210
4.2.3 基于线性变换的自适应 ……………………………………… 212
4.2.4 基于环境感知的自适应 ……………………………………… 213
4.2.5 参数结构化自适应及自适应训练 …………………………… 216
4.3 多语种声学与语言建模 ……………………………………………… 217
4.3.1 基于知识共享的多语言声学建模技术 ……………………… 217
4.3.2 小语种语言模型建模技术 …………………………………… 221
参考文献 ……………………………………………………………………… 224
5 声纹识别与语种识别/王龙标 李 明 郑 方 程星亮 李蓝天
………………………………………………………………………………… 237
5.1 声纹识别与语种识别简介 …………………………………………… 239
5.1.1 传统方法 ……………………………………………………… 241
5.1.2 深度学习方法 ………………………………………………… 242
5.1.3 迁移学习、多任务学习及多数据库联合学习 ……………… 246
5.2 声纹识别经典算法 …………………………………………………… 246
5.2.1 特征提取 ……………………………………………………… 246
5.2.2 GMM-UBM-MAP ………………………………………………… 249
5.2.3 i-vector ……………………………………………………… 252
5.2.4 PLDA………………………………………………………………256
5.3 鲁棒性声纹识别算法 ………………………………………………… 261
5.3.1 复杂环境声纹识别 …………………………………………… 262
5.3.2 时变声纹识别 ………………………………………………… 265
5.3.3 短语音声纹识别 ……………………………………………… 267
5.3.4 防声纹假冒闯入对策 ………………………………………… 270
5.4 基于深度学习的声纹及语种识别算法……………………………… 275
5.4.1 广义统计量 …………………………………………………… 276
5.4.2 Tandem及Bottleneck特征…………………………………… 278
5.4.3 典型模型结构 ………………………………………………… 279
5.5 评价指标、数据库及工具包 ………………………………………… 283
5.5.1 评价指标 ……………………………………………………… 283
5.5.2 数据库及工具包 ……………………………………………… 284
参考文献 ……………………………………………………………………… 285
6 韵律、情绪及音乐分析/陶建华 李爱军 李 伟 …………………… 305
6.1 言语韵律 ……………………………………………………………… 307
6.1.1 言语韵律基本概念与理论 …………………………………… 307
6.1.2 韵律分析与建模 ……………………………………………… 313
6.1.3 韵律标注系统 ………………………………………………… 317
6.1.4 汉语韵律研究的挑战 ………………………………………… 320
6.2 情感语音 ……………………………………………………………… 322
6.2.1 情感语音的声学特征 ………………………………………… 322
6.2.2 语音的情感分类与识别 ……………………………………… 324
6.2.3 情感语音合成 ………………………………………………… 331
6.3 音乐内容分析理解 …………………………………………………… 336
6.3.1 音乐和语音的关系 …………………………………………… 336
6.3.2 音乐旋律分析 ………………………………………………… 340
6.3.3 音乐节奏分析 ………………………………………………… 344
参考文献 ……………………………………………………………………… 349
7 统计语音合成/凌震华 陶建华 ………………………………………… 355
7.1 语音合成概述 ………………………………………………………… 357
7.2 基于隐马尔可夫模型的统计语音合成方法 ……………………… 359
7.2.1 隐马尔可夫模型 ……………………………………………… 359
7.2.2 基于HMM的统计参数语音合成 …………………………… 361
7.2.3 基于HMM的统计参数语音合成关键技术 ………………… 363
7.2.4 基于HMM的语音合成灵活性 ……………………………… 366
7.2.5 基于HMM的统计参数语音合成方法的优缺点 …………… 372
7.3 结合深度学习的统计语音合成方法………………………………… 374
7.3.1 深度学习关键技术 …………………………………………… 374
7.3.2 基于深度学习的声学建模方法 ……………………………… 379
7.3.3 基于深度学习的频谱特征提取与频谱生成后滤波 ………… 391
7.3.4 基于神经网络的波形生成方法 ……………………………… 394
7.4 基于神经网络的语音合成前端处理………………………………… 399
7.4.1 基于深度学习的字音转换 …………………………………… 399
7.4.2 基于深度学习的韵律边界预测 ……………………………… 400
7.5 基于神经网络的语音合成端到端建模方法 ……………………… 402
参考文献 ……………………………………………………………………… 406
8 人机口语对话系统/俞 凯 陈 露 …………………………………… 415
8.1 人机口语对话系统概述 ……………………………………………… 417
8.1.1 人机口语对话系统发展历史及分类 ………………………… 417
8.1.2 任务型人机口语对话系统的基本架构 ……………………… 418
8.1.3 对话系统的评估 ……………………………………………… 420
8.2 口语理解 ……………………………………………………………… 422
8.2.1 口语理解基本概念 …………………………………………… 422
8.2.2 口语理解算法前沿 …………………………………………… 427
8.2.3 口语理解中的不确定性建模 ………………………………… 437
8.2.4 上下文建模及领域自适应 …………………………………… 440
8.2.5 研究展望 ……………………………………………………… 445
8.3 对话状态跟踪 ………………………………………………………… 446
8.3.1 基于部分可观测马尔可夫决策过程(POMDP)的对话管理
框架概述 ……………………………………………………… 446
8.3.2 对话状态跟踪 ………………………………………………… 447
8.3.3 对话状态跟踪挑战赛 ………………………………………… 449
8.3.4 基于统计的DST模型………………………………………… 449
8.3.5 基于规则的DST模型………………………………………… 450
8.3.6 基于规则与统计相结合的DST模型………………………… 451
8.3.7 端到端的DST模型…………………………………………… 453
8.3.8 多领域DST模型……………………………………………… 457
8.4 对话策略优化 ………………………………………………………… 458
8.4.1 强化学习及其在对话策略优化中的应用 …………………… 458
8.4.2 深度强化学习在对话策略优化中的应用 …………………… 463
8.4.3 对话策略优化的高级技术 …………………………………… 466
8.4.4 用户模拟器 …………………………………………………… 469
参考文献 ……………………………………………………………………… 475
9 面向健康医疗的语音技术/贾 珈 ……………………………………… 489
9.1 言语感知的脑机制 …………………………………………………… 491
9.1.1 言语感知机理 ………………………………………………… 491
9.1.2 言语感知障碍的脑机制 ……………………………………… 499
9.2 助听技术与听障评估 ………………………………………………… 503
9.2.1 人工电子耳的构成 …………………………………………… 505
9.2.2 人工电子耳语音信号编码方案 ……………………………… 506
9.2.3 人工电子耳的当前技术挑战 ………………………………… 507
9.2.4 听障评估技术 ………………………………………………… 507
9.3 嗓音障碍产生机制与客观评估技术………………………………… 510
9.3.1 嗓音障碍产生机制 …………………………………………… 511
9.3.2 嗓音障碍的声学客观评估方法 ……………………………… 512
9.4 言语康复训练与学习 ………………………………………………… 515
9.4.1 言语康复技术概述 …………………………………………… 516
9.4.2 可视化言语康复训练 ………………………………………… 519
参考文献 ……………………………………………………………………… 525
索引 ……………………………………………………………………………… 529
猜您喜欢