书籍详情

实感交互:人工智能下的人机交互技术

实感交互:人工智能下的人机交互技术

作者:Achintya K.Bhowmik 著,温秀颖 译

出版社:机械工业出版社

出版时间:2018-07-01

ISBN:9787111597827

定价:¥99.00

购买这本书可以去
内容简介
  过往的科幻现已成真,在人工智能时代现在我们与计算机、手机和娱乐设备的互动正在经历革命性的变化,基于触摸、手势、语音和视觉的自然人机交互正在逐渐替代使用键盘、鼠标和游戏手柄等的交互。显示设备也从单纯的显示设备转变为提供更具吸引力和沉浸式体验的双向交互设备。本书将深入讲解基于触摸、手势、语音和视觉等自然人机交互领域的技术、应用和未来趋势。 本书适合从事人机交互领域工作的研究、设计、开发人员,相关专业师生,以及人工智能时代下对人机交互未来发展趋势有浓厚兴趣的人士阅读。
作者简介
  Achintya K.Bhowmik博士曾是英特尔公司大商业部门——PC部分的负责人,现为英特尔公司感知运算部门技术总监,他负责领导研发基于自然人机交互技术和视觉计算技术的下一代解决方案。这些技术包括视觉感知、语音识别、生物传感、沉浸式显示、多模态用户界面与应用等。 Achintya K.Bhowmik博士出版和发表过多本著作与多篇论文,获得过27项授权专利,他是IEEE的高级成员,同时也在加利福尼亚大学圣克鲁兹分校教授移动传感和计算机视觉课程。
目录
原书序
原书前言
第1章 交互式显示的感知、理解与自然
人机界面1
 1.1 引言1
 1.2 人类感知和理解3
 1.3 人机界面技术7
  1.3.1 过往的输入装置7
  1.3.2 触控式交互技术9
  1.3.3 声控交互10
  1.3.4 视控交互12
  1.3.5 多模态交互15
 1.4 “真实”3D交互显示探索17
 1.5 结语19
 参考文献19
第2章 触觉感知22
 2.1 引言22
 2.2 触控技术简介23
  2.2.1 触摸屏24
  2.2.2 按大小和应用对触控技术进行分类25
  2.2.3 按材质和结构分类的触控技术27
  2.2.4 按检测物理量分类的触控技术27
  2.2.5 按感知能力分类的触控技术28
  2.2.6 触控技术的未来29
 2.3 触控技术的历史29
 2.4 电容式触控技术32
  2.4.1 投射电容式触控技术(编号1) 32
  2.4.2 表面电容式触控技术(编号2) 39
 2.5 电阻式触控技术43
  2.5.1 模拟电阻式触控技术(编号3) 43
  2.5.2 数字多点电阻式触控技术(编号4) 48
  2.5.3 模拟多点电阻式触控技术(编号5) 49
 2.6 声波触控技术51
  2.6.1 表面声波触控技术(编号6) 51
  2.6.2 声学脉冲识别触控技术(编号7) 53
  2.6.3 色散信号技术触控技术(编号8) 56
 2.7 光学触控技术57
  2.7.1 传统红外线触控技术(编号9) 57
  2.7.2 多点触控红外技术(编号10) 61
  2.7.3 摄像光学触控技术(编号11) 63
  2.7.4 玻璃光学触控技术(平面散射检测)(编号12) 68
  2.7.5 视觉光学触控技术(编号13) 69
 2.8 嵌入式触控技术72
  2.8.1 外嵌互电容式(编号14) 74
  2.8.2 混合互电容式(编号15) 74
  2.8.3 内嵌互电容式(编号16) 76
  2.8.4 内嵌式光感(编号17) 77
 2.9 其他触控技术79
  2.9.1 压力感测(编号18) 79
  2.9.2 组合触控技术81
 2.10 结语82
 2.11 附录82
 参考文献83
第3章 用户界面中的声控式交互技术88
 3.1 引言88
 3.2 语音识别91
  3.2.1 语言的本质91
  3.2.2 声学模型和前端模式92
  3.2.3 使语音对齐隐马尔科夫模型(HMM)的过程93
  3.2.4 语言模型93
  3.2.5 探索:以每秒1000个单词完成填字游戏95
  3.2.6 训练声学和语言模型96
  3.2.7 为特定说话人识别系统调整发声和语音模型96
  3.2.8 “标准”系统外的其他系统97
  3.2.9 性能98
 3.3 语音识别的深度神经网络98
 3.4 硬件优化100
  3.4.1 低电量唤醒运算101
  3.4.2 特定运算的硬件优化101
 3.5 稳健语音识别的信号强化技术102
  3.5.1 稳健语音识别102
  3.5.2 单通道噪声抑制102
  3.5.3 多通道噪声抑制104
  3.5.4 噪声消除104
  3.5.5 回音消除104
  3.5.6 波束形成105
 3.6 声音生物计量106
  3.6.1 引言106
  3.6.2 声音生物计量面临的挑战106
  3.6.3 声音生物计量的新研究领域107
 3.7 语音合成107
 3.8 自然语言理解110
  3.8.1 混合主导对话111
  3.8.2 预设和填值技术的局限113
 3.9 多轮对话管理116
 3.10 规划和推理119
  3.10.1 技术挑战119
  3.10.2 语义分析和语篇表达120
  3.10.3 语用学121
  3.10.4 对话管理协作122
  3.10.5 规划和再规划122
  3.10.6 知识呈现与推理123
  3.10.7 监控123
  3.10.8 推荐阅读文献124
 3.11 问题解答124
  3.11.1 问题分析125
  3.11.2 寻找相关信息125
  3.11.3 解答与依据126
  3.11.4 呈现答案126
 3.12 分布式语音交互架构126
  3.12.1 分布式用户界面127
  3.12.2 分布的语音及语言技术128
 3.13 结语129
 参考文献130
第4章 视觉传感与肢体动作交互技术136
 4.1 引言136
 4.2 图像技术:2D和3D 137
 4.3 姿势交互140
 4.4 结语146
 参考文献147
第5章 实时3D传感与结构光技术149
 5.1 引言149
 5.2 结构化图案汇编150
  5.2.1 2D伪随机汇编151
  5.2.2 二进制结构化汇编152
  5.2.3 多进制汇编153
  5.2.4 连续正弦相位汇编154
 5.3 结构光系统校准157
 5.4 数字条纹投射(DFP)技术下的3D传感示例160
 5.5 实时3D传感技术162
  5.5.1 数字光处理(DLP)技术的原理162
  5.5.2 实时3D数据采集164
  5.5.3 实时3D数据处理与可视化165
  5.5.4 实时3D传感实例166
 5.6 人机交互应用的实时3D传感166
  5.6.1 实时3D面部表情捕捉及其人机交互的意义167
  5.6.2 实时3D身体部分姿势捕捉及其人机交互的意义167
  5.6.3 人机交互意义的总结168
 5.7 最新发展169
  5.7.1 实时3D传感与自然2D彩色纹理捕捉169
  5.7.2 超高速3D传感171
 5.8 结语173
 参考文献173
第6章 实时立体3D成像技术178
 6.1 引言178
 6.2 背景179
 6.3 立体匹配算法的结构181
  6.3.1 匹配成本计算182
  6.3.2 匹配成本聚合183
 6.4 特征分类184
  6.4.1 深度估计密度184
  6.4.2 优化策略185
 6.5 实施平台的分类186
  6.5.1 仅用CPU的方法187
  6.5.2 GPU提速的方法187
  6.5.3 硬件执行(FPGA,ASIC) 188
 6.6 结语190
 参考文献190
第7章 飞行时间法3D成像技术194
 7.1 引言194
 7.2 飞行时间法3D传感194
 7.3 脉冲飞行时间法196
 7.4 持续飞行时间法196
 7.5 计算方法197
 7.6 精度199
 7.7 局限性与改进200
  7.7.1 时差测距的挑战200
  7.7.2 理论局限200
  7.7.3 距离混叠201
  7.7.4 多径与散射202
  7.7.5 功率分配与优化202
 7.8 飞行时间法摄像组件203
 7.9 标准值203
  7.9.1 光的功率范围203
  7.9.2 背景光205
 7.10 技术发展最新水平206
 7.11 结语207
 参考文献207
第8章 凝视跟踪208
 8.1 引言和研究动机208
 8.2 眼睛210
 8.3 眼动仪212
  8.3.1 眼动仪的种类212
  8.3.2 角膜反射法214
 8.4 反对和障碍216
  8.4.1 人为方面216
  8.4.2 室外应用217
  8.4.3 校准217
  8.4.4 精度217
  8.4.5 点石成金(MidasTouch)问题218
 8.5 凝视交互研究218
 8.6 凝视指向219
  8.6.1 解决点石成金问题219
  8.6.2 精度问题的对策220
  8.6.3 鼠标指向和凝视指向对比221
  8.6.4 鼠标和凝视协调222
  8.6.5 凝视指向反馈224
 8.7 凝视姿势224
  8.7.1 凝视姿势的概念224
  8.7.2 姿势检测算法225
  8.7.3 执行凝视姿势的人类能力226
  8.7.4 凝视姿势字母表226
  8.7.5 姿势从自然眼动中分离227
  8.7.6 凝视姿势的应用228
 8.8 作为情境的凝视229
  8.8.1 活动识别229
  8.8.2 阅读检测231
  8.8.3 注意力检测232
  8.8.4 应用凝视情境233
 8.9 展望233
 参考文献234
第9章 感知用户界面的多模态输入237
 9.1 引言237
 9.2 多模态交互类型237
 9.3 多模态界面238
  9.3.1 触控输入238
  9.3.2 3D姿势245
  9.3.3 眼动跟踪和凝视249
  9.3.4 面部表情250
  9.3.5 脑机接口251
 9.4 多模态集成策略252
  9.4.1 框架式集成253
  9.4.2 合并式集成254
  9.4.3 程序性集成254
  9.4.4 符号/统计集成254
 9.5 多模态交互的可用性问题255
 9.6 结语256
 参考文献257
第10章 生物计量学中的多模态交互:技术与可用性挑战262
 10.1 引言262
  10.1.1 身份确认动机262
  10.1.2 生物计量学263
  10.1.3 多模态生物计量学的应用特征263
  10.1.4 2D和3D人脸识别264
  10.1.5 多模态案例研究266
  10.1.6 适应于盲人对象267
  10.1.7 本章结构268
 10.2 对移动生物计量平台的应用剖析268
  10.2.1 面部分析268
  10.2.2 语音分析271
  10.2.3 模型适应272
  10.2.4 数据融合273
  10.2.5 移动平台实施274
  10.2.6 MoBio数据库和协议275
 10.3 案例研究:为视觉缺陷者进行可用性研究276
  10.3.1 头部姿势变化对性能的影响276
  10.3.2 用户交互模块:头部姿势质量评估278
  10.3.3 用户-交互模块:音频反馈机制280
  10.3.4 视觉缺陷者的可用性测试282
 10.4 讨论与结语284
 参考文献285
第11章 迈向“真实的”3D交互显示器287
 11.1 引言287
 11.2 生物视觉的起源289
 11.3 光场成像294
 11.4 迈向“真实的”3D视觉显示300
 11.5 与3D显示屏上的视觉内容交互308
 11.6 结语310
 参考文献311
附录 缩略语313
猜您喜欢

读书导航