书籍详情
视觉环境感知技术:场景语义解析方法与应用

作者:陈启军、刘成菊、闫卿卿、李树
出版社:清华大学出版社
出版时间:2025-02-01
ISBN:9787302682677
定价:¥89.00
购买这本书可以去
内容简介
本书围绕场景语义解析算法的信息传递、特征提取、知识表征、语义生成、训练优化五个方面开展研究,并在典型自主智能系统上进行测试与应用。本书探究了网络信息流完整性传递机制,构建了空间解耦的多尺度表征学习框架,拓展了频域知识空间学习与高效特征融合,提出了语义-定位解耦的高分辨率语义生成方法、引入了重参数化方法改善训练动态提升模型泛化,并针对实际系统给出了模型搭建原则、部署策略及运行实例。本书全面提升了自主智能系统场景语义解析算法的实时性、准确性、鲁棒性及泛化性,增强了自主智能系统的环境感知与任务执行能力。 本书适合对视觉场景理解感兴趣的学生、教师、研究人员和工程师阅读。
作者简介
陈启军,同济大学教授,博士导师。中国(上海)数字城市研究院执行院长。主要从事人工智能与机器人方面的研究。曾作为客座教授在德国University of Hagen做客座研究(2002)、美国UC Berkeley访问学者(2008)、瑞士苏黎世联邦理工学院访问学者(2010)、美国南加州大学访问学者(2012)、美国卡内基梅隆大学访问学者(2018)。 自动化教学指导委员会委员,中国自动化学会理事,中国人工智能学会理事,中国自动化学会集成自动化技术专业委员会主任,中国自动化学会智能自动专业委员会副主任,中国人工智能学会智能机器人专业委员会常委,上海市自动化学会副理事长。科技部重点研发计划首席科学家, 新世纪优秀人才,上海市优秀学术带头人,上海市曙光学者,上海市领军人才,获国务院政府特殊津贴。
目录
第 1章绪论 1
1.1背景与意义
1
1.
2国内外研究现状 5
1.
2.1视觉场景信息处理与传递 5
1.
2.2高效多尺度特征提取框架 7
1.
2.3高维知识表征方法 8
1.
2.4高分辨率语义生成技术 10
1.
2.5网络训练动态改善技术 11
1.
2.6场景语义解析算法网络构建及其应用 13
1.
2.7场景语义解析数据集及评价标准 . 14
1.
3科学问题与研究内容 18
1.
3.1拟解决的科学问题 . 18
1.
3.2本书的研究内容 20
1.4本书内容安排
22
第 2章网络信息流传递机制 . 24
2.1概述
. 24
2.
1.1拟解决的主要问题 . 25
2.
1.2研究内容及贡献 26
2.
2结构信息留存策略 . 26
2.
2.1网络结构设计 . 27
2.2.2性能分析
28
2.
2.3与现有方法对比 28
2.
3具有相互引导性的上-下采样对 29
2.
3.1网络结构设计 . 30
2.3.2性能分析
31
2.
3.3与现有方法对比 33
2.
4层次化高分辨率信息恢复与生成 . 34
2.
4.1网络结构设计 . 35
2.4.2性能分析
35
2.
4.3与现有方法对比 37
2.
5实验结果与分析 . 38
2.
5.1实验模型构建 . 38
2.5.2消融研究
39
2.
5.3与当前先进方法的性能对比 . 44
2.
5.4算法优势与局限性分析 47
2.6本章小结
. 49
第 3章空间多尺度特征学习 . 50
3.1概述
. 50
3.
1.1拟解决的主要问题 . 51
3.
1.2研究内容及贡献 52
3.2空间邻域解耦
-耦合算子 52
3.2.1算子定义
52
3.
2.2与现有方法对比 54
3.
3初始特征的局部感知与全局建模 . 55
3.
3.1网络结构设计 . 56
3.3.2性能分析
57
3.
3.3与现有方法对比 58
3.
4高级特征的空间并行多尺度学习 . 59
3.
4.1网络结构设计 . 59
3.4.2性能分析
60
3.
4.3与现有方法对比 62
3.
5实验结果与分析 . 63
3.5.1实验模型
63
3.5.2消融研究
63
3.
5.3与当前先进方法的性能对比 . 69
3.
5.4算法优势与局限性分析 73
3.6本章小结
. 74
第 4章频域下高效知识表征 . 75
4.1概述
. 75
4.
1.1拟解决的主要问题 . 76
4.
1.2研究内容及贡献 77
4.
2全感受野卷积算子 . 77
4.
2.1网络结构设计 . 78
4.2.2设计原理
79
4.2.3性能分析
79
4.
3频域下全局空间结构建模 . 80
4.
3.1网络结构设计 . 80
4.3.2设计原理
81
4.
4因子化注意力机制下的融合表征 . 82
4.
4.1网络结构设计 . 82
4.4.2设计原理
83
4.
5实验结果与分析 . 84
4.
5.1实验模型构建 . 84
4.5.2消融研究
85
4.
5.3与当前先进方法的性能对比 . 87
4.6本章小结
. 88
第 5章幅-相感知与高分辨率语义生成 . 89
5.1概述
. 89
5.
1.1拟解决的主要问题 . 90
5.
1.2研究内容及贡献 91
5.
2图像频域表征分析 . 91
5.
2.1图像频域表征形式 . 91
5.
2.2图像谱特性分析 93
5.2.3语义
-定位解耦表征变换 . 94
5.
3基于幅度感知的语义多样性表征 . 95
5.3.1设计原理
95
5.
3.2网络结构设计 . 96
5.
4基于相位修正的定位原型优化 . 97
5.4.1设计原理
97
5.
4.2网络结构设计 . 98
5.
5相位敏感性约束 . 99
5.5.1设计原理
99
5.5.2设计细节
100
5.
6实验结果与分析 . 102
5.
6.1实验模型构建 . 102
5.6.2消融研究
104
5.
6.3与当前先进方法的性能对比 . 110
5.7本章小结
. 113
第 6章模型训练动态优化 . 114
6.1概述
. 114
6.
1.1拟解决的主要问题 . 115
6.
1.2研究内容及贡献 116
6.
2隐式正则效应度量方法 . 116
6.
2.1网络训练动态度量 . 116
6.
2.2推理权重奇异值分布度量 . 117
6.
3稠密重参数化驱动的隐式正则机制 118
6.
3.1构建深度矩阵分解式结构 . 118
6.3.2引入
BN保证可训练性 . 120
6.
3.3引入稠密连接以缓解奇异性 . 122
6.4训练
-推理解耦结构及等价变换 126
6.
4.1稠密重参数化模块相关参数选择 . 128
6.
4.2稠密重参数化模块的建模对比 129
6.
5实验结果与分析 . 129
6.5.1实验设置
130
6.5.2消融实验
130
6.
5.3先进性验证实验 136
6.
5.4在场景语义解析任务上的验证实验 . 139
6.6本章小结
. 139
第 7章典型应用案例 . 141
7.
1部署策略与方案 . 141
7.
1.1特定硬件下的深度网络模型设计 . 142
7.
1.2特定硬件平台下的部署策略 . 149
7.
2结构化静态航空消声蜂窝精准定位 150
7.2.1任务描述
151
7.2.2算法实施
152
7.
2.3进展与成果 . 154
7.
3半结构化对抗场景下 RoboCup仿人机器人视觉感知 . 155
7.3.1任务描述
156
7.3.2算法实施
157
7.
3.3进展与成果 . 159
7.
4复杂交互场景下的安全监管与人员行为识别 . 160
7.4.1任务描述
160
7.4.2算法实施
162
7.4.3进展与成果 . 164
7.5高动态开放场景下自动驾驶车辆车道线检测 . 166
7.5.1任务描述 166
7.5.2算法实施 168
7.5.3进展与成果 . 169
7.6本章小结 . 170
第 8章总结与展望 . 172
8.1总结 . 172
8.2展望 . 174
参考文献 . 177
附录 A主要符号对照表 191
猜您喜欢



