书籍详情

视觉环境感知技术:场景语义解析方法与应用

视觉环境感知技术:场景语义解析方法与应用

作者:陈启军、刘成菊、闫卿卿、李树

出版社:清华大学出版社

出版时间:2025-02-01

ISBN:9787302682677

定价:¥89.00

购买这本书可以去
内容简介
  本书围绕场景语义解析算法的信息传递、特征提取、知识表征、语义生成、训练优化五个方面开展研究,并在典型自主智能系统上进行测试与应用。本书探究了网络信息流完整性传递机制,构建了空间解耦的多尺度表征学习框架,拓展了频域知识空间学习与高效特征融合,提出了语义-定位解耦的高分辨率语义生成方法、引入了重参数化方法改善训练动态提升模型泛化,并针对实际系统给出了模型搭建原则、部署策略及运行实例。本书全面提升了自主智能系统场景语义解析算法的实时性、准确性、鲁棒性及泛化性,增强了自主智能系统的环境感知与任务执行能力。 本书适合对视觉场景理解感兴趣的学生、教师、研究人员和工程师阅读。
作者简介
  陈启军,同济大学教授,博士导师。中国(上海)数字城市研究院执行院长。主要从事人工智能与机器人方面的研究。曾作为客座教授在德国University of Hagen做客座研究(2002)、美国UC Berkeley访问学者(2008)、瑞士苏黎世联邦理工学院访问学者(2010)、美国南加州大学访问学者(2012)、美国卡内基梅隆大学访问学者(2018)。 自动化教学指导委员会委员,中国自动化学会理事,中国人工智能学会理事,中国自动化学会集成自动化技术专业委员会主任,中国自动化学会智能自动专业委员会副主任,中国人工智能学会智能机器人专业委员会常委,上海市自动化学会副理事长。科技部重点研发计划首席科学家, 新世纪优秀人才,上海市优秀学术带头人,上海市曙光学者,上海市领军人才,获国务院政府特殊津贴。
目录

第 1章绪论    1 
1.1背景与意义 
   1 
1.
2国内外研究现状   5 
1.
2.1视觉场景信息处理与传递  5 
1.
2.2高效多尺度特征提取框架  7 
1.
2.3高维知识表征方法   8 
1.
2.4高分辨率语义生成技术  10 
1.
2.5网络训练动态改善技术  11 
1.
2.6场景语义解析算法网络构建及其应用  13 
1.
2.7场景语义解析数据集及评价标准  . 14 
 
1.
3科学问题与研究内容   18 
1.
3.1拟解决的科学问题  . 18 
1.
3.2本书的研究内容   20 
 
1.4本书内容安排 
   22
 
第 2章网络信息流传递机制   . 24 
2.1概述 
   . 24 
2.
1.1拟解决的主要问题  . 25 
2.
1.2研究内容及贡献   26 
 
2.
2结构信息留存策略   . 26 
2.
2.1网络结构设计   . 27 
2.2.2性能分析 
   28 
2.
2.3与现有方法对比   28 
 
2.
3具有相互引导性的上-下采样对  29 
2.
3.1网络结构设计   . 30 
2.3.2性能分析 
   31 
2.
3.3与现有方法对比   33 
 
2.
4层次化高分辨率信息恢复与生成  . 34 
2.
4.1网络结构设计   . 35 
2.4.2性能分析 
   35 
2.
4.3与现有方法对比   37 
 
2.
5实验结果与分析   . 38 
2.
5.1实验模型构建   . 38 
2.5.2消融研究 
   39 
2.
5.3与当前先进方法的性能对比  . 44 
2.
5.4算法优势与局限性分析  47 
 
2.6本章小结 
   . 49
 
第 3章空间多尺度特征学习   . 50 
3.1概述 
   . 50 
3.
1.1拟解决的主要问题  . 51 
3.
1.2研究内容及贡献   52 
 
3.2空间邻域解耦
-耦合算子   52 
3.2.1算子定义 
   52 
3.
2.2与现有方法对比   54 
 
3.
3初始特征的局部感知与全局建模  . 55 
3.
3.1网络结构设计   . 56 
3.3.2性能分析 
   57 
3.
3.3与现有方法对比   58 
 
3.
4高级特征的空间并行多尺度学习  . 59 
3.
4.1网络结构设计   . 59 
3.4.2性能分析 
   60 
3.
4.3与现有方法对比   62 
 
3.
5实验结果与分析   . 63 
3.5.1实验模型 
   63 
3.5.2消融研究 
   63 
3.
5.3与当前先进方法的性能对比  . 69 
3.
5.4算法优势与局限性分析  73 
 
3.6本章小结 
   . 74
 
第 4章频域下高效知识表征   . 75 
4.1概述 
   . 75 
4.
1.1拟解决的主要问题  . 76 
4.
1.2研究内容及贡献   77 
 
4.
2全感受野卷积算子   . 77 
4.
2.1网络结构设计   . 78 
4.2.2设计原理 
   79 
4.2.3性能分析 
   79 
 
4.
3频域下全局空间结构建模  . 80 
4.
3.1网络结构设计   . 80 
4.3.2设计原理 
   81 
 
4.
4因子化注意力机制下的融合表征  . 82 
4.
4.1网络结构设计   . 82 
4.4.2设计原理 
   83 
 
4.
5实验结果与分析   . 84 
4.
5.1实验模型构建   . 84 
4.5.2消融研究 
   85 
4.
5.3与当前先进方法的性能对比  . 87 
 
4.6本章小结 
   . 88 
 
第 5章幅-相感知与高分辨率语义生成  . 89 
5.1概述 
   . 89 
5.
1.1拟解决的主要问题  . 90 
5.
1.2研究内容及贡献   91 
 
5.
2图像频域表征分析   . 91 
5.
2.1图像频域表征形式  . 91 
5.
2.2图像谱特性分析   93 
5.2.3语义
-定位解耦表征变换  . 94 
 
5.
3基于幅度感知的语义多样性表征  . 95 
5.3.1设计原理 
   95 
5.
3.2网络结构设计   . 96 
 
5.
4基于相位修正的定位原型优化  . 97 
5.4.1设计原理 
   97 
5.
4.2网络结构设计   . 98 
 
5.
5相位敏感性约束   . 99 
5.5.1设计原理 
   99 
5.5.2设计细节 
   100 
 
5.
6实验结果与分析   . 102 
5.
6.1实验模型构建   . 102 
5.6.2消融研究 
   104 
5.
6.3与当前先进方法的性能对比  . 110 
 
5.7本章小结 
   . 113
 
第 6章模型训练动态优化   . 114 
6.1概述 
   . 114 
6.
1.1拟解决的主要问题  . 115 
6.
1.2研究内容及贡献   116 
 
6.
2隐式正则效应度量方法  . 116 
6.
2.1网络训练动态度量  . 116 
6.
2.2推理权重奇异值分布度量  . 117 
 
6.
3稠密重参数化驱动的隐式正则机制  118 
6.
3.1构建深度矩阵分解式结构  . 118 
6.3.2引入 
BN保证可训练性  . 120 
6.
3.3引入稠密连接以缓解奇异性  . 122 
 
6.4训练
-推理解耦结构及等价变换  126 
6.
4.1稠密重参数化模块相关参数选择  . 128 
6.
4.2稠密重参数化模块的建模对比  129 
 
6.
5实验结果与分析   . 129 
6.5.1实验设置 
   130 
6.5.2消融实验 
   130 
6.
5.3先进性验证实验   136 
6.
5.4在场景语义解析任务上的验证实验  . 139 
 
6.6本章小结 
   . 139
 
第 7章典型应用案例   . 141 
7.
1部署策略与方案   . 141 
7.
1.1特定硬件下的深度网络模型设计  . 142 
7.
1.2特定硬件平台下的部署策略  . 149 
 
7.
2结构化静态航空消声蜂窝精准定位  150 
7.2.1任务描述 
   151 
7.2.2算法实施 
   152 
7.
2.3进展与成果   . 154 
 
7.
3半结构化对抗场景下 RoboCup仿人机器人视觉感知 . 155 
7.3.1任务描述 
   156 
7.3.2算法实施 
   157 
7.
3.3进展与成果   . 159 
 
7.
4复杂交互场景下的安全监管与人员行为识别  . 160 
7.4.1任务描述 
   160 
7.4.2算法实施 
   162 
 
 
7.4.3进展与成果   . 164 
7.5高动态开放场景下自动驾驶车辆车道线检测  . 166 
7.5.1任务描述   166 
7.5.2算法实施   168 
7.5.3进展与成果   . 169 
7.6本章小结   . 170
第 8章总结与展望   . 172 
8.1总结   . 172 
8.2展望   . 174
参考文献    . 177
附录 A主要符号对照表   191 
 
猜您喜欢

读书导航