发布网友 发布时间:2024-10-23 22:52
共1个回答
热心网友 时间:21小时前
行人重识别任务的目标是希望在多个不具有重叠区域的摄像场景中实现行人的检索。目前行人重识别根据采用的组件不同可以分为closed-world和open-world两种。closed-world场景相对而言目前研究较深入,其主要针对于不同的应用假设,在多个数据集上都取得较好的性能,比如Market1501,CUHK和DUKE等。 closed-world场景一般研究重点有三部分:深度特征表示学习、深度度量学习和rank优化。而open-world场景则相对更加复杂。本文总结了open-world场景中ReID的五个不同视角,提出了一种AGW基线方法,在多个ReID任务上都取得较好性能。另外,本文还提出了一种新的评估度量 mINP。最后探索了ReID目前亟待解决的一些方向。
基本定义: 非重叠的多个摄像场景中,特定行人的检索问题。具体而言,给定一个待检索的目标行人,ReID希望能够判断这个目标是否出现在不同时刻不同场景不同摄像头的场景中。
基本难点: 行人的视角、图像分辨率变化、光照变化、姿态变化、遮挡,不同模态等。
该综述的不同点:
根据上面五块内容,ReID任务分为closed-world和open-world两类,区别如下:
closed-world场景的一般前提:1)输入时裁剪后的行人图像块;2)有监督学习;3)检索目标一定存在gallery中。
closed-world场景模型一般包含3部分:特征抽取、度量学习和rank 优化。
如下图所示,一般包含四类:
知识点:
ReID的难点包括视角不同,遮挡等,行人区域可能不对齐,这时往往希望通过部件或者区域特征进行对齐。主流趋势是combine全局特征和部件特征。以PDC模型为代表的pose驱动方法,通过pose获得部件信息,然后利用部件的attention进行检索。PCB方式是利用图像均匀划分的典型。其将目标框水平分成6个条带,每个条带进行的分类任务学习,在推理阶段将六条条带的特征进行concat表征整体。另外还通过refined part pooling策略增强了部件内部的一致性,具体是计算每个部件与所有像素点的相似度进行重新划分,可以认为是一种non-local的attention。
行人parsing技术能够获得较好的语义部件,提供更对齐的部件特征,但需要额外的pose检测器且由于ReID数据集和Pose数据集的分布差异,易产生错误的pose。均匀划分的策略更灵活,但对严重遮挡和大的背景模糊为力。
辅助特征表示学习一般包括额外的标注数据,比如语义标注,和训练样本生成等。
该任务中,每个目标不再是图像区域,而是一段帧序列。
待续(ReID领域新接触,积累不够,综述文章读着好多理解不够深入,先去读具体方法了;( 后面积累了,再回来阅读这个吧。。。留坑)
将行人作为特定的行人检索问题,大多数方法都采用用于图像分类的网络结构作为backbone。其中一些方法通过修改backbone的结果以提取更好的ReID特征,比如对于ResNet50而言,一般将最后一个stage的stripe改为1以增大分辨率(参考文献PCB),或者最后一个pooling层采用自适应的平均池化(这里参考文献是PCB模型,池化时时不同的条带中进行gap),再或者在pooling层后添加具有bn的bottleneck 层(暂停,滚去阅读参考文献75, SVDNet了!(OK,已读完,见 https://www.jianshu.com/p/43fb25a3ef6d ,和作者说的其实有出入,并不是加了bn,而是希望投影向量正交,从而获得的表观特征在每个维度上相互))。
其他的一些为ReID专门设计的网络结构有 FPNN(filter pairing neural network), 通过部件鉴别信息的挖掘同时处理不对齐和遮挡问题(暂停,去读参考文献34,DeepReID (已读, https://www.jianshu.com/p/693e724ef2cc )),[141]提出一种提升邻域差异的层用于捕捉patch特征的差别,进而把这种差异送入后面的层中(感觉类似resnet的思想。(读完, https://www.jianshu.com/p/38875b0e0def,AutoReID 其实就是提出一种结合了self-attention的part-aware module方法search space中,使用NAS迭代的搜索方法寻找针对于数据集的最优结构,当然说是专门为reid设计的网络结构也没毛病。))