加入收藏 | 设为首页 | 会员中心 | 我要投稿 广州站长网 (https://www.020zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 点评 > 正文

丢弃Transformer,全卷积网络也可以实现E2E检测

发布时间:2020-12-11 15:50:11 所属栏目:点评 来源:网络整理
导读:副标题#e# 在近来研究人员热衷于探索 Transformer 用于目标检测的尝试时,这篇论文提出了一种全新的观点,即利用全卷积网络也可以实现良好的端到端目标检测效果。 目标检测是计算机视觉领域的一个基础研究主题,它利用每张图像的预定义类标签来预测边界框。

针对第二点监督不够强、收敛速度慢,研究者依旧采用 one-to-many assignment 设计了 auxiliary loss 做监督,该 loss 只包含分类 loss,没有回归 loss。assignment 本身没什么可说的,appendix 的实验也表明多种做法都可以 work。这里想提醒大家的是注意看 Figure 2 的乘法,它是 auxiliary loss 可以 work 的关键。在乘法前的一路加上 one-to-many auxiliary loss,乘法后是 one-to-one 的常规 loss。由于 1*0=0,1*1=1,所以只需要大致保证 one-to-one assignment 的正样本在 one-to-many 中依然是正样本即可。

实验

最主要的实验结果已经在 Table 1 中呈现了,此外还有一些 ablation 实验。

丢弃Transformer,全卷积网络也可以实现E2E检测

这里 highlight 几点:

α越低,分类权重越大,有无 NMS 的差距越小,但绝对性能也会降低 [4];α太高也不好,后续所有实验用α=0.8;

在α合理的情况下,空间先验不是必须的,但空间先验能够在匹配过程中帮助排除不好的区域,提升绝对性能;研究者在 COCO 实验中采用 center sampling radius=1.5,在 CrowdHuman 实验中采用 inside gt box[5];

加权几何平均数(Mul)[6]比加权算术平均数(Add)[7]更好。

去掉 NMS 的最大收益其实是 crowd 场景,这在 COCO 上并不能很好地体现出来。所以又在 CrowdHuman 上做了实验如下:

丢弃Transformer,全卷积网络也可以实现E2E检测

请注意 CrowdHuman 的 ground-truth 做 NMS threshold=0.6,只有 95.1% 的 Recall,这也是 NMS 方法的理论上限。而本文方法没有采用 NMS,于是轻易超越了这一上限。

研究者还做了其它一些实验和分析,欢迎看原文。

可视化

经过以上改进,研究者成功把 one-to-one 的性能提升到了与 one-to-many+NMS 方法 comparable 的水平。此外还可视化了 score map,可以发现 FCN 是有能力学出非常 sharp 的表示的,这也是很让研究者惊奇的一点。

丢弃Transformer,全卷积网络也可以实现E2E检测

结果图中比较明显的改善出现在多峰 case 上。比如两个物体有一定的 overlap(但又没有特别重合),这个时候 one-to-many+NMS 方法经常出现的情况是,除了两个物体分别出了一个框之外,在两个物体中间也出了一个框,这个框与前两个框的 IoU 不足以达到 NMS threshold,但置信度又比较高。这类典型的多峰问题在 POTO 中得到了较大的缓解。

丢弃Transformer,全卷积网络也可以实现E2E检测

Others

有些人可能比较关心训练时间,因为潜意识里在 dense prediction 上做 bipartite matching 应该是很慢的。然而实际上依赖于 scipy 对 linear_sum_assignment 的优化,实际训练时间仅仅下降了 10% 左右。

如果对这一时间依然敏感,可以用 topk(k=1)代替 bipartite matching;在 dense prediction 里 top1 实际上是 bipartite matching 的近似解 [8] 。相似地,k>1 的情况对应了 one-to-many 的一种新做法,研究者也对此做了一些工作,后续可能会放出来。

参考

如果有人感兴趣的话,可以在 YOLO 上去掉 NMS 尝试一下,可以接近 30mAP。

注意这里没有使用 DETR 的 CE+GIoU+L1 组合,而是直接采用 loss 本身(Focal+GIoU)。研究者认为这样更符合 DETR 用 loss 做 cost 的原意。

其实这里可以有一个脑洞留给大家,因为 cost 是不需要求导的,所以甚至是可以直接算 AP 当 cost 的。

侧面印证了分类和回归的冲突在检测任务上是显著的。

理由很简单,CrowdHuman 的遮挡问题太严重,center 区域经常完全被遮挡。

事实上加权几何平均数的负对数就是 CE+IoU Loss,加权算术平均数则没有明显的物理含义。

NoisyAnchor 在 assign 中采用了类似的公式,只不过采用的是 anchor IoU。

更具体来讲,top1(即 argmin)是 Hugarian Algorithm 只做第一次迭代的结果;由于在 dense prediction 下冲突会很少,一次迭代就已经逼近了最优匹配,这也是为什么 Hungarian Algorithm 这里实际运行很快。

 

(编辑:广州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读