当Swin Transformer遇上DCN,效果惊人!

2022-03-10 10:51:23   来源:商业新知网

来源:机器之心

Transformer 近来在各种视觉任务上表现出卓越的性能,感受野赋予 Transformer 比 CNN 更强的表征能力。然而,简单地扩大感受野会引起一些问题。一方面,使用密集注意力(例如 ViT)会导致过多的内存和计算成本,并且特征可能会受到超出兴趣区域的无关部分的影响;另一方面,PVT 或 Swin Transformer 中采用的稀疏注意力与数据无关,可能会限制对远程(long range)关系建模的能力。

为了缓解这些问题,清华大学、AWS AI 和北京智源人工智能研究院的研究者提出了一种新型可变形自注意力模块,其中以数据相关的方式选择自注意力中键值对的位置。这种灵活的方案使自注意力模块能够专注于相关区域并捕获更多信息特征。

在此基础上,该研究提出了可变形注意力 Transformer(Deformable Attention Transformer,DAT),一种具有可变形注意力的通用主干网络模型,适用于图像分类和密集预测任务。该研究通过大量基准测试实验证明了该模型的性能提升。

论文地址:https://arxiv.org/abs/2201.00520v1

可变形注意力 Transformer

现有的分层视觉 Transformer,特别是 PVT 和 Swin Transformer 试图解决过多注意力的挑战。前者的下采样技术会导致严重的信息损失,而后者的 Swin 注意力导致感受野的增长要慢得多,这限制了对大型物体进行建模的潜力。因此,需要依赖于数据的稀疏注意力来灵活地对相关特征进行建模,从而导致首先在 DCN [9] 中提出可变形机制。

然而,在 Transformer 模型中实现 DCN 是一个不简单的问题。在 DCN 中,特征图上的每个元素单独学习其偏移量,其中 H ×W ×C 特征图上的 3 × 3 可变形卷积具有 9 HWC 的空间复杂度。如果在注意力模块中直接应用相同的机制,空间复杂度将急剧上升到 N_qN_kC,其中 N_q、N_k 是查询和键的数量,通常与特征图大小 HW 具有相同的比例,带来近似于双二次的复杂度。

尽管 Deformable DETR [54] 已经设法通过在每个尺度上设置较少数量的 N_k = 4 的键来减少这种开销,并且可以很好地作为检测头,但由于不可接受的信息丢失(参见附录中的详细比较),在骨干网络中关注如此少的键效果不佳。与此同时,[3,52] 中的观察表明,不同的查询在视觉注意力模型中具有相似的注意力图。因此,该研究选择了一个更简单的解决方案,为每个查询共享移位键和值,以实现有效的权衡。

模型架构

该研究在 Transformer(等式 (4))中的可变形注意力替换了 vanilla MHSA,并将其与 MLP(等式 (5))相结合,以构建一个可变形的视觉 transformer 块。在网络架构方面, DAT 与 [7, 26, 31, 36] 共享类似的金字塔结构,广泛适用于需要多尺度特征图的各种视觉任务。如下图 3 所示,形状为 H × W × 3 的输入图像首先被步长为 4 的 4 × 4 非重叠卷积嵌入,然后一个归一化层获得 补丁嵌入。

为了构建分层特征金字塔,主干包括 4 个阶段,步幅逐渐增加。在两个连续的阶段之间,有一个步长为 2 的非重叠 2×2 卷积,对特征图进行下采样,将空间大小减半并将特征维度加倍。

在分类任务中,该研究首先对最后阶段输出的特征图进行归一化,然后采用具有池化特征的线性分类器来预测对数;在对象检测、实例分割和语义分割任务中,DAT 在集成视觉模型中扮演主干的角色,以提取多尺度特征。该研究为每个阶段的特征添加一个归一化层,然后将它们输入到以下模块中,例如对象检测中的 FPN [23] 或语义分割中的解码器。

实验

该研究在 3 个数据集上进行了实验,以验证提出的 DAT 的有效性。该研究展示了在 ImageNet-1K [10] 分类、COCO 目标检测和 ADE20K 语义分割任务上的结果。此外,该研究提供了消融研究和可视化结果,以进一步展示该方法的有效性。

ImageNet-1K 分类

ImageNet-1K [10] 数据集有 128 万张用于训练的图像和 5 万张用于验证的图像。研究者在训练分割上训练 DAT 的三个变体,并报告验证分割上的 Top-1 准确度,并与其他 Vision Transformer 模型进行比较。

该研究在下表 2 中给出了有 300 个训练 epoch 的结果。与其他 SOTA 视觉 Transformer 模型相比, DAT 在具有相似计算复杂性的情况下在 Top-1 精度上实现了显著提高。DAT 在所有三个尺度上都优于 Swin Transformer [26]、PVT [36]、DPT [7] 和 DeiT [33]。没有在 Transformer 块 [13, 14, 35] 中插入卷积,或在补丁嵌入 [6, 11, 45] 中使用重叠卷积,DAT 比 Swin Transformer [26] 实现了 +0.7、+0.7 和 +0.5 的增益。在 384 × 384 分辨率下进行微调时,该模型继续比 Swin Transformer 性能好 0.3。

COCO 目标检测

COCO 目标检测和实例分割数据集有 118K 的训练图像和 5K 的验证图像。该研究使用 DAT 作为 RetinaNet [24]、Mask R-CNN [17] 和 Cascade Mask R-CNN [2] 框架中的主干,以评估该方法的有效性。该研究在 ImageNet-1K 数据集上对该模型进行 300 个 epoch 的预训练,并遵循 Swin Transformer [26] 中类似的训练策略来公平地比较该方法。该研究在 1x 和 3x 训练计划中报告在 RetinaNet 模型上的 DAT。如下表 3 所示,在微型和小型模型中,DAT 的性能优于 Swin Transformer 1.1 和 1.2 mAP。

当在两阶段检测器(例如 Mask R-CNN、Cascade Mask R-CNN)中实现时,DAT 模型在不同尺寸的 Swin Transformer 模型上实现了一致的改进,如下表 4 所示。

下表 5 给出了在验证集上各种方法的 mIoU 分数。

消融实验

为了验证 DAT 模型中关键组件设计的有效性, 该研究进行了消融实验,报告了基于 DAT-T 的 ImageNet-1K 分类结果。对于几何信息开发,该研究首先评估了所提可变形偏移和可变形相对位置嵌入的有效性,如下表 6 所示。

对于不同阶段的可变形注意力,该研究用不同阶段的可变形注意力替换了 Swin Transfomer [26] 的移位窗口注意力。如下表 7 所示,仅替换最后阶段的注意力提高了 0.1,替换最后两个阶段导致性能增益为 0.7(达到 82.0 的整体准确度)。然而,在早期阶段用更多可变形注意力替换会略微降低准确性。

可视化

该研究在 DAT 中可视化学习变形位置的示例,以验证该方法的有效性。如下图 4 所示,采样点描绘在对象检测框和实例分割掩码的顶部,从中可以看到这些点已转移到目标对象。

关键词: 目标检测 最后阶段

上一篇:
下一篇:
精彩阅读

当Swin Transformer遇上DCN,效果惊人!

热点

Transformer近来在各种视觉任务上表现出卓越的性能,感受野赋予Transformer比CNN更强的表征能力。

【资治问答】第一期 | 运营商地市公司经营工作中,该如何安排2022 年重点工作?

热点

优化宽带运营体系,提升宽带服务品质,梳理产品供给,填充价值。

解读全球海缆地图,带你看懂隐藏的秘密

热点

你可能不太相信,在2020年新冠疫情首次爆发后,导致当年34%的互联网流量暴增,一度造成全球网络系统紧张。

中国广电5G核心网宁夏节点开工

热点

日前,中国广电宁夏网络有限公司(以下简称:宁夏广电网络公司)曾召开宁夏广电5G建设运营推进会。

肖亚庆:6G通信技术演进方向部署

热点

3月8日,在第十三届全国人大五次会议“部长通道”上,工信部部长肖亚庆进行了重要讲话。

中国广电首条200G国干传送网建设

热点

近日,中国广电建设首条200G国干传送网,进而组成中国广电首个100G环形网络。

Polygon的崛起之路!

热点

2021年,Defi和NFT应用的爆发让本就以贵、堵被人诟病的以太坊雪上加霜,每年燃烧的以太坊达百万个。

渠道深访 | SaaS生态的困境与出路

热点

从卖产品到卖服务,这是SaaS和数字化时代。

《快公司》2022年全球最具创新性公司年度榜单揭晓!

热点

《快公司》副主编DavidLidsky认为“全球最具创新性公司在解决社会面临的最紧迫问题方面发挥着至关重要的作用“。

财富

董明珠回应退休传闻:现在不是考虑这个事的时候

资讯

据央视财经 报道,今晚董明珠作为全国人大代表、格力电器董事长兼总裁,接受了央视的采访。对于是否考虑退休生活,董明珠回应称:没考虑,

总预算91659.00万元北京联通启动总承包集中采购项目招标

资讯

北京联通日前启动综合接入(大客户接入、传送网、宽带接入、WLAN等)总承包集中采购项目招标,项目总预算金额为91659 00万元。公告显示,项目

2021年中国联通北京内网安全基础设施增补工程中标结果公布

资讯

来自联通官方消息显示,2021年中国联通北京内网安全基础设施增补工程招标结果公布,启明星辰、天融信、上海观安和奇安信四家企业入围。公告

按年算账,多退少补!2021年个税年度汇算开始啦

资讯

动动手指就有钱入账?3月1日至6月30日,迎来2021年度个人所得税综合所得年度汇算。简单来说,就是在平时已预缴税款的基础上,按年算账,多退

排队8个月,惠柏新材创业板IPO之路走得有些缓慢

资讯

相比起同期受理企业,惠柏新材料科技(上海)股份有限公司(以下简称惠柏新材)的创业板IPO之路走得有些缓慢,排队8个月,公司近期对外披露了一

时隔8个月,科隆股份火速转让聚洵半导体51%股权

资讯

2021年6月底刚拿下聚洵半导体科技(上海)有限公司(以下简称聚洵半导体)51%股权,科隆股份(300405)如今就要火速转让了。3月1日晚间,科隆股份

单日净回笼1800亿元 央行适时回笼流动性

资讯

春节假期结束后,央行逆回购操作量重回百亿级水平。2月10日,央行开展了200亿元逆回购操作,这也是节后央行连续第4天开展200亿元逆回购,市

不少机构席位可能故意引诱投资者上钩 警惕组团炒股民

资讯

机构专用席位引发投资者热捧,但要注意,也有不少机构席位可能故意引诱投资者上钩,以达到拉高出货的目的。采纳股份2月9日股价涨停,当日晚

信贷“开门红” 金融数据表现亮眼

资讯

2022年开年,金融数据表现亮眼。2月10日,央行发布2022年1月金融统计数据报告。数据显示,1月人民币贷款增加3 98万亿元,创下单月增量历史

宁德时代跌上了微博热搜 股价创年内新低

资讯

2月10日,宁德时代(300750)跌上了微博热搜。截至2月10日午间收盘,宁德时代下跌7 9%,盘中股价创年内新低。交易行情显示,2月10日,宁德时

【资治问答】第一期 | 运营商地市公司经营工作中,该如何安排2022 年重点工作?

优化宽带运营体系,提升宽带服务品质,梳理产品供给,填充价值。

解读全球海缆地图,带你看懂隐藏的秘密

你可能不太相信,在2020年新冠疫情首次爆发后,导致当年34%的互联网流量暴增,一度造成全球网络系统紧张。

中国广电5G核心网宁夏节点开工

日前,中国广电宁夏网络有限公司(以下简称:宁夏广电网络公司)曾召开宁夏广电5G建设运营推进会。

肖亚庆:6G通信技术演进方向部署

3月8日,在第十三届全国人大五次会议“部长通道”上,工信部部长肖亚庆进行了重要讲话。

为户外劳动者提供便利 重庆已建成665座“劳动者港湾”

  中新网重庆4月22日电 (韩璐 王雪宇)记者22日从重庆市城市管理局获悉,2020年重庆市已建成“劳动者港湾”665座。今年,重庆还将继续建

沈阳警方侦破特大贩卖毒品案 抓获88名涉毒违法犯罪嫌疑人

  中新社沈阳4月22日电 (王景巍)沈阳市公安局22日发布消息,近日,在中国公安部和辽宁省公安厅的指导协调下,历经9个多月,沈阳市公安局

上海警方侦破特大制售假普洱茶案 市场价值高达18亿元

  中新网上海4月22日电 (记者 李姝徵)记者22日从上海警方获悉,2021年3月,上海警方全链条侦破一起销售假冒知名品牌普洱茶案,捣毁制售

西安强化知识产权司法保护 商标权案件占比高

  中新网西安4月22日电 (记者 张一辰)在世界知识产权日即将到来之际,西安市中级人民法院(以下简称:西安中院)22日召开新闻发布会,发

今年5月至明年2月底 江西4A级及以上景区对全国学子免门票

  中新网南昌4月22日电 (记者 李韵涵)记者22日从“红五月·嘉游赣”江西五一假日旅游工作媒体吹风会上获悉,2021年5月1日至2022年2月28

福州乡村公益图书馆:图书“接地气” 门口即是农田

  中新网福州4月22日电 (叶秋云 曾路淇)世界读书日即将来临之际,驾车五十余分钟,记者来到距离福建省福州市30多公里的闽侯县白沙镇马