时讯:谷歌团队推出新Transformer,优化全景分割方案|CVPR 2022

2022-08-05 09:53:06   来源:商业新知网

转自:新智元


(资料图片仅供参考)

最近,谷歌AI团队受Transformer和DETR的启发提出了一种使用Mask Transformer进行全景分割的端到端解决方案。

全称是end-to-end solution for panoptic segmentation with mask transformers,主要用于生成分割MaskTransformer架构的扩展。

该解决方案采用像素路径(由卷积神经网络或视觉Transformer组成)提取像素特征,内存路径(由Transformer解码器模块组成)提取内存特征,以及双路径Transformer用于像素特征和内存之间的交互特征。

然而,利用交叉注意力的双路径Transformer最初是为语言任务设计的,它的输入序列由几百个单词构成。

而对视觉任务尤其是分割问题来说,其输入序列由数万个像素组成,这不仅表明输入规模的幅度要大得多,而且与语言单词相比也代表了较低级别的嵌入。

全景分割是一个计算机视觉问题,它是现在许多应用程序的核心任务。

它分为语义分割和实例分割两部分。

语义分割就比如为图像中的每个像素分配语义标签,例如「人」和「天空」。

而实例分割仅识别和分割图中的可数对象,如「行人」和「汽车」,并进一步将其划分为几个子任务。

每个子任务单独处理,并应用额外的模块来合并每个子任务阶段的结果。

这个过程不仅复杂,而且在处理子任务和整合不同子任务结果时还会引入许多人工设计的先验。

在 CVPR 2022 上发表的「CMT-DeepLab: Clustering Mask Transformers for Panoptic Segmentation」中,文章提出从聚类的角度重新解读并且重新设计交叉注意力cross attention(也就是将相同语义标签的像素分在同一组),从而更好地适应视觉任务。

CMT-DeepLab 建立在先前最先进的方法 MaX-DeepLab 之上,并采用像素聚类方法来执行交叉注意,从而产生更密集和合理的注意图。

kMaX-DeepLab 进一步重新设计了交叉注意力,使其更像一个 k-means 聚类算法,对激活函数进行了简单的更改。

结构总览

研究人员将从聚类的角度进行重新解释,而不是直接将交叉注意力应用于视觉任务而不进行修改。

具体来说,他们注意到Mask Transformer 对象查询可以被认为是集群中心(旨在对具有相同语义标签的像素进行分组)。

交叉注意力的过程类似于 k-means 聚类算法,(1)将像素分配给聚类中心的迭代过程,其中可以将多个像素分配给单个聚类中心,而某些聚类中心可能没有分配的像素,以及(2)通过平均分配给同一聚类中心的像素来更新聚类中心,如果没有分配像素,则不会更新聚类中心)。

在CMT-DeepLab和kMaX-DeepLab中,我们从聚类的角度重新制定了交叉注意力,其中包括迭代聚类分配和聚类更新步骤

鉴于 k-means聚类算法的流行,在CMT-DeepLab中,他们重新设计了交叉注意力,以便空间方面的softmax操作(即沿图像空间分辨率应用的 softmax 操作),实际上将聚类中心分配给相反,像素是沿集群中心应用的。

在 kMaX-DeepLab 中,我们进一步将空间方式的 softmax 简化为集群方式的 argmax(即沿集群中心应用 argmax 操作)。

他们注意到 argmax 操作与 k-means 聚类算法中使用的硬分配(即一个像素仅分配给一个簇)相同。

从聚类的角度重新构建MaskTransformer的交叉注意力,显著提高了分割性能,并简化了复杂的Masktransformer管道,使其更具可解释性。

首先,使用编码器-解码器结构从输入图像中提取像素特征。然后,使用一组聚类中心对像素进行分组,这些像素会根据聚类分配进一步更新。最后,迭代执行聚类分配和更新步骤,而最后一个分配可直接用作分割预测。

为了将典型的MaskTransformer解码器(由交叉注意力、多头自注意力和前馈网络组成)转换为上文提出的k-means交叉注意力,只需将空间方式的softmax替换为集群方式最大参数。

本次提出的 kMaX-DeepLab 的元架构由三个组件组成:像素编码器、增强像素解码器和 kMaX 解码器。

像素编码器是任何网络主干,用于提取图像特征。

增强的像素解码器包括用于增强像素特征的Transformer编码器,以及用于生成更高分辨率特征的上采样层。

一系列 kMaX 解码器将集群中心转换为 (1) Mask嵌入向量,其与像素特征相乘以生成预测Mask,以及 (2) 每个Mask的类预测。

kMaX-DeepLab 的元架构

研究结果

最后,研究小组在两个最具挑战性的全景分割数据集 COCO 和 Cityscapes 上使用全景质量 (PQ) 度量来评估 CMT-DeepLab 和 kMaX-DeepLab,并对比 MaX-DeepLab 和其他最先进的方法。

其中CMT-DeepLab 实现了显著的性能提升,而 kMaX-DeepLab 不仅简化了修改,还进一步提升了,COCO val set 上的 PQ 为 58.0%,PQ 为 68.4%,44.0% Mask平均精度(Mask AP),Cityscapes 验证集上的 83.5% 平均交集比联合(mIoU),没有测试时间增强或使用外部数据集。

从聚类的角度设计,kMaX-DeepLab 不仅具有更高的性能,而且还可以更合理地可视化注意力图以了解其工作机制。

在下面的示例中,kMaX-DeepLab 迭代地执行聚类分配和更新,从而逐渐提高Mask质量。

kMaX-DeepLab 的注意力图可以直接可视化为全景分割,让模型工作机制更合理

结论

本次研究展示了一种更好地设计视觉任务中的MaskTransformer的方法。

通过简单的修改,CMT-DeepLab 和 kMaX-DeepLab 重新构建了交叉注意力,使其更像一种聚类算法。

因此,所提出的模型在COCO 和 Cityscapes数据集上实现了最先进的性能。

研究团队表示,他们希望 DeepLab2 库中 kMaX-DeepLab 的开源版本有助于未来对专用于视觉Transformer架构设计的研究。

关键词: 重新设计 最先进的

上一篇:
下一篇:
精彩阅读

时讯:谷歌团队推出新Transformer,优化全景分割方案|CVPR 2022

热点

语义分割就比如为图像中的每个像素分配语义标签,例如「人」和「天空」。

全球关注:半年融资数千万,这个“没有背景”的元宇宙创新项目团队做了什么 | 元宇宙100人

热点

据游戏日报了解,Vland云现场应该是国内首个没有背靠大公司资源、且能快速在市场铺开商业化的虚拟空间创新项目。

每日讯息!Meta推出演示程序《First Hand》,包含多种手势追踪交互场景;Codemasters畅谈如何将一级方程式赛车带进VR

热点

《FirstHand》是Meta构建的一款演示程序,里面展示了基于手势追踪功能所构建的交互场景。

当前快看:中移物联网启动5G专网行业通道及组网服务集采:总规模5100套

热点

从中国移动官网获悉,中移物联网公司发布公告称,启动5G专网行业通道及组网服务项目公开招标。

全球热头条丨七夕:疯狂搞钱的年轻人,一周赚14万

热点

单身的年轻人七夕怎么过?在各大社交媒体上,有的年轻人“出租自己”,配合换情侣头像,换个性签名,提供连麦的哄睡服务。

重点聚焦!中关村科金打造多语境感知的“得助智能交互平台”实现创新升级

热点

当智能客服成为主流,各行各业都在逐步加强对客户服务方式的改进与升级。

全球观天下!人事 | 新疆联通再增虎将!连续多任均被提拔!

热点

据报道,新疆联通新增一位副总经理,系由济南联通总经理万京春提任,目前已到任。

精选!工信部:中国联通被申诉量和申诉率最优!

热点

8月2日,工业和信息化部通告2022年第二季度电信服务质量情况。

热讯:Web3是“神话”还是“笑话”?

热点

不论是互联网的热度,投资圈的关注,各国政府层面的一些政策,都已经很清晰的看到,Web3已经站上了全球互联网新的浪潮之巅。

财富

焦点热讯:比亚迪们杀向日本

资讯

比亚迪们杀向日本,1%市场能否被撑大?

全球最新:小天才涉黄暴背后:家长与孩子的战争

资讯

小天才涉黄暴背后:家长与孩子的战争,电话手表越来越像智能手机,这也引起了家长们的警惕。

消息!罗技联手腾讯,掌机+云游戏真能擦出火花吗

资讯

罗技联手腾讯,掌机+云游戏真能擦出火花吗,云游戏掌机或将会成为云游戏的最佳落地场景。

热门看点:宠物也开始跨界做内衣了

资讯

宠物也开始跨界做内衣了,内衣行业真的​好做吗?​

头条:狂砸明星代言、广告横行霸屏,借1000还1万的网贷为何戒不掉?

资讯

狂砸明星代言、广告横行霸屏,借1000还1万的网贷为何戒不掉?,互金和娱乐联姻,金融创新秒变高利贷。

焦点简讯:特仑苏的高端形象功臣:艺虹股份上会折戟,营收六成靠蒙牛母品牌

资讯

特仑苏的高端形象功臣:艺虹股份上会折戟,营收六成靠蒙牛母品牌,特仑苏高级包装的幕后厂商

当前快讯:年轻人为什么不喜欢买蒙牛、伊利了?

资讯

年轻人为什么不喜欢买蒙牛、伊利了?,奶企越来越内卷

世界微速讯:“红娘”最多的城市,不是北上广深

资讯

“红娘”最多的城市,不是北上广深,成都独占鳌头

【天天新要闻】辞掉互联网大厂年薪60多万的工作,我去摆摊卖凉皮

资讯

辞掉互联网大厂年薪60多万的工作,我去摆摊卖凉皮,用“互联网思维”摆摊,流量重于营收

世界今亮点!七夕品牌花式整活,走心还是要命?

资讯

七夕品牌花式整活,走心还是要命?,如今,网络无疑成为七夕氛围最足的“场所”。

全球关注:半年融资数千万,这个“没有背景”的元宇宙创新项目团队做了什么 | 元宇宙100人

据游戏日报了解,Vland云现场应该是国内首个没有背靠大公司资源、且能快速在市场铺开商业化的虚拟空间创新项目。

每日讯息!Meta推出演示程序《First Hand》,包含多种手势追踪交互场景;Codemasters畅谈如何将一级方程式赛车带进VR

《FirstHand》是Meta构建的一款演示程序,里面展示了基于手势追踪功能所构建的交互场景。

当前快看:中移物联网启动5G专网行业通道及组网服务集采:总规模5100套

从中国移动官网获悉,中移物联网公司发布公告称,启动5G专网行业通道及组网服务项目公开招标。

全球热头条丨七夕:疯狂搞钱的年轻人,一周赚14万

单身的年轻人七夕怎么过?在各大社交媒体上,有的年轻人“出租自己”,配合换情侣头像,换个性签名,提供连麦的哄睡服务。

重点聚焦!中关村科金打造多语境感知的“得助智能交互平台”实现创新升级

当智能客服成为主流,各行各业都在逐步加强对客户服务方式的改进与升级。

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个

吉利几何EX3功夫牛高居榜首,4月投诉量230起

近日,车质网发布了2022年4月车型投诉排行八卦(前30名),其中有不少产品的出现属实让人没想到。具体来看,吉利几何EX3功夫牛高居榜首,4月

“说好了未达到目标全额退款,结果都是骗人的!”

春天不减肥,夏天徒伤悲。一波减肥大军抱着坚定的信念踏上征途,发现身边各式各样的高端减肥训练营正打着健康减肥封闭管理保质保量包吃包住