Transformer将在AI领域一统天下?现在下结论还为时过早

2022-03-28 10:30:57   来源:商业新知网

【导读 从自然语言处理任务起家,又在图像分类和生成领域大放异彩,所向披靡的 Transformer 会成为下一个神话吗?

想象一下你走进一家本地的五金店,在货架上看到一种新型的锤子。你听说过这种锤子:它比其他锤子敲得更快、更准确,而且在过去的几年里,在大多数用途中,它已经淘汰了许多其他锤子。

此外,通过一些调整,比如这里加一个附件,那里拧一个螺丝,这种锤子还能变成一把锯,其切割速度能媲美其他任何替代品。一些处于工具开发前沿的专家表示,这把锤子可能预示着所有工具将融合到一个设备中。

类似的故事正在人工智能领域上演。这种多功能的新锤子是一种人工神经网络——一种在现有数据上进行训练以「学习」如何完成某些任务的节点网络——称为 Transformer。它最初用于处理语言任务,但最近已经开始影响其他 AI 领域。

Transformer 最初出现在 2017 年的一篇论文中:《Attention Is All You Need》。在其他人工智能方法中,系统会首先关注输入数据的局部 patch,然后构建整体。例如,在语言模型中,邻近的单词首先会被组合在一起。相比之下,Transformer 运行程序以便输入数据中的每个元素都连接或关注其他元素。研究人员将此称为「自注意力」。这意味着一旦开始训练,Transformer 就可以看到整个数据集的迹。

在 Transformer 出现之前,人工智能在语言任务上的进展一直落后于其他领域的发展。「在过去 10 年发生的这场深度学习革命中,自然语言处理在某种程度上是后来者,」马萨诸塞大学洛厄尔分校的计算机科学家 Anna Rumshisky 说,「从某种意义上说,NLP 曾落后于计算机视觉,而 Transformer 改变了这一点。」

Transformer 很快成为专注于分析和预测文本的单词识别等应用程序的引领者。它引发了一波工具浪潮,比如 OpenAI 的 GPT-3 可以在数千亿个单词上进行训练并生成连贯的新文本。

Transformer 的成功促使人工智能领域的研究者思考:这个模型还能做些什么?

答卷正在徐徐展开——Transformer 被证明具有惊人的丰富功能。在某些视觉任务中,例如图像分类,使用 Transformer 的神经网络比不使用 Transformer 的神经网络更快、更准确。对于其他人工智能领域的新兴研究,例如一次处理多种输入或完成规划任务,Transformer 也可以处理得更多、更好。

「Transformer 似乎在机器学习领域的许多问题上具有相当大的变革性,包括计算机视觉,」在慕尼黑宝马公司从事与自动驾驶汽车计算机视觉工作的 Vladimir Haltakov 说。

就在十年前,AI 的不同子领域之间还几乎是互不相通的,但 Transformer 的到来表明了融合的可能性。「我认为 Transformer 之所以如此受欢迎,是因为它展示出了通用的潜力,」德克萨斯大学奥斯汀分校的计算机科学家 Atlas Wang 说:「我们有充分的理由尝试在整个 AI 任务范围内尝试使用 Transformer。」

从「语言」到「视觉」

在《Attention Is All You Need》发布几个月后,扩展 Transformer 应用范围的最有希望的动作就开始了。Alexey Dosovitskiy 当时在谷歌大脑柏林办公室工作,正在研究计算机视觉,这是一个专注于教授计算机如何处理和分类图像的 AI 子领域。

Alexey Dosovitskiy。

与该领域的几乎所有其他人一样,他一直使用卷积神经网络 (CNN) 。多年来,正是 CNN 推动了深度学习,尤其是计算机视觉领域的所有重大飞跃。CNN 通过对图像中的像素重复应用滤波器来进行特征识别。基于 CNN,照片应用程序可以按人脸给你的照片分门别类,或是将牛油果与云区分开来。因此,CNN 被认为是视觉任务必不可少的。

当时,Dosovitskiy 正在研究该领域最大的挑战之一,即在不增加处理时间的前提下,将 CNN 放大:在更大的数据集上训练,表示更高分辨率的图像。但随后他看到,Transformer 已经取代了以前几乎所有与语言相关的 AI 任务的首选工具。「我们显然从正在发生的事情中受到了启发,」他说,「我们想知道,是否可以在视觉上做类似的事情?」 这个想法某种程度上说得通——毕竟,如果 Transformer 可以处理大数据集的单词,为什么不能处理图片呢?

最终的结果是:在 2021 年 5 月的一次会议上,一个名为 Vision Transformer(ViT)的网络出现了。该模型的架构与 2017 年提出的第一个 Transformer 的架构几乎相同,只有微小的变化,这让它能够做到分析图像,而不只是文字。「语言往往是离散的,」Rumshisky 说:「所以必须使图像离散化。」

ViT 团队知道,语言的方法无法完全模仿,因为每个像素的自注意力在计算时间上会非常昂贵。所以,他们将较大的图像划分为正方形单元或 token。大小是任意的,因为 token 可以根据原始图像的分辨率变大或变小(默认为一条边 16 像素),但通过分组处理像素,并对每个像素应用自注意力,ViT 可以快速处理大型训练数据集,从而产生越来越准确的分类。

Transformer 能够以超过 90% 的准确率对图像进行分类,这比 Dosovitskiy 预期的结果要好得多,并在 ImageNet 图像数据集上实现了新的 SOTA Top-1 准确率。ViT 的成功表明,卷积可能不像研究人员认为的那样对计算机视觉至关重要。

与 Dosovitskiy 合作开发 ViT 的谷歌大脑苏黎世办公室的 Neil Houlsby 说:「我认为 CNN 很可能在中期被视觉 Transformer 或其衍生品所取代。」他认为,未来的模型可能是纯粹的 Transformer,或者是为现有模型增加自注意力的方法。

一些其他结果验证了这些预测。研究人员定期在 ImageNet 数据库上测试他们的图像分类模型,在 2022 年初,ViT 的更新版本仅次于将 CNN 与 Transformer 相结合的新方法。而此前长期的冠军——没有 Transformer 的 CNN,目前只能勉强进入前 10 名。

Transformer 的工作原理

ImageNet 结果表明,Transformer 可以与领先的 CNN 竞争。但谷歌大脑加州山景城办公室的计算机科学家 Maithra Raghu 想知道,它们是否和 CNN 一样「看到」图像。神经网络是一个难以破译的「黑盒子」,但有一些方法可以窥探其内部——例如通过逐层检查网络的输入和输出了解训练数据如何流动。Raghu 的团队基本上就是这样做的——他们将 ViT 拆开了。

Maithra Raghu

她的团队确定了自注意力在算法中导致不同感知的方式。归根结底,Transformer 的力量来自于它处理图像编码数据的方式。「在 CNN 中,你是从非常局部的地方开始,然后慢慢获得全局视野,」Raghu 说。CNN 逐个像素地识别图像,通过从局部到全局的方式来识别角或线等特征。但是在带有自注意力的 Transformer 中,即使是信息处理的第一层也会在相距很远的图像位置之间建立联系(就像语言一样)。如果说 CNN 的方法就像从单个像素开始并用变焦镜头缩小远处物体的像的放大倍数,那么 Transformer 就是慢慢地将整个模糊图像聚焦。

这种差异在 Transformer 最初专注的语言领域更容易理解,思考一下这些句子:「猫头鹰发现了一只松鼠。它试图用爪子抓住它,但只抓住了尾巴的末端。」第二句的结构令人困惑:「它」指的是什么?只关注「它」邻近的单词的 CNN 会遇到困难,但是将每个单词与其他单词连接起来的 Transformer 可以识别出猫头鹰在抓松鼠,而松鼠失去了部分尾巴。

显然,Transformer 处理图像的方式与卷积网络有着本质上的不同,研究人员变得更加兴奋。Transformer 在将数据从一维字符串(如句子)转换为二维数组(如图像)方面的多功能性表明,这样的模型可以处理许多其他类型的数据。例如,Wang 认为,Transformer 可能是朝着实现神经网络架构的融合迈出的一大步,从而产生了一种通用的计算机视觉方法——也许也适用于其他 AI 任务。「当然,要让它真正发生是有局限性的,但如果有一种可以通用的模型,让你可以将各种数据放在一台机器上,那肯定是非常棒的。」

关于 ViT 的展望

现在研究人员希望将 Transformer 应用于一项更艰巨的任务:创造新图像。GPT-3 等语言工具可以根据其训练数据生成新文本。在去年发表的一篇论文《TransGAN: Two Pure Transformers Can Make One Strong GAN, and That Can Scale Up》中,Wang 组合了两个 Transformer 模型,试图对图像做同样的事情,但这是一个困难得多的问题。当双 Transformer 网络在超过 200000 个名人的人脸上进行训练时,它以中等分辨率合成了新的人脸图像。根据初始分数(一种评估神经网络生成的图像的标准方法),生成的名人面孔令人印象深刻,并且至少与 CNN 创建的名人一样令人信以为真。

Wang 认为,Transformer 在生成图像方面的成功比 ViT 在图像分类方面的能力更令人惊讶。「生成模型需要综合能力,需要能够添加信息以使其看起来合理,」他说。与分类领域一样,Transformer 方法正在生成领域取代卷积网络。

Raghu 和 Wang 还看到了 Transformer 在多模态处理中的新用途。「以前做起来比较棘手,」Raghu 说,因为每种类型的数据都有自己的专门模型,方法之间是孤立的。但是 Transformer 提出了一种组合多个输入源的方法。

「有很多有趣的应用程序可以结合其中一些不同类型的数据和图像。」例如,多模态网络可能会为一个系统提供支持,让系统除了听一个人的声音外,还可以读取一个人的唇语。「你可以拥有丰富的语言和图像信息表征,」Raghu 说,「而且比以前更深入。」

这些面孔是在对超过 200000 张名人面孔的数据集进行训练后,由基于 Transformer 的网络创建的。

新的一系列研究表明了 Transformer 在其他人工智能领域的一系列新用途,包括教机器人识别人体运动、训练机器识别语音中的情绪以及检测心电图中的压力水平。另一个带有 Transformer 组件的程序是 AlphaFold,它以快速预测蛋白质结构的能力,解决了五十年来蛋白质分子折叠问题,成为了名噪一时的头条新闻。

Transformer isn"t all you need

即使 Transformer 有助于整合和改进 AI 工具,但和其他新兴技术一样,Transformer 也存在代价高昂的特点。一个 Transformer 模型需要在预训练阶段消耗大量的计算能力,才能击败之前的竞争对手。

这可能是个问题。「人们对高分辨率的图像越来越感兴趣,」Wang 表示。训练费用可能是阻碍 Transformer 推广开来的一个不利因素。然而,Raghu 认为,训练障碍可以借助复杂的滤波器和其他工具来克服。

Wang 还指出,尽管视觉 transformer 已经在推动 AI 领域的进步,但许多新模型仍然包含了卷积的最佳部分。他说,这意味着未来的模型更有可能同时使用这两种模式,而不是完全放弃 CNN。

同时,这也表明,一些混合架构拥有诱人的前景,它们以一种当前研究者无法预测的方式利用 transformer 的优势。「也许我们不应该急于得出结论,认为 transformer 就是最完美的那个模型,」Wang 说。但越来越明显的是,transformer 至少会是 AI shop 里所有新型超级工具的一部分。

关键词: 计算机视觉 神经网络

上一篇:
下一篇:
精彩阅读

Transformer将在AI领域一统天下?现在下结论还为时过早

热点

从自然语言处理任务起家,又在图像分类和生成领域大放异彩,所向披靡的Transformer会成为下一个神话吗?

那个NB的中国移动,又回来了?

热点

近些年来一直在中国移动互联网行业蓬勃发展背后默默提供通信基础设施的中国移动,港股股价居然创出新高了。

中富通:与福建供销集团签订战略合作协议

热点

中富通:与福建供销集团签订战略合作协议。

垂直SaaS的增长密码在哪里

热点

作为中国排名前列的医疗SaaS提供商,智云健康遇到的问题其实对垂直领域的SaaS服务商都有参考价值。

字节跳动,又收编了一个团队

热点

字节跳动又一神操作这一次,字节跳动似乎故技重施——“买”来了一位创始人。

穿云破雾,复星国际的四大能力和一张蓝图

热点

企业发展,其实就是遵循理性商业逻辑的结果。

挚文集团财报背后:基本盘稳定中的新耐力长跑

热点

如今挚文集团已经不再局限于陌生人社交,而是一家涉足科技、文化领域的多元化集团型企业。

股价涨!中国移动回A首份年报出炉:杨杰这么解读

热点

3月23日,三大运营商压轴财报之中国移动2021财报正式发布。

不是制造业需要钉钉,而是钉钉需要制造业

热点

“不是钉钉发展了制造业,而是制造业发展了钉钉。”钉钉总裁叶军如是说道。

Figma断供大疆,对国产设计软件的启示

热点

美国知名UI界面设计协同软件Figma断供大疆的消息引起业界不小的震动。

财富

苹果将为iPhone和其他硬件开发订阅服务或用于按月付款

资讯

据国外媒体报道,知情人士透露,苹果正在为iPhone和其他硬件产品开发一种订阅服务。此举或将使客户能够像订阅软件服务那样,以按月付款的形

宁德时代成为新能源产业首家“零碳工厂”

资讯

近日消息,宁德时代官方宣布,全球知名认证机构SGS为宁德时代全资子公司四川时代颁发PAS2060碳中和认证证书,宁德时代宜宾工厂成为新能源产

微软Xbox平台预计2026年可获得7%市场份额

资讯

周五的时候,游戏市场分析公司 DFCIntelligence 发布了对主机市场的最新预测。其认为,微软 Xbox 平台有望在未来四年内,与索尼 PlayS

苹果高管:MacStudio设计源于公司几十年来的工作

资讯

苹果公司很少推出全新的Mac,但两位负责Mac Studio的高管说,Mac Studio设计源于苹果公司几十年来的工作。在接受《GQ》杂志的最新采访中

营收增速超50%,绿城中国“规模化”提速

资讯

规模化的绿城已经被市场所熟知,规模化冲刺带来的问题同样惹人注意。3月23日,绿城中国于线上召开2021年度业绩发布会。公司全年目标达成率1

贵州茅台再推新电商平台“能买才是真”

资讯

中国贵州茅台酒厂(集团)有限责任公司(以下简称贵州茅台)将再次推出官方电商平台,这一消息迅速成为业界焦点。3月23日,北京商报记者从贵州

Chrome浏览器推出新扩展程序:不尝试将数据传输给微软账号

资讯

微软近日面向 Chrome 浏览器推出了全新的扩展程序 -- Microsoft Bing InPrivate ,在不尝试将数据传输给微软账号或者设备的情况下运

亚都两款空气净化器不合格,空气净化器行业为何深陷泥潭?

资讯

国家市场监督管理总局网站日前公布的《2021年家用电器产品质量国家监督抽查情况通报》显示,2021年抽查了361家企业生产的372批次产品,涉及

2021年冰箱市场:均价双位数增长高端化趋势明显

资讯

2021年,冰箱市场总体呈现增长态势。受产品结构升级和原材料成本攀升的双重影响,2021年冰箱市场均价呈双位数增长,高端化趋势明显。2021年

315曝光台:美团、去哪儿相继被曝出大数据“杀熟”

资讯

近日,315曝光台上,美团和去哪儿相继被曝出大数据杀熟。今年3月3日,一位匿名用户在黑猫平台 上对在线旅游平台去哪儿发起投诉,他已经在

那个NB的中国移动,又回来了?

近些年来一直在中国移动互联网行业蓬勃发展背后默默提供通信基础设施的中国移动,港股股价居然创出新高了。

中富通:与福建供销集团签订战略合作协议

中富通:与福建供销集团签订战略合作协议。

垂直SaaS的增长密码在哪里

作为中国排名前列的医疗SaaS提供商,智云健康遇到的问题其实对垂直领域的SaaS服务商都有参考价值。

字节跳动,又收编了一个团队

字节跳动又一神操作这一次,字节跳动似乎故技重施——“买”来了一位创始人。

穿云破雾,复星国际的四大能力和一张蓝图

企业发展,其实就是遵循理性商业逻辑的结果。

为户外劳动者提供便利 重庆已建成665座“劳动者港湾”

  中新网重庆4月22日电 (韩璐 王雪宇)记者22日从重庆市城市管理局获悉,2020年重庆市已建成“劳动者港湾”665座。今年,重庆还将继续建

沈阳警方侦破特大贩卖毒品案 抓获88名涉毒违法犯罪嫌疑人

  中新社沈阳4月22日电 (王景巍)沈阳市公安局22日发布消息,近日,在中国公安部和辽宁省公安厅的指导协调下,历经9个多月,沈阳市公安局

上海警方侦破特大制售假普洱茶案 市场价值高达18亿元

  中新网上海4月22日电 (记者 李姝徵)记者22日从上海警方获悉,2021年3月,上海警方全链条侦破一起销售假冒知名品牌普洱茶案,捣毁制售

西安强化知识产权司法保护 商标权案件占比高

  中新网西安4月22日电 (记者 张一辰)在世界知识产权日即将到来之际,西安市中级人民法院(以下简称:西安中院)22日召开新闻发布会,发

今年5月至明年2月底 江西4A级及以上景区对全国学子免门票

  中新网南昌4月22日电 (记者 李韵涵)记者22日从“红五月·嘉游赣”江西五一假日旅游工作媒体吹风会上获悉,2021年5月1日至2022年2月28

福州乡村公益图书馆:图书“接地气” 门口即是农田

  中新网福州4月22日电 (叶秋云 曾路淇)世界读书日即将来临之际,驾车五十余分钟,记者来到距离福建省福州市30多公里的闽侯县白沙镇马