牛津大学最新调研:AI面临基准危机,NLP集中“攻关”推理测试

2022-04-12 15:53:11   来源:商业新知网

来源:AI科技评论

作者:维克多

人工智能(AI)基准为模型提供了衡量和比较的路径,超越基准,达到SOTA,经常成为顶会论文的标配。同时,有些基准确实推动了AI的发展,例如ImageNet 基准测试对近几年的热潮功不可没。

如今,ImageNet 基准仍然在研究中发挥核心作用,一些新模型,例如谷歌的Vision Transformer在论文中仍然与ImageNet方法进行比较。

但,如果某一基准的分数一直占据榜首,后续没有高质量基准引入,那么这种依靠基准推动发展的“路子”就有问题。

近日,维也纳医科大学和牛津大学的研究人员对AI基准图谱进行了调查,共统计了2013年以来CV和NLP领域的406项任务的1688项基准。发现: 很大一部分基准迅速趋于接近饱和,还有一部分基准被搁置;同时,在NLP领域,从2020年开始,新基准的建立减少,方向转向推理或推理相关的高级任务上。

在文中,作者呼吁,未来的工作应该着重于大规模的社区合作,以及将基准性能与现实世界效用和影响相联系。

1

33%的AI基准被“搁置”

从单个基准出发,如上图可以看出基准上的SOTA有三种状态:稳定增长,停滞或饱和,以及停滞后的飞跃。其中,稳定增长代表技术稳定;停滞背后代表缺乏技术进步的能力;而爆发是指技术出现突破。

事实上,近年来,关键领域,如NLP,有相当一部分新基准迅速趋于饱和,或者设计针对特定基准特征过度优化的模型,而这些模型往往无法泛化到其他数据中。

目前,这些现象已经蔓延到相同领域的不同基准中,例如上图,CIFAR-10和CIFAR-100的状态。

同时,数量方面也出现了尴尬的局面,例如《2021年的人工智能指数报告》指出,CV基准数量或许能满足日益增长的任务需求;而NLP模型的增长速度正在超过现有的问答和自然语言理解基准。

Martínez-Plumed等学者分析了 CIFAR-100 和 SQuAD1.1 等 25 个流行 AI 基准背后“故事”,他们发现“SOTA 前沿”由某些长期协作的社区主导,例如美国或亚洲大学与科技公司共同合作的组织。

此外,其他学者分析了大量 AI 基准测试工作中数据集使用和再利用的趋势,他们发现,很大一部分“知名”数据集是由少数高知名度的组织提出,其中一些数据集被越来越多地重新用于新的任务。NLP是个例外,它对新的、特定任务的基准的引入和使用超过了平均水平。

在这项研究中,维也纳医科大学和牛津大学的研究人员表明:饱和和搁置非常常见。总体看来有以下几个趋势:

1.缺乏研究兴趣是导致停滞不前的原因之一;

2.所有基准中的大多数很快就会达到技术停滞或饱和;

3.在某些情况下,会出现持续增长,例如在 ImageNet 基准测试中;

4.性能改进的动态变化并不遵循一个清晰可辨的模式:在某些情况下,停滞阶段之后是不可预测的飞跃。

图注:基准有三种发展趋势:稳定增长,停滞或饱和,以及停滞后的飞跃。

此外,在1688个基准中,只有66%的基准充分被利用,换言之33%的基准被搁置。同时,基准测试的另一个趋势是:被某些既定机构和公司的数据集主导。

2

NLP基准正面向高难度的任务

过去几年,CV领域的基准占据主导地位,但NLP也开始了蓬勃发展。2020年,新基准的数量有所下降,越来越多地集中在难度较高的任务上,例如测试推理的任务,例如BIG-bench和NetHack,前者属于谷歌,后者来自Facebook。

上图是NLP的基准生命周期展示,可以清晰看出,大多数任务的几个主流基准是在2011~2015年间建立的,这期间,也只有少数几个SOTA出现。2016年之后,新基准的建立速度大大加快,在翻译和自然语言建模方面表现最为突出;2018和2019年,分别都针对各种任务建立了大量的基准;2020年是个转折点,新基准的建立减少,方向转向推理或推理相关的高级任务上。

整体来说,当前AI基准的趋势是: 来自既定机构(包括工业界)的基准的趋势引起了人们对基准的偏见和代表性的关注;许多基准并不能完全将AI性能与现实世界相匹配,因此,开发少量但有质量保证,涵盖多种AI能力、场景的基准可能是可取的。

最后,研究人员展望,在未来,新的基准应该由来自许多机构、知识领域的大型合作团队开发,如此才能确保建立高质量的基准。

声明

来源:AI科技评论 , RAD极客会推荐阅读,不代表RAD极客会立场,转载请注明,如涉及作品版权问题,请联系我们删除或做相关处理!

关键词: 牛津大学

上一篇:
下一篇:
精彩阅读

牛津大学最新调研:AI面临基准危机,NLP集中“攻关”推理测试

热点

人工智能(AI)基准为模型提供了衡量和比较的路径,超越基准,达到SOTA,经常成为顶会论文的标配。

涨得整整齐齐,三大运营商的净增宽带用户都是从哪来的?

热点

三家传统业务既然重合,切磋之下必然有此消彼长之势。

知识和信息传播时代:上游失责,中游失序,下游失智——我们需要走出新无知时代

热点

从生产者的失责、传播者的失序,到接收者的失智,整个知识产业链都在互联网的影响下,进入了“新无知时代”。

到底什么是相干光通信?

热点

今天这篇文章,我们来聊聊一个“网红”技术——相干光通信。

时代在变,万科AI审图,平均每年避免损失超3.1亿。

热点

没有前期在数字化投入作为牢固的基础,就不可能第一时间抓住红利。

定了!目标1000万!京东疯涨200%!字节加钱加人!国产VR销售爆棚,元宇宙终于要“开门”了?

热点

VR市场的真正爆发一定是来自软件和硬件的齐头并进,国内市场还有很长的路要走。

斯坦福学生攻破两个约会软件!用GAN模型「女扮男装」骗过人脸识别系统

热点

一位斯坦福的学生使用GAN模型生成了几张自己的图片,轻松攻破两个约会软件,最离谱的是「女扮男装」都识别不出来。

Relation:探索Web3应用赋能,打造社交网络新范式

热点

Relation是一个专注Web3社交图谱数据价值的探索者,愿景是为全球多链生态系统提供最强大丰富的社交关图谱。

考过就送9.9ETH起的NFT?顶级学府的加密课程越来越有意思了

热点

全球对区块链人才的需求在过去几年间呈现爆发式增长,但与此相对的,人才非常紧俏,如今依旧处于供不应求的状态。

财富

刷了几百块进去,得不到推流,准备放弃了吗?

资讯

打开美颜,大眼瘦脸,刘梅穿一身红裙,本就漂亮的她在镜头里显得更年轻了。53岁的刘梅从小嗓门儿清亮,喜欢唱歌,玩儿了一年直播,她也想当

Cocos宣布完成5000万美元B轮融资,投资方为建信信托

资讯

4月11日消息,日前,Cocos宣布完成5000万美元B轮融资,投资方为建信信托、GGV纪源资本、声网Agora等。据悉,本轮融资后,Cocos将借助资本的

一天50条动态招揽生意“反催收”“债闹”是逃废债

资讯

你听说过反催收债闹吗?北京商报记者注意到,最近有不少黑产已经盯上这个生意。一些所谓的债务咨询或债务管理专家,在微博、QQ、贴吧、抖音

微软又加强安全提醒:Win11系统将关闭内存完整性功能

资讯

从微软前几天公布的发展方向来看,安全在Win11接下来的更新升级中会越来越重要,微软会带来多项重磅安全功能更新,比如网络防钓鱼保护,这

三星高端机型将率先尝鲜AndroidUI5.0系统

资讯

据 SamMobile 报道,Android 13开发者预览版已经上线,谷歌Pixel机型可以更新尝鲜。值得注意的是,三星正在紧锣密鼓开发基于Android 13

三星将为Galaxy系列手机制造“独一无二”的芯片

资讯

近日,韩国媒体Inews24报道,三星正计划开发新一代芯片组。报道称,三星总裁和MX业务负责人TM Roh表示,三星将专门为Galaxy系列手机制造独

4800万像素!iPhone14系列后置主摄镜头曝光

资讯

据外媒最新消息称,今年要登场的iPhone 14系列中,Pro版本机型的后置主摄镜头会非常的夸张,传感器尺寸巨大。从曝光的数据来看,iPhone 1

曾是“家居十大质量黑榜”主角的板材巨头佳诺威申请获证监会受理

资讯

曾是家居十大质量黑榜主角的板材巨头佳诺威,品质问题未能阻止其向资本市场迈进的脚步。2022年4月6日,北京商报记者获悉,佳诺威集团股份有

六部门发文:推动文旅融合赋能乡村振兴

资讯

4月7日,文化和旅游部、教育部、自然资源部等六部门发布关于推动文化产业赋能乡村振兴的意见(以下简称《意见》),提出文旅融合赋能是推动文

苹果的节奏晚了些?iOS16系统测试机出现活跃迹象

资讯

当前,iOS 15系统已经推进到15 4 x,从版本号来看,已经进入生命期中后段。事实上,按计划苹果会在6月份左右举办WWDC22大会(据说邀请函下

涨得整整齐齐,三大运营商的净增宽带用户都是从哪来的?

三家传统业务既然重合,切磋之下必然有此消彼长之势。

知识和信息传播时代:上游失责,中游失序,下游失智——我们需要走出新无知时代

从生产者的失责、传播者的失序,到接收者的失智,整个知识产业链都在互联网的影响下,进入了“新无知时代”。

到底什么是相干光通信?

今天这篇文章,我们来聊聊一个“网红”技术——相干光通信。

时代在变,万科AI审图,平均每年避免损失超3.1亿。

没有前期在数字化投入作为牢固的基础,就不可能第一时间抓住红利。

定了!目标1000万!京东疯涨200%!字节加钱加人!国产VR销售爆棚,元宇宙终于要“开门”了?

VR市场的真正爆发一定是来自软件和硬件的齐头并进,国内市场还有很长的路要走。

中保研汽车技术研究试验中心发布7款车型测评结果

在中国保险行业协会的指导下,在中保研汽车技术研究院有限公司和通用技术中国汽车工程研究院股份有限公司的支持下,中保研汽车技术研究试验

机器人时代,座舱的人机交互将走向何方?

智能汽车是机器人的第一形态,对应的智能座舱也引领了机器人时代人机交互发展的新方向。历史上,每一次交互方式的改变,都重塑了智能设备的

研究公司:2021年全球电信市场资本支出同比增长9%

来自市场研究公司Dell& 39;Oro Group的最新报告显示,初步估算表明,2021年全球电信市场资本支出(包括无线和有线电信投资总和)按名义美元

为户外劳动者提供便利 重庆已建成665座“劳动者港湾”

  中新网重庆4月22日电 (韩璐 王雪宇)记者22日从重庆市城市管理局获悉,2020年重庆市已建成“劳动者港湾”665座。今年,重庆还将继续建

沈阳警方侦破特大贩卖毒品案 抓获88名涉毒违法犯罪嫌疑人

  中新社沈阳4月22日电 (王景巍)沈阳市公安局22日发布消息,近日,在中国公安部和辽宁省公安厅的指导协调下,历经9个多月,沈阳市公安局

上海警方侦破特大制售假普洱茶案 市场价值高达18亿元

  中新网上海4月22日电 (记者 李姝徵)记者22日从上海警方获悉,2021年3月,上海警方全链条侦破一起销售假冒知名品牌普洱茶案,捣毁制售