全球今日讯!LeCun领导下的Meta AI,押注自监督

2022-07-25 16:00:20   来源:商业新知网

Meta 的 MAE 建立在一种名为 Transformer 的神经网络架构基础之上。

自监督学习真的是通往 AGI 的关键一步?


(资料图片)

Meta 的 AI 首席科学家 Yann LeCun 在谈到「此时此刻要采取的具体措施」时,也没有忘记远期的目标。他在一次采访时说:「我们想要构建像动物和人类一样学习的智能机器。」

近几年,Meta 发表了一系列关于 AI 系统自监督学习(SSL)的论文。LeCun 坚定地认为,SSL 是 AI 系统的必要前提,它可以帮助 AI 系统构建世界模型,以获得类似人类的能力,如理性、常识,以及将技能和知识从一个环境迁移到另一个环境的能力。

他们的新论文展示了一种被称为掩蔽自编码器(MAE)的自监督系统如何学会从非常零散、不完整的数据中重建图像、视频甚至音频。虽然 MAE 并不是一个新的想法,但 Meta 已经将这项工作扩展到了新的领域。

LeCun 说,通过研究如何预测丢失的数据,无论是静态图像还是视频或音频序列,MAE 系统都是在构建一个世界模型。他说:「如果它能预测视频中即将发生的事情,它必须明白世界是三维的,有些物体是无生命的,它们自己不会移动,其他物体是有生命的,很难预测,一直到预测有生命的人的复杂行为。」一旦 AI 系统有了一个精确的世界模型,它就可以使用这个模型来计划行动。

LeCun 说,「智能的本质是学会预测。」虽然他并没有声称 Meta 的 MAE 系统接近于通用人工智能,但他认为这是通往通用人工智能的重要一步。

但并非所有人都同意 Meta 的研究人员走在通往通用人工智能的正确道路上。Yoshua Bengio 有时会与 LeCun 就 AI 领域的重大想法进行友好的辩论。在给 IEEE Spectrum 的一封电子邮件中,Bengio 阐述了他们在目标上的一些不同和相似之处。

Bengio 写道:「我真的不认为我们目前的方法(无论是不是自监督)足以弥合人工与人类智能水平的差距。」他说,该领域需要取得「质的进步」,才能真正推动技术向人类规模的人工智能靠拢。

对于 LeCun 的「对世界的推理能力是智能的核心要素」这一观点,Bengio 表示赞同,但他的团队并没有把重点放在能够预测的模型上,而是放在了能够以自然语言的形式呈现知识的模型上。他指出,这样的模型将允许我们将这些知识片段结合起来,以解决新问题,进行反事实模拟,或研究可能的未来。Bengio 的团队开发了一种新的神经网络框架,它比致力于端到端学习的 LeCun 所青睐的框架更具模块化的性质。

大火的 Transformer

Meta 的 MAE 建立在一种名为 Transformer 的神经网络架构基础之上。这种架构最初在自然语言处理领域走红,之后扩展到计算机视觉等多个领域。

当然,Meta 并不是第一个成功将 Transformer 用到视觉任务中的团队。Meta AI 的研究者 Ross Girshick 介绍说,谷歌在视觉 Transformer(ViT)上的研究启发了 Meta 的团队,「ViT 架构的采用帮助(我们)消除了试验过程中遇到的一些障碍」。

Girshick 是 Meta 第一篇 MAE 系统论文的作者之一,这篇论文的一作是何恺明,他们论述了一种非常简单的方法:掩蔽输入图像的随机区块并重建丢失的像素。

这种模型的训练类似于 BERT 以及其他一些基于 Transformer 的语言模型,研究人员会向它们展示巨大的文本数据库,但有些词是缺失的,或者说被「掩蔽」了。模型需要自己预测出缺失的词,然后被掩蔽的词会被揭开,这样模型就能检查自己的工作并更新自己的参数。这一过程会一直重复下去。Girshick 解释说,为了在视觉上做类似的事情,研究小组将图像分解成 patch,然后掩蔽一些 patch 并要求 MAE 系统预测图像缺失的部分。

该团队的突破之一是意识到,掩蔽大部分图像会获得最好的结果,这与语言 transformer 有着关键区别,后者可能只会掩蔽 15% 的单词。「语言是一种极其密集和高效的交流系统,每个符号都包含很多含义,」Girshick 说,「但是图像——这些来自自然世界的信号——并不是为了消除冗余而构建的。所以我们才能在创建 JPG 图像时很好地压缩内容。」

Meta AI 的研究人员试验需要掩蔽多少图像获得最佳效果。

Girshick 解释说,通过掩蔽图像中超过 75% 的 patch,他们消除了图像中的冗余,否则会使任务变得过于琐碎,不适合训练。他们那个由两部分组成的 MAE 系统首先使用一个编码器,通过训练数据集学习像素之间的关系,然后一个解码器尽最大努力从掩蔽图像中重建原始图像。在此训练方案完成后,编码器还可以进行微调,用于分类和目标检测等视觉任务。

Girshick 说,「最终让我们兴奋的点在于,我们看到了这个模型在下游任务中的结果。」当使用编码器完成目标识别等任务时,「我们看到的收益非常可观。」他指出,继续增大模型可以获得更好的性能,这对未来的模型来说是一个有潜力的方向,因为 SSL「具有使用大量数据而不需要手动注释的潜力」。

全力以赴地学习海量的未经筛选的数据集可能是 Meta 提高 SSL 结果的策略,但也是一个越来越有争议的方法。Timnit Gebru 等人工智能伦理研究人员已经呼吁大家注意大型语言模型学习的未经整理的数据集固有的偏见,这些偏见有时会导致灾难性的结果。

视频和音频的自监督学习

在视频 MAE 系统中,掩蔽物遮蔽了每个视频帧的 95%,因为帧之间的相似性意味着视频信号比静态图像有更多的冗余。Meta 研究人员 Christoph Feichtenhofer 说,就视频而言,MAE 方法的一大优势是视频通常需要大量计算,而 MAE 通过屏蔽每帧高达 95% 的内容,减少了高达 95% 的计算成本。

这些实验中使用的视频片段只有几秒钟,但 Feichtenhofer 表示,用较长的视频训练人工智能系统是一个非常活跃的研究课题。想象一下,你有一个虚拟助理,他有你家的视频,可以告诉你一个小时之前你把钥匙放在哪里了。

更直接地说,我们可以想象图像和视频系统对 Facebook 和 Instagram 上的内容审核所需的分类任务都很有用,Feichtenhofer 说,「integrity」是一种可能的应用,「我们正在与产品团队沟通,但这是非常新的,我们还没有任何具体的项目。」

对于音频 MAE 工作,Meta AI 的团队表示他们将很快将研究成果发布在 arXiv 上。他们发现了一个巧妙的方法来应用掩蔽技术。他们将声音文件转化为声谱图,即信号中频率频谱的视觉表征,然后将部分图像掩蔽起来进行训练。重建的音频令人印象深刻,尽管该模型目前只能处理几秒钟的片段。

该音频系统的研究人员 Bernie Huang 说,这项研究的潜在应用包括分类任务,通过填充数据包被 drop 时丢失的音频来辅助基于 IP 的语音传输(VoIP),或者找到更有效的压缩音频文件的方法。

Meta 一直在进行开源 AI 方面的研究,如这些 MAE 模型,还为人工智能社区提供了一个预训练的大型语言模型。但批评人士指出,尽管在研究方面如此开放,但 Meta 还没有把它的核心商业算法开放出来供大家研究,即那些控制新闻推送、推荐和广告植入的算法。

关键词: 研究人员 人工智能

上一篇:
下一篇:
精彩阅读

全球今日讯!LeCun领导下的Meta AI,押注自监督

热点

Meta的MAE建立在一种名为Transformer的神经网络架构基础之上。

快报:2022全球数字经济大会互联网3.0峰会将在北京举办

热点

2022全球数字经济大会将于7月28日至30日在北京举办。

世界今头条!明星在微博批量生产「工作周报」

热点

2012年,微博做了一部同名系列纪录片《微博》,谢娜、姚晨、李冰冰作为明星嘉宾,讲述微博在自己生活中的角色。

世界热议:新科技 新基建 人工智能:开启无限可能

热点

人工智能正在对经济发展、社会进步、全球治理等方面产生重大而深远的影响。

世界快资讯:靠AI技术诈骗2亿的大案!Deepfake让明星大V都防不胜防

热点

当AI用在正途上时,深度伪造可以称得上是救火队长。

热点在线丨VC不爱SaaS了?走好

热点

资本的离场,也可能是一件好事。因为没钱可烧的创业公司,就必须想办法独立生存。

【天天播资讯】钉钉7年,进步与普惠同在

热点

一边进步一边普惠,一边召集更多志同道合的伙伴,手挽手前行。

当前焦点!兴趣驱动的社交元宇宙Soul,天花板在哪?

热点

近日,社交平台SoulApp运营主体公司SoulgateInc 在港交所递交招股书,正式启动上市流程。

热头条丨泰伯网“2022最具创新力企业”TOP50榜单重磅发布

热点

泰伯网“2022最具创新力企业”TOP50榜单重磅发布。

即时焦点:欠债68亿的贾跃亭,是不是个好老板?

热点

乐视“迷局”:百亿债务无解,员工却过上了“神仙日子”。

财富

世界视点!融资丨「抢镜职场」获得数千万天使轮融资,经纬创投以及创始团队注资

资讯

融资丨「抢镜职场」获得数千万天使轮融资,经纬创投以及创始团队注资,公司目前主要通过“双端富媒体信息主页+结构化面试题库+异步视频面试工具

【新要闻】融资丨「杰成新能源」获过亿元A轮融资,中银粤财领投

资讯

融资丨「杰成新能源」获过亿元A轮融资,中银粤财领投,本轮融资将主要用于电池回收技术研发和产能扩张。

全球观察:融资丨「倍生生物」半年内连续完成两轮融资,专注于合成生物学研究

资讯

融资丨「倍生生物」半年内连续完成两轮融资,专注于合成生物学研究,2019年创立的倍生生物,专注于用软件工程理念指导工业微生物的全局理性设计。

全球新资讯:融资丨「马上赢」再获数千万元融资,山东省商业集团旗下鲁商基金投资

资讯

融资丨「马上赢」再获数千万元融资,山东省商业集团旗下鲁商基金投资,马上赢通过智能化数据分析,可以更高效解决企业的相关需求

热门:融资丨「橙幸科技」完成千万级Pre-A轮融资,王鼎创投投资

资讯

融资丨「橙幸科技」完成千万级Pre-A轮融资,王鼎创投投资,本轮融资资金将全部用于品牌合作、团队打造以及市场推广。

买了视频网站VIP会员,却无法在手机投屏使用 合理吗?

资讯

买了视频网站VIP会员,却无法通过手机投屏使用,这样的做法合理合法吗?日前,视频网站优酷在回应有关质疑的时候,这样表示:优酷VIP会员服

坐网约车开空调,司机和乘客谁说了算?律师:平台规则不能一劳永逸

资讯

坐网约车开空调,司机和乘客谁说了算?烈日之下乘坐网约车,本以为进了空调房,没想到进了桑拿房。有报道,北京一男子在乘坐网约车时要求开

环球简讯:承认吧,食品品牌的营销套路失效了,那什么才是年轻人的小宝贝?

资讯

承认吧,食品品牌的营销套路失效了,那什么才是年轻人的小宝贝?,现在的年轻人不想听“故事”了,比起一场精心策划的表演,他们更希望品牌能贴

全球热点评!看了Soul的数据,我发现陌生人社交的赛道塌了

资讯

看了Soul的数据,我发现陌生人社交的赛道塌了,留存率低、盈利困难、合规风险,是陌生人社交赛道塌陷的根本原因。

每日热门:破圈经济学:小红书迎“男”而上

资讯

破圈经济学:小红书迎“男”而上,“晚熟”的小红书,到了破圈时刻

快报:2022全球数字经济大会互联网3.0峰会将在北京举办

2022全球数字经济大会将于7月28日至30日在北京举办。

世界今头条!明星在微博批量生产「工作周报」

2012年,微博做了一部同名系列纪录片《微博》,谢娜、姚晨、李冰冰作为明星嘉宾,讲述微博在自己生活中的角色。

世界热议:新科技 新基建 人工智能:开启无限可能

人工智能正在对经济发展、社会进步、全球治理等方面产生重大而深远的影响。

世界快资讯:靠AI技术诈骗2亿的大案!Deepfake让明星大V都防不胜防

当AI用在正途上时,深度伪造可以称得上是救火队长。

热点在线丨VC不爱SaaS了?走好

资本的离场,也可能是一件好事。因为没钱可烧的创业公司,就必须想办法独立生存。

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个

吉利几何EX3功夫牛高居榜首,4月投诉量230起

近日,车质网发布了2022年4月车型投诉排行八卦(前30名),其中有不少产品的出现属实让人没想到。具体来看,吉利几何EX3功夫牛高居榜首,4月

“说好了未达到目标全额退款,结果都是骗人的!”

春天不减肥,夏天徒伤悲。一波减肥大军抱着坚定的信念踏上征途,发现身边各式各样的高端减肥训练营正打着健康减肥封闭管理保质保量包吃包住