环球观察:人工智能环保吗?

2023-03-09 15:11:15   来源:商业新知网

用于人工智能的成本,正在以惊人的速递流失,这不仅体现在真金白银商,更在能源消耗上。

撰文 | Charmaine Lai, Subutai Ahmad, Donna Dubinsky & Christy Maver


(资料图片)

译者 | lemon

审校 | P

在过去十年,人工智能(特别是深度学习)取得了显著成效。当Siri读懂你说的话、脸书认出了你的表亲、谷歌地图为你重新规划路线时,都大概率涉及到了深度学习系统。

鲜为人知的是,这些模型正消耗着惊人的成本,不仅体现在真金白银上,也体现在能源消耗上。照目前的迹象来看,人工智能只会给气候危机火上浇油。可相比之下,我们的大脑(功耗小于40瓦)可就高效多了。如果我们把基于神经科学的技术应用到人工智能中,那么用于计算的能耗将有可能大大降低,从而减少温室气体排放。这篇博文旨在解释到底是什么导致了人工智能过大的能源消耗,以及如何用基于大脑(工作原理)的技术解决这种过高的能源成本问题。

为什么人工智能如此耗能?

科学治理沙尘暴

首先,我们有必要简单了解一下深度学习模型的工作原理。深度学习模型的“智能”之处和你的大脑并不一样。它们不以结构化*的方式学习信息。与你不同,它们不懂什么是因果关系*、上下文*或类比*。深度学习模型是用“蛮力”的统计技术*。

例如,你要是想训练一个深度学习模型来辨认一张猫的照片,你需要向它展示上千张由人类标记过的猫的图像。该模型并不知道猫比狗更有可能爬树、玩羽毛*。因此除非我们拿包含树和羽毛的猫的图像来训练它,否则它不会知道这些物体的存在可以帮助对猫的识别。而为了做出这些推断,我们需要用所有可能的物体组合图片对模型进行“蛮力”训练。

*译者注

结构化:作者此处想表达的也许是深度学习模型不像人一样建立各种概念,而且知道这些概念之间的关系(因果关系、先后关系、相似/相邻关系)。但深度学习模型确实是以结构化的方式来学习信息的——模型在加入归纳偏置后具有某种等变特性,能够处理特定结构的数据(图像、时间序列、图结构的数据等)。因此此处表述不准确。

因果关系:诚如作者所言,机器学习模型一直为人诟病之处便是其仅习得关联,而非因果。但近期有研究已经开始探索似乎在大语言模型中涌现的因果关系,如Can Large Language Models Distinguish Cause from Effect?等。亦有相当多研究者开始关注因果表示学习这一新兴领域。

上下文:事实上,上下文学习对自GPT3之后的大语言模型来说并不是什么难事,并诞生了in-context learning这样一个专门研究这一能力的子领域。近期包括Can language models learn from explanations in context?,Emergent Abilities of Large Language Models,What learning algorithm is in-context learning? Investigations with linear models在内的多项研究进一步探索了其机制。

类比:近期已有研究表明,类比推理能力在大语言模型中涌现,如Emergent Analogical Reasoning in Large Language Models所述。

深度学习模型是用“蛮力”的统计技术:原文如此,不一定正确。

该模型并不知道猫比狗更有可能爬树、玩羽毛:值得注意的是,作者此处所描述的深度学习系统更多聚焦于单任务系统。但事实上,早在几年前,多任务学习(multitask learning)便已经成为十分流行的范式,并且目前最引人瞩目的一些深度学习系统更开始强调一个模型适用于多种任务,如DeepMind的Gato,Google的PaLM等。

- Blaster Studio -

这些运用“蛮力”的统计模型所产生的巨大能源需求是由于以下几个特点:

• 需要成百万上千万的训练样本。在猫的例子中,训练好一个模型需要正面、背面、侧面、不同品种、不同颜色、不同阴影以及不同姿势的猫的图片。一只猫的形态有无数种可能性,因此为了成功识别一只猫,模型必须在众多版本的猫(的图片)上进行训练。

• 需要很多的训练周期。从错误中学习是训练模型这一过程中的一部分。如果模型错误地把猫标记为浣熊,该模型需要重新调整它的参数以将图像分类为猫*,再重新进行训练。它从一次次错误中慢慢学习,这也需要一遍遍的训练。

• 当遇到新的信息时得从头训练。如果这个模型现在要去识别它从未见过的卡通猫,我们得将蓝色卡通猫和红色卡通猫添加到训练集中,从头对它进行训练。该模型无法循序渐进地学习*。

• 需要很多的权重和乘法。一个典型的神经网络包含很多由矩阵表示的连接或权重,其中一个或多个矩阵构成一层。为了计算一个输出,神经网络的后续层需要执行大量的矩阵乘法,直至最后得到一个结果。事实上,计算单个层的输出就需要数百万次浮点运算,而一个典型的神经网络可能包含数十到数百层,这使得其计算极其耗能。

*译者注

猫:原文为浣熊,此处应指猫。

该模型无法循序渐进地学习:原文如此。但这一说法并不准确,机器学习中的增量式学习(incremental learning)或与其高度相关的在线/持续学习(online/continual learning)的目标便是循序渐进地学习,并期望最终能够建模从未见过的数据(分布外泛化),甚至识别从未见过的物体(零样本推断)。

人工智能会消耗多少能源?

一篇来自麻萨诸塞大学阿默斯特分校的论文称,“训练一个人工智能模型可以产生的碳排放量,相当于五辆轿车在整个使用期中的排放量。”然而,这项分析仅仅只针对一次训练而已。当模型经过反复训练而改进时,其能耗会激增。许多大公司每天都在训练成千上万个这样的模型,它们对此问题都十分重视。Meta就是这样一个公司,其最近发表的论文探索了人工智能对环境的影响、研究了解决问题的方法、并呼吁有所行动。

当前最新的语言模型包含了数以亿计乃至万亿计的权重。其中一个流行的模型GPT-3就有1750亿个机器学习参数。该模型在NVIDIA V100 GPU上训练,虽然研究人员尚未披露该模型的能源使用情况,但通过研究人员的计算,如果使用A100系统则需使用1024个GPU、耗时34天、花费460万美元来训练此模型,也就是936兆瓦时。此外,谷歌AI刚刚公布了具有5400亿个参数的模型PaLM(Pathways Language Model)。随着模型变得越来越大以应对愈加复杂的任务,它们对服务器的需求呈指数增长。

在深度学习的时代,用于训练人工智能系统的算力呈指数增长丨

https://www.economist.com/technology-quarterly/2020/06/11/the-cost-of-training-machines-is-becoming-a-problem

自2012年以来,训练这些人工智能系统所需的计算资源每3.4个月就会翻一番。一位商业合作伙伴告诉我们,他们的深度学习模型足以为整座城市供电。这种能源使用的上升与许多组织声称在未来十年内实现“碳中和”的目标背道而驰。

我们该如何减少人工智能的碳足印?

为了解决这个具有挑战性的问题,我们的建议是:向大脑学习。人脑是一个真正的智能系统最好的例子,然而它只消耗很少的能量(基本上与点亮一盏灯泡的能量相同)。与深度学习的低效率相比,人脑的效率极其显著。

那么人脑是如何高效运作的呢?我们根植于神经科学的研究指出了一条让人工智能更加高效的路线。以下是大脑在不过多使用能量的情况下却能出色地处理数据的背后的几个原因:

1 / 稀疏性

大脑中的信息编码是非常稀疏的,这就像在一长串主要为零的字符串中零星掺杂着一些非零值。这与计算机的表示方法不同,后者通常是密集的。由于稀疏表征有很多零元素,因此它们在和其他数字相乘时可以被消掉而只剩下非零值。而大脑中的表征非常稀疏,其中多达98%的数字都是零。

如果我们可以通过具有类似稀疏度的人工智能系统表示信息,那么就可以消除大量的计算。我们已经证明,在深度学习的推断任务(inference tasks,例如在视觉系统中识别猫)中使用稀疏表征可以将功率性能在不损失任何准确度的前提下提高到三至一百倍以上(具体取决于网络、硬件平台和数据类型)。

深入了解:将稀疏性应用于机器学习

将大脑的稀疏性转移到深度神经网络(DNN)有两个关键点:激活稀疏性(activation sparsity)和权重稀疏性(weight sparsity)。稀疏网络可以限制其神经元的活动(激活稀疏性)和连接(权重稀疏性),从而显著降低模型的大小和计算复杂度。

当神经网络中的权重和激活函数都很稀疏时,我们只需要计算包含非零元素的乘积,从而消除绝大部分相乘丨

https://arxiv.org/abs/2112.13896

2 / 结构化数据

你的大脑通过感官信息流和不断移动来对这个世界进行建模。这些模型具有三维结构,所以你的大脑能理解猫的左视图和右视图,而不必单独去学习它们。这些模型基于我们所谓的“参照系”,它让学习变得结构化,使我们能够建立包含各种对象之间关系的模型。

我们可以纳入猫和大树、羽毛都有关联的概念,而不必去看数百万只猫与大树的实例。与深度学习相比,使用参照系构建模型所需的样本要少得多。只需猫的几个视图,模型就能通过变换数据来理解猫的其他视图,而无需专门针对这些视图进行训练。这种方法可以将训练集减小好几个数量级。

深入了解:通过参照系来结构化学习

参照系就像地图上的网格或坐标轴。你所知的每一个事实都与参照系中的某个位置一一配对,你的大脑则在参照系中不断移动来回忆储存在不同位置的事实。这使你能够在脑海中移动、旋转和改变事物。你可以在参照系里根据蓝色和现实中猫的样子来想象一只蓝色卡通猫长什么样,而不需要看一百张从各个角度拍的蓝色卡通猫图片。

参照系表示你的身体相对于环境的位置,以及事物之间相对的位置丨

https://www.youtube.com/watch?v=LaAYuygr7_8&ab_channel=Numenta

3 / 持续学习

你的大脑在学习新事物的同时不会忘却之前所学的东西。当你首次见到一种动物时(比方说土狼),你的大脑不需要重新学习一切关于哺乳动物的知识。大脑把一个针对土狼的参照系添加到记忆中,然后标注其与其他参照系(例如狗)的异同,并共享那些相通的子结构(例如尾巴和耳朵)。这种递增式的学习只需要很少的能量。

深入了解:用活跃树突(active dendrites)来进行多任务和持续学习

生物神经元有两种树突:远端(distal)和近端(proximal)。如今我们所见的人工神经元只模拟了近端的树突。我们已经证明,通过把远端树突合并到神经元模型,神经网络可以在不忘却旧知识的前提下学习新知识,从而避免重新学习的需要。

比较一个典型深度学习网络中的点神经元(左)、一个大脑皮层中的锥体神经元(pyramidal neuron)(中)、一个结合了锥体神经元特性的活跃树突(右)丨

https://www.frontiersin.org/articles/10.3389/fnbot.2022.846219/full

4 / 优化的硬件

如今的半导体架构都是为深度学习优化的,这其中,神经网络密集而不具备结构化学习的能力*。但我们如果想创造更可持续的人工智能,就需要让硬件也能包含上述三个属性:稀疏性、参照系和持续学习。我们已经创造了一些支持稀疏性的技术。这些技术将稀疏表示映射到密集的计算环境中,从而提高推断和训练性能。长远来看,我们不难想象这些基于大脑原则优化的架构将有潜力提供更多的性能提升。

*译者注

原文如此,不代表正确。

深入了解:互补稀疏性

在2021年,我们引入了互补稀疏性。这是一种利用稀疏权重和稀疏激活函数来提升性能的技术,从而实现更节能的硬件。我们最近用互补稀疏性在FPGA上运行推断任务,并在吞吐量和能源效率上取得了近百倍的进步。

用80%的互补稀疏度将五个稀疏矩阵(具有稀疏权重)打包成一个“密集”的矩阵,并且将其与稀疏激活函数结合起来进行处理丨

https://arxiv.org/abs/2112.13896

迈向更可持续的未来

继续构建更大型、计算量更密集的深度学习网络不是通向创造智能机器的可持续途径。Numenta(原作者)认同的是通过一种基于大脑的方法来构建高效且可持续的人工智能。我们必须开发更聪明的、而不是工作更勤快的人工智能。

更少的计算量、更少的训练样本、更少的训练次数与优化的硬件相结合,可以显着改善能源使用。如果我们的计算量减少十倍、训练样本减少十倍、训练次数减少十倍、硬件效率提高十倍,那么系统的整体效率将提高一万倍。

短期内,Numenta希望能大幅降低推断(inference)中的能耗。Numenta的中期目标是将这些技术应用到训练中,并随着训练次数的减少,预计可以节省更多的能源。从长远来看,随着硬件的逐渐增强,Numenta看到了将性能改进上千倍的潜力。

从大脑中提取抽象的原理然后应用到如今的深度学习架构中会把我们推向可持续的人工智能。如果读者想详细了解Numenta在创建节能的人工智能方面的工作,请查看原文以了解更多。

后记

lemon:最开始知道Numenta这家公司是因为读了Jeff Hawkins的On Intelligence,这本书描述了一种直截了当的接近“强人工智能”的方式——模拟人类的大脑皮层。Numenta的出发点是:既然智能可以从人类的大脑皮层中产生,那么模拟大脑皮层的算法也将获得智能。我深深地被这个想法吸引。模拟大脑皮层vs人工神经网络,到底谁更胜一筹呢?我十分期待答案揭晓的那天。

P:读原文时,我的第一感觉就是文章本身带有很强的主观色彩,尤其是在试图证明AI只是“用蛮力的统计技术”时,有相当多刻意且过时的观点。诚然,大模型的训练开销和碳排放巨大,比如原文提到的,GPT-3的训练碳排放相当于五辆小汽车的终身排放。但是,我们也必须承认从大模型中涌现出来的惊人能力。尽管这篇文章写于去年五月,当时当然还没有ChatGPT,但已经有不少研究发现了在大语言模型中涌现的多种能力,比如我们注释的推理和类比等等。不过,我个人也十分认同Bengio、Botvinick、LeCun等学者去年提出的NeuroAI的核心观点,即从硬件和软件层面向人脑的架构学习,进一步推进AI的发展。总而言之,我们希望读者了解当前已经取得的进展,以及在把AI的边界继续向前推进时所能获得的潜在收益。

Sixin:这是一家旨在将神经科学原理融入人工智能产品的公司。为了宣传自己,开头部分可能会出现一些稻草人谬误,夸大了深度学习的一些问题。正如译者与校审者在注释中所补充的,随着研究者们不懈努力,这些问题其实已经部分甚至全部得到了解决,读者可以按图索骥。不过,本文所提出的参考人脑“稀疏性、结构化、学习持续性”三种特点来降低人工智能产品能耗的想法还是很有启发性的,读者可以去粗取精。

本文经授权转载自微信公众号“神经现实”,编辑:Sixin、M.W.。

原文:

https://www.numenta.com/blog/2022/05/24/ai-is-harming-our-planet/

关键词:

上一篇:
下一篇:
精彩阅读

译心发布第一个日文大模型评测平台JaLE

热点

3月9日,北京译心公司发布了第一个日文大模型评测平台JaLE ai。

环球观察:人工智能环保吗?

热点

在过去十年,人工智能(特别是深度学习)取得了显著成效。

小红书发布百亿流量扶持计划

热点

近日,小红书正式推出了“时尚星火计划”,面向时尚行业的商家和主播提供百亿流量的扶持。

全球信息:女王节专题——VR/AR中的“她”力量

热点

长久以来,我们的流行文化会将成功的职业女性刻画成疲于工作没有个人生活的女强人形象。

【新要闻】微软推出Kosmos-1,比ChatGPT更强大?

热点

我并不确定你会不会忽然地出现在街角的咖啡店,但通用人工智能会出现在下一个街角,是确定的。

世界热消息:中国联通去年云收入翻倍增长 董事长首谈ChatGPT布局|直击业绩会

热点

2023年公司资本开支水平将达到769亿元,其中算网投资占比将超过19%、同比增长超过20%。

热消息:运营商发力异网漫游,手机信号差的问题彻底解决?

热点

同一个地方,不同运营商铺设的基站密度不一样,手机信号就会有明显的差别。

焦点|中关村物联网产业联盟与阿拉伯进出口商业联合会签署协议

热点

阿拉伯进出口商业联合会还将在国内16个省市建设“阿盟直采交易中心“,投资总额高达20亿美金。

【天天速看料】ChatGPT和生成式AI的11大安全趋势

热点

本文分享11个关于生成式人工智能在未来将如何影响网络安全的预测。

天天快资讯丨AIGC爆发,千亿美元赛道,斯坦福李飞飞团队最新报告!!!

热点

近日,李飞飞领导的斯坦福HAI研究院发布了关于「生成式AI」的观点报告。

财富

【天天快播报】一座豫东小县城的全球钻石生意

资讯

一座豫东小县城的全球钻石生意,在这个高大上的全球大生意中,一座远在河南豫东四线小城——柘城,正在帮助女性们实现钻石“克拉自由”。

物理界炸了!21℃实现室温超导,Nature凌晨刊发撤稿团队新研究,赌城现场被人群挤爆

资讯

物理界炸了!21℃实现室温超导,Nature凌晨刊发撤稿团队新研究,赌城现场被人群挤爆,有了这种材料,近常压超导和应用技术的黎明已经到来。

融资丨「瑞泰生物」完成近千亿元A+轮融资,松禾资本领投

资讯

融资丨「瑞泰生物」完成近千亿元A+轮融资,松禾资本领投,本轮融资由松禾资本领投,中大创投、知名产业资本跟投。

融资丨「欧利生物」宣布完成PreA+轮融资,清松资本、毅达资本共同投资

资讯

融资丨「欧利生物」宣布完成PreA+轮融资,清松资本、毅达资本共同投资,本次融资将主要用于百公斤级小核酸药物生产基地建设

当前讯息:Zoom市值蒸发上千亿美元,线上会议开始“退潮”了?

资讯

Zoom市值蒸发上千亿美元,线上会议开始“退潮”了?,近日,脉脉上“Zoom裁员15%,CEO自行减薪放弃奖金”的话题登上了热榜。

Prompt Engineering全面自动化:LeCun看了沉默,ChatGPT看了直呼内行

资讯

PromptEngineering全面自动化:LeCun看了沉默,ChatGPT看了直呼内行,不仅语言模型,包括几个月前很火的DALL·E,StableDiffusion等AI文本到图

融资丨「永仁心医疗」完成近一亿美元A轮融资,北京科兴中维生物领投

资讯

融资丨「永仁心医疗」完成近一亿美元A轮融资,北京科兴中维生物领投,此次融资也是近一年来全球创新医疗器械领域少有的超大额融资事件

苹果重置id密码要24小时?苹果id重置密码要13天怎么办?

资讯

1、有可能是因为苹果手机开启自动iCloud备份功能,您可以进入苹果手机的【设置】,点击第一项Apple ID选项,选择【iCloud】,找到备份后关

hp1010打印机驱动端口设置?hp1010打印机驱动无法安装?

资讯

HP1010的硒鼓型号是HP2612A,通用机型:HP1020、HP1005、HP1018、佳能LBP-2900、LBP-3000等1、在开始页面内点击控制面板。space2、点击查看

空调外机是怎么移机的?为什么空调不建议移机?

资讯

第一、前期准备:移机人员上门拆机并带齐全套工具及安全设备。第二、回收制冷剂:首先开机制冷,外机运行后收氟关闭小阀门,阀门结霜有化掉

环球观察:人工智能环保吗?

在过去十年,人工智能(特别是深度学习)取得了显著成效。

小红书发布百亿流量扶持计划

近日,小红书正式推出了“时尚星火计划”,面向时尚行业的商家和主播提供百亿流量的扶持。

全球信息:女王节专题——VR/AR中的“她”力量

长久以来,我们的流行文化会将成功的职业女性刻画成疲于工作没有个人生活的女强人形象。

【新要闻】微软推出Kosmos-1,比ChatGPT更强大?

我并不确定你会不会忽然地出现在街角的咖啡店,但通用人工智能会出现在下一个街角,是确定的。

世界热消息:中国联通去年云收入翻倍增长 董事长首谈ChatGPT布局|直击业绩会

2023年公司资本开支水平将达到769亿元,其中算网投资占比将超过19%、同比增长超过20%。

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个