参数跑分真那么重要?大模型评价标准该变变了

2022-04-19 09:48:11   来源:商业新知网

预训练大模型,自诞生以来不断刷新AI能力,成为业界竞争的焦点。

参数规模突破千亿直奔万亿,开发难度和成本也随之增大。

到了这个份上,大模型的开发与应用似乎成了 “巨头专属” ,效果越来越惊艳,离普通人却越来越远了。

不过,例外正在发生。

最近一场AI创意赛上,全国各地近2000人参与,大家脑洞大开,使用大模型能力开发出各类趣味应用。

如B站UP主同济同济子豪兄的这款论文起名神器,输入摘要就可自动生成论文标题。

开发出这些作品的人其实很多并非AI从业者,甚至没有计算机专业背景,比如 文科生 ,还有创业公司 产品经理 等。

这些作品本身倒不是本文的重点,只是,使用大模型什么时候门槛这么低了?

这场由百度举办的比赛,提供的是文心知识增强大模型做技术支持,此外还有一个特别的标签——

业界首次大模型能力向公众开放 。

要知道,大模型能力像要向公众开放,不能光是发发论文、开源一下代码了事。

背后还要额外付出努力,提供一系列低门槛的开发平台和工具、相应的培训和教学,才能让没有AI基础、甚至不会编程的人都能“玩转大模型”。

为什么要做到这一步?

百度集团副总裁 吴甜 这样回答:

这个世界上有技术背景的人还是少数,AI想要落地不能仅靠技术人员,创意在民间。

只有技术门槛低到了所有人都可以的时候,创意才会真正大规模爆发起来,这是人工智能落地路上必然的趋势。

大模型落地难在哪?

想要理解这个趋势,得先跳出比赛本身,看看AI落地、特别是大模型落地到底遇到了什么困难。

最近,微软认知服务团队发表的一篇 大模型遭遇“不可能三角” 论文,引发业内关注。

论文提出,目前的预训练语言模型对于 模型规模、精调能力、小样本能力 三者不可兼得。

目前业内的普遍做法,是 试图得其二的同时努力往第三点靠 。

放弃控制规模开发超大模型,可以再用 知识蒸馏 等手段做小型化。

不追求少样本能力,可以在缺少数据的任务上做 数据增强 。

不追求精调能力,改用 提示学习 (Prompt learning) 做少样本任务的方法最近也火了起来。

不过妥协的办法总归是有这样那样的问题,从效果或成本上阻碍大模型进一步应用落地。

如何突破这个“不可能三角”,各家都有着自己的答案。

微软 论文中给出一种可能路径,先从个别任务上打开突破口,如命名实体识别或文本摘要,实现单一任务占据全部三项优势后再图横向拓展。

谷歌 近日推出的下一代AI架构Pathway,则是从 提升训练效率角度 尝试解决。也就是不怕模型大,转而追求把炼大模型的难度降低。

百度 的技术路线则是 知识增强 ,让AI在大规模知识的指导下以更高效率学习到海量数据中蕴含的规律。

百度靠引入大规模知识图谱,只用百亿级参数规模就在语言模型权威测评SuperGlue上登顶全球榜首,超越人类水平0.8个百分点。

后来发布的全球首个千亿级知识增强大模型 鹏城-百度·文心 ,更是在机器阅读理解、文本分类、语义相似度计算等60多项任务中都取得了最好效果,在30多项小样本和零样本任务上,也刷新了基准。

……

关于模型本身的事先说到这里,现阶段要想真正解决大模型落地问题,百度还提出一个观点:

光靠技术手段是远远不够的。

跳出技术之外

文心大模型家族自2019起开始打造,百度对其定位是 产业级知识增强大模型 。

知识增强前面已经介绍,那么该如何理解 “产业级” 这个定位?

吴甜解释其含义为“来源于产业实践,同时服务于产业实践,在实践当中建设起来”。

一方面 ,百度研发大模型的初衷就来自产业的落地实践。

AI落地场景越多,模型面临泛化性差的问题就越突出。每面临一个新的场景就需要收集新的数据,进行新的模型训练。

预训练模型的出现,通过集中提供通用算法、打造技术底座,大幅降低了人工智能的应用门槛,从开发阶段就应该是面向产业的。

开发设计阶段用到的数据要来源于产业。百度走的知识增强路线,意味着深入到金融、医疗等特定行业时,除了收集该行业的非结构化数据,还要积累专业知识。

做不同的任务设计,模型最后学到的是不一样的。百度会结合大量的产业应用,借助任务构建器不断地提炼任务、挖掘任务,让模型持续进行学习。

另一方面 ,文心又依托于百度功能完备的产业化大生产平台输出到百行千业,为行业使用大模型带来更大的便捷。

文心大模型开放了配套大模型开发、轻量化和部署的工具,推进产业落地应用,激发创意。

依托 百度飞桨平台 自主研发的端到端自适应分布式训练框架与4D混合并行技术,以及 百舸AI异构计算平台 ,解决了大模型训练过程中多个世界性难题,使大模型训练速度提升、模型效果更优。

在落地应用上,文心若仅提供API调用只能满足离技术较近行业的少量需求。

因此,百度还会提供配套的数据标注、模型轻量化、边缘部署等一系列工具和平台。

如此开发出的产业级知识增强大模型,核心价值在于驱动AI的规模化应用。

人工智能在 与 众多这些产业结合时,场景非常分散、长尾。

针对高频次、容易流程化和标准化的场景,可以直接提供开发好的AI能力,如保险行业的合同处理,可以靠智能文档分析能力完成。

但还有很多如制造业、教育等行业中更碎片化的场景,数字化基础薄弱,行业知识更依靠人类专家经验、师徒间口口相传。

这就回到了文章开头的问题,为什么要把AI大模型能力做到 向公众开放 ?

数量众多的场景,要是靠AI工程师去一个一个去深入调研、做适配,无法解决所有的问题。

只有让有需求的人都能认识、接触、亲手用上大模型,才能激发创意,取得应用落地上的更大突破。

为此,百度飞桨提供了 零门槛AI开发平台EasyDL ,拥有从数据采集、标注、清洗到模型训练、部署的一站式AI开发能力,无需编程和算法基础就能使用。

对更复杂的需求,也有 BML全功能AI开发平台 ,提供开发环境、功能组件和高性价比的算力资源。

通过不断降低门槛,构建大模型生态,文心大模型对外调用量超5000万次,服务了6万+开发者、企业、科研机构。

为了让更多人看到大模型、了解大模型、用上大模型,百度举办了 面向公众的AI创意赛 。

此外还有 面向产业的首席AI架构师培养计划 ,已向业界输送247位AI架构师,遍布工业、农业、金融、交通、能源等数十个行业。

人工智能高校师资培训 ,免费培训AI专业教师3000余人,助力700多个高校开设深度学习课程,培养了数万名在校生。

去年底,还宣布成立 百度松果学堂 ,打造源于产业的AI人才培养平台,致力于让每个人都能更便捷地获取AI知识,学习AI技术。

所有积累的行业知识、产业应用、人才都将汇聚在文心大模型生态,以及背后更大的百度飞桨深度学习生态中进一步推动AI落地,形成正向循环。

到底什么才是一个好的大模型?

当今,各大研究机构、科技公司都争相打造自己的大模型。

参数规模上千亿、训练数据也上千GB。单体稠密模型之外,也有稀疏模型路线,参数更是突破万亿。

各大基准测试榜单也不断被刷新,超越人类平均水平已是过去式,追上人类最佳水平成了新的目标。

层出不穷的进展让人眼花缭乱,到底该如何评价一个大模型的优劣?

若是单纯比参数大小,缺失了成本和效率的维度。若只看跑分高低,也看不出真正落地时的效果。

如此看下来,一个大模型好坏的新标准也呼之欲出:

能否在性能领先的同时支撑大量产业应用。

从这个角度看,开发者数量超过6万、在数百个场景中落地应用的文心大模型,真正可称作“产业级”大模型。

而且百度打造大模型,从技术和难度上来说,并无意外之处。

但最值得关注的还是入场的初心和立场。

据称文心大模型问世,核心是来自于产业实际的需求,并非闭门造车的结果。

一方面,产业有需求,于是百度有了响应,并且很快实现了技术工程化,再通过飞桨快速实现了产业应用。

另一方面,产业的反馈证明了大模型的价值。在文心落地中,不仅各类大小企业实现了产业化升级,而且侧面证明了大模型在商业化落地上的可能性和可行性之路。

在AI模型中,输入、输出以及反馈是缺一不可的关键要素,而文心大模型的实践,同样完成了这样的闭环。

但这种路径在大模型上是否可复制?

答案或许还不能言之凿凿。

首先要考虑的是 技术能力 ,其次还得有 产业生态 ,最后还能真正从开发者的反馈中获得认可。

文心之路,多少有点百度飞桨的“凡尔赛”意味,其所具备的要素,并非其他玩家兼具。

但至少,一条大模型的商业化落地路径,现在已经清晰可见。

文心模式,就是这条路线。

关键词: 人工智能

上一篇:
下一篇:
精彩阅读

参数跑分真那么重要?大模型评价标准该变变了

热点

预训练大模型,自诞生以来不断刷新AI能力,成为业界竞争的焦点。

中国广电5G USIM卡开标!前3家企业现网测试

热点

近日,中国广电5G标准普通USIM卡采购项目如期完成开标。

中国广电可支持携号转网!?证据来了!

热点

近日,中国广电携号转网的消息不断涌入大众视线。

视觉 Transformer 研究的关键问题: 现状及展望

热点

视觉Transformer研究的关键问题:现状及展望。

短视频 马云和他的互联网宣传之道

热点

马云却没等到文章见报,因为,第二天上面就有文件下来,要求暂时不要宣传互联网。

5G变现,没那么容易

热点

从三大电信运营商的财报数据中可发现,5G在行业应用领域仍未发挥出期待中的效应。

这家公司数据被黑客盗了,想出钱自己买回来,结果黑客收了钱继续卖数据

热点

T-Mobile证实,黑客提出以6比特币的价格出售其3000万用户的个人数据,当时价值约27万美元。

微信农场开业!这个几个玩法让你成为最靓的仔,快玩起来

热点

自从微信推出状态功能后,各种状态玩法层出不穷,但不管怎么玩,也没能想到微信官方宣布的微信农场这个玩法。

网传2000万张广电5G电话卡资费曝光?这是真的假的?

热点

近日,中国广电官方平台发布一则重要公告,事关“公众市场销售广电5G电话卡”及”广电5G业务资费套餐。

反向拱火?假扮电信员工盗窃移动4000米网线

热点

据N视频报道,近日,中山市石岐街道水云轩小区宽带网线遭到人为破坏和盗窃。

财富

美光宣布量产全新16Gb内存搭载3090显卡

资讯

4月18日消息,美光宣布量产全新的16Gb容量GDDR6X内存,并已搭载于NVIDIAGeForceRTX3090Ti显卡。据介绍,新款GDDR6X内存为美光独有产品,容

魏哲家:台积电2nm工艺芯片将在2025年投产

资讯

台积电在4月14日第一季度的电话会议上表示,正全力以赴地开发下一代芯片制造工艺。目前这个半导体巨头计划在下半年量产3nm工艺芯片。其2nm

微软更改Windows11版本默认浏览器比任何时候都更容易

资讯

在最新的Windows 11版本中,更改系统的默认浏览器比以往任何时候都更容易。2021年6月,微软随Windows 11推出了一项有争议的变更,强迫用

罗永浩:因为要烧投资人的钱,所以没这勇气了

资讯

4 月 16 日晚间,针对粉丝是否可以再做一款手机的提问,锤子手机创始人罗永浩回应称:因为要烧投资人的钱,所以没这勇气了,要不然你投

阿里云发布全球首个5nmARM架构服务器芯片,最高128核

资讯

在自研ARM处理器上,不只是苹果的M1系列取得了突破,中国厂商在这方面同样也有骄人的成绩,阿里云去年推出了倚天710处理器,这是全球首个5n

铭普光磁预计2021年净利亏损4500万元至6000万

资讯

铭普光磁昨日晚间发布业绩预告,预计2021年归属于上市公司股东的净利润亏损4500万元~6000万元,由盈转亏。基本每股收益亏损0 2143元~0 2857

研究显示:iOS系统中新的应用跟踪透明度会伤害广告市场

资讯

随 iOS 14 5 系统发布的 App Tracking Transparency 已上线将近 1 年时间了,这项功能可以让用户选择是否要被第三方应用跟踪。虽

打造新潮牌IP“小橙店”尚品宅配能否撬动家居时尚经济?

资讯

2022年4月15日,北京商报记者获悉,近日尚品宅配在线上发布轻时尚潮牌家居店小橙店,定位年轻化消费群体。打造新潮牌IP小橙店,尚品宅配能

主流空调品牌推出双向流新风空调,这是为什么呢?

资讯

在疫情背景下,人们对健康诉求日趋强烈,具备新风换气能力的空调产品由此也受到消费者越来越多的关注。从市场来看,空调整体市场持续下行,

深圳新设保险公司法人机构一次性奖励最高5000万

资讯

来深圳新设保险公司法人机构,一次性奖励最高5000万!近日,深圳市更新了支持金融企业发展的措施,该政策一经公布,便刷屏保险业朋友圈。而

中国广电5G USIM卡开标!前3家企业现网测试

近日,中国广电5G标准普通USIM卡采购项目如期完成开标。

中国广电可支持携号转网!?证据来了!

近日,中国广电携号转网的消息不断涌入大众视线。

视觉 Transformer 研究的关键问题: 现状及展望

视觉Transformer研究的关键问题:现状及展望。

短视频 马云和他的互联网宣传之道

马云却没等到文章见报,因为,第二天上面就有文件下来,要求暂时不要宣传互联网。

5G变现,没那么容易

从三大电信运营商的财报数据中可发现,5G在行业应用领域仍未发挥出期待中的效应。

Eurocom推出15.6英寸笔记本电脑工作站

Eurocom 正推出 15 6 英寸的 Raptor X15 Mobile Supercomputer,该工作站采用 LGA1700 插槽的英特尔第 12 代桌面处理器。通过最

帅丰电器发布2021年年报,净利润同比增长26.95%

4月13日,帅丰电器(605336)发布2021年度报告,报告期内公司实现营业收入977,641,254 43元,同比增长36 93%;归属于上市公司股东的净利润246,

Stellantis集团与标致雪铁龙荷兰财务公司达成转让协议

4月13日,Stellantis集团宣布,神龙汽车有限公司(以下简称神龙公司)和Stellantis集团旗下Banque PSA Finance的全资子公司标致雪铁龙荷兰

时隔263天获批版号,中概股逆势上涨

这是自2021年7月22日以来,国家新闻出版署首次下发的游戏版号,总共时隔263天。在此次获批版号的游戏中,重点游戏包括百度的《进击的兔子》

中保研汽车技术研究试验中心发布7款车型测评结果

在中国保险行业协会的指导下,在中保研汽车技术研究院有限公司和通用技术中国汽车工程研究院股份有限公司的支持下,中保研汽车技术研究试验

机器人时代,座舱的人机交互将走向何方?

智能汽车是机器人的第一形态,对应的智能座舱也引领了机器人时代人机交互发展的新方向。历史上,每一次交互方式的改变,都重塑了智能设备的