快播:AI做题家卷疯了!高数考试正确率81%,竞赛题成绩超过计算机博士

2022-07-02 05:48:18   来源:商业新知网

梦晨 丰色 发自 凹非寺 量子位 | 公众号 QbitAI

高数考不好,不知道是多少人的噩梦。


(相关资料图)

如果说你高数考得还不如AI好,是不是就更难以接受了?

没错,来自OpenAI的Codex已经在MIT的7门高数课程题目中正确率达到 81.1% ,妥妥的 MIT本科生水平 。

课程范围从初级微积分到微分方程、概率论、线性代数都有,题目形式除了计算、甚至还有画图。

这件事最近还登上了微博热搜。

△ “仅”得81分,对AI的期待也太高了吧

现在,谷歌那边又传来了最新大消息:

不止数学,我们的AI甚至在 整个理工科 上,都已经拿到最高分啦!

看来在培养“AI做题家”这件事上,科技巨头们已经卷出了新高度。

谷歌这个最新AI做题家,参加了四门考试。

数学竞赛考试MATH ,以往只有三届IMO金牌得主才拿过90分,普通的计算机博士甚至只能拿到40分左右。

至于别的AI做题家们,以前最好成绩只有6.9分……

但这一次,谷歌新AI却刷到了50分, 比计算机博士还高 。

综合考试MMLU-STEM ,内含数理化生、电子工程和计算机科学,题目难度达到高中甚至大学水平。

这一次,谷歌AI“满血版”,也都拿到了做题家中的最高分,直接将分数拉高了 20分 左右。

小学数学题 GSM8k,直接将成绩拉升到78分,相比之下GPT-3还没及格(仅55分)。

就连 MIT本科和研究生 学的固体化学、天文学、微分方程和狭义相对论等课程,谷歌新AI也能在200多道题中,答出将近 三分之一 。

最重要的是,与OpenAI凭借“编程技巧”取得数学高分的方法不同,谷歌AI这一次,走的可是“像人一样思考”的路子——

它像一个文科生一样只背书不做题,却掌握了更好的理工科解题技巧。

值得一提的是,论文一作Lewkowycz还分享了一个论文中没写到的亮点:

我们的模型参加了今年的波兰数学高考, 成绩比全国平均分还要高 。

看到这里,有的家长已经坐不住了。

如果告诉我女儿这件事,我怕她用AI做作业。但如果不告诉她,就没有让她对未来做好准备!

在业内人士看来,只靠语言模型,不对算数、逻辑和代数做硬编码达到这种水平,是这项研究最惊艳的地方。

那么,这是怎么做到的?

AI狂读arXiv上200万篇论文

新模型Minerva,基于Pathway架构下的通用语言模型PaLM改造而来。

分别在80亿、600亿和5400亿参数PaLM模型的基础上做进一步训练。

Minerva做题与Codex的思路完全不同。

Codex的方法是把每道数学题改写成编程题,再 靠写代码 来解决。

而Minerva则是狂读论文,硬生生 按理解自然语言的方式去理解数学符号 。

在PaLM的基础上继续训练,新增的数据集有三部分:

主要有arXiv上收集的200万篇学术论文,60GB带LaTeX公式的网页,以及一小部分在PaLM训练阶段就用到过的文本。

通常的NLP数据清洗过程会把符号都删掉只保留纯文字,导致公式不完整,比如爱因斯坦著名的质能方程只剩下了Emc2。

但谷歌这次把公式都保留,和纯文本一样走一遍Transformer的训练程序,让AI像理解语言一样去理解符号。

与之前的语言模型相比,这是Minerva在数理问题上表现更好的原因之一。

但与专门做数学题的AI相比,Minerva的训练中没有显式的底层数学结构,这带来一个缺点和一个优点。

缺点 ,是可能出现AI用错误的步骤得到正确答案的情况。

优点 ,是可以适应不同学科,即使有些问题无法用正规的数学语言表达出来,也可以结合自然语言理解能力解出来。

到了AI的推理阶段,Minerva还结合了多个最近谷歌开发的新技术。

先是 Chain of Thought 思维链路提示,今年一月由谷歌大脑团队提出。

具体来说就是在提问的同时给一个分步骤回答的示例来引导。AI在做题时就可以采用类似的思考过程,正确回答本来会答错的题目。

再有是谷歌和 MIT合作开发的 Scrathpad 草稿纸方法 ,让AI把分步计算的中间结果临时存储起来。

最后还有 Majority Voting 多数表决方法,也是今年3月才发表的。

让AI多次回答同一个题目,选择答案中出现频率最高的。

所有这些技巧全用上以后,5400亿参数的Minerva在各种测试集中达到SOTA。

甚至 80亿参数 版的Minerva,在竞赛级数学题和MIT公开课问题中,也能达到GPT-3最新更新的davinci-002版本水平。

说了这么多,Minerva具体都能做出哪些题目?

对此谷歌也开放出了样例集,一起来看一下。

数理化生全能,连机器学习都会

数学 上,Minerva可以像人类一样按步骤计算数值,而不是直接暴力求解。

对于应用题,可以自己列出方程式并做简化。

甚至还可以推导证明。

物理 上,Minerva可以求中性氮基态(Z = 7)电子的总自旋量子数这样的大学水平题目。

生物和化学 上,Minerva凭借语言理解能力也可以做各种选择题。

以下哪种点突变形式对DNA序列形成的蛋白质没有负面影响?

以下哪种是放射性元素?

以及 天文学 :为什么地球拥有很强的磁场?

在 机器学习 方面,它通过解释“分布外样本检测”的具体含义,从而正确了给出这个名词的另一种说法。

……

不过,Minerva有时也会犯一些低级错误,比如把等式两边的√给消了。

除此之外,Minerva会出现的推理过程错误但结果对的“假阳性”情况,比如下面这种,有8%的可能性。

经过分析之后,团队发现主要的错误形式来自 计算错误 和 推理错误 ,只有小部分来自题意理解错误和在步骤中使用了错误的事实等其他情况。

其中计算错误可以轻易通过访问外部计算器或Python解释器解决,但其他种类的错误因为神经网络规模太大就不太好调整了。

总的来看,Minerva的表现让很多人感到惊艳,纷纷在评论区求API(可惜谷歌目前并没有公开计划)。

有的网友想到,加上前几日 让GPT-3解题正确率暴涨61%的“哄一哄”大法 , 它的准确率或许还可以再提高?

不过作者的回应是,哄一哄方法属于零样本学习,再强恐怕也比不上带4个例子的少样本学习。

还有网友提出,既然它可以做题,那么能不能反过来出题?

事实上用AI给大学生出题这件事,MIT已经联合OpenAI在做了。

他们把人类出的题和AI出的题混在一起,找学生来做问卷调查,大家也很难分清一道题是不是AI出的。

总之现在的情况,除了搞AI的在忙着读这篇论文以外。

学生们盼着有一天能用AI做作业。

老师们也盼着有一天能用AI出卷子。

论文地址:

https://storage.googleapis.com/minerva-paper/minerva_paper.pdf

Demo地址:

https://minerva-demo.github.io/

相关论文:

Chain of Thought https://arxiv.org/abs/2201.11903 Scrathpads https://arxiv.org/abs/2112.00114 Majority Voting https://arxiv.org/abs/2203.11171

参考链接:

https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html https://twitter.com/bneyshabur/status/1542563148334596098 https://twitter.com/alewkowycz/status/1542559176483823622

— 完 —

关键词: 语言模型 机器学习

上一篇:
下一篇:
精彩阅读

快播:AI做题家卷疯了!高数考试正确率81%,竞赛题成绩超过计算机博士

热点

如果说你高数考得还不如AI好,是不是就更难以接受了?

天天时讯:公众号信息流再改版,我们发现了微信的秘密

热点

订阅号改版,群聊功能上新,视频号迎来新变化 微信这几波更新,爆炸吗?

世界热讯:突然崩盘!巨头商汤暴跌超2000亿,一场资本泡沫破灭

热点

商汤作为人工智能行业的龙头,一场暴跌之下,更是引发了市场对于人工智能行业泡沫的担忧。

全球今热点:阿里打出「瓴羊DaaS」这手好牌

热点

6月29日,阿里巴巴旗下沉淀数年的DaaS服务商瓴羊企业数智服务正式揭开神秘面纱。

环球看热讯:打破140字限制,微博在下什么棋?

热点

打破信息茧房之下人们对于深度知识的偏见甚至厌烦,让人们可以真正从知识中获取力量,才是新知品牌的核心成功点。

世界焦点!字节跳动的“棋子”和“弃子”

热点

这几年来,字节跳动近些年来做了不少业务扩张,也“倒”了不少业务,每当出现一次业务上的尝试或改动,都会在网络上有一番讨论。

天天速讯:腾讯在云游戏领域放了个大招?

热点

每次谈到云游戏,不少从业者都觉得它和VR和AR差不多:听上去是很厉害,但和当下的行业没什么关系。

全球速看:国内数字藏品行业再推自律发展倡议 蚂蚁、腾讯、百度、京东等联合发起

热点

在探索数字藏品助力实体消费方面,鲸探等平台已有试水。

财富

全球热资讯!老年旺旺凭啥恢复增长?

资讯

老年旺旺凭啥恢复增长?,始终未能摆脱中年隐忧

当前报道:返乡置业的年轻人,赚了还是亏了?

资讯

返乡置业的年轻人,赚了还是亏了?,到底值不值?

当前讯息:”秃“如其来的“头顶经济”,大麦植发赴港上市信心满满?

资讯

”秃“如其来的“头顶经济”,大麦植发赴港上市信心满满?,“头顶经济”兴盛起来。

新消息丨我选的热门专业,四年后成了“天坑”

资讯

我选的热门专业,四年后成了“天坑”,一心押注热门专业,就像一场赌博。

天天即时:马云、马化腾、王兴、雷军……他们的高考志愿怎么填的?

资讯

马云、马化腾、王兴、雷军……他们的高考志愿怎么填的?,如今叱咤商界的大佬们,年少时是怎么填志愿的。

环球热点!融资丨「恩凯赛药」获逾亿元A轮融资,华盖资本领投

资讯

融资丨「恩凯赛药」获逾亿元A轮融资,华盖资本领投,本轮募集的资金将用于一系列不同阶段NK细胞药物产品管线的研究和开发。

环球热讯:跨界艺术,将普洱茶玩出新花样,ONCHA如何占领90后工位?

资讯

跨界艺术,将普洱茶玩出新花样,ONCHA如何占领90后工位?,“首先要分清,用户是想喝一杯带茶味道的水,还是想喝一杯专业的好茶。”

天天观天下!一千元的虚拟主播,小企业的直播希望?

资讯

一千元的虚拟主播,小企业的直播希望?,千元版本的虚拟主播靠谱吗?

热推荐:我花上万学带货:3天赚3元,成交靠刷单

资讯

我花上万学带货:3天赚3元,成交靠刷单,数据、订单、承诺,都是假的。

速看:天价索赔、恶意抢注,出海“版权坑”有多深?

资讯

天价索赔、恶意抢注,出海“版权坑”有多深?,上亿美金的学费,你交得起吗?

天天时讯:公众号信息流再改版,我们发现了微信的秘密

订阅号改版,群聊功能上新,视频号迎来新变化 微信这几波更新,爆炸吗?

世界热讯:突然崩盘!巨头商汤暴跌超2000亿,一场资本泡沫破灭

商汤作为人工智能行业的龙头,一场暴跌之下,更是引发了市场对于人工智能行业泡沫的担忧。

全球今热点:阿里打出「瓴羊DaaS」这手好牌

6月29日,阿里巴巴旗下沉淀数年的DaaS服务商瓴羊企业数智服务正式揭开神秘面纱。

全球热头条丨飞书是一款好产品吗?2分钟说清楚

飞书是一款好产品吗?为什么?

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个

吉利几何EX3功夫牛高居榜首,4月投诉量230起

近日,车质网发布了2022年4月车型投诉排行八卦(前30名),其中有不少产品的出现属实让人没想到。具体来看,吉利几何EX3功夫牛高居榜首,4月

“说好了未达到目标全额退款,结果都是骗人的!”

春天不减肥,夏天徒伤悲。一波减肥大军抱着坚定的信念踏上征途,发现身边各式各样的高端减肥训练营正打着健康减肥封闭管理保质保量包吃包住