全球头条:超越99%的人类,GPT-4多模态模型有哪些技术上的突破?

2023-03-16 10:22:43   来源:商业新知网

全文重点摘要

简短版:GPT-4是一个多模态的模型,可以接受文字和图片输入,并且输出文字。现在只开放了文字输入的功能,图片输入功能还在加紧开发中。

OpenAI发布了GPT-4,这是一个大型多模态模型,能够接受图像和文本输入,并输出文本。

虽然在某些情况下它不如人类,但在各种专业和学术考试中表现出了与人类水平相当的性能(human-level performance)。


(资料图片)

GPT-4的训练稳定性是史无前例的(unprecedentedly stable),这得益于对抗性测试计划(dversarial testing program)和来自于ChatGPT的经验教训。

在过去的两年里,OpenAI重建了整个深度学习堆栈,并与Azure共同设计了一台超级计算机以便于应付他们的工作负载。

OpenAI首先发布了GPT-4的文本输入功能,图像输入功能敬请期待 。

OpenAI还开源了OpenAI Evals,这是他们的自动化评估AI模型性能的框架,任何人都可以提交他们模型的缺陷以帮助改进。

如何使用GPT-4?

第一,也是最快的,那就是买个ChatGPT Plus,20美元一个月,可以有限度的使用,4个小时内不超过100条信息。

第二,点击加入waitlist,这个是用来获取API的访问权

GPT-4 API waitlist openai.com/waitlist/gpt-4-api

第三,参与Evals,提供高质量贡献的会给予GPT-4的访问权。

https://github.com/openai/evals github.com/openai/evals

Logo的变化

图片的变化,前者是GPT-4,后者是ChatGPT的模型GPT-3.5可以看到,后者更整齐,更格式化;但新出的GPT-4给人的感觉反而显得杂乱。

其实背后的原因我觉得是GPT-4是个多模态()的模型,不同于GPT-3.5只能接受文字作为输入,GPT-4还可以接受一张图片作为输入,比如一份高考数学卷子,然后你可以根据这份卷子问一些问题,这就一定程度上解决了图片的变化。

性能的变化

简短版:比GPT-3.5,GPT-4更加可靠、有创造力,并能够处理更加微妙的指令。

详细版:跟GPT-3.5,也就是chatgpt在随意的交谈中,他们的区别可能不是很大。但是一旦任务的复杂性达到足够高的时候,差异就会显示出来。

为了了解这两种模型之间的区别,OpenAI在各种基准测试中进行了测试,比如这两种Olympiads and AP free response questions。并且值得注意的是,他们并没有针对性的拿着两种考试进行训练,意思是他们这个模型并没有针对特定的问题进行微调。

可以可以看到,GPT-4(绿色)大体上要比GPT3.5好,并且展现出类似于人类的水平。其中值得注意的是,GPT-4在这项律师考试(Uniform Bar Examination)中获得了前10%的高分。

下面是具体的得分,在很多项都是很靠前的得分。

在benchmark基准数据集上的表现优异

GPT-4在下面的这几个经常用来比较模型性能的数据集上做了测试,展现出了很高的性能,比如第一个MMLU数据集,GPT-4达到了86.4%的准确度,而SOTA也就是最高性能的才75.2%。OpenAI提到了,这些模型都是针对于特定任务经过精心调整的,然而,GPT-4可以说是爆杀了。

在其中语言上的比较

大多数的测试数据都是英文,为了测试GPT-4在其他语言上的性能,他们用Azure的翻译功能,将MMLU这个数据集翻译成了26种语言。在其中的24种语言上,GPT-4比GPT-3.5和其他的大语言模型,这里他们比较了Chinchilla, PaLM。

其中随机猜测的准确率是25%,符合多选题的概率。

Chinchilla- 67%,PaLM-69.3%和GPT-3.5 – 70.1%,

从图中可以看到,最差的两个是Marathi和Telugu,经过查证,这是俩印度的官方语言,大概率是使用人数虽然多,但是在互联网上以文字存在的分量并不多。

可以看到中文的性能也很好,只比英文差一点。

视觉输入性能

简短版:还在研究阶段,不公开。

详细版:GPT-4可以接受文本和图像输入,并且这两个是可以掺杂着用,它允许你用跟之前文本一样的使用方式。

一共有7个例子,总结起来,它可以识别搞笑图片,可以做复杂的物理化学之类的题目,可以做看图题,可以读论文,可以识别meme图片,总之,非常的强,可惜还不能开放使用。

第一个图

可以看到,它非常准确的认出了每幅图,并能理解为什么这幅图的搞笑之处。

第二幅图

这是一个对于普通人非常简单的看图题,但是对于之前的机器学习,这是很难做到的,GPT-4不仅可以读懂问题,还能非常完整的回答对。

第三幅图

这已经是一道有点儿复杂的像是物理的问题了,回答的准确无误。

第四幅图:

还是找异常点,准确。

第五幅图

读论文并总结,好像ChatPDF要完蛋了。

https:// github.com/openai/evals 我也是想了几秒钟后才察觉这是一个由鸡块构成的地球,GPT-4的回答非常精准。

第七幅图

解释了统计机器学习和深度学习的异同点,前者取消降低过拟合,后者需要增大网络层数,其实是一个比较专业性的搞笑图片。

但是结论是完全没问题的。

视觉数据集上的表现

还是没有经过微调,部分超过SOTA,部分跟SOTA持平,总之,很强。

操纵性(Steerability)

可以更好的规定你想要的回答风格,比如说你想要一位苏格拉底式的导师。特点是从不直接给学生答案,但会用启发式的形式教导学生,让学生学会独立思考。

莎士比亚风格的海盗(英译中很差,不如直接上英文)

让GPT-4保持Json的回答形式

局限性

跟之前的ChatGPT一样,它还是有可能会输出不可靠的内容,但是经过几个月的调整,性能提升很大。

比如在对抗性的问题TruthfulQA上,GPT-4性能提升具有统计意义的显著性。

至于数据问题的时间问题,还是一样,2021年之后的数据就不知道了,并且还是会随机的生成一些错误的内容,但是经过校准之后,这样的错误大大的减少了。

风险和应对措施

OpenAI一直在对GPT-4进行迭代,以使其更加安全。

GPT-4与以前的模型一样具有风险,但由于其额外的能力,从而会导致新的风险。

邀请了50多名专家对模型进行对抗测试,以提高模型的安全性能。

GPT-4在RLHF训练过程中加入了额外的安全奖励信号,以减少有害输出。

为了防止模型拒绝有效请求,收集了多样化的数据集,并在允许和不允许的类别上应用安全奖励信号。

缓解措施显著提高了GPT-4的安全性能,例如将模型对于不允许内容请求的响应率降低了82%。

分别对于两个问题的回应

可以预测的扩展

OpenAI的GPT-4项目致力于构建一个可预测扩展的深度学习堆栈,以便在非常大的训练运行中不需要进行广泛的模型特定调整。他们开发了基础设施和优化,使得在多个规模上具有可预测的行为。现在,OpenAI能够准确预测训练期间他们优化的度量(损失),并开始开发预测更可解释的度量的方法。

他们认为,准确预测未来的机器学习能力是安全的一个重要部分,但是相对于其潜在影响,它并没有得到足够的关注。

API的介绍以及获取

通过注册waitlist,开发人员可以获得访问 GPT-4 API 的权限

AI研究员可以通过Researcher Access Program申请补贴访问

可以向 GPT-4 模型发出纯文本请求(图像输入仍处于有限的 alpha 阶段)

价格为每 1k 个提示tokens 0.03 美元和每 1k 个完成tokens 0.06 美元

默认速率限制为每分钟 40k 个tokens和每分钟 200 个tokens

GPT-4 的上下文长度为 8,192 个tokens

有限访问 GPT-4-32k(32,768-上下文版本)的价格为每 1k 提示令牌 0.06 美元和每 1k 完成令牌 0.12 美元

处理对 8K 和 32K 引擎的请求的速率可能会不同,因此可能会在不同时间获得对它们的访问权限

关键词:

上一篇:
下一篇:
精彩阅读

全球头条:超越99%的人类,GPT-4多模态模型有哪些技术上的突破?

热点

OpenAI发布了GPT-4,这是一个大型多模态模型,能够接受图像和文本输入,并输出文本。

环球速看:知乎、小红书和keep,网络经济“三小强”谁会先走出“商业化泥潭”?

热点

作为移动互联网的三小强,知乎、小红书和keep的赚钱能力,也就是商业化进程始终都是业界关注的焦点。

视点!千兆光网或成运营商新赛点 价格战竞争是否会再现江湖

热点

在各种智能终端及互联网应用普及之后,大众对网速的要求也变得越来越高。

天天消息!工信部金壮龙:加快5G、工业互联网等新型信息基础设施建设和应用,壮大数字经济核心产业

热点

要加快5G、工业互联网等新型信息基础设施建设和应用,壮大数字经济核心产业,推动集成电路、工业软件产业高质量发展。

全球播报:GPT-4来了,它趴在谷歌和脸书们耳边说:毁灭你,与你何干

热点

随着GPT-4的发布,不但这点得到进一步佐证,OpenAI还顺带将科技圈的狂欢频率拉短到只有区区4个月的间隔。

震撼!GPT-4发布,打工人都要失业了吗?

热点

OpenAI工程师自豪地宣称,GPT-4将是“世界第一款高体验、强能力的现金AI系统”。

天天最资讯丨ChatGPT之后 标贝科技关于如何为预训练大语言模型提供终身学习语料的探索

热点

近日,在火爆全球的AI聊天机器人ChatGPT上线四个月后,OpenAI又发布了ChatGPT-4。

世界热资讯!诈捐?镜湖吴幽:因比特币爆仓无法履约 有大佬曾因爆仓自杀

热点

实际上,吴幽投资的比特币历史上经历过多次短时间暴跌,高点回撤的平均幅度都接近50%。

环球短讯!商汤开源多模态多任务通用大模型“书生2.5”,迈向AGI

热点

今天,商汤科技发布多模态多任务通用大模型“书生(INTERN)2 5”。

【焦点热闻】900亿没白花 微软确认必应已用上GPT-4:搜索优于谷歌

热点

微软宣布自家的新版必应搜索已经用上了GPT-4,过去五周中很多人体验的必应就是GPT-4加强过的。

财富

融资丨「洞隐科技」完成超亿元A轮融资,构建全程供应链数字化版图

资讯

融资丨「洞隐科技」完成超亿元A轮融资,构建全程供应链数字化版图,洞隐科技宣布完成超亿元A轮融资

字节跳动十万员工困在数据里

资讯

字节跳动十万员工困在数据里,字节员工半年面临一次生存考验。

天天时讯:B站鬼畜难题:搞笑容易搞钱难

资讯

B站鬼畜难题:搞笑容易搞钱难,“B站”仍在盈利之路上跋涉

每日观察!下一个硅谷银行,可能在这张名单里

资讯

下一个硅谷银行,可能在这张名单里,市场上的恐慌尚未因此停止

国货平替崛起,外资彩妆不香了?

资讯

国货平替崛起,外资彩妆不香了?,“清仓”大甩卖难挽败局

环球速读:融资丨「慧观生物」完成近千万元种子轮融资,德迅投资独家投资

资讯

融资丨「慧观生物」完成近千万元种子轮融资,德迅投资独家投资,资金将主要用于核心技术及设备研发

【时快讯】终于不用卷了!人人发钱,AI带你进入躺平时代

资讯

终于不用卷了!人人发钱,AI带你进入躺平时代,摩尔定律在每个领域都适用。

【世界时快讯】GPT-4发布后,我离失业还有多远

资讯

GPT-4发布后,我离失业还有多远,跨物种内卷时代,你准备好了吗?

CP643连接不上电脑怎么办?如何解决?

资讯

CP643连接不上电脑怎么办?可能是部分服务组件被关闭造成嘚你可以在网上看看,在电脑管理里面以下是我列出来的几个,可以试试你说的不具体,

有AGP8X标志的显卡是不是可以通用啊??AGP8x的显卡能在AGP4x的主板上用吗?

资讯

AGP8x的显卡能在AGP4x的主板上用吗?1 有可以购买8x但注意:agp4x标准与agp8x比较 内存传输速率前者是后者的1 2,供电标准也有所不同 很多8x

环球速看:知乎、小红书和keep,网络经济“三小强”谁会先走出“商业化泥潭”?

作为移动互联网的三小强,知乎、小红书和keep的赚钱能力,也就是商业化进程始终都是业界关注的焦点。

视点!千兆光网或成运营商新赛点 价格战竞争是否会再现江湖

在各种智能终端及互联网应用普及之后,大众对网速的要求也变得越来越高。

天天消息!工信部金壮龙:加快5G、工业互联网等新型信息基础设施建设和应用,壮大数字经济核心产业

要加快5G、工业互联网等新型信息基础设施建设和应用,壮大数字经济核心产业,推动集成电路、工业软件产业高质量发展。

全球播报:GPT-4来了,它趴在谷歌和脸书们耳边说:毁灭你,与你何干

随着GPT-4的发布,不但这点得到进一步佐证,OpenAI还顺带将科技圈的狂欢频率拉短到只有区区4个月的间隔。

震撼!GPT-4发布,打工人都要失业了吗?

OpenAI工程师自豪地宣称,GPT-4将是“世界第一款高体验、强能力的现金AI系统”。

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个