当前观察:来看看新发布的GPT-4都有哪些变化吧

2023-03-16 11:16:39   来源:商业新知网

今天凌晨OpenAI正式推出了NLP大作,GPT-4。目前,ChatGPT的Plus订阅用户已经可以使用GPT-4,其他用户需要排队申请内测。我们根据GPT-4官方提供的技术文档,来看看都有哪些变化。

本文将以OpenAI GPT-4 技术报告为基础,介绍GPT-4的特征和训练信息。

GPT-4是一个多模态大型语言模型,即支持图像和文本输入,以文本形式输出;扩写能力增强,能处理超过25000个单词的文本;更具创造力,并且能够处理更细微的指令。


(相关资料图)

我们从官网上就可以看到,ChatGPT和GPT-4的示范,效果貌似已经显著拉开了。谁更智能一目了然…

问:

Andrew: 上午11点-下午3点有空

Joanne: 中午-下午2点有空、下午3点半-下午5点有空

Hannah: 中午有半小时的时间,下午4-6点有空

给这仨人安排个30分钟的会议,有哪些选择?

答:

ChatGPT: 会议可以在下午4点开始

GPT-4: 会议可以在中午12点开始

报告指出了GPT-4的发展进度,这是一个大规模、多模态的模型,它可以接受图像和文本输入,并产生文本输出。虽然在许多现实世界的场景中能力不如人类,但在各种专业和学术基准上表现出人类水平的表现。例如,它通过了模拟的律师考试,分数在应试者的前10%左右;相比之下,GPT-3.5的分数则在后10%左右。

GPT-4是一个基于Transformer的模型,经过预先训练,可以预测文档中的下一个标记。训练后的调整过程使对事实的遵守程度得到改善。

这个项目的一个核心部分是开发基础设施和优化方法,让这些方法在广泛的范围内有可预测的行为。这使我们能够准确地预测GPT-4在某些方面的性能,其基础是用不超过GPT-4的1/1000的计算量所训练的模型。

介绍

技术报告介绍了GPT-4,这是一个大型多模态模型,能够处理图像和文本输入并产生文本输出。这类模型是一个重要的研究领域,因为它们有可能被用于广泛的应用中,如对话系统、文本总结和机器翻译。因此,近年来它们一直是人们关注的对象,并取得了很大的进展。近年来,它们一直是人们关注的焦点。

开发此类模型的主要目标之一是提高其理解和生成自然语言文本的能力,特别是在更复杂和细微的情况下。为了测试其在这种情况下的能力,GPT-4在最初为人类设计的各种考试中进行了评估。在这些评估中,它表现得相当好,并且经常超过绝大多数人类应试者的分数。

例如,在模拟律师资格考试中,GPT-4的成绩在考生中排名前10%。这与GPT-3.5形成鲜明对比,GPT-3.5的得分排在后10%。

在一套传统的NLP基准测试中,GPT-4的表现超过了以前的大型语言模型和大多数最先进的系统(这些系统通常有特定的基准训练或手工工程)。

在MMLU基准测试中,GPT-4不仅在英语考试中以相当大的优势超过了现有的模型,而且在其他语言方面也表现出了强大的性能。

本报告还讨论了该项目的一个关键挑战,即开发深度学习基础设施和优化方法,这些方法在广泛的范围内表现出可预测性。这使我们能够预测GPT-4的预期性能(基于以类似方式训练的小型运行)。这使我们能够对GPT-4的预期性能进行预测(基于类似的训练方式的小运行),并与最终的运行进行测试,以增加对我们训练的信心。

尽管有这样的能力,GPT-4与早期的GPT模型有类似的局限性:它并不完全可靠(例如,可能出现 "幻觉"),有一个有限的上下文窗口,并且没有习得经验。在使用GPT-4的输出时应谨慎行事,特别是在对可靠性要求很高的情况下。

GPT-4的能力和局限性带来了重大的、新的安全挑战,我们相信鉴于其潜在的社会影响,仔细研究这些挑战是一个重要的研究领域。本报告包括一个广泛的系统卡,描述了我们所预见的一些风险。围绕偏见、虚假信息、过度依赖、隐私、网络安全、扩散等方面预见了一些风险。它还描述了我们为减轻部署GPT-4的潜在危害所采取的干预措施。包括聘请领域专家进行对抗性测试,以及一个模型辅助的安全管道。

技术报告的范围和局限性

本报告的重点是GPT-4的能力、局限和安全性能。GPT-4是一个基于Transformer的模型,它预先进行了训练,以预测文档中的下一个标记,使用公开的数据(如互联网数据)和第三方供应商授权的数据。

该模型然后使用来自人类反馈的强化学习(RLHF)对模型进行微调。鉴于GPT-4这样大规模模型的竞争状况和安全影响,报告中不包含有关架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法或类似内容的进一步细节。

OpenAI致力于对技术进行独立审计,并分享了一些这方面的初步措施和想法。并计划向更多的第三方提供进一步的技术细节,他们可以就如何权衡上述竞争和安全考虑与科学价值的关系提供建议。

可预测的扩展

GPT-4项目的一大重点是建立一个可预测扩展的深度学习栈。主要原因是,对于像GPT-4这样的大型训练运行,要做大量针对模型的调整是不可行的。

为了解决这个问题,我们开发了基础设施和优化方法,在多个尺度上有非常可预测的行为。这些改进使我们能够可靠地从使用1,000倍-10,000倍计算量训练的较小模型中预测GPT-4的某些方面的性能。

3.1 损失预测

正确训练的大型语言模型的最终损失被认为可以通过训练模型所用的计算量的幂律来很好地接近训练模型所使用的计算量的规律。

为了验证OpenAI的优化基础设施的可扩展性,OpenAI预测了GPT-4的最终损失,在OpenAI的内部代码库(不是训练集的一部分)上预测GPT-4的最终损失,方法是通过拟合一个带有不可减少的损失项的比例法则(如Henighan等人的做法):L(C) = aCb + c, 来自使用相同方法训练的模型,但使用的计算量比GPT-4最多少10,000倍。

这一预测是在运行开始后不久做出的,没有使用任何部分结果。拟合的比例法高度准确地预测了GPT-4的最终损失。

3.2 在HumanEval上扩展能力

在训练前对模型的能力有一个认识,可以改善有关调整的决策、安全和部署。

除了预测最终损失外,我们还开发了方法来预测能力的更多可解释性指标,其中一个指标是HumanEval数据集的通过率。

OpenAI成功地预测了HumanEval数据集的一个子集上的通过率,其方法是从训练的模型中推断出来的训练出来的模型进行推断,其计算量最多减少1,000倍。

对于HumanEval中的单个问题,性能可能偶尔会随着规模的扩大而变差。尽管有这些挑战,我们发现一个近似的幂律关系--EP [log(pass_rate(C))] = α∗C-k。

相信准确预测未来的能力对安全很重要。展望未来,OpenAI计划在大型模型训练开始之前,完善这些方法并记录各种能力的性能预估。并且,OpenAI希望这成为该领域的一个共同目标。

能力

这简直就是个考试小能手

GPT-4典型的成绩包括:

SAT(美国高考): 1410/1600(前 6%)。

美国统一律师资格考试(MBE+MEE+MPT):298/400(前 10%)。

AP(美国大学预科考试): 生物学、微积分、宏观经济学、心理学、统计学和历史的大学预修高中考试:100% (5/5)。

OpenAI在一系列不同的基准上对GPT-4进行了测试,包括模拟最初为人类设计的考试。考试题目包括多项选择题和自由回答题,综合分数由多项选择题和自由回答题的分数结合决定,GPT-4在大多数专业和学术考试中都有与人类水平相当的表现。值得注意的是,它通过了统一律师考试的模拟版本,分数在应试者中排名前10%。

就测试的结果来看,GPT-4模型在考试中的能力似乎主要来自于预训练过程,并没有受到RLHF的明显影响。在多选题上,基础的GPT-4模型和RLHF模型的表现相当。

OpenAI还在传统的基准上评估了预先训练好的基础GPT-4模型,这些基准是为评估语言模型而设计的。

就在考试测试中的表现来看,GPT-4的性能大大超过了现有的语言模型,以及此前最先进的系统,这些系统通常有针对的基准或额外的训练协议。

针对现有的许多机器学习基准测试都是用英语编写的,很难体现在其他语言中的表现,为了初步了解GPT-4在其他语言中的功能,他们也将一套涵盖57个主题的多项选择题的基准测试,采用相关的应用程序转换成了其他语言,并进行了测试,最终结果显示GPT-4的表现要优于GPT 3.5和现有语言模型对测试的大多数语言的语言性能,包括低资源语言。

能看懂一些图的笑点了

GPT-4在理解用户意图的能力方面较此前的模型有明显改善。

GPT-4可以说已经能看懂一些图梗了,不再仅仅是对话助手。当然离大家期待的看懂视频还有一段距离。现在能看懂图片的笑点,比如这张…

左一: 一台iPhone插上了带有VGA的连接器

右一: “LightningCable”适配器的包装,上面有VGA连接器的图

右二: VGA连接器的特写,上面有VGA连接器的图片,但可以看到,头是个Lightning的…

笑点在于将VGA端口插在iPhone上的荒谬…很冷吧…搞机圈博主们的压力大不大…

4.1 视觉输入

对GPT-4而言,训练后的对齐(Alignment)是提高性能和改善体验的关键。从技术上看,人类反馈强化学习(RLHF)微调仍然是GPT-4的要点。考虑到LLM领域的竞争格局和 GPT-4 等大型模型的安全隐患,OpenAI暂时还未公布GPT-4的模型架构、模型大小、训练技术。

这张图片:GPT-4认为,不同寻常的地方在于,一名男子正在行驶中的出租车车顶上的熨衣板熨衣服…

再比如这个,这到底是鸡块?还是地图?还是用鸡块拼成的世界地图?

GPT-4接受由图像和文本组成的提示,这与纯文本设置平行,让用户指定任何视觉或语言任务。具体来说,该模型生成的文本输出给出由任意交错的文本和图像组成的输入。在一系列领域中,包括带有文字和照片的文件、图表或屏幕截图,GPT-4表现出与纯文本输入类似的能力。

为语言模型开发的标 准测试时间技术(如少量提示、思维链等) , 使用图像和文本时也同样有效。

在一组狭窄的学术视觉基准上的初步结果可以在GPT-4博客中找到,计划在后续工作中发布更多关于GPT-4的视觉能力的信息。

局限性

尽管GPT-4功能强大,但它与早期GPT模型一样,有相似的局限性。最重要的是,它仍然不完全可靠(它会“幻觉”事实并犯推理错误),应非常小心。

在使用语言模型输出时,特别是在高风险的上下文中,使用准确的协议(例如人工审查,附加上下文,或完全避免高风险使用)满足特定应用的需求。

GPT-4在TruthfulQA等公共基准上取得了进展,该基准测试模型的测试能将事实从一组不正确的陈述中分离出来,与统计上有吸引力的事实错误的答案相匹配。GPT-4基本型号为在这项任务上只比GPT-3.5略胜一筹。然而,在RLHF训练后,较GPT-3.5有很大的改进,GPT-4抗拒选择一些常见的谚语,但仍然会错过一些微妙的细节。

GPT-4有时会使简单的推理出现错误,似乎不符合在这么多领域的能力,或者轻信用户明显的虚假陈述。它可能像人类一样在困难的问题上失败,例如在产生的代码中引入安全漏洞。

GPT-4也可能在其预测中轻易的犯错,在可能犯错的时候不注意反复检查。虽然预训练的模型是高度校准的,但在后期的训练过程中,校准度降低了。

GPT-4在其输出中存在各种偏差,OpenAI已经在努力纠正,但这需要一定的时间,他们的目标是使GPT-4同我们建立的其他系统一样,有合理的默认行为,以反映广大用户的价值观,允许这些系统在一些广泛的范围内进行定制,并获得公众对这些范围的意见。

风险和缓解措施

GPT-4具有与小型语言模型类似的风险,例如,产生有害的建议、有缺陷的代码或不准确的信息。

聘请领域专家进行对抗性测试: 为了了解这些风险的程度,OpenAI聘请了来自长期人工智能(AI)校准风险、网络安全、生物风险和国际安全领域的50多位专家对该模型进行对抗性测试。从这些专家那里收集的建议和培训数据为OpenAI制定缓解措施和对该模型进行改进提供了参考。

模型辅助的安全管道: 与之前的GPT模型一样,OpenAI利用来自人类反馈的强化学习(RLHF)对该模型的行为进行微调,以产生更符合用户意图的回复。在RLHF之后,该模型在不安全的输入上仍然是脆弱的,并且有时在安全输入和不安全输入上都表现出不受欢迎的行为。此外,该模型在安全输入方面也可能变得过于谨慎。

安全指标的改进: OpenAI的缓解措施已经大大改善了GPT-4的许多安全性能。与GPT-3.5相比,该公司将GPT-4对不允许的内容请求做出响应的倾向降低了82%,而GPT-4根据OpenAI的政策对敏感请求的响应频率提高了29%。

OpenAI正在与外部研究人员合作,以改善其理解和评估潜在影响的方式,以及建立对未来系统中可能出现的危险能力的评估。该公司将很快发布关于社会可以采取的步骤的建议,以应对人工智能的影响。除了公布关于社会为应对人工智能影响可以采取的措施的建议外,该公司还将很快公布预测人工智能可能产生的经济影响的初步想法。

GPT-4相关能力的综述

- 支持多模态输入: GPT-4的API可以接受图像,并生成相应的字幕,并对图像进行分析。

- 在BAR考试中取得优异成绩: GPT-4取得了BAR 90分(满分一百),同时在生物奥林匹克竞赛的视觉题方面获得了99分,其推理能力远超ChatGPT。

- 超大上下文: GPT-4支持25,000个单词的上下文,可以使得完整的文档适合于一个提示符内。

- 更具创造性和协作性: 与用户协作生成、编辑和迭代写作任务,具有更高的创造性和协作性。

- 多个合作伙伴正在测试GPT-4: Duolingo、Be My Eyes、Stripe、摩根士丹利、可汗学院等,甚至包括冰岛政府。

总结

GPT-4是一个在某些困难的专业和学术基准上具有人类水平表现的大型多模态模型。它在一系列NLP任务上的表现优于现有的大型语言模型,并且超过了绝大多数已报道的最先进的系统(这些系统通常包括针对特定任务的微调)。

GPT-4由于性能的提高而带来了新的风险,OpenAI团队讨论了一些方法和结果,以了解和提高其安全性和一致性。虽然还有很多工作要做,但GPT-4代表着朝着广泛有用和安全部署的人工智能系统迈出了重要一步。

关键词:

上一篇:
下一篇:
精彩阅读

当前观察:来看看新发布的GPT-4都有哪些变化吧

热点

GPT-4是一个多模态大型语言模型,即支持图像和文本输入,以文本形式输出。

最新:小红书315被媒体点名!网络水军充斥,1500元就能删掉一篇帖子

热点

今晚的315晚会上,央视曝光了一众骗局,假香米、水军操控、劣质水泥管、免费书评机等。

天天观速讯丨国内如何免费使用ChatGPT-4,开放猫或将接入API

热点

令人期待的OpenAI多模态大型语言ChatGPT的最新“升级版本”——GPT4模型终于发布了。

开放猫:让 ChatGPT 介绍GPT4

热点

GPT-4是一种最新的人工智能语言模型,它是由OpenAI公司开发的第四代生成式预训练模型。

全球头条:超越99%的人类,GPT-4多模态模型有哪些技术上的突破?

热点

OpenAI发布了GPT-4,这是一个大型多模态模型,能够接受图像和文本输入,并输出文本。

环球速看:知乎、小红书和keep,网络经济“三小强”谁会先走出“商业化泥潭”?

热点

作为移动互联网的三小强,知乎、小红书和keep的赚钱能力,也就是商业化进程始终都是业界关注的焦点。

视点!千兆光网或成运营商新赛点 价格战竞争是否会再现江湖

热点

在各种智能终端及互联网应用普及之后,大众对网速的要求也变得越来越高。

天天消息!工信部金壮龙:加快5G、工业互联网等新型信息基础设施建设和应用,壮大数字经济核心产业

热点

要加快5G、工业互联网等新型信息基础设施建设和应用,壮大数字经济核心产业,推动集成电路、工业软件产业高质量发展。

全球播报:GPT-4来了,它趴在谷歌和脸书们耳边说:毁灭你,与你何干

热点

随着GPT-4的发布,不但这点得到进一步佐证,OpenAI还顺带将科技圈的狂欢频率拉短到只有区区4个月的间隔。

财富

陆正耀再“杀”瑞幸

资讯

陆正耀再“杀”瑞幸,“库迪咖啡”火了。

融资丨「洞隐科技」完成超亿元A轮融资,构建全程供应链数字化版图

资讯

融资丨「洞隐科技」完成超亿元A轮融资,构建全程供应链数字化版图,洞隐科技宣布完成超亿元A轮融资

字节跳动十万员工困在数据里

资讯

字节跳动十万员工困在数据里,字节员工半年面临一次生存考验。

天天时讯:B站鬼畜难题:搞笑容易搞钱难

资讯

B站鬼畜难题:搞笑容易搞钱难,“B站”仍在盈利之路上跋涉

每日观察!下一个硅谷银行,可能在这张名单里

资讯

下一个硅谷银行,可能在这张名单里,市场上的恐慌尚未因此停止

国货平替崛起,外资彩妆不香了?

资讯

国货平替崛起,外资彩妆不香了?,“清仓”大甩卖难挽败局

环球速读:融资丨「慧观生物」完成近千万元种子轮融资,德迅投资独家投资

资讯

融资丨「慧观生物」完成近千万元种子轮融资,德迅投资独家投资,资金将主要用于核心技术及设备研发

【时快讯】终于不用卷了!人人发钱,AI带你进入躺平时代

资讯

终于不用卷了!人人发钱,AI带你进入躺平时代,摩尔定律在每个领域都适用。

【世界时快讯】GPT-4发布后,我离失业还有多远

资讯

GPT-4发布后,我离失业还有多远,跨物种内卷时代,你准备好了吗?

CP643连接不上电脑怎么办?如何解决?

资讯

CP643连接不上电脑怎么办?可能是部分服务组件被关闭造成嘚你可以在网上看看,在电脑管理里面以下是我列出来的几个,可以试试你说的不具体,

最新:小红书315被媒体点名!网络水军充斥,1500元就能删掉一篇帖子

今晚的315晚会上,央视曝光了一众骗局,假香米、水军操控、劣质水泥管、免费书评机等。

天天观速讯丨国内如何免费使用ChatGPT-4,开放猫或将接入API

令人期待的OpenAI多模态大型语言ChatGPT的最新“升级版本”——GPT4模型终于发布了。

资讯:GPT-4升级,让压力来到了中国公司这边

一夜之间,ChatGPT「开眼了」。

开放猫:让 ChatGPT 介绍GPT4

GPT-4是一种最新的人工智能语言模型,它是由OpenAI公司开发的第四代生成式预训练模型。

全球头条:超越99%的人类,GPT-4多模态模型有哪些技术上的突破?

OpenAI发布了GPT-4,这是一个大型多模态模型,能够接受图像和文本输入,并输出文本。

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个