天天观速讯丨跟李沐学ChatGPT背后技术:67分钟读透InstructGPT论文

2023-02-20 11:05:29   来源:商业新知网

来源 | 机器之心

编辑| 张倩

【导读】 InstructGPT 和 ChatGPT 之间有很多一脉相承之处。因此,吃透 InstructGPT 论文对于想要在 ChatGPT 方向上做些工作的同学来说将大有裨益。

在 ChatGPT 走红之后,很多关注技术的同学都在问一个问题: 有没有什么学习资料可以让我们系统地了解 ChatGPT 背后的原理? 由于 OpenAI 还没有发布 ChatGPT 相关论文,这一问题变得棘手起来。


【资料图】

不过,从 OpenAI 关于 ChatGPT 的博客中我们知道,ChatGPT 用到的方法和它的兄弟模型 ——InstructGPT 一样,只不过 InstructGPT 是在 GPT-3 上微调的,而 ChatGPT 则是基于 GPT-3.5。在数据收集工作上,二者也存在一些差别。

博客链接:https://openai.com/blog/chatgpt/

InstructGPT 的论文发布于 2022 年 3 月,不过 OpenAI 早在 1 月份就发布了相关博客(参见《 GPT-3 胡言乱语怎么办?OpenAI:我们重新调教了一下,新版本更「听话」 》)。当时,OpenAI 明确提到,InstructGPT 利用了人类反馈的强化学习方法(RLHF)对 GPT-3 进行微调,使得该模型的输出更加符合人类偏好,这点在 ChatGPT 的训练中得到了延续。

论文链接:https://arxiv.org/pdf/2203.02155.pdf

除此之外,InstructGPT 和 ChatGPT 之间还有很多一脉相承之处。因此,吃透 InstructGPT 论文对于想要在 ChatGPT 方向上做些工作的同学来说将大有裨益。这也是我们力荐李沐这节精讲课的原因。

课程地址:https://jmq.xet.tech/s/2lec6b (点击「阅读原文」可直达)

李沐博士是亚马逊的资深首席科学家,之前和 Aston Zhang 等人共同撰写了《动手学深度学习》。最近两年,他一直通过视频向大家介绍各种 AI 知识,制作了几十篇论文的精读课程。很多同学已经养成了跟着李沐精读论文的习惯。

李沐博士在 B 站的账号是「跟李沐学 AI」。

这节针对 InstructGPT 的解读课程总共 67 分钟,基本按照论文撰写的顺序进行介绍。

看过 ChatGPT 博客的同学都知道,它的技术原理基本用一张图就能概括,这也是 InstructGPT 论文中就已经出现的一张图(二者有细微差别)。在解读论文的摘要和引言部分时,李沐详细介绍了图上的三个步骤。

ChatGPT 博客中的技术原理图。

InstructGPT 论文中的技术原理图。

在论文的第三章,InstructGPT 的作者首先介绍了他们的数据获取方法和过程,李沐也带着大家详细读了一下。这部分在工程方面非常有价值。正如李沐所说,如果你之前没有做过这样的事情(数据标注等),需要找人帮你标数据,那么你可以看它的附录部分,里面有很多模板可以直接拿来用,论文作者甚至描述了他们标注网站的 UI 长什么样,非常值得借鉴。

接下来,李沐重点解读了第三章写到的 3 个模型(见 3.5 Models )——SFT (Supervised fine-tuning) 模型、RM (Reward modeling) 模型和 RL (Reinforcement learning) 模型,包括这些模型涉及的参数和目标函数等细节。

最后,李沐总结说,从技术上来讲,InstructGPT 还是一个非常实用的技术。它告诉了大家一个方法:给定一个大型语言模型,你怎样通过一些标注数据迅速地提升它在某一个你关心的领域中的性能,使它达到实用的程度。所以,它给想用生成模型做产品的人提供了一个可操作的思路。

当然,正如李沐博士所说,科研工作是循序渐进的,InstructGPT 也是建立在之前研究的基础上,所以想要吃透 ChatGPT 的同学不免还要回头去读更多论文。在之前的课程中,李沐也详细解读过 GPT、GPT-2、GPT-3 的论文:

关键词: 一脉相承 大有裨益

上一篇:
下一篇:
精彩阅读

天天观速讯丨跟李沐学ChatGPT背后技术:67分钟读透InstructGPT论文

热点

InstructGPT和ChatGPT之间有很多一脉相承之处。

环球滚动:ChatGPT 的出现意味着什么?带来的产业价值的意义

热点

ChatGPT的出现意味着自然语言处理领域的技术和应用正在不断进步和发展。

环球报道:第N波裁员潮来袭,过去一年海外厂商很难吗?

热点

2022年的全球游戏行业给人留下「日子不太好过」的印象。

字节“改节奏”,双月OKR改为季度OKR|独家

热点

内部最近一次双月会从3月初调整到4月初,之后将整体进入季度节奏。

数据资产&数据货币| 量子密室(下)

热点

【区块链】所能够产生的“社会分工”的变化,可以用颠覆来形容。

AI赋能 | 东软集团成为百度文心一言首批生态合作伙伴

热点

近日,东软集团宣布成为百度文心一言(英文名:ERNIEBot)首批生态合作伙伴。

当前速讯:小红书的「虚拟博主」,正陷入疯狂内卷

热点

当技术水平逐渐平均、开放,超写实数字人的内卷再次聚焦到了内容上,无论是人设,还是运营,饱满的内容是长久的竞争力。

世界聚焦:陷入侵权风波!OpenAI遭媒体指责:白用我们的文章训练ChatGPT!

热点

新闻机构并非首批质疑其内容被人工智能系统未经授权使用的公司。

财富

天天动态:用ChatGPT搞钱,“赚”不下去了

资讯

用ChatGPT搞钱,“赚”不下去了,ChatGPT依然热,但打着它的名义快速致富的这条路,似乎走不通了。

世界头条:互联网产品的游戏化,快进化成“集邮”了

资讯

互联网产品的游戏化,快进化成“集邮”了,而这背后,也揭示着“数字达尔文主义”的残酷。

最年轻的百亿富豪,“扶不起”直播电商

资讯

最年轻的百亿富豪,“扶不起”直播电商,身价缩水5490亿元,扎克伯格离开直播间。

天天时讯:咖啡下沉,麦当劳卷得过瑞幸吗?

资讯

咖啡下沉,麦当劳卷得过瑞幸吗?,奶铁系列是“希望之光”?

天天速讯:春风又度长视频

资讯

春风又度长视频,长视频已经进入一个新时期。

全球快看:做鸭难,做周黑鸭更难

资讯

做鸭难,做周黑鸭更难,还得怪疫情

运动饮料大战,百事“躺赢”可口可乐

资讯

运动饮料大战,百事“躺赢”可口可乐,未来几周内可口可乐将为其运动饮料制定扭亏为盈的计划。

资讯推荐:再获融资,但彩瞳赛道捧不出“完美日记”?

资讯

再获融资,但彩瞳赛道捧不出“完美日记”?,国产彩瞳赛道被唤醒?

买油烟机首选“自清洁”功能?我劝你别做冤大头

资讯

买油烟机首选“自清洁”功能?我劝你别做冤大头,买油烟机千万别太看重自清洁功能。

【全球新要闻】字节PICO裁员,大厂集体撤退元宇宙

资讯

字节PICO裁员,大厂集体撤退元宇宙,一场元宇宙到ChatGPT的大迁徙

环球信息:追一科技CEO吴悦:ChatGPT的10个观点,从NLP里程碑到AI软件之变

ChatGPT是想象力、产品力、工程力融合的胜利。

好消息是,人类暂时不会被废话文学大师ChatGPT取代

作为科幻迷,这个开年十分精彩。

环球滚动:ChatGPT 的出现意味着什么?带来的产业价值的意义

ChatGPT的出现意味着自然语言处理领域的技术和应用正在不断进步和发展。

环球报道:第N波裁员潮来袭,过去一年海外厂商很难吗?

2022年的全球游戏行业给人留下「日子不太好过」的印象。

字节“改节奏”,双月OKR改为季度OKR|独家

内部最近一次双月会从3月初调整到4月初,之后将整体进入季度节奏。

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个