开发者笑疯了! LLaMa惊天泄露引爆ChatGPT平替狂潮,开源LLM领域变天

2023-04-11 14:25:16   来源:商业新知网

来源 | 新智元

编辑|Aeneas 好困

【导读】 Meta的LLaMA模型开源,让文本大模型迎来了Stable Diffustion时刻。谁都没想到,LLaMA的一场「史诗级」泄漏,产生了一系列表现惊艳的ChatGPT「平替」。

谁 能想到,一次意外的LLaMA泄漏 ,竟点燃了开源LLM领域最大的创新火花。


(资料图片仅供参考)

一系列表现出色的ChatGPT开源替代品——「羊驼家族」,随后眼花缭乱地登场。

开源和基于 API 的分发之间的摩擦,是生成式AI生态系统中最迫在眉睫的矛盾 之一。

在文本到图像领域,Stable Diffusion的发布清楚地表明,对于基础模型来说,开源是一种可行的分发机制。

然而,在大语言模型领域却并非如此,这个领域最大的突破,比如GPT-4、Claude和Cohere等模型,都只能通过API获得。

这些模型的开源替代品没有表现出相同水平的性能,特别是在遵循人类指令能力上。然而,一场意想不到的泄露,让这种状况彻底发生了改变。

LLaMA的「史诗级」泄漏

几 周前,Meta AI推出了大语言模型LLaMA 。

LLaMA 有不同的版本,包括7B、13B、33B和65B的参数,虽然它比GPT-3小,但在许多任务上,它都能和GPT-3的性能相媲美。

LLaMA 起初并未开源,但在发布一周后,这个模型忽然在4chan上泄露了,引发了数千次下载。

这个事件,可以被称为「史诗级泄漏」了,因为它成为了大语言模型领域层出不穷的创新来源。

短短几周内,基于它构建的LLM代理的创新,已经呈爆炸式增长。

Alpaca、Vicuna、Koala、ChatLLaMA 、FreedomGPT、ColossalChat…… 让我们来回顾一下,这场「羊驼家族」的大爆炸,是如何诞生的。

Alpaca

在三月中旬,斯坦福发布的大模型Alpaca火了。

Alpaca是由Meta的LLaMA 7B微调而来的全新模型,仅用了52k数据,性能约等于GPT-3.5。

关键是训练成本奇低,不到600美元。

斯坦福研究者对GPT-3.5(text-davinci-003)和Alpaca 7B进行了比较,发现这两个模型的性能非常相似。Alpaca在与GPT-3.5的比较中,获胜次数为90对89。

对于斯坦福的团队来说,想要在预算内训练一个高质量的指令遵循模型,就必须面临2个重要的挑战:要有一个强大的预训练语言模型,以及一个高质量的指令遵循数据。

恰恰,提供给学术研究人员使用的LLaMA模型搞定了第一个问题。

对于第二个挑战,「Self-Instruct: Aligning Language Model with Self Generated Instructions」论文给了很好的启发,即使用现有的强语言模型来自动生成指令数据。

LLaMA模型最大的弱点,就是缺乏指令微调。OpenAI最大的创新之一就是将指令调优用在了GPT-3上。

对此,斯坦福使用了现有的大语言模型,来自动生成遵循指令演示。

现在,Alpaca直接被网友们奉为「文本大模型的Stable Diffusion」。

Vicuna

3月底,来自UC伯克利、卡内基梅隆大学、斯坦福大学和加州大学圣地亚哥分校的研究人员开源了Vicuna,这是一个与GPT-4性能相匹配的LLaMA微调版本。

130亿参数的 Vicuna ,通过在ShareGPT收集的用户共享对话上对LLaMA进行微调训练而来,训练成本近300美元。

结果显示Vicuna-13B在超过90%的情况下,实现了与ChatGPT和Bard相匹敌的能力。

对于Vicuna-13B训练流程,具体如下:

首先,研究人员从ChatGPT对话分享网站ShareGPT上,收集了大约70K对话。

接下来,研究人员优化了Alpaca提供的训练脚本,使模型能够更好地处理多轮对话和长序列。之后利用PyTorch FSDP在8个A100 GPU上进行了一天的训练。

在模型的质量评估方面,研究人员创建了80个不同的问题,并用GPT-4对模型输出进行了评价。

为了比较不同的模型,研究人员将每个模型的输出组合成一个单独的提示,然后让GPT-4评估哪个模型给出的回答更好。

LLaMA、Alpaca、Vicuna和ChatGPT的对比

Koala

最 近 ,UC伯克利 AI Research Institute(BAIR)又发布了一个新模型「考拉」(Koala),相比之前使用OpenAI的GPT数据进行指令微调,Koala的不同之处在于使用网络获取的高质量数据进行训练。

研究结果表明,Koala可以有效地回答各种用户的查询,生成的回答往往比Alpaca更受欢迎,至少在一半的情况下与ChatGPT的效果不相上下。

研究人员希望这次实验的结果可以进一步推动围绕大型闭源模型相对于小型公共模型的相对性能的讨论,特别是结果表明,对于那些能在本地运行的小模型,如果认真地收集训练数据,也可以取得大模型的性能。

事实上,在此之前斯坦福大学发布的Alpaca模型,根据OpenAI的GPT模型对LLaMA的数据进行微调的实验结果已经表明,正确的数据可以显著改善规模更小的开源模型。

这也是伯克利的研究人员开发和发布Koala模型的初衷,希望为这个讨论结果再提供了一个实验证明。

Koala对从网上获取的免费交互数据进行了微调,并且特别关注包括与ChatGPT 等高性能闭源模型交互的数据。

研究人员并没有追求尽可能多的抓取网络数据来最大化数据量,而是专注于收集一个小型的高质量数据集,包括ChatGPT蒸馏数据、开源数据等。

ChatLLaMA

Nebuly开源了ChatLLaMA ,这是一个使用让我们使用自己的数据创建对话助手的框架。

ChatLLaMA让我们使用自己的数据和尽可能少的计算量,来创建超个性化的类似ChatGPT的助手。

假设在未来,我们不再依赖一个「统治所有人」的大型助手,每个人都可以创建自己的个性化版本类ChatGPT助手,它们可以支持人类的各种需求。

不过,创建这种个性化助手需要在许多方面做出努力:数据集创建,使用RLHF进行高效训练,以及推理优化。

这个库的目的是,通过抽象计算优化和收集大量数据所需的工作,让开发人员高枕无忧。

ChatLLaMA旨在帮助开发人员处理各种用例,所有用例都与RLHF训练和优化推理有关。以下是一些用例参考:

为垂直特定任务(法律、医疗、游戏、学术研究等)创建类似ChatGPT的个性化助手;

想在本地硬件基础设施上使用有限的数据,训练一个高效的类似ChatGPT的助手;

想创建自己的个性化版本类ChatGPT助手,同时避免成本失控;

想了解哪种模型架构(LLaMA、OPT、GPTJ等)最符合我在硬件、计算预算和性能方面的要求;

想让助理与我的个人/公司价值观、文化、品牌和宣言保持一致。

FreedomGPT

FreedomGPT使用Electron 和 React构建,它是一个桌面应用程序,允许用户在他们的本地机器上运行LLaMA。

FreedomGPT的特色,从它的名字上就可见一斑——它回答的问题不受任何审查或安全过滤。

这个程序由AI风险投资公司Age of AI开发。

FreedomGPT 建立在 Alpaca 之上。FreedomGPT使用Alpaca的显著特征,因为与其他模型相比,Alpaca相对更易于访问和定制。

ChatGPT遵循OpenAI的使用政策,限制仇恨、自残、威胁、暴力、性方面的内容。

与ChatGPT不同,FreedomGPT回答问题时没有偏见或偏袒,并且会毫不犹豫地回答有争议或争论性的话题。

FreedomGPT甚至还回答了「如何在家制造炸弹」,而OpenAI专门从GPT-4中删除了这一点。

FreedomGPT很独特,因为它克服了审查限制,在没有任何保障的情况下迎合有争议的话题。它的标志是自由女神像,因为这个独特而大胆的大语言模型象征了自由。

FreedomGPT甚至可以在不需要联网的情况下,就能在计算机上本地运行。

此外,开源版本将很快发布,使用户和组织可以完全定制。

ColossalChat

UC伯克利提出的ColossalChat只需要不到100亿个参数就可以达到中英文双语能力,效果与ChatGPT和GPT-3.5相当。

此外,基于LLaMA模型的ColossalChat,还复刻了完整的RLHF过程,是目前最接近ChatGPT原始技术路线的开源项目。

中英双语训练数据集

ColossalChat发布了一个双语数据集,其中包含大约100,000个中英文问答对。

该数据集是从社交媒体平台上的真实问题场景中收集和清理的,作为种子数据集,使用self-instruct进行扩展,标注成本约为900美元。

与其他self-instruct方法生成的数据集相比,该数据集包含更真实和多样化的种子数据,涵盖更广泛的主题。

该数据集适用于微调和RLHF训练。在提供优质数据的情况下,ColossalChat可以实现更好的对话交互,同时也支持中文。

完整的RLHF管线

RLHF的算法复刻共有三个阶段:

在RLHF-Stage1中,使用上述双语数据集进行监督指令微调以微调模型。

在RLHF-Stage2中,通过对同一提示的不同输出手动排序来训练奖励模型分配相应的分数,然后监督奖励模型的训练。

在RLHF-Stage3中,使用了强化学习算法,这是训练过程中最复杂的部分。

相信很 快,就会有更多项目发布。

谁也没想到,这场LLaMA的意外泄露,竟点燃了开源LLM领域最大的创新火花。

关键词:

上一篇:
下一篇:
精彩阅读

开发者笑疯了! LLaMa惊天泄露引爆ChatGPT平替狂潮,开源LLM领域变天

热点

Meta的LLaMA模型开源,让文本大模型迎来了StableDiffustion时刻。

实时焦点:当ChatGPT续写《红楼梦》,能替代原著吗?

热点

“AI写作是否会让文字工作者被替代?”成为人们关注并持续讨论的话题。

清华天才王小川创立百川智能 打造中国版OpenAI

热点

今天我正式宣布,创建“百川智能”,一家研发并提供通用人工智能服务的中国公司。

商汤科技发布“鸡肋”产品糊弄交差?收入萎缩客户流失“战略性亏损”被证伪

热点

这一切的前提是建立在企业能够打开市场,在市场中保持核心竞争力,同时实现业务的高增长的基础之上的。

世界今日讯!事关21亿元收购案!华为深夜发声:不可能,无意愿

热点

21亿收购案或告吹,华为深夜声明:没有任何意愿及可能。

观点:爆:中国移动最赚钱的分省排名以及政企排名!

热点

中国移动最赚钱的分省排名以及政企排名来了。

天天时讯:真正的包罗“万”象!上海AI实验室、港中文等提出V3Det目标检测数据集,含有13029个类别!

热点

来自上海人工智能实验室和香港中文大学的学者提出了一个海量类别的目标检测数据集V3Det。

【环球热闻】字节跳动已超越腾讯、阿里成中国最赚钱互联网公司

热点

字节跳动的税息折旧及摊销前利润(EBITDA)在2022年达到近250亿美元,较前年的140亿美元暴增近八成。

【全球聚看点】海外设计师打造苹果MR头显概念渲染图;索尼新型3D显示屏即将上市,无需 VR 头显也可支持沉浸式体验

热点

Marcus是一名工业设计师和用户体验顾问,他每天使用VR和AR设备来支持他的工作。

环球观速讯丨涉图片侵权、错误信息诽谤等,AIGC将迎来侵权潮?

热点

对于弱小的个人创作者,又如何维护自己的版权,而不是在不知不觉间成为AI的训练数据,这也是个问题。

财富

热点评!跨越8国、500城,超级App Grab怎么“黏住”近万名人才?

资讯

跨越8国、500城,超级AppGrab怎么“黏住”近万名人才?,怎样的人才最具价值,怎样的管理者能带动员工?

【时快讯】融资丨「云轴科技」宣布获数亿元C轮融资,国鑫创投、君联资本领投

资讯

融资丨「云轴科技」宣布获数亿元C轮融资,国鑫创投、君联资本领投,本轮融资将用于加大云计算基础软件关键技术的研发投入

环球时讯:融资丨「泽维生物」获千万元级别天使轮投资

资讯

融资丨「泽维生物」获千万元级别天使轮投资,本轮融资将用于其技术平台的进一步搭建及团队建设

【天天热闻】融资丨「奇点云」完成近亿元C2轮融资,余杭国投领投

资讯

融资丨「奇点云」完成近亿元C2轮融资,余杭国投领投,本轮融资将用于自主可控的数据技术研发

首发丨「享刻智能」获4000万天使轮融资,真格基金、中关村智友科学家基金联合领投

资讯

首发丨「享刻智能」获4000万天使轮融资,真格基金、中关村智友科学家基金联合领投,本轮融资将用于公司核心技术多模态机器人技术及系统设计

洗衣机固定不住老是跑?单桶洗衣机都放得下吗?

资讯

洗衣机固定不住老是跑?不需要固定。波轮洗衣机还是比较重的,不是我们想象的与以前使用的双缸洗衣机一样工作的时候会移动,它放在一个地方

净水机水质多少合格?净水器净化出来的水达到什么标准?

资讯

净水机水质多少合格?一般来说净水器的水质达到了0~50以内,那这个说明水是比较干净的,也是可以直接饮用的。 当然不同的净水器净水器净化

滚筒洗衣机选什么电机?怎么选半自动洗衣机?

资讯

滚筒洗衣机选什么电机?一、选购洗衣机实用方法——价格和售后在选购洗衣时大家都比较关注价格与售后服务。如果是相同功能的就要货比三家。

易开得净水器怎样拆洗?易开得净水器质量怎么样?

资讯

易开得净水器怎样拆洗?易开得净水机并不是很好,满满的塑料感。还是选美的,沁园,安吉尔这些大品牌吧。易开得净水机颜值上还是很漂亮的。

环球微动态丨Keep,除了帕梅拉你还有什么

资讯

Keep,除了帕梅拉你还有什么,这位全球第一健身超级IP在Keep上已“消失”157天

实时焦点:当ChatGPT续写《红楼梦》,能替代原著吗?

“AI写作是否会让文字工作者被替代?”成为人们关注并持续讨论的话题。

清华天才王小川创立百川智能 打造中国版OpenAI

今天我正式宣布,创建“百川智能”,一家研发并提供通用人工智能服务的中国公司。

商汤科技发布“鸡肋”产品糊弄交差?收入萎缩客户流失“战略性亏损”被证伪

这一切的前提是建立在企业能够打开市场,在市场中保持核心竞争力,同时实现业务的高增长的基础之上的。

世界今日讯!事关21亿元收购案!华为深夜发声:不可能,无意愿

21亿收购案或告吹,华为深夜声明:没有任何意愿及可能。

观点:爆:中国移动最赚钱的分省排名以及政企排名!

中国移动最赚钱的分省排名以及政企排名来了。

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个