世界今日讯!大佬在线复盘:我在训练DALL·E时犯过的错

2022-07-26 15:52:45   来源:商业新知网

大数据文摘授权转载自夕小瑶的卖萌屋

作者:jxyxiangyu


(资料图片仅供参考)

在写了一周的业务代码后,沏一杯绿茶,总算可以有时间看看鸽了一个月的素材了。

好的,小伙伴们,废话不多说,今天我们将跟随 Boris Dayma 大佬,看看他在训练 DALLE-Mega 时遇到的一系列问题。

据这位老哥说,为了训练这个 3B 大小的模型,使用了一个 TPU v3 pod-256(=256 块 TPU v3)。

▲dalle-mega-模型大小

在写惯了业务代码,用多了 0.1B 的 bert-base 的我们,今天也来瞧瞧这些神仙大模型的训练方式。

DALL·E

DALL·E 是 OpenAi 去年推出的图像生成模型,它可以根据一句文本(caption)生成现实世界中不存在的图像。

比如牛油果形状的扶手椅、穿着芭蕾舞短裙遛狗的萝卜等。

▲DALLE结果展示

▲DALLE模型结构图

如上图所示,DALL·E 的训练过程可以分为两步:

为减小高分辨率图片(256X256) 的计算量,将图片经过一个自编码模型 dVAE ,压缩得到(32X32) 的图片,我们取 dVAE 的 encoder 的输出隐向量(32X32X8192) 作为压缩的图片 token;

将文本经过编码器编码后的文本 token 和图片 token 拼接,送入 transformer 进行自回归训练。

这里需要独自训练两个模型 dVAE 和 transformer 。

在推理阶段,需要向 transformer 输入一段文本 caption ,模型以滑动窗口的方式依次预测出下一个图片 token ,这里得到的图片 token 用 dVAE 的 decoder 解码回高分辨率的图片,最后用 CLIP 对得到的图片打分重排序。

更详细的过程解读可以参考 《DALL·E—从文本到图像,超现实主义的图像生成器》[1]、《如何评价DALL-E模型的实现?》[2]

DALL·E Mega 的训练之路

DALL·E Mega 是 Hugging Face 和谷歌云团队基于自己的理解实现的 DALL·E mini 的 Mega 版本,这一次,我们将跟随 Boris Dayma 的脚步,了解他在训练大模型时背后的故事。

和 DALL·E mini 相比,作者做了很多优化,使得 DALL·E Mega 在训练初期能够顺利一些,验证集的 loss 下降速度很快。

当然,随着进一步的训练,验证集的 loss 会逐渐增大,这就意味着需要减小学习率了。如下图所示,可以看到作者还应用了 warm up。

由于效果不佳,作者接着尝试了增大梯度累积以及 dropout ,不过验证集的 loss 依旧没有减小。

不过,令人感到意外的是,即便验证集的 loss 在增加,但预测结果却 在不断变好? ! 对此,作者开始怀疑训练集和验证集的数据分布不一致。

随后,作者决定从训练集中切分出一个子集作为验证集,而对于原本的验证集,作者将其作为训练数据一起用于模型的训练。

不过 loss 依旧在增加,后来,采用全精度训练以及更新 动量后,loss终于开始下降了!!

虽然,验证集的 loss 在不断下降,但不知道小伙伴们有没有注意到,所有的图片都是唯一的,只有在原本的训练集中存在相同的图片(但caption不同),而在作者将训练集的子集作为新的验证集后,训练结果变好会不会是因为训练时,模型只记住了图片?

不过,这些都是后话了,训练已经接近尾声,重新训练太费时间精力(还有钱)了。Boris 小哥就没再仔细深挖这个问题了(好真实...)。

现在模型已经上线到 Hugging Face 上,小伙伴们可以下载使用,对详细的训练过程感兴趣的也可以访问官网的训练日志:

https://wandb.ai/dalle-mini/dalle-mini/reports/DALL-E-Mega-Training-Journal--VmlldzoxODMxMDI2

总结

时隔一年, Boris Dayma 在原作的基础上,又推出了 DALL·E mini 的 Mega 版本,这一次, Boris Dayma 为我们复盘了他在训练 DALL·E mini Mega 时的心路历程以及一些失误。

诚然,我们中的大部分人都不会有机会训练如此庞大的模型,但能够跟随大神一起了解训练过程中遇到的问题以及解决方法,又何尝不是一种进步和学习呢?

关键词: 高分辨率 的基础上

上一篇:
下一篇:
精彩阅读

世界今日讯!大佬在线复盘:我在训练DALL·E时犯过的错

热点

DALL·E是OpenAi去年推出的图像生成模型,它可以根据一句文本(caption)生成现实世界中不存在的图像。

【新要闻】商汤的另一面

热点

商汤科技限售股解禁后的股价波动,再度引发了外界对AI赛道的质疑与担忧。

今日聚焦!独家:比特币耶稣 Roger 被清算与交易所 CoinFLEX 停止提币内幕

热点

2022年6月24日,交易所CoinFLEX宣布暂停提款,随后平台TokenFLEX的价格暴跌。

【全球新视野】VR游戏 | 摄影测量竟还可以这么玩?

热点

目前,《PuzzlingPlaces》共16个游戏关卡,从大型场景到单体建筑都有所包含。

全球观焦点:什么是 Web 3.0?

热点

很多人并不理解什么是Web3 0。本文尝试以最简洁的语言来解释一下我对于这个问题的理解。

环球最新:新品发布 | 创维VR新品发布,PANCAKE 1 VR一体机2999元起售

热点

7月25日,创维VR在深圳以“小有可为玩心大开”为主题举行了全新品牌PANCAKEXR&新品PANCAKE1发布会。

当前热议!量子计算公司IQM获得World Fund领头的1.28亿欧元融资,以应对气候危机

热点

微软的研究包括深入研究量子计算如何发现“更有效”的方式将二氧化碳转化为其他化合物。

【新要闻】上海电信启动智云网络+云宽带创新实践 打造国际数字之都新底座

热点

智云网络和云宽带的推出,意味着上海电信正式开启从双千兆网络向云网边端安一体化演进升级。

财富

【世界聚看点】融资丨「比星咖啡」完成数千万元天使轮融资,顺为资本独家投资

资讯

融资丨「比星咖啡」完成数千万元天使轮融资,顺为资本独家投资,融资资金将用于门店拓展和品牌团队建设。

每日热闻!外卖、预制菜、鲜饺风口下,速冻水饺还有未来吗?

资讯

外卖、预制菜、鲜饺风口下,速冻水饺还有未来吗?,跳出价格和食材,找到新的出路

每日热门:融资丨「OXYZ3」完成天使轮融资,次世文化独家投资

资讯

融资丨「OXYZ3」完成天使轮融资,次世文化独家投资,轴厂的主营业务,是独家打造一个名为“新武林”的国风科幻系列IP。

环球今日报丨海外创投丨「Oncoustics」获530万美元种子轮融资,专注于肝脏病治疗

资讯

海外创投丨「Oncoustics」获530万美元种子轮融资,专注于肝脏病治疗,Oncoustics计划利用种子轮融资加速肝脏评估和诊断产品的开发。

环球热文:融资丨「菲力克斯」完成亿元A轮融资,专注于电子设备研发

资讯

融资丨「菲力克斯」完成亿元A轮融资,专注于电子设备研发,菲力克斯成立于2012年,是一家集设计、生产、销售为一体的国家高新技术企业。

当前讯息:重押海外:阿里、京东、顺丰再拼“内力”

资讯

重押海外:阿里、京东、顺丰再拼“内力”,谁能撼动国际物流“三巨头”?

环球新动态:曾经无敌的飞信,在今天正式入土

资讯

曾经无敌的飞信,在今天正式入土,飞信没有败给微信,而是败给了时代

动态焦点:融资丨「丹擎医药」完成数千万元天使轮融资,幂方健康基金独家投资

资讯

融资丨「丹擎医药」完成数千万元天使轮融资,幂方健康基金独家投资,丹擎医药是一家立足中国,面向全球的创新驱动型药物研发公司。

每日速递:罗永浩,50岁,不知天命

资讯

罗永浩,50岁,不知天命,最后一次“豪赌”,能赢吗

全球热讯:中国最高端商场里,都是什么样的餐饮店?

资讯

中国最高端商场里,都是什么样的餐饮店?,近期,SKP收拾了五楼家具区,在东北角圈出一个位置,开出五家餐饮新店。同时,华贸商圈也出现新餐饮

【新要闻】商汤的另一面

商汤科技限售股解禁后的股价波动,再度引发了外界对AI赛道的质疑与担忧。

今日聚焦!独家:比特币耶稣 Roger 被清算与交易所 CoinFLEX 停止提币内幕

2022年6月24日,交易所CoinFLEX宣布暂停提款,随后平台TokenFLEX的价格暴跌。

【全球新视野】VR游戏 | 摄影测量竟还可以这么玩?

目前,《PuzzlingPlaces》共16个游戏关卡,从大型场景到单体建筑都有所包含。

全球观焦点:什么是 Web 3.0?

很多人并不理解什么是Web3 0。本文尝试以最简洁的语言来解释一下我对于这个问题的理解。

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个

吉利几何EX3功夫牛高居榜首,4月投诉量230起

近日,车质网发布了2022年4月车型投诉排行八卦(前30名),其中有不少产品的出现属实让人没想到。具体来看,吉利几何EX3功夫牛高居榜首,4月

“说好了未达到目标全额退款,结果都是骗人的!”

春天不减肥,夏天徒伤悲。一波减肥大军抱着坚定的信念踏上征途,发现身边各式各样的高端减肥训练营正打着健康减肥封闭管理保质保量包吃包住