世界通讯!谷歌提出新框架Soft Diffusion:从通用扩散过程中正确调度、学习和采样

2022-10-13 15:50:44   来源:商业新知网

本文转自机器之心,编辑蛋酱。

近来,扩散模型成为 AI 领域的研究热点。谷歌研究院和 UT-Austin 的研究者在最新的一项研究中充分考虑了「损坏」过程,并提出了一个用于更通用损坏过程的扩散模型设计框架。

我们知道,基于分数的模型和去噪扩散概率模型(DDPM)是两类强大的生成模型,它们通过反转扩散过程来产生样本。这两类模型已经在 Yang Song 等研究者的论文《Score-based generative modeling through stochastic differential equations》中统一到了单一的框架下,并被广泛地称为扩散模型。


(资料图片仅供参考)

目前,扩散模型在包括图像、音频、视频生成以及解决逆问题等一系列应用中取得了巨大的成功。Tero Karras 等研究者在论文《Elucidating the design space of diffusionbased generative models》中对扩散模型的设计空间进行了分析,并确定了 3 个阶段,分别为 i) 选择噪声水平的调度,ii) 选择网络参数化(每个参数化生成一个不同的损失函数),iii) 设计采样算法。

近日,在谷歌研究院和 UT-Austin 合作的一篇 arXiv 论文《Soft Diffusion: Score Matching for General Corruptions》中,几位研究者认为扩散模型仍有一个重要的步骤:损坏(corrupt)。一般来说,损坏是一个添加不同幅度噪声的过程,对于 DDMP 还需要重缩放。虽然有人尝试使用不同的分布来进行扩散,但仍缺乏一个通用的框架。因此,研究者提出了一个用于更通用损坏过程的扩散模型设计框架。

具体地,他们提出了一个名为 Soft Score Matching 的新训练目标和一种新颖的采样方法 Momentum Sampler。理论结果表明,对于满足正则条件的损坏过程,Soft Score MatchIng 能够学习它们的分数(即似然梯度),扩散必须将任何图像转换为具有非零似然的任何图像。

在实验部分,研究者在 CelebA 以及 CIFAR-10 上训练模型,其中在 CelebA 上训练的模型实现了线性扩散模型的 SOTA FID 分数——1.85。同时与使用原版高斯去噪扩散训练的模型相比,研究者训练的模型速度显著更快。

论文地址:https://arxiv.org/pdf/2209.05442.pdf

方法概览

通常来说,扩散模型通过反转逐渐增加噪声的损坏过程来生成图像。研究者展示了如何学习对涉及线性确定性退化和随机加性噪声的扩散进行反转。

具体地,研究者展示了使用更通用损坏模型训练扩散模型的框架,包含有三个部分,分别为新的训练目标 Soft Score Matching、新颖采样方法 Momentum Sampler 和损坏机制的调度。

首先来看训练目标 Soft Score Matching,这个名字的灵感来自于软过滤,是一种摄影术语,指的是去除精细细节的过滤器。它以一种可证明的方式学习常规线性损坏过程的分数,还在网络中合并入了过滤过程,并训练模型来预测损坏后与扩散观察相匹配的图像。

只要扩散将非零概率指定为任何干净、损坏的图像对,则该训练目标可以证明学习到了分数。另外,当损坏中存在加性噪声时,这一条件总是可以得到满足。

具体地,研究者探究了如下形式的损坏过程。

在过程中,研究者发现噪声在实证(即更好的结果)和理论(即为了学习分数)这两方面都很重要。这也成为了其与反转确定性损坏的并发工作 Cold Diffusion 的关键区别。

其次是采样方法 Momentum Sampling。研究者证明,采样器的选择对生成样本质量具有显著影响。他们提出了 Momentum Sampler,用于反转通用线性损坏过程。该采样器使用了不同扩散水平的损坏的凸组合,并受到了优化中动量方法的启发。

这一采样方法受到了上文 Yang Song 等人论文提出的扩散模型连续公式化的启发。Momentum Sampler 的算法如下所示。

下图直观展示了不同采样方法对生成样本质量的影响。图左使用 Naive Sampler 采样的图像似乎有重复且缺少细节,而图右 Momentum Sampler 显著提升了采样质量和 FID 分数。

最后是调度。即使退化的类型是预定义的(如模糊),决定在每个扩散步骤中损坏多少并非易事。研究者提出一个原则性工具来指导损坏过程的设计。为了找到调度,他们将沿路径分布之间的 Wasserstein 距离最小化。直观地讲,研究者希望从完全损坏的分布平稳过渡到干净的分布。

实验结果

研究者在 CelebA-64 和 CIFAR-10 上评估了提出的方法,这两个数据集都是图像生成的标准基线。实验的主要目的是了解损坏类型的作用。

研究者首先尝试使用模糊和低幅噪声进行损坏。结果表明,他们提出的模型在 CelebA 上实现了 SOTA 结果,即 FID 分数为 1.85,超越了所有其他仅添加噪声以及可能重缩放图像的方法。此外在 CIFAR-10 上获得的 FID 分数为 4.64,虽未达到 SOTA 但也具有竞争力。

此外,在 CIFAR-10 和 CelebA 数据集上,研究者的方法在另一项指标采样时间上也表现更好。另一个额外的好处是具有显著的计算优势。与图像生成去噪方法相比,去模糊(几乎没有噪声)似乎是一种更有效的操纵。

下图展示了 FID 分数如何随着函数评估数量(Number of Function Evaluations, NFE)而变。从结果可以看到,在 CIFAR-10 和 CelebA 数据集上,研究者的模型可以使用明显更少的步骤来获得与标准高斯去噪扩散模型相同或更好的质量。

关键词: 采样方法 结果表明

上一篇:
下一篇:
精彩阅读

今日快看!CRM热知识: Gartner SFA魔力象限在评估什么

热点

对CRM厂商而言,一年一度的GartnerSFA魔力象限报告是行业内的大事件。

全球最新:虚拟偶像不会塌房?太天真了!

热点

我们先从日本开始,暂且就叫他「行业老大,永争第一队」。

环球精选!“猴子”被美国SEC调查:推广NFT与元宇宙的法律注意事项

热点

一般来说Token的售卖会避开美国地区,NFT则很大程度不会。

当前聚焦:飞书陷入围城:冲不进招聘,飞不出字节

热点

面对用户增长乏力的困境,飞书不得不寻找新的增长方式。但在网络招聘市场,也早有入局者占据头部。

世界速看:全国一网|中国广电整体品牌服装设计项目中标人出炉

热点

近日,中国广电整体品牌服装设计项目比选项目中选候选人公示。

热推荐:【赛事速递】2022全球物联网黑科技大赛海外赛区初赛精彩不断

热点

最后,日本Nanolux公司获得单场第一,纤传中国和圣泰万星分居二、三名。

【全球报资讯】金融债务危机!省网董事长表态!

热点

就公司目前的金融债务情况,王志强局长谈了几点意见。

全球热文:暂停!腾讯在元宇宙重大调整:30亿美金

热点

在元宇宙的商业应用上,toB的产品极有可能先于toC的产品爆发。

世界热讯:谈中国移动的“管建战”

热点

在中国移动近年来的改革中,管战建协同被认为是在拓展信息服务实践中形成的行之有效的治理模式和工作体系。

财富

【世界快播报】年入八位数,这家贝佐斯投资的公司,想取代NBA

资讯

年入八位数,这家贝佐斯投资的公司,想取代NBA,估值35亿,杜兰特、安东尼等NBA巨星都是投资人。

天天新资讯:融资丨「朗誉机器人」完成千万级A+轮融资,动平衡资本投资

资讯

融资丨「朗誉机器人」完成千万级A+轮融资,动平衡资本投资,本轮融资将主要用于扩大生产规模、研发生产和订单备货。

世界焦点!融资丨「晓数绿景」完成近千万天使轮融资,第一资产领投

资讯

融资丨「晓数绿景」完成近千万天使轮融资,第一资产领投,本轮融资资金主要用于碳技术人员的招募和培育、泛建筑场景的能效板块以及IT板块服务。

环球资讯:我在知乎搞创作,8年赚了800块

资讯

我在知乎搞创作,8年赚了800块,赚钱这件事,怎么就这么难

【快播报】融资丨「春外百货」完成数千万元A1轮融资,智胜科技领投

资讯

融资丨「春外百货」完成数千万元A1轮融资,智胜科技领投,本轮融资将用于加速门店扩张、数字化研发、品牌建设、组织升级等方面。

热头条丨混动车充电,活该被嫌弃?

资讯

混动车充电,活该被嫌弃?,解决了续航焦虑,失去了充电自由。

世界视点!法国餐饮供应创业公司Not So Dark完成8000万美元B轮融资丨海外邦

资讯

法国餐饮供应创业公司NotSoDark完成8000万美元B轮融资丨海外邦,目标是打造世界上最大的无厨房餐厅。

环球时讯:抑郁症为何难以治疗?急诊科医生用AI找准大脑病变部位,对因下药

资讯

抑郁症为何难以治疗?急诊科医生用AI找准大脑病变部位,对因下药,以前是在拯救一个个生命,现在是在拯救一个个灵魂。

天天观天下!手打柠檬茶爆火一周年,闯入北方的品牌水土还服吗?

资讯

手打柠檬茶爆火一周年,闯入北方的品牌水土还服吗?,继奶茶、可乐、咖啡之后,柠檬茶试图成为第四大常规性饮品。

今头条!币圈矿难,显卡过冬

资讯

币圈矿难,显卡过冬,一度风光的矿老板,活成了二手市场的显卡贩子,还失去了以往供小于求的议价权。

今日快看!CRM热知识: Gartner SFA魔力象限在评估什么

对CRM厂商而言,一年一度的GartnerSFA魔力象限报告是行业内的大事件。

全球最新:虚拟偶像不会塌房?太天真了!

我们先从日本开始,暂且就叫他「行业老大,永争第一队」。

环球精选!“猴子”被美国SEC调查:推广NFT与元宇宙的法律注意事项

一般来说Token的售卖会避开美国地区,NFT则很大程度不会。

当前聚焦:飞书陷入围城:冲不进招聘,飞不出字节

面对用户增长乏力的困境,飞书不得不寻找新的增长方式。但在网络招聘市场,也早有入局者占据头部。

世界速看:全国一网|中国广电整体品牌服装设计项目中标人出炉

近日,中国广电整体品牌服装设计项目比选项目中选候选人公示。

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个