当前头条:英伟达入局AIGC!Magic3D新模型力压谷歌DreamFusion

2022-11-24 09:55:06   来源:商业新知网

【导读】 AIGC的赛道上,又多了一个实力派!英伟达发布Magic3D生成模型,对标谷歌DreamFusion,直言解决了对家的两大缺点。


(资料图)

从DALL·E到Stable Diffusion,最近,基于AIGC的技术和应用成为业界和学界的又一宠儿。

Stable Diffusion背后的公司Stability AI甚至凭借这个模型获得多家投资机构青睐,一跃成为独角兽。

如果说资本的嗅觉是最敏锐的,那么科技巨头先后入场也就不足为奇了,这块细分领域迅速地「卷」起来了!

大厂接连入局AIGC,怎能少了英伟达

9月,谷歌发布了基于文本提示生成3D模型的DreamFusion,声称不需要 3D 训练数据,也不需要修改图像扩散模型,证明了预训练图像扩散模型作为先验模型的有效性。

10月,Meta推出新模型Make-A-Video,可以从文本一键生成视频,初步实现了「动动嘴,做视频」。

单说文字直接生成视频这个方面,Make-A-Video 甚至战胜了不少专业的动画设计专业的学生。

上周,英伟达也宣布入场!

该公司研究人员发布了Magic3D,这是一个可以从文字描述中生成3D模型的AI模型。

在输入诸如「一只坐在睡莲上的蓝色毒镖蛙」这样的提示后,Magic3D在大约40分钟内生成了一个3D网格模型,并配有彩色纹理。

在论文中,英伟达将Magic3D定位为对DreamFusion的回应。

论文链接: https://arxiv.org/pdf/2211.10440.pdf

与DreamFusion使用文本到图像模型生成2D图像,然后优化为体积NeRF(神经辐射场)数据的方式类似,Magic3D同样是将低分辨率生成的粗略模型优化为高分辨率的精细模型,由此产生的Magic3D方法,可以比DreamFusion更快地生成3D目标。

从上面Magic3D的架构示意图可以看出,Magic3D以「由粗到细」的方式从输入的文本提示中生成高分辨率的三维内容。

整个生成过程分为两个阶段。

第一阶段,研究团队使用eDiff-I作为低分辨率文本-图像扩散先验。通过优化Instant NGP获得初始3D表示。

之后通过反复抽样和渲染低分辨率图像,不断计算Score Distillation Sampling的损失来训练Instant NGP。

优化后使用DMTet,从Instant NGP中提取一个粗略模型,并使用哈希网格和稀疏加速结构对其进行加速。

该扩散先验用于计算场景的梯度,根据64×64的低分辨率图像在渲染图像上定义的损失进行建模。

第二阶段,研究团队使用高分辨率潜在扩散模型(LDM),不断抽样和渲染第一阶段的粗略模型。通过交互渲染器进行优化,反向生成512×512的高分辨率渲染图像。

Magic3D还可以对3D网格进行基于提示的实时编辑。想改变生成模型,只要改改文字提示,就能立即生成新的模型。

另外,Magic3D可以在几代生成图像中均保留相同的主题(一般称为「一致性」),不会出现越画越离谱的情况,并将2D图像(如立体派绘画)的风格应用于3D模型。

通过该模型,不仅可以获得高分辨率的3D模型,还保证了降低了运算强度。

Magic3D模型中,运算时间主要与高分辨率渲染图像和LDM编码器的梯度相关,保证了运算强度的可控。

在生成和训练速度方面,在使用8块英伟达 A100 GPU情况下,两阶段运行时间加起来共计40分钟。

不过,英伟达此次没有随论文发布任何Magic3D的代码。

谷歌DreamFusion要加油了

英伟达团队指出,DreamFusion存在两大缺陷。

首先,通过该模型,无法获得3D模型的高分辨率几何体或纹理,因为扩散模型仅对64x64的图像生效。

其次,这种方法的扩展性表现并不好。DreamFusion的场景渲染模型使基于Mip-NeRF 360的大型MLP。该模型在体渲染时需要海量样本,这在计算上费时费力。

因此,DreamFusion生成高分辨率的图像需要更大的计算成本,去评估每个样本的神经网络。

英伟达团队使用Instant NGP的哈希特征编码,大大降低高分辨率图像特征表示的计算成本。

使用与DreamFusion相同的文本提示。对于每个3D模型,团队从两个视图渲染它,每个视图都有无纹理渲染,并删除背景以专注于实际的 3D 形状。

可以发现,Magic3D生成的3D模型在整体和纹理上都更胜一筹。

作为对比,我们向用户并排展示了两个3D生成模型的视频,这两个视频分别由谷歌的DreamFusion和Magic3D使用相同的文本提示从标准视图中生成的,由用户选择更逼真的那个。

在总共1191个反馈意见中,有61.7%的用户认为Magic3D生成的模型质量比DreamFusion更高。

研究人员表示,随着模型的完善,所产生的技术可以加速游戏和VR应用的开发,可能最终会在电影和电视的特效制作中实现落地应用。

「我们希望通过Magic3D,可以使3D合成技术进一步普及,并激发每个人在3D内容上的创造力。」

经过近十年的技术发展,人们对AIGC的探索已经进入了商业化、规模化的阶段。

随着越来越多的科技巨头加入这个赛道,创造出令人惊叹的AI生成作品,有理由相信,AIGC的大航海时代已经来临。

关键词: 高分辨率 低分辨率

上一篇:
下一篇:
精彩阅读

【世界快播报】董超华:三种数据埋点实战

热点

数据是数据中台的燃料。搭建数据中台的一项比较重要的工作就是采集企业内所有产品线的数据。

出海拖累快手

热点

重回快手CEO位置一年之后,程一笑交出新一季的成绩单。

Omdia观点:网络切片可使FWA服务对用户更具吸引力

热点

随着XGSPON和多千兆接入的发展势头越来越大,这将具有挑战性。

世界观察:SideQuest能否补上国内VR内容生态短板?

热点

通过第三方应用商店“侧载”,能否成为补齐国内VR内容生态的最佳方案?

速讯:一图读懂《成都市培育元宇宙产业行动方案(2022—2025 年)(征求意见稿)》

热点

一图读懂《成都市培育元宇宙产业行动方案(2022—2025年)(征求意见稿)》

热文:推特的裁员大潮终告一段落,内部人士:正在重新开启招聘

热点

马斯克接管后的推特,迎来了第一波“压力测试”。

全球微资讯!京东落地“新长期主义”

热点

看待京东的目光也应当发生改变了。

【全球独家】Zabbix在中国持续可用的底层逻辑大揭秘

热点

即根据现行法律,对使用Zabbix等开源软件进行监管实际上是不可能的。

财富

世界最新:为什么“直男天堂”迪卡侬,长满了美式辣妹?

资讯

为什么“直男天堂”迪卡侬,长满了美式辣妹?,谁能想到,在2022年这个户外运动大年,有一个“穷鬼”运动品牌飞速崛起,受喜爱度甚至超过了Lulu

每日资讯:大润发们的“阵痛”

资讯

大润发们的“阵痛”,现如今,还有更多传统商超依旧处在角落里艰难求存。

每日动态!有人倾家荡产,有人赚得盆满钵满,同一场「大败局」,不一样的「幸存者」

资讯

有人倾家荡产,有人赚得盆满钵满,同一场「大败局」,不一样的「幸存者」,在商海拼搏的企业家们又何尝不是如此?

“疯狂”的汪小菲,赢麻的麻六记

资讯

“疯狂”的汪小菲,赢麻的麻六记,汪小菲的“念念不忘”,让麻六记出现回响。

当前最新:融资丨「亿格云」完成A轮近亿元融资,元璟资本领投

资讯

融资丨「亿格云」完成A轮近亿元融资,元璟资本领投,本轮融资主要用于产品技术迭代、应用场景拓展、客户服务交付及团队人才建设等方面。

「中国达美乐」上市了,30分钟披萨外卖生意怎么做?

资讯

「中国达美乐」上市了,30分钟披萨外卖生意怎么做?,这家披萨店以“30分钟必达”闻名。下单的披萨一定会在30分钟内送到你的手上,超时则免费赠

世界杯爆冷门,中国足球投资爆“冷”

资讯

世界杯爆冷门,中国足球投资爆“冷”,足球要想重获投资,必须重建投资人信心。

赚钱的爱奇艺,还没逃出「爆款周期」

资讯

赚钱的爱奇艺,还没逃出「爆款周期」,不花钱,就不会亏钱

世界热头条丨百威的苦恼:花了7500万美元后,世界杯藏起了啤酒杯

资讯

百威的苦恼:花了7500万美元后,世界杯藏起了啤酒杯,几乎是最后一刻,百威啤酒被排斥在了世界杯场馆之外。

焦点热文:亚马逊、阿里们竞相押注,AR购物是刚需还是噱头?

资讯

亚马逊、阿里们竞相押注,AR购物是刚需还是噱头?,直播降温,AR救驾?

【世界快播报】董超华:三种数据埋点实战

数据是数据中台的燃料。搭建数据中台的一项比较重要的工作就是采集企业内所有产品线的数据。

出海拖累快手

重回快手CEO位置一年之后,程一笑交出新一季的成绩单。

Omdia观点:网络切片可使FWA服务对用户更具吸引力

随着XGSPON和多千兆接入的发展势头越来越大,这将具有挑战性。

世界观察:SideQuest能否补上国内VR内容生态短板?

通过第三方应用商店“侧载”,能否成为补齐国内VR内容生态的最佳方案?

速讯:一图读懂《成都市培育元宇宙产业行动方案(2022—2025 年)(征求意见稿)》

一图读懂《成都市培育元宇宙产业行动方案(2022—2025年)(征求意见稿)》

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个