首页> 热点 >

世界快资讯：关于文本到图像生成式AI ：狂野新世界的4 个预测

2022-11-02 16:01:14 来源：商业新知网

作者｜格林出品 |新芒X

最近几个月，一种强大的新形式的人工智能突然出现并吸引了公众的想象力：文本到图像的生成式人工智能。

文本到图像的 AI 模型只需要根据简单的文字输入就能生成原始图像。用户可以输入他们喜欢的任何文字提示——比如，“一只可爱的柯基犬住在一个用寿司做的房子里”——然后，人工智能就像施了魔法一样，会产生相应的图像。（此示例见上文）

这些模型产生的图像在世界上和任何人的想象中都从未存在过。它们不是对互联网上现有图像的简单操作；它们是新颖的创作，其独创性和复杂性令人叹为观止。

(资料图)

最著名的文本到图像模型是 OpenAI 的 DALL-E。OpenAI 于 2021 年 1 月推出了最初的 DALL-E 模型。其继任者 DALL-E 2 于 2022 年 4 月发布。DALL-E 2 引起了公众的广泛关注，将文本转图像技术推向了主流。

在围绕 DALL-E 2 的兴奋之后，没过多久竞争对手就出现了。几周之内，一个名为“DALL-E Mini”的轻量级开源版本风靡一时。与 OpenAI 或 DALL-E 无关，DALL-E Mini 在 OpenAI 的压力下更名为 Craiyon。

5 月，谷歌发布了自己的文本到图像模型，名为 Imagen。（本文所有图片均来自Imagen。）

此后不久，一家名为 Midjourney 的初创公司出现了一个强大的文本到图像模型，该模型已可供公众使用。Midjourney 的用户增长惊人：仅在两个月前推出，截至撰写本文时，其 Discord 组中的用户已超过 180 万。Midjourney 最近登上了《经济学人》的封面和约翰·奥利弗的深夜电视节目。

该类别中的另一个关键进入者是 Stability.ai，它是 Stable Diffusion 模型背后的初创公司。与任何其他竞争对手不同，Stability.ai 公开发布了其 AI 模型的所有细节，在线发布模型的权重供任何人访问和使用。这意味着，与 DALL-E 或Midjourney不同，Stable Diffusion 可用于生成的内容没有过滤器或限制，包括暴力、色情、种族主义或其他有害内容。

Stability.ai 的完全无限制发布策略一直存在争议。另一方面，该公司毫无歉意的开放精神正在帮助它围绕其平台建立一个强大的开发人员和用户社区，这可能被证明是一种宝贵的竞争优势。

关于作为当今生成 AI 基础的突破性技术有很多话要说，但特别值得强调的一项关键创新是：扩散模型。最初受到热力学概念的启发，扩散模型在过去一年中大受欢迎，迅速取代了生成人工网络 (GAN)，成为基于 AI 的图像生成的首选方法。DALL-E 2、Imagen、Midjourney 和 Stable Diffusion 都使用扩散模型。

简而言之，扩散模型通过使用增加的噪声破坏训练数据来学习，然后找出如何逆转这种噪声过程以恢复原始图像。一旦经过训练，扩散模型就可以应用这些去噪方法从随机输入中合成新颖的“干净”数据。

退一步说，我们要如何看待这个领域最近的所有活动和声音？事情将何去何从？以下是四个预测，旨在消除噪音并为您提供有关生成 AI 狂野新世界的原始观点。

一：在接下来的 12 个月内，大量风险投资将涌入这一赛道。

风险投资界已经开始流传一种说法，即文本到图像的人工智能是“下一件大事”。毫无疑问，这项技术是非凡的。时间会证明它是否以及如何成为大规模、经久不衰的企业的基础。

无论如何，随着投资者寻求乘风破浪，预计短期内该领域会出现一连串的风险投资。

上周开场，有报道称 Stability.ai 正在从 Lightspeed 和 Coatue 等蓝筹投资者那里以高达 10 亿美元的估值筹集高达 1 亿美元的资金。

这不会是该类别中的最后一笔巨额交易。例如，Midjourney 目前可能会吸引大量入境投资者的兴趣。到目前为止，Midjourney 一直由创始人 David Holz（前 Leap Motion 首席技术官/联合创始人）自筹资金，但如果该公司很快决定用风险投资资金填补其资金池，以便在这个日益增长的领域竞争和扩大规模，请不要感到惊讶快速发展的生态系统。

许多新的文本到图像的初创公司将在未来几个月内出现，它们具有不同的愿景和方法来将这种强大的新技术商业化。即使在当今不利的市场条件下，风险资本家也会热切地为其中许多人提供资金。

二：该技术最大的商业机会和最佳商业模式尚未被发现。

迄今为止，推动文本到图像 AI 采用的主要用例是个人用户的纯粹新颖性和好奇心。难怪任何玩过这些模型的人都可以证明，这是一种令人振奋和引人入胜的体验，尤其是刚开始时。

但从长远来看，个人爱好者的随意使用本身并不太可能维持大规模的新业务。

哪些用例将释放巨大的企业价值创造，并为这项技术带来最引人注目的商机？简而言之，文本到图像 AI 的“杀手级应用”是什么？

立即想到的一个应用程序是广告。广告本质上是视觉的，因此非常适合这些生成的 AI 模型。毕竟，广告为 Alphabet 和 Facebook 等科技巨头的商业模式提供了动力，这些都是历史上最成功的企业之一。

一些品牌，例如卡夫亨氏，已经开始尝试使用 DALL-E 2 等人工智能模型来制作新的广告内容。毫无疑问，我们会看到更多这样的情况。但是，坦率地说，让我们都希望能为这项令人难以置信的新技术找到更有意义的用例，而不仅仅是更多的广告。

退后一步，考虑一下这些 AI 模型可以快速、经济且富有想象力地生成和迭代任何视觉内容，而无需任何特殊的专业知识或培训。当我们如此广泛地界定这项技术的范围时，就会更加明显地发现，各种变革性的、颠覆性的商业机会应该会出现。

也许这项技术最直观的用例是创造艺术。全球美术市场规模为 650 亿美元。即使撇开这个高端市场不谈，文本到图像 AI 可以应用于艺术的更多日常用途：书籍封面、杂志封面、明信片、海报、音乐专辑设计、壁纸、数字媒体等等。

以库存图片为例。库存图像可能看起来是一个相对利基的市场，但它本身代表了一个价值数十亿美元的机会，包括 Getty Images 和 Shu tterstock 在内的公开交易的竞争对手。这些企业面临着生成人工智能的生存破坏。

从长远来看，任何实体产品（汽车、家具、衣服）的设计（以及生产）都可以转变，因为生成式 AI 模型被用于构思新颖的功能和设计，从而吸引消费者。

3. 文本到图像的人工智能将引发版权、法律和道德问题的蜂窝。不要指望这些会减慢技术速度。

任何能够深刻改变现状的新技术都会与现有的社会规范和政策框架产生摩擦和挑战。生成式人工智能也不例外。

这项技术引发了许多宏观问题：人工智能驱动的工作岗位流失这一永远存在的话题，这些模型加剧的深度伪造的迫在眉睫的威胁，什么是真正的艺术以及人工智能是否可以创造的哲学问题。这些问题没有简单的答案，关于这些问题的公众讨论将持续多年。

这里有一个近期值得简要讨论的问题：谁拥有并有权将这些模型产生的图像商业化的问题。

提出文本提示并将其输入 AI 模型的人能否获取生成的图像并用它做任何他或她喜欢的事情（包括在商业环境中）？或者构建 AI 模型的组织是否保留对该模型产生的所有媒体的权利？如果 AI 模型是开源的呢？

让事情更复杂的是，谷歌和 OpenAI 等公司首先创建这些模型的方式是通过对这些公司不拥有的大量公开可用图像进行训练，包括无数其他艺术家、设计师和组织。

这些问题不仅仅是理论上的；它们将产生非常真实和直接的商业后果。是否以及如何解决这些问题将对使用该技术的公司的战略和机会产生重大影响。企业家和投资者需要注意。

“如果按照我认为 [OpenAI] 设想的方式采用 DALL-E，那么使用该工具将产生大量收入，”贝克麦坚时律师事务所专注于人工智能的律师 Bradford Newman说. “而且当你在市场上有很多参与者和问题时，你就有很高的诉讼机会。”

OpenAI 目前声明的政策是，DALL-E 的个人用户拥有将他们使用该模型创建的图像商业化的全部权利——包括重印、出售或商品化图像的权利——但 OpenAI保留对原始图像的最终所有权。Midjourney 的服务条款也有类似的说法。

但是，当涉及这些图像的高风险争议不可避免地被提起诉讼时，法院会这样看吗？这是未知的领域；没有直接的法律先例。

Epstein Becker & Green 律师事务所的高级合伙人 Jim Flynn提供了一个具体的例子来说明其中的动态：“如果我代表其中一家广告公司或广告公司的客户，我不会建议他们使用这个软件来创建一个活动，因为我确实认为人工智能提供商会[目前]对知识产权有一些要求。我会寻求谈判一些更明确的东西。”

最终，这些问题不应被视为技术的阻碍，而应被视为在这个新兴行业全速前进时将发挥作用的未解决问题。别搞错了：法律上的模糊性不会阻止企业家和技术人员推动这一领域的先进技术，也不会阻止建立将这项技术带给大众的企业。

OpenAI 的一位发言人总结得很好：“版权法过去已经适应了新技术，并且需要对人工智能生成的内容做同样的事情。”

图注：“泰迪熊在

奥运

会 400 米蝴蝶比赛中游泳。”由 Google Brain 提供

四：这项技术将很快变得更加令人兴奋。

与今天的文本到图像模型一样令人印象深刻，我们仍处于生成人工智能扩散的最早阶段。文本到图像只是一个开始。

最自然的下一步将是文本到视频的AI 模型：生成模型可以接受文本描述，不仅可以生成静态图像，还可以生成指定长度的视频。

不用说，文本到视频是比文本到图像更复杂的技术挑战。一方面，它需要更大的计算资源；另一方面，注释良好的视频训练数据是稀缺的。

但这里的机会是巨大的。从 TikTok 到 Netflix，视频已成为我们数字生活的主要媒介。据思科称，当今互联网上超过 80% 的数据是视频。从娱乐到社交媒体再到营销等等，轻松、廉价地按需生成新视频内容的能力将带来变革。

该主题最有前途的学术研究是 CogVideo ，这是 2022 年 5 月发布的大规模文本转视频模型。就在两天前，视频 A I 初创公司 Runway 宣布即将在其平台上发布文本转视频工具，它说 “即将推出”。 Run way 似乎正在与 Stability.ai 合作开展这项工作。

未来创新的另一个途径是生成 3D 数字内容的 AI 模型（与 DALL-E 等模型的 2D 输出相反）。这项技术将对游戏、动画电影制作和虚拟世界等领域产生巨大影响。

最后一种诱人的可能性：想象将生成的 AI 模型与 3 D 打印机配对，以实现文本到现实世界的对象生成。正如一位推特用户生动描述的那样： “字面上是用咒语召唤物体。 ”

可以肯定的是，这在今天仍然遥不可及。但是，使这样的事情成为现实的核心技术构建块基本上已经到位。

未来将是令人兴奋的，它会比你想象的更早到来。

关键词：人工智能风险投资

精彩阅读

财富

世界快资讯：关于文本到图像生成式AI ：狂野新世界的4 个预测

作者 ｜格林 出品 |新芒X

一：在接下来的 12 个月内，大量风险投资将涌入这一赛道。

风险投资界已经开始流传一种说法，即文本到 图像 的人工智 能是“下一件大事”。 毫 无疑问，这项技术 是 非凡的。 时间 会证明 它是否以及如何成为大规模、经久不衰的企业的基础。

无论如何，随着投资者寻求乘风破 浪，预计短期内该领域会出现一连串的风险投资。

上周开场，有报道称 Stability.ai 正在从 Lightspeed 和 Coatue 等蓝筹投资者那里以高达 10 亿美元的估值筹集高达 1 亿美元的资金。

许多新的文本到图像的初创公司将在未来几个月内出现，它们具有不同的愿景和方法来将这种强大的新技术商业化。 即使在当今不利的市场条件下，风险资本家也会热切地为其中许多人提供资金。

二：该技术最大的商业机会和最佳商业模式尚未被发现。

迄今为止，推动文本到 图像 AI 采用的 主要 用例 是个人用户的 纯粹 新颖性和好奇心。 难怪 任何 玩过这 些模 型的人都 可以证明，这是一种 令人振奋和引人入胜的体验，尤其是刚开始时。

但从长远来看，个人爱好者的随意使用本 身并不太可能维持大规模的新业务。

哪些用例将释放巨大的 企业价值创造，并为这项技术带来最引人注目的商机？ 简而言之，文本到图像 AI 的“杀手级应用”是什么？

立 即想到的一个应用程序是广告。 广告本质上是视觉的，因此非常适合这些生成的 AI 模型。 毕竟，广告为 Alphabet 和 Facebook 等科技巨头的商业模式提供了动力，这些都是历史上最成功的企业之一。

以库存图片为例。 库存图像可能看起来是一 个 相对 利基的 市场，但它本身代表了一个价值数十亿 美 元的机会，包括 Getty Images 和 Shu tterstock 在内 的 公开 交易 的 竞争对手。 这些 企业 面 临着生成人工智能的生存破坏。

从长远来看，任何实体 产品（汽车、家具、衣服）的 设 计 （以及生产）都可以 转 变 ， 因为 生成式 AI 模型 被用于构思新颖 的功能和设计 ，从而吸引消费者。

相关地，文本到图像的人工智能可能会通过“提出”独特的、意想不到的新结构和布局来影响建筑和建筑设计，进而激发人类建筑师的灵感。 今天 已经在进行 这些方面的初步 工作。

3. 文本到图像的人工智能将引发版权、法律和道德问题的蜂窝。不要指望这些会减慢技术速度。

任何 能够 深刻改变现状 的新 技术 都会与 现有的社会规范 和政策 框架 产生摩擦和挑战。 生成式 人工 智 能 也不 例 外。

这里有一个近期值得 简要 讨论的问 题 ： 谁 拥有 并有 权 将 这些 模型产生的图像商业化的 问题。

提出文本提示并将 其输入 AI 模型的人能 否获取 生成 的图像 并用它做任何他或她喜欢的 事情（包括在商业环境中）？ 或者构建 AI 模型的组织是否 保留 对该模型产生的所有媒体的权利？ 如果 AI 模型是开源的呢？

让事情更复杂的是，谷歌和 OpenAI 等公司首先创建这些模型 的方式是通过对这些公司不拥有的 大量公 开可用图像进行 训练，包括无数其他艺术家、设计师和组织。