2022-11-02 16:01:14 来源:商业新知网
最近几个月,一种强大的新形式的人工智能突然出现并吸引了公众的想象力:文本到图像的生成式人工智能。
文本到图像的 AI 模型只需要根据简单的文字输入就能生成原始图像。用户可以输入他们喜欢的任何文字提示——比如,“一只可爱的柯基犬住在一个用寿司做的房子里”——然后,人工智能就像施了魔法一样,会产生相应的图像。(此示例见上文)
这些模型产生的图像在世界上和任何人的想象中都从未存在过。它们不是对互联网上现有图像的简单操作;它们是新颖的创作,其独创性和复杂性令人叹为观止。
(资料图)
最著名的文本到图像模型是 OpenAI 的 DALL-E。OpenAI 于 2021 年 1 月推出了最初的 DALL-E 模型。其继任者 DALL-E 2 于 2022 年 4 月发布。DALL-E 2 引起了公众的广泛关注,将文本转图像技术推向了主流。
在围绕 DALL-E 2 的兴奋之后,没过多久竞争对手就出现了。几周之内,一个名为“DALL-E Mini”的轻量级开源版本风靡一时。与 OpenAI 或 DALL-E 无关,DALL-E Mini 在 OpenAI 的压力下更名为 Craiyon。
5 月,谷歌发布了自己的文本到图像模型,名为 Imagen。(本文所有图片均来自Imagen。)
此后不久,一家名为 Midjourney 的初创公司出现了一个强大的文本到图像模型,该模型已可供公众使用。Midjourney 的用户增长惊人:仅在两个月前推出,截至撰写本文时,其 Discord 组中的用户已超过 180 万。Midjourney 最近登上了《经济学人》的封面和约翰·奥利弗的深夜电视节目。
该类别中的另一个关键进入者是 Stability.ai,它是 Stable Diffusion 模型背后的初创公司。与任何其他竞争对手不同,Stability.ai 公开发布了其 AI 模型的所有细节,在线发布模型的权重供任何人访问和使用。这意味着,与 DALL-E 或Midjourney不同,Stable Diffusion 可用于生成的内容没有过滤器或限制,包括暴力、色情、种族主义或其他有害内容。
Stability.ai 的完全无限制发布策略一直存在争议。另一方面,该公司毫无歉意的开放精神正在帮助它围绕其平台建立一个强大的开发人员和用户社区,这可能被证明是一种宝贵的竞争优势。
关于作为当今生成 AI 基础的突破性技术有很多话要说,但特别值得强调的一项关键创新是:扩散模型。最初受到热力学概念的启发,扩散模型在过去一年中大受欢迎,迅速取代了生成人工网络 (GAN),成为基于 AI 的图像生成的首选方法。DALL-E 2、Imagen、Midjourney 和 Stable Diffusion 都使用扩散模型。
简而言之,扩散模型通过使用增加的噪声破坏训练数据来学习,然后找出如何逆转这种噪声过程以恢复原始图像。一旦经过训练,扩散模型就可以应用这些去噪方法从随机输入中合成新颖的“干净”数据。
退一步说,我们要如何看待这个领域最近的所有活动和声音?事情将何去何从?以下是四个预测,旨在消除噪音并为您提供有关生成 AI 狂野新世界的原始观点。
图注:“撒哈拉沙漠中戴着草帽和霓虹墨镜的小仙人掌。”资料来源:谷歌
除了杀手级应用的问题之外,还有一个相关但独特的话题,即这一类别的竞争格局将如何演变,以及哪些产品和上市策略将被证明是最有效的。
OpenAI 和 Midjourney 等先行者已将自己定位为与行业无关的核心 AI 技术的横向供应商。他们构建了通用的文本到图像模型,通过 API 将它们提供给客户(按使用付费),并将其留给用户来发现他们自己的用例。
一个或多个横向参与者是否会通过提供一个基础的文本到图像平台来实现大规模运作,在该平台上构建一个由各种应用程序组成的整个生态系统?如果是这样,它会是赢家通吃吗?随着技术最终商品化,这样的企业的长期护城河是什么?
或者随着行业的成熟和不同的用例成为焦点,为特定应用程序构建专门构建的专业解决方案是否会有更多价值?
例如,可以想象一种专为汽车行业设计的用于新车型设计的文本到图像的解决方案。除了 AI 模型本身针对此特定用例的训练数据进行微调外,此类解决方案可能包括完整的 SaaS 产品套件和完善的用户界面,旨在无缝集成到汽车设计师的整体工作流程中。
另一个关键的战略问题涉及核心 AI 模型本身。这些模型能否成为公司可持续的防御来源,还是会迅速商品化?回想一下,Stable Diffusion 是当今领先的文本到图像模型之一,它已经完全开源,其所有权重都可以在线免费获得。与利用开源社区或其他公司已经构建的模型相比,新创业公司在内部训练自己专有的文本到图像模型的频率和条件是多少?
我们还不能确定地知道这些问题中的任何一个的答案。我们唯一可以确定的是,在未来的几个月和几年里,这个领域将以令人惊讶、意想不到的方式发展。新技术的部分魔力在于它开启了以前无法想象的可能性。当拨号上网第一次出现时,谁预测到了 YouTube?当第一部智能手机问世时,谁看到了优步的到来?
企业家最终将通过自己设想和建设未来来回答这些问题。
这些问题不仅仅是理论上的;它们将产生非常真实和直接的商业后果。是否以及如何解决这些问题将对使用该技术的公司的战略和机会产生重大影响。企业家和投资者需要注意。
“如果按照我认为 [OpenAI] 设想的方式采用 DALL-E,那么使用该工具将产生大量收入,”贝克麦坚时律师事务所专注于人工智能的律师 Bradford Newman说. “而且当你在市场上有很多参与者和问题时,你就有很高的诉讼机会。”
OpenAI 目前声明的政策是,DALL-E 的个人用户拥有将他们使用该模型创建的图像商业化的全部权利——包括重印、出售或商品化图像的权利——但 OpenAI保留对原始图像的最终所有权。Midjourney 的服务条款也有类似的说法。
但是,当涉及这些图像的高风险争议不可避免地被提起诉讼时,法院会这样看吗?这是未知的领域;没有直接的法律先例。
Epstein Becker & Green 律师事务所的高级合伙人 Jim Flynn提供了一个具体的例子来说明其中的动态:“如果我代表其中一家广告公司或广告公司的客户,我不会建议他们使用这个软件来创建一个活动,因为我确实认为人工智能提供商会[目前]对知识产权有一些要求。我会寻求谈判一些更明确的东西。”
最终,这些问题不应被视为技术的阻碍,而应被视为在这个新兴行业全速前进时将发挥作用的未解决问题。别搞错了:法律上的模糊性不会阻止企业家和技术人员推动这一领域的先进技术,也不会阻止建立将这项技术带给大众的企业。
OpenAI 的一位发言人总结得很好:“版权法过去已经适应了新技术,并且需要对人工智能生成的内容做同样的事情。”
融资丨「江行智能」完成1 5亿元pre-B轮融资,朗玛峰资本等机构投资,本轮融资将主要用于技术创新、双碳相关解决方案研发、创新应用场景与业务拓
融资丨「六方云」完成C1轮2亿元融资,北创投领投,六方云将把本轮融资主要用于核心技术及产品上下游产业布局、市场拓展、人才队伍和平台建设等。
融资丨「HealthJoy」获得6000万美元D轮融资,Valspring领投,HealthJoy公司将把这笔资金用于公司持续增长。
网球名将威廉姆斯姐妹领投,投资社交平台Shares完成4000万美元融资丨海外邦,Williams姐妹也将担任该公司的形象大使。
随着2022年卡塔尔世界杯的临近,中国广电方面也针对性的发出了新的广电5G营销推广活动信息。
“葬爱家族”复活记:铁打的边缘人。
日益臃肿的微信也一直被外界吐槽:实际上90%左右的更新都用不到。
人工智能驾驭下的数据,成为推动新一轮经济增长的决定性要素。那么这就是人口结构恶化下的一个强对冲。
生成式AI还很早期。平台层刚刚好,而应用空间几乎还没开始。但预计AI的杀手级应用将出现,比赛正在进行。