面对日益激烈的竞争和伦理挑战,AI创业公司Stability AI继续改进其生成式AI模型。
7月26日Stability AI宣布推出Stable Diffusion XL 1.0,这是一种文本到图像的模型,该公司称其为迄今为止的“最先进”版本。除了Stability的API和消费者应用ClipDrop和DreamStudio,Stable Diffusion XL 1.0在GitHub上以开源方式提供,Stability声称它提供比前代模型更“生动”、“准确”的色彩,以及更好的对比度、阴影和照明。
Stability AI的应用机器学习负责人Joe Penna指出,包含35亿参数的Stable Diffusion XL 1.0可以在“几秒钟内”以多种宽高比以全1百万像素分辨率生成图像。“参数”是从训练数据中学习的模型的部分,基本上定义了模型在一个问题上的能力,在这种情况下是生成图像。
上一代Stable Diffusion XL 0.9也能生成高分辨率图像,但需要更强大的计算力。
“Stable Diffusion XL 1.0是可定制的,可针对概念和风格进行微调。”Penna说,“它也更易于使用,能够使用基本的自然语言处理提示完成复杂的设计。”
此外,Stable Diffusion XL 1.0在文本生成方面的性能也有改进。尽管许多最好的文本到图像模型在生成可读的徽标时会遇到困难,更不用说书法或字体了,但Stable Diffusion XL 1.0能够实现“高级”的文本生成和可读性,Penna说。
而且,正如SiliconAngle和VentureBeat报道的那样,Stable Diffusion XL 1.0支持图像修复(重建图像缺失部分)、图像外推(扩展现有图像)和“图像到图像”提示——这意味着用户可以输入一张图像并添加一些文本提示来创建该图片的更详细变体。此外,该模型可以理解复杂的、多部分短提示提供的指示,而之前的Stable Diffusion模型需要更长的文本提示。
“我们希望通过发布这个更强大的开源模型,不仅分辨率会成四倍,还能极大地惠及所有用户。”他补充道。
但是,与Stable Diffusion之前的版本一样,该模型提出了棘手的道德问题。理论上,Stable Diffusion XL 1.0的开源版本可能被不法分子用来生成有害或有毒内容,如未经同意的深伪视频。这在一定程度上反映了用于训练模型的数据:来自网络的数百万张图像。
无数教程演示了如何使用Stability AI自己的工具,包括DreamStudio(Stable Diffusion的开源前端)来创建深伪。许多其他教程展示了如何调优基础Stable Diffusion模型以生成色情内容。Penna并不否认滥用的可能性——并承认该模型确实存在某些偏见。但他补充说,Stability AI通过过滤模型的训练数据中“不安全”的图像,发布与有问题的提示相关的新警告,并在工具中屏蔽尽可能多的具体有问题术语等“额外步骤”来减轻有害内容生成。
Stable Diffusion XL 1.0的训练数据集还包括反对包括Stability AI在内的公司使用他们的作品训练生成式AI模型的艺术家的作品。Stability AI声称,至少在美国,它受公平使用学说的法律保护。但这并未阻止几位艺术家和Getty Images公司提起诉讼,要求停止这种做法。Stability AI声称与创业公司Spawning建立合作关系可以尊重这些艺术家的“选择退出”请求,它并未从训练数据集中删除所有被标记的艺术作品,但“会继续吸收艺术家的请求”。
Stability AI首席执行官Emad Mostaque在新闻稿中表示:“最新SDXL模型代表了Stability AI创新遗产的下一步,以及将最尖端的开放访问模型引入市场为AI社区服务的能力。”“在Amazon Bedrock上发布1.0版本展示了我们与AWS强有力合作的坚定承诺,为开发者和客户提供最佳解决方案。”
为配合Stable Diffusion XL 1.0的发布,Stability AI正在推出公测版的API微调功能,允许用户只使用5张图片就可以“特化”生成特定人员、产品等的图像。该公司还将Stable Diffusion XL 1.0引入Bedrock,亚马逊的生成AI模型托管云平台——这进一步扩展了其与AWS之前公布的合作。
在面临OpenAI、Midjourney等公司强大竞争的同时,Stability AI商业化努力也遭遇了低迷,这促使其推出合作伙伴关系和新功能。Stability AI迄今已募集了超过1亿美元的风险投资,但现金流正在迅速消耗——导致6月发行了2500万美元的可转债券和招募高管来帮助扩大销售。