谷歌推出AI工具Whisk,可组合多张图像进行生成
谷歌推出AI工具Whisk,可组合多张图像进行生成

谷歌推出AI工具Whisk,可组合多张图像进行生成

谷歌实验室在美国推出了其最新的生成式AI实验——Whisk。与传统的图像生成器大多依赖文本提示不同,Whisk的重点是将图像作为主要输入方式。

用户可以直接将图像上传到Whisk,或在工具内生成图像,指定主题、场景和风格等元素。系统允许用户混合和匹配这些组件,并在需要时通过额外的文本提示进一步调整结果。

在幕后,谷歌的语言模型——很可能是最近发布的Gemini 2.0 Flash——会自动生成输入图像的详细描述。这些描述随后会输入谷歌最新的图像生成模型Imagen 3,该模型通过捕捉主题的核心特征来生成图像,而不是创建精确的复制品。

创意工具,而非完美的复制机

鉴于Whisk仅从每个源图像中提取少数几个关键元素,谷歌提醒用户,生成的结果可能与预期不符。生成的图像可能在身高、体重、发型或肤色等方面与原图存在差异。谷歌深知这些细节对于项目的成败至关重要,因此它允许用户查看并编辑驱动图像生成过程的文本提示。

早期测试者,包括艺术家和创意专业人士表示,Whisk与其说是标准的图像编辑器,不如说是一种新型的创意工具。谷歌开发它的目的是为了快速进行视觉头脑风暴,而非追求像素级的精准编辑,它能让用户快速生成并筛选数十个选项,再保存自己喜欢的图像。