谷歌推出AI工具Whisk，可组合多张图像进行生成

谷歌实验室在美国推出了其最新的生成式AI实验——Whisk。与传统的图像生成器大多依赖文本提示不同，Whisk的重点是将图像作为主要输入方式。

用户可以直接将图像上传到Whisk，或在工具内生成图像，指定主题、场景和风格等元素。系统允许用户混合和匹配这些组件，并在需要时通过额外的文本提示进一步调整结果。

在幕后，谷歌的语言模型——很可能是最近发布的Gemini 2.0 Flash——会自动生成输入图像的详细描述。这些描述随后会输入谷歌最新的图像生成模型Imagen 3，该模型通过捕捉主题的核心特征来生成图像，而不是创建精确的复制品。

创意工具，而非完美的复制机

鉴于Whisk仅从每个源图像中提取少数几个关键元素，谷歌提醒用户，生成的结果可能与预期不符。生成的图像可能在身高、体重、发型或肤色等方面与原图存在差异。谷歌深知这些细节对于项目的成败至关重要，因此它允许用户查看并编辑驱动图像生成过程的文本提示。

早期测试者，包括艺术家和创意专业人士表示，Whisk与其说是标准的图像编辑器，不如说是一种新型的创意工具。谷歌开发它的目的是为了快速进行视觉头脑风暴，而非追求像素级的精准编辑，它能让用户快速生成并筛选数十个选项，再保存自己喜欢的图像。