Midjourney的“Style Tuner”新功能已上线!
Midjourney的“Style Tuner”新功能已上线!

Midjourney的“Style Tuner”新功能已上线!

Midjourney是最受欢迎的AI艺术和文本图像生成器之一,可以从用户使用输入的英语提示中生成高质量、逼真和影视级别的作品,这些作品已经出现在电视和电影中,同时还用于一些文章的配图。

Midjourney的创意来自前Magic Leap程序员David Holz,于2022年夏季推出,自那以后吸引了一个超过1600万用户的社区,他们在独立的消息应用Discord上使用该服务。它由一支小型程序员团队不断更新,增加了新功能,包括全景(panning)、区域变化(vary region)和一个专注于动漫的移动应用程序。

它的最新更新于2023年11月1日晚上发布,被称为“style tuner”,可以说是面向企业、品牌和创作者的最重要更新,尤其是那些希望以相同风格讲述连贯故事的用户。这是因为Midjourney的“style tuner”允许用户生成他们独特的视觉风格,并将其应用于今后在应用程序中生成的任何图像,甚至是所有图像。

在引入风格调节(style tuner)功能之前,用户需要反复提供文本描述,以实现在多个图像中生成一致的风格,但即便如此,也无法保证一致性,因为与大多数AI艺术生成器一样,Midjourney被设计成能提供功能上无限多种图像风格和类型。

现在,用户不再需要依赖他们的语言,而是可以在多种风格之间进行选择,并获得一个代码,将其应用于以后生成的所有作品,使它们保持相同的审美风格。Midjourney用户还可以选择将他们的代码复制粘贴到其他地方以保存并在以后进行参考,甚至与组织内的其他Midjourney用户共享,让他们能够以相同的风格生成图像。这对于企业、品牌以及寻求在统一风格下进行团队创意项目的任何人来说都是非常重要的。以下是它的工作原理:

如何找到Midjourney的“style tuner”功能

用户可以进入Midjourney的Discord服务器,然后简单地键入“/tune”,然后跟上他们的提示,以开始调节他们的风格。

举个例子,假设想要更新产品或服务网站的背景图像,以在冬季包括更多的雪景和舒适的空间。可以输入一个所拥有的单一提示想法,比如“一个机器人穿着一件舒适的毛衣坐在壁炉前,喝着热巧克力”,在“/tune”之后,就像这样:“/tune 一个机器人穿着一件舒适的毛衣坐在壁炉前,喝着热巧克力”。

Midjourney的Discord机器人会回复一个大型自动消息,解释风格调节的整体过程,并询问用户是否要继续。这个过程需要付费的Midjourney订阅计划(从每月10美元开始,或者年付96美元),并使用了每个计划提供的一些快速GPU积分(根据计划级别不同而有所不同,更昂贵的计划提供更多的快速GPU积分)。这些积分用于以比“轻松”模式更快速地生成图像。

选择风格方向和模式以及它们的含义

这条消息包括两个下拉菜单,允许用户选择不同的选项: “风格方向(style directions)” 的数量(16、32、64或128)和 “模式(mode)”(默认或原始)。

“风格方向” 设置表示Midjourney将从用户的提示生成多少不同的图像,每个图像都展示了明显不同的风格。用户随后将有机会从这些图像之间选择他们喜欢的风格,或者将生成的图像结合在一起,创建基于其中几种图像的新元风格。

重要的是,不同的风格方向选项生成的不同数量的图像都会消耗不同数量的快速GPU积分。例如,16种风格方向会消耗0.15个快速GPU积分,而128种风格方向会消耗1.2个积分。因此,用户应该认真思考,明智地选择他们想要生成多少不同的风格以及是否愿意花费这些积分。

与此同时, “模式” 设置是二进制的,允许用户在默认模式和原始模式之间进行选择,这影响照片的外观,是更质朴和颗粒感的照片。原始图像旨在更像电影或DLSR相机,因此可能更接近照片真实,但也可能包含默认、精制和平滑模式所不包含的伪影。

这里选择了16种风格方向和默认模式。在测试中以及一些在线用户报告的情况下,Midjourney错误地为用户提供了比他们要求的风格方向多一级的选项 – 所以在这种情况下,尽管要求了16个,但实际得到了32个。

在选择模式和风格方向之后,Midjourney机器人将询问您是否确定要继续,还会再次显示您使用了多少积分,如果按下绿色按钮,就可以继续。整个过程可能需要多达2分钟。

在哪里找到不同的风格以供选择

当Midjourney完成处理“style tuner”选项后,机器人会回复一条消息,内容是:“style tuner准备就绪!您的自定义style tuner已经生成完成。您现在可以在此查看、分享和生成风格:”,然后附上指向Midjourney Tuner网站的URL(该域名是tuner.midjourney.com)。

生成的URL应该包含一串随机的字母和数字。出于安全考虑,在下面的截图中删除了URL部分。

点击URL会将用户从Discord应用程序带到浏览器中的Midjourney网站。

在网站上,用户将看到一条来自Midjourney的自定义默认消息,显示用户的提示语言,并解释如何完成调谐过程。具体来说,Midjourney要求用户在两个不同的选项之间进行选择,这些选项带有标签按钮:“一次比较两种风格(Compare two styles at a time)”或“从大型网格中选择您喜欢的风格(Pick your favorite from a big grid)”。

在第一种情况下,即“一次比较两种风格”,Midjourney会显示出您之前在Discord的风格方向选项中选择的图像数量,每行两张图片。在这个案例中,是16行。然而,每一行包含两个4×4的图像网格,因此每行有8张图像。

用户可以从每一行中选择一张4×4网格,可以选择多少行,Midjourney将根据这些网格的组合生成一个风格。用户可以通过出现在周围的白色轮廓来判断选择的是哪个网格。

因此,如果选择了第一行右边的图像,以及底部行左边的图像,Midjourney将应用这两种图像风格来生成一个合并风格,用户可以将该合并风格应用于以后生成的所有图像。正如Midjourney在选择页面底部所指出的那样,从每一行选择更多的选项会产生更“细致和一致”的风格,而只选择少量选项会产生“大胆的风格”。

第二个选项,“从大网格中选择您最喜欢的”,允许用户从根据之前用户设置的风格方向数量生成的所有图像中选择一个图像。在这篇文章中,这总共是32张图像,排列成一个8×4的网格。这个选项比“一次比较两种风格”选项更精确,不太模棱两可,但也更具限制性。

在这个案例中,对于这篇文章,将选择“一次比较两种风格”,总共选择5个网格,让算法决定合并风格的外观。

将新调整的风格应用到新的图像和提示中

无论用户选择了多少行或图像来作为他们风格的基础,Midjourney都会自动应用该风格,并将其转换为用户可以手动复制和粘贴到以后的提示中的数字和字母的简短代码。这个简短代码出现在用户独特的Style Tuner页面底部的多个位置,包括一个标记为“Your code is:”的部分,后面跟着代码,以及在底部的持续叠加式字幕元素中的一个示例提示,该提示基于用户最初提供的提示。

用户可以选择复制这个代码并将其保存在其他地方,或者将包含代码的完整原始提示从底部的叠加式字幕中复制。用户还可以通过点击底部的小“刷新”图标(圆形箭头)来重新生成整个风格。

然后,用户需要返回到Midjourney的Discord服务器,并在他们的提示之后粘贴这个代码,如下所示:“imagine/一个机器人穿着一件舒适的毛衣坐在壁炉前,喝着热巧克力 -style [插入风格代码]”。这是使用原始提示和新生成的风格所得的4×4图像网格的结果:

最喜欢第四幅图,所以将选择它,点击“U4”进行放大,然后就出现了结果图,展现了温馨的机器人在壁炉旁喝热巧克力的场景!

现在,将相同的风格应用到一个新提示上,方法是将“–style”语言复制并粘贴/手动添加到新提示的末尾,就像这样:“一个机器人家庭打开礼物 -style [插入风格代码]”。这是结果(在4×4图像网格中选择一个之后):

不错!请注意,这是在多次重新生成的情况下经过来回调整的结果。风格代码也可以与提示中的其他参数一起使用,包括纵横比和尺寸。这是使用相同的提示,但写成这样的16:9版本:“一个机器人家庭打开礼物 -ar 16:9 -style [插入风格代码]”。

这很可爱,但有点奇怪。可建议对这个进行精细调整。