如何将自定义字体插入 AI 生成的图像
如何将自定义字体插入 AI 生成的图像

如何将自定义字体插入 AI 生成的图像

上周,一位爱好者在尝试新的 Flux AI 图像合成模型时发现,它在渲染自定义训练的字体方面表现意外出色。尽管展示计算机字体的方法早已存在更高效的方案,但这一新技术对 AI 图像爱好者而言仍然非常有用,因为 Flux 能够准确渲染文本,并允许用户将自定义字体渲染的文字直接插入到 AI 图像生成中。这种能力为字体设计和图像创作提供了更多的可能性和便利。

自1980年代起,我们就拥有了准确地生产平滑计算机渲染字体的技术(1970年代在研究领域)。因此,AI复制字体本身并不是什么新鲜事。然而,一项新技术的出现意味着你可以在AI生成的图像中看到特定的字体,比如在一个逼真的餐馆中的黑板菜单上,或者被机器人狐狸拿着的印刷名片上。

随着主流AI图像合成模型如Stable Diffusion在2022年的出现,有人开始探讨如何将自己的产品、服装、角色或风格融入到AI生成的图像中。一个解决方案就是LoRA,这是一种在2021年发现的技术,它允许用户通过定制训练的模块化附加组件来增强AI基础模型的知识。

这些被称为LoRA的模块,使得图像合成模型能够创造出基础模型训练数据中原本不存在(或表现不佳)的新概念。在实际应用中,图像合成爱好者利用它们来渲染独特的风格(例如,粉笔艺术风格)或主题(例如,详细的蜘蛛侠图像)。每个LoRA都需要使用用户提供的示例进行特别训练。

直到Flux出现之前,大多数AI图像生成器在场景中渲染准确文本方面的表现并不理想。如果你用Stable Diffusion 1.5来生成一个写着“cheese”的标志,它通常会返回一些毫无意义的字符。去年发布的OpenAI DALL-E 3是第一个能够较好地处理文本的主流模型。虽然Flux有时仍会在单词和字母上出现错误,但它是目前我们见过的最擅长渲染“世界内部文本”的AI模型。

由于Flux是一个可以下载和微调的开放模型,因此这个月以来,训练一种字体LoRA可能变得更有意义。这正是一个名叫Vadim Fedenko的AI爱好者最近发现的(。Fedenko在Reddit帖子中写道:“我对这个结果印象深刻。Flux能够识别特定风格/字体中字母的外观,这使得训练带有特定字体、字形等的LoRA成为可能。我会很快训练更多这样的模型。”

在他的第一次实验中,Fedenko选择了一种充满活力的“Y2K”风格字体,这种字体让人联想到1990年代末和2000年代初流行的风格,并于8月20日在Civitai平台上发布了结果模型。两天后,一位名为“AggravatingScree7189”的Civitai用户发布了第二个字体LoRA,复刻了类似于《赛博朋克2077》视频游戏中出现的字体。

一位Reddit用户“eggs-benedryl”在对Fedenko关于Y2K字体的帖子做出反应时写道:“以前文本效果糟糕得让我从未想到可以做到这一点。”另一位Reddit用户写道:“我直到放大查看才知道Y2K日志是假的。”

确实,使用深度训练的图像合成神经网络在简单背景上渲染一个普通字体可能有些过度。你可能不会想用这种方法来替代Adobe Illustrator进行文档设计。

在关于《赛博朋克2077》字体的讨论中,一位Reddit评论者写道:“这看起来不错,但有点搞笑的是我们竟然将字体重新发明为300MB的LoRA。”

生成性AI经常因其环境影响而受到批评,这对于庞大的云数据中心来说是一个有效的担忧。但我们发现,Flux可以在本地的RTX 3060上以量化(缩小体积)形式将这些字体插入到AI生成的场景中(完整的开发模型可以在RTX 3090上运行)。这与在同一台电脑上玩游戏的电力消耗相当。LoRA的创建也是如此:《赛博朋克2077》字体模块的创建者在3090 GPU上花了三小时训练了这个LoRA。

使用AI图像生成器也存在伦理问题,比如它们在未经内容所有者同意的情况下,使用了采集的数据。尽管这一技术在一些艺术家中存在分歧,但仍有大量用户每天使用它,并通过Reddit等社交媒体平台分享结果,这也导致了诸如这种技术的新应用。

截至目前,仅有两个定制的Flux字体LoRA,预计会有更多的字体LoRA被创建。虽然这一技术仍处于早期阶段,但如果AI图像合成技术在未来得到更广泛的应用,创建字体LoRA的技术可能会成为其基础。Adobe及其自身的图像合成模型很可能也在关注这一动向。