差不多一年前,Sakana AI,这家总部位于东京的初创公司凭借来自 Google 的高管创始人和一种新颖的基于自动化合并的方法在 AI 领域引起了轰动。近日,其宣布了两款新的图像生成模型:Evo-Ukiyoe 和 Evo-Nishikie。
这两款模型现已在 Hugging Face 上提供,旨在通过文本和图像提示生成图像。不过,与处理不同风格的常规图像生成不同,这些模型专注于日本流行的历史艺术形式——浮世绘。浮世绘在 17 世纪至 19 世纪间繁荣发展,Sakana 希望借助 AI 的力量将其重新带给现代消费者。
这一举措标志着人工智能领域最新的本地化努力——这一趋势在过去一年中不断增长,韩国、印度等国家的公司都在开发适合各自文化和方言的模型。
新的 Sakana AI 模型有何期待?
浮世绘可追溯到 17 世纪初,它作为日本的一种流行艺术形式,主要描绘历史场景、风景、相扑摔跤手等主题。这个艺术流派最初以单色木版画为主,后来发展成全彩印刷或多块木版画的“锦绘”。由于多个因素,包括数字摄影的兴起,这种艺术风格在 19 世纪的受欢迎程度开始下降。
现在,Sakana 推出两款图像生成模型,希望将这一历史艺术形式重新带回大众文化。第一款模型是 Evo-Ukiyoe,它是一个文本到图像的生成工具,能够生成与浮世绘风格相似的图像,特别是当输入描述浮世绘常见元素如樱花、和服或鸟类的文本时。它甚至可以生成包含当时不存在的事物的浮世绘风格艺术作品,如汉堡包或笔记本电脑,但公司指出,有时生成的结果可能偏离浮世绘风格,表现得不够像浮世绘。
该模型基于 Evo-SDXL-JP,Sakana 使用其新颖的进化模型融合技术在 Stability AI 的 SDXL 和其他开源扩散模型的基础上进行开发。公司表示,它使用了 LoRA(低秩自适应)技术,通过与京都立命馆大学艺术研究中心(ARC)的合作,精细调整了 Evo-SDXL-JP,使用的数据集包含了超过 24,000 件经过精心标注的浮世绘艺术作品。
“我们从 ARC 收藏的浮世绘数字图像中策划了这一数据,涵盖了各种主题,包括完整的艺术作品和以面部为中心的图像。我们还重点关注了多彩的锦绘作品,考虑到色彩的美丽和多样性。”公司在博客文章中写道。
第二款模型 Evo-Nishikie 是一个图像到图像的生成工具,可以为单色浮世绘版画上色。Sakana 表示,它能够为使用单色油墨印刷的历史书籍插图添加色彩,或为现有的多色锦绘版画赋予全新的外观。用户只需提供源图像,并可能附上一组描述需要上色元素的说明即可。
Sakana 透露,该模型的开发过程包括在 Evo-Ukiyoe 上进行 ControlNet 训练,使用固定的提示和条件图像。
进一步研究与开发目标
尽管这些模型目前仅支持日语提示,并且处于早期阶段,Sakana 希望通过教会 AI 传统的“日本美学”,能够将日本文化的魅力传播到全球,并在教育和新的经典文学欣赏方式中找到应用。
目前,公司已在 Hugging Face 上提供了这两款模型及相关代码。存储库中的 Python 脚本和 LoRA 权重都采用 Apache 2.0 许可证。
“该模型仅用于研究和开发目的,应视为实验性原型。它不适用于商业用途或关键任务环境。使用该模型风险自负,其性能和结果不作保证。”公司在 Hugging Face 上注明。
截至目前,Sakana AI 已获得来自多个投资者的 3000 万美元资金,其中包括投资过 Hugging Face 等开创性 AI 公司的 Lux Capital,以及早在 2019 年投资 OpenAI 的 Khosla Ventures。