斯坦福大学和谷歌的研究人员发布了“Streetscapes”,一种能够生成真实街景的AI系统。
具体来说,该系统生成长时间、连续的视频序列,模拟在虚拟城市中的驾驶体验。这些视频序列也可以通过NeRF导出为3D格式。
“Streetscapes”基于扩散模型,这些模型广泛用于图像和视频生成。该系统在数百万张来自谷歌街景的真实街景图像上进行了训练,学习了典型街景的外观。
作为输入,“Streetscapes”接收街道地图、建筑高度图以及虚拟城市中的预设摄像路径。然后,它一步步生成逼真的视频序列。生成的街景看起来非常真实,包含许多细节,例如窗户、鹅卵石和植被。光影效果也被自然地渲染出来。
一个关键组件是“运动模块”,它确保连续图像之间的运动和时间一致性。此外,通过一种名为“时间插补”的新技术改进了时间一致性,其中每张新图像的生成都考虑了前几张图像。
与其他方法相比,“Streetscapes”能够生成更长的视频序列:最多100帧,摄像机移动范围超过170米。“Streetscapes”使用的架构已被OpenAI的“Sora”等其他视频生成模型超越。研究团队表示,底层扩散模型可以轻松互换,因此未来版本将提供更好的结果。
“Streetscapes”可以通过文本提示进行控制
除了生成街景外,“Streetscapes”还可以实现创意应用。生成城市的外观可以通过文本描述来控制,例如可以生成一天中的不同时间或天气条件。混合城市布局和建筑风格也是可能的——例如,系统可以以纽约市风格可视化巴黎街道。
研究团队认为,“Streetscapes”是朝着能够真实生成整个无限场景的AI系统迈出的重要一步。未来,他们计划改进对移动物体(如汽车)的控制。他们还希望进一步提高连续图像之间的一致性。