Streetscapes AI 从零开始生成整个城市极为逼真的“街景”

斯坦福大学和谷歌的研究人员发布了“Streetscapes”，一种能够生成真实街景的AI系统。

具体来说，该系统生成长时间、连续的视频序列，模拟在虚拟城市中的驾驶体验。这些视频序列也可以通过NeRF导出为3D格式。

“Streetscapes”基于扩散模型，这些模型广泛用于图像和视频生成。该系统在数百万张来自谷歌街景的真实街景图像上进行了训练，学习了典型街景的外观。

作为输入，“Streetscapes”接收街道地图、建筑高度图以及虚拟城市中的预设摄像路径。然后，它一步步生成逼真的视频序列。生成的街景看起来非常真实，包含许多细节，例如窗户、鹅卵石和植被。光影效果也被自然地渲染出来。

一个关键组件是“运动模块”，它确保连续图像之间的运动和时间一致性。此外，通过一种名为“时间插补”的新技术改进了时间一致性，其中每张新图像的生成都考虑了前几张图像。

与其他方法相比，“Streetscapes”能够生成更长的视频序列：最多100帧，摄像机移动范围超过170米。“Streetscapes”使用的架构已被OpenAI的“Sora”等其他视频生成模型超越。研究团队表示，底层扩散模型可以轻松互换，因此未来版本将提供更好的结果。

除了生成街景外，“Streetscapes”还可以实现创意应用。生成城市的外观可以通过文本描述来控制，例如可以生成一天中的不同时间或天气条件。混合城市布局和建筑风格也是可能的——例如，系统可以以纽约市风格可视化巴黎街道。

研究团队认为，“Streetscapes”是朝着能够真实生成整个无限场景的AI系统迈出的重要一步。未来，他们计划改进对移动物体（如汽车）的控制。他们还希望进一步提高连续图像之间的一致性。