全球首个城市级NeRF实景三维大模型“书生·天际”来了能实现“城市编辑” ｜ 2023世界人工智能大会

2023-07-06 23:10:04 来源：新民晚报

图说：2023世界人工智能大会科学前沿全体会议新民晚报记者陶磊摄

【资料图】

新民晚报讯（记者郜阳）在今天下午举行的2023世界人工智能大会科学前沿全体会议上，上海人工智能实验室联合香港中文大学和上海市测绘院发布全球首个城市级NeRF实景三维大模型“书生·天际（LandMark）”。

书生·天际在大模型层面提出一种新的实景三维模型表征和训练范式，可以4K级图像精度准确呈现大规模三维城市场景。在重构出来的三维实景中，不仅具备包括移除、移动和新建城市建筑等城市布局的调整能力，还可以“上帝视角”调节光照、季节等城市风格。书生·天际已超越“城市重建”，突破性实现了“城市编辑”功能。

“今天当谈到生成式人工智能（AIGC），我们想到的还是一张张照片；未来，AIGC将可能生成我们心目中的家，心目中的整个城市。”上海人工智能实验室林达华教授表示，书生·天际让超写实城市级三维实景成为可能，还将继续进化，覆盖更多城市区域和地标建筑，提供更多、更丰富的三维实景功能。

超越实景重建实现城市“可编辑”

自然资源部发布的《实景三维中国建设总体实施方案（2022-2025年）》指出，实景三维是对一定范围内人类生产、生活和生态空间进行真实、立体、时序化反映和表达的数字空间，是重要的新型基础设施。

书生·天际在实景三维重建领域，实现了一系列技术突破。具有千亿级参数的书生·天际，已实现对100平方公里范围进行城市实景三维建模。研究人员将预先采集的航拍倾斜摄影图像导入书生·天际模型进行训练，经计算渲染后便可生成实景三维模型。

图像质量方面，书生·天际实现了4K分辨率离线渲染，同时首次实现城市级NeRF的100平方公里全范围1K分辨率、30帧实时渲染。书生·天际利用少量的倾斜拍摄图像，便可实现大规模场景的三维实景建模，建模范围理论上具有无限可扩展性。与传统建模方式相比，书生·天际效率显著提升，有望为城市数字孪生节约可观的人力和资源。

在高质量实景重构的基础上，书生·天际首次在城市区域和地标建筑两个维度上提供丰富的超越重建能力。

记者了解到，未来，上海人工智能实验室将对书生·天际的建模范围和功能进行扩展，并对书生·天际的算法、算子和系统全部进行开源。

首创CityNeRF技术 “生成”城市

书生·天际高性能的内核，是上海人工智能实验室首创的CityNeRF技术。2021年12月，上海人工智能实验室提出CityNeRF，将卫星与近景等多种不同高度的影像进行有效融合，率先把NeRF建模技术从物体级拓展到城市级。这项工作的提出超前于谷歌的BlockNeRF和卡内基梅隆大学的MegaNeRF。

随后，上海人工智能实验室进一步研发出基于网格表征和NeRF表征相结合的双支模型结构，支持模型的多层级拓展的第二代CityNeRF技术，为城市级NeRF大范围无限扩展建模奠定了技术基础。

为实现从NeRF到第二代CityNeRF的技术突破，上海人工智能实验室创新性提出了“算法+计算系统+算子”全套创新的“解题思路”，使大范围、高精度、可编辑的城市级实景三维大模型变为现实。

针对大规模城市级场景的NeRF建模，书生·天际采用了基于网格表征的双支结构模型，包含一个网格端和一个NeRF端。网格端将场景分解成地面特征平面和垂直特征轴；NeRF端采用轻量MLP网络重建训练视角。为减少渲染计算量，书生·天际可有效地跳过空白空间，降低九成以上采样量，同时还采用提前终止渲染的方式提高计算效率。

城市级场景的生成，输入数据规模通常达到100TB级别规模，针对大规模数据加载与预处理问题，“书生·天际”把数据分块，通过两层数据集重排，使得运算负载更均衡。渲染速度是影响基于NeRF的城市级三维实景的实际体验的关键因素，为了从系统层面充分提高渲染效率，书生·天际在渲染前先做多分支模型的分支合并。渲染引擎还根据城市级场景的特点，提出了一种运行时动态加载模型参数的策略，可以使实时渲染不随场景尺度的增大而增加所消耗的资源。得益于这一系列系统层面的优化，书生·天际最终提升渲染性能近3个数量级（1000倍），并实现了城市级NeRF的100平方公里1K分辨率、30帧的实时渲染。

标签：