通过LLM生成和编辑3D室内场景

中国AI网 2024年12月12日)三维室内场景设计是一项重要的任务,在虚拟现实等领域有着重要的应用。现有的3D布局设计方法要么依赖于利用空间关系先验的扩散模型,要么大量利用专有的大型语言模型的推理能力,而它们在泛化和动态场景编辑方面往往存在局限性。

所以,南方科技大学,华威大学,西安交通大学,约克大学团队介绍了基于轻量级微调开源LLM Llama3的新型3D室内场景布局设计器LLplace。

LLplace绕过了对空间关系先验和上下文范例的需求,仅根据用户输入指定房间类型和所需对象来实现高效可靠的房间布局生成。团队在3D-Front数据集的基础上策划了一个新的对话数据集,扩展了原始数据量,并结合了对话数据来添加和删除对象。数据集可以增强LL,的空间理解能力。

另外,通过对话,LLplace激活了LLM理解3D布局和执行动态场景编辑的能力,从而可以添加和删除对象。方法表明,LLplace可以有效地交互式生成和编辑3D室内布局,并且在提供高质量的3D设计解决方案方面优于现有方法。

中外研究员介绍新型3D室内场景布局设计器LLplace,基于轻量级微调开源LLM Llama3  第1张

三维室内场景设计和优化在虚拟现实等应用中发挥着至关重要的作用。尽管人工智能领域取得了重大进展,特别是在自然语言处理和计算机视觉方面,但从原始文本中灵活生成和动态编辑3D室内场景的任务依然是一个复杂的挑战。

现有的室内场景布局设计方法主要分为两类。第一个是基于扩散模,利用模型以及各种空间特征先验来生成3D布局。第二类依赖于现有LLM的推理能力,使用大量提示生成相应的3D布局,如LayoutGPT和Holodeck。

然而,现有方法存在明显的缺陷。首先,大多数布局生成模型依赖于空间关系先验或样例作为模型输入来指导生成。如果用户不提供关系,或者系统无法检索到准确的范例,则模型就无法获得令人信服的结果。在这里,当遇到新的不同场景时,先验启发策略显著地限制了模型的泛化能力,而高质量的先验或样本十分昂贵。

其次,目前大多数基于LLM的布局模型只支持一次性静态布局生成,不能进行动态场景编辑。这与LLM的交互性不一致。

所以,团队对探索不依赖于强大先验或预先准备上下文范例的LLM作为动态3D场景布局设计的潜力特别感兴趣。

研究人员介绍了一种全新的三维室内场景布局设计器LLplace (Large Language Model for indoor Placement)。他们首先为3D室内场景设计精心设计了一个格式友好的元提示模板,然后重建规则的3D- Front数据集以用于多回合对话格式的静态场景生成和动态场景编辑

在设计管道中,首先将用户输入指定为房间类型和房间内对象的描述。然后,使用对象描述从3D- Front数据集中检索3D asset和相应的边界框。接下来,将用户输入和对应对象的对应边界框转换成LLM可以接受的JSON格式。

中外研究员介绍新型3D室内场景布局设计器LLplace,基于轻量级微调开源LLM Llama3  第2张

在将用户请求JSON嵌入元提示模板后,整个转录最终完成。整体管道不仅用于训练数据的构建,而且用于推理的执行。根据输入的JSON格式,团队设计使用JSON对训练数据的标签进行标准化。“JSON-in”和“JSON-out”模式有利于半结构化自然语言请求和辅助结构化编程的耦合。

基于检索到的3D asset及其边界框,研究人员要求LLM报告其包含房间中物体的坐标和旋转角度的设计。这超越了传统的静态3D室内布局生成,同时考虑了动态场景编辑。

他们将前面提到的指令和标签开发成对话框,添加额外一轮的编辑请求,比如添加或删除对象。然后,LLM相应合理地修改其进一步的输出。另外,团队能够在对话的每个回合将用户的输入JSON和LLM的输出JSON重构为空间3D边界框布局,然后可以将其呈现为一系列3D表示。

如图所示,研究人员将LLplace与LayoutGPT等进行了比较,并将最新的GPT - 40模型与他们的元提示模板进行了比较。与其他两种模型相比,LLplace生成的场景更加合理,没有重叠和错误旋转的问题。在场景编辑中,LLplace可以理解现有的3D场景,并将对象添加到正确的位置。这表明LLplace设计器的动态理解和编辑功能不存在于现有的基于llm的方法中。

相关论文:LLplace: The 3D Indoor Scene Layout Generation and Editing via Large Language Model

总的来说,团队提出的模型不像现有方法那样依赖于昂贵的上下文范例和空间关系先验。相反,他们开发了通用的提示模板,然后遵循LLM的主流范式,将3D-Front数据集扩展为包含一次生成和另一次进一步编辑的对话数据集,从而成功地培养了具有静态生成和动态编辑功能的LLplace。实验结果表明,LLplace在各种指标上都优于现有的基于LLM的室内场景设计方法。