TRELLIS 微软联合清华和中科大推出的高质量 3D 生成模型

TRELLIS是什么

TRELLIS是清华大学、中国科学技术大学和微软研究院推出的3D生成模型，基于Structured LATent（SLAT）表示法，从文本或图像提示中生成高质量、多样化的3D资产。模型融合稀疏的3D网格结构和从多视角提取的密集视觉特征，全面捕捉3D资产的几何和外观信息。TRELLIS用修正流变换器作为其核心，处理SLAT的稀疏性，在大规模3D资产数据集上训练，参数高达20亿。TRELLIS能生成细节丰富的3D模型，支持多种输出格式，并能对3D资产进行灵活编辑。

TRELLIS的主要功能高质量3D生成：根据文本或图像提示生成具有复杂几何结构和细致纹理的3D资产。多格式输出：模型支持将3D资产生成为多种格式，包括辐射场（Radiance Fields）、3D高斯（3D Gaussians）和网格（meshes）。灵活编辑：支持用户对生成的3D资产进行局部编辑，如添加、删除或替换特定区域，无需整体调整。无需拟合训练：在训练过程中，不需要对3D资产进行拟合，简化训练流程、提高效率。TRELLIS的技术原理Structured LATent (SLAT) 表示：用SLAT作为统一的3D潜在表示，基于在稀疏的3D网格上定义局部潜在变量编码3D资产的几何和外观信息。多视图视觉特征：基于强大的视觉基础模型提取的多视图视觉特征，特征被用来详细编码3D资产的结构和外观信息。修正流变换器：基于修正流变换器作为其3D生成模型的核心，变换器特别适应于处理SLAT的稀疏性，能高效地生成3D资产。两阶段生成流程：首先生成SLAT的稀疏结构，然后在已生成的结构上生成局部潜在向量。这一流程让模型能灵活地生成不同格式的3D表示。训练与优化：在大规模的3D资产数据集上进行训练，用特定的重建损失和KL惩罚优化编码器和解码器，确保生成的3D资产与原始数据高度一致。TRELLIS的项目地址项目官网：trellis3d.github.ioGitHub仓库：https://github.com/Microsoft/TRELLISarXiv技术论文：https://arxiv.org/pdf/2412.01506在线体验Demo：https://huggingface.co/spaces/JeffreyXiang/TRELLISTRELLIS的局限性分步生成过程：生成流程包含两个主要阶段，可能导致在生成效率上不如一次性完成整个3D模型生成的方法。光照和渲染限制：模型在处理图像提示时，未能将图像中的光照效果与3D资产分离，可能会影响3D资产在物理基础渲染中材质的准确性和逼真度。未来改进方向：论文中提出未来研究探索的领域，包括改进光照处理和增强模型对物理基础渲染材质的预测能力。TRELLIS的应用场景游戏开发：在游戏设计中，快速生成复杂的3D模型，如角色、道具和环境，提高游戏开发的效率。电影和动画制作：创建电影或动画中的3D场景和角色，减少手动建模的时间和成本。虚拟现实（VR）和增强现实（AR）：为VR和AR应用生成逼真的3D内容，提升用户的沉浸感和交互体验。建筑和城市规划：生成建筑模型和城市景观，辅助建筑师和规划师进行设计和模拟。教育和培训：在教育领域，生成各种3D模型，用在教学和实践操作，如医学可视化和工程教学。

TRELLIS 微软联合清华和中科大推出的高质量 3D 生成模型

某个与Nexo相关的巨鲸过去1小时向币安存入4946枚ETH

WiS 淘天联合阿里研究团队推出的多智能体博弈游戏平台

TRELLIS 微软联合清华和中科大推出的高质量 3D 生成模型

某个与Nexo相关的巨鲸过去1小时向币安存入4946枚ETH

WiS 淘天联合阿里研究团队推出的多智能体博弈游戏平台

相关文章