CAD-MLLM是由上海科技大学、Transcengram、DeepSeek AI和香港大学共同推出的,计算机辅助设计(CAD)模型生成系统,根据用户的多种输入(如文本描述、图像、点云或这些输入的组合)生成参数化的CAD模型。系统用命令序列和大型语言模型(LLMs)对齐和处理多模态数据,构建完整的CAD模型。CAD-MLLM引入一个名为Omni-CAD的大规模多模态数据集,及新的评估指标,全面评估生成模型的拓扑质量和表面封闭程度。CAD-MLLM在性能上超越现有方法,展现出对数据缺陷的高度鲁棒性。
CAD-MLLM的主要功能多模态输入处理:处理包括文本描述、图像、点云在内的多种输入形式,基于输入生成CAD模型。参数化CAD模型生成:系统能生成参数化的CAD模型,用户能对生成的模型进行编辑和调整。数据集构建与注释:引入名为Omni-CAD的数据集,包含文本描述、多视图图像、点云和对应的CAD命令序列。评估指标创新:系统引入新的评估指标,评估生成的CAD模型的拓扑质量和表面封闭程度。鲁棒性:在处理噪声和缺失数据时表现出高度的鲁棒性。交互式设计:用户基于简单的指令和插图轻松设计CAD模型,让非专家也能实现设计想法。CAD-MLLM的技术原理命令序列表示:用CAD模型的命令序列,将命令序列向量化,形成适合大型语言模型(LLMs)学习的数据流。多模态数据对齐:用先进的LLMs对齐不同模态数据和CAD模型的向量表示,让模型理解和处理多种输入。网络架构:网络架构包括视觉数据对齐、点数据对齐和大型语言模型三个模块,支持跨模态输入。特征空间共享:非文本输入首先基于冻结的编码器处理,然后用投影层将特征对齐在共享的大型语言模型(LLM)特征空间内。低秩适应(LoRA)微调:基于整合提示与多模态嵌入,并应用低秩适应(LoRA)技术对LLM进行微调,生成准确的CAD模型。数据增强方法:提出数据注释流程和数据增强方法,生成新的多模态条件CAD数据集Omni-CAD。CAD-MLLM的项目地址项目官网:cad-mllm.github.ioarXiv技术论文:https://arxiv.org/pdf/2411.04954CAD-MLLM的应用场景工业设计和制造:设计师和工程师快速生成和修改复杂的工业产品CAD模型,加速产品开发流程。建筑和工程:建筑师和结构工程师从现场照片或地形数据生成精确的CAD图纸,提高设计和规划的效率。汽车行业:汽车制造商从概念草图或描述中生成精确的汽车零部件CAD模型,优化设计和制造流程。航空航天:在航空航天领域,从复杂的设计要求和性能参数中生成飞机和航天器的零部件和结构的CAD模型。教育和培训:学生和新手,降低学习曲线,提高教学效果。
上一篇