AI工具 - 第10页 - 中国AI网

豆包3D生成模型豆包推出3D生成模型，自然语言交互实时生成3D场景图

173

豆包3D生成模型是豆包推出的3D生成模型，属于豆包大模型家族。模型基于3D-DiT 架构，能生成高质量 3D 模块。与火山引擎数字孪生平台 veOmniverse 结合使用，能高效完成智能训练、数据合成和数字资产制作，成为一...

153

MV-Adapter是多视图一致图像生成模型，是北京航空航天大学、VAST和上海交通大学的研究团队推出的。MV-Adapter能将预训练的文本到图像扩散模型转化为多视图图像生成器，无需改变原始网络结构或特征空间。...

157

豆包视觉理解模型是豆包推出的先进AI大模型，具备视觉识别和理解推理能力。豆包视觉理解模型能识别图像中物体的类别、形状、纹理等，还能理解物体间的关系和场景含义，进行复杂的逻辑计算任务，如解析学术论文图表、诊断代码问题等。...

160

FACTS Grounding是谷歌DeepMind推出的评估大型语言模型（LLMs）能力的基准测试，衡量模型根据给定上下文生成事实准确且无捏造信息的文本的能力。FACTS Grounding测试集包含1719个跨多个领域的...

158

MarkItDown是微软开源的多功能文档处理工具，能将PDF、PPT、Word、Excel、图像、音频、HTML等多种格式的文件转换成Markdown格式。支持OCR文字识别、语音转文字和元数据提取，适用于内容索引、数据挖...

149

NodeTool是开源的AI工作流可视化构建器。NodeTool集成广泛的AI工具和模型，基于简单、可视化的界面，让用户无需编码即可快速原型设计和测试。NodeTool支持在本地GPU上运行AI模型，并与Hugging Fa...

131

VMB（Visuals Music Bridge）是中国科学院信息工程研究所、中国科学院大学网络空间安全学院、上海人工智能实验室、上海交通大学等机构推出的多模态音乐生成框架，能从文本、图像和视频等多种输入模态生成音乐。...

155

Manga Image Translator是开源的漫画图片文字翻译工具，能一键翻译漫画和图片中的文字。Manga Image Translator基于OCR技术识别文本，结合机器翻译将文字转换成目标语言。工具支持多种语言，...

146

Ivy-VL是AI Safeguard联合卡内基梅隆大学和斯坦福大学推出的轻量级多模态AI模型，专为移动端和边缘设备设计。模型拥有3B参数量，相较于其他多模态大模型，显著降低计算资源需求，能在AI眼镜、智能手机等资源受限设备...

138

ColorFlow是清华大学和腾讯ARC实验室共同推出的图像序列着色模型，能精细化地保持图像序列中个体身份的同时进行着色。基于检索增强、上下文学习和超分辨率技术，ColorFlow确保黑白图像序列着色与参考图像颜色一致性，适...