AI工具 - 第4页 - 中国AI网

InvSR 开源图像超分辨率模型，高清修复老旧照片

49

InvSR是创新的图像超分辨率模型，基于扩散模型的逆过程恢复高分辨率图像。用大型预训练扩散模型中丰富的图像先验，改善超分辨率的效果。InvSR的核心在于深度噪声预测器，预测器能估计出在正向扩散过程中所需的最优噪声图。...

32

Bamba-9B是IBM、普林斯顿大学、卡内基梅隆大学和伊利诺伊大学香槟分校联合推出的，基于Mamba2架构的仅解码语言模型模型。模型在完全开放的数据集上训练，能提高大型语言模型的推理效率，特别是在处理长文本时的内存带宽瓶颈...

27

VSI-Bench（Visual-Spatial Intelligence Benchmark）是李飞飞、谢赛宁及他们的研究团队推出的视觉空间智能基准测试集，研究者构建用在评估多模态大型语言模型（MLLMs）在空间认知和理解...

28

Univer是开源的全栈框架，支持创建和编辑电子表格、文档及幻灯片，为用户提供统一且强大的办公解决方案。Univer能在浏览器和Node.js环境中运行，易于集成到各种应用中。Univer跨平台兼容性、强大的功能（包括公式计...

24

Kheish是开源的、基于大型语言模型（LLM）的多智能体编排平台，用多个专门的角色（智能体）和灵活的工作流协调复杂任务的各个步骤，如提案生成、审核、验证和格式化，产生高质量结果。平台能无缝集成外部模块，例如文件系统访问、s...

34

3D-Speaker是阿里巴巴通义实验室语音团队推出的多模态开源项目，基于结合声学、语义、视觉信息，实现高精度的说话人识别和语种识别。3D-Speaker提供工业级模型、训练和推理代码，及大规模多设备、多距离、多方言的数据集...

28

ERA-42是北京星动纪元推出的端到端原生机器人大模型，与自研的五指灵巧手星动XHAND1结合，能完成100多种复杂灵巧操作任务。ERA-42无需预编程，具备快速学习新技能的能力，能在2小时内用少量数据学会新任务。...

30

Baichuan4-Finance是百川智能推出的全链路金融领域增强大模型，包括Baichuan4-Finance-Base和Baichuan4-Finance。基于Baichuan4-Turbo，用领域自约束训练，在保持通...

35

LeviTor是南京大学、蚂蚁集团、浙江大学等机构推出的图像到视频合成技术，结合深度信息和K-means聚类点控制视频中3D物体的轨迹，无需显式的3D轨迹跟踪。LeviTor用高质量的视频对象分割数据集进行训练，有效捕捉复杂...

32

AgentScope是阿里巴巴集团开源的多智能体开发平台，帮助开发者轻松构建和部署多智能体应用。AgentScope提供高易用性、高鲁棒性和分布式支持，内置多种模型API和本地模型部署选项，覆盖聊天、图像合成、文本嵌入等多种...