AI工具 - 第7页 - 中国AI网

OCTAVE Hume AI推出的语音语言模型

155

OCTAVE（Omni-Capable Text and Voice Engine）是Hume AI推出的新一代语音语言模型，结合EVI 2模型和OpenAI、Elevenlab、Google Deepmind等系统的能力。...

163

HelloMeme是基于最新的Diffusion生成技术的框架，实现表情与姿态的迁移，HelloMeme集成空间编织注意力（Spatial Knitting Attentions）机制，基于Stable Diffusion...

168

CLEAR是新加坡国立大学推出新型线性注意力机制，能提升预训练扩散变换器（DiTs）生成高分辨率图像的效率。基于将每个查询的注意力限制在局部窗口内，CLEAR实现了对图像分辨率的线性复杂度，降低了计算成本。...

166

DisPose是北京大学、中国科学技术大学、清华大学和香港科技大学的研究团队共同推出的，提高人物图像动画质量的控制技术，基于从骨骼姿态和参考图像中提取有效的控制信号，无需额外的密集输入。DisPose将姿态控制分解为运动场引...

172

InvSR是创新的图像超分辨率模型，基于扩散模型的逆过程恢复高分辨率图像。用大型预训练扩散模型中丰富的图像先验，改善超分辨率的效果。InvSR的核心在于深度噪声预测器，预测器能估计出在正向扩散过程中所需的最优噪声图。...

152

Bamba-9B是IBM、普林斯顿大学、卡内基梅隆大学和伊利诺伊大学香槟分校联合推出的，基于Mamba2架构的仅解码语言模型模型。模型在完全开放的数据集上训练，能提高大型语言模型的推理效率，特别是在处理长文本时的内存带宽瓶颈...

176

VSI-Bench（Visual-Spatial Intelligence Benchmark）是李飞飞、谢赛宁及他们的研究团队推出的视觉空间智能基准测试集，研究者构建用在评估多模态大型语言模型（MLLMs）在空间认知和理解...

165

Univer是开源的全栈框架，支持创建和编辑电子表格、文档及幻灯片，为用户提供统一且强大的办公解决方案。Univer能在浏览器和Node.js环境中运行，易于集成到各种应用中。Univer跨平台兼容性、强大的功能（包括公式计...

140

Kheish是开源的、基于大型语言模型（LLM）的多智能体编排平台，用多个专门的角色（智能体）和灵活的工作流协调复杂任务的各个步骤，如提案生成、审核、验证和格式化，产生高质量结果。平台能无缝集成外部模块，例如文件系统访问、s...

167

3D-Speaker是阿里巴巴通义实验室语音团队推出的多模态开源项目，基于结合声学、语义、视觉信息，实现高精度的说话人识别和语种识别。3D-Speaker提供工业级模型、训练和推理代码，及大规模多设备、多距离、多方言的数据集...