AI工具 - 第3页 - 中国AI网

PC Agent 上海交大联合 GAIR 推出的电脑智能体AI系统

24

PC Agent是上海交通大学和Generative AI Research Lab (GAIR 联合推出的先进AI系统。系统基于模拟人类认知过程，执行如组织研究材料、起草报告和创建演示文稿等复杂数字工作。PC Agent集...

20

Open Notebook是开源、注重隐私的谷歌NotebookLM替代工具，能帮助用户管理研究工作流程，生成AI辅助笔记，并与内容互动。Open Notebook支持多笔记本、多模型，包括Open AI、Anthropic...

22

DreamOmni 是香港中文大学、字节跳动和香港科技大学共同推出的统一图像生成和编辑模型。模型整合文本到图像（T2I）生成和多种编辑任务，包括指令式编辑、修复、拖拽编辑和参考图像生成。DreamOmni 基于一个高效的合成...

21

Sketch2Sound是Adobe 研究院和西北大学推出的AI音频生成技术，能基于声音模仿和文本提示生成高品质音效。Sketch2Sound从声音模仿中提取响度、亮度和音高三个控制信号，将控制信号编码后用于条件文本到声音的...

18

OmniAudio-2.6B是Nexa AI推出的音频语言模型，专为边缘部署设计，能实现快速且高效的音频文本处理。OmniAudio-2.6B是具有2.6亿参数的多模态模型融合Gemma-2-2b、Whisper Turbo...

18

Granite 3.1是IBM推出的新一代语言模型，具有强大的性能和更长的上下文处理能力。Granite 3.1模型家族有 4 种不同的尺寸和 2 种架构：密集模型2B和8B参数模型，总共使用 12 万亿个token进行训练...

34

OCTAVE（Omni-Capable Text and Voice Engine）是Hume AI推出的新一代语音语言模型，结合EVI 2模型和OpenAI、Elevenlab、Google Deepmind等系统的能力。...

46

HelloMeme是基于最新的Diffusion生成技术的框架，实现表情与姿态的迁移，HelloMeme集成空间编织注意力（Spatial Knitting Attentions）机制，基于Stable Diffusion...

47

CLEAR是新加坡国立大学推出新型线性注意力机制，能提升预训练扩散变换器（DiTs）生成高分辨率图像的效率。基于将每个查询的注意力限制在局部窗口内，CLEAR实现了对图像分辨率的线性复杂度，降低了计算成本。...

48

DisPose是北京大学、中国科学技术大学、清华大学和香港科技大学的研究团队共同推出的，提高人物图像动画质量的控制技术，基于从骨骼姿态和参考图像中提取有效的控制信号，无需额外的密集输入。DisPose将姿态控制分解为运动场引...