AI工具 - 第41页 - 中国AI网

MiniMates 轻量级AI数字人项目，支持语音和表情两种驱动模式

98

MiniMates是高性能的轻量级数字人驱动算法，具备语音和表情两种驱动模式，能在普通电脑上实现实时运行。基于先进的技术架构，提供极致的速度体验和个性化定制功能，支持用户根据、需求定制AI伙伴。MiniMates拥有卓越的性...

80

MMBench-Video是新颖的长视频多题问答基准测试，是浙江大学、上海人工智能实验室、上海交通大学和香港中文大学联合推出的。MMBench-Video能全面评估大型视觉语言模型（LVLMs）在视频理解方面的能力，用包含丰...

70

DistilQwen2是基于Qwen2大模型用知识蒸馏技术优化得到的轻量级语言模型，能提高运算效率和降低部署成本。DistilQwen2基于深度剖析大模型、增强指令数据多样性和优化蒸馏算法，将复杂知识传递给小模型，提升指令遵...

74

DocMind是司马阅推出的文档智能大模型，基于Transformer结构，融合深度学习、NLP和CV技术，能处理富文本文档的复杂结构和视觉信息，提高信息抽取准确性。DocMind支持精准识别文档实体、捕捉文本依赖关系、深入...

80

Stagehand是简单和可扩展的AI网页浏览框架，是Playwright的继承者，提供act、extract和observe三个简单的API，支持自然语言驱动的网页操作。Stagehand提供一个轻量级、可配置、模块化的框...

103

VideoTuna是集成多种AI视频生成模型的代码库，支持文本到视频、图像到视频和文本到图像的转换。VideoTuna提供预训练、持续训练、后训练对齐和微调等全面视频生成流程，支持U-Net和DiT架构，并计划推出3D视频V...

88

ComfyUI-MochiEdit是基于ComfyUI和Genmo Mochi的开源视频编辑工具，基于将视频转换为噪声、重新采样实现视频编辑，支持局部编辑和视频转视频功能。用户能调整噪声校正强度、对齐强度等参数控制视频效果，...

71

Ferret-UI 2是苹果公司推出的多模态大型语言模型，用在理解和交互移动用户界面。Ferret-UI 2能识别和理解各种移动设备屏幕上的UI元素，执行复杂的用户指令，实时观察用户在移动设备屏幕上的操作，随时准备提供帮助和...

74

HiCo是360 AI研究院推出的基于扩散模型的层次化可控布局到图像生成模型，HiCo基于多分支结构设计，实现对对象位置和文本描述的精确控制。HiCo的关键特点在于进行空间解耦，有效地处理复杂布局，减少对象缺失和视角冲突等问...

101

Fast GraphRAG 是微软推出的高效的知识图谱检索框架，旨在提供可解释性和高精度的代理驱动检索工作流。它结合了检索增强生成（RAG）技术和知识图谱，提升大型语言模型（LLMs）在处理私有数据和复杂数据集时的性能。...