网站首页 > AI工具 第41页
  • MiniMates  轻量级AI数字人项目,支持语音和表情两种驱动模式

    MiniMates 轻量级AI数字人项目,支持语音和表情两种驱动模式

    98

    MiniMates是高性能的轻量级数字人驱动算法,具备语音和表情两种驱动模式,能在普通电脑上实现实时运行。基于先进的技术架构,提供极致的速度体验和个性化定制功能,支持用户根据、需求定制AI伙伴。MiniMates拥有卓越的性...

  • MMBench-Video  上海AI Lab联合多所高校推出的长视频理解基准测试

    MMBench-Video 上海AI Lab联合多所高校推出的长视频理解基准测试

    80

    MMBench-Video是新颖的长视频多题问答基准测试,是浙江大学、上海人工智能实验室、上海交通大学和香港中文大学联合推出的。MMBench-Video能全面评估大型视觉语言模型(LVLMs)在视频理解方面的能力,用包含丰...

  • DistilQwen2  阿里推出基于Qwen2优化的轻量级语言模型

    DistilQwen2 阿里推出基于Qwen2优化的轻量级语言模型

    70

    DistilQwen2是基于Qwen2大模型用知识蒸馏技术优化得到的轻量级语言模型,能提高运算效率和降低部署成本。DistilQwen2基于深度剖析大模型、增强指令数据多样性和优化蒸馏算法,将复杂知识传递给小模型,提升指令遵...

  • DocMind  司马阅推出的文档智能大模型

    DocMind 司马阅推出的文档智能大模型

    74

    DocMind是司马阅推出的文档智能大模型,基于Transformer结构,融合深度学习、NLP和CV技术,能处理富文本文档的复杂结构和视觉信息,提高信息抽取准确性。DocMind支持精准识别文档实体、捕捉文本依赖关系、深入...

  • Stagehand  AI网页浏览框架,提供简单和可扩展的网页自动化解决方案

    Stagehand AI网页浏览框架,提供简单和可扩展的网页自动化解决方案

    80

    Stagehand是简单和可扩展的AI网页浏览框架,是Playwright的继承者,提供act、extract和observe三个简单的API,支持自然语言驱动的网页操作。Stagehand提供一个轻量级、可配置、模块化的框...

  • VideoTuna  AI视频生成应用代码库,支持多模型和全面的视频生成流程

    VideoTuna AI视频生成应用代码库,支持多模型和全面的视频生成流程

    103

    VideoTuna是集成多种AI视频生成模型的代码库,支持文本到视频、图像到视频和文本到图像的转换。VideoTuna提供预训练、持续训练、后训练对齐和微调等全面视频生成流程,支持U-Net和DiT架构,并计划推出3D视频V...

  • ComfyUI-MochiEdit  开源的AI视频编辑工具,支持视频转视频和局部编辑

    ComfyUI-MochiEdit 开源的AI视频编辑工具,支持视频转视频和局部编辑

    88

    ComfyUI-MochiEdit是基于ComfyUI和Genmo Mochi的开源视频编辑工具,基于将视频转换为噪声、重新采样实现视频编辑,支持局部编辑和视频转视频功能。用户能调整噪声校正强度、对齐强度等参数控制视频效果,...

  • Ferret-UI 2  苹果推出的跨平台UI理解多模态大语言模型

    Ferret-UI 2 苹果推出的跨平台UI理解多模态大语言模型

    71

    Ferret-UI 2是苹果公司推出的多模态大型语言模型,用在理解和交互移动用户界面。Ferret-UI 2能识别和理解各种移动设备屏幕上的UI元素,执行复杂的用户指令,实时观察用户在移动设备屏幕上的操作,随时准备提供帮助和...

  • HiCo  360 AI研究院推出的布局可控AI绘画模型

    HiCo 360 AI研究院推出的布局可控AI绘画模型

    74

    HiCo是360 AI研究院推出的基于扩散模型的层次化可控布局到图像生成模型,HiCo基于多分支结构设计,实现对对象位置和文本描述的精确控制。HiCo的关键特点在于进行空间解耦,有效地处理复杂布局,减少对象缺失和视角冲突等问...

  • Fast GraphRAG  微软推出高效的知识图谱检索框架

    Fast GraphRAG 微软推出高效的知识图谱检索框架

    101

    Fast GraphRAG 是微软推出的高效的知识图谱检索框架,旨在提供可解释性和高精度的代理驱动检索工作流。它结合了检索增强生成(RAG)技术和知识图谱,提升大型语言模型(LLMs)在处理私有数据和复杂数据集时的性能。...

37 38 39 40 41 42 43 44 45 46
返回顶部 暗黑模式