网站首页 > AI工具 第10页
  • MLE-bench  OpenAI推出AI代理性能评估的基准测试工具

    MLE-bench OpenAI推出AI代理性能评估的基准测试工具

    75

    MLE-bench 是 OpenAI 推出的一个基准测试工具,旨在衡量AI代理(AI Agent)在机器学习工程任务中的表现。测试包含75个来自 Kaggle 的竞赛任务,覆盖自然语言处理、计算机视觉和信号处理等多个领域。A...

  • GTSinger  浙大开源的大型多语言高质量歌声数据集

    GTSinger 浙大开源的大型多语言高质量歌声数据集

    68

    GTSinger是由浙江大学研究团队推出的大型开源高质量歌声数据集,旨在支持多样化的歌声任务。GTSinger包含80.59小时的专业录音棚录制的歌声,涵盖九种不同语言(汉语、英语、日语、韩语、俄语、西班牙语、法语、德语和意...

  • ScriptViz  斯坦福大学推出的剧本可视化AI辅助工具

    ScriptViz 斯坦福大学推出的剧本可视化AI辅助工具

    72

    ScriptViz是由斯坦福大学研究人员推出的一款剧本可视化辅助工具,基于大型电影数据库MovieNet,根据剧本文本和对话检索出相匹配的电影画面,将编剧的文字描述转换成具体的视觉图像。工具提供对视觉元素的精确控制,支持编剧...

  • LightRAG  香港大学推出的开源检索增强生成系统

    LightRAG 香港大学推出的开源检索增强生成系统

    70

    LightRAG是由香港大学研究团队推出的一种检索增强生成(Retrieval-Augmented Generation, RAG)系统,基于整合图结构索引和双层检索机制,提升大型语言模型在信息检索中的准确性和效率。系统能捕...

  • CursorCore  程序员的AI编程辅助框架,对话形式交互理解上下文

    CursorCore 程序员的AI编程辅助框架,对话形式交互理解上下文

    65

    CursorCore是一个基于大型语言模型(LLMs)的编程辅助框架,用对话式交互帮助程序员更高效地编写和修改代码。框架整合编程过程中的各种信息,包括代码历史、当前代码和用户指令,预测所需的代码修改,减少程序员的工作量。...

  • Surya  开源的OCR工具包,支持90+语言、布局分析等识别

    Surya 开源的OCR工具包,支持90+语言、布局分析等识别

    62

    Surya是一款功能强大的开源OCR(光学字符识别)工具包,专门设计用在文档识别,支持超过90种语言的识别。Surya能准确识别出文档中的文本,分析文本的阅读顺序,检测文档中的布局元素,如表格、图片和标题,及识别和解析表格内...

  • MM1.5  苹果推出的升级版多模态大模型

    MM1.5 苹果推出的升级版多模态大模型

    69

    MM1.5是苹果公司推出的多模态大型语言模型,旨在增强文本丰富图像理解、视觉指代和定位以及多图像推理能力。模型基于数据为中心的训练方法,在大规模预训练、高分辨率OCR数据持续预训练及优化的视觉指令微调,实现从1B到30B参数...

  • F5-TTS  上海交大推出开源的文本到语音(TTS)合成系统

    F5-TTS 上海交大推出开源的文本到语音(TTS)合成系统

    55

    F5-TTS是由上海交通大学开源的一款高性能文本到语音(TTS)系统,基于流匹配的非自回归生成方法,结合扩散变换器(DiT)技术。系统在没有额外监督的情况下,基于零样本学习快速生成自然、流畅且忠实于原文的语音。...

  • libcom  上海交大推出开源的图像合成问题解决工具

    libcom 上海交大推出开源的图像合成问题解决工具

    136

    libcom 是一个由上海交通大学 (BCMI 实验室推出的图像合成工具箱。旨在解决前景和背景之间的不一致性问题,如外观、几何和语义上的不匹配,生成逼真的合成图像。...

  • 一见视觉大模型  百度推出的AI视觉应用技术平台

    一见视觉大模型 百度推出的AI视觉应用技术平台

    110

    一见视觉大模型是百度推出的一款致力于让专业级视觉AI应用落地平民化的平台。基于百度领先的视觉大模型核心技术和丰富的场景化算法方案,打通从模型生产、效果优化到应用配置的全链路闭环。一见平台基于多模态大模型、自动化效果调优、零代...

6 7 8 9 10 11 12 13 14 15
返回顶部 暗黑模式