AI工具 - 第54页 - 中国AI网

Illuminate 谷歌推出将学术论文转化为音频讨论的AI项目

115

Illuminate 是一个由谷歌开发的项目，能将学术论文转化为人工智能生成的音频讨论。项目基于谷歌强大的语言模型 Gemini，将论文内容转换成引人入胜的对话，使用户能在运动、开车等碎片时间里轻松学习。...

126

MLE-bench 是 OpenAI 推出的一个基准测试工具，旨在衡量AI代理（AI Agent）在机器学习工程任务中的表现。测试包含75个来自 Kaggle 的竞赛任务，覆盖自然语言处理、计算机视觉和信号处理等多个领域。A...

114

GTSinger是由浙江大学研究团队推出的大型开源高质量歌声数据集，旨在支持多样化的歌声任务。GTSinger包含80.59小时的专业录音棚录制的歌声，涵盖九种不同语言（汉语、英语、日语、韩语、俄语、西班牙语、法语、德语和意...

126

ScriptViz是由斯坦福大学研究人员推出的一款剧本可视化辅助工具，基于大型电影数据库MovieNet，根据剧本文本和对话检索出相匹配的电影画面，将编剧的文字描述转换成具体的视觉图像。工具提供对视觉元素的精确控制，支持编剧...

117

LightRAG是由香港大学研究团队推出的一种检索增强生成（Retrieval-Augmented Generation, RAG）系统，基于整合图结构索引和双层检索机制，提升大型语言模型在信息检索中的准确性和效率。系统能捕...

113

CursorCore是一个基于大型语言模型（LLMs）的编程辅助框架，用对话式交互帮助程序员更高效地编写和修改代码。框架整合编程过程中的各种信息，包括代码历史、当前代码和用户指令，预测所需的代码修改，减少程序员的工作量。...

111

Surya是一款功能强大的开源OCR（光学字符识别）工具包，专门设计用在文档识别，支持超过90种语言的识别。Surya能准确识别出文档中的文本，分析文本的阅读顺序，检测文档中的布局元素，如表格、图片和标题，及识别和解析表格内...

116

MM1.5是苹果公司推出的多模态大型语言模型，旨在增强文本丰富图像理解、视觉指代和定位以及多图像推理能力。模型基于数据为中心的训练方法，在大规模预训练、高分辨率OCR数据持续预训练及优化的视觉指令微调，实现从1B到30B参数...

103

F5-TTS是由上海交通大学开源的一款高性能文本到语音（TTS）系统，基于流匹配的非自回归生成方法，结合扩散变换器（DiT）技术。系统在没有额外监督的情况下，基于零样本学习快速生成自然、流畅且忠实于原文的语音。...

186

libcom 是一个由上海交通大学 (BCMI 实验室推出的图像合成工具箱。旨在解决前景和背景之间的不一致性问题，如外观、几何和语义上的不匹配，生成逼真的合成图像。...