AI工具 - 第55页 - 中国AI网

一见视觉大模型百度推出的AI视觉应用技术平台

160

一见视觉大模型是百度推出的一款致力于让专业级视觉AI应用落地平民化的平台。基于百度领先的视觉大模型核心技术和丰富的场景化算法方案，打通从模型生产、效果优化到应用配置的全链路闭环。一见平台基于多模态大模型、自动化效果调优、零代...

158

Swarm是由OpenAI推出的一个实验性框架，旨在构建、编排和部署多智能体系统。基于轻量级的Agent和handoff机制，简化智能体之间的协调和执行过程，让控制更加精细，测试更加便捷。...

121

Aria是由Rhymes AI团队推出全球首个开源多模态原生混合专家（MoE）模型，能理解和处理文本、代码、图像和视频等多种输入模态。模型在多模态和语言任务上展现最佳性能，与专有模型竞争，保持轻量级和快速的特点。...

137

Pyramid-Flow是一种先进的视频生成模型，由北京大学、快手科技和北京邮电大学的研究人员联合推出。模型根据文本提示生成长达10秒、分辨率高达1280x768、帧率24帧每秒的高清视频。Pyramid-Flow的核心为创...

114

PixWizard是一个多功能的图像到图像视觉助手，基于自然语言指令执行图像生成、编辑和翻译等任务。系统通过统一的图像-文本到图像生成框架，将多种视觉任务整合在一起，通过构建一个包含3000万数据点的全面训练集支持这些任务。...

119

screenpipe是一款基于AI技术，全天候监控用户电脑屏幕和麦克风的开源软件。通过捕捉屏幕活动和音频，用AI进行智能分析，提升工作效率和保障数据隐私。screenpipe的核心功能包括自动生成每日工作摘要、记录总结会议内...

354

Future You是由麻省理工学院（MIT）开发的一款AI系统，支持用户与60岁时的虚拟形象进行互动对话。系统基于先进的AI技术，结合用户当前的生活目标和个人品质，生成一个逼真的未来自我形象，构建一段"未来记忆&...

362

LosslessCut是一款开源的视频编辑工具，用于快速且无损地剪切和合并视频和音频文件。基于强大的FFmpeg库构建，提供一个直观的图形用户界面，用户轻松地进行剪辑、合并、转封装及添加字幕和音乐等操作。...

433

Podcastfy 是一个开源的 Python 软件包，能将网络内容、PDF 文档及文本转换成多语言的音频对话形式。这款工具采用了先进的生成式人工智能（GenAI）技术，类似于谷歌旗下的 NotebookLM，但更加注重编程...

441

Gradio 是一个开源的 Python 库，简化机器学习模型的演示和共享过程。支持开发者基于简单的代码快速创建出友好的网页界面，任何人、任何地点能轻松使用机器学习模型。Gradio 支持多种输入和输出组件，如文本、图像、音...