一见视觉大模型是百度推出的一款致力于让专业级视觉AI应用落地平民化的平台。基于百度领先的视觉大模型核心技术和丰富的场景化算法方案,打通从模型生产、效果优化到应用配置的全链路闭环。一见平台基于多模态大模型、自动化效果调优、零代...
-
-
Swarm是由OpenAI推出的一个实验性框架,旨在构建、编排和部署多智能体系统。基于轻量级的Agent和handoff机制,简化智能体之间的协调和执行过程,让控制更加精细,测试更加便捷。...
-
Aria是由Rhymes AI团队推出全球首个开源多模态原生混合专家(MoE)模型,能理解和处理文本、代码、图像和视频等多种输入模态。模型在多模态和语言任务上展现最佳性能,与专有模型竞争,保持轻量级和快速的特点。...
-
Pyramid-Flow是一种先进的视频生成模型,由北京大学、快手科技和北京邮电大学的研究人员联合推出。模型根据文本提示生成长达10秒、分辨率高达1280x768、帧率24帧每秒的高清视频。Pyramid-Flow的核心为创...
-
PixWizard是一个多功能的图像到图像视觉助手,基于自然语言指令执行图像生成、编辑和翻译等任务。系统通过统一的图像-文本到图像生成框架,将多种视觉任务整合在一起,通过构建一个包含3000万数据点的全面训练集支持这些任务。...
-
screenpipe是一款基于AI技术,全天候监控用户电脑屏幕和麦克风的开源软件。通过捕捉屏幕活动和音频,用AI进行智能分析,提升工作效率和保障数据隐私。screenpipe的核心功能包括自动生成每日工作摘要、记录总结会议内...
-
Future You是由麻省理工学院(MIT)开发的一款AI系统,支持用户与60岁时的虚拟形象进行互动对话。系统基于先进的AI技术,结合用户当前的生活目标和个人品质,生成一个逼真的未来自我形象,构建一段"未来记忆&...
-
LosslessCut是一款开源的视频编辑工具,用于快速且无损地剪切和合并视频和音频文件。基于强大的FFmpeg库构建,提供一个直观的图形用户界面,用户轻松地进行剪辑、合并、转封装及添加字幕和音乐等操作。...
-
Podcastfy 是一个开源的 Python 软件包,能将网络内容、PDF 文档及文本转换成多语言的音频对话形式。这款工具采用了先进的生成式人工智能(GenAI)技术,类似于谷歌旗下的 NotebookLM,但更加注重编程...
-
Gradio 是一个开源的 Python 库,简化机器学习模型的演示和共享过程。支持开发者基于简单的代码快速创建出友好的网页界面,任何人、任何地点能轻松使用机器学习模型。Gradio 支持多种输入和输出组件,如文本、图像、音...