Depth Pro是苹果公司开发的一种先进的单目深度估计模型,能从单个2D图像快速生成高分辨率的3D深度图。模型不仅速度快,只需0.3秒,而且提供度量级别的深度信息,生成的深度图具有真实的世界尺度。...
-
-
FineZip 是一种基于大型语言模型(LLMs)的无损文本压缩系统,结合在线记忆和动态上下文大小技术,提高文本压缩的速度和效率。在线记忆指的是在压缩前对模型进行参数高效的微调,提高数据的可压缩性。...
-
CapsWriter-Offline是一款高效的PC端离线语音输入和字幕转录工具,支持用户通过简单的按键操作实现实时语音转文字。软件适合快速记录和转写大量语音信息的场景,如会议、讲座或个人笔记。用户按下大写锁定键即可开始录音...
-
Laminar是一个开源的可观测性和分析平台,专为大型语言模型(LLM)应用程序设计。Laminar提供一套完整的工具追踪、评估、注释和分析LLM数据,使开发者深入理解并优化应用程序。Laminar的核心功能包括自动追踪LL...
-
FLUX1.1 Pro是Black Forest Labs团队最新推出的升级版AI图像生成模型,代号“蓝莓”,提供比前代快6倍的生成速度,同时保持了图像的及时性和多样性。FLUX1.1目前仅包含FLUX1.1 Pro模型,预...
-
MIP-Adapter是一种个性化图像生成技术,由阿里巴巴集团推出并开源。基于IP-Adapter模型,进一步扩展其能力,支持同时处理多个参考图像,生成更准确和高质量的定制化图像。MIP-Adapter通过为每个参考图像分配...
-
Realtime API是OpenAI推出的一种低延迟、多模态的对话式API,支持文本和音频作为输入和输出。Realtime API允许开发者构建接近实时的交互体验,例如语音对语音的应用程序。包括原生的语音处理能力、自然的声...
-
RD-Agent是一个开源的自动化研究与开发(R&D)工具,由微软亚洲研究院推出。基于AI技术推动数据驱动的AI研发过程,专注于简化模型和数据的开发。RD-Agent的核心在于自动化提出新想法和实施整个过程,旨在提高...
-
ChatMLX是一个基于大型语言模型(LLM)的高性能MacOS聊天应用,基于MLX框架实现与数据的交互。应用通过自然语言处理技术,让用户与数据进行对话,支持文本文档、PDF文件和YouTube视频。ChatMLX支持多种语...
-
CDial-GPT是清华大学研究团队推出的大型中文短文本对话数据集LCCC及基于数据集的预训练对话生成模型。LCCC数据集经过严格的清洗流程,包含基础版(LCCC-base)和扩展版(LCCC-large),旨在提升对话模型...