Red_Panda 是 Recraft V3 在发布初期使用的化名,是Recraft AI推出的先进AI图像生成模型,以卓越的性能在图像生成领域树立新标准。在Hugging Face的Text-to-Image Benchm...
-
-
D-Edit是基于图像和文本的多功能图像编辑框架,基于预训练的扩散模型和独特的提示(prompts)实现对图像中特定项目的精确控制和编辑。框架能处理包括基于图像的编辑、基于文本的编辑、基于掩码的编辑及项目移除等多种编辑任务。...
-
PromptFix是新型的指令引导扩散模型,结合语言模型和大规模视觉指令数据集,根据人类指令执行多样化的图像处理任务。PromptFix基于构建大规模的指令遵循数据集,提出高频引导采样方法和辅助提示适配器,增强对图像高频细节...
-
VtripGPT是视旅科技推出的专注于旅游领域的AI大模型,基于深度合成服务为旅游对话生成提供智能支持。模型基于Transformer架构,结合旅游行业数据和常规知识进行增量预训练,基于人工构建的有监督指令数据及对话数据进行...
-
GitHub Spark是GitHub推出的AI大模型编程产品,支持GPT-4o、Claude Sonnet 3.5等四款编程模型。用户无需任何代码和部署环境,基于自然语言描述需求,能在桌面或移动端快速开发微应用程序。Spa...
-
SimpleQA是OpenAI推出的基准测试,用在评估大型语言模型回答简短、寻求事实问题的能力。SimpleQA包含4326个问题,每个问题设计为只有一个正确答案,易于评分”。SimpleQA挑战性强,即使是最先进的大模型如...
-
DreamClear是中国科学院自动化研究所和字节跳动团队联合推出的高性能图像修复技术,专注于隐私安全的数据集管理,能将低质量(LQ)图像恢复为高质量(HQ)图像。...
-
EcomID是阿里妈妈推出的开源项目,从单个参考图像生成定制的个性图像。融合PuLID和InstantID的优点,优化背景一致性、面部关键点控制和面部真实性,提高生成图像的相似度。EcomID在200万张淘宝图像上训练,图像...
-
MarDini是新型的视频扩散模型,融合掩码自回归(MAR)和扩散模型(DM)的优势,用在大规模视频生成。模型能处理任意数量和位置的掩码帧,支持视频插值、图像到视频生成及视频扩展等多种任务。MarDini将大部分计算资源分配...
-
VILA-U是集成视频、图像、语言理解和生成的统一基础模型。基于单一的自回归下一个标记预测框架处理理解和生成任务,简化模型结构,在视觉语言理解和生成方面实现接近最先进水平的性能。VILA-U的成功归因于在预训练期间将离散视觉...