Llama 3.2是Meta公司最新推出的开源AI大模型系列,包括小型和中型视觉语言模型(11B和90B参数)以及轻量级纯文本模型(1B和3B参数)。Llama 3.2模型专为边缘设备和移动设备设计,支持128K令牌的上下文...
-
-
PortraitGen是中国科学技术大学研究团队推出的一款AI人像视频编辑工具。基于3D高斯溅射技术和神经高斯纹理机制,将2D人像视频转换为4D高斯场,实现高质量的3D和时间一致性编辑。...
-
MMMLU(多语言大规模多任务语言理解)是由OpenAI推出的一个开源数据集,旨在评估和提升人工智能模型在不同语言、认知和文化背景下的性能而设计。MMMLU建立在广受欢迎的大规模多任务语言理解(MMLU)基准的基础上,数据集...
-
oneWebot2是一款微信AI机器人一键运行软件包,用户下载exe文件后,双击即可启动,无需复杂的Python环境配置。有图形化界面,简化配置流程,非技术用户轻松设置和运行微信机器人。...
-
GOT-OCR 2.0是一种先进的光学字符识别(OCR)模型,推动OCR技术进入2.0时代。GOT-OCR 2.0端到端的模型由高压缩编码器和长上下文解码器组成,能处理包括文本、数学公式、分子式、图表、乐谱和几何图形在内的多...
-
豆包PixelDance是字节跳动最新推出的AI视频生成模型,采用DiT结构,支持文生视频和图生视频。它能理解复杂指令,生成长达10秒的连贯视频片段,涵盖多主体交互和时序性动作。...
-
豆包Seaweed是字节跳动推出的AI视频生成模型,支持文生视频和图生视频两种模式。基于Transformer结构,利用时空压缩技术进行训练,原生支持多分辨率输出,适配不同屏幕比例。豆包Seaweed默认生成720p、24f...
-
SFR-RAG是由Salesforce AI Research推出的一款大型语言模型,专注于提升机器在理解和生成文本方面的应用能力。模型特别强调对上下文的忠实理解,在检索增强生成领域进行优化。...
-
OpenMusic 是一款基于 QA-MDT(Quality-aware Masked Diffusion Transformer)技术的高质量文生音乐模型。基于先进的AI算法,根据文本描述生成高质量的音乐作品。...
-
SCoRe(Self-Correction via Reinforcement Learning)是谷歌DeepMind推出的一种创新的多轮强化学习方法,旨在提高大型语言模型(LLM)的自我纠错能力。通过在模型生成的数据上进...