AI工具 - 第63页 - 中国AI网

Llama 3.2 Meta推出的中小型视觉语言模型和轻量级文本模型

234

Llama 3.2是Meta公司最新推出的开源AI大模型系列，包括小型和中型视觉语言模型（11B和90B参数）以及轻量级纯文本模型（1B和3B参数）。Llama 3.2模型专为边缘设备和移动设备设计，支持128K令牌的上下文...

200

PortraitGen是中国科学技术大学研究团队推出的一款AI人像视频编辑工具。基于3D高斯溅射技术和神经高斯纹理机制，将2D人像视频转换为4D高斯场，实现高质量的3D和时间一致性编辑。...

191

MMMLU（多语言大规模多任务语言理解）是由OpenAI推出的一个开源数据集，旨在评估和提升人工智能模型在不同语言、认知和文化背景下的性能而设计。MMMLU建立在广受欢迎的大规模多任务语言理解（MMLU）基准的基础上，数据集...

355

oneWebot2是一款微信AI机器人一键运行软件包，用户下载exe文件后，双击即可启动，无需复杂的Python环境配置。有图形化界面，简化配置流程，非技术用户轻松设置和运行微信机器人。...

299

GOT-OCR 2.0是一种先进的光学字符识别（OCR）模型，推动OCR技术进入2.0时代。GOT-OCR 2.0端到端的模型由高压缩编码器和长上下文解码器组成，能处理包括文本、数学公式、分子式、图表、乐谱和几何图形在内的多...

305

豆包PixelDance是字节跳动最新推出的AI视频生成模型，采用DiT结构，支持文生视频和图生视频。它能理解复杂指令，生成长达10秒的连贯视频片段，涵盖多主体交互和时序性动作。...

301

豆包Seaweed是字节跳动推出的AI视频生成模型，支持文生视频和图生视频两种模式。基于Transformer结构，利用时空压缩技术进行训练，原生支持多分辨率输出，适配不同屏幕比例。豆包Seaweed默认生成720p、24f...

294

SFR-RAG是由Salesforce AI Research推出的一款大型语言模型，专注于提升机器在理解和生成文本方面的应用能力。模型特别强调对上下文的忠实理解，在检索增强生成领域进行优化。...

308

OpenMusic 是一款基于 QA-MDT（Quality-aware Masked Diffusion Transformer）技术的高质量文生音乐模型。基于先进的AI算法，根据文本描述生成高质量的音乐作品。...

151

SCoRe（Self-Correction via Reinforcement Learning）是谷歌DeepMind推出的一种创新的多轮强化学习方法，旨在提高大型语言模型（LLM）的自我纠错能力。通过在模型生成的数据上进...