AI工具 - 第5页 - 中国AI网

MetaMorph 统一多模态理解与生成大模型，基于VPiT 预测多模态 token

34

MetaMorph是多模态大模型（MLLM），通过指令微调（Instruction Tuning）实现视觉理解和生成。它提出了一种名为Visual-Predictive Instruction Tuning（VPiT）的方法...

90

VisionFM（伏羲慧眼）是多模态多任务的视觉基础模型，专为通用眼科人工智能而设计。通过预训练3.4百万张来自560,457个个体的眼科图像，覆盖广泛的眼科疾病、成像模态、设备和人群统计数据。VisionFM能处理包括眼底...

56

PromptWizard是微软推出的自动化提示优化框架，改进大型语言模型（LLMs）在特定任务中的表现。基于自我演变和自我适应机制，PromptWizard用反馈驱动的批评和合成过程，在探索和利用之间找到平衡，迭代地优化提示...

45

StyleStudio是西湖大学AI实验室、复旦大学、南洋理工大学和香港科技大学（广州）联合推出的，文本驱动的风格迁移模型，能将参考图像的风格与文本提示的内容融合。StyleStudio基于三种策略解决风格过拟合、控制限制和...

48

INFP是音频驱动的头部生成框架，专为双人对话交互设计。能自动在对话音频引导下进行角色的转换，无需手动分配角色和角色切换。INFP包括两个阶段：基于动作头部模仿阶段和音频引导动作生成阶段，通过实验和可视化展示，验证了INFP...

51

RWKV-7是RWKV系列的最新大模型架构版本，超越了传统的attention和linear attention范式，具有更灵活的状态演化能力，能在相同算力消耗下解决attention无法解决的问题。...

63

OpenAI o3模型是继o1之后的新一代推理模型，包括o3和o3-mini两个版本。o3在某些条件下接近于通用人工智能（AGI），在ARC-AGI基准测试中得分高达87.5%，远超人类平均水平。它在数学和编程任务中表现出色...

58

ElevenLabs Flash是ElevenLabs推出的低延迟语音合成模型，专为快速对话型AI设计。ElevenLabs Flash有两个版本：Flash v2仅支持英语，Flash v2.5支持32种语言。Eleven...

54

AniDoc是香港科技大学、蚂蚁集团、南京大学、浙江大学和香港大学共同推出的简化2D动画上色AI模型，基于视频扩散模型自动将草图序列转换成彩色动画，遵循参考角色设计。模型用对应匹配技术处理角色设计与草图之间的差异，实现色彩和...

57

Gemini 2.0 Flash Thinking是谷歌推出的实验性AI模型，能快速思考和解决问题。Gemini 2.0 Flash Thinking展示详细的思考过程，与OpenAI的o1模型不同，Gemini 2.0 F...