AI工具 - 第26页 - 中国AI网

CAVIA 苹果、得克萨斯、谷歌联合推出的多视角视频生成框架

65

CAVIA是苹果公司、得克萨斯大学奥斯汀分校、谷歌联合推出的多视角视频生成框架，能将单一输入图像转换成多个时空一致的视频序列。框架基于引入视角集成注意力模块，增强视频的视角一致性和时间连贯性，支持用户精确控制相机运动，同时保...

63

Flex3D是由Meta的GenAI团队和牛津大学研究团队推出的创新的两阶段3D生成框架，能基于任意数量的高质量输入视图，解决从文本、单张图片或稀疏视图图像生成高质量3D内容的挑战。第一阶段，基于微调的多视图和视频扩散模型生...

63

EvolveDirector是阿里巴巴和南洋理工大学联合推出的创新框架，用公开资源和高级模型的API接口训练一个高性能的文本到图像生成模型。框架基于与现有高级模型的API交互获取数据对，训练一个基础模型，并借助预训练的大型视...

61

StoryTeller是字节跳动、上海交通大学和北京大学共同推出的系统，能基于音频视觉角色识别技术改善长视频描述的质量和一致性。系统结合低级视觉概念和高级剧情信息，生成详细且连贯的视频描述。StoryTeller由视频分割、...

61

DELIFT（Data Efficient Language model Instruction Fine-Tuning）是新型算法，用在优化大型语言模型（LLMs）在指令调优、任务特定微调和持续微调三个关键阶段的数据选择。...

61

HART（Hybrid Autoregressive Transformer）是麻省理工学院研究团队推出的自回归视觉生成模型。能直接生成1024×1024像素的高分辨率图像，质量媲美扩散模型。HART基于混合Tokenize...

57

WebDreamer是俄亥俄州立大学和Orby AI研究团队推出的基于模型规划的网络智能体，基于大型语言模型（LLMs），特别是GPT-4o，作为世界模型预测网站上的交互结果。框架模拟可能的用户行为和结果，帮助网络代理在复杂...

66

BALROG是评估大型语言模型（LLMs）和视觉语言模型（VLMs）在游戏上的推理能力，特别是模型在动态环境中的规划、空间推理和探索能力。基于一系列挑战性的游戏环境，包括程序生成的环境如NetHack，测试模型性能。BALR...

68

FlipSketch 是萨里大学推出的创新系统，能将静态绘图转变为文本引导的草图动画。技术基于三个关键创新实现：微调草图风格的帧生成、用噪声细化保持输入草图视觉完整性的参考帧机制，及在不失去视觉一致性的情况下实现流畅运动的双...

66

TÜLU 3是艾伦人工智能研究所（Ai2）推出的一系列开源指令遵循模型，包括8B和70B两个版本，未来计划推出405B版本。模型在性能上超越Llama 3.1 Instruct版本，提供了详细的后训练技术报告，公开数据、评估...