Genmoai-smol是开源视频生成模型,是Genmoai的txt2video模型的工作进展分支,专为单GPU设备优化,减少显存占用,在资源有限的设备上能进行视频创作。模型用高保真度的运动和强大的提示遵循能力而闻名,显著缩...
-
-
夸克灵知是夸克公司全新推出的智能学习学习大模型,具备博士生级别的推理能力。基于AI技术为用户提供分步骤题目讲解,能随时回答问题。在考研数学等题目的正确率和得分率上,夸克灵知大模型已经能与OpenAI的o1模型相媲美,远超国内...
-
Voice Changer是Cartesia推出的新模型,能将任何音频剪辑的语音转换成其他音色,且保留原始音频的情感和表达。用户从Cartesia提供的多种高质量声音库中选择,或克隆自己的声音,且完全控制语音的细节,如发声、...
-
Oasis是Decart和Etched合作推出的革命性AI技术,是世界上首个实时AI世界模型,能以每秒20帧的速度实时生成交互式视频内容,且无延迟。Oasis开启“生成式交互体验”的新纪元,支持用户基于文字或语音命令控制游戏...
-
HOVER是英伟达推出的1.5M小模型,全称为“Humanoid Versatile Controller”,即人形机器人的多功能全身神经通用控制器。模型用150万参数实现对机器人复杂动作的控制,能适应多样任务如导航、桌面操...
-
NotebookMLX是开源版本的NotebookLM,集成NotebookLlama的功能,能将PDF文档转换成易于理解和分享的音频播客形式。项目基于MLX技术实现自然语言处理功能,包括PDF预处理、制作播客文本、文本重写...
-
DreamVideo-2是创新的零样本视频定制框架,是复旦大学和阿里巴巴集团等机构联合推出。DreamVideo-2能根据单一图像和界定框序列生成具有特定主题和精确运动轨迹的视频,无需在测试时进行微调。框架用参考注意力机制学...
-
EMMA是Waymo基于Gemini模型推出的端到端自动驾驶多模态模型,能将原始相机传感器数据直接映射到驾驶特定输出,如规划轨迹、感知对象和道路图元素。EMMA将非传感器输入和输出表示为自然语言文本,用预训练大型语言模型的世...
-
TimeSuite是上海AI Lab推出的新型框架,能提升多模态大型语言模型(MLLMs)在长视频理解任务中的表现。基于引入高效的长视频处理框架、高质量的视频数据集TimePro用在定位调整,及名为Temporal Grou...
-
Show-o是集成了多模态理解和生成的统一Transformer模型。通过结合自回归和离散扩散建模,能灵活处理包括视觉问答、文本到图像生成、文本引导的修复和扩展,混合模态生成在内的广泛视觉语言任务。Show-o模型在多模态理...