ANTO是一款开源的Windows桌面字幕翻译工具,用于翻译SRT格式的视频字幕文件。集成多种翻译引擎,如谷歌翻译、DeepL、微软翻译、百度翻译和有道翻译等,用户根据需求选择服务。ANTO支持批量处理,能同时翻译多个字幕文...
-
-
AiNiee 是一款AI翻译工具,能一键自动翻译RPG、SLG游戏、Epub、TXT格式的小说、Srt、Lrc字幕文件等。工具支持多格式文件,接入多个主流AI接口平台,如OpenAI、Google、Anthropic、Dee...
-
LLaMA-Omni 是中国科学院计算技术研究所和中国科学院大学研究者推出的新型模型架构,用于实现与大型语言模型(LLM)的低延迟、高质量语音交互。通过集成预训练的语音编码器、语音适配器、大型语言模型(LLM)和一个实时语音...
-
华知大模型5.0是同方知网与华为云联合推出的AI大模型,具备多模态理解和生成能力。华知大模型5.0的最大亮点在于多维模型的构建能力,涵盖从7B到135B不等的多种规模模型。通过跨模态多层语义融合技术,处理学术图片、统计表格等...
-
LVCD(Large Video Color Diffusion)是一个专为动画视频线稿上色设计的视频扩散框架,能将黑白线稿自动转化为彩色动画视频。LVCD使用了一种先进的扩散模型,可以同时处理整个视频序列,保证每一帧的颜色...
-
ItiNera 是港大和MIT联合开发的智能城市行程规划系统。基于大型语言模型(LLM)和空间优化技术,根据用户的个性化需求,如情侣酒吧、二次元圣地等,一键生成Citywalk路线。系统包含五大模块:用户兴趣点数据库构建、请...
-
CogVideoX-Fun是一个基于CogVideoX结合EasyAnimate修改的AI视频生成工具,提供了更自由的生成条件,支持文字生成视频、图片生成视频以及视频生成视频。工具能生成不同分辨率的视频内容,从256x256...
-
StoryMaker 是小红书开源的一款文本到图像生成工具,专注于帮助创作者在连续图像内容中保持角色的一致性。基于 Stable Diffusion XL 模型和 LoRA 技术,确保生成的图像在面部特征、服装、发型和身体特...
-
书生·物华2.0(3DTopia 2.0)是由上海人工智能实验室与南洋理工大学联合开发的三维物体生成大模型。模型采用创新的原语(primitive-based)三维表示方法PrimX,能将形状、纹理和材质信息编码为紧凑的张量...
-
cogvlm2-llama3-caption模型是一个基于CogVLM2架构的视频描述生成模型。模型用于理解视频内容,自动生成描述视频内容的文本标题或字幕。...