AI工具 - 第47页 - 中国AI网

FakeShield 北大推出检测图像伪造的多模态大语言模型框架

107

FakeShield是北京大学研究人员推出的多模态大型语言模型框架，能检测和定位图像伪造。框架能评估图像的真实性，生成被篡改区域的掩码，提供基于像素级和图像级篡改线索的判断依据。FakeShield用GPT-4o增强现有数据...

111

MaskGCT是趣丸科技与香港中文大学（深圳）合作推出的语音合成大模型，基于掩码生成模型与语音表征解耦编码的技术，实现在声音克隆、跨语种合成、语音控制等任务上的显著效果。模型在多个TTS基准数据集上达到行业领先的水平，某些性...

111

Allegro是由Rhymes AI推出的先进的文本到视频生成模型，能将简单的文本输入转换成高达720p分辨率、每秒15帧、长度达6秒的高质量视频内容。模型在视频生成领域中表现出色，具有优异的质量和时间一致性，能根据描述性的...

103

Phidata是开源的AI智能体框架，帮助开发者构建具有记忆、知识、工具和推理能力的智能代理系统。支持创建能够协同工作的代理团队，提供用户界面实现与代理的交互。Phidata包含监控和优化工具，便于跟踪代理性能并和进行改进。...

96

Ditto是基于Flask的应用程序生成器，用户基于简单的自然语言描述创建多文件的Web应用程序。工具用一个简单的LLM循环和一些辅助工具自动化编码过程，将用户的想法转化为功能性的Web应用程序。用户用英语描述想要构建的应用...

120

Flux.1 Lite是Freepik团队推出的轻量级AI模型，目前处于alpha版本。Flux.1 Lite是基于80亿参数的transformer架构，从FLUX.1-dev模型中提取而来。Flux.1 Lite的模型权...

95

HuggingChat macOS是Hugging Face推出的开源聊天应用程序，专为macOS用户设计，基于强大的开源语言模型，将先进的AI对话能力直接带到用户的桌面上。应用支持多种顶尖的开源大语言模型，如Qwen 2....

98

OmniParser是微软研究院推出的屏幕解析工具，将用户界面的屏幕截图转换成结构化数据。工具专门设计用在提高基于大型语言模型（如GPT-4V）的UI代理系统的性能，基于准确识别可交互图标和理解截图元素的语义，增强代理执行任...

94

OMNE Multiagent是天桥脑科学研究院（Tianqiao and Chrissy Chen Institute，TCCI）推出的大模型多智能体框架。基于长期记忆（Long Term Memory, LTM）构建，每...

93

DuoAttention是新型的框架，由MIT韩松团队提出，用在提高大型语言模型（LLMs）在处理长上下文时的推理效率。基于区分“检索头”和“流式头”两种注意力头，优化模型的内存使用和计算速度。检索头负责处理长距离依赖，需要...