FakeShield是北京大学研究人员推出的多模态大型语言模型框架,能检测和定位图像伪造。框架能评估图像的真实性,生成被篡改区域的掩码,提供基于像素级和图像级篡改线索的判断依据。FakeShield用GPT-4o增强现有数据...
-
-
MaskGCT是趣丸科技与香港中文大学(深圳)合作推出的语音合成大模型,基于掩码生成模型与语音表征解耦编码的技术,实现在声音克隆、跨语种合成、语音控制等任务上的显著效果。模型在多个TTS基准数据集上达到行业领先的水平,某些性...
-
Allegro是由Rhymes AI推出的先进的文本到视频生成模型,能将简单的文本输入转换成高达720p分辨率、每秒15帧、长度达6秒的高质量视频内容。模型在视频生成领域中表现出色,具有优异的质量和时间一致性,能根据描述性的...
-
Phidata是开源的AI智能体框架,帮助开发者构建具有记忆、知识、工具和推理能力的智能代理系统。支持创建能够协同工作的代理团队,提供用户界面实现与代理的交互。Phidata包含监控和优化工具,便于跟踪代理性能并和进行改进。...
-
Ditto是基于Flask的应用程序生成器,用户基于简单的自然语言描述创建多文件的Web应用程序。工具用一个简单的LLM循环和一些辅助工具自动化编码过程,将用户的想法转化为功能性的Web应用程序。用户用英语描述想要构建的应用...
-
Flux.1 Lite是Freepik团队推出的轻量级AI模型,目前处于alpha版本。Flux.1 Lite是基于80亿参数的transformer架构,从FLUX.1-dev模型中提取而来。Flux.1 Lite的模型权...
-
HuggingChat macOS是Hugging Face推出的开源聊天应用程序,专为macOS用户设计,基于强大的开源语言模型,将先进的AI对话能力直接带到用户的桌面上。应用支持多种顶尖的开源大语言模型,如Qwen 2....
-
OmniParser是微软研究院推出的屏幕解析工具,将用户界面的屏幕截图转换成结构化数据。工具专门设计用在提高基于大型语言模型(如GPT-4V)的UI代理系统的性能,基于准确识别可交互图标和理解截图元素的语义,增强代理执行任...
-
OMNE Multiagent是天桥脑科学研究院(Tianqiao and Chrissy Chen Institute,TCCI)推出的大模型多智能体框架。基于长期记忆(Long Term Memory, LTM)构建,每...
-
DuoAttention是新型的框架,由MIT韩松团队提出,用在提高大型语言模型(LLMs)在处理长上下文时的推理效率。基于区分“检索头”和“流式头”两种注意力头,优化模型的内存使用和计算速度。检索头负责处理长距离依赖,需要...