手机、平板、电脑、电视,屏幕越来越多,操作越来越复杂,是不是让你眼花缭乱?苹果最近丢出一个王炸——Ferret-UI2,一个超强 UI 理解模型,号称要统一江湖!

这可不是吹牛,Ferret-UI2的目标是成为一个真正的六边形战士,能在各种平台上理解用户界面,不管是iPhone、Android、iPad、网页还是AppleTV,它都能轻松拿下。

Ferret-UI2的一大亮点是它对多平台的支持。与仅限于移动平台的Ferret-UI不同,Ferret-UI2能够理解来自平板电脑、网页和智能电视等各种设备的UI屏幕。这种多平台支持使其能够适应当今多样化的设备生态系统,为用户提供更广泛的应用场景。

为了提高UI感知能力,Ferret-UI2引入了动态高分辨率图像编码技术,并采用了一种名为“自适应网格”的增强方法。通过这种方法,Ferret-UI2能够在UI屏幕截图的原始分辨率下保持感知能力,从而更准确地识别视觉元素和它们之间的关系。

此外,Ferret-UI2还利用高质量的训练数据来学习基本和高级任务。 对于基本任务,Ferret-UI2将简单的引用和定位数据转换为对话形式,使模型能够对各种UI屏幕建立基本理解。 对于更侧重于用户体验的高级任务,Ferret-UI2采用了**基于GPT-4o的“标记集视觉提示”**技术来生成训练数据,并用单步用户中心交互取代了之前方法中简单的点击指令。

为了评估Ferret-UI2的性能,研究人员构建了涵盖五个平台的45个基准测试,包括每个平台的6个基本任务和3个高级任务。 此外,他们还使用了GUIDE和GUI-World等公开基准测试。 结果表明,Ferret-UI2在所有测试的基准测试中都优于Ferret-UI,特别是在高级任务上取得了显著的进步,证明了其在处理跨平台UI理解任务方面的多功能性。

消融研究进一步表明,Ferret-UI2的架构改进和数据集改进都对性能提升做出了贡献,其中新数据集对更具挑战性的任务的影响更为显著。 此外,Ferret-UI2在跨平台迁移学习方面也表现出色,特别是在iPhone、iPad和Android平台之间表现出良好的泛化能力。

模型地址:https://huggingface.co/jadechoghari/Ferret-UI-Llama8b

论文地址:https://arxiv.org/pdf/2410.18967