OmniParser是微软研究院推出的屏幕解析工具,将用户界面的屏幕截图转换成结构化数据。工具专门设计用在提高基于大型语言模型(如GPT-4V)的UI代理系统的性能,基于准确识别可交互图标和理解截图元素的语义,增强代理执行任务的能力。OmniParser用微调过的模型提取屏幕中的交互区域和元素功能语义,在多个基准测试中提升操作的精确度和代理的性能,无需依赖额外信息如HTML或视图层次结构。
OmniParser的主要功能解析UI截图:OmniParser将用户界面的屏幕截图解析成结构化的元素,包括可交互图标和文本。识别可交互区域:用专门的检测模型识别和标记UI中的可交互区域,如按钮和图标。提取功能语义:用描述模型提取检测到的元素的功能语义,生成对用户任务相关的描述。增强代理性能:结合解析结果,提升基于大型语言模型(如GPT-4V)的UI代理在执行任务时的性能和准确性。跨平台应用:支持多种操作系统和应用程序,如Windows、MacOS、iOS、Android及多种Web浏览器和桌面应用。无需额外信息:无需依赖HTML或视图层次结构等额外信息,独立地从视觉截图中提取必要数据。OmniParser的技术原理数据集构建:从流行网页和应用中提取数据,构建可交互图标检测数据集和图标描述数据集。模型微调:检测模型:用YOLOv8模型在可交互图标检测数据集上进行微调,识别和定位UI中的可交互区域。描述模型:用BLIP-v2模型在图标描述数据集上进行微调,生成图标的功能描述。OCR模块:集成光学字符识别(OCR)模块提取屏幕上的文本,与图标检测结果合并,去除高重叠的边界框。结构化表示:将检测到的元素和生成的描述整合,形成结构化的DOM(文档对象模型)表示,在潜在可交互元素上叠加边界框的截图。行动预测:结合结构化元素和功能语义,减轻大型语言模型在行动预测时的负担,更准确地将预测的行动转换为屏幕上的实际行动。OmniParser的项目地址项目官网:omniparser-for-pure-vision-based-gui-agentHuggingFace模型库:https://huggingface.co/microsoft/OmniParserarXiv技术论文:https://arxiv.org/pdf/2408.00203OmniParser的应用场景自动化软件测试:在软件开发过程中,自动识别和操作UI元素,执行测试脚本,提高测试效率和覆盖率。虚拟助手:作为虚拟助手的一部分,帮助理解屏幕内容、执行如预订、查询和数据输入等任务。辅助技术:对于视觉障碍人士,OmniParser能解析屏幕内容、转化为语音输出,提供屏幕阅读功能。用户界面设计验证:设计师验证UI设计中的可交互元素是否符合预期的功能和语义。跨平台应用开发:开发者在不同操作系统和设备上测试和优化应用的UI,确保一致的用户体验。
上一篇