OmniParser 是由 Microsoft 提出的一款通用屏幕解析工具,旨在将界面截图转换为结构化的可交互元素列表,提升基于大模型的 GUI 代理能力。该项目结合了专门标注的可交互图标检测数据集与图标描述数据集,对 YOLOv8 与 BLIP-2 等模型进行了微调,以实现对可点击区域和图标功能语义的识别与描述。OmniParser 可适配桌面和手机等多种屏幕场景,支持将视觉信息转为文本化的元素位置与语义说明,便于后续的自动化交互或上层 LLM 处理。尽管在结构化解析方面表现优异,但使用时仍需注意其在敏感属性推断及有害内容检测上的局限性,并结合人工判断与负责任的开发实践。