OmniParser 是由 Microsoft 提出的一款通用屏幕解析工具,旨在将界面截图转换为结构化的可交互元素列表,提升基于大模型的 GUI 代理能力。该项目结合了专门标注的可交互图标检测数据集与图标描述数据集,对 YOLOv8 与 BLIP-2 等模型进行了微调,以实现对可点击区域和图标功能语义的识别与描述。OmniParser 可适配桌面和手机等多种屏幕场景,支持将视觉信息转为文本化的元素位置与语义说明,便于后续的自动化交互或上层 LLM 处理。尽管在结构化解析方面表现优异,但使用时仍需注意其在敏感属性推断及有害内容检测上的局限性,并结合人工判断与负责任的开发实践。
Spokesite 是一个以 AI 为核心的 web 开发平台,用户可以通过自然语言提示快速生成并部署完整的网站和 Web 应用。平台主打“无需编码知识”的体验,用户只需用英文描述想要构建的内容,AI 即可生成生产级代码并完成部署。它支持自定义域名、代码导出与全球可用的无服务器部署,同时提供按月订阅和免费试用选项,适合个人创作者、小型团队和快速原型开发。通过内置的 AI 编辑额度,用户还能对现有项目进行快速迭代和修改。
Describe Picture 是一款基于 AI 的图像描述与内容提取工具,旨在为图片生成详细的文字描述并支持多种后处理格式(如 Markdown)。它支持本地上传、通过 URL 获取或使用粘贴(Ctrl+V)直接导入图片,兼容 PNG、JPEG 和 WEBP 等常见格式(单张上限 2MB)。核心功能包括图像内容识别、图中文字提取(OCR)、将网页截图自动转换为 HTML/CSS/JS 代码以及将图片内容精准转换为 Markdown,适合用于生成替代文本、SEO 优化与无障碍访问。平台还提供交互式会话、模型选择与一键复制代码功能,提升日常图像处理与前端复刻的工作效率。