Midscene v1.0 发布 - 视觉驱动，UI 自动化体验跃迁

2026-01-09/ 28 次浏览/ 资讯

midscene v1.0 发布 - 视觉驱动，ui 自动化体验跃迁

Midscene 是一款以视觉模型为核心、支持全平台的 UI 自动化 SDK。ByteDance Web Infra 团队正式推出 Midscene v1.0，全面拥抱视觉理解技术路线，为 UI 自动化带来更高稳定性与更强适应性。

视觉模型具备如下核心优势：

效果稳健 ：当前主流视觉模型（如 Doubao Seed 1.6、Qwen3-VL 等）已展现出高度一致性，在多数实际业务场景中可稳定交付结果
任务规划能力强 ：模型天然具备对 UI 流程的理解与拆解能力，能自主完成多步骤、跨界面的复杂操作序列
跨平台无依赖 ：不再受限于底层渲染框架。无论是 Android、iOS、桌面客户端，还是浏览器内渲染内容，只要能获取屏幕图像，Midscene 即可实现精准交互
上手门槛低 ：无需编写各类 selector 或解析 DOM 结构，开发者与模型之间的协作更直观，即使缺乏前端或原生开发经验的新手也能快速入门
Token 成本大幅降低 ：在舍弃 DOM 提取环节后，整体 token 消耗减少约 80%，不仅显著节省调用成本，也提升了本地推理响应速度
开源模型支持成熟 ：随着 Qwen3-VL 等高质量开源视觉模型持续演进（提供 8B、30B 等多种规格），私有化部署与定制化训练已成为现实选择

除基础交互外，Midscene 还引入 Planning（任务规划）与 Insight（界面洞察）两类高级意图，并支持为不同意图配置专属模型。例如：使用 GPT 系列模型负责高层动作编排，而由 Doubao 模型专注执行元素识别与定位。

多模型协同机制，让开发者可根据任务复杂度灵活调配算力资源，兼顾效率与精度。

针对运行时性能，v1.0 做出多项关键优化：

回放报告作为开发者高频使用的调试利器，本次也迎来全面升级：

Midscene MCP 服务的定位同步更新：其核心使命聚焦于“视觉驱动的 UI 操作抽象”。通过将 iOS / Android / Web 各端设备的 Action Space 中每一个原子操作封装为标准 MCP 工具，MCP 层向上统一暴露能力接口。

这一设计使开发者得以专注于构建具备业务语义的高阶 Agent，彻底摆脱底层 UI 控制细节的束缚，同时持续获得高成功率保障。

iOS 方面优化

Android 方面优化

跨平台增强

方法名称变更：

环境变量名称变更：

源码地址：点击下载

<< 上一篇

下一篇 >>