# midscene-js
**Repository Path**: mirrors/midscene-js
## Basic Information
- **Project Name**: midscene-js
- **Description**: 视觉模型驱动,支持全平台的 UI 自动化 SDK 功能特性 用自然语言编写自动化脚本 描述你的目标和步骤,Midscene 会为你规划和操作用户界面
- **Primary Language**: TypeScript
- **License**: MIT
- **Default Branch**: main
- **Homepage**: https://www.oschina.net/p/midscene-js
- **GVP Project**: No
## Statistics
- **Stars**: 0
- **Forks**: 2
- **Created**: 2025-12-26
- **Last Updated**: 2026-02-14
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
Midscene.js
视觉模型驱动,支持全平台的 UI 自动化 SDK
## 📣 使用 Midscene Skills 控制任意平台
> 使用 [Midscene Skills](https://github.com/web-infra-dev/midscene-skills) 控制任意平台。
## 案例
在 Web 浏览器中自主注册 Github 表单,并通过所有字段校验。
此外还有这些实战案例:
* [iOS 自动化 - 美团下单咖啡](https://midscenejs.com/zh/showcases#ios)
* [iOS 自动化 - Twitter 自动点赞 @midscene_ai 首条推文](https://midscenejs.com/zh/showcases#ios)
* [Android 自动化 - 懂车帝查看小米 SU7 参数](https://midscenejs.com/zh/showcases#android)
* [Android 自动化 - Booking 预订圣诞酒店](https://midscenejs.com/zh/showcases#android)
* [MCP 集成 - Midscene MCP 操作界面发布 prepatch 版本](https://midscenejs.com/zh/showcases#mcp)
更多实战案例请点击查看:[案例展示](https://midscenejs.com/zh/showcases)
社区案例: [车机大屏测试中的机械臂 + 视觉 + 语音方案](https://midscenejs.com/zh/showcases#社区案例)
## 💡 特性
### 用自然语言编写自动化脚本
- 描述你的目标和步骤,Midscene 会为你规划和操作用户界面。
- 使用 Javascript SDK 或 YAML 格式编写自动化脚本。
### Web & Mobile App & 任意界面
- **Web 自动化**: 可以[与 Puppeteer 集成](https://midscenejs.com/zh/integrate-with-puppeteer),[与 Playwright 集成](https://midscenejs.com/zh/integrate-with-playwright)或使用[桥接模式](https://midscenejs.com/zh/bridge-mode)来控制桌面浏览器。
- **Android 自动化**: 使用 [Javascript SDK](https://midscenejs.com/zh/android-getting-started) 配合 adb 来控制本地 Android 设备。
- **iOS 自动化**: 使用 [Javascript SDK](https://midscenejs.com/zh/ios-getting-started) 配合 WebDriverAgent 来控制本地 iOS 设备。
- **任意界面自动化**: 使用 [Javascript SDK](https://midscenejs.com/zh/integrate-with-any-interface) 来控制你自己的界面。
### 工具
- **用于调试的可视化报告**: 通过我们的测试报告和 Playground,你可以轻松理解、回放和调试整个过程。
- [**使用缓存,提高执行效率**](https://midscenejs.com/zh/caching): 使用缓存能力重放脚本,提高执行效率。
- **MCP**: Midscene 提供 MCP 服务,将 Midscene Agent 的原子操作暴露为 MCP 工具,上层 Agent 可以用自然语言检查和操作界面。[文档](https://midscenejs.com/zh/mcp)。
### 三种类型的 API
- [**交互 API**](https://midscenejs.com/zh/api#interaction-methods): 与用户界面交互。
- [**数据提取 API**](https://midscenejs.com/zh/api#data-extraction): 从用户界面和 DOM 中提取数据。
- [**实用 API**](https://midscenejs.com/zh/api#more-apis): 实用函数,如 `aiAssert()` (断言), `aiLocate()` (定位), `aiWaitFor()` (等待)。
## 👉 无需代码,快速体验
- **[Chrome 插件](https://midscenejs.com/zh/quick-experience)**: 通过 [Chrome 插件](https://midscenejs.com/zh/quick-experience) 立即开始体验,无需编写代码。
- **[Android Playground](https://midscenejs.com/zh/android-getting-started)**: 内置的 Android Playground 可以控制你的本地 Android 设备。
- **[iOS Playground](https://midscenejs.com/zh/ios-getting-started)**: 内置的 iOS Playground 可以控制你的本地 iOS 设备。
## ✨ 视觉语言模型驱动
Midscene.js 在 UI 操作上采用纯视觉(pure-vision)路线:元素定位和交互只基于截图完成。支持视觉语言模型,例如 `Qwen3-VL`、`Doubao-1.6-vision`、`gemini-3-pro` 和 `UI-TARS`。在数据提取和页面理解场景中,需要时仍可选择附带 DOM 信息。
* UI 操作采用纯视觉定位,不再提供 DOM 提取兼容模式。
* 适用于 Web、移动端、桌面应用,甚至 `