描述
使用 Midscene 实现视觉驱动的桌面自动化。通过自然语言指令控制你的桌面。完全基于屏幕截图运行——无需 DOM 或无障碍标签。能够与屏幕上所有可见元素进行交互,不受技术栈限制。⚠️ 会接管用户真实的鼠标和键盘。对于 Web 应用,请优先选择“浏览器自动化”。仅适用于无法在浏览器中运行的桌面原生应用(Electron、Qt、macOS/Windows/Linux 原生应用)。触发词:打开应用、按下按键、desktop、computer、点击屏幕、输入文本、截取桌面、启动应用、切换窗口、桌面自动化、控制电脑、鼠标点击、键盘快捷键、屏幕截图、在屏幕上查找、读取屏幕、验证窗口、关闭应用、测试 Electron 应用。由 Midscene.js (https://midscenejs.com) 提供支持