# GUI-paper-summarize

**Repository Path**: xherorl/gui-paper-summarize

## Basic Information

- **Project Name**: GUI-paper-summarize
- **Description**: GUI-agent 相关论文阅读总结
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-05-05
- **Last Updated**: 2025-05-07

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

### 1、Think Twice, Click Once: Enhancing GUI Grounding via Fast and Slow Systems

概述：通过根据任务复杂度动态调整快速和慢速系统之间的处理策略来增强 GUI 基础能力。对于简单任务，它采用快速基础系统进行高效处理。面对复杂场景时，它会激活慢速基础系统，生成面向任务的界面摘要，并在任务指令的指导下进行重点分析。

简单说：

快速模式：直接通过视觉模型进行预测，输出坐标值，判断预测值是否落在正确的标注框中。

慢速模式：快速模式失败之后，生成界面总结，然后通过视觉模型进行预测，输出坐标值。

如果失败，它会继续在最后阶段生成的界面上下文中引入对特定元素特征（位置、形状、颜色）的重点分析，进行预测。

![](.\assert\01.png)

### 2、ShowUI: One Vision-Language-Action Model for GUI Visual Agent

概述：

- UI 引导的视觉标记选择：我们识别 UI 屏幕截图的独特性（即冗余信息与必要信息交织），并开发了一种 UI 友好的视觉标记选择方法。在 RGB 空间中，我们将每个块表示为一个节点，并识别连通分量以对块间的冗余进行建模。这种关系引导视觉编码器或语言模型中的自注意力模块进行标记选择，从而有效减少计算量。
- 分析 GUI 操作的多样性，将其构建为 JSON 格式并记录其操作空间，以协助模型进行操作解释。此外，我们认识到跨模态交叉理解的必要性，例如将操作与视觉导航历史相结合，并通过多轮操作和文本查询来平衡视觉标记长度，以提高训练效率。我们的模型采用交叉的视觉-语言-动作流式传输，统一了 GUI 场景中的各种需求。

简单说：

- 对图片分 patch 后，去掉一些重复的 patch 以降低计算量。可以提速到原来的 1.5 倍，但效果会略降。

- 训练时把多个单步任务拼成多轮对话的形式进行训练，提升效率。navigation 生成动作时不仅使用当前的 UI 截图，也使用前面步骤的 UI 截图（N=2）。


代码：https://github.com/showlab/ShowUI

### 3、ScreenAgent : A Vision Language Model-driven Computer Control Agent

概述：构建了一个视觉语言模型 (VLM) 代理与真实计算机屏幕交互的环境。在此环境中，代理可以观察屏幕截图并通过输出鼠标和键盘操作来操作图形用户界面 (GUI)。我们还设计了一个自动化控制流程，其中包括规划、执行和反射阶段，引导代理持续与环境交互并完成多步骤任务。

简单说：

- 规划阶段：代理需要基于当前的屏幕截图，依靠自身的常识和计算机知识来分解复杂的任务。

- 执行阶段：代理根据当前屏幕截图生成低级鼠标或键盘 JSON 格式的函数调用中的操作。
- 反思阶段：代理根据后续操作屏幕评估当前情况。代理将决定是否需要重试当前子任务、继续执行下一个子任务，或者对计划列表进行一些调整。所有提示和模板均在附录 A 中提供。

代码：https://github.com/niuzaisheng/ScreenAgent

![](.\assert\02.png)

![](.\assert\03.png)

### 4、Reverse Engineering Mobile Application User Interfaces With REMAUI

概述：REMAUI 通过计算机视觉和光学字符识别 (OCR) 技术识别用户界面元素，例如图像、文本、容器和列表

简单说：针对论文中使用open cv技术识别截图以及OCR识别的融合，可以借鉴参考。

代码：http://cseweb.uta.edu/~tuan/REMAUI/  打不开了

### 5、LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects

todo: 综述，之后总结

### 6、LLM for Test Script Generation and Migration: Challenges, Capabilities, and Opportunities
概述：我们还探索了 LLM 在跨应用迁移中的应用，它能够基于现有脚本跨不同的应用程序和软件环境生成测试脚本。在整个调查过程中，我们分析了其对各种用户界面、应用程序架构和交互模式的适应性，以确保脚本生成准确且兼容性良好。本研究的结果有助于理解 LLM 在测试自动化方面的能力。

简单说：该论文中关于测试脚本的prompt可以进行借鉴

### 7、LlamaTouch: A Faithful and Scalable Testbed for Mobile UI Task Automation

概述：

- 设备端任务执行，使移动代理能够与真实的移动环境交互以执行任务。
- 细粒度的 UI 组件注释，融合像素级屏幕截图和文本屏幕层次结构，使用一组丰富的设计注释原语来显式识别和精确注释必要的 UI 组件。
- 一种多级应用程序状态匹配算法，利用精确匹配和模糊匹配，即使在不可预测的 UI 布局/内容动态下，也能准确检测每个屏幕中的关键信息。

简单说：评估方法可以借鉴

代码：https://github.com/LlamaTouch/LlamaTouch

### 8、Layout and Image Recognition Driving Cross-Platform Automated Mobile Testing

概述：提出了一种图像驱动的移动应用程序测试-框架，利用 Widget 特征匹配和布局特征匹配来分析应用程序 UI。我们利用计算机视觉（CV）技术对移动应用程序屏幕截图进行 UI 特征比较和布局层次提取，以获得包含应用程序 Widget 丰富上下文信息的 UI 结构，包括坐标、相对关系等。基于获取的 UI 结构，我们可以形成与平台无关的测试脚本，然后定位被测目标 Widget。因此，该框架根据一种新颖的与平台无关的测试脚本模型非侵入式地重放测试脚本。

简单说：可以借鉴视觉识别定位控件思路，但是代码没有开源

### 9、GUI Agents with Foundation Models: A Comprehensive Survey
todo：综述，之后总结

###  10、FERRET-UI 2: MASTERING UNIVERSAL USER IN-TERFACE UNDERSTANDING ACROSS PLATFORMS
概述：这是一个多模态大型语言模型 (MLLM)，旨在实现跨平台的通用 UI 理解，包括 iPhone、Android、iPad、网页和 AppleTV。Ferret-UI 2 在 Ferret-UI 的基础上引入了三大关键创新：支持多种平台类型、通过自适应缩放实现高分辨率感知，以及由 GPT4o 提供支持的高级任务训练数据生成和标记集视觉提示。

### 11、Effective, Platform-Independent GUI Testing via Image Embedding and Reinforcement Learning

概述：PIRLTest 以⼀种新颖的协同⽅式利⽤计算机视觉和强 化学习技术进⾏⾃动化测试。它从 GUI ⻚⾯中提取 GUI ⼩部件，并表征相应的 GUI 布局，将 GUI ⻚⾯嵌⼊为状态。

简单说：可以借鉴layout布局思路

代码：https://sites.google.com/view/pirltest

![](.\assert\04.png)

### 12、Automated Cross-Platform Inconsistency Detection for Mobile Apps

概述：DD 结合输⼊⽣成和差异测试，⽐较应⽤在不同平台上的⾏为并识别可能存在的不⼀致之处。

代码：https://sites.google.com/view/diffdroid/home

### 13、AppAgentX: Evolving GUI Agents as Proficient Smartphone Users

概述：我们的⽅法包含⼀种记忆机 制，⽤于记录代理的任务执⾏历史记录。通过分 析这些历史记录，代理可以识别重复的操作序 列，并演化出充当快捷⽅式的⾼级操作，从⽽取代这些低级操作并提⾼效率。

其中：利⽤ LLM 进⾏智能⼿机控制的过程涉及两个关键阶段：屏幕感知和动作执⾏

屏幕感知阶段始于截取设备当前界⾯的屏幕截图。 为了准确解读屏幕截图，我们使⽤ OmniParser  来检测并标记界⾯内的所有交互 元素，例如按钮和⽂本框。OmniParser 使⽤带标 签的边界框对这些元素进⾏注释，然后将其叠加到原始屏幕截图上，以实现清晰的可视化。之后，**带注释的屏幕截图将传递给 LLM 进⾏动作规划。在此阶段，LLM 会根据对界面的理解，解释 UI 组件 并生成相应的动作。** 在第⼆阶段，即动作执⾏阶段，我们遵循 AppAgent（Zhang 等⼈，2023）的规范，定义了 ⼀组代理可以在智能⼿机环境中执⾏的低级动作。 这些动作包括点击、⻓按、滑动、⽂本输⼊和返回 等常⻅⼿势。这些动作共同定义了⼀个与应⽤⽆关 的基本动作空间，⽤于模拟⼈类与智能⼿机界⾯的 典型交互。

简单说：提出了⼀种记忆机制，旨在捕捉并存储智 能体在与环境交互过程中的轨迹。 代理与 UI 的交互被建模为⼀系列⻚⾯转换，其中 每个 UI ⻚⾯都表⽰为⼀个“⻚⾯节点”。在这些⻚ ⾯上执⾏的交互（例如按钮点击或⽂本输⼊）会导 致这些节点之间的转换。

### 14、AppAgent v2: Advanced Agent for Flexible Mobile Interactions

概述：我们的代理构建了⼀个灵活的动作空 间，增强了其在各种应⽤（包括解析器、⽂本和 视觉描述）中的适应性。代理的运⾏主要分为两 个阶段：探索和部署。在探索阶段，⽤⼾界⾯元 素的功能将通过代理驱动或⼿动探索的⽅式记录 到⾃定义的结构化知识库中。在部署阶段，RAG 技术能够⾼效地从该知识库中检索和更新，从⽽ 使代理能够有效且准确地执⾏任务。

简单说重点：

agent 驱动的探索：该⽅法⾸先由代理分析当前的 UI 界⾯，识别需要 交互的元素并确定所需的具体操作。⼀旦确定了这 些元素和操作，代理就会执⾏计划的操作。在操作执⾏之后，代理会在交互前后截取屏幕截图，以⽐较和分析变化。通过⽐较，代理可以记录 UI 元素 的操作功能，并评估每个操作的有效性。 之后，代理进⼊反思阶段。如果代理确定执⾏的操 作与任务完全⽆关，则执⾏返回操作。⽆关操作将 被记录在 useless_list 中，并反馈到 LLM。如果操 作结果与预期⽤⼾⼀致，则任务并证明有效，相关的 UI 信息被记录下来并继 续探索。 这种反思确保只有与⽤⼾任务⼀致的操作才会被视 为有效并记录下来，以供将来检索。这种⽅法不仅 提升了知识库的质量，还能实时优化代理策略，确 保后续操作更有可能有效地促进任务的完成。

![](.\assert\05.png)

### 15、A Survey on the Optimization of Large Language Model-based Agents

综述，之后总结

### 16、AGUVIS: UNIFIED PURE VISION AGENTS FOR AUTONOMOUS GUI INTERACTION

概述：本文介绍了一个统一的纯视觉框架 A，用于跨平台运行的自主 GUI 代理。我们的方法利用基于图像的观察，并将自然语言指令应用于视觉元素，并采用一致的动作空间来确保跨平台泛化。为了克服先前研究的局限性，我们在模型中集成了显式规划和推理，以增强其自主导航和与复杂数字环境交互的能力。我们构建了一个大规模的 GUI 代理轨迹数据集，融合了多模态推理和基础训练，并采用了一个两阶段训练流程：首先进行 GUI 基础训练，然后进行规划和推理。

### 17、RoScript: A Visual Script Driven Truly Non-Intrusive Robotic Testing System for Touch Screen Applications

概述：本文提出了 RoScript，一个真正非侵入式的、由测试脚本驱动的机器人测试系统，用于触摸屏应用的测试自动化。RoScript 利用可视化测试脚本来表达触摸屏应用上的 GUI 操作，并使用物理机器人来驱动自动化测试执行。

简单说：该论文的思路与实现小程序自动化测试十分相似，可以借鉴，其中对于图像定位，使用的是opencv 的模板匹配

在屏幕照片上测试了 OpenCV 中内置的模板匹配算法 和最近的 BBS 算法。根据结果，RoScript 选择了 OpenCV 中在匹配精度和执行速度方面均表现最佳的归一化相关系数匹配算法。

![](.\assert\06.png)

### 18、AGENTTREK: AGENT TRAJECTORY SYNTHESIS VIA GUIDING REPLAY WITH WEB TUTORIALS

我们提出了 AgentTrek，这是一个可扩展的数据合成流程，它利用公开的教程生成 Web 代理轨迹。我们的方法分为三个阶段：(1) 使用专门的分类模型从互联网上自动收集和过滤类似教程的文本；(2) 将这些文本转换为包含分步说明的结构化任务规范；(3) 使用视觉语言模型 (VLM) 代理在真实环境中执行这些指令，同时由**基于 VLM 的评估器验证轨迹的正确性**。合成的轨迹涵盖多种模态，包括基于文本的 HTML 观测数据（包含函数调用 API 操作）以及基于视觉的屏幕截图观测数据（包含像素级操作）。

代码：https://agenttrek.github.io

### 19、PixelWeb: The First Web GUI Dataset with Pixel-Wise Labels

### 20、LayoutParser: A Uni ed Toolkit for Deep Learning Based Document Image Analysis

### 21、UI-TARS: Pioneering Automated GUI Interaction with Native Agents (字节)

### 22、ReadAnywherePointed: Layout-awareGUIScreenReadingwithTree-of-LensGrounding

### 23、DeskVision: Large Scale Desktop Region Captioning for Advanced GUI Agents

### 24、Empowering LLM to use Smartphone for Intelligent Task Automation

### 25、Practical Non-Intrusive GUI Exploration Testing with Visual-based Robotic Arms

机器手臂通过ui cv方式自动化测试，有录制和回放