# baodou_AI **Repository Path**: sunnyfo/baodou_AI ## Basic Information - **Project Name**: baodou_AI - **Description**: 包豆电脑是一款基于 豆包AI 视觉模型的智能控制系统,能够通过分析屏幕内容自动执行鼠标和键盘操作,实现任务自动化。 - **Primary Language**: Unknown - **License**: MIT - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 2 - **Forks**: 0 - **Created**: 2026-03-03 - **Last Updated**: 2026-04-04 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 包豆电脑 - AI 智能控制系统 ## 项目简介 ![软件图标](图标.jpg) 包豆电脑是一款基于 AI 视觉模型的智能控制系统,能够通过分析屏幕内容自动执行鼠标和键盘操作,实现任务自动化。该系统结合了 PyQt5 GUI 界面和豆包视觉模型,提供了直观的用户交互方式和强大的自动化能力。 [软件安装包下载(网站中附带使用教程):点击这里](http://www.miniyifan.com.cn/archives/bao-dou-dian-nao) [软件演示(视频):点击这里 【包豆AI电脑,我做了一个可以自动操作电脑的智能软件】](https://www.bilibili.com/video/BV1kwqWBfEhu/?share_source=copy_web&vd_source=daff82a5486ca8fb08383c0e69582854) ### 核心功能 - 🖥️ **智能屏幕分析**:使用豆包视觉模型实时分析屏幕内容 - 🖱️ **自动鼠标控制**:根据分析结果执行精确的鼠标移动、点击、拖拽等操作 - ⌨️ **键盘自动化**:支持键盘输入、快捷键操作 - 📱 **直观 GUI 界面**:基于 PyQt5 的用户友好界面 ## 目录结构 ``` baodot_AI/ ├── imgs/ # 图片资源目录 │ └── label/ # 坐标标记图片存储 ├── config.json # 系统配置文件 ├── README.md # 项目说明文档 ├── requirements.txt # 项目依赖库文件 ├── pyqt_main.spec # win系统程序打包配置文件 ├── pyqt_main_mac.spec # mac系统程序打包配置文件 ├── get_next_action_AI_doubao.txt # AI 系统提示文件(win版本) ├── get_next_action_AI_doubao_mac.txt # AI 系统提示文件(mac版本) ├── pyqt_main.py # 主程序入口 (GUI) ├── vl_model_test_doubao.py # 豆包视觉模型调用模块,与GUI界面不连接(在本项目中不执行,可用于其他项目使用) ├── vl_model_test_doubao2.py # 豆包视觉模型调用模块,与GUI界面连接 ├── log_window.py # 日志窗口模块 ├── cv_shot_doubao.py # 截图与坐标处理模块 ├── mac_app_utils.py # Mac应用资源路径处理模块 ├── favicon.ico # win系统程序图标 └── favicon_mac.ico # mac系统程序图标 ``` ## 获取项目 ### 使用 Git 克隆 如果您已经安装了 Git,可以使用以下命令克隆项目: ```bash git clone https://github.com/mini-yifan/baodou_AI.git # 进入项目目录 cd baodou_AI ``` ### 直接下载压缩包 如果您没有安装 Git,可以直接下载项目的压缩包: 1. 访问项目的 GitHub 页面 2. 点击右上角的 "Code" 按钮 3. 选择 "Download ZIP" 4. 下载完成后,解压到您想要存放的目录 5. 进入解压后的项目目录 ## 环境搭建 ### 1. 创建虚拟环境 #### Windows 系统 ```bash # 使用 Python 内置的 venv 模块创建虚拟环境 python -m venv new_venv # 激活虚拟环境 new_venv\Scripts\activate ``` #### Linux/Mac 系统 ```bash # 创建虚拟环境 python3 -m venv new_venv # 激活虚拟环境 source new_venv/bin/activate ``` ### 2. 安装依赖库 在激活虚拟环境后,执行以下命令安装所需依赖: 一次性安装所有依赖库 ```bash # 升级 pip pip install --upgrade pip # 安装相关库 pip install -r requirements.txt ``` 或者单独安装每个库: ```bash # 升级 pip pip install --upgrade pip # 安装 PyQt5 pip install PyQt5 PyQt5-tools # 安装计算机视觉相关库 pip install opencv-python numpy # 安装自动化控制库 pip install pyautogui pyperclip # 安装 AI API 客户端 pip install openai pydantic # 安装截图相关库 pip install pillow ``` ## 配置文件说明 配置文件 `config.json` 包含了系统的所有参数设置: ```json { "api_config": { "api_key": "", # 豆包 API 密钥 "base_url": "https://ark.cn-beijing.volces.com/api/v3", # API 基础地址 "model_name": "ddoubao-seed-2-0-pro-260215" # 视觉模型名称 }, "ai_config": { "thinking_type": "disabled" # AI 思考模式 "enabled" 或 "disabled" }, "execution_config": { "max_visual_model_iterations": 80, # "default_max_iterations": 80 # 默认AI模型最大迭代次数 }, "screenshot_config": { "optimize_for_speed": true, # 是否优化速度 "max_png": 1280, # 图片压缩后的最大尺寸 "input_path": "imgs/screen.png", # 截图保存路径 "output_path": "imgs/label" # 标记图片输出路径 }, "mouse_config": { "move_duration": 0.1, # 鼠标移动持续时间 "failsafe": false # 鼠标安全模式 } } ``` ## API 密钥申请 要使用本系统,您需要申请豆包 API 密钥: 1. 访问 [豆包开发者平台](https://console.volcengine.com/ark/region:ark+cn-beijing/apiKey) 2. 如果没有账号,先注册并登录 3. 进入 API 密钥管理页面 4. 点击 "创建 API 密钥" 按钮 5. 复制生成的 API 密钥 6. 在程序界面的 API 密钥输入框中粘贴,或直接修改 `config.json` 文件 ## 使用方法 ### 1. 启动程序 在虚拟环境中执行: ```bash python pyqt_main.py ``` ### 2. 配置 API 密钥 - 在程序界面中,找到 "请输入API密钥" 输入框 - 粘贴您申请的豆包 API 密钥 - 系统会自动保存密钥到 `config.json` 文件 ### 3. 输入任务需求 在 "请输入您的需求" 文本框中,详细描述您需要完成的任务,例如: ``` 请打开浏览器,搜索 "人工智能发展趋势",并查看第一条搜索结果 ``` ### 4. 执行任务 点击 "上传并执行" 按钮,系统会: 1. 截取当前屏幕 2. 调用 AI 模型分析屏幕内容 3. 确定下一步操作 4. 执行鼠标/键盘操作 5. 循环以上步骤直到任务完成 (提示,当前版本只支持对电脑的主屏幕进行操作) ### 5. 停止任务 在 AI 执行过程中,您可以随时点击 "停止AI执行" 按钮中断任务。 ## 文件功能详细说明 ### 1. pyqt_main.py 主程序入口,负责: - 创建 PyQt5 GUI 界面 - 处理用户输入和交互 - 管理 AI 执行线程 - 窗口防截图和透明化处理 - API 密钥管理 ### 2. vl_model_test_doubao2.py AI 核心控制模块,包含: - 配置加载与管理 - 屏幕截图调用 - AI 模型 API 调用 - AI 响应解析 - 鼠标/键盘操作执行 - 坐标映射与转换 - 任务状态跟踪 ### 3. cv_shot_doubao.py 屏幕处理工具模块,提供: - `capture_screen_and_save()`: 屏幕截图功能 - `mark_coordinate_on_image()`: 坐标点标记 - `map_coordinates()`: 坐标映射与转换 ### 4. get_next_action_AI_doubao.txt AI 系统提示文件,定义了: - AI 的行为规则和约束 - 操作类型和输出格式 - 特殊场景处理逻辑 - 示例场景和响应 ### 5. config.json 系统配置文件,存储: - API 密钥和模型参数 - AI 思考模式设置 - 执行参数配置 - 截图参数设置 - 鼠标操作参数 ## 系统工作流程 1. **用户输入**:用户在 GUI 界面输入任务需求 2. **屏幕截图**:系统截取当前屏幕内容 3. **AI 分析**:调用豆包视觉模型分析屏幕内容 4. **操作决策**:AI 确定下一步操作(点击输入等) 5. **执行操作**:系统执行鼠标/键盘操作 6. **循环执行**:重复 2-5 步骤,直到任务完成 ## 技术特点 ### 1. AI 视觉模型 使用豆包最新的视觉模型 `doubao-seed-1-6-vision-250815`,能够: - 精确识别屏幕元素 - 理解用户意图 - 生成合理的操作序列 ### 2. 智能窗口设计 - **窗口置顶**:始终显示在最顶层,方便用户操作 - **透明度调节**:半透明设计,减少视觉干扰 - **防截图保护**:使用 Windows API 防止窗口被截图 - **自动避障**:窗口会自动避开 AI 即将操作的区域 ### 3. 安全机制 - **循环限制**:防止无限循环执行 - **错误处理**:完善的异常捕获和处理机制 - **用户中断**:支持随时停止 AI 执行 - **坐标验证**:确保鼠标操作在安全范围内 ## 打包程序 本项目支持使用 PyInstaller 打包为可执行文件,方便在没有 Python 环境的电脑上运行。 ### 1. 安装 PyInstaller ```bash pip install pyinstaller ``` ### 2. win系统打包命令 ```bash pyinstaller pyqt_main.spec ``` ### 3. mac系统打包命令 ```bash pyinstaller pyqt_main_mac.spec ``` ### 4. 打包完成 打包完成后,可执行文件将生成在 `dist` 目录中: - `dist/pyqt_main.exe` (Windows) - `dist/pyqt_main.app` (macOS) ### 5. 注意事项 - 打包前确保所有依赖已正确安装 - 可能需要手动复制 `config.json` 和 `get_next_action_AI_doubao.txt` 到 `dist` 目录 - 首次运行需要在程序中配置 API 密钥 ## 常见问题与解决方案 ### 1. API 密钥错误 **问题**:程序显示 "AI执行错误,可能密钥错误或欠费" **解决方案**: - 检查 API 密钥是否正确 - 确保豆包账号有足够的余额 - 确认 API 密钥的地域设置正确(北京/新加坡) ### 2. 屏幕截图失败 **问题**:程序无法截取屏幕或保存截图 **解决方案**: - 确保 `imgs` 目录存在且有写入权限 - 检查屏幕分辨率设置 - 关闭可能阻止截图的安全软件 ### 3. 鼠标操作不准确 **问题**:AI 执行的鼠标操作位置不准确 **解决方案**: - 检查屏幕分辨率和缩放设置 - 确保 `config.json` 中的截图参数正确 - 尝试调整 `mouse_config` 中的 `move_duration` 参数 ### 4. 程序闪退 **问题**:程序启动后立即闪退 **解决方案**: - 检查 Python 版本是否兼容(推荐 Python 3.8+) - 确保所有依赖库已正确安装 - 尝试以非窗口模式运行,查看错误信息 ## 安全注意事项 1. **API 密钥保护**:请勿将 API 密钥分享给他人或上传到公开仓库 2. **自动化风险**:使用自动化工具时请注意,避免执行危险操作 3. **隐私保护**:系统会截取屏幕内容发送到 AI 模型,请确保屏幕上没有敏感信息 4. **权限管理**:建议在受控环境中使用,避免对系统造成意外影响 ## 许可证 本项目采用 MIT 许可证,详见 LICENSE 文件。 **感谢使用包豆电脑 AI 智能控制系统!** 🚀