# Qiniu 漫画

**Repository Path**: ai-project_9/Qiniu

## Basic Information

- **Project Name**: Qiniu 漫画
- **Description**: 漫画+++++++++++++++
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 1
- **Created**: 2026-01-15
- **Last Updated**: 2026-01-15

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 语音对话电脑控制助手

## 项目概述

这是一个功能丰富的语音对话电脑控制助手，允许用户通过语音或命令行界面控制电脑的各种功能。该项目具有以下特点：

- 支持语音和命令行两种交互模式，无缝切换
- 唤醒词触发机制，节省系统资源并保护隐私
- 丰富的系统控制功能（应用控制、文件管理、音量调节等）
- 增强功能（截图、计算器、音乐播放等）
- 无需OpenAI API密钥也能正常运行基础功能
- 完善的用户反馈机制，清晰提示监听状态
- **复杂多步骤指令处理**：支持识别并执行包含多个操作步骤的复杂指令

## 安装指南

### 1. 克隆或下载项目

### 2. 安装依赖

使用pip安装所需依赖包：

```bash
pip install -r requirements.txt

# 可选依赖（用于增强功能）
pip install pyautogui
```

> 注意：pyaudio在Windows上可能需要通过wheel安装，请访问[Python Extension Packages](https://www.lfd.uci.edu/~gohlke/pythonlibs/#pyaudio)下载适合您Python版本的wheel文件并安装。

### 3. 配置API密钥（可选）

如果需要使用更强大的自然语言理解功能，可以在项目根目录创建一个`config.py`文件，添加以下内容：

```python
# config.py
API_KEY = "您的OpenAI API密钥"
```

## 使用说明

### 启动程序

```bash
python main.py
```

程序启动后默认进入语音模式。

### 语音模式

#### 监听机制说明

本助手采用**唤醒词触发机制**，而非持续实时监听，具有以下特点：

1. **休眠状态**：程序启动后进入休眠状态，**不会**一直监听您的所有对话
2. **唤醒触发**：当检测到唤醒词"电脑"时，才会进入命令监听状态
3. **明确提示**：
   - **屏幕提示**：检测到唤醒词后，控制台会显示`🔍 正在等待您的命令...`
   - **语音提示**：同时会播放"我在，请说"的语音反馈
4. **命令超时**：如果唤醒后5秒内未检测到命令，系统将自动返回休眠状态

#### 使用示例

1. 说出唤醒词：`"电脑"`
2. 等待系统提示（屏幕显示+语音）
3. 说出您的命令：`"打开Chrome"`
4. 系统执行命令并给出反馈

### 命令行模式

- 在语音模式下按下`Ctrl+C`可切换到命令行模式
- 在命令行模式下输入`voice`可切换回语音模式
- 输入`help`查看完整命令列表
- 输入`exit`退出程序

## 支持的命令

### 基础功能命令

#### 应用控制
- 打开Chrome/记事本/命令提示符
- 关闭Chrome/当前窗口

#### 文件操作
- 创建文件夹名为[名称]
- 查看当前目录
- 搜索文件[关键字]

#### 系统控制
- 增大/减小音量
- 静音
- 调高/调低亮度

#### 系统信息
- 查看系统信息

#### 系统操作
- 关机
- 重启电脑
- 睡眠模式

### 增强功能命令

- **截图/截屏**：捕获当前屏幕
- **计算器**：计算 [表达式]（支持中文数学符号）
- **音乐播放**：播放音乐
- **提醒设置**：设置提醒

### 复杂多步骤指令

系统现在支持处理复杂的多步骤指令，例如：

- "打开记事本，然后输入文本 '这是一个测试'，最后告诉我是否成功"
- "先创建一个文件夹，接着写入内容，再关闭应用"

## 系统架构

系统主要由以下组件构成：

1. **VoiceCommandProcessor**：核心处理类，协调整个命令处理流程
2. **IntentExtractor**：意图提取器，识别用户命令的意图
3. **SystemController**：系统控制器，执行实际的系统操作（如打开应用、文件操作等）
4. **OCRProcessor**：OCR模块，提供屏幕内容识别功能
5. **ModelManager**（可选）：大模型管理器，连接大模型进行增强理解

## 核心功能实现

### 1. 复杂指令识别与分解

系统能够通过以下方式识别复杂指令：
- 命令长度检测（超过20字符）
- 多动作词检测（包含2个以上动作词）
- 条件词和顺序词检测（如"然后"、"接着"、"先"、"后"等）
- 标点符号分隔的多部分检测

识别后会使用正则表达式和自然语言处理技术将复杂指令分解为可执行的简单步骤序列。

### 2. 智能文本提取

文本提取支持以下几种方式（按优先级）：
- 带引号的文本内容提取（支持单引号和双引号）
- 复杂指令步骤中的文本识别
- 多关键词后的文本提取（支持"输入"、"写入"、"打字"等关键词）
- 核心内容提取作为后备方案

### 3. 多级命令处理流程

命令处理采用多级回退策略：
1. 复杂指令优先处理（步骤分解或大模型增强）
2. 意图提取器识别
3. 简单关键词匹配作为后备
4. 大模型增强理解（如果配置）
5. 默认响应

## 注意事项

1. **语音识别精度**：语音识别结果可能受到环境噪音、口音等因素影响，请在安静环境下使用
2. **命令表述**：尽量使用简洁、明确的命令表述
3. **权限要求**：某些功能（如截图）可能需要相应权限
4. **网络连接**：部分高级功能可能需要网络连接
5. **复杂指令限制**：当前支持最多5步的连续操作，过长的指令可能导致识别不准确

## 常见问题

### Q: 怎么知道语音助手确实在听？
A: 系统通过两种方式提示您：
   - 屏幕提示：检测到唤醒词后，控制台会显示`🔍 正在等待您的命令...`
   - 语音提示：同时会播放"我在，请说"的语音反馈

### Q: 需要一直运行程序才能使用语音功能吗？
A: 是的，语音功能需要程序在后台运行。您可以将程序最小化到托盘。

### Q: 语音命令没有反应怎么办？
A: 请检查：
   - 麦克风是否正常工作
   - 环境是否安静
   - 唤醒词"电脑"是否清晰
   - 命令是否在支持列表中

### Q: 复杂指令没有完全执行怎么办？
A: 请尝试：
   - 将复杂指令拆分为更简单的步骤
   - 确保指令中使用了明确的顺序词（如"然后"、"接着"等）
   - 检查网络连接（如果使用了大模型增强）

## 开发说明

### 项目结构

```
.
├── main.py              # 主程序入口
├── voice_recognition.py # 语音识别模块
├── llm_interface.py     # 大语言模型接口
├── system_controller.py # 系统控制模块
├── config.py            # 配置文件（可选）
├── requirements.txt     # 依赖列表
└── README.md            # 项目说明文档
```

### 扩展功能

要添加新功能，请在相应类中添加处理逻辑：
- 语音识别相关：修改`voice_recognition.py`
- 命令处理相关：修改`main.py`中的`enhanced_command_processing`方法
- 系统控制相关：修改`system_controller.py`
- 复杂指令处理：修改`voice_command_processor.py`中的`process_complex_command`方法