# hyhAudioProject

**Repository Path**: agent-project/hyh-audio-project

## Basic Information

- **Project Name**: hyhAudioProject
- **Description**: 语音转写
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 1
- **Created**: 2025-08-18
- **Last Updated**: 2025-11-29

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 语音识别与智能分析系统

## 项目简介

这是一个基于Python Flask的实时语音识别和智能分析系统，主要用于地铁列车操作流程的语音监控和合规性检查。

## 主要功能

### 1. 实时语音识别
- 使用阿里云语音识别服务进行实时语音转文字
- 支持中文和英文混合识别
- 支持PCM格式音频输入
- 实时返回识别结果

### 2. 智能操作流程分析
- 基于大语言模型的智能分析
- 自动匹配操作步骤
- 检测操作异常和跳步风险
- 支持滑动窗口和全量分析两种模式

### 3. 操作步骤管理
- 加载标准操作流程步骤
- 自动标记完成状态
- 实时更新执行进度
- 支持手动标记完成

## 技术架构

### 后端技术栈
- **Flask**: Web框架
- **Flask-SocketIO**: WebSocket支持
- **阿里云语音识别**: 实时语音转文字
- **通义千问**: 大语言模型分析
- **Python 3.12**: 编程语言

### 前端技术栈
- **HTML5**: 页面结构
- **JavaScript**: 交互逻辑
- **WebSocket**: 实时通信
- **Web Audio API**: 音频录制

## 安装和配置

### 1. 环境要求
- Python 3.12+
- pip包管理器

### 2. 安装依赖
```bash
# 创建虚拟环境
python -m venv venv

# 激活虚拟环境
# Windows:
venv\Scripts\activate
# Linux/Mac:
source venv/bin/activate

# 安装依赖
pip install -r requirements.txt
```

### 3. 配置API密钥
在 `config.py` 文件中配置以下参数：
```python
DASHSCOPE_API_KEY = "your-aliyun-api-key"
```

### 4. 启动服务

#### 使用Python管理工具（推荐）
```bash
# 前台启动（开发调试）
python deploy_to_cloud.py start

# 后台启动（生产环境）
python deploy_to_cloud.py start -b

# 停止服务
python deploy_to_cloud.py stop

# 查看状态
python deploy_to_cloud.py status

# 重启服务
python deploy_to_cloud.py restart
```

#### 使用Shell脚本（Linux/Mac）
```bash
# 启动服务
./start_server.sh

# 停止服务
./stop_server.sh
```

#### 直接启动
```bash
python app_backup.py
```

服务启动后，访问 `http://localhost:8061` 即可使用。

### 5. 局域网访问配置

#### HTTP模式（默认）
- 访问地址：`http://[您的局域网IP]:8061`
- 注意：通过HTTP协议访问时，浏览器可能阻止麦克风权限

#### HTTPS模式（推荐用于局域网访问）
1. 生成自签名证书：
```bash
openssl req -x509 -newkey rsa:4096 -keyout key.pem -out cert.pem -days 365 -nodes
```

2. 设置环境变量启用HTTPS：
```bash
# Windows
set USE_HTTPS=True
python app_backup.py

# Linux/Mac
export USE_HTTPS=True
python app_backup.py
```

3. 访问地址：`https://[您的局域网IP]:8061`
- 首次访问时浏览器会显示安全警告，点击"高级"->"继续访问"即可

## 使用说明

### 1. 语音识别
1. 点击"开始录音"按钮
2. 允许浏览器访问麦克风
3. 开始说话，系统会实时显示识别结果
4. 点击"停止录音"结束识别

### 2. 智能分析
- 系统会自动分析语音内容与标准操作步骤的匹配度
- 自动标记已完成的步骤
- 检测操作异常和跳步风险
- 实时显示分析结果

### 3. 操作步骤管理
- 查看当前操作进度
- 手动标记步骤完成
- 查看异常报告
- 监控跳步风险

## 配置参数

### 分析间隔设置
- 默认AI分析间隔：3秒
- 最小文本变化量：20字符
- 可通过前端界面动态调整

### 语音识别参数
- 采样率：16kHz/8kHz
- 音频格式：PCM
- 语言：中文/英文混合

## 文件结构

```
hyhAudioServer/
├── app_backup.py          # 主应用文件
├── config.py              # 配置文件
├── prompt_manager.py      # 提示词管理
├── data/
│   └── 地铁启动.json      # 操作步骤数据
├── static/
│   └── index.html         # 前端页面
├── venv/                  # 虚拟环境
└── README.md             # 项目说明
```

## 修复记录

### 2024年修复内容
1. **语法错误修复**：
   - 修复了重复方法定义问题
   - 删除了未使用的冗余代码
   - 修正了字符串格式错误

2. **代码优化**：
   - 删除了重复的`process_analysis_result`方法
   - 删除了重复的`call_ai_analysis`方法
   - 删除了未使用的`build_analysis_prompt`方法
   - 删除了未使用的`get_system_prompt_old`方法
   - 删除了重复的`update_step_statuses`方法

3. **功能完善**：
   - 保留了完整的AI分析功能
   - 保留了实时语音识别功能
   - 保留了WebSocket通信功能

## 注意事项

1. **API密钥安全**：请妥善保管API密钥，不要提交到版本控制系统
2. **网络连接**：需要稳定的网络连接以使用阿里云服务
3. **浏览器兼容性**：建议使用Chrome、Firefox等现代浏览器
4. **音频质量**：良好的音频质量有助于提高识别准确率

## 故障排除

### 常见问题
1. **API Key错误**：检查config.py中的API密钥配置
2. **网络连接失败**：检查网络连接和防火墙设置
3. **音频录制失败**：检查浏览器麦克风权限
4. **识别结果不准确**：检查音频质量和环境噪音

### 麦克风权限问题解决

#### 通过IP访问时无法录音
**问题**：通过 `http://192.168.x.x:8061` 访问时，浏览器阻止麦克风权限

**解决方案**：
1. **使用localhost访问**：`http://localhost:8061`
2. **配置HTTPS模式**（推荐）：
   ```bash
   # 生成证书
   openssl req -x509 -newkey rsa:4096 -keyout key.pem -out cert.pem -days 365 -nodes
   
   # 启用HTTPS
   set USE_HTTPS=True
   python app_backup.py
   
   # 访问 https://192.168.x.x:8061
   ```
3. **手动允许权限**：
   - 点击浏览器地址栏左侧的麦克风图标
   - 选择"允许"或"始终允许"
   - 刷新页面重试

#### 浏览器兼容性
- **推荐**：Chrome、Firefox、Edge（最新版本）
- **不支持**：IE浏览器
- **移动端**：Safari（iOS）、Chrome（Android）

### 调试模式
启动时添加调试参数：
```bash
python app_backup.py --debug
```

## 许可证

本项目仅供学习和研究使用，请遵守相关法律法规和API使用条款。