# hyhAudioProject **Repository Path**: agent-project/hyh-audio-project ## Basic Information - **Project Name**: hyhAudioProject - **Description**: 语音转写 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 1 - **Created**: 2025-08-18 - **Last Updated**: 2025-11-29 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 语音识别与智能分析系统 ## 项目简介 这是一个基于Python Flask的实时语音识别和智能分析系统,主要用于地铁列车操作流程的语音监控和合规性检查。 ## 主要功能 ### 1. 实时语音识别 - 使用阿里云语音识别服务进行实时语音转文字 - 支持中文和英文混合识别 - 支持PCM格式音频输入 - 实时返回识别结果 ### 2. 智能操作流程分析 - 基于大语言模型的智能分析 - 自动匹配操作步骤 - 检测操作异常和跳步风险 - 支持滑动窗口和全量分析两种模式 ### 3. 操作步骤管理 - 加载标准操作流程步骤 - 自动标记完成状态 - 实时更新执行进度 - 支持手动标记完成 ## 技术架构 ### 后端技术栈 - **Flask**: Web框架 - **Flask-SocketIO**: WebSocket支持 - **阿里云语音识别**: 实时语音转文字 - **通义千问**: 大语言模型分析 - **Python 3.12**: 编程语言 ### 前端技术栈 - **HTML5**: 页面结构 - **JavaScript**: 交互逻辑 - **WebSocket**: 实时通信 - **Web Audio API**: 音频录制 ## 安装和配置 ### 1. 环境要求 - Python 3.12+ - pip包管理器 ### 2. 安装依赖 ```bash # 创建虚拟环境 python -m venv venv # 激活虚拟环境 # Windows: venv\Scripts\activate # Linux/Mac: source venv/bin/activate # 安装依赖 pip install -r requirements.txt ``` ### 3. 配置API密钥 在 `config.py` 文件中配置以下参数: ```python DASHSCOPE_API_KEY = "your-aliyun-api-key" ``` ### 4. 启动服务 #### 使用Python管理工具(推荐) ```bash # 前台启动(开发调试) python deploy_to_cloud.py start # 后台启动(生产环境) python deploy_to_cloud.py start -b # 停止服务 python deploy_to_cloud.py stop # 查看状态 python deploy_to_cloud.py status # 重启服务 python deploy_to_cloud.py restart ``` #### 使用Shell脚本(Linux/Mac) ```bash # 启动服务 ./start_server.sh # 停止服务 ./stop_server.sh ``` #### 直接启动 ```bash python app_backup.py ``` 服务启动后,访问 `http://localhost:8061` 即可使用。 ### 5. 局域网访问配置 #### HTTP模式(默认) - 访问地址:`http://[您的局域网IP]:8061` - 注意:通过HTTP协议访问时,浏览器可能阻止麦克风权限 #### HTTPS模式(推荐用于局域网访问) 1. 生成自签名证书: ```bash openssl req -x509 -newkey rsa:4096 -keyout key.pem -out cert.pem -days 365 -nodes ``` 2. 设置环境变量启用HTTPS: ```bash # Windows set USE_HTTPS=True python app_backup.py # Linux/Mac export USE_HTTPS=True python app_backup.py ``` 3. 访问地址:`https://[您的局域网IP]:8061` - 首次访问时浏览器会显示安全警告,点击"高级"->"继续访问"即可 ## 使用说明 ### 1. 语音识别 1. 点击"开始录音"按钮 2. 允许浏览器访问麦克风 3. 开始说话,系统会实时显示识别结果 4. 点击"停止录音"结束识别 ### 2. 智能分析 - 系统会自动分析语音内容与标准操作步骤的匹配度 - 自动标记已完成的步骤 - 检测操作异常和跳步风险 - 实时显示分析结果 ### 3. 操作步骤管理 - 查看当前操作进度 - 手动标记步骤完成 - 查看异常报告 - 监控跳步风险 ## 配置参数 ### 分析间隔设置 - 默认AI分析间隔:3秒 - 最小文本变化量:20字符 - 可通过前端界面动态调整 ### 语音识别参数 - 采样率:16kHz/8kHz - 音频格式:PCM - 语言:中文/英文混合 ## 文件结构 ``` hyhAudioServer/ ├── app_backup.py # 主应用文件 ├── config.py # 配置文件 ├── prompt_manager.py # 提示词管理 ├── data/ │ └── 地铁启动.json # 操作步骤数据 ├── static/ │ └── index.html # 前端页面 ├── venv/ # 虚拟环境 └── README.md # 项目说明 ``` ## 修复记录 ### 2024年修复内容 1. **语法错误修复**: - 修复了重复方法定义问题 - 删除了未使用的冗余代码 - 修正了字符串格式错误 2. **代码优化**: - 删除了重复的`process_analysis_result`方法 - 删除了重复的`call_ai_analysis`方法 - 删除了未使用的`build_analysis_prompt`方法 - 删除了未使用的`get_system_prompt_old`方法 - 删除了重复的`update_step_statuses`方法 3. **功能完善**: - 保留了完整的AI分析功能 - 保留了实时语音识别功能 - 保留了WebSocket通信功能 ## 注意事项 1. **API密钥安全**:请妥善保管API密钥,不要提交到版本控制系统 2. **网络连接**:需要稳定的网络连接以使用阿里云服务 3. **浏览器兼容性**:建议使用Chrome、Firefox等现代浏览器 4. **音频质量**:良好的音频质量有助于提高识别准确率 ## 故障排除 ### 常见问题 1. **API Key错误**:检查config.py中的API密钥配置 2. **网络连接失败**:检查网络连接和防火墙设置 3. **音频录制失败**:检查浏览器麦克风权限 4. **识别结果不准确**:检查音频质量和环境噪音 ### 麦克风权限问题解决 #### 通过IP访问时无法录音 **问题**:通过 `http://192.168.x.x:8061` 访问时,浏览器阻止麦克风权限 **解决方案**: 1. **使用localhost访问**:`http://localhost:8061` 2. **配置HTTPS模式**(推荐): ```bash # 生成证书 openssl req -x509 -newkey rsa:4096 -keyout key.pem -out cert.pem -days 365 -nodes # 启用HTTPS set USE_HTTPS=True python app_backup.py # 访问 https://192.168.x.x:8061 ``` 3. **手动允许权限**: - 点击浏览器地址栏左侧的麦克风图标 - 选择"允许"或"始终允许" - 刷新页面重试 #### 浏览器兼容性 - **推荐**:Chrome、Firefox、Edge(最新版本) - **不支持**:IE浏览器 - **移动端**:Safari(iOS)、Chrome(Android) ### 调试模式 启动时添加调试参数: ```bash python app_backup.py --debug ``` ## 许可证 本项目仅供学习和研究使用,请遵守相关法律法规和API使用条款。