# speech_recognition_demo **Repository Path**: ai-team_5/speech_recognition_demo ## Basic Information - **Project Name**: speech_recognition_demo - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-07-24 - **Last Updated**: 2025-07-31 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 语音识别系统 基于腾讯云API实现的语音识别、OCR识别和语音合成系统。 ## 项目概述 本项目是一个语音识别演示系统(Demo版本),通过集成腾讯API云服务实现语音识别、OCR识别和语音合成等核心功能。 ## 功能特性 - **语音转写功能**:支持语音文件上传和实时转写,支持智能断句、标点匹配和热词优化 - **OCR识别功能**:支持印刷体文字区域识别和公文电子档自动识别 - **语音合成功能**:支持高质量文本转语音,多音色服务和未登录词处理 ## 技术栈 - **后端**:Spring Boot 3.2.0 - **数据库**:SQLite - **ORM框架**:MyBatis - **API文档**:Springdoc OpenAPI (Swagger) - **云服务**:腾讯云API(语音识别、OCR、语音合成) ## 项目结构 ``` speech_recognition_demo/ ├── src/main/java/com/example/speech_recognition_demo/ │ ├── config/ # 配置类 │ ├── controller/ # 控制器 │ ├── mapper/ # MyBatis Mapper接口 │ ├── model/ # 实体类 │ ├── service/ # 服务接口和实现 │ └── SpeechRecognitionDemoApplication.java # 应用入口 ├── src/main/resources/ │ ├── mapper/ # MyBatis XML映射文件 │ ├── db/ # 数据库脚本 │ └── application.yml # 应用配置文件 └── pom.xml # Maven配置文件 ``` ## API接口 ### 1. 语音转写API ``` POST /api/speech/transcribe ``` ### 2. OCR识别API ``` POST /api/ocr/recognize ``` ### 3. 语音合成API ``` POST /api/speech/synthesize ``` ## 快速开始 ### 环境要求 - JDK 17+ - Maven 3.6+ - SQLite 3+ ### 配置步骤 1. 克隆代码库 2. 执行`src/main/resources/db/schema.sql`脚本创建SQLite数据库 3. 修改`application.yml`中的数据库连接信息和腾讯云API密钥 4. 使用Maven构建项目:`mvn clean install` 5. 运行应用:`mvn spring-boot:run` 6. 访问Swagger文档:`http://localhost:8080/swagger-ui.html` ## 使用腾讯云API 本项目使用腾讯云API实现语音识别、OCR和语音合成功能。您需要在腾讯云官网注册账号并开通相关服务,获取API密钥后配置到`application.yml`文件中。 ```yaml tencent: cloud: secret-id: ${TENCENT_SECRET_ID:your-secret-id} secret-key: ${TENCENT_SECRET_KEY:your-secret-key} region: ap-guangzhou ``` ## 注意事项 - 本项目为演示版本,实际生产环境使用需要进一步完善安全性和稳定性 - 腾讯云API调用会产生费用,请注意控制使用量 - 项目中的数据库表结构可能需要根据实际需求进行调整