# huaweicloud-solution-speech-recognition

**Repository Path**: HuaweiCloudDeveloper/huaweicloud-solution-speech-recognition

## Basic Information

- **Project Name**: huaweicloud-solution-speech-recognition
- **Description**: 该解决方案基于华为云语音交互服务语音识别构建，可自动将用户上传到对象存储服务的wav语音文件转化为文字，并将结果存放到指定OBS桶。	
- **Primary Language**: Unknown
- **License**: Apache-2.0
- **Default Branch**: master-dev
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 1
- **Created**: 2022-09-27
- **Last Updated**: 2023-06-02

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

[TOC]

**解决方案介绍**
===============
该解决方案基于华为云语音交互服务语音识别构建，可自动将用户上传到对象存储服务的wav语音文件转化为文字，并将结果存放到指定OBS桶。该方案可以将用户上传在OBS的语音文件识别成可编辑的文本，支持中文普通话的识别和合成，其中语音识别还支持带方言口音的普通话识别以及方言（四川话、粤语和上海话）的识别。适用于如下场景：识别客服、客户的语音，进一步通过文本检索，检查有没有违规、敏感词、电话号码等信息。对会议记录的音频文件，进行快速的识别，转化成文字，方便进行会议记录等场景。

解决方案实践详情页面地址：https://www.huaweicloud.com/solution/implementations/speech-recognition.html

**架构图**
---------------
![架构图](./document/speech-recognition.png)

**架构描述**
---------------
该解决方案将会部署如下资源：

1.创建2个对象存储服务OBS桶，一个用于用户上传和存储用户的语音文件；另一个用于存储语音识别结果，用户可以从该桶中获取结果并处理。


2.函数工作流FunctionGraph，只需编写业务函数代码并设置运行的条件，即可以弹性、免运维、高可靠的方式运行。

3.语音识别服务，将wav语音文件转化为文字。

**组织结构**
---------------

``` lua
huaweicloud-solution-speech-recognition
├── speech-recognition.tf.json -- 资源编排模板
├── functiongrap
    ├── speech_recognition.py -- 函数文件
```
**开始使用**
---------------
1.登录华为云[对象存储服务](https://console.huaweicloud.com/console/?region=cn-north-4&locale=zh-cn#/obs/manager/buckets)控制台，查看自动创建的OBS桶列表。

图1 对象存储服务控制台
![对象存储服务控制台](./document/readme-image-001.png)

2.选择用于上传和存储语音文件的桶“wwwy-1”（实际桶名称以部署指定参数为准），上传wav语音文件。

图2 上传语音文件
![上传语音文件](./document/readme-image-002.png)

3.选择用于存放结果的“wwwy-2”桶（实际桶名称以部署指定参数为准），即可自动获取该语音文件的识别结果，以语音文件名称为前缀的JSON文件存储。

图3 获取识别结果文件
![获取识别结果文件](./document/readme-image-003.png)