# whisper_env 

**Repository Path**: yi_peng2000/whisper_env

## Basic Information

- **Project Name**: whisper_env 
- **Description**: 语音识别
- **Primary Language**: Python
- **License**: MulanPSL-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2024-11-08
- **Last Updated**: 2025-07-12

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

下面是一个基于Python、Whisper语音识别、结巴分词器和傅立叶分析的完整语音识别程序。该程序集成了录音、频谱分析、语音转文字和文本分析,图像后处理功能。

## 系统功能说明



这个程序集成了以下核心技术：



1. **音频录制**：

- 使用sounddevice库录制8秒音频

- 实时显示录音进度

- 保存为WAV格式文件



2. **音频分析**：

- 波形图：显示声音的振幅随时间变化

- 频谱图：使用傅立叶变换展示频率分布

- 声谱图：可视化声音频率随时间的变化



3. **语音识别**：

- 使用OpenAI的Whisper模型

- 自动根据系统内存选择模型大小

- 支持中文识别



4. **文本分析**：

- 使用结巴分词器进行中文分词

- 关键词提取（带权重）

- 词频统计与可视化

5 **图像后处理**
- 文生图的核心模型是 使用火山引擎，Seedream系列模型

## 安装依赖



```bash

pip install numpy scipy matplotlib sounddevice openai-whisper jieba

```



对于中文显示问题，可能需要安装中文字体：

```bash

# Ubuntu

sudo apt-get install fonts-wqy-microhei



# Windows 和 macOS 通常已自带中文字体

```



## 使用说明



1. 运行程序后，系统会自动开始录音（8秒）

2. 录音结束后，程序会生成三种音频分析图：

- 波形图

- 频谱图（傅立叶分析）

- 声谱图

3. Whisper会将录音转换为文字

4. 结巴分词器对文本进行分词、关键词提取和词频统计

5. 最终结果会以图表形式展示并保存到当前目录



## 自定义选项



1. **修改录音时长**：

```python

DURATION = 10 # 改为10秒录音

```



2. **添加自定义词典**：

创建`user_dict.txt`文件，每行一个词，格式：`词语 词频 词性`



3. **调整频谱范围**：

```python

plt.xlim(0, 8000) # 在plot_spectrum函数中修改频率范围

```



4. **使用更大模型**：

```python

# 在transcribe_audio函数中修改

model_size = "medium" # 或"large"

```



## 技术亮点



1. **智能模型选择**：根据系统可用内存自动选择Whisper模型大小

2. **完整音频分析**：结合时域（波形）和频域（傅立叶分析）分析

3. **中文处理优化**：

- 使用jieba分词器处理中文文本

- 支持自定义词典

- 关键词提取与词频统计

4. **可视化展示**：

- 专业级的音频分析图表

- 词频统计直方图

5. **用户友好界面**：清晰的步骤提示和进度显示



这个程序完整展示了从声音采集到文本分析的整个流程，结合了信号处理（傅立叶分析）、机器学习（Whisper）和自然语言处理（结巴分词）技术。