# whisper_env **Repository Path**: yi_peng2000/whisper_env ## Basic Information - **Project Name**: whisper_env - **Description**: 语音识别 - **Primary Language**: Python - **License**: MulanPSL-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2024-11-08 - **Last Updated**: 2025-07-12 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README 下面是一个基于Python、Whisper语音识别、结巴分词器和傅立叶分析的完整语音识别程序。该程序集成了录音、频谱分析、语音转文字和文本分析,图像后处理功能。 ## 系统功能说明 这个程序集成了以下核心技术: 1. **音频录制**: - 使用sounddevice库录制8秒音频 - 实时显示录音进度 - 保存为WAV格式文件 2. **音频分析**: - 波形图:显示声音的振幅随时间变化 - 频谱图:使用傅立叶变换展示频率分布 - 声谱图:可视化声音频率随时间的变化 3. **语音识别**: - 使用OpenAI的Whisper模型 - 自动根据系统内存选择模型大小 - 支持中文识别 4. **文本分析**: - 使用结巴分词器进行中文分词 - 关键词提取(带权重) - 词频统计与可视化 5 **图像后处理** - 文生图的核心模型是 使用火山引擎,Seedream系列模型 ## 安装依赖 ```bash pip install numpy scipy matplotlib sounddevice openai-whisper jieba ``` 对于中文显示问题,可能需要安装中文字体: ```bash # Ubuntu sudo apt-get install fonts-wqy-microhei # Windows 和 macOS 通常已自带中文字体 ``` ## 使用说明 1. 运行程序后,系统会自动开始录音(8秒) 2. 录音结束后,程序会生成三种音频分析图: - 波形图 - 频谱图(傅立叶分析) - 声谱图 3. Whisper会将录音转换为文字 4. 结巴分词器对文本进行分词、关键词提取和词频统计 5. 最终结果会以图表形式展示并保存到当前目录 ## 自定义选项 1. **修改录音时长**: ```python DURATION = 10 # 改为10秒录音 ``` 2. **添加自定义词典**: 创建`user_dict.txt`文件,每行一个词,格式:`词语 词频 词性` 3. **调整频谱范围**: ```python plt.xlim(0, 8000) # 在plot_spectrum函数中修改频率范围 ``` 4. **使用更大模型**: ```python # 在transcribe_audio函数中修改 model_size = "medium" # 或"large" ``` ## 技术亮点 1. **智能模型选择**:根据系统可用内存自动选择Whisper模型大小 2. **完整音频分析**:结合时域(波形)和频域(傅立叶分析)分析 3. **中文处理优化**: - 使用jieba分词器处理中文文本 - 支持自定义词典 - 关键词提取与词频统计 4. **可视化展示**: - 专业级的音频分析图表 - 词频统计直方图 5. **用户友好界面**:清晰的步骤提示和进度显示 这个程序完整展示了从声音采集到文本分析的整个流程,结合了信号处理(傅立叶分析)、机器学习(Whisper)和自然语言处理(结巴分词)技术。