# XiaoZhi ESP32 Server **Repository Path**: gdhktech_admin/XiaoZhi-ESP32-Server ## Basic Information - **Project Name**: XiaoZhi ESP32 Server - **Description**: 本项目为xiaozhi-esp32提供后端服务,帮助您快速搭建ESP32设备控制服务器。 - **Primary Language**: Unknown - **License**: MIT - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 25 - **Created**: 2025-02-26 - **Last Updated**: 2025-02-26 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ![图片](docs/images/banner.png) # 小智 ESP-32 后端服务(xiaozhi-esp32-server) (中文 | [English](README_en.md)) 本项目为开源智能硬件项目 [xiaozhi-esp32](https://github.com/78/xiaozhi-esp32) 提供后端服务。根据 [小智通信协议](https://ccnphfhqs21z.feishu.cn/wiki/M0XiwldO9iJwHikpXD5cEx71nKh) 使用 `Python` 实现。 --- ## 适用人群 👥 本项目需要配合 ESP32 硬件设备使用。如果您已经购买了 ESP32 相关硬件,且成功对接过虾哥部署的后端服务,并希望独立搭建自己的 `xiaozhi-esp32` 后端服务,那么本项目非常适合您。 跳转到[使用方式](#使用方式-) 想看使用效果?请猛戳这个视频 🎥 小智esp32连接自己的后台模型 --- ## 系统要求与部署前提 🖥️ - **硬件**:一套兼容 `xiaozhi-esp32` 的硬件设备(具体型号请参考 [此处](https://rcnv1t9vps13.feishu.cn/wiki/DdgIw4BUgivWDPkhMj1cGIYCnRf))。 - **服务器**:至少 4 核 CPU、8G 内存的电脑或服务器。 - **固件编译**:请将后端服务的接口地址更新至 `xiaozhi-esp32` 项目中,再重新编译固件并烧录到设备上。 --- ## 警告 ⚠️ 本项目成立时间较短,还未通过网络安全测评,请勿在生产环境中使用。 如果您在公网环境中部署学习本项目,请务必在配置文件 `config.yaml` 中开启防护: ```yaml server: auth: # 开启防护 enabled: true ``` 开启防护后,您需要根据实际情况校验机器的 token 或 mac 地址,详细请参见配置说明。 --- ## 功能清单 ✨ ### 已实现 ✅ - **通信协议** 基于 `xiaozhi-esp32` 协议,通过 WebSocket 实现数据交互。 - **对话交互** 支持唤醒对话、手动对话及实时打断。 - **多语言识别** 支持国语、粤语、英语、日语、韩语(默认使用 FunASR)。 - **LLM 模块** 支持灵活切换 LLM 模块,默认使用 ChatGLMLLM,也可选用阿里百炼、DeepSeek、Ollama 等接口。 - **TTS 模块** 支持 EdgeTTS(默认)、火山引擎豆包 TTS 等多种 TTS 接口,满足语音合成需求。 ### 正在开发 🚧 - 长时间无对话时自动休眠 - 对话记忆功能 - 多种心情模式 --- ## 本项目支持的平台/组件列表 📋 ### LLM | 类型 | 平台名称 | 使用方式 | 收费模式 | 备注 | |:----:|:-----------------------------:|:-------------------:|:--------:|:-----------------------------------------------------------------------------:| | LLM | 阿里百炼 (AliLLM) | openai 接口调用 | 消耗 token | [点击申请密钥](https://bailian.console.aliyun.com/?apiKey=1#/api-key) | | LLM | 深度求索 (DeepSeekLLM) | openai 接口调用 | 消耗 token | [点击申请密钥](https://platform.deepseek.com/) | | LLM | 智谱(ChatGLMLLM) | openai 接口调用 | 免费 | 虽然免费,仍需[点击申请密钥](https://bigmodel.cn/usercenter/proj-mgmt/apikeys) | | LLM | OllamaLLM | ollama 接口调用 | 免费/自定义 | 需预先下载模型(`ollama pull`),服务地址:`http://localhost:11434` | | LLM | DifyLLM | dify 接口调用 | 消耗 token | 本地化部署,注意配置提示词需在 Dify 控制台设置 | | LLM | GeminiLLM | gemini 接口调用 | 免费 | [点击申请密钥](https://aistudio.google.com/apikey) | | LLM | CozeLLM | coze 接口调用 | 消耗 token | 需提供 bot_id、user_id 及个人令牌 | 实际上,任何支持 openai 接口调用的 LLM 均可接入使用。 --- ### TTS | 类型 | 平台名称 | 使用方式 | 收费模式 | 备注 | |:----:|:-----------------------------------:|:---------------:|:-------------:|:-------------------------------------------------------------------------------------------------------------------------:| | TTS | EdgeTTS | 接口调用 | 免费 | 默认 TTS,基于微软语音合成技术 | | TTS | 火山引擎豆包 TTS (DoubaoTTS) | 接口调用 | 消耗 token | [点击创建密钥](https://console.volcengine.com/speech/service/8);建议使用付费版本以获得更高并发 | | TTS | CosyVoiceSiliconflow | 接口调用 | 消耗 token | 需申请硅基流动 API 密钥;输出格式为 wav | | TTS | CozeCnTTS | 接口调用 | 消耗 token | 需提供 Coze API key;输出格式为 wav | | TTS | FishSpeech | 接口调用 | 免费/自定义 | 本地启动 TTS 服务;启动方法见配置文件内说明 | | TTS | GPT_SOVITS_V2 | 接口调用 | 免费/自定义 | 本地启动 TTS 服务,适用于个性化语音合成场景 | --- ### VAD | 类型 | 平台名称 | 使用方式 | 收费模式 | 备注 | |:----:|:----------:|:---------:|:--------:|:----:| | VAD | SileroVAD | 本地使用 | 免费 | | --- ### ASR | 类型 | 平台名称 | 使用方式 | 收费模式 | 备注 | |:----:|:--------:|:---------:|:--------:|:----:| | ASR | FunASR | 本地使用 | 免费 | | --- ## 使用方式 🚀 ### 一、[部署文档](./docs/Deployment.md) 1. **[本地源码运行](./docs/Deployment.md#%E6%96%B9%E5%BC%8F%E4%B8%89%E6%9C%AC%E5%9C%B0%E6%BA%90%E7%A0%81%E8%BF%90%E8%A1%8C)** 适合熟悉 Conda 环境或希望从零搭建运行环境的用户。 对于对响应速度要求较高的场景,推荐使用本地源码运行方式以降低额外开销。 ### 二、[固件编译](./docs/firmware-build.md) 点这里查看[固件编译](./docs/firmware-build.md)的详细过程。 编译成功且联网成功后,通过唤醒词唤醒小智,留意server端输出的控制台信息。 --- ## 常见问题 ❓ ### 1、TTS 经常失败,经常超时 ⏰ 建议:如果 `EdgeTTS` 经常失败,请先检查是否使用了代理(梯子)。如果使用了,请尝试关闭代理后再试; 如果用的是火山引擎的豆包 TTS,经常失败时建议使用付费版本,因为测试版本仅支持 2 个并发。 ### 2、我想通过小智控制电灯、空调、远程开关机等操作 💡 建议:在配置文件中将 `LLM` 设置为 `DifyLLM`,并通过 `Dify` 编排智能体来实现相关控制。 ### 3、我说话很慢,停顿时小智老是抢话 🗣️ 建议:在配置文件中找到如下部分,将 `min_silence_duration_ms` 的值调大(例如改为 `1000`): ```yaml VAD: SileroVAD: threshold: 0.5 model_dir: models/snakers4_silero-vad min_silence_duration_ms: 700 # 如果说话停顿较长,可将此值调大 ``` ### 4、如何提高小智对话响应速度? ⚡ 本项目默认配置为低成本方案,建议初学者先使用默认免费模型,解决“跑得动”的问题,再优化“跑得快”。 如需提升响应速度,可尝试更换各组件。以下为各组件的响应速度测试数据(仅供参考,不构成承诺): #### LLM 类组件 | 排名 | 组件名称 | 响应速度(ms) | |:---:|:---------------:|:------------:| | 1 | AliLLM | 630 | | 2 | ChatGLMLLM | 2000 | | 3 | DeepSeekLLM | 6800 | ``` 测试地点:广东省佛山市禅城区 测试时间:2025年2月9日 16:12 宽带运营商:中国移动 测试方法:更换配置后,执行 core/utils/llm.py 文件 ``` #### TTS 类组件 | 排名 | 组件名称 | 响应速度(ms) | |:---:|:--------------:|:------------:| | 1 | DoubaoTTS | 645 | | 2 | EdgeTTS | 1019 | ``` 测试地点:广东省佛山市禅城区 测试时间:2025年2月9日 16:12 宽带运营商:中国移动 测试方法:更换配置后,执行 core/utils/tts.py 文件 ``` ### 结论 🔍 `2025年2月9日`,如果我的电脑在`广东省佛山市禅城区`,且使用的是`中国移动`网络,我会优先使用: - LLM:`AliLLM` - TTS:`DoubaoTTS` ### 5、更多问题,可联系我们反馈 💬 ![图片](docs/images/wechat.jpg) --- ## 鸣谢 🙏 - 本项目受 [百聆语音对话机器人](https://github.com/wwbin2017/bailing) 启发,并在其基础上实现。 - 感谢 [腾讯云](https://cloud.tencent.com/) 提供免费 Docker 镜像空间。 - 感谢 [十方融海](https://www.tenclass.com/) 对小智通讯协议提供的详尽文档支持。 Star History Chart