# echomimic_v3 **Repository Path**: huwei2023/echomimic_v3 ## Basic Information - **Project Name**: echomimic_v3 - **Description**: No description available - **Primary Language**: Python - **License**: Apache-2.0 - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-03-07 - **Last Updated**: 2026-03-07 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README

EchoMimicV3: 13亿参数即可实现统一多模态、多任务人体动画生成

孟让¹ 王艳吴伟鹏郑若冰李宇明² 马晨光²

支付宝终端技术部，蚂蚁集团

¹项目负责人 ²通讯作者

## 📣 更新日志 [2026.01.22] 🔥 我们更新了 EchoMimicV3-Flash 模型和代码 - 🚀 8 步即可生成高质量结果，远超 V3-preview 表现 - 🧩 无需人脸位置掩码，流程更简洁，鲁棒性更强 - 💾 需 **12G** 显存 - ✅ 支持最大 768×768 分辨率生成 * [2025.08.12] 🔥 **仅需12G显存生成视频**, 量化版本[GradioUI](https://github.com/antgroup/echomimic_v3/blob/main/app_mm.py)发布。查看 [教程](https://www.bilibili.com/video/BV1W8tdzEEVN)。感谢@[gluttony-10](https://github.com/gluttony-10)贡献。 * [2025.08.12] 🔥 EchoMimicV3支持16G显存，使用[ComfyUI](https://github.com/smthemex/ComfyUI_EchoMimic). 感谢 @[smthemex](https://github.com/smthemex)的贡献。 * [2025.08.10] 🔥 [GradioUI](https://github.com/antgroup/echomimic_v3/blob/main/app.py) 已发布，感谢 @[gluttony-10](https://github.com/gluttony-10) 的贡献。 * [2025.08.09] 🔥 我们在 ModelScope 上发布了 [模型](https://modelscope.cn/models/BadToBest/EchoMimicV3)。 * [2025.08.08] 🔥 我们在 Huggingface 上发布了 [代码](https://github.com/antgroup/echomimic_v3) 和 [模型](https://huggingface.co/BadToBest/EchoMimicV3)。 * [2025.07.08] 🔥 我们的 [论文](https://arxiv.org/abs/2507.03905) 在 arxiv 上公开。 ## 🌅 示例展示

### 中文驱动效果

更多演示视频，请访问[项目主页](https://antgroup.github.io/ai/echomimic_v3/) ## 快速开始 ### 环境配置 - 测试系统环境：Centos 7.2/Ubuntu 22.04, Cuda >= 12.1 - 测试 GPU：A100(80G) / RTX4090D (24G) / V100(16G) - 测试 Python 版本：3.10 / 3.11 ### 🛠️ 安装 #### 1. 创建 conda 环境 ``` conda create -n echomimic_v3 python=3.10 conda activate echomimic_v3 ``` #### 2. 安装其他依赖 ``` pip install -r requirements.txt ``` ### 🧱 模型准备 | 模型名称 | 下载链接 | 备注 | | --------------|-------------------------------------------------------------------------------|-------------------------------| | Wan2.1-Fun-1.3B-InP | 🤗 [Huggingface](https://huggingface.co/alibaba-pai/Wan2.1-Fun-V1.1-1.3B-InP) | 基础模型 | wav2vec2-base | 🤗 [Huggingface](https://huggingface.co/facebook/wav2vec2-base-960h) | 音频编码器 | chinese-wav2vec2-base | 🤗 [Huggingface](https://modelscope.cn/models/TencentGameMate/chinese-wav2vec2-base) | Flash的音频编码器 | EchoMimicV3-preview | 🤗 [Huggingface](https://huggingface.co/BadToBest/EchoMimicV3) | preview的权重 | EchoMimicV3-preview | 🤗 [ModelScope](https://modelscope.cn/models/BadToBest/EchoMimicV3) | preview的权重 | EchoMimicV3-Flash | 🤗 [Huggingface](https://huggingface.co/BadToBest/EchoMimicV3/tree/main/echomimicv3-flash-pro) | Flash的权重 -- EchoMimicV3-flash-pro**权重** 文件组织如下： ``` ./flash-pro/ ├── Wan2.1-Fun-V1.1-1.3B-InP ├── chinese-wav2vec2-base └── transformer └── diffusion_pytorch_model.safetensors ``` -- EchoMimicV3-preview**权重** 文件组织如下： ``` ./preview/ ├── Wan2.1-Fun-V1.1-1.3B-InP ├── wav2vec2-base-960h └── transformer └── diffusion_pytorch_model.safetensors ``` ### 🔑 快速推理 EchoMimicV3-flash-pro ``` bash run_flash_pro.sh ``` ### 🔑 快速推理 EchoMimicV3-preview ``` python infer_preview.py ``` ### 🔑 快速推理preview量化版本 ``` python app_mm.py ``` #### 提示 - 音频 CFG：音频 CFG `audio_guidance_scale` 最佳范围为 2~3。增加音频 CFG 值可以改善唇同步效果，减少音频 CFG 值可以提高视觉质量。- 文本 CFG：文本 CFG `gu - idance_scale` 最佳范围为 3~6。增加文本 CFG 值可以更好地遵循提示词，减少文本 CFG 值可以提高视觉质量。 - TeaCache：`teacache_threshold` 的最佳范围为 0~0.1。 - 采样步数：头部动画为 5 步，全身动作为 15~25 步。 - 长视频生成：如果需要生成超过 138 帧的视频，可以使用长视频 CFG。 - 尝试降低`partial_video_length`节省显存。 ## 📝 待办事项 | 状态 | 里程碑 | |:--------:|:-------------------------------------------------------------------------| | ✅ | EchoMimicV3 推理代码已发布至 GitHub | | ✅ | EchoMimicV3-preview 模型已发布至 HuggingFace | | ✅ | EchoMimicV3-preview 模型已发布至 ModelScope | | 🚀 | 在线体验版 | | 🚀 | 英文和中文预训练模型（Preview 版本）已发布至 ModelScope | | 🚀 | 英文和中文预训练模型（720P）已发布至 HuggingFace | | 🚀 | 英文和中文预训练模型（720P）已发布至 ModelScope | | 🚀 | EchoMimicV3 训练代码已发布至 GitHub | ## 🚀 EchoMimic 系列 * EchoMimicV3: 13亿参数即可实现统一多模态、多任务人体动画生成。[GitHub](https://github.com/antgroup/echomimic_v3) * EchoMimicV2: 面向震撼、简化、半身人体动画生成。[GitHub](https://github.com/antgroup/echomimic_v2) * EchoMimicV1: 基于可编辑关键点条件的逼真语音驱动肖像动画生成。[GitHub](https://github.com/antgroup/echomimic) ## 📒 引用如果我们的工作对您的研究有帮助，请引用我们的论文： ``` @misc{meng2025echomimicv3, title={EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation}, author={Rang Meng, Yan Wang, Weipeng Wu, Ruobing Zheng, Yuming Li, Chenguang Ma}, year={2025}, eprint={2507.03905}, archivePrefix={arXiv} } ``` ## 📜 许可证本仓库中的模型采用 Apache 2.0 许可证。我们不对您生成的内容主张任何权利，赋予您自由使用的权利，但您的使用需遵守该许可证的规定。您需对模型的使用负全责，不得用于违反法律法规、伤害个人或群体、传播有害个人信息、散布虚假信息或针对弱势群体的行为。 ## 🌟 Star 历史 [![Star History Chart](https://api.star-history.com/svg?repos=antgroup/echomimic_v3&type=Date)](https://www.star-history.com/#antgroup/echomimic_v3&Date)