# echomimic_v3 **Repository Path**: huwei2023/echomimic_v3 ## Basic Information - **Project Name**: echomimic_v3 - **Description**: No description available - **Primary Language**: Python - **License**: Apache-2.0 - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-03-07 - **Last Updated**: 2026-03-07 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README

EchoMimicV3: 13亿参数即可实现统一多模态、多任务人体动画生成

孟让1王艳吴伟鹏郑若冰李宇明2马晨光2
支付宝终端技术部,蚂蚁集团

1项目负责人  2通讯作者

## 📣 更新日志 [2026.01.22] 🔥 我们更新了 EchoMimicV3-Flash 模型和代码 - 🚀 8 步即可生成高质量结果,远超 V3-preview 表现 - 🧩 无需人脸位置掩码,流程更简洁,鲁棒性更强 - 💾 需 **12G** 显存 - ✅ 支持最大 768×768 分辨率生成 * [2025.08.12] 🔥 **仅需12G显存生成视频**, 量化版本[GradioUI](https://github.com/antgroup/echomimic_v3/blob/main/app_mm.py)发布。 查看 [教程](https://www.bilibili.com/video/BV1W8tdzEEVN)。感谢@[gluttony-10](https://github.com/gluttony-10)贡献。 * [2025.08.12] 🔥 EchoMimicV3支持16G显存,使用[ComfyUI](https://github.com/smthemex/ComfyUI_EchoMimic). 感谢 @[smthemex](https://github.com/smthemex)的贡献。 * [2025.08.10] 🔥 [GradioUI](https://github.com/antgroup/echomimic_v3/blob/main/app.py) 已发布,感谢 @[gluttony-10](https://github.com/gluttony-10) 的贡献。 * [2025.08.09] 🔥 我们在 ModelScope 上发布了 [模型](https://modelscope.cn/models/BadToBest/EchoMimicV3)。 * [2025.08.08] 🔥 我们在 Huggingface 上发布了 [代码](https://github.com/antgroup/echomimic_v3) 和 [模型](https://huggingface.co/BadToBest/EchoMimicV3)。 * [2025.07.08] 🔥 我们的 [论文](https://arxiv.org/abs/2507.03905) 在 arxiv 上公开。 ## 🌅 示例展示

### 中文驱动效果
更多演示视频,请访问[项目主页](https://antgroup.github.io/ai/echomimic_v3/) ## 快速开始 ### 环境配置 - 测试系统环境:Centos 7.2/Ubuntu 22.04, Cuda >= 12.1 - 测试 GPU:A100(80G) / RTX4090D (24G) / V100(16G) - 测试 Python 版本:3.10 / 3.11 ### 🛠️ 安装 #### 1. 创建 conda 环境 ``` conda create -n echomimic_v3 python=3.10 conda activate echomimic_v3 ``` #### 2. 安装其他依赖 ``` pip install -r requirements.txt ``` ### 🧱 模型准备 | 模型名称 | 下载链接 | 备注 | | --------------|-------------------------------------------------------------------------------|-------------------------------| | Wan2.1-Fun-1.3B-InP | 🤗 [Huggingface](https://huggingface.co/alibaba-pai/Wan2.1-Fun-V1.1-1.3B-InP) | 基础模型 | wav2vec2-base | 🤗 [Huggingface](https://huggingface.co/facebook/wav2vec2-base-960h) | 音频编码器 | chinese-wav2vec2-base | 🤗 [Huggingface](https://modelscope.cn/models/TencentGameMate/chinese-wav2vec2-base) | Flash的音频编码器 | EchoMimicV3-preview | 🤗 [Huggingface](https://huggingface.co/BadToBest/EchoMimicV3) | preview的权重 | EchoMimicV3-preview | 🤗 [ModelScope](https://modelscope.cn/models/BadToBest/EchoMimicV3) | preview的权重 | EchoMimicV3-Flash | 🤗 [Huggingface](https://huggingface.co/BadToBest/EchoMimicV3/tree/main/echomimicv3-flash-pro) | Flash的权重 -- EchoMimicV3-flash-pro**权重** 文件组织如下: ``` ./flash-pro/ ├── Wan2.1-Fun-V1.1-1.3B-InP ├── chinese-wav2vec2-base └── transformer └── diffusion_pytorch_model.safetensors ``` -- EchoMimicV3-preview**权重** 文件组织如下: ``` ./preview/ ├── Wan2.1-Fun-V1.1-1.3B-InP ├── wav2vec2-base-960h └── transformer └── diffusion_pytorch_model.safetensors ``` ### 🔑 快速推理 EchoMimicV3-flash-pro ``` bash run_flash_pro.sh ``` ### 🔑 快速推理 EchoMimicV3-preview ``` python infer_preview.py ``` ### 🔑 快速推理preview量化版本 ``` python app_mm.py ``` #### 提示 - 音频 CFG:音频 CFG `audio_guidance_scale` 最佳范围为 2~3。增加音频 CFG 值可以改善唇同步效果,减少音频 CFG 值可以提高视觉质量。- 文本 CFG:文本 CFG `gu - idance_scale` 最佳范围为 3~6。增加文本 CFG 值可以更好地遵循提示词,减少文本 CFG 值可以提高视觉质量。 - TeaCache:`teacache_threshold` 的最佳范围为 0~0.1。 - 采样步数:头部动画为 5 步,全身动作为 15~25 步。 - ​长视频生成:如果需要生成超过 138 帧的视频,可以使用长视频 CFG。 - 尝试降低`partial_video_length`节省显存。 ## 📝 待办事项 | 状态 | 里程碑 | |:--------:|:-------------------------------------------------------------------------| | ✅ | EchoMimicV3 推理代码已发布至 GitHub | | ✅ | EchoMimicV3-preview 模型已发布至 HuggingFace | | ✅ | EchoMimicV3-preview 模型已发布至 ModelScope | | 🚀 | 在线体验版 | | 🚀 | 英文和中文预训练模型(Preview 版本)已发布至 ModelScope | | 🚀 | 英文和中文预训练模型(720P)已发布至 HuggingFace | | 🚀 | 英文和中文预训练模型(720P)已发布至 ModelScope | | 🚀 | EchoMimicV3 训练代码已发布至 GitHub | ## 🚀 EchoMimic 系列 * EchoMimicV3: 13亿参数即可实现统一多模态、多任务人体动画生成。[GitHub](https://github.com/antgroup/echomimic_v3) * EchoMimicV2: 面向震撼、简化、半身人体动画生成。[GitHub](https://github.com/antgroup/echomimic_v2) * EchoMimicV1: 基于可编辑关键点条件的逼真语音驱动肖像动画生成。[GitHub](https://github.com/antgroup/echomimic) ## 📒 引用 如果我们的工作对您的研究有帮助,请引用我们的论文: ``` @misc{meng2025echomimicv3, title={EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation}, author={Rang Meng, Yan Wang, Weipeng Wu, Ruobing Zheng, Yuming Li, Chenguang Ma}, year={2025}, eprint={2507.03905}, archivePrefix={arXiv} } ``` ## 📜 许可证 本仓库中的模型采用 Apache 2.0 许可证。我们不对您生成的内容主张任何权利, 赋予您自由使用的权利,但您的使用需遵守该许可证的规定。 您需对模型的使用负全责,不得用于违反法律法规、伤害个人或群体、传播有害个人信息、散布虚假信息或针对弱势群体的行为。 ## 🌟 Star 历史 [![Star History Chart](https://api.star-history.com/svg?repos=antgroup/echomimic_v3&type=Date)](https://www.star-history.com/#antgroup/echomimic_v3&Date)