# echomimic_v3
**Repository Path**: huwei2023/echomimic_v3
## Basic Information
- **Project Name**: echomimic_v3
- **Description**: No description available
- **Primary Language**: Python
- **License**: Apache-2.0
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 0
- **Forks**: 0
- **Created**: 2026-03-07
- **Last Updated**: 2026-03-07
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
EchoMimicV3: 13亿参数即可实现统一多模态、多任务人体动画生成
支付宝终端技术部,蚂蚁集团
1项目负责人
2通讯作者
## 📣 更新日志
[2026.01.22] 🔥 我们更新了 EchoMimicV3-Flash 模型和代码
- 🚀 8 步即可生成高质量结果,远超 V3-preview 表现
- 🧩 无需人脸位置掩码,流程更简洁,鲁棒性更强
- 💾 需 **12G** 显存
- ✅ 支持最大 768×768 分辨率生成
* [2025.08.12] 🔥 **仅需12G显存生成视频**, 量化版本[GradioUI](https://github.com/antgroup/echomimic_v3/blob/main/app_mm.py)发布。 查看 [教程](https://www.bilibili.com/video/BV1W8tdzEEVN)。感谢@[gluttony-10](https://github.com/gluttony-10)贡献。
* [2025.08.12] 🔥 EchoMimicV3支持16G显存,使用[ComfyUI](https://github.com/smthemex/ComfyUI_EchoMimic). 感谢 @[smthemex](https://github.com/smthemex)的贡献。
* [2025.08.10] 🔥 [GradioUI](https://github.com/antgroup/echomimic_v3/blob/main/app.py) 已发布,感谢 @[gluttony-10](https://github.com/gluttony-10) 的贡献。
* [2025.08.09] 🔥 我们在 ModelScope 上发布了 [模型](https://modelscope.cn/models/BadToBest/EchoMimicV3)。
* [2025.08.08] 🔥 我们在 Huggingface 上发布了 [代码](https://github.com/antgroup/echomimic_v3) 和 [模型](https://huggingface.co/BadToBest/EchoMimicV3)。
* [2025.07.08] 🔥 我们的 [论文](https://arxiv.org/abs/2507.03905) 在 arxiv 上公开。
## 🌅 示例展示
### 中文驱动效果
更多演示视频,请访问[项目主页](https://antgroup.github.io/ai/echomimic_v3/)
## 快速开始
### 环境配置
- 测试系统环境:Centos 7.2/Ubuntu 22.04, Cuda >= 12.1
- 测试 GPU:A100(80G) / RTX4090D (24G) / V100(16G)
- 测试 Python 版本:3.10 / 3.11
### 🛠️ 安装
#### 1. 创建 conda 环境
```
conda create -n echomimic_v3 python=3.10
conda activate echomimic_v3
```
#### 2. 安装其他依赖
```
pip install -r requirements.txt
```
### 🧱 模型准备
| 模型名称 | 下载链接 | 备注 |
| --------------|-------------------------------------------------------------------------------|-------------------------------|
| Wan2.1-Fun-1.3B-InP | 🤗 [Huggingface](https://huggingface.co/alibaba-pai/Wan2.1-Fun-V1.1-1.3B-InP) | 基础模型
| wav2vec2-base | 🤗 [Huggingface](https://huggingface.co/facebook/wav2vec2-base-960h) | 音频编码器
| chinese-wav2vec2-base | 🤗 [Huggingface](https://modelscope.cn/models/TencentGameMate/chinese-wav2vec2-base) | Flash的音频编码器
| EchoMimicV3-preview | 🤗 [Huggingface](https://huggingface.co/BadToBest/EchoMimicV3) | preview的权重
| EchoMimicV3-preview | 🤗 [ModelScope](https://modelscope.cn/models/BadToBest/EchoMimicV3) | preview的权重
| EchoMimicV3-Flash | 🤗 [Huggingface](https://huggingface.co/BadToBest/EchoMimicV3/tree/main/echomimicv3-flash-pro) | Flash的权重
-- EchoMimicV3-flash-pro**权重** 文件组织如下:
```
./flash-pro/
├── Wan2.1-Fun-V1.1-1.3B-InP
├── chinese-wav2vec2-base
└── transformer
└── diffusion_pytorch_model.safetensors
```
-- EchoMimicV3-preview**权重** 文件组织如下:
```
./preview/
├── Wan2.1-Fun-V1.1-1.3B-InP
├── wav2vec2-base-960h
└── transformer
└── diffusion_pytorch_model.safetensors
```
### 🔑 快速推理 EchoMimicV3-flash-pro
```
bash run_flash_pro.sh
```
### 🔑 快速推理 EchoMimicV3-preview
```
python infer_preview.py
```
### 🔑 快速推理preview量化版本
```
python app_mm.py
```
#### 提示
- 音频 CFG:音频 CFG `audio_guidance_scale` 最佳范围为 2~3。增加音频 CFG 值可以改善唇同步效果,减少音频 CFG 值可以提高视觉质量。- 文本 CFG:文本 CFG `gu
- idance_scale` 最佳范围为 3~6。增加文本 CFG 值可以更好地遵循提示词,减少文本 CFG 值可以提高视觉质量。
- TeaCache:`teacache_threshold` 的最佳范围为 0~0.1。
- 采样步数:头部动画为 5 步,全身动作为 15~25 步。
- 长视频生成:如果需要生成超过 138 帧的视频,可以使用长视频 CFG。
- 尝试降低`partial_video_length`节省显存。
## 📝 待办事项
| 状态 | 里程碑 |
|:--------:|:-------------------------------------------------------------------------|
| ✅ | EchoMimicV3 推理代码已发布至 GitHub |
| ✅ | EchoMimicV3-preview 模型已发布至 HuggingFace |
| ✅ | EchoMimicV3-preview 模型已发布至 ModelScope |
| 🚀 | 在线体验版 |
| 🚀 | 英文和中文预训练模型(Preview 版本)已发布至 ModelScope |
| 🚀 | 英文和中文预训练模型(720P)已发布至 HuggingFace |
| 🚀 | 英文和中文预训练模型(720P)已发布至 ModelScope |
| 🚀 | EchoMimicV3 训练代码已发布至 GitHub |
## 🚀 EchoMimic 系列
* EchoMimicV3: 13亿参数即可实现统一多模态、多任务人体动画生成。[GitHub](https://github.com/antgroup/echomimic_v3)
* EchoMimicV2: 面向震撼、简化、半身人体动画生成。[GitHub](https://github.com/antgroup/echomimic_v2)
* EchoMimicV1: 基于可编辑关键点条件的逼真语音驱动肖像动画生成。[GitHub](https://github.com/antgroup/echomimic)
## 📒 引用
如果我们的工作对您的研究有帮助,请引用我们的论文:
```
@misc{meng2025echomimicv3,
title={EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation},
author={Rang Meng, Yan Wang, Weipeng Wu, Ruobing Zheng, Yuming Li, Chenguang Ma},
year={2025},
eprint={2507.03905},
archivePrefix={arXiv}
}
```
## 📜 许可证
本仓库中的模型采用 Apache 2.0 许可证。我们不对您生成的内容主张任何权利,
赋予您自由使用的权利,但您的使用需遵守该许可证的规定。
您需对模型的使用负全责,不得用于违反法律法规、伤害个人或群体、传播有害个人信息、散布虚假信息或针对弱势群体的行为。
## 🌟 Star 历史
[](https://www.star-history.com/#antgroup/echomimic_v3&Date)