OpenSoraPlan1.3.1 VAE 使用指南

环境安装

【模型开发时推荐使用配套的环境版本】

1. 仓库拉取

    git clone https://gitee.com/ascend/MindSpeed-MM.git 
    git clone https://github.com/NVIDIA/Megatron-LM.git
    cd Megatron-LM
    git checkout core_v0.12.1
    cp -r megatron ../MindSpeed-MM/
    cd ..
    cd MindSpeed-MM

2. 环境搭建

    # python3.10
    conda create -n test python=3.10
    conda activate test

    # 安装 torch 和 torch_npu，注意要选择对应python版本、x86或arm的torch、torch_npu及apex包
    pip install torch-2.7.1-cp310-cp310-manylinux_2_28_aarch64.whl 
    pip install torch_npu-2.7.1*-cp310-cp310-manylinux_2_28_aarch64.whl
    
    # apex for Ascend 参考 https://gitee.com/ascend/apex
    # 建议从原仓编译安装

    # 将shell脚本中的环境变量路径修改为真实路径，下面为参考路径
    source /usr/local/Ascend/ascend-toolkit/set_env.sh 

    # 安装加速库
    git clone https://gitee.com/ascend/MindSpeed.git
    cd MindSpeed
    # checkout commit from MindSpeed core_r0.12.1
    git checkout 6d63944cb2470a0bebc38dfb65299b91329b8d92
    pip install -r requirements.txt 
    pip install -e .
    cd ..

    # 安装其余依赖库
    pip install -e .

3. Decord搭建

【X86版安装】

pip install decord==0.6.0

【ARM版安装】

apt方式安装请参考链接

yum方式安装请参考脚本

权重下载

1. 权重下载与保存

下载预训练视觉感知模型

vgg_lpips：下载vgg.pth权重到MindSpeed-MM/.cache/lpips/目录下；
vgg16：下载vgg16-397923af.pth权重到用户目录~/.cache/torch/hub/checkpoints/下；

数据集准备

1. 数据集下载

用户需自行获取并解压pixabay_v2数据集，获取数据结构如下：

$pixabay_v2
├── folder_01
├── ├── video0.mp4
├── ├── video1.mp4
├── ├── ...
├── folder_02
├── folder_03
└── ...

预训练

1. 准备工作

配置脚本前需要完成前置准备工作，包括：环境安装、权重下载及保存、数据集准备，详情可查看对应章节。

2. 配置参数

需根据实际情况修改model.json和data.json中的权重和数据集路径，包括from_pretrained、perceptual_from_pretrained、video_folder字段。

【单机运行】

    GPUS_PER_NODE=8
    MASTER_ADDR=localhost
    MASTER_PORT=29505
    NNODES=1  
    NODE_RANK=0  
    WORLD_SIZE=$(($GPUS_PER_NODE * $NNODES))

【多机运行】

    # 根据分布式集群实际情况配置分布式参数
    GPUS_PER_NODE=8  #每个节点的卡数
    MASTER_ADDR="your master node IP"  #都需要修改为主节点的IP地址（不能为localhost）
    MASTER_PORT=29505
    NNODES=2  #集群里的节点数，以实际情况填写,
    NODE_RANK="current node id"  #当前节点的RANK，多个节点不能重复，主节点为0, 其他节点可以是1,2..
    WORLD_SIZE=$(($GPUS_PER_NODE * $NNODES))

3. 启动预训练

    bash examples/vae/pretrain_vae.sh

注意：

多机训练需在多个终端同时启动预训练脚本(每个终端的预训练脚本只有NODE_RANK参数不同，其他参数均相同)
如果使用多机训练，需要在每个节点准备训练数据和模型权重

环境变量声明

ASCEND_SLOG_PRINT_TO_STDOUT：是否开启日志打印， 0：关闭日志打屏，1：开启日志打屏
ASCEND_GLOBAL_LOG_LEVEL：设置应用类日志的日志级别及各模块日志级别，仅支持调试日志。0：对应DEBUG级别，1：对应INFO级别，2：对应WARNING级别，3：对应ERROR级别，4：对应NULL级别，不输出日志
TASK_QUEUE_ENABLE：用于控制开启task_queue算子下发队列优化的等级，0：关闭，1：开启Level 1优化，2：开启Level 2优化
COMBINED_ENABLE：设置combined标志。设置为0表示关闭此功能；设置为1表示开启，用于优化非连续两个算子组合类场景
CPU_AFFINITY_CONF：控制CPU端算子任务的处理器亲和性，即设定任务绑核，设置0或未设置：表示不启用绑核功能， 1：表示开启粗粒度绑核， 2：表示开启细粒度绑核
HCCL_CONNECT_TIMEOUT: 用于限制不同设备之间socket建链过程的超时等待时间，需要配置为整数，取值范围[120,7200]，默认值为120，单位s
GPUS_PER_NODE：配置一个计算节点上使用的GPU数量

GVP Ascend/MindSpeed-MM

OpenSoraPlan1.3.1 VAE 使用指南

目录

环境安装

1. 仓库拉取

2. 环境搭建

3. Decord搭建

权重下载

1. 权重下载与保存

数据集准备

1. 数据集下载

预训练

1. 准备工作

2. 配置参数

3. 启动预训练

环境变量声明

简介

发行版 (4)

MindSpeed-MM 开源评估指数

贡献者 (65)

语言

近期动态

GVPAscend/MindSpeed-MM

OpenSoraPlan1.3.1 VAE 使用指南

目录

环境安装

1. 仓库拉取

2. 环境搭建

3. Decord搭建

权重下载

1. 权重下载与保存

数据集准备

1. 数据集下载

预训练

1. 准备工作

2. 配置参数

3. 启动预训练

环境变量声明

简介

发行版 (4)

MindSpeed-MM 开源评估指数

开源评估指数源自 OSS-Compass 评估体系，评估体系围绕以下三个维度对项目展开评估：

贡献者 (65)

语言

近期动态

搜索帮助

GVP Ascend/MindSpeed-MM