# 动态负载的分布式神经网络训练 - 四川大学 **Repository Path**: dicalab/Dynamic_Load_Balance_DistributedDNN ## Basic Information - **Project Name**: 动态负载的分布式神经网络训练 - 四川大学 - **Description**: No description available - **Primary Language**: Python - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2021-07-05 - **Last Updated**: 2021-07-05 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 动态负载的分布式神经网络训练 - 四川大学 这是四川大学科研项目 “DLB: A Dynamic Load Balance Strategy For Robust Distributed Deep Neural Network Training” 的官方代码实现。 ## 快速上手 ### 克隆仓库 ``` git clone https://github.com/soptq/Dynamic_Batch-Size_DistributedDNN cd Dynamic_Batch-Size_DistributedDNN ``` ### 安装环境 ``` pip install -r requirements.txt ``` ### 下载数据集 ``` python prepare_data.py ``` ### 启动 DLB 算法 在这里我们模拟一个 4 节点的分布式训练环境用来训练 DenseNet-121。 主机安装有两张显卡,其中有三个节点占用一张卡,另外一个节点独占一张卡,以模拟真实环境中的算力不平衡问题。 另外,整个集群的批大小被设置成 512,其他的参数都保持默认。 ``` python dbs.py -d false -ws 4 -b 512 -m densenet -gpu 0,0,0,1 ``` 默认参数的值可以参考 `parser.py` ## 引用 ``` @inproceedings{Ye2020DBSDB, title={DBS: Dynamic Batch Size For Distributed Deep Neural Network Training}, author={Qing Ye and Yuhao Zhou and Mingjia Shi and Yanan Sun and Jiancheng Lv}, year={2020} } ```