# ms-models-2021

**Repository Path**: s4plus/ms-models-2021

## Basic Information

- **Project Name**: ms-models-2021
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 1
- **Created**: 2021-07-16
- **Last Updated**: 2021-07-16

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# S4Plus Gaming 参赛计划书

[TOC]

## 准备事项

- 加入QQ群
- [报名](https://competition.huaweicloud.com/information/1000041485/circumstance)，加入战队
- 按照自验报告格式开始比赛
- [赛题信息](https://competition.huaweicloud.com/information/1000041485/circumstance)

## 时间节点
- [x] 7月3日
  - 赛题一：基本完成，报告上传
  - 赛题二：基本完成v1版本，精度达到要求但不好写报告；继续调v2版本，报告带着写
  - 赛题三：程序可以运行，但训练时间较慢，进一步完善
- [ ] 6月25日，青铜赛截止
- [ ] 6月23日，完成并打通所有模型的流程，给出完整的实验报告
- [ ] ...
- [x] 6月19日
  - 赛题一：基本完成自验报告
  - 赛题二：发现移植前后数据集格式存在差异
  - 赛题三：发现训练过程中每个step的前向只需要5s，反向传播却需要3000s左右
- [ ] 6月19日，预期进度情况：
  - 赛题一：自验报告完成；负责人：赖民信；
  - 赛题二：训练过程至少要跑通；负责人：孙新雨；
  - 赛题三：找出训练速度过慢的原因，修改好；负责人：赵琦；
- [x] 6月16日，组会的进度情况：
  - 赛题一，DPCNN训练过程已完成，在验证集上的推理精度为77%，达到要求；
    - 赵琦：完成了DPCNN的模型迁移
    - 赖民信：完成了本赛题的自验报告的前半部分的书写
    - 刘硕：完成了本赛题的数据预处理以及写训练脚本
  - 赛题二：模型迁移已完成，但还未跑通训练过程；
    - 孙新雨：完成了fm模型的迁移；
    - 龚磊：完成了criteo数据集的数据预处理；
  - 赛题三：模型迁移已完成，训练过程已跑通，但训练速度太慢，存在问题；
    - 刘硕：完成了本赛题的数据集数据预处理以及写训练脚本；
    - 赵琦：完成了BCNN的模型迁移；
- [x] 6月12日，各小组给出算子支持情况，mindconverter给出尝试结果

## 同步时间

[周三下午](https://meeting.tencent.com/s/t7mDPGU6I72j
) [周六下午](https://meeting.tencent.com/s/jxQ5wVu5pWco)

## 代码仓库

http://222.195.92.204/contest/ms-models-2021

## 分工

- 队长：刘硕
- 组员：龚磊、赖民信、赵琦、孙新雨

### 第一阶段分工

- 赛题一：利用MindSpore实现DPCNN文本分类网络(CPU)

  **赵琦**，赖民信

- 赛题二：利用MindSpore实现广告推荐网络FM(Factorization Machine) (CPU)

  **孙新雨**，龚磊

- 赛题三：利用MindSpore实现细粒度分类网络双线性网络Bilinear CNN (CPU

  **赵琦**，孙新雨，刘硕

- [MindConverter](https://www.mindspore.cn/tutorial/training/zh-CN/r1.0/advanced_use/migrate_3rd_scripts_mindconverter.html)的自动迁移尝试

  **刘硕**

### 会议记录分工
会议记录每次要记录到本文档的[时间节点](##时间节点)里。下面的记录人按顺序依次负责记录每次会议各组的进度情况。

- [ ] 赵琦
- [ ] 孙新雨
- [ ] 赖民信
- [ ] 龚磊
- [ ] 刘硕

## 每个模型的迁移工作流程

> 请参考[ResNet-50迁移实例](https://www.mindspore.cn/doc/migration_guide/zh-CN/master/sample_code.html)

### 确定迁移目标

三个模型均已指定迁移目标，参考[赛题信息](https://competition.huaweicloud.com/information/1000041485/circumstance)

### 复现迁移目标

- 训练loss
- 推理精度
- 单step信息

### 脚本开发

- 参照[对照表](https://www.mindspore.cn/doc/note/zh-CN/master/index.html#operator_api)，评估算子支持的完备性
  - 如有不支持的算子，优先考虑组合已有算子来实现
  - 注意对比时，确定算子是不是在CPU上有实现
- 使用动态图（PyNative）模式，方便调试
- 数据预处理，统一采用MindData的接口去处理数据
- 使用子模块开发，一定不能都写在一个类里

### 流程打通

按照[model_zoo](https://gitee.com/mindspore/mindspore/tree/master/model_zoo)的格式去组织代码结构，一般格式如下：

```
.
└──resnet
  ├── README.md
  ├── scripts
    ├── run_distribute_train.sh            # 启动Ascend分布式训练（8卡）
    ├── run_eval.sh                        # 启动Ascend评估
    ├── run_standalone_train.sh            # 启动Ascend单机训练（单卡）
  ├── src
    ├── config.py                          # 参数配置
    ├── dataset.py                         # 数据预处理
    ├── CrossEntropySmooth.py              # ImageNet2012数据集的损失定义
    ├── lr_generator.py                    # 生成每个步骤的学习率
    └── resnet.py                          # ResNet骨干网络
  ├── eval.py                              # 评估网络
  └── train.py                             # 训练网络
```

## 实验报告写作

- 写作模板在群里

- 不要最后再写，边推进边写作