2.6K Star 8.6K Fork 4.8K

GVPMindSpore/mindspore

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
mindspore.train.TFTRegister.rst 1.46 KB
一键复制 编辑 原始数据 按行查看 历史
俞涵 提交于 2024-09-09 16:47 . modify format

mindspore.train.TFTRegister

.. py:class:: mindspore.train.TFTRegister(ctrl_rank_id, ctrl_ip, ctrl_port, ckpt_save_path)

    该回调用于开启 `MindIO的TTP特性 <https://www.hiascend.com/document/detail/zh/mindx-dl/60rc1/mindio/mindiottp/mindiottp001.html>`_,该CallBack会嵌入训练的流程,完成TTP 的初始化、上报、异常处理等操作。

    .. note::
        该特性仅支持Ascend后端的静态图模式,并且只支持sink_size值小于等于1的场景。

    参数:
        - **ctrl_rank_id** (int) - TTP controller 运行的rank_id, 该参数用于启动TTP的controller。
        - **ctrl_ip** (str) - TTP controller 的IP地址, 该参数用于启动TTP的controller。
        - **ctrl_port** (int) - TTP controller 的IP端口, 该参数用于启动TTP的controller和processor。
        - **ckpt_save_path** (str) -  异常发生时ckpt保存的路径,该路径是一个目录,ckpt的异常保存时会在该录下创建新的名为‘ttp_saved_checkpoints-step_{cur_step_num}’目录。

    异常:
        - **Exception** - TTP 初始化失败,会对外抛Exception异常。
        - **ModuleNotFoundError** - Mindio TTP whl 包未安装。

    .. py:method:: on_train_step_end(run_context)

        每个step完成时进行MindIO TTP的上报。

        参数:
            - **run_context** (RunContext) - 包含模型的相关信息。详情请参考 :class:`mindspore.train.RunContext`。
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
Python
1
https://gitee.com/mindspore/mindspore.git
git@gitee.com:mindspore/mindspore.git
mindspore
mindspore
mindspore
master

搜索帮助