# DetachedModelTraining **Repository Path**: cpn-platform/detached-model-training ## Basic Information - **Project Name**: DetachedModelTraining - **Description**: 分离式模型训练模块 - **Primary Language**: Python - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2021-12-17 - **Last Updated**: 2024-09-28 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 分离式模型训练程序 本项目是一个客户端-服务端分离的 Python Tensorflow 模型训练程序。客户端与服务端之间使用 gRPC 网络协议进行通信。得益于分离式架构,客户端可以并行地发送多个计算请求,提升运行效率;服务端也可以部署多个实例并对计算请求进行负载均衡,实现多节点分布式模型训练。 ## 1. 安装 安装 [Python](https://www.python.org/) 3.9。 克隆或下载项目。 安装项目依赖: ```sh pip install -r requirements/dev.txt ``` 试运行。进入项目文件夹,运行程序打印版本: ```sh python src/server.py -v python src/client.py -v ``` ## 2. 使用 服务端程序使用方法见: ```sh python src/server.py -h ``` 客户端程序使用方法见: ```sh python src/client.py -h ``` ## 3. 开发 ### 3.1. gRPC 编译 gRPC protobuf: ```sh rm -r ./src/proto python -m grpc_tools.protoc --proto_path=./ --python_out=./src --grpc_python_out=./src ./proto/*.proto ``` ### 3.2. 容器化 首先需安装 Docker。 制作服务端 Docker 镜像: ```sh docker image build -t detached_model_training_server:latest . ``` 测试运行 Docker 镜像: ```sh docker container run -p 8080:8080/tcp -it --rm detached_model_training_server:latest ```