# tritonserver-ascend

**Repository Path**: sundaelite/tritonserver-ascend

## Basic Information

- **Project Name**: tritonserver-ascend
- **Description**: tritonserver ascend样例代码
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-12-08
- **Last Updated**: 2025-12-08

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

## 在昇腾环境上部署Triton Inference Server
###  1、背景
随着人工智能技术的快速发展，模型推理服务的部署效率与性能优化成为实际应用中的关键挑战。Triton Inference Server作为NVIDIA开源的推理服务框架，以其多框架支持、动态批处理和高并发能力受到广泛关注。昇腾800IA2作为国产AI加速卡，在推理场景下展现出优异的能效比和计算性能。
本文将详细介绍在昇腾800IA2硬件环境上部署Triton Inference Server的完整流程，并以目标检测小模型的服务化推理为实践案例，验证部署方案的可行性和性能表现。通过本实践，读者将了解：
        - 昇腾CANN软件栈与Triton Server的兼容性配置
        - 针对昇腾硬件的模型转换
        - 基于Triton的推理服务部署
本博客不仅适用于目标检测模型，其方法论亦可扩展至其他计算机视觉乃至自然语言处理任务的模型部署，为在国产AI硬件上构建高效推理服务提供参考。

### 2、环境介绍
硬件：
-       Atlas800IA2/Atlas800-3000
-       910B （32GB显存）
-       CPU  （KUNPENG)
-       内存 （16GB）
软件：
- NPU驱动： 25.2.0
- CANN版本：8.2.RC1
- Triton: 2.42.0

### 3、资源获取
- 集成docker环境获取地址：
- 相关模型和源码获取地址：https://gitee.com/sundaelite/tritonservice_ascend_yolov8s
- 客户端代码：https://gitee.com/sundaelite/triton-yolo-client

### 4、创建triton环境
1、使用以下命令创建一个全新的tritonserver+ascend的环境；
```shell
docker run -itd -u root \
--net=host \
--ipc=host \
--privileged \
--device=/dev/davinci_manager \
--device=/dev/devmm_svm \
--device=/dev/hisi_hdc \
-v /var/log/npu/:/usr/slog \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
-v /usr/local/sbin:/usr/local/sbin \
-v /home/data:/data \
--name tritonserver \
--entrypoint=/bin/bash \
28961f2d1d8b

```
2、使用docker exec -it -u 0 tritonserver bash进入环境；

### 5、目录说明
- 1、ascend-acl-backend是acl作为后端的模型仓 所需的镜像下载地址：https://tools.obs.cn-south-292.ca-aicc.com:443/tools/mindie_docker_images/tritonserver24.01-py3-ascend.tar
    当前镜像仅能运行在910B服务器上。如需运行310，请私聊我。
2、ascend-ge-backend是ascend-ge作为后端的模型仓，所需环境下载地址：https://tools.obs.cn-south-292.ca-aicc.com:443/tools/mindie_docker_images/triton-inference-server-ascend310p3.tar.gz
    当前镜像仅能运行值310P3上，如需运行910x,请私聊我。