# llm_solution

**Repository Path**: openeuler/llm_solution

## Basic Information

- **Project Name**: llm_solution
- **Description**: A solution for large model inference, such as DeepSeek, built with full-stack open-source components.
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 15
- **Forks**: 15
- **Created**: 2025-03-11
- **Last Updated**: 2025-11-15

## Categories & Tags

**Categories**: Uncategorized

**Tags**: sig-Long

## README

# openEuler开源全栈AI推理解决方案（Intelligence BooM）

**如果您的使用场景符合以下形态，您也可以直接下载以下 3 种镜像来开启使用之旅！** 

**①** **CPU+NPU（800I A2）** 

•**硬件规格：** 支持单机、双机、四机、大集群

•**镜像地址：**   

hub.oepkgs.net/oedeploy/openeuler/aarch64/intelligence_boom:0.2.0-aarch64-800I-A2-openeuler24.03-lts-sp2  

hub.oepkgs.net/oedeploy/openeuler/x86_64/intelligence_boom:0.2.0-x86_64-800I-A2-openeuler24.03-lts-sp2  



**②CPU+NPU（300I Duo）** 

•**硬件规格：** 支持单机、双机

•**镜像地址：**   

hub.oepkgs.net/oedeploy/openeuler/aarch64/intelligence_boom:0.2.0-aarch64-300I-Duo-openeuler24.03-lts-sp2  

hub.oepkgs.net/oedeploy/openeuler/x86_64/intelligence_boom:0.2.0-x86_64-300I-Duo-openeuler24.03-lts-sp2



**③** **CPU+GPU（NVIDIA A100）** 

•**硬件规格：** 支持单机单卡、单机多卡

•**镜像地址：**  
hub.oepkgs.net/oedeploy/openeuler/aarch64/intelligence_boom:0.2.0-aarch64-A100-openeuler24.03-lts-sp2  

hub.oepkgs.net/oedeploy/openeuler/aarch64/intelligence_boom:0.2.0-aarch64-syshax-openeuler24.03-lts-sp2  



**我们的愿景：** 基于 openEuler 构建开源的 AI 基础软件事实标准，推动企业智能应用生态的繁荣。  


**当大模型遇见产业落地，我们为何需要全栈方案？**  

DeepSeek创新降低大模型落地门槛，AI进入“杰文斯悖论”时刻，需求大幅增加、多模态交互突破硬件限制、低算力需求重构部署逻辑，标志着AI从“技术验证期”迈入“规模落地期”。然而，产业实践中最核心的矛盾逐渐显现：
  

**产业痛点​**  


**适配难​：** 不同行业（如金融、制造、医疗）的业务场景对推理延迟、算力成本、多模态支持的要求差异极大，单一模型或工具链难以覆盖多样化需求；

**成本高​：** 从模型训练到部署，需跨框架（PyTorch/TensorFlow/MindSpore）、跨硬件（CPU/GPU/NPU）、跨存储（关系型数据库/向量数据库）协同，硬件资源利用率低，运维复杂度指数级上升；

**​生态割裂​：** 硬件厂商（如华为、英伟达）、框架厂商（Meta、Google）的工具链互不兼容，“拼凑式”部署导致开发周期长、迭代效率低。
​技术挑战

**推理效率瓶颈​：** 大模型参数规模突破万亿级，传统推理引擎对动态计算图、稀疏激活、混合精度支持不足，算力浪费严重；

**资源协同低效​：** CPU/GPU/NPU异构算力调度依赖人工经验，内存/显存碎片化导致资源闲置； 

**训练成本高昂​：** 随着模型规模的增长、上下文序列的延长，模型微调训练时对显存和计算资源的诉求飙升； 


为了解决以上问题，我们通过开源社区协同，加速开源推理方案Intelligence BooM成熟。

## 技术架构

![Image](doc/deepseek/asserts/IntelligenceBoom.png)



#### **智能应用平台：让您的业务快速“接轨”AI​** 

**组件构成 ：**  智能应用平台（任务规划编排、OS领域模型、智能体MCP服务），多种智能Agent（智能调优、智能运维、智能问答、深度研究）

【openEuler Intelligence开源地址】https://gitee.com/openeuler/euler-copilot-framework  

【deepInsight开源地址】https://gitee.com/openeuler/deepInsight  

**核心价值** 

**智能化赋能操作系统，化被动调优/运维为半主动，实现操作系统智能辅助驾驶**  


**智能调优**
突破多层系统负载感知，AI启发复杂系统策略等调优等技术，实现典型场景性能提升10%。  



**智能运维**
构建OS智能运维助手，命令行->自然语言运维，典型运维命令覆盖100%，提升系统运维易用性，支撑生态推广。突破全栈协同分析与慢节点故障诊断技术，达成智算AI训推场景定位效率天->小时级。  


**深度研究**
基于多智能体的协同： 通过构筑多智能体（大纲规划、信息检索、评估反思、报告生成），突破单智能体的能力边界，提升复杂领域的研究效果。采用上下文工程技术： 结合长短期记忆、语义压缩、结构化输入输出等技术，优化上下文信息的改写、选择、压缩机制，让深度研究智能体在复杂任务中聚焦研究目标，降低幻觉效应。内容冲突检测： 分析多信息源（知识库、内网、公网）间存在的内容冲突，确保报告内容的真实客观性，增强用户对研究结果的信任度。  


**智能应用平台**
智能助手、调优、运维等通用能力下沉，构筑智能体服务、领域知识及系统记忆服务等技术。  



#### **推理服务：让模型“高效跑起来”**   


**组件构成​：**  vLLM、SGLang、LLaMA Factory


**核心价值​** 

**动态扩缩容：**  vLLM支持模型按需加载，结合K8s自动扩缩容策略，降低70%以上空闲算力成本;  


**大模型优化​：** vLLM通过PagedAttention、连续批处理等技术，将万亿参数模型的推理延迟降低50%，吞吐量提升3倍；  


**低成本模型微调：** 开箱即用，一站式从数据生成到微调增训，中小模型场景支持Atlas 3000等低成本硬件；大模型与多模态场景支持显存友好的Atlas 800 A2高效训推，同时提供昇腾亲和的并行策略调优工具    




#### **加速层：让推理“快人一步”​​** 

**组件构成​：**  sysHAX、expert-kit、LMCache  


【sysHAX开源地址】https://gitee.com/openeuler/sysHAX  


【expert-kit开源地址】https://gitee.com/openeuler/expert-kit  


【LMCache开源地址】https://gitee.com/openeuler/LMCache-mindspore 、https://github.com/LMCache/LMCache  


**核心价值​** 

**异构算力协同分布式推理加速引擎：**  整合CPU、NPU、GPU等不同架构硬件的计算特性，通过动态任务分配实现"专用硬件处理专用任务"的优化，将分散的异构算力虚拟为统一资源池，实现细粒度分配与弹性伸缩；LMCache提供了管理大规模kvcache的内存池能力，能够串联HBM、DDR、Disk以及远端存储池，其中大规模提升的性能主要基于Prefix Caching（多实例间共享kvcache）、CacheGen（对kvcache进行压缩，节约kvcache传输时间）、CacheBlend（提高缓存命中率）  




#### **框架层：让模型“兼容并蓄”**  


**组件构成​：**  MindSpore（全场景框架）、PyTorch（Meta通用框架）、MS-InferRT（MindSpore框架下的推理优化组件，兼容PyTorch）  


【MindSpore开源地址】https://gitee.com/mindspore  


**核心价值​**   


**多框架兼容：** 通过统一API接口，支持用户直接调用任意框架训练的模型，无需重写代码；  

**动态图优化​：**  针对大模型的动态控制流（如条件判断、循环），提供图优化能力，推理稳定性提升30%；  

​**社区生态复用​：**  完整继承PyTorch的生态工具（如Hugging Face模型库），降低模型迁移成本。  




#### **数据工程、向量检索、数据融合分析：从原始数据到推理燃料的转化​**   


**组件构成​：**  openGauss、PG Vector、Datajuicer…  


【openGauss开源地址】https://gitee.com/opengauss  


**核心价值​** 

**多模态数据高效处理与管理：**  多模态数据的统一接入、清洗、存储与索引，解决推理场景中数据类型复杂、规模庞大的管理难题，为上层智能应用提供标准化数据底座。

**高效检索与实时响应支撑：** 实现海量高维数据的快速匹配与实时查询，满足推理场景中对数据时效性和准确性的严苛要求，缩短数据到推理结果的链路延迟，为智能问答、智能运维等实时性应用提供底层性能保障。



#### **任务管理平台：让资源“聪明调度”​​** 

**组件构成​：** openYuanrong、openFuyao（任务编排引擎）、K8S（容器编排）、RAY（分布式计算）、oeDeploy（一键部署工具）

【openYuanrong社区地址】https://www.openeuler.openatom.cn/zh/projects/yuanrong/

【openFuyao开源地址】https://gitcode.com/openFuyao

【RAY开源地址】https://gitee.com/src-openeuler/ray

【oeDeploy开源地址】https://gitee.com/openeuler/oeDeploy

**核心价值​** 

**分布式计算引擎：** 提供一套统一Serverless架构支持AI、大数据、微服务等各类分布式应用，提供多语言函数编程接口，以单机编程体验简化分布式应用开发；同时提供分布式动态调度和数据共享能力，实现分布式应用的高性能运行和集群的高效资源利用。  


**端边云协同：**  根据任务类型（如实时推理/离线批处理）和硬件能力（如边缘侧NPU/云端GPU），自动分配执行节点；  


**全生命周期管理​：** 从模型上传、版本迭代、依赖安装到服务启停，提供“一站式”运维界面；  


​**故障自愈​：**  实时监控任务状态，自动重启异常进程、切换备用节点，保障服务高可用性。   







#### **编译器：让代码“更懂硬件”​​**   


**组件构成​：** 异构融合编译器AscendNPUIR、算子自动生成工具AKG  


【AKG开源地址】https://gitee.com/mindspore/akg 


**核心价值**   


**跨硬件优化：** 针对CPU（x86/ARM）、GPU（CUDA）、NPU（昇腾/CANN）的指令集差异，自动转换计算逻辑，算力利用率大幅提升；  


**混合精度支持​：** 动态调整FP32/FP16/INT8精度，在精度损失可控的前提下，推理速度大幅提升；  


​**内存优化​：** 通过算子融合、内存复用等技术，减少30%显存/内存占用，降低硬件成本。  




#### **操作系统：让全栈“稳如磐石”** 

**组件构成​：**  openEuler（开源欧拉操作系统）、FalconFS（高性能分布式存储池）、GMEM（异构融合内存）、XSched（异构算力切分）、xMig（XPU迁移）、ModelFS（可编程页缓存） 

【openEuler开源地址】https://gitee.com/openeuler

【FalconFS开源地址】https://gitee.com/openeuler/FalconFS

【GMEM开源地址】https://gitee.com/openeuler/kernel

【XSched开源地址】https://gitee.com/openeuler/libXSched

【XMig开源地址】https://gitee.com/openeuler/xmig

【ModelFS开源地址】https://gitee.com/openeuler/kernel/tree/OLK-6.6/fs/mfs

**核心价值** 

**异构资源管理：**  原生支持CPU/GPU/NPU的统一调度，提供硬件状态监控、故障隔离等能力；

**安全增强​：**  集成国密算法、权限隔离、漏洞扫描模块，满足金融、政务等行业的合规要求。

**模型权重快速加载：**可编程页缓存以及动态缓存，权重加载速度倍级提升


#### **硬件使能与硬件层：让算力“物尽其用”** 

**组件构成​：** CANN（昇腾AI使能套件）、CUDA（英伟达计算平台）、CPU（x86/ARM）、NPU（昇腾）、GPU（英伟达/国产GPU）  


**核心价值**   


**硬件潜能释放：** CANN针对昇腾NPU的达芬奇架构优化矩阵运算、向量计算，算力利用率大幅提升；CUDA提供成熟的GPU并行计算框架，支撑通用AI任务；

**异构算力融合​：** 通过统一编程接口（如OpenCL），实现CPU/NPU/GPU的协同计算，避免单一硬件性能瓶颈；  

​


## 全栈解决方案部署教程

目前方案已支持**DeepSeek**/**Qwen**/**Llama**/**GLM**/**TeleChat**等50+主流模型，以下我们选取DeepSeek V3&R1 模型和 openEuler Intelligence 应用的部署
### DeepSeek V3&R1部署

参考[部署指南](https://gitee.com/openeuler/llm_solution/blob/master/doc/deepseek/DeepSeek-V3&R1%E9%83%A8%E7%BD%B2%E6%8C%87%E5%8D%97.md)，使用一键式部署脚本，20min完成推理服务拉起。



### 一键式部署DeepSeek 模型和openEuler Intelligence智能应用

参考[一键式部署openEuler Intelligence ](https://gitee.com/openeuler/llm_solution/tree/master/script/mindspore-intelligence)，搭建本地知识库并协同DeepSeek大模型完成智能调优、智能运维等应用；



## 参与贡献

欢迎通过issue方式提出您宝贵的建议，共建开箱即优、性能领先的全栈开源国产化推理解决方案

# llm_solution