# llm_solution **Repository Path**: openeuler/llm_solution ## Basic Information - **Project Name**: llm_solution - **Description**: A solution for large model inference, such as DeepSeek, built with full-stack open-source components. - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 15 - **Forks**: 15 - **Created**: 2025-03-11 - **Last Updated**: 2025-11-15 ## Categories & Tags **Categories**: Uncategorized **Tags**: sig-Long ## README # openEuler开源全栈AI推理解决方案(Intelligence BooM) **如果您的使用场景符合以下形态,您也可以直接下载以下 3 种镜像来开启使用之旅!** **①** **CPU+NPU(800I A2)** •**硬件规格:** 支持单机、双机、四机、大集群 •**镜像地址:** hub.oepkgs.net/oedeploy/openeuler/aarch64/intelligence_boom:0.2.0-aarch64-800I-A2-openeuler24.03-lts-sp2 hub.oepkgs.net/oedeploy/openeuler/x86_64/intelligence_boom:0.2.0-x86_64-800I-A2-openeuler24.03-lts-sp2 **②CPU+NPU(300I Duo)** •**硬件规格:** 支持单机、双机 •**镜像地址:** hub.oepkgs.net/oedeploy/openeuler/aarch64/intelligence_boom:0.2.0-aarch64-300I-Duo-openeuler24.03-lts-sp2 hub.oepkgs.net/oedeploy/openeuler/x86_64/intelligence_boom:0.2.0-x86_64-300I-Duo-openeuler24.03-lts-sp2 **③** **CPU+GPU(NVIDIA A100)** •**硬件规格:** 支持单机单卡、单机多卡 •**镜像地址:** hub.oepkgs.net/oedeploy/openeuler/aarch64/intelligence_boom:0.2.0-aarch64-A100-openeuler24.03-lts-sp2 hub.oepkgs.net/oedeploy/openeuler/aarch64/intelligence_boom:0.2.0-aarch64-syshax-openeuler24.03-lts-sp2 **我们的愿景:** 基于 openEuler 构建开源的 AI 基础软件事实标准,推动企业智能应用生态的繁荣。 **当大模型遇见产业落地,我们为何需要全栈方案?** DeepSeek创新降低大模型落地门槛,AI进入“杰文斯悖论”时刻,需求大幅增加、多模态交互突破硬件限制、低算力需求重构部署逻辑,标志着AI从“技术验证期”迈入“规模落地期”。然而,产业实践中最核心的矛盾逐渐显现: **产业痛点​** **适配难​:** 不同行业(如金融、制造、医疗)的业务场景对推理延迟、算力成本、多模态支持的要求差异极大,单一模型或工具链难以覆盖多样化需求; **成本高​:** 从模型训练到部署,需跨框架(PyTorch/TensorFlow/MindSpore)、跨硬件(CPU/GPU/NPU)、跨存储(关系型数据库/向量数据库)协同,硬件资源利用率低,运维复杂度指数级上升; **​生态割裂​:** 硬件厂商(如华为、英伟达)、框架厂商(Meta、Google)的工具链互不兼容,“拼凑式”部署导致开发周期长、迭代效率低。 ​技术挑战 **推理效率瓶颈​:** 大模型参数规模突破万亿级,传统推理引擎对动态计算图、稀疏激活、混合精度支持不足,算力浪费严重; **资源协同低效​:** CPU/GPU/NPU异构算力调度依赖人工经验,内存/显存碎片化导致资源闲置; **训练成本高昂​:** 随着模型规模的增长、上下文序列的延长,模型微调训练时对显存和计算资源的诉求飙升; 为了解决以上问题,我们通过开源社区协同,加速开源推理方案Intelligence BooM成熟。 ## 技术架构 ![Image](doc/deepseek/asserts/IntelligenceBoom.png) #### **智能应用平台:让您的业务快速“接轨”AI​** **组件构成 :** 智能应用平台(任务规划编排、OS领域模型、智能体MCP服务),多种智能Agent(智能调优、智能运维、智能问答、深度研究) 【openEuler Intelligence开源地址】https://gitee.com/openeuler/euler-copilot-framework 【deepInsight开源地址】https://gitee.com/openeuler/deepInsight **核心价值** **智能化赋能操作系统,化被动调优/运维为半主动,实现操作系统智能辅助驾驶** **智能调优** 突破多层系统负载感知,AI启发复杂系统策略等调优等技术,实现典型场景性能提升10%。 **智能运维** 构建OS智能运维助手,命令行->自然语言运维,典型运维命令覆盖100%,提升系统运维易用性,支撑生态推广。突破全栈协同分析与慢节点故障诊断技术,达成智算AI训推场景定位效率天->小时级。 **深度研究** 基于多智能体的协同: 通过构筑多智能体(大纲规划、信息检索、评估反思、报告生成),突破单智能体的能力边界,提升复杂领域的研究效果。采用上下文工程技术: 结合长短期记忆、语义压缩、结构化输入输出等技术,优化上下文信息的改写、选择、压缩机制,让深度研究智能体在复杂任务中聚焦研究目标,降低幻觉效应。内容冲突检测: 分析多信息源(知识库、内网、公网)间存在的内容冲突,确保报告内容的真实客观性,增强用户对研究结果的信任度。 **智能应用平台** 智能助手、调优、运维等通用能力下沉,构筑智能体服务、领域知识及系统记忆服务等技术。 #### **推理服务:让模型“高效跑起来”** **组件构成​:** vLLM、SGLang、LLaMA Factory **核心价值​** **动态扩缩容:** vLLM支持模型按需加载,结合K8s自动扩缩容策略,降低70%以上空闲算力成本; **大模型优化​:** vLLM通过PagedAttention、连续批处理等技术,将万亿参数模型的推理延迟降低50%,吞吐量提升3倍; **低成本模型微调:** 开箱即用,一站式从数据生成到微调增训,中小模型场景支持Atlas 3000等低成本硬件;大模型与多模态场景支持显存友好的Atlas 800 A2高效训推,同时提供昇腾亲和的并行策略调优工具 #### **加速层:让推理“快人一步”​​** **组件构成​:** sysHAX、expert-kit、LMCache 【sysHAX开源地址】https://gitee.com/openeuler/sysHAX 【expert-kit开源地址】https://gitee.com/openeuler/expert-kit 【LMCache开源地址】https://gitee.com/openeuler/LMCache-mindspore 、https://github.com/LMCache/LMCache **核心价值​** **异构算力协同分布式推理加速引擎:** 整合CPU、NPU、GPU等不同架构硬件的计算特性,通过动态任务分配实现"专用硬件处理专用任务"的优化,将分散的异构算力虚拟为统一资源池,实现细粒度分配与弹性伸缩;LMCache提供了管理大规模kvcache的内存池能力,能够串联HBM、DDR、Disk以及远端存储池,其中大规模提升的性能主要基于Prefix Caching(多实例间共享kvcache)、CacheGen(对kvcache进行压缩,节约kvcache传输时间)、CacheBlend(提高缓存命中率) #### **框架层:让模型“兼容并蓄”** **组件构成​:** MindSpore(全场景框架)、PyTorch(Meta通用框架)、MS-InferRT(MindSpore框架下的推理优化组件,兼容PyTorch) 【MindSpore开源地址】https://gitee.com/mindspore **核心价值​** **多框架兼容:** 通过统一API接口,支持用户直接调用任意框架训练的模型,无需重写代码; **动态图优化​:** 针对大模型的动态控制流(如条件判断、循环),提供图优化能力,推理稳定性提升30%; ​**社区生态复用​:** 完整继承PyTorch的生态工具(如Hugging Face模型库),降低模型迁移成本。 #### **数据工程、向量检索、数据融合分析:从原始数据到推理燃料的转化​** **组件构成​:** openGauss、PG Vector、Datajuicer… 【openGauss开源地址】https://gitee.com/opengauss **核心价值​** **多模态数据高效处理与管理:** 多模态数据的统一接入、清洗、存储与索引,解决推理场景中数据类型复杂、规模庞大的管理难题,为上层智能应用提供标准化数据底座。 **高效检索与实时响应支撑:** 实现海量高维数据的快速匹配与实时查询,满足推理场景中对数据时效性和准确性的严苛要求,缩短数据到推理结果的链路延迟,为智能问答、智能运维等实时性应用提供底层性能保障。 #### **任务管理平台:让资源“聪明调度”​​** **组件构成​:** openYuanrong、openFuyao(任务编排引擎)、K8S(容器编排)、RAY(分布式计算)、oeDeploy(一键部署工具) 【openYuanrong社区地址】https://www.openeuler.openatom.cn/zh/projects/yuanrong/ 【openFuyao开源地址】https://gitcode.com/openFuyao 【RAY开源地址】https://gitee.com/src-openeuler/ray 【oeDeploy开源地址】https://gitee.com/openeuler/oeDeploy **核心价值​** **分布式计算引擎:** 提供一套统一Serverless架构支持AI、大数据、微服务等各类分布式应用,提供多语言函数编程接口,以单机编程体验简化分布式应用开发;同时提供分布式动态调度和数据共享能力,实现分布式应用的高性能运行和集群的高效资源利用。 **端边云协同:** 根据任务类型(如实时推理/离线批处理)和硬件能力(如边缘侧NPU/云端GPU),自动分配执行节点; **全生命周期管理​:** 从模型上传、版本迭代、依赖安装到服务启停,提供“一站式”运维界面; ​**故障自愈​:** 实时监控任务状态,自动重启异常进程、切换备用节点,保障服务高可用性。 #### **编译器:让代码“更懂硬件”​​** **组件构成​:** 异构融合编译器AscendNPUIR、算子自动生成工具AKG 【AKG开源地址】https://gitee.com/mindspore/akg **核心价值** **跨硬件优化:** 针对CPU(x86/ARM)、GPU(CUDA)、NPU(昇腾/CANN)的指令集差异,自动转换计算逻辑,算力利用率大幅提升; **混合精度支持​:** 动态调整FP32/FP16/INT8精度,在精度损失可控的前提下,推理速度大幅提升; ​**内存优化​:** 通过算子融合、内存复用等技术,减少30%显存/内存占用,降低硬件成本。 #### **操作系统:让全栈“稳如磐石”** **组件构成​:** openEuler(开源欧拉操作系统)、FalconFS(高性能分布式存储池)、GMEM(异构融合内存)、XSched(异构算力切分)、xMig(XPU迁移)、ModelFS(可编程页缓存) 【openEuler开源地址】https://gitee.com/openeuler 【FalconFS开源地址】https://gitee.com/openeuler/FalconFS 【GMEM开源地址】https://gitee.com/openeuler/kernel 【XSched开源地址】https://gitee.com/openeuler/libXSched 【XMig开源地址】https://gitee.com/openeuler/xmig 【ModelFS开源地址】https://gitee.com/openeuler/kernel/tree/OLK-6.6/fs/mfs **核心价值** **异构资源管理:** 原生支持CPU/GPU/NPU的统一调度,提供硬件状态监控、故障隔离等能力; **安全增强​:** 集成国密算法、权限隔离、漏洞扫描模块,满足金融、政务等行业的合规要求。 **模型权重快速加载:**可编程页缓存以及动态缓存,权重加载速度倍级提升 #### **硬件使能与硬件层:让算力“物尽其用”** **组件构成​:** CANN(昇腾AI使能套件)、CUDA(英伟达计算平台)、CPU(x86/ARM)、NPU(昇腾)、GPU(英伟达/国产GPU) **核心价值** **硬件潜能释放:** CANN针对昇腾NPU的达芬奇架构优化矩阵运算、向量计算,算力利用率大幅提升;CUDA提供成熟的GPU并行计算框架,支撑通用AI任务; **异构算力融合​:** 通过统一编程接口(如OpenCL),实现CPU/NPU/GPU的协同计算,避免单一硬件性能瓶颈; ​ ## 全栈解决方案部署教程 目前方案已支持**DeepSeek**/**Qwen**/**Llama**/**GLM**/**TeleChat**等50+主流模型,以下我们选取DeepSeek V3&R1 模型和 openEuler Intelligence 应用的部署 ### DeepSeek V3&R1部署 参考[部署指南](https://gitee.com/openeuler/llm_solution/blob/master/doc/deepseek/DeepSeek-V3&R1%E9%83%A8%E7%BD%B2%E6%8C%87%E5%8D%97.md),使用一键式部署脚本,20min完成推理服务拉起。 ### 一键式部署DeepSeek 模型和openEuler Intelligence智能应用 参考[一键式部署openEuler Intelligence ](https://gitee.com/openeuler/llm_solution/tree/master/script/mindspore-intelligence),搭建本地知识库并协同DeepSeek大模型完成智能调优、智能运维等应用; ## 参与贡献 欢迎通过issue方式提出您宝贵的建议,共建开箱即优、性能领先的全栈开源国产化推理解决方案 # llm_solution