# llm_note **Repository Path**: underdogs/llm_note ## Basic Information - **Project Name**: llm_note - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-12-14 - **Last Updated**: 2025-12-14 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README - [我的自制大模型推理框架课程介绍](#我的自制大模型推理框架课程介绍) - [一 transformer 模型](#一-transformer-模型) - [1.1 transformer 模型基础](#11-transformer-模型基础) - [二 LLM 量化推理](#二-llm-量化推理) - [三 llm 推理优化](#三-llm-推理优化) - [3.1 LLM 综合性能分析](#31-llm-综合性能分析) - [3.2 LLM 推理优化-算法层面](#32-llm-推理优化-算法层面) - [3.3 LLM 并行加速](#33-llm-并行加速) - [四 高性能计算](#四-高性能计算) - [4.1 triton 笔记](#41-triton-笔记) - [4.2 cuda 笔记](#42-cuda-笔记) - [4.3 高性能编程学习资料推荐](#43-高性能编程学习资料推荐) - [五 框架解析](#五-框架解析) - [参考资料](#参考资料) LLM notes, including model inference, hpc programming note, transformer model structure, and vllm framework code analysis notes. ## 我的自制大模型推理框架课程介绍 1. **框架亮点**:基于 `Triton + PyTorch` 开发的轻量级、且简单易用的大模型推理框架,采用类 `Pytorch` 语法的 `Triton` 编写算子,绕开 Cuda 复杂语法实现 GPU 内核开发。 2. **价格:499**。非常实惠和便宜,课程、项目、面经、答疑质量绝对对得起这个价格。 3. **课程优势**: - **手把手教你从 0 到 1 实现大模型推理框架**。 - 项目导向 + 面试导向 + **分类总结的面试题**。 - 2025 最新的高性能计算/推理框架岗位的大厂面试题汇总 4. **项目优势**: - 架构清晰,代码简洁且注释详尽,覆盖大模型离线推理全流程。 - 运用 OpenAI `Triton` 编写高性能计算 `Kernel`,其中矩阵乘法内核效率堪比 `cuBLAS`。 - 基于 `PyTorch` 实现高效显存管理。 - 课程项目完美支持 `FlashAttentionV1、V2、V3` 与 `GQA`,以及 `PageAttention` 的具体实现。 - 使用 `Triton` 编写融合算子,如 KV 线性层融合等。 - 适配最新的 `qwen3/qwen2.5/llama3/llava1.5` 模型,相较 transformers 库,在 llama3 1B 和 3B 模型上,加速比最高可达 `4` 倍。 5. **分类总结部分面试题**:
![]() |
![]() |