# LLMs_interview_notes_gitee **Repository Path**: lengyanju8/llms_interview_notes_gitee_gitee ## Basic Information - **Project Name**: LLMs_interview_notes_gitee - **Description**: No description available - **Primary Language**: Unknown - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 6 - **Created**: 2024-02-02 - **Last Updated**: 2024-02-02 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # LLMs 千面郎君 > 介绍:本项目是作者们根据个人面试和经验总结出的 大模型(LLMs)面试准备的学习笔记与资料,该资料目前包含 大模型(LLMs)各领域的 面试题积累。 ![](img/微信截图_20230918094559.png) > LLMs 千面郎君 面试交流群 (注:人满 可 添加 小编wx:yzyykm666 加群!) ![](img/微信截图_20210301212242.png) ## 一、大模型(LLMs)基础面 ### [大模型(LLMs)基础面](https://articles.zsxq.com/id_a55uo10835nv.html) 1. 目前 主流的开源模型体系 有哪些? 2. prefix Decoder 和 causal Decoder 和 Encoder-Decoder 区别是什么? 3. 大模型LLM的 训练目标 是什么? 4. ... - [点击查看答案](https://articles.zsxq.com/id_a55uo10835nv.html) ### [Layer normalization 篇](https://articles.zsxq.com/id_pzcgd4ovk098.html) - Layer normalization-方法篇 - Layer Norm 篇 - Layer Norm 的计算公式写一下? - RMS Norm 篇 (均方根 Norm) - ... - Deep Norm 篇 - ... - Deep Norm 有什么优点? - Layer normalization-位置篇 - ... - [点击查看答案](https://articles.zsxq.com/id_pzcgd4ovk098.html) ### [LLMs 激活函数篇](https://articles.zsxq.com/id_6xm3wzzice2s.html) - 1 介绍一下 FFN 块 计算公式? - ... - [点击查看答案](https://articles.zsxq.com/id_6xm3wzzice2s.html) ### [Attention 升级面](https://articles.zsxq.com/id_j0nwuo0frw2x.html) - 1 传统 Attention 存在哪些问题? - 2 Attention 优化方向 - 3 Attention 变体有哪些? - ... - [点击查看答案](https://articles.zsxq.com/id_j0nwuo0frw2x.html) ### [transformers 操作篇](https://articles.zsxq.com/id_rsll7gsd8va5.html) - 1. 如何 利用 transformers 加载 Bert 模型? - ... - [点击查看答案](https://articles.zsxq.com/id_rsll7gsd8va5.html) ### [LLMs 损失函数篇](https://articles.zsxq.com/id_q0ajjlbc8493.html) - 一、介绍一下 KL 散度? - 二、交叉熵损失函数写一下,物理意义是什么? - ... - [点击查看答案](https://articles.zsxq.com/id_q0ajjlbc8493.html) ### [相似度函数篇](https://articles.zsxq.com/id_wp25j5xr8ocw.html) - 一、除了cosin还有哪些算相似度的方法 - 二、了解对比学习嘛? - ... - [点击查看答案](https://articles.zsxq.com/id_wp25j5xr8ocw.html) ## [二、大模型(LLMs)进阶面](https://articles.zsxq.com/id_v6gltxd4qbxd.html) - 一、什么是生成式大模型? - 二、大模型是怎么让生成的文本丰富而不单调的呢? - 三、LLMs 复读机问题 - 3.1 什么是 LLMs 复读机问题? - 3.2 为什么会出现 LLMs 复读机问题? - 3.3 如何缓解 LLMs 复读机问题? - ... - [点击查看答案](https://articles.zsxq.com/id_v6gltxd4qbxd.html) ## [三、大模型(LLMs)微调面](https://articles.zsxq.com/id_khze6sgassi3.html) ### [大模型(LLMs)微调面](https://articles.zsxq.com/id_sewadq4q6qq6.html) - 1. 如果想要在某个模型基础上做全参数微调,究竟需要多少显存? - 2. 为什么SFT之后感觉LLM傻了? - 3. SFT 指令微调数据 如何构建? - 4. 领域模型Continue PreTrain 数据选取?l - 5. 领域数据训练后,通用能力往往会有所下降,如何缓解模型遗忘通用能力? - 6. ... - [点击查看答案](https://articles.zsxq.com/id_sewadq4q6qq6.html) ### [大模型(LLMs)训练经验帖](https://articles.zsxq.com/id_06n25d9wjs0e.html) - 分布式训练框架选择? - LLMs 训练时 有哪些有用的建议? - ... - [点击查看答案](https://articles.zsxq.com/id_06n25d9wjs0e.html) ### [全参数微调LLaMA-2-70B 经验帖]() 【*】 - 一、使用deepspeed训练 - 二、显存计算 - ... - [点击查看答案]() ## 四、大模型(LLMs)langchain 面 ### [大模型(LLMs)langchain 面](https://articles.zsxq.com/id_ve2dgaiqrjzv.html) - 一、什么是 LangChain? - 二、LangChain 包含哪些 核心概念? - 2.1 LangChain 中 Components and Chains 是什么? - 2.2 LangChain 中 Prompt Templates and Values 是什么? - 2.3 LangChain 中 Example Selectors 是什么? - 2.4 LangChain 中 Output Parsers 是什么? - 2.5 LangChain 中 Indexes and Retrievers 是什么? - 2.6 LangChain 中 Chat Message History 是什么? - 2.7 LangChain 中 Agents and Toolkits 是什么? - ... - [点击查看答案](https://articles.zsxq.com/id_ve2dgaiqrjzv.html) ## 五、大模型(LLMs)RAG 检索增强生成面 ### [基于LLM+向量库的文档对话 经验面](https://articles.zsxq.com/id_m9t1w8pokjpf.html) - 一、基于LLM+向量库的文档对话 基础面 - ... - 二、基于LLM+向量库的文档对话 存在哪些痛点? - 三、基于LLM+向量库的文档对话 工程示例面 - ... - [点击查看答案](https://articles.zsxq.com/id_m9t1w8pokjpf.html) ### [RAG(Retrieval-Augmented Generation)面](https://articles.zsxq.com/id_xk58m8ok2sob.html) - 一、LLMs 已经具备了较强能力了,存在哪些不足点? - 二、什么是 RAG? - ... - 三、使用 RAG 的好处? - 四、RAG V.S. SFT - 五、介绍一下 RAG 典型实现方法? - ... - ... - [点击查看答案](https://articles.zsxq.com/id_xk58m8ok2sob.html) ### [RAG(Retrieval-Augmented Generation)评测面](https://articles.zsxq.com/id_vjwt6uzml13l.html) - 一、为什么需要 对 RAG 进行评测? - 二、RAG 有哪些评估方法? - ... - [点击查看答案](https://articles.zsxq.com/id_vjwt6uzml13l.html) ### [检索增强生成(RAG) 优化策略篇](https://articles.zsxq.com/id_gu4p7gszsh82.html) - 一、RAG基础功能篇 - 1.1 RAG 工作流程 - 二、RAG 各模块有哪些优化策略? - 三、RAG 架构优化有哪些优化策略? - ... - 四、RAG 索引优化有哪些优化策略? - ... - 五、RAG 索引数据优化有哪些优化策略? - ... - ... - [点击查看答案](https://articles.zsxq.com/id_gu4p7gszsh82.html) ### [LLM文档对话 —— pdf解析关键问题](https://articles.zsxq.com/id_2693k55it84w.html) - 一、为什么需要进行pdf解析? - 二、为什么需要 对 pdf 进行解析? - 三、pdf解析 有哪些方法,对应的区别是什么? - ... - [点击查看答案](https://articles.zsxq.com/id_2693k55it84w.html) ### [Graph RAG(Retrieval-Augmented Generation) 面 —— 一种 基于知识图谱的大模型检索增强实现策略](https://articles.zsxq.com/id_dwhonmw976n7.html) - 一、为什么需要 Graph RAG? - 二、什么是 Graph RAG? - 三、Graph RAG 思路介绍? - ... - [点击查看答案](https://articles.zsxq.com/id_dwhonmw976n7.html) ## 六、大模型(LLMs)参数高效微调(PEFT) 面 ### [大模型(LLMs)参数高效微调(PEFT) 面](https://articles.zsxq.com/id_ipkod91a939n.html) - 1. 微调方法是啥?如何微调? - 2. 为什么需要 PEFT? - 3. 介绍一下 PEFT? - ... - [点击查看答案](https://articles.zsxq.com/id_ipkod91a939n.html) ### [配器微调(Adapter-tuning)篇](https://articles.zsxq.com/id_h5q2fzq8wvt8.html) - 一、为什么 需要 适配器微调(Adapter-tuning)? - 二、适配器微调(Adapter-tuning)思路? - 三、 适配器微调(Adapter-tuning)特点是什么? - ... - [点击查看答案](https://articles.zsxq.com/id_h5q2fzq8wvt8.html) ### [提示学习(Prompting)](https://articles.zsxq.com/id_662wpbw47gtj.html) - 一、为什么需要 提示学习(Prompting)? - 二、什么是 提示学习(Prompting)? - 三、提示学习(Prompting) 有什么优点? - 四、提示学习(Prompting)有哪些方法,能不能稍微介绍一下它们间? - ... - ... - [点击查看答案](https://articles.zsxq.com/id_662wpbw47gtj.html) ### [LoRA 系列篇](https://articles.zsxq.com/id_ham28l44907e.html) - 一、LoRA篇 - 1.1 什么是 LoRA? - 1.2 LoRA 的思路是什么? - ... - 二、QLoRA篇 - 2.1 QLoRA 的思路是怎么样的? - ... - 三、AdaLoRA篇 - 3.1 AdaLoRA 的思路是怎么样的? - ... - 四、LoRA权重是否可以合入原模型? - 五、... - [点击查看答案](https://articles.zsxq.com/id_ham28l44907e.html) ### [如何使用 PEFT库 中 LoRA?](https://articles.zsxq.com/id_8lx1t1t3w4qf.html) - 一、前言 - 二、如何 配置 LoraConfig? - 三、模型 加入PEFT策略 - ... - 四、PEFT库 中 LoRA 模块 代码介绍 - ... - 五、使用 LoRA 对 大模型进行 高效参数微调,如何进行存储? - ... - [点击查看答案](https://articles.zsxq.com/id_8lx1t1t3w4qf.html) ## 七、大模型(LLMs)推理面 ### [大模型(LLMs)推理面](https://articles.zsxq.com/id_udwh2i8seqv8.html) - 1. 为什么大模型推理时显存涨的那么多还一直占着? - 2. 大模型在gpu和cpu上推理速度如何? - 3... - [点击查看答案](https://articles.zsxq.com/id_udwh2i8seqv8.html) ## 八、大模型(LLMs)增量预训练篇 ### [大模型(LLMs)增量预训练篇](https://articles.zsxq.com/id_jfq8la7g20ww.html) - 1. 为什么要增量预训练? - 2. 进行 增量预训练 需要做哪些准备工作? - 3. 增量预训练 所用 训练框架? - ... - [点击查看答案](https://articles.zsxq.com/id_jfq8la7g20ww.html) ### [增量预训练(Pretrain)样本拼接篇](https://articles.zsxq.com/id_enteq22h1nhq.html) - 一、Pretrain阶段,为什么需要拼接拼接? - 二、有哪些 拼接方式? - ... - ... - [点击查看答案](https://articles.zsxq.com/id_enteq22h1nhq.html) ### [基于lora的llama2二次预训练](https://articles.zsxq.com/id_xo09u14omdjw.html) - 一、为什么需要 对 llama2 做 基于lora的二次预训练? - 二、基于lora的llama2二次预训练 的目标是什么? - 三、基于lora的llama2二次预训练 的思想是什么? - ... - [点击查看答案](https://articles.zsxq.com/id_xo09u14omdjw.html) ## [九、大模型(LLMs)评测面](https://articles.zsxq.com/id_j9wcj62eovgc.html) 1. 大模型怎么评测? 2. 大模型的honest原则是如何实现的?模型如何判断回答的知识是训练过的已知的知识,怎么训练这种能力? 3. 如何衡量大模型水平? 4. 大模型评估方法 有哪些? 5. 大模型评估工具 有哪些? - [点击查看答案](https://articles.zsxq.com/id_j9wcj62eovgc.html) ## 十、大模型(LLMs)强化学习面 ### [大模型(LLMs)强化学习面](https://articles.zsxq.com/id_20xnfnoprj9s.html) - 1. 简单介绍强化学习? - 2. 简单介绍一下 RLHF? - 3. ... - [点击查看答案](https://articles.zsxq.com/id_20xnfnoprj9s.html) ### [大模型(LLMs)强化学习——RLHF及其变种面](https://articles.zsxq.com/id_3ct6sw0wouna.html) - 一、介绍一下 LLM的经典预训练Pipeline? - 二、预训练(Pre-training)篇 - ... - 三、有监督微调(Supervised Tinetuning)篇 - ... - 四、对齐(Alignment)篇 - ... - 五、Reinforcement Learning with Human Feedback (RLHF)篇 - ... - 六、LLaMA 2 的 RLHF 篇 - ... - ... - [点击查看答案](https://articles.zsxq.com/id_3ct6sw0wouna.html) ### [大模型(LLMs)强化学习—— PPO 面](https://articles.zsxq.com/id_jsve76ejd6w8.html) - 一、大语言模型RLHF中的PPO主要分哪些步骤? - 二、举例描述一下 大语言模型的RLHF? - 三、大语言模型RLHF 采样篇 - ... - .... - [点击查看答案](https://articles.zsxq.com/id_jsve76ejd6w8.html) ### [强化学习在自然语言处理下的应用篇](https://articles.zsxq.com/id_jjgpbxsj0aah.html) - 一、强化学习基础面 - ... - 二、RL发展路径(至PPO) - ... - .... - [点击查看答案](https://articles.zsxq.com/id_jjgpbxsj0aah.html) ## 十一、大模型(LLMs)训练集面 ### [大模型(LLMs)训练集面](https://articles.zsxq.com/id_axtljtl0bsvw.html) 1. SFT(有监督微调)的数据集格式? 2. RM(奖励模型)的数据格式? 3. PPO(强化学习)的数据格式? 4. 找数据集哪里找? 5. 微调需要多少条数据? 6. 有哪些大模型的训练集? 7. 进行领域大模型预训练应用哪些数据集比较好? 8. 如何选取和构建大模型微调数据? - [点击查看答案](https://articles.zsxq.com/id_axtljtl0bsvw.html) ### [大模型(LLMs)LLM生成SFT数据方法面](https://articles.zsxq.com/id_2x1tdvhtsr1c.html) - 一、SFT数据集如何生成? - 二、Self-Instruct 篇 - ... - 三、Backtranslation 篇 - ... - ... - [点击查看答案](https://articles.zsxq.com/id_2x1tdvhtsr1c.html) ## 十二、大模型(LLMs)显存问题面 ### [大模型(LLMs)显存问题面](https://articles.zsxq.com/id_jhiocx89p3su.html) 1. 大模型大概有多大,模型文件有多大? 2. 能否用4 * v100 32G训练vicuna 65b? 3. 如果就是想要试试65b模型,但是显存不多怎么办? 4. .... - [点击查看答案](https://articles.zsxq.com/id_jhiocx89p3su.html) ### [大模型(LLMs)显存优化策略篇](https://articles.zsxq.com/id_a1l60awgge6q.html) - 一、介绍一下 gradient accumulation 显存优化方式? - .... - [点击查看答案](https://articles.zsxq.com/id_a1l60awgge6q.html) ## 十三、大模型(LLMs)分布式训练面 ### [大模型(LLMs)分布式训练面](https://articles.zsxq.com/id_ah2ibj3z22c7.html) - 1. 理论篇 - ... - 2. 实践篇 - ... - 3. 并行化策略选择篇 - ... - 4. 问题篇 - ... - [点击查看答案](https://articles.zsxq.com/id_ah2ibj3z22c7.html) ### [图解分布式训练(一) —— 流水线并行(Pipeline Parallelism)面](https://articles.zsxq.com/id_wre1eni0oq7d.html) - 为什么需要流水线并行(Pipeline Parallelism)? - 一、流水线并行(Pipeline Parallelism) 优化目标是什么? - ... - [点击查看答案](https://articles.zsxq.com/id_wre1eni0oq7d.html) ### [图解分布式训练(二) —— nn.DataParallel面](https://articles.zsxq.com/id_9dfwi0ooio2z.html) - 为什么需要nn.DataParallel? - 一、pytorch中的GPU操作默认是什么样? - 二、介绍一下 nn.DataParallel 函数? - 三、nn.DataParallel 函数 处理逻辑 介绍一下? - ... - [点击查看答案](https://articles.zsxq.com/id_9dfwi0ooio2z.html) ### [图解分布式训练(三) —— nn.parallel.DistributedDataParallel](https://articles.zsxq.com/id_i4s3ia057rmh.html) - 为什么需要 nn.parallel.DistributedDataParallel ? - 一、什么是 DistributedDataParallel 核心 —— Ring-AllReduce? - 二、nn.parallel.DistributedDataParallel 函数 介绍一下? - ... - [点击查看答案](https://articles.zsxq.com/id_i4s3ia057rmh.html) ### [图解分布式训练(四) —— torch.multiprocessing 详细解析](https://articles.zsxq.com/id_gu9smpbn510e.html) - 一、torch.multiprocessing 函数介绍一下? - 二、torch.multiprocessing 函数如何使用? - ... - [点击查看答案](https://articles.zsxq.com/id_gu9smpbn510e.html) ### [图解分布式训练(五) —— AMP混合精度训练 详细解析](https://articles.zsxq.com/id_0slrgoti6gvb.html) - 为什么需要 AMP混合精度训练? - 一、什么是自动混合精度训练(AMP) - 二、为什么需要自动混合精度? - ... - [点击查看答案](https://articles.zsxq.com/id_0slrgoti6gvb.html) ### [图解分布式训练(六) —— Pytorch的 DeepSpeed 详细解析](hhttps://articles.zsxq.com/id_rcazrhbw6n98.html) - 一、为什么需要 Deepspeed? - 二、DeepSpeed 基本概念 介绍一下? - ... - 三、DeepSpeed 通信策略 介绍一下? - 四、DeepSpeed 如何使用? - ... - 填坑笔记 - ... - [点击查看答案](https://articles.zsxq.com/id_rcazrhbw6n98.html) ### [图解分布式训练(七)—— accelerate 分布式训练 详细解析](https://articles.zsxq.com/id_o5wkeionnqr7.html) - 一、为什么需要 accelerate 分布式训练? - 二、什么是 accelerate 分布式训练? - ... - [点击查看答案](https://articles.zsxq.com/id_o5wkeionnqr7.html) ### [图解分布式训练(八)—— ZeRO 学习](https://articles.zsxq.com/id_600z63vou4nj.html) - 一、什么是 3D 并行? - 二、3D 并行 策略有哪些? - 三、为什么需要 ZeRO? - ... - [点击查看答案](https://articles.zsxq.com/id_600z63vou4nj.html) ### [大模型分布式训练故障恢复篇](https://articles.zsxq.com/id_zspm2q33tckx.html) - 一、为什么 大模型分布式训练 需要 故障恢复? - 二、如何获取最优的ckpt存储间隔? - ... - [点击查看答案](https://articles.zsxq.com/id_zspm2q33tckx.html) ### [pytorch 分布式计算 坑/bug 梳理篇](https://articles.zsxq.com/id_onztfzwdckom.html)【*】 - 一、使用 DistributedDataParallel(分布式并行)时,显存分布不均衡问题 - 二、如果是用pytorch实现同步梯度更新,自研 数据接口,出现 第一个epoch结尾处程序卡死问题 - 三、... - [点击查看答案](https://articles.zsxq.com/id_onztfzwdckom.html) ## [十四、大模型(LLMs)agent 面](https://articles.zsxq.com/id_8f0nbpwbw4ww.html) - 一、什么是 大模型(LLMs)agent? - 二、大模型(LLMs)agent 有哪些部分组成? - ... - 三、大模型(LLMs)agent 主要 利用了 大模型 哪些能力? - 四、结合 代码 讲解 大模型(LLMs)agent 思路? - ... - ... - [点击查看答案](https://articles.zsxq.com/id_8f0nbpwbw4ww.html) ## [十五、LLMs 位置编码篇](https://articles.zsxq.com/id_lwmag2cg9wj9.html) - 一、什么是位置编码? - 二、为什么需要位置编码? - 三、什么是绝对位置编码? - ... - 四、什么是相对位置编码? - 五、旋转位置编码 RoPE篇 - ... - ... - [点击查看答案](https://articles.zsxq.com/id_lwmag2cg9wj9.html) ## 十六、LLMs Tokenizer 篇 ### [LLMs Tokenizer 篇](https://articles.zsxq.com/id_c1wrizv0im1a.html) - Byte-Pair Encoding(BPE)篇 - ... - WordPiece 篇 - ... - SentencePiece 篇 - ... - 对比篇 - ... - [点击查看答案](https://articles.zsxq.com/id_c1wrizv0im1a.html) ### [怎么让英文大语言模型支持中文?(一) —— 构建中文tokenization](https://articles.zsxq.com/id_w0d2q29sueq7.html) - 一、为什么需要 构建中文tokenization? - 二、如何对 原始数据预处理? - ... - [点击查看答案](https://articles.zsxq.com/id_w0d2q29sueq7.html) ### [怎么让英文大语言模型支持中文?(二) —— 继续预训练篇](https://articles.zsxq.com/id_jprkwhrvf3tw.html) - 一、为什么需要进行继续预训练? - 二、如何对 继续预训练 数据预处理? - ... - [点击查看答案](https://articles.zsxq.com/id_jprkwhrvf3tw.html) ### [怎么让英文大语言模型支持中文?(三) —— 对预训练模型进行指令微调](https://articles.zsxq.com/id_p2wj7zadwxwb.html) - 一、为什么需要对预训练模型进行指令微调? - 二、对预训练模型进行指令微调 数据 如何处理? - ... - [点击查看答案](https://articles.zsxq.com/id_p2wj7zadwxwb.html) ## 十七、大模型(LLMs)加速篇 ### [大模型(LLMs)加速篇](https://articles.zsxq.com/id_w9wewc152eux.html) - 1. 当前优化模型最主要技术手段有哪些? - 2. 推理加速框架有哪一些?都有什么特点? - 3. vLLM 篇 - ... - 4 Text generation inference 篇 - ... - ... - [点击查看答案](https://articles.zsxq.com/id_w9wewc152eux.html) ### [LLMs 推理性能面](https://articles.zsxq.com/id_jwd03u0l7feo.html) - 一、介绍一下 LLMs 的文本生成过程? - ... - [点击查看答案](https://articles.zsxq.com/id_jwd03u0l7feo.html) ### [LLM(大语言模型)部署加速方法——PagedAttention篇](https://articles.zsxq.com/id_p22mjq881n3n.html) - 一、vLLM 用于大模型并行推理加速 存在什么问题? - 二、vLLM 如何 优化 大模型并行推理加速? - ... - [点击查看答案](https://articles.zsxq.com/id_p22mjq881n3n.html) ### [大模型推理加速工具 —— vLLM](https://articles.zsxq.com/id_zw5h9ogvac2w.html) - 一、引言 - 1.1 前言 - 1.2 为什么 需要 vLLM ? - ... - 二、vLLM 性能如何? - ... - [点击查看答案](https://articles.zsxq.com/id_zw5h9ogvac2w.html) ### [LLM(大语言模型)部署加速方法——Faster Transformer篇](https://articles.zsxq.com/id_dd2gowztxtfg.html) - 一、为什么需要 FasterTransformer? - 二、FasterTransformer 介绍一下? - .... - [点击查看答案](https://articles.zsxq.com/id_dd2gowztxtfg.html) ### [纯Python超轻量高性能LLM推理框架 —— LightLLM](https://articles.zsxq.com/id_9a643feq2b0b.html) - 一、引言 - 1.1 前言 - 1.2 为什么 需要 LightLLM ? - ... - 二、LightLLM 介绍一下? - 2.1 什么是 LightLLM ? - ... - 三、LightLLM 性能表现 介绍? - ... - 填坑笔记 - ... - [点击查看答案](https://articles.zsxq.com/id_9a643feq2b0b.html) ### [LLM推理技术之StreamingLLM:如何拥有无限长生成能力](https://articles.zsxq.com/id_0ld3pfcmnhj6.html) - 一、前言 - 1.1 大型语言模型(LLM)存在什么问题? - 1.2 StreamingLLM 背景介绍 - ... - 二、StreamingLLM 的思路是什么? - [点击查看答案](https://articles.zsxq.com/id_0ld3pfcmnhj6.html) ### [SwiftInfer —— 大模型无限流式输入推理飙升46%,打破多轮对话长度限制](https://articles.zsxq.com/id_0rpua5fejfwc.html) - StreamingLLM 篇 - 一、为什么需要 StreamingLLM? - ... - SwiftInfer 篇:基于TensorRT的StreamingLLM实现 - ... - [点击查看答案](https://articles.zsxq.com/id_0rpua5fejfwc.html) ## 十八、大模型幻觉(LLM Hallucination)面 ### [大模型幻觉(LLM Hallucination)面](https://articles.zsxq.com/id_schwrdmvmhr7.html) - 一、什么是大模型幻觉? - 二、为什么LLM会产生幻觉? - 三、为什么需要解决LLM的幻觉问题? - ... - [点击查看答案](https://articles.zsxq.com/id_schwrdmvmhr7.html) ### [大模型的幻觉问题篇](https://articles.zsxq.com/id_8mr4mlhe5q1x.html) - 一、什么是 大模型幻觉问题? - 二、为什么 会 出现 大模型幻觉问题? - ... - [点击查看答案](https://articles.zsxq.com/id_8mr4mlhe5q1x.html) ### [如何缓解大模型幻觉?](https://articles.zsxq.com/id_tbezgzifowzp.html) - 一、为什么 会 出现 大模型幻觉? - 二、如何 缓解 大模型幻觉? - ... - [点击查看答案](https://articles.zsxq.com/id_tbezgzifowzp.html) ## 十九、LLMs 对比篇 ### [LLMs 对比篇](https://articles.zsxq.com/id_fsq8czgwjxse.html) - LLMs 训练数据 和 数据量 对比如何? - .... - [点击查看答案](https://articles.zsxq.com/id_fsq8czgwjxse.html) ### [百川智能baichuan7B、13B、53B、baichuan2 总结篇](https://articles.zsxq.com/id_ma6pw7v2g9pi.html) - 一、baichuan-7B篇 - 1. 你了解baichuan-7B解构么?介绍一下? - ... - 二、baichuan-13B篇 - ... - 三、baichuan-53B篇 - ... - ... - [点击查看答案](https://articles.zsxq.com/id_ma6pw7v2g9pi.html) ### [LLaMa 篇](https://articles.zsxq.com/id_9ba6a72wan2w.html) - 一、相比较于llama而言,llama2有哪些改进,对于llama2是应该如何finetune? - ... - [点击查看答案](https://articles.zsxq.com/id_9ba6a72wan2w.html) ### [GPT 经验篇](https://articles.zsxq.com/id_r46k6bqu34xh.html) - 一、gpt源码past\_key\_value是干啥的? - 二、gpt onebyone 每一层怎么输入输出? - ... - [点击查看答案](https://articles.zsxq.com/id_r46k6bqu34xh.html) ## 二十、思维链 Chain-of-Thought(COT)篇 ### [思维链 Chain-of-Thought(COT)篇](https://articles.zsxq.com/id_oindi6dh7wzv.html)【*】 - 一、什么是思维链提示? - 二、思维链提示本质是什么? - 三、思维链提示 与 标准的提示学习方法有什么不同? - ... - [点击查看答案](https://articles.zsxq.com/id_oindi6dh7wzv.html) ### [思维链 Chain-of-Thought(COT)变体篇](hhttps://articles.zsxq.com/id_lz89k5q793h4.html) - 思维链 Chain-of-Thought(COT):思维链的启蒙 - 1. 什么是 思维链 Chain-of-Thought(COT)? - ... - 思维树 Tree of Thoughts(TOT):一种用树结构解决复杂问题的方法 - 1. 为什么需要 思维树 Tree of Thoughts(TOT)? - ... - 思维图 Graph of Thoughts(GOT):一种把思维链过程建模层图结构的方法 - 1. 为什么 需要 思维图 Graph of Thoughts(GOT)? - .. - 思维算法 Algorithm of Thoughts(AOT):一种用DFS/BFS示例解决问题的方法 - 1. 为什么 需要 思维算法 Algorithm of Thoughts(AOT)? - .. - ... - [点击查看答案](https://articles.zsxq.com/id_lz89k5q793h4.html) ### [小样本提示学习篇](https://articles.zsxq.com/id_re6ap2lq88gw.html) - 一、什么是Zero-shot提示方法? - 二、什么是Few-shot提示方法? - 三、阐述One-shot和Few-shot提示策略及其应用场景? - ... - [点击查看答案](https://articles.zsxq.com/id_re6ap2lq88gw.html) ## [二十一、LLMs 测试集 中 数据泄露 问题篇](https://articles.zsxq.com/id_6e3k0i8x5ggm.html) - 一、什么是 LLMs 测试集数据泄露 问题? - 二、如何解决 LLMs 测试集数据泄露 问题? - 三、是否可以 避开训练集来处理 LLMs 测试集数据泄露 问题? - ... - 四、常见测试集有多少比例的数据泄露? - ... - [点击查看答案](https://articles.zsxq.com/id_6e3k0i8x5ggm.html) ## [二十二、MOE(Mixture-of-Experts)篇](https://articles.zsxq.com/id_8mjek2fg8tjm.html) - 一、为什么需要 MOE(Mixture-of-Experts)? - 二、MOE(Mixture-of-Experts)的思路是什么样的? - 三、介绍一下 MOE(Mixture-of-Experts)分布式并行策略? - ... - 四、MoE大模型具备哪些优势? - ... - [点击查看答案](https://articles.zsxq.com/id_8mjek2fg8tjm.html) ## 二十三、大模型蒸馏篇 ### [大模型蒸馏篇](https://articles.zsxq.com/id_jkiw9vhzopgv.html) - 一、知识蒸馏和无监督样本训练? - 二、对知识蒸馏知道多少,有哪些改进用到了? - ... - [点击查看答案](https://articles.zsxq.com/id_jkiw9vhzopgv.html) ### [LLMs 浮点数篇](https://articles.zsxq.com/id_vu744g6jklli.html) - 一、fp32和fp16的区别,混合精度的原理 - 二、半精度是什么? - ... - [点击查看答案](https://articles.zsxq.com/id_vu744g6jklli.html) ### [自定义 CUDA 函数的轻量级包装器 —— bitsandbytes篇](https://articles.zsxq.com/id_2nwi4napgvlh.html) - 一、什么是 bitsandbytes? - 二、如何才能使用 bitsandbytes? - ... - [点击查看答案](https://articles.zsxq.com/id_2nwi4napgvlh.html) ## [二十四、大模型(LLMs)软硬件配置面](https://articles.zsxq.com/id_m5q8zk3wo84k.html) 1. 建议的软件环境是什么? 2. .... - [点击查看答案](https://articles.zsxq.com/id_m5q8zk3wo84k.html) ## [二十五、Token及模型参数准备篇](https://articles.zsxq.com/id_9oplu4014qx5.html) 1. 预训练数据 Token 重复 是否影响 模型性能? 2. SFT需要训练Token数? 3. ... - [点击查看答案](https://articles.zsxq.com/id_9oplu4014qx5.html) ## 二十六、多模态常见面试篇 ### [多模态常见面试篇](https://articles.zsxq.com/id_hmoqafrxjumk.html) - 一、最近关注的论文,多模态视觉大模型(CLIP,DALLE)? - 二、blip2的架构,优势和之前多模态模型的区别? - 三、多模态融合后,怎样知道最终结果受哪种模态影响更大? - ... - [点击查看答案](https://articles.zsxq.com/id_hmoqafrxjumk.html) ## 二十七、NLP常见面试篇 ### [NLP Trick 篇](https://articles.zsxq.com/id_bnzc5w57w7ox.html) - 一、怎么处理类别不平衡? - 二、有了解其他模型去尝试解决长度限制的方案吗? - ... - [点击查看答案](https://articles.zsxq.com/id_bnzc5w57w7ox.html) ### [文本分类常见面试篇](https://articles.zsxq.com/id_fku4xbzkano0.html) - 一、文本分类任务有哪些应用场景? - 二、文本分类的具体流程? - 三、fastText的分类过程?fastText的优点? - ... - [点击查看答案](https://articles.zsxq.com/id_fku4xbzkano0.html) ### [文本摘要常见面试篇](https://articles.zsxq.com/id_gw097zgji66q.html) - 一、抽取式摘要和生成式摘要存在哪些问题? - 二、Pointer-generator network解决了什么问题? - ... - [点击查看答案](https://articles.zsxq.com/id_gw097zgji66q.html) ### [命名实体识别常见面试篇](https://articles.zsxq.com/id_2nueuvwwm7v0.html) - 一、CRF 常见面试题 - 1.1 什么是CRF?CRF的主要思想是什么? - 1.2 CRF的三个基本问题是什么? - ... - 二、HMM 常见面试题 - 2.1 什么是马尔科夫过程? - 2.2 马尔科夫过程的核心思想是什么? - ... - [点击查看答案](https://articles.zsxq.com/id_2nueuvwwm7v0.html) ### [向量检索常见面试篇](https://articles.zsxq.com/id_dnq0o4aicjso.html) - 一、向量检索库总结 - 1.1 Annoy - ... - 1.2 Faiss - ... - 1.3 Milvus - 1.4 ElasticSearch - ... - [点击查看答案](https://articles.zsxq.com/id_dnq0o4aicjso.html) ## 二十八、其他常见面试篇 ### [LLMs 其他 Trick](https://articles.zsxq.com/id_958pher9zdxp.html) 1. huggingface 下载不了模型问题? 2. ... - [点击查看答案](https://articles.zsxq.com/id_958pher9zdxp.html)