# Referred-Papers **Repository Path**: siat-minxian-group/referred-papers ## Basic Information - **Project Name**: Referred-Papers - **Description**: 收集云计算、大模型领域的优秀论文，方便组内同学进行阅读学习。 - **Primary Language**: Unknown - **License**: MulanPSL-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 3 - **Forks**: 0 - **Created**: 2024-05-07 - **Last Updated**: 2025-04-21 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Referred-Papers ## 云计算/云原生领域 ### 微服务调度 | 论文名 | 会议/期刊 | 年份 | 推荐人/推荐意见 | | ------------------------------------------------------------ | --------- | ---- | ------------------------------------------------------------ | | FIRM: An Intelligent Fine-grained Resource Management Framework for SLO-Oriented Microservices | OSDI | 2020 | 徐敏贤：该论文率先考虑基于微服务链路的资源调度方法，体现了与传统虚拟机调度的显著区别 | | SHOWAR: Right-Sizing And Efficient Scheduling of Microservices | SoCC | 2021 | 温林峰：一种混合的弹性伸缩策略，垂直伸缩使用了极限中心定理，水平伸缩使用了PID控制器，同时在调度上考虑了微服务间的亲和性 | | Practical Efficient Microservice Autoscaling with QoS Assurance | HDPC | 2022 | 温林峰：一种基于反馈的弹性伸缩策略，以响应时间作为指标，通过逐渐减少资源以达到有效的分配 | | esDNN: Deep Neural Network based Multivariate Workload Prediction Approach in Cloud Computing Environments | TOIT | 2022 | 温林峰：一种基于预测的弹性伸缩策略，使用改造的GRU模型进行负载预测，而后根据预测结果进行弹性伸缩 | | Gödel: Unified Large-Scale Resource Management and Scheduling at ByteDance | SoCC | 2023 | 胡建民：论文介绍了字节跳动内部基于Kubernetes 提出的一套支持在线任务和离线任务混部的高吞吐任务调度系统，旨在有效解决大规模数据中心中不同类型任务的资源分配问题，提高数据中心的资源利用率、弹性和调度吞吐率。 | | | | | | ### 云计算负载预测 | 论文名 | 会议/期刊 | 年份 | 推荐人/推荐意见 | | ------------------------------------------------------------ | --------- | ---- | ------------------------------------------------------------ | | Time-LLM: Time Series Forecasting by Reprogramming Large Language Models | ICLR | 2024 | 廖俊涵：该论文无需改变或微调大模型本身，仅训练输入和输出处理中用到的模型，实现在主流时序预测任务上超越了SOTA。 | | One Fits All: Power General Time Series Analysis by Pretrained LM | NeurIPS | 2023 | 廖俊涵：并论证了self-attention的行为与主成分分析(PCA)相似。
温林峰：基于现有的通用大语言模型，通过重写、微调、冻结等操作，使其得以适配时序预测任务 | | TimesNet: Temporal 2D-Variation Modeling for General Time Series Analysis | ICLR | 2023 | 廖俊涵：该论文首次提出将时间变化分解为多周期内和周期间的变化，将时间变化的分析扩展到二维空间。同时该论文关于时序预测的实验方法被多篇最新论文采纳。 | | PromptCast: A New Prompt-based Learning Paradigm for Time Series Forecasting | TKDE | 2023 | 廖俊涵：该论文首次提出了基于Prompt的时间序列预测，同时提出相关的大型数据库PISA。 | | AHPA: Adaptive Horizontal Pod Autoscaling Systems on Alibaba Cloud Container Service for Kubernetes | AAAI | 2023 | 温林峰：采用模态分解的方法处理时间序列，针对不同分解项采用不同的预测方法，从而实现高效的弹性伸缩 | | Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting | AAAI | 2021 | 温林峰：为了实现长期预测，改造原有Transformer模型，采用了多种复杂度优化方法，使其在长期预测任务上表现出色 | | | | | | ### 微服务特征分析 | 论文名 | 会议/期刊 | 年份 | 推荐人/推荐意见 | | ------------------------------------------------------------------------------ | ----------- | ---- | --------------------------------------------------------------------------------------------------------------------- | | Characterizing Microservice Dependency and Performance: Alibaba Trace Analysis | SoCC | 2021 | 徐敏贤：该论文对大规模阿里巴巴集群的微服务链路和依赖关系进行详细的分析，获得了云计算领域顶会SoCC 2021的唯一最佳论文奖 | | CRISP: Critical Path Analysis of Large-Scale Microservice Architectures | USENIX ATC | 2022 | 吴静峰：CRISP基于优步公司的集群，进一步分析了微服务链路中关键路径的特征，很好地填补了Jaeger隐含的一些问题。 | | | | | | | | | | | | | | | | | | | | | ### SLO保证（SLO资源分配） | 论文名 | 会议/期刊 | 年份 | 推荐人/推荐意见 | | ------------------------------------------------------------ | --------- | ---- | ------------------------------------------------------------ | | Parslo: A Gradient Descent-based Approach for Near-optimal Partial SLO Allotment in Microservices | SoCC | 2021 | 胡侃：本文率先将SLO指标作为一种系统资源进行分配，并提出了一种计算近似最优SLO资源分配的方法 | | Erms: Efficient Resource Management for Shared Microservices with SLA Guarantees | ASPLOS | 2023 | 胡侃：将微服务延迟描述为工作负载、资源使用和干扰的分段线性函数。基于此分析构建资源扩展模型，用于保证共享微服务环境中的 SLA | | DeepScaling: Microservices AutoScaling for Stable CPU Utilization in Large Scale Cloud Systems | SoCC | 2022 | 胡侃：使用时空图神经网络预测工作负载，通过使用深度神经网络将工作负载强度映射到估计的CPU利用率来估计CPU利用率，基于改进的Deep Q Network，DQN为每个服务生成自动伸缩策略。使得目标CPU利用率更新为一个最大、稳定的值，同时确保SLO | | | | | | | | | | | | | | | | ### 强化学习与元学习 | 论文名 | 会议/期刊 | 年份 | 推荐人/推荐意见 | | ------------------------------------------------------------ | ------------------------------------------------------- | ---- | ------------------------------------------------------------ | | AWARE: Automate Workload Autoscaling with Reinforcement Learning in Production Cloud Systems | USENIX ATC | 2023 | 胡侃：在强化学习进行资源调度策略中引入了元学习的相关方法，将新的负载变动作为一个Embedding插入到agent的state中，使得整体框架能够快速使用负载变动。论文工程化较为完善，代码开源 | | A Meta Reinforcement Learning Approach for Predictive Autoscaling in the Cloud | SIGKDD | 2022 | 胡侃：使用DAPM对工作负载进行预测，利用元学习模型来训练从工作负载到CPU 利用率的动态先验图，快速适应不断变化的环境，最后使用RL方法进行资源扩展 | | Multi-Level ML Based Burst-Aware Autoscaling for SLO Assurance and Cost Efficiency | TRANSACTIONS ON SERVICES COMPUTING. arXiv.org在审稿状态 | 2024 | 胡侃：设计了一种新颖的基于预测的突发检测机制，可区分可预测的周期性工作负载峰值和实际突发。当检测到突发时，会适当地高估它们并相应地分配资源，以应对资源需求的快速增长。另一方面，BAScaler 采用强化学习来纠正资源估计中潜在的不准确性，从而在非爆发期间实现更精确的资源分配。**其中实验结果分析的图片值得借鉴** | | | | | | | | | | | | | | | | ### 云计算干扰检测与预测 | 论文名 | 会议/期刊 | 年份 | 推荐人/推荐意见 | | ------------------------------------------------------------ | --------- | ---- | ------------------------------------------------------------ | | Suppressing the Interference Within a Datacenter: Theorems, Metric and Strategy | IEEE TPDS | 2024 | 宋盛叶: 近年来最全面的干扰检测论文，里面的evaluation实验充分详细，对于混部场景下的干扰的分析和解决方法都比较详细，很推荐阅读！ | | Survey on Guaranteeing the Performance of Co-Located Applications | 计算机研究与发展 | 2024 | 宋盛叶: 与上篇相同，来自包云岗老师的创作，发表在国内顶级计算机综述上，对于干扰的研究全面且清晰，是近年研究干扰必看的文献之一，很推荐阅读 | ### 模拟器 | 论文名 | 会议/期刊 | 年份 | 推荐人/推荐意见 | | ----------------------------------------------------------------------------------------------------------------------------------- | --------- | ---- | --------------------------------------------------------------------------------------------------------------------------------- | | CloudSim: a toolkit for modeling and simulation of cloud computing environments and evaluation of resource provisioning algorithms | SPE | 2011 | 吴静峰：模拟器方向的经典文章，奠定了目前主流云计算模拟器的框架。 | | PerfSim: A Performance Simulator for Cloud Native Microservice ChainsTCC2021 | TCC | 2021 | 吴静峰：该论文从linux操作系统层面去建模微服务链路的性能，有助于我们对服务链路的理解 | | FogSim2: An Extended iFogSim Simulator for Mobility, Clustering, and Microservice Management in Edge and Fog Computing Environments | SPE | 2021 | 吴静峰：CloudSim框架中非常流行的雾/边缘计算模拟器，相比于传统的离散事件模拟器，它引入了新的架构，能够支持边缘计算中的移动性问题。 | | ServiceSim: A Modelling and Simulation Toolkit of Microservice Systems in Cloud-Edge Environment | ICSOC | 2023 | 吴静峰：结合了NetworkCloudSim和iFogCloudSim的优点，构建了对微服务架构的模拟。 | ## 大模型领域 ### 大模型介绍 | 论文名 | 会议/期刊 | 年份 | 推荐人/推荐意见 | | ------------------------------------------------------------------- | --------- | ---- | ---------------------------------------------------------------------------------------------- | | A Survey of Large Language Models | arXiv | 2023 | 何忆源：LLM的“百科全书” | | Improving Language Understanding by Generative Pre-Training | | | 何忆源：GPT的“开山之作” | | Language Models are Unsupervised Multitask Learners | | | 何忆源：GPT-2，大模型参数内卷时代开启！ | | Language Models are Few-Shot Learners | arXiv | 2020 | 何忆源：GPT超越bert的关键所在：few-shot。 | | GPT-4 Technical Report | arXiv | 2023 | 何忆源：大力出奇迹，从默默无闻到人尽皆知的ChatGPT！ | | Training language models to follow instructions with human feedback | arXiv | 2022 | 何忆源：任何时候都要“政治正确”。 | | Attention Is All You Need | arXiv | 2017 | 何忆源：从bert到chatgpt你都能看到transformer的结构。伟大无需多言，This paper is all you need！ | ### 大模型推理任务优化 | 论文名 | 会议/期刊 | 年份 | 推荐人/推荐意见 | | ------------------------------------------------------------------------------------------------ | --------- | ---- | ------------------------------------------------------------------------------------------- | | Efficient Memory Management for Large Language Model Serving with PagedAttention | SOSP | 2023 | 何忆源：300多人的顶级团队，vllm的发表以及PagedAttention的提出似乎终结了KV cache的优化。 | | Orca: A Distributed Serving System for Transformer-Based Generative Models | OSDI | 2022 | 何忆源：高效的分布式推理机制，使得大规模的Transformer生成模型能够以较低的成本提供实时服务。 | | Tabi: An Efficient Multi-Level Inference System for Large Language Models | EuroSys | 2023 | 何忆源：大小模型混合的多级推理引擎。 | | MArk: Exploiting Cloud Services for Cost-Effective, SLO-Aware Machine Learning Inference Serving | ATC | 2019 | 何忆源：利用云服务实现经济高效、SLO 感知的机器学习推理服务。 | | Morphling: Fast, Near-Optimal Auto-Configuration for Cloud-Native Model Serving | SoCC | 2021 | 何忆源：元学习在大模型部署资源配置的典型企业（阿里）应用。 | | S3: Increasing GPU Utilization during Generative Inference for Higher Throughput | arXiv | 2023 | 何忆源：batch的过度分配可能导致GPU利用率降低。 | | Cocktail: A Multidimensional Optimization for Model Serving in Cloud | NSDI | 2022 | 何忆源：SLO，Latency，Cost的多维优化，可惜关注的是小模型。 | | Clipper: A Low-Latency Online Prediction Serving System | NSDI | 2017 | 何忆源：Model Inference system的元老级论文。 | | Interference-Aware Scheduling for Inference Serving | EuroMLSys | 2021 | 何忆源：推理服务之间也有干扰！ | ### 大模型训练任务优化 | 论文名 | 会议/期刊 | 年份 | 推荐人/推荐意见 | | ------------------------------------------------------------------------------------- | --------- | ---- | ---------------------------------------------------------------------------------------------------------------- | | Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism | arXiv | 2019 | 何忆源：模型并行的大模型训练。 | | Pretrained Transformers as Universal Computation Engines | AAAI | 2022 | 廖俊涵：该论文提出预训练Transformer不微调残差块的自注意力层和前馈层时与全微调效果相当，即冷冻预训练变压器(FPT)。 | | | | | | | | | | | | | | | |