# hvac_llm

**Repository Path**: DestinyLin/hvac_llm

## Basic Information

- **Project Name**: hvac_llm
- **Description**: 大模型暖通控制
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-09-15
- **Last Updated**: 2025-12-25

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

### 基于 *PRE-TRAINED LARGE LANGUAGE MODELS FOR INDUSTRIAL CONTROL* 和 *BEAR* 仿真器思路的融合与添加进行对QWEN2.5-1.5B的微调。
目前正在修改finetune.py文件，研究如何融合 *Proximal Policy Optimization Algorithms* 论文的思路和公式在这一步。


这是一个完整的基于强化学习和大语言模型（LLM）的建筑能源管理系统训练和评估流程， 实现了从数据收集、样本选择、模型微调到性能评估的完整闭环， 可以系统地比较不同策略在建筑能源管理任务上的表现。
主要包括以下几个阶段：

1. 数据收集阶段
[ppo_collect.py] → ppo_trajectory.json
    使用PPO算法训练智能体，并收集训练过程中的轨迹数据
    轨迹数据保存在ppo_trajectory.json文件中

2. 样本选择阶段
[select_representative.py] → few_shot_examples_structured.json

    从轨迹数据中选择具有代表性的样本作为few-shot示例
    使用奖励值和聚类方法确保样本的质量和多样性
    输出结构化的few-shot示例文件

3. 微调数据生成阶段

[rollout_fewshot_version.py] → mini_rollout_fewshot.json
使用原始LLM模型结合few-shot示例生成控制动作
收集这些交互数据用于后续模型微调

4. 模型微调阶段
[7b_finetune.py] → 微调后的模型
使用生成的交互数据对LLM模型进行LoRA微调
微调过程中使用PPO算法优化模型策略
5. 模型评估阶段
5.1 生成评估数据
[7Blora_rollout.py] → mini_rollout_fewshot_7B_finetuned.json  (微调模型)
[only_history_rollout.py] → mini_rollout_llm_good.json  (仅历史信息)
5.2 可视化性能对比

[draw_reward.py] → 可视化三种策略的性能对比

三种控制策略对比
   （1）Few-shot + 微调模型: mini_rollout_fewshot_7B_finetuned.json
        使用经过微调的LLM模型
        结合few-shot示例进行决策
    （2）Few-shot + 原始模型: mini_rollout_fewshot.json
        使用原始的LLM模型（未微调）
        结合few-shot示例进行决策
    （3）仅历史信息: mini_rollout_llm_good.json
        使用原始LLM模型
        仅依赖历史交互信息进行决策