# 计网安大作业

**Repository Path**: s010m00n/jiwang-an-da-homework

## Basic Information

- **Project Name**: 计网安大作业
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 0
- **Created**: 2026-01-08
- **Last Updated**: 2026-01-14

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 提示注入攻击与防御实验系统

## 📋 项目概述

《计算机与网络安全》课程大作业，研究**大语言模型的提示注入攻击与防御机制**。

**核心特性：**
- ✅ LLM 自动评估攻击成功率
- ✅ 多模型对比（7B/14B/480B）
- ✅ 断点续跑 + 实时保存
- ✅ 详细记录成功案例
- ✅ 完整评估指标（准确率/精确率/召回率/F1/误报率/漏报率）

## 🚀 快速开始

### 1. 配置环境
```bash
pip install -r code/requirements.txt
```

### 2. 配置API密钥
编辑 `code/config.py`：
```python
OPENAI_API_KEY = "你的API密钥"
```

### 3. 运行实验
```bash
cd code
python run_experiments.py
# 选择 5 - 运行所有实验
# 输入样本数：10-15（推荐）
```

## 📊 实验内容

### 实验1：攻击实验
测试四类攻击：直接注入、间接注入、越狱、提示泄露
- 单模型测试（选项1）
- 多模型对比（选项2，推荐）

### 实验2：防御实验
测试三种防御方法：黑名单、正则过滤、输出监控

### 实验3：综合防御
多层防护架构的整体效果

## 💾 实验输出

### 自动保存
- **每10个测试**：保存增量结果
- **每次成功攻击**：保存成功案例
- **每完成一个模型**：保存多模型结果
- **支持断点续跑**：中断后可继续

### 输出文件
```
results/
├── checkpoints/                          # 断点文件
├── attack_results_{model}_{time}.json    # 完整结果
├── successful_attacks_{model}_{time}.json # 成功案例
├── attack_summary_{model}_{time}.csv     # 统计摘要
└── multi_model_comparison_{time}.csv     # 多模型对比
```

## 📝 使用建议

**论文数据收集**（完整实验）：
```bash
python run_experiments.py
# 选择 5，样本数 15
# 预计 1.5-2 小时
```

**快速测试**：
```bash
python run_experiments.py
# 选择 2，样本数 5
# 预计 30-40 分钟
```

## ⚠️ 注意事项

1. **API费用**：注意调用成本，先小规模测试
2. **断点续跑**：可随时 Ctrl+C 中断，重新运行会询问是否继续
3. **成功案例**：实时显示 🎯 标记，保存到专门文件
4. **API密钥**：不要提交到公开仓库

## 📁 项目结构

```
.
├── code/                           # 实验代码
│   ├── run_experiments.py         # 统一入口（推荐）
│   ├── attack_experiments_enhanced.py
│   ├── defense_experiments_enhanced.py
│   ├── comprehensive_defense_enhanced.py
│   ├── llm_evaluator.py           # LLM评估器
│   ├── checkpoint_manager.py      # 断点管理
│   ├── config.py                  # 配置文件
│   └── utils.py
├── data/attack_samples/           # 测试用例
├── results/                       # 实验结果
├── paper/                         # 论文
├── plan.md                        # 项目计划
└── QUICKSTART.md                  # 详细指南
```

## 📈 进度

- [x] 实验代码（LLM评估 + 断点续跑）
- [x] 测试用例（490个攻击 + 20个正常）
- [ ] 运行实验收集数据
- [ ] 撰写论文第3-6章

## 📚 更多信息

详细使用说明见 [QUICKSTART.md](QUICKSTART.md)