# 计网安大作业 **Repository Path**: s010m00n/jiwang-an-da-homework ## Basic Information - **Project Name**: 计网安大作业 - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2026-01-08 - **Last Updated**: 2026-01-14 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 提示注入攻击与防御实验系统 ## 📋 项目概述 《计算机与网络安全》课程大作业,研究**大语言模型的提示注入攻击与防御机制**。 **核心特性:** - ✅ LLM 自动评估攻击成功率 - ✅ 多模型对比(7B/14B/480B) - ✅ 断点续跑 + 实时保存 - ✅ 详细记录成功案例 - ✅ 完整评估指标(准确率/精确率/召回率/F1/误报率/漏报率) ## 🚀 快速开始 ### 1. 配置环境 ```bash pip install -r code/requirements.txt ``` ### 2. 配置API密钥 编辑 `code/config.py`: ```python OPENAI_API_KEY = "你的API密钥" ``` ### 3. 运行实验 ```bash cd code python run_experiments.py # 选择 5 - 运行所有实验 # 输入样本数:10-15(推荐) ``` ## 📊 实验内容 ### 实验1:攻击实验 测试四类攻击:直接注入、间接注入、越狱、提示泄露 - 单模型测试(选项1) - 多模型对比(选项2,推荐) ### 实验2:防御实验 测试三种防御方法:黑名单、正则过滤、输出监控 ### 实验3:综合防御 多层防护架构的整体效果 ## 💾 实验输出 ### 自动保存 - **每10个测试**:保存增量结果 - **每次成功攻击**:保存成功案例 - **每完成一个模型**:保存多模型结果 - **支持断点续跑**:中断后可继续 ### 输出文件 ``` results/ ├── checkpoints/ # 断点文件 ├── attack_results_{model}_{time}.json # 完整结果 ├── successful_attacks_{model}_{time}.json # 成功案例 ├── attack_summary_{model}_{time}.csv # 统计摘要 └── multi_model_comparison_{time}.csv # 多模型对比 ``` ## 📝 使用建议 **论文数据收集**(完整实验): ```bash python run_experiments.py # 选择 5,样本数 15 # 预计 1.5-2 小时 ``` **快速测试**: ```bash python run_experiments.py # 选择 2,样本数 5 # 预计 30-40 分钟 ``` ## ⚠️ 注意事项 1. **API费用**:注意调用成本,先小规模测试 2. **断点续跑**:可随时 Ctrl+C 中断,重新运行会询问是否继续 3. **成功案例**:实时显示 🎯 标记,保存到专门文件 4. **API密钥**:不要提交到公开仓库 ## 📁 项目结构 ``` . ├── code/ # 实验代码 │ ├── run_experiments.py # 统一入口(推荐) │ ├── attack_experiments_enhanced.py │ ├── defense_experiments_enhanced.py │ ├── comprehensive_defense_enhanced.py │ ├── llm_evaluator.py # LLM评估器 │ ├── checkpoint_manager.py # 断点管理 │ ├── config.py # 配置文件 │ └── utils.py ├── data/attack_samples/ # 测试用例 ├── results/ # 实验结果 ├── paper/ # 论文 ├── plan.md # 项目计划 └── QUICKSTART.md # 详细指南 ``` ## 📈 进度 - [x] 实验代码(LLM评估 + 断点续跑) - [x] 测试用例(490个攻击 + 20个正常) - [ ] 运行实验收集数据 - [ ] 撰写论文第3-6章 ## 📚 更多信息 详细使用说明见 [QUICKSTART.md](QUICKSTART.md)