# multiagent-system

**Repository Path**: aistudy101/multiagent-system

## Basic Information

- **Project Name**: multiagent-system
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2026-03-05
- **Last Updated**: 2026-03-06

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 多智能体系统（Multi-Agent Systems）

![Course Cover](cover.png)

> 一门面向研究生的多智能体系统课程，系统介绍从群体智能到多智能体强化学习的核心理论与实践方法。

## 📚 课程概述

本课程包含 **15 节课** + **1 个综合大作业**，覆盖三大知识模块：

| 模块 | 课节 | 核心内容 |
|------|------|---------|
| **群体智能方法** | L1-L6 | Boids、搜索算法、PSO/ACO、SA/GSA、GA/DE、算法分析 |
| **强化学习基础** | L7-L8 | MDP、Q-Learning、SARSA、DQN、PPO |
| **多智能体强化学习** | L9-L15 | 博弈论、VDN/QMIX、MAPPO、通信、探索、大规模MAS、前沿 |

## 🗂️ 课程目录

### 第一部分：群体智能方法

| 课节 | 主题 | 项目 |
|------|------|------|
| [第 1 节](lesson1/) | 多智能体系统导论 | 🐦 Boids 群体行为模拟器 |
| [第 2 节](lesson2/) | 搜索规划算法 | 🗺️ A* 寻路 + 🎮 MCTS 井字棋 AI |
| [第 3 节](lesson3/) | 群体智能优化算法 | 🌀 粒子群优化 + 🐜 蚁群算法 |
| [第 4 节](lesson4/) | 物理基础优化算法 | 🔥 模拟退火 + 🌍 引力搜索 |
| [第 5 节](lesson5/) | 进化类算法 | 🧬 遗传算法 + 🔄 差分进化 |
| [第 6 节](lesson6/) | 群体智能分析 | 📊 TSP/VRP 综合对比实验 |

### 第二部分：强化学习基础

| 课节 | 主题 | 项目 |
|------|------|------|
| [第 7 节](lesson7/) | 强化学习回顾 I | 📋 Q-Learning & SARSA 悬崖行走 |
| [第 8 节](lesson8/) | 强化学习回顾 II | 🤖 DQN 平衡杆 (CartPole) |

### 第三部分：多智能体强化学习

| 课节 | 主题 | 项目 |
|------|------|------|
| [第 9 节](lesson9/) | 多智能体系统基础 | 🎯 矩阵博弈 + Independent Q-Learning |
| [第 10 节](lesson10/) | MARL I：价值分解 | 🧩 VDN & QMIX |
| [第 11 节](lesson11/) | MARL II：策略梯度 | 🤝 MAPPO 协作覆盖 |
| [第 12 节](lesson12/) | 通信与表示学习 | 📡 CommNet 协作搜索 |
| [第 13 节](lesson13/) | 多智能体探索方法 | 🔍 RND 好奇心驱动探索 |
| [第 14 节](lesson14/) | 大规模 MAS 挑战 | 🏙️ 大规模群体仿真 |
| [第 15 节](lesson15/) | 前沿扩展与交叉领域 | 🎓 综合大作业 |

## 📁 每节课结构

```
lessonN/
├── lecture.md          # 详细讲义（含公式、图示、对比表格）
├── project.md          # 项目描述（任务分解 + 内联脚手架 + 折叠参考）
├── src/                # 脚手架代码（含 TODO 标记）
│   └── *.py
└── answer/             # 完整参考实现
    └── *_solution.py
```

## 🛠️ 环境要求

### 基础依赖

```bash
pip install numpy matplotlib
```

### 强化学习相关（L7 起需要）

```bash
pip install torch gymnasium
```

## 📖 使用指南

1. **阅读讲义**：每节课先阅读 `lecture.md`，理解理论基础
2. **完成项目**：根据 `project.md` 的任务描述，在 `src/` 中的脚手架代码上完成实现
3. **对照参考**：遇到困难时参考 `answer/` 中的完整实现
4. **挑战进阶**：尝试每节课末尾的挑战任务

## 📊 课程知识体系

```
群体智能基础                     单智能体 RL                    多智能体 RL
┌───────────────┐          ┌───────────────┐          ┌───────────────────┐
│ L1 Boids      │          │ L7 MDP/TD     │          │ L9  博弈论/IQL    │
│ L2 A*/MCTS    │    →     │ L8 DQN/PPO    │    →     │ L10 VDN/QMIX     │
│ L3 PSO/ACO    │          └───────────────┘          │ L11 MAPPO        │
│ L4 SA/GSA     │                                     │ L12 CommNet      │
│ L5 GA/DE      │                                     │ L13 探索          │
│ L6 算法分析    │                                     │ L14 大规模        │
└───────────────┘                                     │ L15 前沿          │
                                                      └───────────────────┘
```

## 📝 考核方式

| 项目 | 比例 | 说明 |
|------|------|------|
| 平时作业 | 50% | 5 次课后编程作业，每次 10% |
| 综合大作业 | 50% | 多智能体协作/对抗项目 |

## 📚 参考资料

- Sutton & Barto (2018). *Reinforcement Learning: An Introduction*
- Shoham & Leyton-Brown (2009). *Multiagent Systems*
- Bonabeau et al. (1999). *Swarm Intelligence*
- Zhang et al. (2021). *Multi-Agent RL: A Selective Overview*

## 👨‍🏫 授课教师

邓悦，浙江大学计算机专业博士，长期从事强化学习、多智能体强化学习与群体智能研究。发表国际顶会顶刊论文 10 余篇。

---

*本课程采用 Python + PyTorch + Gymnasium 技术栈，配合自定义环境进行实验教学。*