# bench_eval

**Repository Path**: stfocus/bench_eval

## Basic Information

- **Project Name**: bench_eval
- **Description**: 多模态评测方法，包括图像问答、视频问答、图像生成等
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-08-14
- **Last Updated**: 2025-08-22

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# Minimum Hardware Eval Kit (v2)

组件：
- `server_qwen_vl_metrics.py`：/image-qa、/image-caption、/healthz，返回 usage/timing；支持 `QWEN_MAX_INFLIGHT` 控制实例内并发。
- `bench_eval_image_qa.py`：评测+压测一体；新增 `--log`（终端输出落盘）和 `--metrics-csv/--metrics-interval`（GPU/CPU/RAM 采样）。
- `sweep_models.py`：顺序跑多模型；每档位自动生成 `.log` 与 `_metrics.csv`；汇总为 `summary.csv`、`summary.md`。
- `subset_sample.py`：固定随机采样 N 条（默认 500）。
- `summary_md.py`：CSV 渲染成 Markdown 表格。
- `utils_monitor.py`：日志 tee 与资源采样工具。

## 快速开始
1) 采样 500：
```bash
python subset_sample.py --src /path/to/mmbench_dev_cn.jsonl --dst mmbench_dev500.jsonl --n 500 --seed 42
```

2) 启动服务：
```bash
QWEN_VL_MODEL="Qwen/Qwen2.5-VL-3B-Instruct" QWEN_MAX_INFLIGHT=1 python -m uvicorn server_qwen_vl_metrics:app --host 0.0.0.0 --port 8001 --loop uvloop --http httptools
curl http://127.0.0.1:8001/healthz
```

3) 单模型评测 + 监控：
```bash
python bench_eval_image_qa.py   --api-url http://127.0.0.1:8001/image-qa   --data mmbench_dev500.jsonl   --total 500 --concurrency 10   --out results.jsonl   --log bench_run.log   --metrics-csv bench_metrics.csv --metrics-interval 0.5
```

4) 多模型顺序对比：
```bash
python sweep_models.py   --data mmbench_dev500.jsonl   --total 500 --warmup 20   --concurrencies 1,10   --outdir sweep_reports   --inflight 1   --metrics-interval 0.5
```
依赖建议：`pip install fastapi uvicorn transformers pillow psutil nvidia-ml-py3`