# bench_eval **Repository Path**: stfocus/bench_eval ## Basic Information - **Project Name**: bench_eval - **Description**: 多模态评测方法,包括图像问答、视频问答、图像生成等 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-08-14 - **Last Updated**: 2025-08-22 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Minimum Hardware Eval Kit (v2) 组件: - `server_qwen_vl_metrics.py`:/image-qa、/image-caption、/healthz,返回 usage/timing;支持 `QWEN_MAX_INFLIGHT` 控制实例内并发。 - `bench_eval_image_qa.py`:评测+压测一体;新增 `--log`(终端输出落盘)和 `--metrics-csv/--metrics-interval`(GPU/CPU/RAM 采样)。 - `sweep_models.py`:顺序跑多模型;每档位自动生成 `.log` 与 `_metrics.csv`;汇总为 `summary.csv`、`summary.md`。 - `subset_sample.py`:固定随机采样 N 条(默认 500)。 - `summary_md.py`:CSV 渲染成 Markdown 表格。 - `utils_monitor.py`:日志 tee 与资源采样工具。 ## 快速开始 1) 采样 500: ```bash python subset_sample.py --src /path/to/mmbench_dev_cn.jsonl --dst mmbench_dev500.jsonl --n 500 --seed 42 ``` 2) 启动服务: ```bash QWEN_VL_MODEL="Qwen/Qwen2.5-VL-3B-Instruct" QWEN_MAX_INFLIGHT=1 python -m uvicorn server_qwen_vl_metrics:app --host 0.0.0.0 --port 8001 --loop uvloop --http httptools curl http://127.0.0.1:8001/healthz ``` 3) 单模型评测 + 监控: ```bash python bench_eval_image_qa.py --api-url http://127.0.0.1:8001/image-qa --data mmbench_dev500.jsonl --total 500 --concurrency 10 --out results.jsonl --log bench_run.log --metrics-csv bench_metrics.csv --metrics-interval 0.5 ``` 4) 多模型顺序对比: ```bash python sweep_models.py --data mmbench_dev500.jsonl --total 500 --warmup 20 --concurrencies 1,10 --outdir sweep_reports --inflight 1 --metrics-interval 0.5 ``` 依赖建议:`pip install fastapi uvicorn transformers pillow psutil nvidia-ml-py3`