# edubenchmark **Repository Path**: likefallwind/edubenchmark ## Basic Information - **Project Name**: edubenchmark - **Description**: edubenchmark - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-05-11 - **Last Updated**: 2026-06-09 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # AI-教育 Benchmark 调研仓库 本仓库用于整理 AI-教育领域 benchmark、评测尺度、公开效果、可获得数据集,以及一版可追溯的“原子能力-评价标准-题目出处”benchmark 规格。当前工作重点是信息收集、统一尺度建设和题目出处索引,不是重新跑模型实验。 ## 目标 对应 `todo.md`,本仓库要形成一个可复用的 AI-教育 benchmark 证据库: - 收集 AI-教育领域已有 benchmark / 数据资源。 - 记录每个 benchmark 测什么问题、使用什么原生指标、是否有公开模型结果。 - 下载或登记可获得的数据集,并区分自动下载、人工申请、论文待发布等状态。 - 基于已有原子尺度,形成统一的 AI-教育应用评测框架。 - 当给定一个新的 AI-教育应用时,可以快速判断相似领域已有评测、推荐重点指标和补充评测方式。 ## 当前状态 截至 2026-05-18,仓库里有两层成果: 1. **调研证据库**:覆盖 AI-教育相关 benchmark / 数据资源、指标、公开结果、数据下载状态。 2. **Benchmark v1 规格**:把 8 个一级尺度、D01-D24 原子能力、84 个细粒度评价标准和 840 条本地题目/任务样本串起来。 调研证据库状态: - 覆盖 78 个 benchmark / 数据资源。 - 抽取 165 个指标。 - 整理 1616 条公开模型/结果记录。 - 覆盖 24 个原子能力。 - 收敛为 8 个一级评测尺度。 - 已下载 GitHub / HuggingFace 可直接获取的大部分数据集。 Benchmark v1 状态: - 8 个一级尺度。 - 24 个原子能力。 - 84 个评价标准。 - 840 条评测题/任务样本。 - 每条题都有 `source_file` 和 `source_row_or_key`,可追溯到本地数据源。 - 抽题逻辑不是固定取前 10 条,而是每个评价标准先取最多 80 条候选,再按 `quality_score` 选择前 10 条。 - 27 个评价标准标为 `coverage_gap` / proxy 样本,表示本地有可构造任务材料,但仍缺原生 benchmark 标签、授权数据、视频/图像资源或产品级日志。 仍未完全补齐的部分主要是访问权限问题: - `ASAP-AES` 和 `ASAP-SAS` 需要 Kaggle 账号、API token 和竞赛条款确认。 - 19 个资源属于 `manual_access_or_metadata_only`,需要人工申请、页面确认或机构授权。 - `EssayJudge` 目前是论文/待发布状态,没有可批量下载的数据包。 ## 从哪里开始 推荐阅读顺序: 1. [AI_EDU_BENCHMARK_V1.md](./AI_EDU_BENCHMARK_V1.md):根目录主入口,查看 8 个一级尺度、D01-D24 原子能力和评价标准。 2. [ai_edu_benchmark_v1_questions.json](./ai_edu_benchmark_v1_questions.json):题目索引 JSON,查每道题的来源文件和行/键位置。 3. [AI_EDU_BENCHMARK_V1.html](./AI_EDU_BENCHMARK_V1.html):和主 Markdown 同内容,适合浏览。 4. [reports/2026-05-18/ai_edu_benchmark_v1_spec.md](./reports/2026-05-18/ai_edu_benchmark_v1_spec.md):更完整的 v1 规格报告。 5. [reports/2026-05-13/ai_edu_unified_benchmark_framework_2026-05-13.md](./reports/2026-05-13/ai_edu_unified_benchmark_framework_2026-05-13.md):统一尺度、场景映射和评分建议。 6. [reports/2026-05-13/ai_edu_benchmark_catalog_2026-05-13.md](./reports/2026-05-13/ai_edu_benchmark_catalog_2026-05-13.md):benchmark 总目录。 7. [data/exhaustive_2026-05-13/dataset_acquisition_report.md](./data/exhaustive_2026-05-13/dataset_acquisition_report.md):数据下载 manifest。 ## 主要文件说明 | 文件 / 目录 | 作用 | |---|---| | `AI_EDU_BENCHMARK_V1.md` | 根目录可读总览。按 S1-S8、D01-D24、评价标准组织,是当前最推荐打开的入口。 | | `AI_EDU_BENCHMARK_V1.html` | 根目录 HTML 版总览,方便浏览表格。 | | `ai_edu_benchmark_v1_questions.json` | 题目索引 JSON。每条题含 `item_id`、`dimension_id`、`criterion_id`、`question`、`answer_or_rubric`、`scoring_method`、`source_file`、`source_row_or_key`、`quality_score`。 | | `data/benchmark_v1_2026-05-18/items.jsonl` | v1 题目明细,每行一道题或一个任务构造样本。适合程序读取。 | | `data/benchmark_v1_2026-05-18/capability_criteria.jsonl` | v1 评价标准明细,每行一个标准,包含原子能力、指标族、推荐 benchmark、覆盖状态和抽样规则。 | | `data/benchmark_v1_2026-05-18/source_manifest.jsonl` | v1 来源 manifest,说明每个来源文件是否本地存在、访问状态、抽样说明、抽到的 row/key。 | | `reports/2026-05-18/ai_edu_benchmark_v1_spec.md` | v1 完整规格报告,内容比根目录总览更细。 | | `reports/2026-05-18/ai_edu_benchmark_v1_spec.html` | v1 完整规格 HTML 报告。 | | `scripts/build_benchmark_v1_2026_05_18.py` | 生成 v1 三件套和明细 JSONL 的脚本。核心逻辑是“读取 taxonomy -> 构造候选题 -> 质量排序 -> 取前 10 -> 输出 Markdown/HTML/JSON”。 | | `data/exhaustive_2026-05-13/` | 2026-05-13 的调研证据库:benchmark、指标、公开结果、能力映射和数据获取状态。 | | `reports/2026-05-13/` | 2026-05-13 的调研报告、统一框架、benchmark catalog。 | | `data/benchmark_metric_dimensions_2026-05-12.json` | D01-D24 原子能力定义、相关 benchmark 和覆盖说明。 | | `data/benchmark_metric_indicators_2026-05-12.json` | 每个原子能力下的细粒度评价指标,是 v1 评价标准的主要来源。 | | `sources/datasets/` | 本地下载的数据集副本。已在 `.gitignore` 中,通常不提交到 git。 | | `skills/edubenchassistant/SKILL.md` | 面向 Agent 的 EduBench Assistant skill。 | ## 目录结构 ```text . ├── data/ │ ├── benchmark_metric_dimensions_2026-05-12.json │ ├── benchmark_metric_indicators_2026-05-12.json │ ├── model_dimension_performance_2026-05-12.json │ ├── benchmark_v1_2026-05-18/ │ │ ├── items.jsonl │ │ ├── capability_criteria.jsonl │ │ └── source_manifest.jsonl │ └── exhaustive_2026-05-13/ │ ├── benchmarks.jsonl │ ├── metrics.jsonl │ ├── results.jsonl │ ├── dimension_mapping.jsonl │ ├── dataset_acquisition.jsonl │ ├── dataset_acquisition_report.md │ └── download_summary.csv ├── reports/ │ ├── 2026-05-12/ │ ├── 2026-05-13/ │ └── 2026-05-18/ ├── scripts/ │ ├── build_exhaustive_2026_05_13.py │ ├── build_benchmark_v1_2026_05_18.py │ └── download_all_datasets.sh ├── skills/ │ └── edubenchassistant/ │ └── SKILL.md ├── sources/ │ └── datasets/ ├── AI_EDU_BENCHMARK_V1.md ├── AI_EDU_BENCHMARK_V1.html ├── ai_edu_benchmark_v1_questions.json └── todo.md ``` 说明: - `reports/` 放人可读调研报告和结论。 - `data/` 放机器可读抽取结果、下载 manifest 和日志。 - `scripts/` 放生成脚本和下载脚本。 - `skills/edubenchassistant/` 放面向 Agent 的 EduBench Assistant skill。 - `sources/` 放真实下载的数据集,已在 `.gitignore` 中,不提交到 git。 ## EduBench Assistant Skill 本仓库包含一个 Agent skill:[skills/edubenchassistant/SKILL.md](./skills/edubenchassistant/SKILL.md)。 它用于在用户描述一个 AI-教育应用、产品想法或具体教学场景时,基于本仓库资料生成评测建议,并最终输出 HTML 报告。典型输出包括: - 应重点关注哪些 D01-D24 原子能力。 - 对应哪些 S1-S8 一级尺度。 - 过去已有 benchmark 做过哪些相似评测。 - 原生指标、公开模型结果和数据集可用状态。 - 需要额外关注的安全、污染、rubric、学习效果、教师监督等问题。 本地开发安装方式: ```bash install -D skills/edubenchassistant/SKILL.md ~/.agents/skills/edubenchassistant/SKILL.md ``` 如果把本仓库发布到 GitHub,并保持 `skills/edubenchassistant/SKILL.md` 结构,可以用 Skills CLI 安装: ```bash npx skills add /@edubenchassistant -g -y ``` 示例: ```bash npx skills add likefallwind/edubenchmark@edubenchassistant -g -y ``` 常用 Skills CLI 命令: ```bash npx skills find education benchmark npx skills check npx skills update ``` ## 数据下载 批量下载脚本: ```bash COMMAND_TIMEOUT=1200 ./scripts/download_all_datasets.sh ``` 只重试失败项: ```bash FAILED_ONLY=1 COMMAND_TIMEOUT=300 ./scripts/download_all_datasets.sh ``` 脚本会从 `data/exhaustive_2026-05-13/dataset_acquisition_report.md` 读取下载命令,并把结果写入: - `data/exhaustive_2026-05-13/download_summary.csv` - `data/exhaustive_2026-05-13/dataset_download.log` 如果下载源是 Gitee HTTPS URL,脚本会自动改写为 SSH 形式,适配已有 Gitee SSH 权限。 ## 重新生成 Benchmark v1 运行: ```bash python scripts/build_benchmark_v1_2026_05_18.py ``` 该脚本会更新: - `AI_EDU_BENCHMARK_V1.md` - `AI_EDU_BENCHMARK_V1.html` - `ai_edu_benchmark_v1_questions.json` - `data/benchmark_v1_2026-05-18/items.jsonl` - `data/benchmark_v1_2026-05-18/capability_criteria.jsonl` - `data/benchmark_v1_2026-05-18/source_manifest.jsonl` - `reports/2026-05-18/ai_edu_benchmark_v1_spec.md` - `reports/2026-05-18/ai_edu_benchmark_v1_spec.html` 只做结构校验: ```bash python scripts/build_benchmark_v1_2026_05_18.py --validate-only ``` 当前验证结果: ```text criteria=84 items=840 manifest=88 ``` 抽题逻辑: - 每个评价标准先构造最多 80 条本地候选题。 ## RE_BENCHMARK_V1 可运行试点包 `re_benchmark_v1.md` 是新的五大类主测组合口径。可以用下面命令生成结构化 registry、source manifest、pilot items 和 prompt export: ```bash python scripts/build_re_benchmark_v1.py python scripts/run_re_benchmark_v1.py ``` 输出位置: - `data/re_benchmark_v1/benchmark_registry.jsonl` - `data/re_benchmark_v1/source_manifest.jsonl` - `data/re_benchmark_v1/pilot_items.jsonl` - `data/re_benchmark_v1/pilot_prompts.jsonl` - `reports/re_benchmark_v1/pilot_report.html` - `reports/re_benchmark_v1/run_report.html` `source_manifest.jsonl` 会区分 `local_ready`、`manual_kaggle_required`、`metadata_model_available_dataset_not_found`、`local_ready_but_no_pilot_extractor` 等状态,便于继续补数据和补抽取器。 - 用透明启发式打 `quality_score`:题干长度、答案/rubric 完整度、评分方式、evaluator、题源是否存在、benchmark 是否匹配、是否有程序测试/多模态/安全/rubric 信号。 - 每个评价标准最终保留前 10 条。 - `coverage_status` 包含 `coverage_gap` 的标准表示当前只是 proxy/resource-construction 样本,不能当作原生 benchmark 已完全覆盖。 ## 重新生成 2026-05-13 调研抽取结果 运行: ```bash python3 scripts/build_exhaustive_2026_05_13.py ``` 该脚本会更新: - `data/exhaustive_2026-05-13/*.jsonl` - `data/exhaustive_2026-05-13/dataset_acquisition_report.md` - `reports/2026-05-13/ai_edu_benchmark_exhaustive_index_2026-05-13.md` - `reports/2026-05-13/ai_edu_benchmark_exhaustive_index_2026-05-13.html` - `reports/2026-05-13/web_verified_updates_2026-05-13.md` 当前验证结果为: ```text benchmarks.jsonl: 78 metrics.jsonl: 165 results.jsonl: 1616 dimension_mapping.jsonl: 256 covered_dimensions: 24 dataset_acquisition.jsonl: 78 ``` ## 使用方式 评估一个新的 AI-教育应用时,建议按以下流程: 1. 在统一框架中定位应用场景,例如数学 tutor、作文批改、编程教育、教师备课、个性化学习路径或教育安全。 2. 根据场景映射找到主 benchmark 和补充 benchmark。 3. 回到 benchmark catalog 查看对应原子能力、原生指标、公开效果和数据状态。 4. 对可直接下载的数据使用 `sources/datasets/` 中的本地副本。 5. 对人工授权或未发布数据,只记录为证据缺口,不假设已经可复现。 ## 注意事项 - 不要把不同 benchmark 的原始分数直接平均;应先映射到原子能力,再形成能力画像。 - 通用知识类 benchmark 只能作为门槛项,不能证明模型具备教学能力。 - 教育核心能力更依赖错因诊断、脚手架、反馈质量、个性化、多模态 grounding、安全边界和真实学习效果。 - 公开 benchmark 对长期学习效果、教师采纳、师生机协同和中文本地教育安全覆盖仍不足。