# UltraEval **Repository Path**: rwwang/UltraEval ## Basic Information - **Project Name**: UltraEval - **Description**: No description available - **Primary Language**: Unknown - **License**: Apache-2.0 - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2023-11-24 - **Last Updated**: 2023-11-24 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README
# 更新 - \[2023.11.23\]我们开源了UltraEval评测框架,并发布了第一版榜单。🔥🔥🔥 # 总览 UltraEval是一个开源的基础模型能力评测框架,提供了一套轻量级、易于使用的评测体系,支持主流大模型的性能评估。它的主要特色如下: - **轻量易用的评测框架**:具备简洁直观的设计,依赖少,易于部署,具有良好的扩展性,适用多种评测场景。 - **灵活多样的评测方法**:提供了统一的prompt模板和丰富的评估指标,同时支持自定义。 - **高效快速的推理部署**:支持包括torch和vLLM在内的多种模型部署方案,并实现了多实例部署以加速评测过程。 - **公开透明的开源榜单**:维护一个公开的、可追溯和可复现的评测榜单,由社区推动更新,确保透明度。 - **官方权威的评测数据**:采用广泛认可的官方评测集,保证评测的公平性和标准化,确保结果具有可比性和复现性。 - **全面广泛的模型支持**:支持Huggingface平台上的开源模型以及个人训练的模型。 UltraEval整体流程如下:
| 一级分类 | 二级分类 | 数据集列表 |
|---|---|---|
| 知识推理 | 学科知识 | CMMLU, MMLU, CEval, AGI-Eval, JEC-QA, MEDMCQA, MEDQA-MCMLE, MEDQA-USMLE, GAOKAO-Bench |
| 世界知识 | NQ-open, TriviaQA, TruthfulQA | |
| 数学计算 | 数学计算 | GSM8K, MATH |
| 代码生成 | 代码生成 | HumanEval, MBPP |
| 逻辑推理 | 逻辑推理 | BBH |
| 蕴含关系 | AX-B, AX-G, CB, CMNLI, OCNLI, OCNLI-FC, RTE | |
| 常识推理 | HellaSwag, OpenBookQA, ARC-c, ARC-e, CommonsenseQA, COPA, PIQA, SIQA, WinoGrande, Story Cloze, StrategyQA, TheoremQA | |
| 语言理解 | 阅读理解 | boolq, C3, ChiD, DRCD, LAMBADA, MultiRC, QuAC, RACE, RECORD, SQuAD, TyDi QA, SummEdits |
| 翻译 | FLORES, wmt20-en-zh, wmt20-en-zh | |
| 语义相似度 | AFQMC, BUSTM | |
| 词义消歧 | CLUEWSC, WIC, Winogender, WSC | |
| 情感分析 | EPRSTMT | |
| 新闻分类 | TNEWS |