# Agent评估 **Repository Path**: tju-zqy/agent-evaluation ## Basic Information - **Project Name**: Agent评估 - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-02-27 - **Last Updated**: 2026-02-27 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README Agent评估(Agent Evaluation Repository) 本仓库用于存放基于 LLM-as-a-Judge 框架 的 Agent / 解读报告 / 对比报告评估结果。 仓库目标: 建立标准化、可复现的评估流程 对 Agent 输出进行结构化量化分析 形成跨任务、跨模型可对比的评估基准 持续沉淀高质量评估报告样本 一、评估框架概述 本仓库统一采用三维度评估体系: 完整性(Completeness) 准确性(Accuracy) 表现质量(Presentation) 每一份评估报告均遵循标准流程,确保不同任务之间具备可比性。 二、评估流程说明 1️⃣ 完整性(Completeness) 评估目标 衡量报告 R 对原始文档 D 关键要点的覆盖程度。 标准流程 从原始文档 D 中抽取细粒度关键要点集合 S(Ground Truth) 对报告 R 逐项匹配 S 中要点 计算覆盖比例 评分公式 Score_completeness = 覆盖要点数 / 总要点数 × 100% 输出内容 原始文档页数 提取关键要点数 覆盖要点数 完整性百分比 漏项分析 2️⃣ 准确性(Accuracy) 评估目标 衡量报告中陈述是否得到原文支持。 标准流程(两种等价方式) 方式 A(三元组法): 将报告拆解为原子化对比三元组 (Fact_A, Fact_B, Logic) 检索原文支持片段 判断 Fact 错误与 Logic 错误数量 方式 B(蕴含判定法): 抽取原子主张 检索 Top-k 原文片段 判定 entailment / contradiction / neutral 评分公式示例 三元组误差扣分制: Score_accuracy = 100 - (α×FactError + β×LogicError) 支持比例制: Score_accuracy = 被支持主张数 / 总主张数 × 100% 3️⃣ 表现质量(Presentation) 评估维度 结构清晰度 对比维度合理性 专业表达程度 视觉结构(表格 / 高亮 / 层级) 逻辑连贯性 示例计算方式 Score_presentation = 结构得分 + 视觉加分 或 Score_presentation = 0.3×结构评分 + 0.7×逻辑评分 三、综合评分 默认权重(可调整): Completeness:0.4 Accuracy:0.4 Presentation:0.2 Final Score = 0.4C + 0.4A + 0.2P