# Agent评估

**Repository Path**: tju-zqy/agent-evaluation

## Basic Information

- **Project Name**: Agent评估
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2026-02-27
- **Last Updated**: 2026-02-27

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

Agent评估（Agent Evaluation Repository）

本仓库用于存放基于 LLM-as-a-Judge 框架 的 Agent / 解读报告 / 对比报告评估结果。

仓库目标：

建立标准化、可复现的评估流程

对 Agent 输出进行结构化量化分析

形成跨任务、跨模型可对比的评估基准

持续沉淀高质量评估报告样本

一、评估框架概述

本仓库统一采用三维度评估体系：

完整性（Completeness）

准确性（Accuracy）

表现质量（Presentation）

每一份评估报告均遵循标准流程，确保不同任务之间具备可比性。

二、评估流程说明
1️⃣ 完整性（Completeness）
评估目标

衡量报告 R 对原始文档 D 关键要点的覆盖程度。

标准流程

从原始文档 D 中抽取细粒度关键要点集合 S（Ground Truth）

对报告 R 逐项匹配 S 中要点

计算覆盖比例

评分公式
Score_completeness = 覆盖要点数 / 总要点数 × 100%
输出内容

原始文档页数

提取关键要点数

覆盖要点数

完整性百分比

漏项分析

2️⃣ 准确性（Accuracy）
评估目标

衡量报告中陈述是否得到原文支持。

标准流程（两种等价方式）

方式 A（三元组法）：

将报告拆解为原子化对比三元组 (Fact_A, Fact_B, Logic)

检索原文支持片段

判断 Fact 错误与 Logic 错误数量

方式 B（蕴含判定法）：

抽取原子主张

检索 Top-k 原文片段

判定 entailment / contradiction / neutral

评分公式示例

三元组误差扣分制：

Score_accuracy = 100 - (α×FactError + β×LogicError)

支持比例制：

Score_accuracy = 被支持主张数 / 总主张数 × 100%
3️⃣ 表现质量（Presentation）
评估维度

结构清晰度

对比维度合理性

专业表达程度

视觉结构（表格 / 高亮 / 层级）

逻辑连贯性

示例计算方式
Score_presentation = 结构得分 + 视觉加分

或

Score_presentation = 0.3×结构评分 + 0.7×逻辑评分
三、综合评分

默认权重（可调整）：

Completeness：0.4

Accuracy：0.4

Presentation：0.2

Final Score = 0.4C + 0.4A + 0.2P