# data-distribution **Repository Path**: computing_application_lab/data-distribution ## Basic Information - **Project Name**: data-distribution - **Description**: 训练数据分布分析,包括数据标签和数据质量 - **Primary Language**: Python - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2024-08-11 - **Last Updated**: 2024-08-12 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # data-distribution #### 介绍 训练数据分布分析,包括 - 数据标签生成; - 数据质量评分; - 数据标签/质量分布统计分析。 #### 软件架构 基于prompt工程直接调用大模型能力。 #### 安装教程 直接下载代码。 #### 使用说明 1、生成标签或质量评分 运行examples/run.sh,参数说明: - llm-host: 模型服务地址; - llm-port: 模型服务端口; - input-file: 原始的文件; - output-file: 在原始文件中加入标签/质量评分后写入新文件; - tag-file: 需要自定义标签体系时,将标签体系写入该csv文件; - num-workers: 并行调用模型服务的线程数; - task-type:任务类型,支持"tag"和"quality"。 2、统计标签/质量评分分布 运行examples/analysis.sh,参数说明: - input-file: 待分析的数据文件; - output-file: 分析结果输出文件; - task-type: 任务类型,支持"tag"和"quality"。