# EasyData **Repository Path**: joyamon/easy-data ## Basic Information - **Project Name**: EasyData - **Description**: 对比数据的图形界面工具;支持 CSV, Excel, JSON, Parquet, Feather, HDF5 等多种数据格式; 支持按键列比对和按位置比对两种模式; 可设置比较类型、阈值、忽略列等参数; 生成详细的比对报告,包含统计信息和差异详情; 支持 Excel 和 CSV 格式导出 - **Primary Language**: Unknown - **License**: MulanPSL-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-12-18 - **Last Updated**: 2025-12-18 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 数据比对工具使用说明 ## 功能特点 1. **多格式支持**: 支持 CSV, Excel, JSON, Parquet, Feather, HDF5 等多种数据格式 2. **智能比对**: 支持按键列比对和按位置比对两种模式 3. **灵活配置**: 可设置比较类型、阈值、忽略列等参数 4. **可视化界面**: 直观的图形界面,操作简便 5. **详细报告**: 生成详细的比对报告,包含统计信息和差异详情 6. **多格式导出**: 支持 Excel 和 CSV 格式导出 ## 界面介绍 ### 1. 文件选择区域 - **文件1/文件2**: 选择需要比对的两个文件 - **文件信息**: 显示文件名称和大小 ### 2. 比较设置区域 - **比较类型**: - 查找不同数据: 找出两个文件的差异 - 查找相同数据: 找出两个文件的相同部分 - **键列(可选)**: 用于数据匹配的关键列,多个列用逗号分隔 - **忽略列(可选)**: 不参与比较的列,多个列用逗号分隔 - **数值差异阈值**: 数值差异大于此值才被视为不同 ### 3. 输出设置区域 - **输出格式**: Excel 或 CSV - **输出路径**: 结果文件的保存位置 - **比较结果**: 显示比对结果的详细信息 ### 4. 控制按钮 - **开始比较**: 执行数据比对 - **导出结果**: 将结果保存到文件 - **清除结果**: 清空结果显示区域 - **退出**: 关闭程序 ## 使用步骤 1. **选择文件**: 点击"选择文件"按钮,选择需要比对的两个文件 2. **设置参数**: 根据需要设置比较类型、键列、忽略列等参数 3. **开始比较**: 点击"开始比较"按钮,程序将自动进行数据比对 4. **查看结果**: 在结果区域查看比对结果和统计信息 5. **导出结果**: 点击"导出结果"按钮,将结果保存到文件 ## 键列使用说明 键列是用于匹配两个文件数据的列。如果设置了键列,程序将按照键列的值来匹配行,然后比较其他列的值。如果不设置键列,程序将按照行的位置进行比对。 建议使用唯一标识的列作为键列,如: ID、编号、代码等。 ## 注意事项 1. 大文件比对可能需要较长时间,请耐心等待 2. 建议先使用小样本数据进行测试 3. 数值差异阈值只对数值型数据有效 4. 导出的 Excel 文件包含多个工作表,分别显示不同类型的比对结果 ## 常见问题 ### Q: 程序无法打开某些文件 A: 请确保已安装所需的依赖库,如 openpyxl(用于Excel文件) ### Q: 比对结果不准确 A: 请检查是否设置了正确的键列,或调整数值差异阈值 ### Q: 程序运行缓慢 A: 对于大型文件,比对可能需要一定时间。可以尝试先比对部分数据 ## 系统要求 - Python 3.6+ - 依赖库: pandas, openpyxl ### 工具截图 ### 脚本参数 - `--file1`: 第一个文件路径 - `--file2`: 第二个文件路径 - `--output 或 -o`: 输出文件路径 - `--format 或 -f`: 输出格式,可选值:csv, excel - `--key 或 -k`: 键列,多个列用逗号分隔 - `--ignore 或 -i`: 忽略列,多个列用逗号分隔 - `--threshold`: 数值差异阈值 - `--type 或 -t`: 比较类型,可选值:different, same