# Data analysis **Repository Path**: GUOYUMO1/Data-analysis ## Basic Information - **Project Name**: Data analysis - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2017-12-08 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ** chapter 3 *** 数据质量分析 数据质量分析的主要任务是检查原始数据中是否存在脏数据。脏数据一般指不符合要求,以及不能直接进行相应分析的数据,在常见的数据挖掘工作中,脏数据包括: 1. 缺失值 从总体来说,缺失值的处理分为删除,插补,不处理三种情况。 2. 异常值 异常值指样本中的个别值,其数值明显偏离其余的观测值。异常值也称为离群值。 - 最简单的统计量是最大值和最小值 - 3e原则 - 箱型图分析 3. 不一致的值 4. 重复数据以及含有特殊符号(如#,¥,*)的数据。 *** 数据特征分析 对数据进行质量分析后,接下来可通过绘制图标,计算某些特征量等手段进行数据的特征分析. - 对于定量变量,选择"组数"和"组宽"做频率分布分析,其步骤: 1. 求极差 2. 绝对组距与组数 3. 决定分点 4. 列出频率分布表 5. 绘制频率分布直方图 - 应遵循的主要规则 1. 各组之间必须是相互排斥 2. 各组必须将所有的数据包含在内 3. 各组的组宽最好相等. - 极差 = 最大值-最小值