# Your-first-machine-learning-Project---End-to-End-in-Python **Repository Path**: data_dance/Your-first-machine-learning-Project---End-to-End-in-Python ## Basic Information - **Project Name**: Your-first-machine-learning-Project---End-to-End-in-Python - **Description**: 这是一个完整的,端到端的机器学习项目,非常适合有一定基础后拿来练习,以提高对完整机器学习项目的认识 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2019-03-05 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ### Your-first-machine-learning-Project---End-to-End-in-Python ## 目标: * 使用提供的建筑能源数据开发一个模型,该模型可以预测建筑物的能源之星得分, * 然后解释结果以找到最能预测得分的变量。 ## 介绍: 这是一个受监督的回归机器学习任务:给定一组包含目标(在本例中为分数)的数据,我们希望训练一个可以学习将特征(也称为解释变量)映射到目标的模型。 * 受监督问题: 我们可以知道数据的特征和目标,我们的目标是训练可以学习两者之间映射关系的模型。 * 回归问题: Energy Star Score是一个连续变量。 在训练中,我们希望模型能够学习特征和分数之间的关系,因此我们给出了特征和答案。然后,为了测试模型的学习效果,我们在一个从未见过答案的测试集上进行评估 ## 收获 * 数据清理,探索性数据分析,特征工程和选择等常见问题的解决办法 * 随机搜索,网格搜索,交叉验证等方法寻找最优超参数 * 可视化决策树 * 对完整的机器学习项目流程建立一个宏观的了解 ## 目录 ## 1. 数据清理和格式化 #### 1.1 加载并检查数据 #### 1.2 数据类型和缺失值 ##### 1.2.1 将数据转换为正确的类型 #### 1.3 处理缺失值 ## 2. 探索性数据分析 #### 2.1 单变量图 #### 2.2 去除异常值 #### 2.3 寻找关系 #### 2.4 特征与目标之间的相关性 #### 2.5 双变量图(Two-Variable Plots) ##### 2.5.1 Pairs Plot ## 3. 特征工程和选择 #### 3.1 特征工程 #### 3.2 特征选择(去除共线特征) #### 3.3 划分训练集和测试集 #### 3.4 建立Baseline ## 4. 基于性能指标比较几种机器学习模型 #### 4.1 输入缺失值 #### 4.2 特征缩放 #### 4.3 - 需要评估的模型 ## 5. 对最佳模型执行超参数调整,即优化模型 #### 5.1 超参数 #### 5.2 使用随机搜索和交叉验证进行超参数调整 ## 6. 在测试集上评估最佳模型 ## 7. 解释模型结果 #### 7.1 特征重要性 - Feature Importances #### 7.2 使用特征重要性进行特征选择 #### 7.3 本地可解释的与模型无关的解释- Locally Interpretable Model-agnostic Explanations (LIME) #### 7.4 检查单个决策树 ## 8.得出结论&&记录发现 #### 8.1 得出结论 #### 8.2 记录发现 ## 联系我 baideqian@foxmail.com