# AI24_DataMining **Repository Path**: linxinguo/ai24_-data-mining ## Basic Information - **Project Name**: AI24_DataMining - **Description**: 本仓库为数据挖掘实战专用 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 2 - **Created**: 2025-05-05 - **Last Updated**: 2025-05-06 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 数据挖掘项目实战安排 ## 1. 项目概述 ### 1.1 项目选择 ```shell #1.人才流失预测 预测人才会不会流失,相对比较简单。评比的标准项目。 #2.天猫复购预测 预测用户会不会复购,有一定的难度,适用于学有余力的同学。 #3.捷信风控预测 预测用户会不会违约,有一定的难度,且数据量大,内存最好>16G ``` ### 1.2 评价指标 ```shell #1.人才流式 AUC #2.天猫复购 AUC #3.捷信风控 AUC、KS ``` ### 1.3 思路参考 ```shell #1.数据加载 #2.探索性数据分析 #3.特征工程 人才流失中,更多的是做特征选择 天猫复购中,特征衍生 捷信风控中,需要大内存,套路和课程中类似 #4.模型训练 二分类问题,决策树,逻辑回归,随机森林,集成学习,xgboost,LightGBM都可以尝试。 #5.模型评估 三个案例中,AUC(捷信风控中需要计算KS)。 ``` ### 1.4 项目目标 - 构建预测模型,AUC ≥ 0.75 - 通过完整的项目流程实践数据挖掘技能 - 掌握团队协作开发流程和Git版本控制 ## 2. 团队分工 ### 2.1 角色分配 - **组长**:张三(负责项目管理、进度跟踪、晨会组织) - **Git管理员**:李四(负责代码合并、冲突解决) - **数据分析师**:王五(负责EDA和特征分析) - **特征工程师**:赵六(负责特征工程) - **建模工程师**:钱七(负责模型构建和调优) ### 2.2 每日流程 - **晨会(站会)**:9:00-9:15,汇报昨日进展和今日计划 - **晚例会(复盘会)**:17:30-18:00,汇报今日工作进度,总结问题与解决方案,次日计划确认,风险预警 - **日报**:每日18:30前提交工作日志到组长 - **代码提交**:完成功能模块后立即commit,每日至少一次push ## 3. 开发计划 ### 3.1 时间安排(5月4日-5月6日) **第1天(5月5日)** - [ ] 完成Git环境配置和项目初始化 - [ ] 数据加载和初步探索 - [ ] 建立项目目录结构 - [ ] 完成详细的EDA分析 - [ ] 确定特征工程方向 - [ ] 建立基线模型(baseline)75% - [ ] 完成特征工程 - [ ] 尝试不同模型(逻辑回归、随机森林等) - [ ] 初步模型评估 - [ ] 模型调优(参数调整、特征选择) - [ ] 模型集成尝试 - [ ] 达到AUC目标 - [ ] 项目文档整理 - [ ] 代码审查和优化 - [ ] 准备答辩材料 **第2天(5月6日)** - [ ] 项目答辩(按小组) - [ ] 答辩评分 - [ ] 实战项目颁奖 ### 3.2 Git工作流程 Git仓库地址:https://gitee.com/lizhao415/ai24_-data-mining.git 1. 组长初始化项目,创建group_01分支 2. 每个成员从group_01拉取个人分支(feature/name) 3. 每日工作前:pull最新代码 4. 功能完成后:commit到个人分支 5. 每日结束前:push到远程仓库 6. 功能模块完成:发起merge request到group_01 ## 4. 技术方案 ### 4.1 数据探索(EDA) - 缺失值分析 - 特征分布可视化 - 目标变量分布 - 特征相关性分析 - 异常值检测 ### 4.2 特征工程 - 缺失值处理(均值/中位数填充) - 类别型特征编码(One-Hot/Label Encoding) - 数值特征标准化 - 特征选择(基于相关性、IV值等) - 可能创建的新特征: - 工作年限与薪资比率 - 项目参与密度 - 晋升速度指标 ### 4.3 模型构建 **基线模型**: - 逻辑回归(带正则化) - 随机森林 **进阶尝试**: - XGBoost/LightGBM - 模型集成(Voting/Stacking) ### 4.4 模型评估 - 主要指标:AUC-ROC - 辅助指标:准确率、召回率、F1-score - 交叉验证策略:5折交叉验证 - 验证集比例:30% ## 5. 风险管理 ### 5.1 潜在问题及解决方案 1. **数据质量问题** - 预案:加强EDA,考虑多种缺失值处理方案 2. **特征工程效果不佳** - 预案:尝试不同特征组合,参考领域知识 3. **模型性能不达标** - 预案:尝试更复杂模型,调整样本权重 4. **Git冲突** - 预案:每日晨会同步修改计划,小步频繁提交 ### 5.2 资源准备 - 确保开发环境一致(Python 3.8+)3.10 - 统一库版本(scikit-learn, pandas, matplotlib等) - 准备备用开发设备 ## 6. 交付物 1. **代码仓库**: - 完整可复现的代码 - 清晰的README文档 - requirments.txt 2. **项目报告**: - 问题描述 - 分析方法 - 关键发现 - 模型结果 3. **答辩材料**: - 20分钟以内演示PPT - 结果可视化图表 ## 7.项目评比要点 - 1.数据处理环节 - 2.探索性数据分析环节 - 3.特征工程环节 - 4.模型训练与调优环节 - 5.答辩表述,是否清晰描述出项目整体思路 - 6.模型效果评价 - 7.项目答辩中,团队协作情况 - 8.项目答辩中,是否体现出对项目中遇到的问题的原因分析以及解决方案 ## 8. 附录 ### 项目目录结构 ```shell project/ ├── data/ # 数据文件 │ ├── raw/ # 原始数据 │ └── processed/ # 处理后的数据 ├── docs/ # 文档 ├── notebooks/ # Jupyter笔记本 │ ├── 01_eda.ipynb │ ├── 02_feature_engineering.ipynb │ └── 03_modeling.ipynb ├── src/ # 源代码 │ ├── features/ # 特征工程 │ ├── models/ # 模型代码 │ └── utils/ # 工具函数 ├── README.md # 项目说明 └── requirements.txt # 依赖库 ``` ### 每日晨会模板 ```python 1. 昨日进展 2. 今日计划 3. 遇到的困难 4. 需要协调的事项 ``` ### 日报模板 ```python 1. 完成工作 2. 遇到的问题及解决方案 3. 明日计划 4. 其他事项 ``` 通过此次实战,系统性地完成数据挖掘项目,确保达到AUC≥0.75的目标,同时实践完整的团队协作开发流程。