# AI24_DataMining

**Repository Path**: linxinguo/ai24_-data-mining

## Basic Information

- **Project Name**: AI24_DataMining
- **Description**: 本仓库为数据挖掘实战专用
- **Primary Language**: Python
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 2
- **Created**: 2025-05-05
- **Last Updated**: 2025-05-06

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 数据挖掘项目实战安排



## 1. 项目概述

### 1.1 项目选择

```shell
#1.人才流失预测
预测人才会不会流失，相对比较简单。评比的标准项目。

#2.天猫复购预测
预测用户会不会复购，有一定的难度，适用于学有余力的同学。

#3.捷信风控预测
预测用户会不会违约，有一定的难度，且数据量大，内存最好>16G
```

### 1.2 评价指标

```shell
#1.人才流式
AUC

#2.天猫复购
AUC

#3.捷信风控
AUC、KS
```

### 1.3 思路参考

```shell
#1.数据加载

#2.探索性数据分析

#3.特征工程
人才流失中，更多的是做特征选择
天猫复购中，特征衍生
捷信风控中，需要大内存，套路和课程中类似

#4.模型训练
二分类问题，决策树，逻辑回归，随机森林，集成学习，xgboost，LightGBM都可以尝试。

#5.模型评估
三个案例中，AUC（捷信风控中需要计算KS）。
```

### 1.4 项目目标

- 构建预测模型，AUC ≥ 0.75
- 通过完整的项目流程实践数据挖掘技能
- 掌握团队协作开发流程和Git版本控制

## 2. 团队分工

### 2.1 角色分配

- **组长**：张三（负责项目管理、进度跟踪、晨会组织）
- **Git管理员**：李四（负责代码合并、冲突解决）
- **数据分析师**：王五（负责EDA和特征分析）
- **特征工程师**：赵六（负责特征工程）
- **建模工程师**：钱七（负责模型构建和调优）

### 2.2 每日流程

- **晨会（站会）**：9:00-9:15，汇报昨日进展和今日计划
- **晚例会（复盘会）**：17:30-18:00，汇报今日工作进度，总结问题与解决方案，次日计划确认，风险预警
- **日报**：每日18:30前提交工作日志到组长
- **代码提交**：完成功能模块后立即commit，每日至少一次push

## 3. 开发计划

### 3.1 时间安排（5月4日-5月6日）

**第1天（5月5日）**

- [ ] 完成Git环境配置和项目初始化
- [ ] 数据加载和初步探索
- [ ] 建立项目目录结构
- [ ] 完成详细的EDA分析
- [ ] 确定特征工程方向
- [ ] 建立基线模型（baseline）75%
- [ ] 完成特征工程
- [ ] 尝试不同模型（逻辑回归、随机森林等）
- [ ] 初步模型评估
- [ ] 模型调优（参数调整、特征选择）
- [ ] 模型集成尝试
- [ ] 达到AUC目标
- [ ] 项目文档整理
- [ ] 代码审查和优化
- [ ] 准备答辩材料

**第2天（5月6日）**

- [ ] 项目答辩（按小组）
- [ ] 答辩评分
- [ ] 实战项目颁奖

### 3.2 Git工作流程

Git仓库地址：https://gitee.com/lizhao415/ai24_-data-mining.git

1. 组长初始化项目，创建group_01分支
2. 每个成员从group_01拉取个人分支（feature/name）
3. 每日工作前：pull最新代码
4. 功能完成后：commit到个人分支
5. 每日结束前：push到远程仓库
6. 功能模块完成：发起merge request到group_01

## 4. 技术方案

### 4.1 数据探索（EDA）

- 缺失值分析
- 特征分布可视化
- 目标变量分布
- 特征相关性分析
- 异常值检测

### 4.2 特征工程

- 缺失值处理（均值/中位数填充）
- 类别型特征编码（One-Hot/Label Encoding）
- 数值特征标准化
- 特征选择（基于相关性、IV值等）
- 可能创建的新特征：
  - 工作年限与薪资比率
  - 项目参与密度
  - 晋升速度指标

### 4.3 模型构建

**基线模型**：

- 逻辑回归（带正则化）
- 随机森林

**进阶尝试**：

- XGBoost/LightGBM
- 模型集成（Voting/Stacking）

### 4.4 模型评估

- 主要指标：AUC-ROC
- 辅助指标：准确率、召回率、F1-score
- 交叉验证策略：5折交叉验证
- 验证集比例：30%

## 5. 风险管理

### 5.1 潜在问题及解决方案

1. **数据质量问题**
   - 预案：加强EDA，考虑多种缺失值处理方案
2. **特征工程效果不佳**
   - 预案：尝试不同特征组合，参考领域知识
3. **模型性能不达标**
   - 预案：尝试更复杂模型，调整样本权重
4. **Git冲突**
   - 预案：每日晨会同步修改计划，小步频繁提交

### 5.2 资源准备

- 确保开发环境一致（Python 3.8+）3.10
- 统一库版本（scikit-learn, pandas, matplotlib等）
- 准备备用开发设备

## 6. 交付物

1. **代码仓库**：
   - 完整可复现的代码
   - 清晰的README文档
   - requirments.txt
2. **项目报告**：
   - 问题描述
   - 分析方法
   - 关键发现
   - 模型结果
3. **答辩材料**：
   - 20分钟以内演示PPT
   - 结果可视化图表

## 7.项目评比要点

- 1.数据处理环节
- 2.探索性数据分析环节
- 3.特征工程环节
- 4.模型训练与调优环节
- 5.答辩表述，是否清晰描述出项目整体思路
- 6.模型效果评价
- 7.项目答辩中，团队协作情况
- 8.项目答辩中，是否体现出对项目中遇到的问题的原因分析以及解决方案

## 8. 附录

### 项目目录结构

```shell
project/
├── data/                # 数据文件
│   ├── raw/            # 原始数据
│   └── processed/      # 处理后的数据
├── docs/               # 文档
├── notebooks/          # Jupyter笔记本
│   ├── 01_eda.ipynb
│   ├── 02_feature_engineering.ipynb
│   └── 03_modeling.ipynb
├── src/                # 源代码
│   ├── features/      # 特征工程
│   ├── models/        # 模型代码
│   └── utils/         # 工具函数
├── README.md           # 项目说明
└── requirements.txt    # 依赖库
```

### 每日晨会模板

```python
1. 昨日进展
2. 今日计划
3. 遇到的困难
4. 需要协调的事项
```

### 日报模板

```python
1. 完成工作
2. 遇到的问题及解决方案
3. 明日计划
4. 其他事项
```

通过此次实战，系统性地完成数据挖掘项目，确保达到AUC≥0.75的目标，同时实践完整的团队协作开发流程。