# bjAI23_data_mining **Repository Path**: wine-wf/bj-ai23_data_mining ## Basic Information - **Project Name**: bjAI23_data_mining - **Description**: 来到了数据挖掘实战, 人才流失预测案例, 主要考核指标AUC, 大家加油... - **Primary Language**: Python - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 1 - **Created**: 2025-04-19 - **Last Updated**: 2026-02-12 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## 实战项目要求 ### Git操作 - clone 项目 - 代码的commit push pull 操作 - 拉分支,切换分支 - 冲突的解决 ### 步骤 先装git,配置,申请成为开发者 clone项目 切换到自己组的分支中 group_01 - 每个组找一个同学建立项目结构 - commit/push 操作的都是文件 如果创建了一个空白的文件夹, 里面没有任何文件, 是不能被提交的 - 一个同学建立目录结构之后, 其它同学pull 把新的目录结构pull 下来之后, 拉自己的分支 - 如果已经拉了自己的分支, 可以把自己组的修改 merge过来 ### 时间安排 1.21日下午2点前完成,下午2点开始进行项目答辩。 ### 实战要求 - 各组每天早晨开晨会 - 每天晚上各组成员需要向组长提交日报 - 组长需要尽快完成项目安排, 并写入研发计划 - 建议:大家都要做,遇到分歧一起讨论,挑选最优方案进行汇报 - 结果提交: 模型AUC>=0.75 - AUC值通过真实标签与预测正类的概率值计算得出,例如:roc_auc_score(y_test, model.predict_proba(x_test)[:, 1]) - 开发过程中遇到问题, 优先组内解决, 实在无法解决再找老师寻求帮助 注意代码及时commit , 功能完成时记得push到远端(gitee) ### 开发中用到的工具 - git 版本控制工具, 用于代码管理 ## 实战项目说明 ### 介绍 ```shell #1.人才流失预测 预测人才会不会流失,相对比较简单。评比的标准项目。 #2.天猫复购预测 预测用户会不会复购,有一定的难度,适用于学有余力的同学。 #1.捷信风控预测 预测用户会不会违约,有一定的难度,且数据量大,内存最好>16G ``` ### 评价指标 ```shell #1.人才流式 AUC #2.天猫复购 AUC #3.捷信风控 AUC、KS ``` ### 思路参考 ```shell #1.数据加载 #2.探索性数据分析 #3.特征工程 人才流失中,更多的是做特征选择 天猫复购中,特征衍生 捷信风控中,需要大内存,套路和课程中类似 #4.模型训练 二分类问题,决策树,逻辑回归,随机森林,集成学习,xgboost,LightGBM都可以尝试。 #5.模型评估 三个案例中,AUC>=0.75。 (捷信风控中需要计算KS) ```