# DataMining2022 **Repository Path**: sun__ye/data-mining2022 ## Basic Information - **Project Name**: DataMining2022 - **Description**: DataMining2022春大作业,考核项目是基于铁路搭乘数据,挖掘搭成行为异常的小偷 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2022-06-05 - **Last Updated**: 2022-07-03 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## DataMining大作业 ### DDL 6.6号与6.13号是我们这学期最后两次课,由小组做presentation,6分钟左右,大家一起讨论完成。介绍一下你们组对这个项目的初步方案或一些初步尝试的结果,旨在分享与讨论,看看大伙的思路,不以presentation提供的方案为最终方案,之后大家仍然可以参照他组方案,改进自己的方案,换言之,内容可以与最终报告完全不同。 然后以组为单位,7.1号,提交报告,报告不需要以篇幅多取胜,不需要介绍经典算法,除非你们在此基础上有改进,否则直接以实验报告的模式,写清楚你们自己的处理方法和实验结果即可 ### 作业要求 考核项目是基于铁路搭乘数据,挖掘搭成行为异常的小偷。提供给大家的是单次的购买搭乘数据,大家可以根据问题需要,把自己当成铁路公安人员,分析小偷可能的搭乘行为特征,自己建模构建特征,选择合适的算法进行挖掘 一言以蔽之,presentation与report都按极简原则,能把自己工作介绍清楚的最凝炼版本呈现,只给有价值的骨骼,杜绝填充式的肥肉,节约我们彼此的时间 ### Q&A Q: 数据中的乘车时长好像都是整数小时,会不会这份数据中的乘车时长最小粒度只精确到了小时,这些为0的情况其实代表短时间乘车(乘车时长小于1h),也属于正常数据 A: 可以当做到达地缺失,出站时候没有验票。我们不能剔除那些数据,经过和同学的讨论,时间为0是因为时间粒度精确在小时,所以所有一小时内的车程都是显示0,然后有缺项NaN的数据我们也不去除,可以根据车的型号和时间补上NaN Q: 数据中座位类别里面的几种分别代表什么意思呀?YZ,RZ,GD,ZP A: 硬座,软座,高动,站票 ### 数据描述 data.csv为本次文本挖掘的数据集,特征说明如下: ![](https://gitee.com/sun__ye/gallery/raw/master/2022summer/202206021004579.png) `df.describe()`数据描述如下: | | count | unique | top | freq | mean | std | min | 25% | 50% | 75% | max | notnull_ratio | valid_ratio | dtypes | | ------------: | -------: | -----: | ---------: | -----: | ----------: | ----------: | ---: | ----: | -----: | -----: | ------: | ------------: | ----------: | -----: | | PPID | 985759.0 | | | | 3402.17719 | 3476.054624 | 1.0 | 561.0 | 1345.0 | 6243.0 | 11106.0 | 1.0 | | int64 | | TRAIN_TYPE | 985759 | 2 | D | 536839 | | | | | | | | 1.0 | 0.455405 | str | | TRAIN_CODE | 985759 | 320 | D102 | 121218 | | | | | | | | 1.0 | 0.877031 | str | | BOARD_DATE | 985759 | 324 | 2012/09/16 | 3188 | | | | | | | | 1.0 | 0.996766 | str | | BOARD_TIME | 985759 | 1440 | 9:34:00 | 2426 | | | | | | | | 1.0 | 0.997539 | str | | ARRIVAL_DATE | 985759 | 336 | 2012/05/10 | 3169 | | | | | | | | 1.0 | 0.996785 | str | | ARRIVAL_TIME | 985759 | 1451 | 9:00:00 | 2054 | | | | | | | | 1.0 | 0.997916 | str | | START_STA | 968115 | 399 | 沈阳北 | 211699 | | | | | | | | 0.982101 | 0.767344 | str | | ARRIVAL_STA | 968086 | 399 | 沈阳北 | 211770 | | | | | | | | 0.982072 | 0.767242 | str | | TRAVEL_TIME | 985759 | 27 | 1:00:00 | 444248 | | | | | | | | 1.0 | 0.549334 | str | | TRAVEL_LENGTH | 985759.0 | | | | 320.486959 | 347.281087 | 0.0 | 154.0 | 154.0 | 400.0 | 3239.0 | 1.0 | | int64 | | SEAT_TYPE | 985759 | 4 | GD | 536839 | | | | | | | | 1.0 | 0.455405 | str | | COACH_NO | 985759.0 | | | | 8.506261 | 4.607125 | 1.0 | 5.0 | 9.0 | 13.0 | 16.0 | 1.0 | | int64 | | SEAT_NO | 985759.0 | | | | 45.507733 | 25.967664 | 1.0 | 23.0 | 46.0 | 68.0 | 90.0 | 1.0 | | int64 | | BUYYER_PID | 985759.0 | | | | 3402.122995 | 3475.997484 | 1.0 | 561.0 | 1345.0 | 6243.0 | 11106.0 | 1.0 | | int64 | ### 说明 1. 自己的代码及输出放在以自己名字命名的文件夹下,一定要建立`README.md`文档,写自己的工作内容 2. 可以通过jupyter直接运行代码:http://152.136.185.123:9041/tree/sy/Desktop/DM (密码:digitalmofs)或者本地运行后上传结果 3. 对应的文件目录信息:http://actvis.cn/data2/sy/Desktop/DM 可在此上传下载文件 ### 预处理阶段(5.29-6.2)分工 - sy:时空跨度 - lyk:时间序列(早晚信息) - ww:非时空数据(最后4列) - qjc:数据整体(个人粒度) ppt链接:https://docs.qq.com/slide/DZUFzeHFOSFdMRE1u?u=c1878a75876a476285378cb52521e6bc&&_t=1654418863347 每人写两页ppt