# Rent Housing Listing数据集分析--Logistic Regression 和 SVM **Repository Path**: edwinjiang703/renthouse ## Basic Information - **Project Name**: Rent Housing Listing数据集分析--Logistic Regression 和 SVM - **Description**: 包含特征处理、模型检测及调优,多种算法的比对。 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2018-06-07 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Rent Housing Listing数据集分析--Logistic Regression 和 SVM #### 文件: ##### 1 特征处理文件: 在Rent Listing Inquires数据集上的Logistics与SVM的分析.ipynb ##### 2 模型训练文件: Rent House Listing数据集测试.ipynb ##### 3 训练集特征处理结果: RentListingInquries_FE_train.zip #### 一 特征处理 1) 先对日期格式进行了处理。分为年、月、日、星期、天数等 2) 对价格的异常值做了处理 3) 对经纬度的处理,采用的是KMeans方法加距离公式(欧式和曼哈顿)。 4) 参考Kaggle论坛,对manager_id以及对应的interest_level生成了新的特征,manager_skill。同时对manager_id进行了编码,按照maanger在数据集中数量分为几个级别。top10,top25.....共9个级别 5) 对display和street的addres的处理,先计算了这两个字符串之间的Levenshtein 的相似度。小于0.5的比例占整个数据集的2%。所以可以考虑删除其中一个特征。这里删除的是display_address.然后再根据interest的不同值来计算street_address的均值。用这个计算值代替street_addres 6) 对feature的处理,同样参考了Kaggle的处理,用countvector的方式来生成新的特征。但是在做后面模型测试时发现这些稀疏的矩阵并没有起到优化模型的作用,反而使得SVM训练很慢,我采取的办法就是对着196个新特征进行了PCA分析,变成11个特征。然后添加到训练数据当中。 7) 对其他特征查看了特征分布情况。 interest_level分类标签是不均衡的。比例大概在1:3:7 #### 二 测试结果: 从我的测试来看,房子的address这个特征比较重要,去掉这个特征后,loss会下降10个百分点。要比manager的重要程度高一些。其实,租住房子跟地段确实有很大的关系。比如离上班的远近、生活设施是否完善等都有很大关系。 1 Logistics Regression: 1) 使用liblineaar: score: 0.83100988815 neg-log-loss: 0.372695564128 参数:{'C': 10, 'multi_class': 'ovr', 'penalty': 'l1', 'solver': 'liblinear'} 2)使用lbfgs: score : 0.831232776787 log-loss:0.370617241236 曼哈顿距离 参数: {'C': 10, 'multi_class': 'multinomial', 'penalty': 'l2', 'solver': 'lbfgs'} score: 0.83082752472 log-loss:0.371018102453 欧式距离 岑数:{'C': 100, 'multi_class': 'multinomial', 'penalty': 'l2', 'solver': 'lbfgs'} 2 SVM: 计算时间较长,运行了大约6个小时 score: 0.734093856379 效果不好。原因进一步查找。很大可能还是数据特征处理的不好。 参数: {'C': 0.10000000000000001, 'gamma': 0.01}