一、数据说明: Capital Bikeshare (美国Washington, D.C.的一个共享单车公司)提供的共享单车数据。数据包含每天的日期、天气等信息,需要预测每天的共享单车骑行量。 二、作业要求: 1. 对数据做数据探索分析(可参考EDA_BikeSharing.ipynb,不计分) 2. 适当的特征工程(可参考FE_BikeSharing.ipynb,不计分) 3. 对全体数据,随机选择其中80%做训练数据,剩下20%为测试数据,评价指标为RMSE。(10分) 4. 用训练数据训练最小二乘线性回归模型(20分)、岭回归模型、Lasso模型,其中岭回归模型(30分)和Lasso模型(30分)需采用5折交叉验证得到最佳正则超参数。 5. 比较用上述三种模型得到的各特征的系数,以及各模型在测试集上的性能。并简单说明原因。(10分)
最近更新: 7年多前