# taxi_predict **Repository Path**: eshijia/taxi_predict ## Basic Information - **Project Name**: taxi_predict - **Description**: No description available - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 2 - **Forks**: 1 - **Created**: 2016-06-23 - **Last Updated**: 2020-12-18 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 出租车寻客预测任务 ## 简要说明 - 代码中目前只保留了训练部分,测试部分已注释 - 当前训练代码自动选择了1%作为验证集合 - `h = FeatureHasher(n_features=512)`和`vec = DictVectorizer()`分别预想定义了两种特征映射方法,当前使用的是FeatureHasher(`X_train = h.fit_transform(X_train).toarray()`) - 当前是将所有的特征作为字符型离散特征处理 - 由于样本数很多,设置的batch_size比较大,为2048 - 验证集合的准确率提升不明显 - 建议clone后直接利用GPU进行训练(`THEANO_FLAGS=mode=FAST_RUN,device=gpu3 python taxi_eval.py`) ## TODO - 将每一个特征进行Embedding化处理,以语言模型来看待 - 寻找更适合或更有价值的预测任务 - 可以将Kaggle中的比赛数据拿来,用我们的方法进行一些尝试:)