# taxi_predict

**Repository Path**: eshijia/taxi_predict

## Basic Information

- **Project Name**: taxi_predict
- **Description**: No description available
- **Primary Language**: Python
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 2
- **Forks**: 1
- **Created**: 2016-06-23
- **Last Updated**: 2020-12-18

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 出租车寻客预测任务

## 简要说明

- 代码中目前只保留了训练部分，测试部分已注释
- 当前训练代码自动选择了1%作为验证集合
- `h = FeatureHasher(n_features=512)`和`vec = DictVectorizer()`分别预想定义了两种特征映射方法，当前使用的是FeatureHasher（`X_train = h.fit_transform(X_train).toarray()`）
- 当前是将所有的特征作为字符型离散特征处理
- 由于样本数很多，设置的batch_size比较大，为2048
- 验证集合的准确率提升不明显
- 建议clone后直接利用GPU进行训练（`THEANO_FLAGS=mode=FAST_RUN,device=gpu3 python taxi_eval.py`）

## TODO
- 将每一个特征进行Embedding化处理，以语言模型来看待
- 寻找更适合或更有价值的预测任务
- 可以将Kaggle中的比赛数据拿来，用我们的方法进行一些尝试:)