# TMC **Repository Path**: yinjingping/TMC ## Basic Information - **Project Name**: TMC - **Description**: No description available - **Primary Language**: Python - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-06-27 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ``` 2020 腾讯广告算法大赛 分数:1.328 名次:333/11000 采用模型5,只使用了特征 creative_id 思路:https://aping-dev.com/TMC/ 0_prepare_data.ipynb: 1. 下载训练数据和测试数据的压缩文件并解压。 2. 读取训练数据的三张表:click_log.csv,user.csv,ad.csv。 读取测试数据的两张表:click_log.csv,ad.csv。 3. 将训练数据和测试数据合并为一张表。 1_w2v.ipynb: 将每个用户的 creative_id 拼在一起,作为一篇文章,训练词向量。 3_nlp.ipynb 1. 加载词向量。 2. 构造数据。 输入:每个用户的 creative_id 拼在一起,作为一篇文章,根据加载的词向量将其 tokenizer 化。将所有的文章长度对齐。 输出:age * 10 + gender,共 20 种标签。 4. 模型构建、训练。采用一维卷积神经网络进行文本分类,共分为 20 类。需要将加载进来的 Embedding 冻结,不训练。 5. 预测。 ```