# Datawhale-Tianchi-NLP-Tutorial

**Repository Path**: moon_mx/Datawhale-Tianchi-NLP-Tutorial

## Basic Information

- **Project Name**: Datawhale-Tianchi-NLP-Tutorial
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2020-10-30
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 零基础入门NLP-新闻文本分类

* [天池比赛地址](https://tianchi.aliyun.com/competition/entrance/531810/introduction?spm=5176.12281973.1005.1.65531f54eHuMAA)
* [Datawhale开源地址](https://github.com/datawhalechina/team-learning-nlp/tree/master/NewsTextClassification)

## 模型
* TextCNN
* TextRNN
* HAN
* BERT

## 目录
```
├── bert                # BERT预训练  
├── config              # 模型配置    
├── data                # 训练数据   
├── docs                # 教程文档   
├── emb                 # 词向量以及BERT权重    
├── module              # 模块相关代码    
├── src                 # 训练相关代码   
├── preprocessing.py    # 预处理   
├── README.md           # 说明文档  
├── train.py            # 训练代码  
├── train.sh            # 训练脚本  
└── word2vec.py         # word2vec训练代码  
```

# 依赖
* [fitlog](https://github.com/fastnlp/fitlog)
* gensim
* pandas
* pytorch == 1.2.0
* transformers == 2.9.0
* tensorflow == 1.12

# 快速开始
1. 将数据和词向量分别放在`data`和`emb`目录下,初始化fitlog `fitlog init .`
2. 运行预处理代码`python preprocessing.py`
3. 运行训练脚本`bash train.sh`


## 关于Datawhale

> Datawhale是一个专注于数据科学与AI领域的开源组织，汇集了众多领域院校和知名企业的优秀学习者，聚合了一群有开源精神和探索精神的团队成员。Datawhale 以“for the learner，和学习者一起成长”为愿景，鼓励真实地展现自我、开放包容、互信互助、敢于试错和勇于担当。同时 Datawhale 用开源的理念去探索开源内容、开源学习和开源方案，赋能人才培养，助力人才成长，建立起人与人，人与知识，人与企业和人与未来的联结。

欢迎关注：

 ![](http://jupter-oss.oss-cn-hangzhou.aliyuncs.com/public/files/image/1095279172547/1584432602983_kAxAvgQpG2.jpg)