# Bert_BaseLine

**Repository Path**: jerryyang66/Bert_BaseLine

## Basic Information

- **Project Name**: Bert_BaseLine
- **Description**: 一个BERT+BiLSTM的情感分析 BaseLine
- **Primary Language**: Unknown
- **License**: Apache-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 1
- **Created**: 2020-10-31
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README


[![996.icu](https://img.shields.io/badge/link-996.icu-red.svg)](https://996.icu)


### Bert plus LSTM
#### 一个简单的NLP项目（文本情感分析）的Bert baseline ，flask后端API，修改了全局model load的方式，增加了模型推理的速度，使用nginx搭配Gunicorn启动Flask，使用虚拟环境搭配sh的启动方式，可以直接对model进行一键重启，并有错误日志监控，使用post请求，url= 'http://127.0.0.1:5000/sentiment_analysis_api'


#### 下载预训练的Bert模型， bert_local :  D:/bert文本分类/chinese_L-12_H-768_A-12/chinese_L-12_H-768_A-12

> bert可视化架构说明  [click](http://jalammar.github.io/illustrated-transformer/)
 
## 输出结果
> 第一次使用初始化的时候比较耗时，第二次预测的速度明显加快，后面的推理就正常了

```

{'content': '这家酒店很垃圾', 'sa': '0.1816334'}

time used:0.08649280000000001

```

### tensorboard 加载 ;>tensorboard --logdir=tensorboard
> 1. 地址： [click](http://carrychang:6006/ )
> 2. 中文BERT地址 ： [click](https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip)
## tips:
> 1. 中文使用词的方式训练比较合适
> 2. 在遇到含有数字的时候，将数字统一进行变换为null即可
> 3. 在遇到英文处理的时候，可以使用整体的覆盖
> 4. 在工业界使用模型的用法就是将本次的训练的结果只保留权重，因为架构数据都是固定不变的，将数据固定化为hset，下次训练直接覆盖权重数据即可。
### 模型保存的建议：
> 1. HDF5格式文件保存的是 ： Model weights
> 2. H5 格式文件保存的是： Model stucture 和 Model weights
> 3. JSON 和 YAML 格式保存的是： Model stucture