# transformer_test

**Repository Path**: TomCoCo/transformer_test

## Basic Information

- **Project Name**: transformer_test
- **Description**: 学习版本的transformer测试项目,attention_multi文件是Transformer处理文本分类实例(Pytorch).参见
https://blog.csdn.net/qq_37293230/article/details/140828254
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2024-10-23
- **Last Updated**: 2024-10-23

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

学习版本的transformer测试项目

参见文章: https://blog.csdn.net/qq_37293230/article/details/140828254

~~填充mask?~~ 在注意力矩阵建立时,将填充的数据覆盖为负无穷,这样执行softmax会计算为0,且不影响其他数据,即对最终的输出概率分布没有实际贡献。
~~词表的更新新?~~ 词表可以单独保存,合并为最后一条
~~dropout !~~
模型复杂度
~~cuda~~ 运行时注册生成,需要指定设备
~~自回归掩码~~,是一个上三角矩阵(或下三角矩阵),如果是gpt预测下一句话这样的模型,则单句话可以使用掩码多次训练,每次掩去后一部分即(自回归掩码)
~~input_ids?~~ 仅仅使用了词表的映射关系,没有使用词向量,
内建词向量的保存

使用填充掩码可以收敛速度更快,如图
不适用填充掩码,也可以稳定收敛,即让模型学习到什么是掩码,以及掩码不起作用这件事情
![img_3.png](./doc/img_3.png)