1
3
13
12492
0
基本介绍 transformer 最早使用于NLP模型中,使用了 Self-Attention 机制。相较于RNN结构可以进行并行化训练,能够拥有全局信息。 基本原理基本思想...