1
4
3
10139
0
GPT GPT全称为Generative Pre-trained Transformer,它使用了Transformer中的Decoder架构,...
Bert BERT,全称为“Bidirectional Encoder Representations from Transformers”,是...
description: >-传统的RNN,GRU,LSTM他们都有一个问题,就是不能并行计算。同时虽然LSTM解决了长期依赖性的问题,但如果我...