加入位置信息之后的矩阵【5,129,256】——经过一个全连接层
【5,129,768(256*3)】——切成QKV三个矩阵【5,129,256】
——将129*256的矩阵拆开,拆成4个129*64的矩阵,原来每一行是256个数,现在的每一行是64个数一行拆成4行具体的操作是将矩阵的数据全部被展开然后重新排列【5,129,4,64】——第二维度和第三维度转换【5,4,129,64】
全连接层
对张量进行切片
什么叫横着截断【一个长为768的序列排成一列,256,256,256】
dim=-1,意思就是在第三个维度上(最后一个维度)截断
将129*256的矩阵拆开,
拆成4个129*64的矩阵
原来每一行是256个数,现在的每一行是64个数
一行拆成4行
具体的操作是将矩阵的数据全部被展开然后重新排列