12
0
写了 37225 字,被 2 人关注,获得了 2 个喜欢
转载自| 新智元 【导读】换个优化器,计算量少一半。 自Google提出Vision Transformer(ViT)以来,ViT渐渐成为许多视觉任务的默认backbone。...
写了 324042 字,被 262 人关注,获得了 641 个喜欢
关键词:LLaMA,Transformer,GLU,SwiGLU 前言 SwiGLU激活函数在PaLM,LLaMA等大模型中有广泛应用,在大部分测评中相较于Transform...
写了 764 字,被 56202 人关注,获得了 371 个喜欢
写了 583097 字,被 70677 人关注,获得了 137332 个喜欢
写了 902976 字,被 50159 人关注,获得了 91321 个喜欢
写了 1907113 字,被 73111 人关注,获得了 225061 个喜欢
写了 373688 字,被 68492 人关注,获得了 130622 个喜欢
写了 3666633 字,被 56782 人关注,获得了 97243 个喜欢
写了 4012333 字,被 121435 人关注,获得了 5076 个喜欢
写了 2452710 字,被 70412 人关注,获得了 173204 个喜欢
写了 387140 字,被 120812 人关注,获得了 11955 个喜欢
写了 0 字,被 643304 人关注,获得了 74524 个喜欢