12
0
写了 37225 字,被 2 人关注,获得了 2 个喜欢
转载自| 新智元 【导读】换个优化器,计算量少一半。 自Google提出Vision Transformer(ViT)以来,ViT渐渐成为许多视觉任务的默认backbone。...
写了 324042 字,被 261 人关注,获得了 640 个喜欢
关键词:LLaMA,Transformer,GLU,SwiGLU 前言 SwiGLU激活函数在PaLM,LLaMA等大模型中有广泛应用,在大部分测评中相较于Transform...
写了 764 字,被 56205 人关注,获得了 371 个喜欢
写了 581415 字,被 70610 人关注,获得了 137309 个喜欢
写了 890893 字,被 50115 人关注,获得了 91540 个喜欢
写了 1884138 字,被 73122 人关注,获得了 223276 个喜欢
写了 364164 字,被 68490 人关注,获得了 128621 个喜欢
写了 3343388 字,被 56766 人关注,获得了 93905 个喜欢
写了 3962927 字,被 121443 人关注,获得了 5011 个喜欢
写了 2419804 字,被 70378 人关注,获得了 169682 个喜欢
写了 387140 字,被 120822 人关注,获得了 11958 个喜欢
写了 0 字,被 643342 人关注,获得了 74527 个喜欢