LLama1, LLama2和LLama3的区别有哪些?
- 参数规模
第一代和第二代的Llama模型都包含了四个不同参数规模的版本,其中最小的模型参数规模在70亿,往上分别有130亿、340亿和700亿(第一代最高的是650亿)。而此次发布的第三代Llama3模型,目前公开的只有80亿参数规模版本和700亿版本。而根据透露,最高的参数版本是4000亿参数规模的模型。只是目前还在训练中。 - 模型结构
LLama3全部都用了GQA来实现加速训练和推理。 - 上下文长度
Llama三代模型的上下文长度分别是2K、4K和8K,虽然Llama3训练是8K上下文,但是按照目前业界的技术,应该是可以继续拓展到更长上下文的。而官方也说过,未来Llama3会有更长上下文的版本。
- 词汇表
在Llama1和Llama2中,MetaAI的词汇表都是32K大小,这可能与前两代模型的训练数据差距不大有关。而第三代的Llama3模型的词汇表大小变为128K,也就是说它的tokenizer有了较大的变化。更大的词汇表意味着更强的语义表达能力,也是支持更多语言的一个基础。
- 训练过程
训练过程的升级我们主要看训练时间和训练数据的变化。此前,业界一直说大模型的训练成本在下降。但是从Llama3的变化看,下降的是单位训练成本,但是大模型总的训练成本其实在大幅增长。 - 训练数据
Llama3模型的训练数据大幅增长,Llama3的训练数据达到了15万亿,比第一代和第二代Llama模型加在一起还多好几倍。如下图所示,第一代的小一点的模型训练数据是1万亿tokens,而较大的650亿规模的模型训练数据是1.4万亿tokens。到了第二代Llama2系列,训练数据都增长到了2万亿tokens。
- 训练时长
在Llama1论文发布的时候,训练Llama1模型可能花费了几百万上千万美金。原因是650亿参数的Llama1模型训练了102万个GPU小时,按照公有云A100租赁的价格打折计算,这个成本也是几百万美金。到了Llama3模型这里,训练成本的增长更为恐怖,Llama3-8B模型的训练时长比650亿参数规模的Llama1模型还长。结果如下:
- 评价指标
三代不同Llama系列在综合理解评测基准MMLU、数学推理GSM8K以及代码能力HumanEval的评测结果显示,Llama3相比Llama2的提升应该是比Llama2相比Llama1的提升要高的多的。
本文由mdnice多平台发布