酷酷的群 - 简书

发简信

酷酷的群

0
关注
915
粉丝
129
文章
299206

字数
1818

收获喜欢
96

总资产

IP属地：浙江

酷酷的群

直接偏好优化技术DPO基础理论及推导
论文标题：Direct Preference Optimization: Your Language Model is Secretly a Reward Model论文链接...

243 0 1
酷酷的群

生成式大模型的RLHF技术（一）：基础
一、概述大语言模型（LLMs）在预训练的过程中通常会捕捉数据的特征，而这些训练数据通常既包含高质量的也包含低质量的，因此模型有时会产生不被期望的行为，如编造事实，生成有偏见...

632 0 1
酷酷的群

LoRA：大模型下游任务的低秩适应
论文标题：LoRA: Low-Rank Adaptation of Large Language Models论文链接：https://arxiv.org/abs/2106....

562 0 1
酷酷的群

思维链Prompting促进大型语言模型的推理能力
论文标题：Chain-of-Thought Prompting Elicits Reasoning in Large Language Models论文链接：https://...

1408 0 2
酷酷的群

Megatron-LM：Transformer模型专用分布式张量模型并行方法
论文标题：Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallel...

418 0 1
酷酷的群

思维树：大模型的复杂推理技术
论文标题：Tree of Thoughts: Deliberate Problem Solving with Large Language Models论文链接：https:...

593 0 1
酷酷的群

LIMA：小规模监督数据指令微调
论文标题：LIMA: Less Is More for Alignment论文链接：https://arxiv.org/abs/2305.11206[https://arxi...

252 0 1
酷酷的群

语言模型的自洽性思维链推理技术
论文标题：Self-Consistency Improves Chain of Thought Reasoning in Language Models论文链接：https:...

280 0 1
酷酷的群

GPipe：微批量流水线并行
论文标题：GPipe: Easy Scaling with Micro-Batch Pipeline Parallelism论文链接：https://arxiv.org/ab...

248 0 2