(一)大模型简介

一、概念

1.1、大模型是什么

大语言模型(英文:Large Language Model,缩写LLM),也称大型语言模型,是一种人工智能模型,旨在理解和生成人类语言。

大语言模型 (LLM) 指包含数百亿(或更多)参数的语言模型,这些模型在大量的文本数据上进行训练,例如国外的有GPT-3 、GPT-4、PaLM 、Galactica 和 LLaMA 等,国内的有ChatGLM、文心一言、通义千问、讯飞星火等。

研究界给这些庞大的语言模型起了个名字,称之为“大语言模型(LLM)”。而 LLM 的一个杰出应用就是 ChatGPT。

GPT-3 拥有1750 亿参数, PaLM拥有 5400 亿参数。

1.2、大模型的应用

  • 自然语言处理领域,它可以帮助计算机更好地理解和生成文本,包括写文章、回答问题、翻译语言等。

  • 信息检索领域,它可以改进搜索引擎,让我们更轻松地找到所需的信息。

二、发展历程

20世纪90年代,语言建模的研究,最初采用了统计学习方法,通过前面的词汇来预测下一个词汇。

2003年,深度学习先驱Bengio在论文《A Neural Probabilistic Language Model》中,首次将深度学习的思想融入到语言模型中,使用了更强大的神经网络模型。

2018年左右,研究人员引入了Transformer架构的神经网络模型,通过大量文本数据训练这些模型,使它们能够通过阅读大量文本来深入理解语言规则和模式,就像让计算机阅读整个互联网一样。

随着语言模型规模的扩大(增加模型大小或使用更多数据),模型展现出了一些惊人的能力,通常在各种任务中表现显著提升。这时我们进入了大语言模型(LLM)时代。

三、大模型的能力

3.1、涌现能力(emergent abilities)

涌现能力指的是一种令人惊讶的能力,它在小型模型中不明显,但在大型模型中显著出现。可以类比到物理学中的相变现象,涌现能力的显现就像是模型性能随着规模增大而迅速提升,超过了随机水平,也就是我们常说的量变引起了质变。

三个典型的LLM涌现能力:

上下文学习:上下文学习能力是由 GPT-3 首次引入的。这种能力允许语言模型在提供自然语言指令或多个任务示例的情况下,通过理解上下文并生成相应输出的方式来执行任务,而无需额外的训练或参数更新。

指令遵循:通过使用自然语言描述的多任务数据进行微调,也就是所谓的指令微调。LLM能够根据任务指令执行任务,且无需事先见过具体示例,展示了强大的泛化能力。

逐步推理:小型语言模型通常难以解决涉及多个推理步骤的复杂任务,例如数学问题。然而,LLM通过采用"思维链"推理策略,可以利用包含中间推理步骤的提示机制来解决这些任务,从而得出最终答案。

3.2、作为基座模型支持多元应用的能力

这是一种全新的AI技术范式,借助于海量无标注数据的训练,获得可以适用于大量下游任务的大模型(单模态或者多模态)。多个应用可以只依赖于一个或少数几个大模型进行统一建设。

使用统一的大模型可以极大地提高研发效率,相比于分散的模型开发方式,不仅可以缩短每个具体应用的开发周期,减少所需人力投入,也可以基于大模型的推理、常识和写作能力,获得更好的应用效果,是一项本质上的进步。

大模型可以成为AI应用开发的大一统基座模型。

3.3、支持对话作为统一入口的能力

这项能力让大语言模型真正火爆起来,例如基于对话聊天的ChatGPT。

四、大模型的特点

4.1、巨大的规模:

LLM通常具有巨大的参数规模,可以达到数十亿甚至数千亿个参数。这使得它们能够捕捉更多的语言知识和复杂的语法结构。

4.2、预训练和微调:

LLM采用了预训练和微调的学习方法。它们首先在大规模文本数据上进行预训练(无标签数据),学会了通用的语言表示和知识,然后通过微调(有标签数据)适应特定任务,从而在各种NLP任务中表现出色。

4.3、上下文感知:

LLM在处理文本时具有强大的上下文感知能力,能够理解和生成依赖于前文的文本内容。这使得它们在对话、文章生成和情境理解方面表现出色。

4.4、多语言支持:

LLM可以用于多种语言,不仅限于英语。它们的多语言能力使得跨文化和跨语言的应用变得更加容易。

4.5、多模态支持:

一些LLM已经扩展到支持多模态数据,包括文本、图像和声音。这意味着它们可以理解和生成不同媒体类型的内容,实现更多样化的应用。

4.6、涌现能力:

LLM表现出令人惊讶的涌现能力,即在大规模模型中出现但在小型模型中不明显的性能提升。这使得它们能够处理更复杂的任务和问题。

4.7、多领域应用:

LLM已经被广泛应用于文本生成、自动翻译、信息检索、摘要生成、聊天机器人、虚拟助手等多个领域,对人们的日常生活和工作产生了深远的影响。

4.8、伦理和风险问题:

尽管LLM具有出色的能力,但它们也引发了伦理和风险问题,包括生成有害内容、隐私问题、认知偏差等。因此,研究和应用LLM需要谨慎。

五、常见大模型

大语言模型的发展历程虽然只有短短不到五年的时间,但是发展速度相当惊人,截止 2023 年 6 月,国内外有超过百种大模型相继发布。按照时间线给出了 2019 年至 2023 年 6 月比较有影响力并且模型参数量超过 100 亿的大语言模型,如下图所示:


常见大模型

5.1、闭源 LLM (未公开源代码)

5.1.1、GPT系列

GPT模型:

名称: GPT(Generative Pre-Training)

研发公司:OpenAI

时间:2018 年

特点:生成式预训练语言模型

本质:通过语言建模将世界知识压缩到仅解码器的 Transformer 模型中,这样它就可以恢复(或记忆)世界知识的语义,并充当通用任务求解器

GPT

ChatGPT:

名称:ChatGPT

研发公司:OpenAI

时间:2022 年 11 月

特点:卓越的会话能力,出色的人类交流能力

本质:一个 LLM 应用,基于 GPT-3.5 和 GPT-4

ChatGPT-3

名称:ChatGPT-3

知识截止日期: 2021 年 9 月

支持最长输入:32,000 个字符

参数: 1750亿

特点:代码编写、数学问题求解、写作建议,丰富的知识储备,逻辑推理能力,多回合对话,上下文理解,支持插件机制。

ChatGPT-4

名称:GPT-4 Turbo, Turbo 就相当于是进阶版的意思

知识截止日期: 2023 年 4 月

支持最长输入:128k,相当于 300 页文本

参数:预估1.8 万亿参数,规模是 GPT-3 的 10 倍以上

使用地址: https://chat.openai.com/

5.1.2、Claude 系列

研发公司: Anthropic 公司(OpenAI 离职人员创建)

时间: 2023 年 3 月 15 日 初版

2023 年 7 月 11 日,更新至 Claude-2

特点:可以完成摘要总结、搜索、协助创作、问答、编码等任务。

参数:预估 860.1 亿

Claude 和 Claude-Instant 两种模型可供选择,其中 Claude Instant 的延迟更低,性能略差,价格比完全体的 Claude-v1 要便宜,两个模型的上下文窗口都是 9000 个token(约 5000 个单词,或 15 页)

使用地址: https://claude.ai/chats

5.1.3、PaLM 系列

研发公司: Google

时间:2022 年 4 月,发布初始版本

2023 年 3 月,公开了 API

2023 年 5 月 ,发布了PaLM 2

本质:PaLM 基于 Google 提出的 Pathways 机器学习系统搭建,训练数据总量达 780B 个字符,内容涵盖网页、书籍、新闻、开源代码等多种形式的语料。前 PaLM 共有 8B、62B、540B 三个不同参数量的模型版本。

参数:预估 340B,训练数据为 PaLM 的 5 倍左右。

使用地址: https://ai.google/discover/palm2/

5.1.4 文心一言

研发公司:百度

时间:2023 年 3 月测试版, 2019 年发布 1.0 版,现已更新到 4.0 版本

参数: 2600 亿

本质:基于飞桨深度学习框架进行训练

使用地址:https://yiyan.baidu.com/

5.1.5、星火大模型

研发公司:科大讯飞

时间:2023 年 5 月 6 日 发布,8 月 15 日 升级到 V2.0 版, 2023 年 10 月 24 日 V3.0, 全面对标ChatGPT

特点:多模态能力,已实现图像描述、图像理解、图像推理、识图创作、文图生成、虚拟人合成

参数:1700 亿

参数说明:尽管比 ChatGPT 3.5 模型 1.5 万亿个差着数量级,但 ChatGPT 覆盖了全球主要语言,汉语不到其中 10% 的数据量。所以在现有数据基础上,星火大模型比 ChatGPT 更懂中文。

使用地址: https://xinghuo.xfyun.cn/

5.2、开源LLM

5.2.1、LLaMA 系列

参数: 7B 到 70B

特点:大规模的数据过滤和清洗技术,以提高数据质量和多样性,减少噪声和偏见。LLaMA 模型还使用了高效的数据并行和流水线并行技术,以加速模型的训练和扩展

不需要依赖专有或不可访问的数据集。包括 Common Crawl、Wikipedia、OpenWebText2、RealNews、Books 等。

开源地址: https://github.com/facebookresearch/llama

5.2.2、GLM系列

研发公司:清华大学和智谱 AI 等

时间:2023 年 6 月发布ChatGLM 2, 2023 年 10 月 27 日发布ChatGLM 3

参数:基于 GLM的ChatGLM 具有 62 亿参数

输入支持:支持 2048 的上下文长度

开源地址: https://github.com/THUDM
使用地址:https://chatglm.cn/

5.2.3、通义千问

研发公司:阿里巴巴

时间: 2023 年 4 月正式发布, 2023 年 8 月,开源了Qwen(通义千问)

参数:70亿(7B)Qwen-7B 和140亿(14B) Qwen-14B

开源地址: https://github.com/QwenLM/Qwen/tree/main
使用地址:https://tongyi.aliyun.com/

5.2.4、Baichuan 系列

研发公司:百川智能

时间:2023 年 10 月 30 日,发布 Baichuan2-192K 大模型

参数:Baichuan-7B 70 亿, Baichuan-13B 130亿

开源地址: https://github.com/baichuan-inc

六、什么是 LangChain

6.1、langchain简介

问题: 尽管大型语言模型的调用相对简单,但要创建完整的应用程序,仍然需要大量的定制开发工作,包括API集成、互动逻辑、数据存储等等

解决: langchain帮助开发者们快速构建基于大型语言模型的端到端应用程序或工作流程。

总结: LangChain 框架是一个开源工具,充分利用了大型语言模型的强大能力,以便开发各种下游应用。它的目标是为各种大型语言模型应用提供通用接口,从而简化应用程序的开发流程。

6.2、发展历史

作者:Harrison Chase

时间:2022 年 10 月在 github 上开源

发展历史

6.3、核心组件

LangChian 作为一个大语言模型开发框架,可以将 LLM 模型(对话模型、embedding模型等)、向量数据库、交互层 Prompt、外部知识、外部代理工具整合到一起,进而可以自由构建 LLM 应用。

LangChain 主要由以下 6 个核心模块组成:

模型输入/输出(Model I/O):与语言模型交互的接口
数据连接(Data connection):与特定应用程序的数据进行交互的接口
链(Chains):将组件组合实现端到端应用。
记忆(Memory):用于链的多次运行之间持久化应用程序状态;
代理(Agents):扩展模型的推理能力。用于复杂的应用的调用序列;
回调(Callbacks):扩展模型的推理能力。用于复杂的应用的调用序列;

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,874评论 6 479
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,151评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,270评论 0 342
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,137评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,116评论 5 370
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,935评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,261评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,895评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,342评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,854评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,978评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,609评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,181评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,182评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,402评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,376评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,677评论 2 344

推荐阅读更多精彩内容