Address
304 North Cardinal St.
Dorchester Center, MA 02124

Work Hours
Monday to Friday: 7AM - 7PM
Weekend: 10AM - 5PM

关于GPT-4,这里有你想知道的一切

首页 » Blog » 关于GPT-4,这里有你想知道的一切

2023 年第 3 季度:此模型卡代表了公开的 GPT-4 模型研究的综合成果——在此分析中,我们站在巨人的肩膀上(并汇总了他们的数据点)。

GPT-4 – 2023 年最先进的法学硕士

GPT-4 代表了大型语言模型功能的重大飞跃。它由 OpenAI 开发,建立在 GPT-3 的架构和优势之上,同时实现了新的规模和性能水平。

OpenAI 的 GPT-4 目标是创建一个比 GPT-3 大 10 倍以上的模型。这不仅需要更大的训练计算能力,还需要全新的模型架构和推理服务方法。

有关 GPT-4 的一些关键事实:

  • 总参数:约 1.8 万亿(比 GPT-3 多 10 倍以上)
  • 架构:使用混合专家(MoE)模型来提高可扩展性
  • 训练计算:在约 25,000 个 Nvidia A100 GPU 上训练超过 90-100 天
  • 训练数据:在约 13 万亿代币的数据集上进行训练
  • 推理计算:在 128 个 A100 GPU 集群上运行,以实现高效部署
  • 上下文长度:支持最多 32,000 个上下文标记

使用前请仔细检查 GPT-4 输出,因为如果没有适当的监督,该模型可能会生成有害、有偏见或事实上不正确的文本。

GPT-4 型号详情

范围细节
组织开放人工智能
型号名称GPT-4
型号类型专家混合的变压器
参数1.8万亿
上下文窗口8-32,000 个代币
发射日期2023 年 3 月
当前版本1.1(版本 06.13)
训练数据集13 万亿代币(网络文本、书籍、其他)

计算

计算细节
训练25,000 个 Nvidia A100 GPU 上的 90 天
推理128个A100 GPU集群

训练数据

范围细节
数据源CommonCrawl、WebText2、书籍、维基百科、Reddit、亚马逊评论
数据量约 13 万亿代币
数据准备去重、清理、过滤
潜在的偏见语言、性别、种族代表性

API和数据格式

  • 聊天完成API
  • 多轮消息类型
  • 系统、功能、用户、助手
  • 使用消息数组进行 JSONL 微调

有可能的使用

  • 文本生成
  • 问答
  • 分类
  • 会话代理

因素

  • 语言:英语
  • 功能:文本生成、问答、文本分类
  • 方式:文本
  • 道德考虑:潜在的偏见、有害的输出、滥用

指标

  • 困惑度:未知
  • F1:未知
  • 准确度:未知

局限性

  • 无法进行微调(GA 发布目标 2023 年 10 月)
  • 潜在的有害、有偏见的输出
  • 缺乏有根据的推理
  • 事实上不正确的输出
  • 将错误模型化为真理

性能控制

  • 温度
  • Top-k 采样
  • Top-p 采样

语言支持

GPT-4 在 MMLU 基准测试的 26 种不同语言的翻译版本上进行了测试。在测试的 26 种语言中,它在 24 种语言中的表现优于 GPT-3.5 和其他法学硕士,其中包括拉脱维亚语、威尔士语和斯瓦希里语等资源匮乏的语言。Datacamp 和 MakeUseOf 文章还指出了 GPT-4 的多语言功能,支持英语、法语、德语、西班牙语、中文、日语、韩语等之间的翻译。Translated Labs 指出,由于英语在训练数据中占主导地位,GPT-4 在英语和其他语言之间的性能存在差异。他们的 T-LM 产品通过翻译提示来帮助解决这个问题,以增强 GPT-4 的 200 种语言的功能。

关于GPT-4,这里有你想知道的一切

道德考虑

GPT-4 可能会被滥用并产生有害的社会影响。使用前仔细检查输出。不要将其视为事实陈述。如有疑问或疑虑,请联系safety@openai.com

模型架构

GPT-4 的模型架构不再采用标准的 Transformer 方法。相反,它采用了专家 (MoE) 混合设计。

在 MoE 架构中,有专门处理某些任务或数据类型的单独的专家神经网络。对于每个推理查询,选择适当的专家模型来处理该特定输入。

这提供了两个主要优点:

  1. 整个模型的规模可以显着扩大,同时对于任何给定的查询仅通过一小部分专家参数进行推理。这使得推理成本保持实用。
  2. 专家的混合可以发展专业知识,提高整体能力。

具体来说,GPT-4 包括:

  • 16 个专家模型,每个模型都有约 111B 参数
  • 每个推理查询激活 2 个专家
  • 55B共享参数注意事项
  • 结果每个推理过程使用约 280B 个参数

顶部提示

这种架构很可能会阻止真正的温度 0 设置,从而导致由采样和路由到专家混合引起的推理方差。此外,CUDA 驱动程序浮点运算是非相加的。这一理论在 2023 年 9 月与 Stephen Wolfram 的 1:1 讨论中得到证实。

这种架构允许 GPT-4 总共达到超过 1.8 万亿个参数,而每个查询仅使用数千亿个参数。

训练

训练像 GPT-4 这样大的模型需要大量的计算资源。它突破了现有基础设施的限制。

关于GPT-4,这里有你想知道的一切

有关 GPT-4 训练过程的关键事实:

  • 同时在约 25,000 个 Nvidia A100 GPU 上进行训练
  • 批量大小随着时间的推移而增加,最终达到 6000 万个代币
  • 连续培训总计90-100天
  • 总共需要 2.15e25 次浮点运算 (FLOP)
  • 在约 13 万亿代币的数据集上进行训练

为了实现这一点,使用了广泛的并行技术:

  • 8 路张量并行性可跨 GPU 分配模型
  • 15 路管道并行性可将批次分为多个阶段
  • 各种集群拓扑可最大化 GPU 间带宽

结果是人工智能模型有史以来最大的计算工作之一。

推理

由于其规模和专家架构的混合,大规模部署 GPT-4 进行推理是一项重大挑战。高效的推理直接影响成本。

有关 GPT-4 推理的关键事实:

  • 在 128 个 A100 GPU 集群上运行
  • 利用 8 路张量并行性和 16 路管道并行性
  • 仔细平衡延迟、吞吐量和利用率
  • 可以使用推测解码将吞吐量提高 2-3 倍
  • 多查询注意力减少了长上下文的内存需求

推理集群旨在最大限度地提高吞吐量和硬件利用率。这可以降低每次查询的成本。

针对不同专家模型的一致批处理查询仍然存在挑战。但总体而言,基础设施可以有效部署 GPT-4,且价格不会过高。

了解 GPT-4 中的令牌丢弃

GPT-4 中使用的专家混合 (MoE) 架构依赖于令牌路由机制来确定哪些专家处理每个令牌。这可能会导致某些令牌被“丢弃”或未处理。

GPT-4 使用简单的 top-2 令牌路由方法,其中每个令牌根据路由器发送给 2 个最有可能的专家。专家本身对每批可以处理的代币数量有一定的限制。

当跨长输入序列和大批量进行聚合时,通常会超出专家容量,导致令牌被丢弃。与直觉相反,一定程度的丢弃实际上有利于模型性能和效率,因为它可以防止专家过载。

掉落是不确定的 – 运行相同的提示两次可能会导致每次不同的掉落。这是因为根据容量,不同批次的代币掉落情况有所不同。模型本身仍然是确定性的。

虽然 OpenAI 可以调整专家能力并减少丢失,但这将大大增加推理时间和成本。当前的权衡可以实现廉价的大规模部署。掉落是稀疏 MoE 设计所固有的。

了解路由如何导致丢弃可以深入了解 GPT-4 中的随机性观察。掉落因用途而异,但模型逻辑本身却没有。

未来

关于GPT-4,这里有你想知道的一切

GPT-4 在语言模型基础方面取得了令人瞩目的进展。然而,未来的模型可能需要扩展到纯粹基于文本的方法之外。

未来的一些重点领域:

  • 原生支持视觉、音频、语音和文本的架构
  • 跨不同数据模式的端到端训练模型
  • 超越专家混合以实现更大的可扩展性
  • 训练数据的多样性和规模增加了几个数量级
  • 提升复杂推理的多模式能力
  • 优化模型设计以实现实际任务性能

每一代,OpenAI 都在向通用人工智能迈进。虽然他们比任何其他法学硕士/人工智能研究公司都走得更远,但我们距离真正的通用智能还很远,缺乏诸如意志、决策、记忆、实时知识合成和其他属性等关键属性。

GPT-4 展示了语言模型的快速进步。虽然我们距离通用智能还很远,但 OpenAI 会通过每次新的迭代继续推动这一目标。令人兴奋的能力可能就在前方。

研究来源