关于GPT-4，这里有你想知道的一切

2023 年第 3 季度：此模型卡代表了公开的 GPT-4 模型研究的综合成果——在此分析中，我们站在巨人的肩膀上（并汇总了他们的数据点）。

GPT-4 – 2023 年最先进的法学硕士
GPT-4 型号详情
计算
训练数据
模型架构
训练
推理
了解 GPT-4 中的令牌丢弃
未来
研究来源

GPT-4 – 2023 年最先进的法学硕士

GPT-4 代表了大型语言模型功能的重大飞跃。它由 OpenAI 开发，建立在 GPT-3 的架构和优势之上，同时实现了新的规模和性能水平。

OpenAI 的 GPT-4 目标是创建一个比 GPT-3 大 10 倍以上的模型。这不仅需要更大的训练计算能力，还需要全新的模型架构和推理服务方法。

有关 GPT-4 的一些关键事实：

总参数：约 1.8 万亿（比 GPT-3 多 10 倍以上）
架构：使用混合专家（MoE）模型来提高可扩展性
训练计算：在约 25,000 个 Nvidia A100 GPU 上训练超过 90-100 天
训练数据：在约 13 万亿代币的数据集上进行训练
推理计算：在 128 个 A100 GPU 集群上运行，以实现高效部署
上下文长度：支持最多 32,000 个上下文标记

使用前请仔细检查 GPT-4 输出，因为如果没有适当的监督，该模型可能会生成有害、有偏见或事实上不正确的文本。

GPT-4 型号详情

范围	细节
组织	开放人工智能
型号名称	GPT-4
型号类型	专家混合的变压器
参数	1.8万亿
上下文窗口	8-32,000 个代币
发射日期	2023 年 3 月
当前版本	1.1（版本 06.13）
训练数据集	13 万亿代币（网络文本、书籍、其他）

计算

计算	细节
训练	25,000 个 Nvidia A100 GPU 上的 90 天
推理	128个A100 GPU集群

训练数据

范围	细节
数据源	CommonCrawl、WebText2、书籍、维基百科、Reddit、亚马逊评论
数据量	约 13 万亿代币
数据准备	去重、清理、过滤
潜在的偏见	语言、性别、种族代表性

API和数据格式

聊天完成API
多轮消息类型
系统、功能、用户、助手
使用消息数组进行 JSONL 微调

有可能的使用

文本生成
问答
分类
会话代理

因素

语言：英语
功能：文本生成、问答、文本分类
方式：文本
道德考虑：潜在的偏见、有害的输出、滥用

指标

困惑度：未知
F1：未知
准确度：未知

局限性

无法进行微调（GA 发布目标 2023 年 10 月）
潜在的有害、有偏见的输出
缺乏有根据的推理
事实上不正确的输出
将错误模型化为真理

性能控制

温度
Top-k 采样
Top-p 采样

语言支持

GPT-4 在 MMLU 基准测试的 26 种不同语言的翻译版本上进行了测试。在测试的 26 种语言中，它在 24 种语言中的表现优于 GPT-3.5 和其他法学硕士，其中包括拉脱维亚语、威尔士语和斯瓦希里语等资源匮乏的语言。Datacamp 和 MakeUseOf 文章还指出了 GPT-4 的多语言功能，支持英语、法语、德语、西班牙语、中文、日语、韩语等之间的翻译。Translated Labs 指出，由于英语在训练数据中占主导地位，GPT-4 在英语和其他语言之间的性能存在差异。他们的 T-LM 产品通过翻译提示来帮助解决这个问题，以增强 GPT-4 的 200 种语言的功能。

道德考虑

GPT-4 可能会被滥用并产生有害的社会影响。使用前仔细检查输出。不要将其视为事实陈述。如有疑问或疑虑，请联系safety@openai.com

模型架构

GPT-4 的模型架构不再采用标准的 Transformer 方法。相反，它采用了专家 (MoE) 混合设计。

在 MoE 架构中，有专门处理某些任务或数据类型的单独的专家神经网络。对于每个推理查询，选择适当的专家模型来处理该特定输入。

这提供了两个主要优点：

整个模型的规模可以显着扩大，同时对于任何给定的查询仅通过一小部分专家参数进行推理。这使得推理成本保持实用。
专家的混合可以发展专业知识，提高整体能力。

具体来说，GPT-4 包括：

16 个专家模型，每个模型都有约 111B 参数
每个推理查询激活 2 个专家
55B共享参数注意事项
结果每个推理过程使用约 280B 个参数

顶部提示

这种架构很可能会阻止真正的温度 0 设置，从而导致由采样和路由到专家混合引起的推理方差。此外，CUDA 驱动程序浮点运算是非相加的。这一理论在 2023 年 9 月与 Stephen Wolfram 的 1:1 讨论中得到证实。

这种架构允许 GPT-4 总共达到超过 1.8 万亿个参数，而每个查询仅使用数千亿个参数。

训练

训练像 GPT-4 这样大的模型需要大量的计算资源。它突破了现有基础设施的限制。

有关 GPT-4 训练过程的关键事实：

同时在约 25,000 个 Nvidia A100 GPU 上进行训练
批量大小随着时间的推移而增加，最终达到 6000 万个代币
连续培训总计90-100天
总共需要 2.15e25 次浮点运算 (FLOP)
在约 13 万亿代币的数据集上进行训练

为了实现这一点，使用了广泛的并行技术：

8 路张量并行性可跨 GPU 分配模型
15 路管道并行性可将批次分为多个阶段
各种集群拓扑可最大化 GPU 间带宽

结果是人工智能模型有史以来最大的计算工作之一。

推理

由于其规模和专家架构的混合，大规模部署 GPT-4 进行推理是一项重大挑战。高效的推理直接影响成本。

有关 GPT-4 推理的关键事实：

在 128 个 A100 GPU 集群上运行
利用 8 路张量并行性和 16 路管道并行性
仔细平衡延迟、吞吐量和利用率
可以使用推测解码将吞吐量提高 2-3 倍
多查询注意力减少了长上下文的内存需求

推理集群旨在最大限度地提高吞吐量和硬件利用率。这可以降低每次查询的成本。

针对不同专家模型的一致批处理查询仍然存在挑战。但总体而言，基础设施可以有效部署 GPT-4，且价格不会过高。

了解 GPT-4 中的令牌丢弃

GPT-4 中使用的专家混合 (MoE) 架构依赖于令牌路由机制来确定哪些专家处理每个令牌。这可能会导致某些令牌被“丢弃”或未处理。

GPT-4 使用简单的 top-2 令牌路由方法，其中每个令牌根据路由器发送给 2 个最有可能的专家。专家本身对每批可以处理的代币数量有一定的限制。

当跨长输入序列和大批量进行聚合时，通常会超出专家容量，导致令牌被丢弃。与直觉相反，一定程度的丢弃实际上有利于模型性能和效率，因为它可以防止专家过载。

掉落是不确定的 – 运行相同的提示两次可能会导致每次不同的掉落。这是因为根据容量，不同批次的代币掉落情况有所不同。模型本身仍然是确定性的。

虽然 OpenAI 可以调整专家能力并减少丢失，但这将大大增加推理时间和成本。当前的权衡可以实现廉价的大规模部署。掉落是稀疏 MoE 设计所固有的。

了解路由如何导致丢弃可以深入了解 GPT-4 中的随机性观察。掉落因用途而异，但模型逻辑本身却没有。

未来

GPT-4 在语言模型基础方面取得了令人瞩目的进展。然而，未来的模型可能需要扩展到纯粹基于文本的方法之外。

未来的一些重点领域：

原生支持视觉、音频、语音和文本的架构
跨不同数据模式的端到端训练模型
超越专家混合以实现更大的可扩展性
训练数据的多样性和规模增加了几个数量级
提升复杂推理的多模式能力
优化模型设计以实现实际任务性能

每一代，OpenAI 都在向通用人工智能迈进。虽然他们比任何其他法学硕士/人工智能研究公司都走得更远，但我们距离真正的通用智能还很远，缺乏诸如意志、决策、记忆、实时知识合成和其他属性等关键属性。

GPT-4 展示了语言模型的快速进步。虽然我们距离通用智能还很远，但 OpenAI 会通过每次新的迭代继续推动这一目标。令人兴奋的能力可能就在前方。

GPT-4 – 2023 年最先进的法学硕士

GPT-4 型号详情

计算

训练数据

API和数据格式

有可能的使用

因素

指标

局限性

性能控制

语言支持

道德考虑

模型架构

训练

推理

了解 GPT-4 中的令牌丢弃

未来

研究来源

相关文章

什么是 Open AI 的 Sora？它是如何工作的，用例，替代方案等

掌握LLM的使用钥匙，需要正确学习 Chatgpt 提示工程的9个框架

您可以在不泄露企业 IP 的情况下使用 OpenAI 的 ChatGPT 吗？