自回归生成建模的缩放律

Scaling Laws for Autoregressive Generative Modeling

Oct 2020

https://arxiv.org/abs/2010.14701

Tom Henighan*, Jared Kaplan*, Mor Katz*, Mark Chen, Christopher Hesse, Jacob Jackson, Heewoo Jun, Tom B. Brown, Prafulla Dhariwal, Scott Gray, Chris Hallacy, Benjamin Mann, Alec Radford, Aditya Ramesh, Nick Ryder, Daniel M. Ziegler, John Schulman, Dario Amodei, Sam McCandlish

[OpenAI, Johns Hopkins University]

我们在四个领域确定了交叉熵损失的经验缩放律：生成图像建模、视频建模、多模式图像↔文本模型和数学问题解决。在所有情况下，随着模型大小和计算预算的增加，自回归Transformer的性能都会顺利提高，遵循幂律加常数缩放律。最佳模型大小还取决于通过幂律的计算预算，其指数在所有数据域中几乎是通用的。

交叉熵损失具有S（True）+DKL（True||模型）的信息论解释，并且经验缩放律建议对真实数据分布的熵以及真实分布和模型分布之间的KL散度进行预测。通过这种解释，十亿参数变换器是YFCC100M图像分布的近乎完美的模型，下采样到8×8的分辨率，我们可以预测在其他分辨率的nats/图像中实现任何给定的可减少损失（即DKL）所需的模型大小。

我们在特定领域中发现了许多额外的缩放律：（a）我们确定了多模式模型中字幕和图像之间相互信息的缩放关系，并展示了如何回答“一张图片值千言万语吗？”；（b）在数学问题求解的情况下，当在训练分布之外进行外推时，我们确定了模型性能的缩放律；（c）我们对ImageNet分类的生成图像模型进行了微调，并发现即使生成损失趋于平稳，分类损失和错误率也能平滑缩放。总之，这些结果强化了缩放律对神经网络性能（包括下游任务）具有重要影响的事实。

图1跨域可约损失的光滑标度——我们展示了可约损失L−L∞的幂律缩放律作为计算的函数，其中不可约损失L~∞是一个拟合的域相关常数。在关于无限数据和计算极限的合理假设下，不可约损失估计了基础数据分布的熵，而可约损失近似于数据和模型分布之间的KL偏差。在语言的情况下，我们使用[BMR+20]的结果，并且只显示完全损失L。

1简介

大规模模型、数据集和计算预算推动了机器学习的快速发展。最近的工作[HNA+17，RRBS19，LWS+20，RDG+20，KMH+20，SK20，BMR+20]表明，规模效益也是高度可预测的。当语言模型的交叉熵损失L受到计算预算C、数据集大小D或模型大小N的限制时，损失以简单幂律的形式随这些量中的每一个而缩放。样本效率也随着模型的大小而提高。

这些结果提出了许多问题。它们适用于所有数据模式吗？损失的改善如何转化为下游任务的表示质量和性能的改善？是否有任何方法可以确定模型的性能何时以及为什么会达到最大值，从而使进一步的扩展得到递减的回报？是什么解释了这些趋势的精确性和普遍性，我们还能从中学到什么？

我们将证明缩放律适用于各种数据模式的生成建模，包括生成语言[KMH+20，BMR+20]，图像[TSF+15，CRC+20]和视频建模[WTU19]，文本图像相关性的多模式建模[TBL+19]，甚至数学问题解决[SGHK19]，这是一项需要一定推理能力的任务。此外，我们证明了具有自回归交叉熵损失的单一架构——Transformer[VSP+17，LSP+18]——在所有这些领域中都能顺利扩展，对超参数（如宽度、深度或学习率）的变化最小。我们还观察到，较大的模型始终学习得更快，以更少的步骤实现任何给定的损失值。

通过研究许多不同的模型大小N、计算预算C或数据集大小D，我们证明了损失的比例关系

适用于每个数据模态，其中αx是模态相关的标度指数，我们主要研究x=N、C，偶尔研究D。我们将L∞称为不可约损失，幂律标度项称为可约损失。这些标度关系通常保持高精度，即使在可还原损失远小于不可还原损失的情况下也是如此；我们在图1中显示了可减少损失的L（C）的趋势。注意，小偏差在对数图上被视觉放大，但趋势非常吻合。

图2最优模型大小在各个领域是一致的——我们将最优模型大小Nopt显示为训练计算预算C的函数。Nopt（C）不仅表现为幂律，而且对于所有数据模式，其行为都非常相似。

这些观察结果表明了信息论的解释

换句话说，不可约损失估计真实数据分布的熵，而可约损失是真实分布和模型分布之间KL散度的估计。人们可能已经猜测，随着L（x）曲线的弯曲和损失接近L∞，增加N、C、D的回报正在减少。但DKL对可减少损失的识别表明，情况并不一定如此，规模的进一步增加仍可能提供重要的额外语义信息。为了证明方程（1.2）的合理性，我们必须假设在极限D→ ∞ 后接N、C→ ∞, 无限大的变换器可以精确地对数据分布进行建模。

通过计算对损失进行缩放，可以估计给定计算预算的最佳模型大小。我们发现，正如在[KMH+20]中一样，这种关系几乎是一个纯幂律Nopt（C）∞Cβ。令人惊讶的是，所有域的指数β～0.7都非常相似，如图2所示。这对数据集大小与模型大小的缩放具有重要意义，用于计算最优训练，表明如果我们只在每个数据元素上训练一次，则D≠N0.4。即使考虑到显著的误差或偏差，这也强烈建议数据集大小与模型大小的亚线性缩放。

如果我们专注于每种数据模式特有的问题，我们可以学到更多。生成图像模型可以针对分类进行微调。我们将表明，ImageNet[CLH17]的分类性能随着预先训练的模型大小而顺利提高，遵循另一个幂律。这种趋势甚至持续到大模型状态，在大模型状态下，生成损失趋势“弯曲”，并由不可约分量主导。这有力地表明，从大型生成图像模型中挤出尽可能多的性能是有好处的，因为重要的语义信息可能位于“最后几位”。图像分类性能微调的平稳趋势表明了一个更普遍的教训：无监督学习的缩放律意味着下游性能也随着模型大小和计算而提高。

信息理论为研究其他环境中的模型性能提供了一个有用的视角。多模式模型提供了一个引人注目的例子，例如对文本字幕和图像之间的联合分布进行建模的模型。通常，字幕的熵比图像的熵小得多，因此（经验）相互信息4和模型在文本上的损失之间的比率，我们称之为

为模型性能提供了一个有趣的度量。分布之间共享的相互信息必须小于任一分布中的信息量，因此此比率必须小于1。此外，Infogain似乎随着模型大小而平滑地增加，因此绑定的Infogain<1可以建议最大性能的目标模型大小。通常，这远远超出了当前的能力。这些在各种数据集上的平滑缩放结果也证明了Transformer架构的非凡多功能性。

缩放关系提供了对数据复杂性的深入了解，并阐明了增加N、D和C的值。通过评估完整图像或视频的可减少损失，我们实际上是在估计给定模型“有待理解”的信息比特数。等效地，可减少的损失近似于数据可以被进一步压缩的程度。我们发现，十亿参数模型可以提取所有与YFCC100M图像[TSF+15]相关的nat/图像，但只有少数nat/，这些图像被下采样到8x8分辨率，因此它们可能是这种数据分布的近乎完美的模型。对于更大、更实用的图像，我们需要更大的模型来实现这一壮举，但缩放律使精确预测成为可能。这些趋势与标度指数αx密切相关：较小的指数意味着随着标度的增加，改进速度较慢，这意味着数据只能用更大的模型进一步压缩。通过计算对损失进行缩放，可以估计给定计算预算的最佳模型大小。我们发现，正如在[KMH+20]中一样，这种关系几乎是一个纯幂律Nopt（C）∞Cβ。令人惊讶的是，所有域的指数β～0.7都非常相似，如图2所示。这对数据集大小与模型大小的缩放具有重要意义，用于计算最优训练，表明如果我们只在每个数据元素上训练一次，则D≠N0.4。即使考虑到显著的误差或偏差，这也强烈建议数据集大小与模型大小的亚线性缩放。如果我们专注于每种数据模式特有的问题，我们可以学到更多。生成图像模型可以针对分类进行微调。我们将表明，ImageNet[CLH17]的分类性能随着预先训练的模型大小而顺利提高，遵循另一个幂律。这种趋势甚至持续到大模型状态，在大模型状态下，生成损失趋势“弯曲”，并由不可约分量主导。这有力地表明，从大型生成图像模型中挤出尽可能多的性能是有好处的，因为重要的语义信息可能位于“最后几位”。图像分类性能微调的平稳趋势表明了一个更普遍的教训：无监督学习的缩放律意味着下游性能也随着模型大小和计算而提高。

这些在各种数据集上的平滑缩放结果也证明了Transformer架构的显著多功能性

1.1结果总结

我们将仅自回归解码器的Transformer模型应用于所有数据模式，其中包括各种分辨率的网络抓取YFCC100M图像[TSF+15]、来自各种来源的视频数据、多模式图像+语言数据以及程序生成的数学问题。我们还参考了先前关于语言[KMH+20，BMR+20]的结果。在所有域中，我们发现：

•方程（1.1）的缩放律始终适用，包括可减少损失的极小值。由于L（C）趋势可以扩展到任意大的数据分布、模型大小和训练步骤，我们认为这支持对方程（1.2）的解释。

•我们确定了给定计算预算的最佳模型大小Nopt（C），并发现它可以精确地建模为纯幂律[KMH+20]

所有模态的功率为β～0.7，如图2所示。随着计算预算的增长，最好将大部分资源用于训练更大的模型。这有力地表明，在计算优化训练过程中，数据集大小与模型大小的线性比例为D∞N0.4。

•对于每个域，Transformer都有一个最佳纵横比dmodel/nlayer。与语言[KMH+20]相比，大多数数据模式需要更小的纵横比（即更深的网络）。

•我们在第6节中研究了L（D）和L（C）趋势之间的明显不一致。

我们还发现了一些特定于某些领域的结果，尽管我们预计许多经验教训更为普遍。对于图像和视频建模（请参见第3节）：

•当为ImageNet分类微调生成图像模型时，我们发现分类损失与模型大小的幂律（见图11），甚至超过了我们为生成建模接近不可约损失的模型大小。我们得出的结论是，不可约损失的方法并不一定意味着表示质量或语义内容的回报递减。

•我们探索了单个图像和图像丢失分布百分位数的缩放趋势（见图17、10、20、21）。我们发现，单个图像上的损失与数据分布中所有图像上的平均值一样，随模型大小而变化。我们期望在其他数据模式中有类似的行为。

•我们测试了各种图像分辨率（见图8），并发现了每种分辨率的不同比例指数和不可约损失。我们还测试了两个基于VQVAE[vdOVK18]的模型。

•我们检查了视频帧索引的损失比例（见图6和图9）。

对于多模式模型（见第4节）：

•我们探索了字幕和图像之间的相互信息（见图12），以及方程（1.3）中定义的信息增益。我们发现了模型大小为N的相互信息和信息增益的平滑缩放。

•我们通过将文本标题的信息内容与图像/文本相互信息进行比较，重新审视“一张图片值千言万语吗？”这个问题。

关于数学问题的解决（见第5节和附录B）：

•我们探索了模型从训练分布外推到越来越具有挑战性的问题的能力。我们发现，外推性能主要取决于训练分布上的性能（图24），在其他方面与模型大小无关。因此，虽然较大的模型性能更好，但模型大小并不能为“强泛化”带来好处。•我们提供了按数学问题类型划分的详细性能明细（见附录B）。

每个域中的2个中心经验缩放律

在本节中，我们将描述我们在每个领域中的常见实验，以及我们建立计算、模型大小和（在少数情况下）数据集大小缩放方程（1.1）的结果。

2.1领域描述和训练设置

在每个领域中，我们使用使用自回归交叉熵损失训练的仅解码器变换器模型。对于许多模型，我们使用稀疏注意力模式[CGRS19]，尽管我们在解决数学问题时使用密集注意力。

用于语言和多模式建模的转换器具有大小为4dmodel的完全连接层和大小为dmodel的注意力层，表示法为[KMH+20，BMR+20]。对于数学、图像和视频建模，我们将FC层扩展到dmodel，将注意力层扩展到dmodel/4。对于数学、图像和视频，我们使用长宽比dmodel/nlayer≈10，因为我们发现这是近似最优的，这意味着与语言[KMH+20]相比，这些领域更喜欢更深层次的模型，其中最优长宽比～100。因此，我们的数学、图像和视频模型本质上是相同的，只是上下文长度不同。仅就数学而言，我们使用了0.05的重量衰减[LH17]。我们在附录F中提供了更详细的超参数设置。

表1缩放律总结——在该表中，我们总结了模型大小和计算缩放拟合公式（1.1）以及Nopt（C），损失以nats/token为单位，计算以PB为单位。在大多数情况下，模型大小和计算缩放律之间的不可约损失匹配得很好。数学计算缩放律可能会受到重量衰减的影响，重量衰减通常会在训练早期影响表现，并在训练后期提高表现。语言的计算缩放结果和数据来自[BMR+20]，而Nopt（C）来自[KMH+20]。不幸的是，即使有来自最大语言模型的数据，我们也无法获得对自然语言熵的有意义的估计。

2.1.1语言

我们展示了GPT-3[BMR+20]的结果进行比较，包括比我们在其他领域训练的大得多的模型的性能。在图2中，我们使用了[KMH+20]中的最优模型大小趋势。在附录D中，我们展示了一些关于算术和事实问答能力的量表的实验，并对语言理解随量表的发展进行了一些额外的定性观察。

2.1.2图像

我们研究了一个由大约108幅网络图像[TSF+15]组成的数据集，这些图像被缩放为像素分辨率R×R=8x8、16x16和32x32，使用RGB颜色按光栅顺序表示，每个颜色在[0255]范围内，每个图像总共有3R2个token。我们还研究了64x64分辨率的相同图像，但使用16x16或32x32 VQ编码模式编码的VQ[vdOVK18]，每张图像总共有256或1024个token。为了减少计算，我们使用稀疏注意力模式[CGRS19]，在顺序层中在局部带状注意力和固定步长注意力之间交替，其中局部上下文长度和固定步长都由正方形图像的token中的边长给定。

2.1.3视频

我们研究了一个从网络上截取的约7×105个视频的数据集，总计约100小时，其中每帧都被缩放到64x64的像素分辨率。每个单独的帧都使用用于图像的相同16x16 VQVAE[vdOVK18]进行编码，导致每帧256个tokens。我们在16个连续帧的序列上进行训练，每个视频总共产生4096个tokens。与图像一样，我们通过使用在局部带状注意力和固定步幅注意力之间交替的稀疏注意力模式[CGRS19]来减少计算，其中局部上下文长度和固定步距长度都由正方形帧的边长表示。

2.1.4 VQ编码

2.1.2和2.1.3中提到的VQVAE模型是在2.1.3中描述的网络抓取视频的帧上训练的，使用VQ-VAE架构[vdOVK18]，并在[DJP+20]中描述了修改，包括死代码恢复。更多详细信息见表2。

2.1.5多模式文本和图像

训练多模式模型来自回归预测图像表征和语言表征。我们简单地将文本的BPE编码的token列表（使用[BMR+20]的token化）和图像中每个RGB像素的[0255]色阶连接在一起，并让模型学习必要的嵌入矩阵。我们分别研究了文本到图像和图像到文本映射的模型，因为我们在初步实验中发现双向模型的性能较差。对于图像到文本和文本到图像模型，我们计算平均像素和平均文本token损失，然后对它们进行加权，形成总损失L=9Limage+Ltext，因为我们发现这种加权在扫描中产生了良好的结果。我们使用32x32个图像和128个token字幕（根据需要填充或修剪），每个图像/字幕对的总上下文长度为3200个token。对于多模式数据集，我们使用了通过网络搜索策划的各种图像/文本对。

2.1.6数学问题解决

数学问题解决似乎与生成语言、图像、视频和多模态建模是一个截然不同的领域。为了解决数学问题，模型需要学习执行算法以得出确定性答案。相比之下，我们研究的其他分布通常是真正的概率分布，至少在直观的层面上，似乎需要与执行算术或求解方程的简单算法有点不同的东西。我们包含了一些数学问题，以探讨缩放律和Transformer性能的普遍性。

我们使用数学问题生成器[SGHK19]来训练和测试模型，该生成器生成代数、算术、微积分、比较、数字（整数属性）、测量、多项式和概率方面的各种问题。当研究模型和计算预算缩放时，我们在在线环境中按程序生成训练问题。我们在没有渐进课程的情况下，对简单、中等和困难问题的默认混合进行采样。在研究数据集大小缩放时，我们使用从相同分布中采样的静态训练数据。正如附录B中进一步讨论的那样，数据分布具有一些不寻常的特征，因为更容易的问题自然会比更困难的问题更频繁地出现。

一些问题类型需要将数字和字符串解释为单个字符的序列，因此为了简单起见，我们在字符（字节）级别对所有问题和响应进行建模。该模型以纯文本形式接收问题，我们使用掩码在转换器的512tokens上下文窗口中填充连接的问题，以便只有与答案对应的tokens才会导致损失。

问题生成器5[SGHK19]可以提供一个“熵”s。训练分布样本来自s∈[3，10]，而插值测试对应于s=8，外推测试涉及s=12，以及一些其他扩展以增加合成性。在在线设置中，我们不能确定插值测试是从训练数据中消除重复的，但外推测试必须是。为了补充测试数据和进一步研究外推，我们生成了s∈[1，19]的新测试集，其中较大的s对模型提出了更大的挑战，因为s>10实际上超出了训练分布，需要外推。

我们发现[SGHK19]的两个外推生成器probability_swr_p_level_set_more_samples和probabilite_swr_p_sequence_more_samples的性能一直很差，较大的模型对它们进行了过拟合，并实现了比一些较小模型更差的损失（但精度更高）。因此，我们没有将它们的贡献包括在图1和图5中，因为这些模块的不良损失将主导趋势。

我们在附录B中提供了更多关于数学的细节和许多其他结果，包括每个模块的结果、数据集大小6的缩放，以及性能与难度水平的进一步分析。在那里，我们还显示出训练损失的趋势，这并没有很好地坚持幂律的形式，也许是因为隐性课程中易问题和难问题的频率分布。

2.2模型尺寸缩放和纵横比

可以说，最简单的比例关系将各种大小N的模型在训练到收敛后所获得的损失与足够大以避免过拟合的数据集进行比较。在本文中，我们将N报告为转换器模型中的非嵌入参数的数量，其动机是语言[KMH+20]上的先前结果。L（N）的缩放结果如图3所示，并与方程（1.1）拟合。

我们使用收敛时的损失来定义L（N）（实际上，这意味着尽可能接近收敛），但我们研究的最大模型不会完全收敛。因此，当根据方程（1.2）解释L（N）趋势并将不可约损失确定为熵，将可约损失识别为KL散度时，需要谨慎。然而，可减少的损失通常非常符合纯幂律趋势。顺便说一句，在对所有模型进行固定数量的训练步骤后，当记录损失时，我们经常会发现有趣的良好幂律加上恒定的趋势。

我们发现，对于任何给定的数据模式，转换器模型通常具有理想的纵横比dmodel/nlayer，该层在保持模型大小N不变的情况下最大化性能。在图4中，我们将收敛性能显示为几个域中几个模型大小的纵横比的函数。我们看到，图像和数学模型在纵横比≈5的情况下表现最佳，这表明在这些领域，我们应该瞄准更深、更薄的模型，与优化的语言模型相比，纵横比至少小10倍。由于mattn和mmlp设置的变化，差异可能甚至更大。

最后，请注意，大约有104个参数的图像和视频模型表现不佳，对于更高分辨率的图像，性能明显较差。视频模型必须关注4096个tokens上下文，而32x32个图像具有3072个tokens上下文。因此，我们推测小型模型表现不佳，因为它们很难关注长度与其非嵌入参数计数相当的上下文。

2.3计算缩放和最佳模型大小

不关注收敛性能，而是可以研究当使用足够大的数据集进行训练以避免过拟合时，使用有限的训练计算预算C所实现的损失L。我们从理论上而不是经验上定义C，并将其近似为C≠6NE，其中N是非嵌入参数计数（模型大小），E=SB是训练期间处理的tokens总数（S是参数更新的数量，B是tokens中的批量大小）。来自各种模型大小的L（C）的结果如图5所示，以及给定计算预算的最优损失的帕累托边界，以及强制位于该边界以下的幂律加常数拟合。

图5带计算的缩放律——各种域的带计算的缩放律（总估计浮点运算），以及幂律加常数拟合（虚线）。这与图1相同，只是我们没有减去拟合的常数不可约损失。请注意，当非常小的模型为具有非常大上下文的图像或视频建模时，与趋势相比，它们表现不佳。还要注意，最大的语言模型[BMR+20]没有经过收敛训练。

计算趋势与区分不可约损失和可约损失最相关，因为它们避免了训练收敛的问题，这使得L（N）的解释变得困难。我们在图1中显示了L（C）的可约损失趋势，并强调这些似乎是纯幂律，即使可约损失远小于不可约损失。

当训练受到固定计算预算C的约束时，我们可以使用L（C）趋势来估计优化损失的模型大小Nopt。为此，我们在损失与计算边界的凸包上选择点；在图5中，这些可以看作是蓝色点。所有域的结果一起显示在图2中，而每个域在图16中分别显示为单独的拟合。在所有情况下，我们发现Nopt（C）∞Cβ可以用纯幂律拟合，所有指数都相当接近β～0.7。这表明，应该通过训练更大的生成模型来花费大部分不断增长的训练计算预算。

当估计Nopt（C）时，人们可能会担心由于数据的次优使用而导致的误差。具体地说，如果在训练的早期批量太大，那么一些计算可能会被有效地浪费掉。这可以通过确定临界批量大小[MB17，MKAT18]来研究，超过该临界批量大小，进一步的数据并行性的回报将递减。在先前的工作[KMH+20]中，通过测量临界批量并使用[MKAT18]中导出的关系来调整计算估计值，将其考虑在内。我们在这里没有进行这种调整，因为它需要一些额外的实验来测量每个领域的临界批量大小。对于大的模型大小和计算预算，这些影响应该很小，因为大多数或所有的训练都涉及比临界批量小的批量（在训练过程中快速增长[MKT18]），但这个问题可能值得在未来重新审视。在所有训练过程中处理的tokens总数为E=C6N≥D，其中D是数据集大小，等式表示仅针对单个历元的训练。这就意味着D∞C1-β∞N1-β。对于所有数据模式，我们显然都有β>0.6，而且幅度很小，这表明在计算优化训练过程中，数据集大小的增长速度不应超过D∞N2/3，中值估计值为D∞N0.4更合理。所有数据模式的这种明确的亚线性缩放在某种程度上与传统观点背道而驰。值得注意的是，我们还没有在计算最优训练实际上意味着D N的情况下训练模型。我们将在第6节对此进行进一步讨论。

图6图像和视频的位置相关损失——我们展示了图像和视频模型中损失随位置变化的趋势。在左边，我们有不同分辨率的图像的三种颜色的平均损失。左上角的像素实际上具有明显更高的色阶损失，这是为了使整个图像的图案清晰。在右边，我们看到了视频模型的每帧平均损失，作为帧索引的函数。每帧的振荡行为是由于视频编码。

2.4上下文中的损失与位置取决于数据结构

损失的某些趋势在很大程度上取决于数据的结构。一个明显的例子是作为上下文中位置函数的损失，即语言模型的每符号损失、视频模型的每帧损失或视觉域中的每像素损失。我们在图6中提供了两个示例。注意，对于图像，第一个像素通常具有大的损失，在所示的颜色范围之外；我们选择不扩展颜色范围，因为它会遮挡图像其余部分的图案。

语言[KMH+20]和视频（每帧）显示出幂律加上作为上下文位置函数的恒定趋势，因为它们的数据自然是连续的。然而，这些趋势根本不适用于图像建模，其中第一个像素和图像中心附近的损失最大。因此，上下文中的幂律相关性在本质上取决于数据的性质，并且不是普遍的。相比之下，计算和模型大小缩放律的形式似乎在很大程度上与数据分布无关。

3图像和视频建模、可减少的损失和下游任务

图像数据可以以各种分辨率呈现，或者可以进行压缩，例如使用VQ代码[vdOVK18]。这些设置提供了一种修改数据分布复杂性的方法，为研究神经缩放律创造了一个有用的领域。此外，我们可以微调生成图像模型进行分类，以探索其学习特征的质量。

我们将使用这些工具来探索可约损失和不可约损失的性质。特别是，在非常低的分辨率（8x8）下，我们可以遵循幂律趋势，将可减少的损失一直减少到几个nat/图像，这可以通过接近十亿个参数的模型来实现。这给了我们一些乐观的理由，当我们在目前可以探索的领域之外的更大图像上推断类似的趋势时。它还有力地表明，幂律加上方程（1.1）的常数形式将仍然是一个极好的近似。此外，我们将表明，即使生成损失接近不可约损失，微调分类性能的改进也会顺利进行。这一结果有力地表明，即使生成损失趋势逐渐减弱，表示质量也会继续平稳改善。

3.1改变图像分辨率和编码

在将图像缩小到8x8、16x16和32x32像素分辨率后，我们在YFCC100m数据集上训练了Transformers，以及使用16x16、32x32 VQ代码模式的VQ代码[vdOVK18]编码的64x64图像。我们在图8中显示了每张图像可减少损失的趋势，作为计算预算的函数（完整损失的趋势见图附录中的图18）。我们加入这些数字是为了强调，即使可减少的损失变得非常小，优化分配的计算预算的可减少损失也遵循幂律趋势。

请注意，与分辨率大于8x8的趋势相比，最小的模型表现不佳。我们在图8中的计算趋势和图7中的模型大小趋势中都看到了这一点。我们推测这是由于难以利用位置编码。例如，我们最小的模型只有10k个非嵌入参数，而32x32个图像在其上下文中包括3072个token，每个token都有不同的位置嵌入。

为了理解表3中可减少损失趋势的重要性，回想一下真实分布P和模型分布Q之间的交叉熵损失为

图7图像分辨率的比较（模型大小缩放）-顶部：我们显示了各种图像分辨率的模型大小缩放律，以及各种VQ编码，以及幂律加上等式（1.1）的常数拟合（虚线）。像素级图像建模的拟合如表3所示。注意，最小（10k非嵌入参数）的像素模型在更高的分辨率下表现不佳；我们怀疑他们很难识别较大图像中的相对位置。这些不足在计算趋势中更加明显。底部：我们展示了可减少的损失，它估计了图像上的真实概率分布和我们的模型预测的分布之间的KL偏差。我们将结果显示为模型大小和图像分辨率或编码的函数，以及纯幂律趋势。

图8图像分辨率的比较（计算缩放）——我们显示了不同分辨率下像素级图像建模的计算可减少损失的缩放（第一行），以及64x64图像的各种VQ编码（第二行）。我们显示了测试损失，但我们没有观察到这些模型的任何训练/测试间隙。一些模特在训练后期出现了分歧。

表3每幅图像的损失趋势——适用于各种图像分辨率下作为计算函数的可减少和不可减少的损失，如表1所示，按每幅图像而非按每个token显示。这里，计算C是以PF天为单位测量的，因此分母估计了实现1个nat/图像的可减少损失所需的计算量。不可约损失估计了YFCC100M数据分布[TSF+15]的熵。

当P=Q时，KL散度消失，并且在其他方面严格为非负。因此，我们可以用S（P）来识别不可约损失，即真实分布的恒定熵。然后可减少损失估计真实分布和模型预测的分布之间的KL偏差。只有在无限数据和计算的极限下，我们期望转换器能够完美地对数据分布进行建模，这种解释才有意义。我们关注的是L（C）趋势，因为如果模型没有完全训练到收敛，模型大小趋势L（N）的渐近极限可能会产生误导。

DKL中的幂律趋势可以外推到每张图像只有几个nat的水平。强大到足以达到这一性能水平的模型以近乎完美的保真度对图像的分布进行建模。事实上，我们看到具有~1B参数的模型几乎实现了8x8“图像”的这一壮举。然而，我们看到，对于较大的图像，我们需要大量的计算来完美地模拟真实的图像分布。

图7中不同图像分辨率之间趋势的一致性以及8x8情况下显著较小的可减少损失表明，如果我们能够运行更大的模型，我们将继续在更高的分辨率下看到平滑的改进。数据分布的近乎完美模型的计算需求似乎随着图像分辨率的陡峭幂律甚至指数而增长。当然，我们并不期望实际任务需要真实世界图像的概率分布的完美模型。

3.2视频建模和单个帧

对于视频建模的情况，将总体趋势扩展到特定帧的研究是很自然的。我们在图9中显示了几个与帧相关的结果。在左边，我们显示了作为模型大小的函数的损失，省略了第一帧，这具有更大的损失，应该被视为图像建模问题。在中心，我们展示了最终帧上可减少损失的计算比例。在同一图的右侧，我们显示了最后（第16）帧的可减少损失，这在生成现有视频的延续时特别令人感兴趣。与图像建模的趋势非常相似，我们发现可减少的损失可以很好地用幂律来近似，从而可以预测我们需要大约1013个参数的模型大小和大约104个PF天的计算，才能在这种类型的视频的最后一帧上实现仅几nat/帧的损失。

图9每帧视频性能趋势——在左侧，我们显示了16帧视频中特定帧的缩放趋势。在中心，我们展示了作为视频最后一帧计算函数的可减少损失。在右边，我们展示了视频中最后一帧的可减少损失及其随模型大小的纯幂律趋势。

图10图像数据集百分位数的性能趋势——我们从32x32图像测试集中选择了1000张图像，并评估了每张图像上所有模型的损失。在该图中，我们绘制了这些图像上损失分布的1、5、20、50、80、95、99个百分位数的趋势，以及幂律加常数拟合（虚线）。我们还观察到随机选择的单个图像的类似趋势（图17）。

3.3单个图像的缩放趋势

我们在各种数据模式上观察到了非常一致的缩放趋势。这就提出了一个问题——在特定的、单独的数据示例上，不同规模的模型所造成的损失是否以相同的方式扩展？还是分布水平的趋势是单个例子中许多不同趋势的总和？

为了回答这些问题，我们评估了从测试集中随机选择的1000张图像上所有像素级32x32图像模型的损失。当将损失绘制为随机选择的单个示例的模型大小的函数时，基本上在所有情况下，我们都观察到平稳的幂律加上恒定的趋势。

为了传达这一信息，对于每个模型尺寸，我们评估了每个模型尺寸分布中1000张图像中损失的1,5,20,50,80,95%和99%。然后，我们在图10中绘制了这些百分比损失的趋势。我们在损失分布的所有百分位数之间看到了非常相似的趋势，所有这些都由方程（1.1）很好地描述。我们在图17中显示了八个随机选择的单个测试图像的模型大小趋势。我们还显示了图20中1000张测试图像样本中改进最多和最少的10张图像。最后，我们以不同的方式可视化趋势，通过在每个模型大小下生成条件样本，如图21所示。

我们期望这些发现也适用于其他数据模式。在快速检查中，我们发现随机选择的文本序列和不同大小的语言模型具有相同的模式。

3.4在ImageNet上以32x32分辨率进行微调

通过微调图像分类的生成模型，我们获得了另一个关于性能随模型大小的缩放的处理。我们使用缩小的32x32分辨率ImageNet[CLH17]，并微调32x32像素级生成图像模型。

为了将这些模型转化为分类器，我们移除它们的最终嵌入矩阵，并使用变换器最终层的平均池（在所有像素上）激活作为新单层分类器的输入。在微调过程中，我们通过整个Transformer进行反向传播，并且我们不会冻结其任何权重。作为比较，我们还仅在分类任务上“从头开始”训练等效的随机初始化Transformer模型。

图11中提供了预训练和随机初始化模型的微调学习曲线。在所有情况下，我们都使用1024幅图像的批量大小，并且我们使用与预训练相同的学习率时间表进行微调。我们发现，对于小型模型，与从头开始的训练相比，预训练几乎没有任何好处，但它大大提高了大型模型的性能。

更重要的是，在图11中，我们显示了预训练和随机初始化模型的ImageNet分类性能的模型大小趋势。我们发现，预训练的模型在损失和错误率（1−准确度）方面都遵循平滑、纯粹的powerlaw9趋势。这些趋势在下游微调任务中的存在，有力地证实了神经缩放律对人工智能能力的重要性。就语言而言，GPT-3[BMR+20]提供了更多的示例。

我们还强调，接近不可约损失并不一定意味着模型性能的回报递减。图11中的趋势继续平稳，尽管图7中对应于32x32分辨率的绿色曲线表明，对于参数>107的模型，接近不可约损失。显然，许多重要的语义信息都位于不可约损失附近的“最后几位”。我们也可以将其解释为为为下游任务提供高效正则化子的预训练过程。

图11图像分类性能的趋势——顶部：我们显示了32x32像素ImageNet[CLH17]分类的模型大小缩放结果。我们将在ImageNet分类上从头开始训练的模型（即没有预训练）与微调的生成模型进行比较。尽管生成损失趋势随着接近不可约损失而弯曲（图7），但预训练的模型在分类性能与模型大小之间呈现出直幂律趋势，这也远远超过了从头训练的模型表现出过拟合的点。底部：尽管采用了不可减少的生成损失的方法，但较大的预训练模型的微调速度明显更快，性能明显更好。从头开始训练时，情况就不一样了。

4多模式模型和信息增益

一幅画胜过千言万语吗？通过多模态模型，我们可以研究一个领域提供的关于另一个领域的信息量。为此，我们研究了图像和文本之间的经验互信息以及方程（1.3）中定义的信息增益。后者具有一个有趣的特性，即它必须位于区间[0，1]中，较大的值表明性能更好的多模式模型。

为了估计文本到图像模型中图像和文本之间的经验互信息，我们从存在空白字幕的图像损失中减去字幕图像损失。类似地，对于图像到文本模型，我们减去有和没有相应图像的文本损失。

然而，这些测量有一个潜在的严重缺陷——如果模型只在多模式数据上进行训练，那么空白字幕和空白图像可能会失去分布。我们通过仅在对我们的模型进行104步微调后，才将这个问题降到最低，该模型是在有和没有字幕（对于文本到图像）或有和没有图像（对于图像到文本）的数据的均匀混合上进行的。根据经验，我们发现，如果没有这种微调，相互信息被测量为大约两倍大。在文本到图像模型的情况下，我们还尝试在多模式和空白字幕数据的95/5混合上从头开始训练，并发现非常相似的结果。相互信息的学习曲线和其他一些比较可以在附录C中找到。

我们在图12中绘制了相互信息和信息增益比。我们看到，十亿参数的解码转换器模型从测试集中的平均文本标题中提取了大约8个关于图像的信息。在图像到文本和文本到图像多模式模型的情况下，我们从经验上观察到，相互信息和信息增益随模型大小的变化如下

λ和Nc不同。如附录E所述，我们可以从合理的假设中得出这个近似公式。如果这个趋势在N的大范围内成立，则可以将其与上限信息增益<1结合使用，以粗略估计最大生产模型大小。

然而，图12中确定的趋势表明，这些模型的信息增益（N）增长非常缓慢，因此，一直外推到信息增益=1似乎是不现实的。此外，在数据分布中，文本和图像并不总是紧密相关的，因为在许多例子中，文本的大部分与伴随的图像几乎没有关系。因此，我们可能会问，文本中20%的信息何时会用于定义图像，使1B参数模型的信息增益翻倍。对于文本到图像模型，参数大小为N≈3万亿的模型将满足这一阈值，尽管对于图像到文本模型，这仍然远远达不到。其他体系结构可能会在这些结果的基础上有所改进，但我们推测，随着模型的大小，它们将显示出类似的趋势。

与图像到文本模型相比，文本到图像模型具有更大的互信息和信息增益。我们推测，这是因为从图像中提取语义信息需要比从文本中提取更多的处理。

我们现在可以重新审视一张照片值多少字的问题。图3显示了每个文本tokens的损失，包括填充tokens；如果我们排除填充token，最大的图像到文本模型实现了每个文本token2.6个nat的损失，或者大约每个单词3.4个nat。比较8个nat的图像与文本互信息，我们发现32x32的图像与我们最好的模型相比只值大约2-3个单词。

5数学问题解决和外推

在机器学习的背景下，泛化通常指的是测试和训练性能之间的差距。但在概念层面上，泛化也可以指从训练分布外推到更大或更多样的分布的更雄心勃勃的可能性。数学问题的解决非常自然地适用于外推法的研究，因为我们可以扩展用于创建数学问题的数字或运算的范围，或者扩展解决方案所需的递归/组合深度[HDMB19]。

我们在基本图3中研究了这一现象，在图3中，我们使用由数字水平索引的各种测试集来评估问题解决性能，这对应于用于生成的“熵”[SGHK19]。我们在所有这些测试集上观察到相当平滑的幂律加上损失的恒定趋势，但根据难度水平，指数和偏移不同。因此，外推性能随着模型大小的增加而提高。

然而，如图13所示，这些模型的外推能力主要取决于模型在训练分布上的性能。也就是说，在训练分布上实现相同损失的不同大小的模型在各种测试分布上的表现大致相等。从这个意义上说，增加模型大小并不能自动改进外推，除非它提高了训练分布的性能。当从一个文本分布外推到另一个时，在[KMH+20]中也发现了类似的结果。

最后，为了完整性，我们注意到，在数学问题解决的背景下，对损失的信息论解释有着不同的意义，在数学解决的背景中，答案与问题具有决定性的相关性，因此熵应该真正消失。有关数学表现的更详细结果和更多趋势，请参阅附录B。

6计算和数据量缩放律的不一致性

在[KMH+20]中观察到数据大小和计算缩放律之间的不一致。在本节中，我们将使用低分辨率图像上的图像模型来研究同样的现象，尽管我们预计在我们所涵盖的任何数据集上的结果都会在质量上相同。

图12多模式模型的相互信息趋势——我们展示了多模式模型中图像和文本之间的经验相互信息（左）和Infogain（右），Infogain是经验相互信息与文本经验熵的比率。这些图中的结果是在半多模式、半空白字幕/图像数据上微调10k步的多模式模型后汇编的，以确保空白字幕/图片不会分布不均。最大的文本到图像模型在构建图像时使用了文本中大约10%的信息。

图13数学难度水平——我们显示了不同难度水平的数学问题在训练过程中的损失（左）和准确性（右），作为训练损失的函数。我们强调，当我们固定训练损失时，不同大小的模型表现几乎相同。因此，在解决数学问题的情况下，插值和外推性能主要取决于模型大小，主要是通过训练损失。注意，难度≤10属于训练分布范围；对于>10级，即使训练损失趋于零，我们也预计会出现非零测试损失。

图14训练速度接近极限——左图：这些图显示了各种模型大小的学习曲线，以及完全训练的早期停止L（D）的趋势，用训练期间经过的tokens数量来识别tokens中的数据集大小。我们观察到，随着模型大小的增加，学习曲线正在接近L（D）。右图：我们用黑色显示学习曲线和L（C）趋势。在同一张图上，我们用蓝色显示了L（D）与C（D），其中后者是通过确定分配给tokens的计算的最佳比例来确定的，然后假设这对应于一个训练时期。通过构建，所有学习曲线都必须位于蓝色虚线的上方和右侧，因此黑色和蓝色线的交叉点表明某种趋势的崩溃。红色阴影区域对应于将最佳模型大小指数更改±5%，说明预测对这些趋势极为敏感。

图15训练速度接近极限（语言）——这里我们展示了L（D）的近似值，估计误差为2%，以及[BMR+20]中的语言建模学习曲线。L（D）趋势来自[KMH+20]，但该工作中的模型是在略有不同的数据分布上训练的，上下文长度为[BMR+20]的一半。

在讨论不一致性之前，请考虑图14左侧的图。我们展示了训练模型的学习曲线和趋势L（D），用各种模型在训练过程中看到的tokens数量来识别数据集大小。学习曲线位于L（D）趋势之上，因为优化过程未能在单个历元中实现最小损失。如果优化器是完美的（在某种意义上），那么L（D）将与学习曲线重合，假设性能不受模型大小的限制。注意，随着模型大小的增加，学习曲线似乎越来越接近L（D）趋势。这意味着较大的模型学习速度更快，也意味着随着模型大小的增加，优化变得越来越有效。但学习曲线将始终受L（D）的限制，L（D）设置了样本效率。我们在图15中显示了语言的相同现象，尽管我们只能估计这些模型的10L（D）。

为了看到明显的不一致，我们必须比较两种不同趋势的预测。对于L（C）计算趋势，我们可以只复制图7中的结果。为了在x轴上绘制L（D）和计算值，我们将使用16x16图像的幂律趋势Nopt（C）≈（2.8×108）C 0.74（见图16），其中C以PB为单位测量。由此，我们可以使用C=6DN求解训练期间处理的tokens的最佳数量，这导致C（D）≈（5×10−42）D3.9，其中D以tokens为单位测量。类似的分析适用于8x8图像。使用这些结果，我们可以参数化地绘制L（D）与C（D）的关系图，如图14右侧所示，用于可减少的损失11（为了在对数图上清晰起见而选择）。我们还包括了一个阴影区域，显示了将经验提取的Nopt（C）趋势指数更改±5%的影响。

出现这种不一致性的原因是，所有学习曲线都必须位于图14右侧的L（D）趋势之上，但L（C）的外推最终相交并通过L（D）之下。L（D）、L（C）或Nopt（C）趋势必须在此交叉点处或之前分解。请注意，这种交叉点的存在是趋势的幂律形式的必然结果，因为这些趋势会导致对数图上的直线，并且两条直线必须交叉。

我们不知道如何解决这种不一致性或语言[KMH+20]的等效问题。然而，图14左侧的观察结果和我们之前的讨论表明了一个看似合理的假设。随着我们增加模型和数据集的大小，优化变得越来越有效，直到最终学习曲线开始与L（D）趋势合并，因此在超过一个历元的训练中没有任何好处[Kom19]。在交点附近，计算边界将弯曲并与L（D）重合。从这个角度来看，L（C）看起来比L（D（C））更陡的事实是由于优化的不足，这需要一个以上的历元才能达到测试损失的局部最小值。将来研究这个假设会很有趣。如果这是真的，这表明最优模型和数据集大小的相对缩放可能最终会发生变化，并且可能最终会由过拟合趋势决定，例如[RRBS19，KMH+20]中的趋势。

最后，我们注意到，数据集大小趋势的不可约损失是在L（D=∞）≈2013 nats/image（16x16）和599 nats/image（8x8）下测量的，而从计算趋势中提取的不可约约损失是L（C=∞）≈2023 nats/iimage（16x16）和602 nats/iimage（8x8。这些对低分辨率YFCC100M图像熵的估计非常相似，并对我们的结果进行了一致性检查。

7相关工作

从[HNA+17]开始，许多小组已经研究了现代神经网络的可预测缩放趋势。最近[RRBS19，LWS+20，RDG+20，Kom19，RFCS20]使用许多模型体系结构和数据集研究了缩放关系，[KMH+20]中的语言建模工作最接近我们的方法。175B参数GPT-3模型[BMR+20]的工作部分受到神经缩放律的推动。

对于我们和其他人已经确定的非常精确的比例关系，还没有大量的理论解释工作。[SK20]中提出了一个简单的理论，将比例指数与数据流形的维数的倒数联系起来。模型尺寸的扩展，特别是在大宽度[LXS+19，JGH18]时，如果它们实际上适用于[LBD+20]优化调整的超参数设置，则可以为思考我们的一些缩放关系提供另一个有用的框架。

我们使用的模型和数据模式在过去已经得到了广泛的研究。自回归图像模型已经从PixelRNN[vdOKK16]开始训练，最近的工作[CRC+20]几乎与我们的模型和训练过程相同。基于转换器的视频模型在[WTU19]中进行训练，多模式模型在[TBL+19]中进行训练。最初的作者在数学问题数据集[SGHK19]上训练了包括转换器在内的各种模型，并且还用更专业的架构[SSF+19]对其进行了研究。我们的模型通常比之前讨论的许多模型更简单，因为我们只使用具有密集或稀疏[CGRS19]注意力的仅解码器[LSP+18]变换器。

8讨论

我们认为，单一的神经架构Transformer可以与语言[KMH+20，BMR+20]一起应用于图像、视频、多模式数据和数学的生成建模。我们确定了在所有数据模式上实现的损失的通用缩放律，作为模型大小和计算预算的函数。与语言的情况一样，这些结果意味着更大的模型变得更有样本效率。此外，我们发现在一些重要情况下，下游任务的微调性能也遵循类似的缩放律。这表明生成建模损失的趋势转化为实际能力的优势。

更令人惊讶的是，作为训练计算预算的函数，最优模型大小大致呈普遍趋势（图2）——我们没有预料到指数Nopt∞C 0.7在很大程度上与数据分布无关。这一趋势意味着优化训练过程中所用token数量的双重趋势，作为C或N的函数，并得出结论，较大的计算预算应主要“花”在较大的模型上，而不是更长的训练运行上。因此，这个来自语言建模的教训[KMH+20]概括了。这些经验规律需要理论解释——为什么这些比例关系成立？

缩放律还表明，当在模型、数据和计算标度的大层次上研究机器学习时，视角从神经架构、损失函数和训练算法的特殊性转向了更广泛的共性。ML中的工作通常涉及识别当前能力中的特定缺陷，并通过修改模型和算法来纠正这些缺陷。正如GPT-3模型[BMR+20]的金属学习能力所表明的那样，也许许多能力只是存在于一个可以随着规模不断扩大而不断解锁的频谱上。

我们还讨论了缩放律的一些信息论意义。也许最重要的一点是，方程（1.1）中的两项可以解释为真实数据分布的熵，以及该分布与给定生成模型之间的KL散度。熵的识别是通过精确趋势的外推实现的，使用单个模型的结果是不可预测的。我们还观察到了多模式模型中图像和字幕之间经验互信息的有趣缩放律。这一点特别有趣，因为相互信息必须受到字幕熵的限制。

图像建模的更多细节

在图18和图19中，我们提供了一些额外的信息，记录了具有不同分辨率和编码的图像的计算缩放趋势。在图20中，我们显示了当我们从100k参数模型过渡到400M参数模型时，损失改善最多或最少的图像。在图17中，我们还显示了从测试集中随机选择的单个图像的趋势。

图18计算不同图像分辨率（像素级）的趋势——以像素为单位的各种图像分辨率的计算缩放律，以及幂律加上等式（1.1）的常数拟合（虚线）。像素级图像建模的拟合如表3所示。

图19计算各种图像分辨率的趋势（VQVAE编码）——我们显示了使用两种不同VQ编码分辨率编码的64x64图像的计算缩放律，以及幂律加上等式（1.1）的常数拟合（虚线）。其中一些运行偏离了计算边界；在最坏的情况下，这导致了与图7中的模型大小趋势的明显偏差。

图20改进程度最高和最低的图像——在这里，我们显示了在具有400M参数和100k参数的模型之间损失改进程度最高或最低的图像。根据损失率和损失差的测量，这些是测试集中1000张图像的随机样本中改进程度最高或最低的10张图像。具有涉及人或人群的复杂多彩场景的图像通常改进最多，而黑白图像和由简单背景主导的图像往往改进最少。

图21图像完成质量的趋势——这里我们展示了各种大小的32x32像素模型的条件完成，其中最左边的一列是原始图像，其他每一列都展示了顶部token有非嵌入参数计数的模型的完成。模型被提供图像的上半部分作为条件上下文，下半部分以1.0的温度采样。随着模型的扩大，照片真实性有明显的增加趋势。

B数学实验的细节和附加结果

B.1程序生成的训练数据

我们使用[SGHK19]提供的代码按程序生成了所有训练数据。问题是通过从训练分布中随机采样模块产生的，其中“熵”设置从整数s∈[3，10]中均匀采样。熵s的问题数量约为10s，这意味着模型可能会多次看到低熵的简单问题，而s≥9的一些问题可能根本看不到。这意味着可以记住训练分布的简单组成部分。此外，我们程序生成的数据没有从“插值”测试分布[SGHK19]中消除重复，但它与“外推”测试分布完全脱节。

官方的外推分布只提供了一个难度等级，也不包括所有八种模块类型。因此，我们还通过设置熵s=1，2，···19，生成了难度水平平稳增加的问题的分布。对于大多数模块，我们只使用插值设置，但对于需要其他参数的模块，我们通常使用外推设置。重要的是，我们没有包括probability_swr_p_level_set_more_samples和probability__swr_p_sequence_more_samples生成器，因为我们发现我们的模型在这些问题上总是表现不佳，并且很快对这些生成器的损失进行了过拟合（这可以在图23中看到，其中“概率”表示这两个生成器的平均值）。

作为难度级别和模型大小的函数的性能如图24所示。我们注意到，当我们从训练分布中推断时，性能会平稳下降。

此外，由于这些实验进行得更早，我们的数据集大小缩放和纵横比扫描使用的模型与语言和多模式模型一样，具有相当标准的设置mmlp=4和mattn=1，但与我们用于计算和模型大小趋势的数学模型不同，在这些模型中，这些参数较小4倍，就像我们的图像和视频模型一样。我们对更小的mmlp，mattn进行了更改，因为我们发现它有助于提高非常深入的数学模型的训练稳定性。

还值得注意的是，我们使用[SGHK19]提供的训练数据文件和使用程序生成的数据进行采样（忽略了前面讨论的两个概率模块）来评估外推性能。对于趋势图，我们使用了程序生成的数据，但对于图26中的最终准确性报告，我们使用“官方”文件。

B.2数据集大小缩放

对于数学数据集，我们研究了作为数据集大小D的函数的最佳性能，在N>>D的极限下，因此性能受到过拟合的约束，而不是模型大小或计算预算的约束。对于每个数据集大小和问题分布，我们通过在训练期间取最小损失来定义L（D）（这与早期停止略有不同，因为如果有几个指标，我们可以在不同的步骤进行评估，即不同测试分布上的损失，就像数学的情况一样）。对于这些实验，我们对所有数据集大小使用了nlayer=64和dmodel=512的模型。我们得到了L（D）的幂律拟合，如图22所示。

B.3其他数学结果

在这里，我们提供了一些关于数学表现的额外观察，这些观察可以分为不同的数学模块和难度级别。在图23中，我们显示了不同模块的性能（使用[SGHK19]中提供的文件），而在图24中，我们将性能显示为不同型号的难度水平的函数。我们在图26和图27中提供了官方外推和插值测试集实现精度的详细信息。

图23数学问题类型——在这里，我们使用[SGHK19]提供的问题“官方”文件显示了数学模型在数学数据集的各个模块上的性能。由于我们的训练集是按程序生成的，因此模型在训练过程中可能已经看到了插值问题。我们注意到，在大多数插值模块和两个外推模块上，单个模块上的损耗是具有模型大小的近似幂律。

图24数学难度水平——在这里，我们展示了数学模型的性能如何随着难度水平或问题分布的“熵”而变化，训练分布中的级别≤10。我们注意到在10级有一个可观察到的扭结，这表明存在一定程度的过度拟合，尽管当我们推断出更困难的问题时，性能变化很平稳。很明显，较大的型号性能更好。

图25数学难度水平的模型大小趋势——这些图显示了官方插值数据集的趋势，以及训练分布中的几个难度水平。我们观察到幂律趋势被扭曲，这可能是记忆和数据分布中隐含课程的结果。

图26所有数学问题类型的外推结果——在这里，我们展示了[SGHK19]中官方外推测试集文件上三种不同大小的模型所实现的精度，按问题生成器分组。性能几乎总是随着模型的大小而提高，尽管如图13所示，这是由于较大的模型可以获得更好的训练损失。

图27所有数学问题类型的插值结果——这里我们展示了问题生成器通过400M参数模型实现的插值精度。请注意，这些问题（来自[SGHK19]的文件）没有从我们程序生成的训练集中消除重复，因此它们可能会被记忆污染。

图29相互信息学习曲线——在这里，我们展示了在有和没有字幕或图像的混合数据上进行训练或微调时相互信息的学习曲线。我们包括对混合物的训练和微调，以确保我们的相互信息和Infogain估计不会因空白字幕或图像分发不当的问题而混淆。

C其他多模式结果

在这里，我们展示了一些关于多模态实验的额外结果。相互信息的学习曲线如图29所示。这包括对文本到图像的字幕和空白字幕数据的95/5混合进行从头开始的训练，以及对两个多模式方向的50/50混合进行10k步的微调。我们比较了图28中两种策略的最终相互信息和信息增益；它们非常相似。

图30算术——我们显示了随着参数计数[BMR+20]的增加，GPT-3家族模型的算术能力的进展。对于一个简单的乘法问题，我们测量不同数字答案的概率。在顶部，我们显示了每个模型大小的归一化概率的热图，在底部，我们显示未归一化概率的折线图。最小的模型对接近问题的小数字给予了一定的重视。一些更大的模型开始重视4和6的倍数（在热图上可以看到明亮的垂直条纹，在折线图上token为红线），这表明他们已经开始理解乘法问题的含义。最大的模型自信地选择正确的答案。

D其他语言结果

在这里，我们展示了一些关于语言实验的额外结果，这些结果衡量了性能如何随着参数计数而提高。在图30中，我们研究了算术能力的发展，在图31中，我们测量了回答一个简单事实问题的能力。在这两种情况下，我们都发现随着模型大小的增加，正确答案的损失会得到平滑的改善。然而，我们也观察到一些定性的“学习阶段”，小模型很难理解被问到的问题，大模型表现出一些初步的理解，而大模型正确回答了问题。

图31问答——我们显示了随着参数计数[BMR+20]的增加，GPT-3家族模型的简单问答能力的进展。我们问这位模特谁是美国的第一任和第二任总统。

微小的模型似乎很难理解这个问题，而且对正确答案没有任何显著的概率。较大的模型理解我们请求的是美国总统，但不理解“第二任总统”和“第一任总统”是不同的请求，这两个问题的大部分权重都放在了“乔治·华盛顿”身上。只有更大的模型才能理解问题的两个方面，并正确回答这两个方面。

E相互信息、信息增益和缩放

我们正在研究经验相互信息

其中p是模型分布，q是数据的真实分布。这必须小于模型的交叉熵损失

使得方程1.3中的经验InfoGain不能大于1。与通常的互信息一样，当y＝f（x）时，经验互信息最大化，反之亦然，使得x和y之间的关系是确定的，并且当p（x，y）＝p（x）p（y）时最小化。

然而，值得注意的是一个有趣的微妙之处：在某些情况下，我们的评估可能会导致明显违反绑定的InfoGain<1。当x=前T个token，而y=后一个token时，这可能发生在不精确平移不变的语言模型中。例如，理论上，计算资源有限的语言模型可能会将更高的概率分配给“'powerlaw'的MD5哈希为e9f7a4afeda67a0dab579ba480c24d6”，而不是单独分配给序列“e9f7a4afeda 67a0dab579ba480c24d6”。

E.1标度关系的近似推导

我们不知道如何推导多模式模型的关系4.1。然而，对于语言模型中的相互信息和信息增益，我们可以得出类似的关系。在这种情况下，我们研究了文本样本中第一个Ttoken和下一个Ttoken之间的相互信息（很容易推广到不同长度的序列）。

我们知道，对于给定的模型大小N，损失按幂律缩放，token位置t≥1[KMH+20]。事实上，我们可以大致

其中，p<1是幂，LU是单位熵，p大致独立于N。该模型并不完美，但它允许对经验互信息进行直接估计，即

其中，H（p）T是具有功率p的第T次谐波数。如果需要，我们可以估计或近似H（p）T，但关键是它对所有N都是相同的，因此该表达式的N依赖性仅来自L（N）。由于语言模型的指数αN1，我们可以近似N-αN≈1-αN log（N），得到方程4.1。类似地，为了近似信息增益，我们需要除以最后T个token的损失，这样

使用L（N）≈N-αN≈1−αN log（N）对此进行扩展，得出第4节中的近似公式。但更普遍的是，我们看到InfoGain受某个比率的限制，该比率仅取决于p和T，因为L（N）位于0和LU之间。因此，它实际上不会接近1。

E.2估计真实世界分布之间的DKL

我们已经根据数据分布的内在熵以及真实分布和我们的模型之间的KL差异来解释了缩放趋势。这是基于这样一种想法，即在无限数据的情况下

大小和计算我们可以精确地对数据分布进行建模。如果我们的模型在新数据分布上的经验损失也遵循可预测的缩放趋势，那么这意味着我们可以估计新分布和训练分布之间的基本KL偏差。由于我们的模型是在YFCC100M图像[TSF+15]上训练的，因此在ImageNet上检查损失的趋势是很有趣的，正如我们在无限极限中所期望的那样

在左边，我们有在YFCC100M上训练的模型在ImageNet上的交叉熵损失。我们在图32中显示了在ImageNet上评估时的损失L（N），在图中我们看到它似乎遵循功率加常数的趋势。不幸的是，这还不足以识别DKL（ImageNet||YFCC100M），因为我们还需要对S（ImageNet）进行单独的估计，但由于过拟合，我们的技术不容易在那里应用。但这个数量可能会在未来通过研究数据集大小缩放来提取。

F超参数设置

在这里，我们包括了关于用于训练模型的超参数设置的更多细节。

所有模型都使用了学习率计划，其中3000步线性预热，然后线性衰减到最大学习率的1/10。模型超级武装和学习率如表4和表5所示。注意力头部的数量始终选择为最大值（2，dmodel/64）。大多数模型是用每批大约5×105个tokens进行训练的；与此不同的地方见下表的标题参数总是指非嵌入参数计数，并且是近似的（为了简单起见，我们不包括偏差）。

所有模型都经过了至少250k步的训练（参数更新），但许多模型的训练时间要长得多，因为我们注意到它们还没有达到计算效率的前沿，或者似乎没有收敛。在最小化测试损失的步骤中，计算了作为模型大小函数的损失趋势。对于给定大小的所有模型，我们使用了非常相似的学习率；这些是通过初始网格搜索确定的。

表4多模式超参数设置——显示了所有文本到图像模型设置，图像到文本模型使用了相同的设置，但两个最大的模型没有经过训练参数是指非嵌入参数计数，并且是近似的（为了简单起见，我们不包括偏差）。这些模型都是用128个文本/图像对的批量大小进行训练的，即每批409600个tokens。

表5数学、图像和视频建模超参数设置——“参数”指的是非嵌入参数计数，并且是近似的（为了简单起见，我们不包括偏差）。数学模型使用了nctx=512和每批524288个tokens的批量大小。视频模型使用了128个视频剪辑的批量大小，每个批次总共524288个tokens。所有图像模型都使用128个图像的批量大小，因此tokens中的批量大小根据图像或VQ分辨率而变化。我们没有在某些领域中训练最大的模型大小。

---

最后编辑于：2023.08.14 14:36:05

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 199,064评论 5赞 466
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 83,606评论 2赞 376
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 146,011评论 0赞 328
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,550评论 1赞 269
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,465评论 5赞 359
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 47,919评论 1赞 275
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,428评论 3赞 390
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,075评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,208评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,185评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,191评论 1赞 328
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,914评论 3赞 316
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,482评论 3赞 302
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,585评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,825评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,194评论 2赞 344
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 41,703评论 2赞 339

自回归生成建模的缩放律

推荐阅读更多精彩内容