AI如何进行新技能学习

LLM 的新兴特性

人们只能从书本和例子中得知某些事情是可以做到的。真正的学习需要你去做那些事情。” ——弗兰克·赫伯特

现代大型语言模型 (LLM)已展现出令人难以置信的能力。它们近年来在参数数量、计算或数据质量方面都有了显著增长。最有趣的特征之一是某些属性似乎是突然出现的。这些属性之所以被称为突发属性,是因为它们在某个时刻突然出现,然后呈线性增长。例如,当模型超出一定规模时,其中一些属性就会出现。这引起了人们对模型规模的兴趣,参数数量也增长到了 1000 亿个以上。

然而,并非所有人都同意这些新出现的属性。从某种意义上说,这个概念颇具争议(而且也未被完全理解)。它仍然特别令人感兴趣,因为它是模型缩放的主要理由之一。

一方面,一些研究人员对涌现属性持怀疑态度(正如我们在上一篇文章中讨论的那样)。然而,其他作者却报告说,这些涌现属性并不是人工制品。因此,这个问题存在争议。

如果它们存在,是什么导致了这种突发现象?

另外,突现属性到底是什么意思?它只是某种属性的突然增加吗?还是背后有更有趣的东西?

本文试图回答这些问题并深入探讨该主题。

涌现的渗透模型:分析在形式语言上训练的 Transformer

数据、大小或计算的增加可能导致神经网络突然学习特定的能力——…

arxiv.org

作者首先提出了这样一个观点:人们必须对涌现有一个正式的定义,尤其是在深度学习方面。他们将这个想法与物理学进行了比较,物理学中特别使用了涌现的概念。因此,如果满足以下条件,则属性(或能力 C)会根据变量(数据量、计算、参数)表现出涌现行为:

  • 它具有在执行任务时发生的非线性改进。如前所述,当模型突然能够完成任务时(例如,解决特定大小的参数上的数学问题),就会注意到一种突发属性。与物理学的比较是固相和液相之间的突然变化作为温度的函数,液态水可以装入容器中,而冰则相反。
  • 模型经历了结构变化,这有助于学习能力 C。这意味着模型经历了特殊的结构变化,只有这种变化才能让它在当时完成任务。当水改变阶段时,它的不同能力是由于分子结构的变化(结构的变化允许这样做)。因此,模型应该显示其内部状态的变化。
  • 多个任务同时表现出非线性的性能提升。从一种状态到另一种状态的变化不仅使水适应容器,而且还改变了其他属性(例如,溶解盐)。这是因为水的分子结构发生了变化。这种变化还会影响其他功能。作者认为,这也必须发生在 ML 模型中;其结构的变化不仅影响一项任务
LLM 的新兴特性
作为学习阶段出现。图片来源:此处

上述定义赋予了涌现更广泛的含义,而不仅仅是某一特定任务上突然的性能提升:它认为模型中应该存在精确的结构变化,这些变化会对多种能力产生下游影响,从而导致多项任务的性能突然提升。——来源

物理系统中结构变化的含义非常清楚。但不太清楚的是,在 ML 模型中必须改变什么,才能被视为结构变化。对于作者来说,这可以是 LLM电路的形成、感应头或学习语言的句法规则。特别是从学习的角度来看,这是有道理的,模型能力的突然变化意味着模型理解的突然变化。当然,问题在于,定义物理学中的相变并监控它们比学习神经网络要容易得多。例如,可以通过粒子密度的跳跃来测量液相到气相转变随温度变化的时间。

我们如何监控 LLM 中的这些“相变”?

作者定义了巧妙的任务来监控模型。他们定义了一种具有约束的形式语言(单词必须遵循特定的顺序,并且 LLM 必须遵循严格的规则)。使用这种语言的文本训练模型,并监控其学习情况。因此,要通过任务的模型必须学习这种刚性且可观察的语言结构。

LLM 的新兴特性
语法和类型约束来定义我们的形式语言。图片来源:此处

更详细地说,作者采用了一个类似 GPT 的模型(LLM),在这个数据集(他们构建的语言)上对其进行了训练,并在三个任务上对其进行了监控:

  • 自由生成。产生反映语法和类型约束的句子。
  • 解读。语言中的一个句子被随机取出并排列(顺序随机改变)。模型必须重建正确的顺序。
  • 条件生成。向模型提供一组单词,模型必须使用这些单词并遵守语法来生成句子。
AI如何进行新技能学习
图片来源:这里

现在,作者们有了一个系统来监控 LLM 中属性的出现。因此,目标是看看这种设置中是否也会出现属性,以及我们是否可以理解为什么会发生这种情况(机制)。

此时,作者研究模型学习过程中发生的情况并指出:

  • 语法习得的初始阶段。模型学习生成语法正确的句子。这个过程也很快,经过几次交互后就会开始显现。然而,在这个阶段,模型无法进行解读和条件生成。因此,LLM 能够快速学习数据背后的广泛结构(语法)。
  • 第二阶段是获得相对类型约束。经过大约 1000 次迭代后,模型性能突然从零提高到接近完美的准确度。自由生成能力的损失大幅下降,与模型掌握语法的能力相一致。一旦模型掌握了语法,它就会很快理解后续的约束。因此,一旦模型学习了这些概念,它就可以立即使用它们。
  • 第三阶段,学习描述类型约束。在这个阶段,模型会不断增长(以线性和比例的方式)。这可以更准确地描述为在训练过程中所学内容的泛化阶段。在这个最后阶段,模型会学习更多关于它所见过的属性的上下文信息以及如何隐式地使用它们
LLM 的新兴特性
图片来源:这里

作者还注意到在进行扩展时系统中的其他有趣特性:

  • 随着属性数量(数据种类)的增加,从记忆到概括的转变会被延迟。
  • 即使任务难度增加,行为也不会改变(学习动态)。这可以从曲线的几何形状保持不变这一事实中看出。
LLM 的新兴特性
图片来源:这里

记忆和概括之间的这种联系很有趣,可能与 grokking 现象有关。然而,作者并没有探讨这一点。

Grokking:学习是概括而不是记忆

了解神经网络如何学习有助于我们避免模型忘记所学的内容

levelup.gitconnected.com

在后续实验中,作者希望更深入地研究。在这种情况下,模型必须理解如何组合看不见的实体和描述性属性。据他们说,这个实验的目的是模型必须理解哪些实体和属性属于同一个概念类。因此,模型必须更多地理解实体背后的概念,而不是文本中的共现。然后可以将其可视化为一种二分图,其中一组节点代表实体,另一组节点代表属性(概念类是一组共享相同属性的实体,例如,概念类人类包含不同类型的实体(性别、职业、国籍等),这些实体仍具有人类属性)。换句话说,模型必须从共享属性中找出哪些实体属于同一个概念类(这可以从图中猜测和可视化,人类和物体不共享相同的属性)。作者询问模型是否可以理解这些概念并将看不见的实体分配给这些概念类。

LLM 的新兴特性
将组成看不见的概念(例如实体和属性)的能力投射为二分图上的渗透。图片来源:此处

显然,我们需要一种数学方法来证明模型能够进行这种抽象。我们还想证明模型从记忆和泛化中脱颖而出。对于作者来说,这可能是当模型最终连接点时(从学习稀疏图表示到最终理解这些实体是集群或概念类中的单元)。对于作者来说,这是不连续发生的,也就是说,作为一种新兴属性

在这项工作中,我们从其他领域(例如物理学和复杂系统)中汲取灵感,并提出了神经网络能力涌现的现象学定义。具体来说,该定义认为,在涌现时,模型获得了广泛的结构,这些结构有助于学习特定的、更狭窄的能力;获得这样的结构会导致多项任务的性能突然提高(通常会有一些延迟)。——来源

本文的优点在于,它讨论了更接近物理概念和机械术语的涌现属性定义(这使其更易于测量)。实验很有趣,并且提出涌现属性是用概念术语定义的命题(对规则和原理的理解,然后加以概括),这很有意思。

一方面,他们使用玩具模型进行实验,因此结果应该用更大的模型或至少更接近当今的 LLM 的模型来确认。但另一方面,这项工作的优点是将涌现属性重新带回讨论的中心。此外,它严格地讨论了它,作为一种物理现象,而不是作为扩展 LLM 的动机。

研究新兴特性是一项有趣的研究,因为它使我们能够了解某些期望(和不期望)特性何时出现,从而使我们能够确定模型的预算或限制规模以避免遇到不期望的问题。此外,这项工作开辟了一些有趣的视角。如果在相变过程中结构特性会发生变化,那么评估这些特性何时出现以及模型中发生了哪些变化将会很有趣。

RA/SD 衍生者AI训练营。发布者:chris,转载请注明出处:https://www.shxcj.com/archives/5709

(0)
上一篇 2024-09-05 10:54 上午
下一篇 2024-09-06 10:48 上午

相关推荐

发表回复

登录后才能评论
本文授权以下站点有原版访问授权 https://www.shxcj.com https://www.2img.ai https://www.2video.cn