近年来,大语言模型 (LLM) 发展迅速,在语言理解和生成能力方面取得了令人瞩目的进步。从 GPT-4 到 LLaMA-2 及以后,随着研究人员不断突破可能的界限,模型大小和数据集不断扩大。然而,有迹象表明我们可能正在接近大语言模型范式的极限。在这篇文章中,我将讨论大语言模型 (LLM) 达到性能上限的证据、大语言模型 (LLM) 方法固有的局限性,以及多模态 AI 为何提供了一条有希望的前进道路。
进步之弧放缓
过去几周,大语言模型课程取得了明显的进步。随着每次新版本的发布,我们都看到阅读理解、翻译质量和常识推理等基准跟踪能力有了大幅提升。然而,如果我们随着时间的推移跟踪基准性能,就会发现一个模式——每次新的增长都比上一次要小。
让我们来看看在要求严格的 Super GLUE 语言理解基准上的表现。BERT 的准确率从 60% 跃升至 80%,后续模型 GPT-4 和 LLaMA-7B/13B/17B 继续提高得分,但每次迭代只提高几个百分点。PaLM 的准确率达到 90%——这是一项令人印象深刻的成就,但进步的速度正在放缓。甚至有迹象表明,基准可能已接近语言模型可能达到的极限。
这种放缓的部分原因是训练越来越大的模型所需的计算资源迅速增加。自 2022 年第四季度以来,用于 LLM 的计算量大约每 3.4 个月翻一番。然而,基准测试进展的速度已经放缓到更慢的速度——这种分歧表明,我们在规模上每多花一分钱,得到的回报就会减少。
从某种程度上来说,大语言模型最终会遭遇收益递减,这并不令人意外。大语言模型采用一种相对简单的方法——摄取大量文本,学习预测下一个单词。随着模型接触到更多的文本,剩下的新领域越来越少。添加参数可以让模型存储更多的内部表示,但这并不能从根本上改变方法。
LLM 范式的局限性
虽然大语言模型因其简单性而被证明在语言任务上非常出色,但研究人员早就知道他们的方法存在固有的局限性。我在这里重点介绍几个明显的弱点:
脆弱性:人类具有出色的能力,能够从容地处理陌生的输入。我们运用推理、常识和背景来做出最佳猜测。LLM 在这种情况下会遇到困难——面对不熟悉的数据,它们往往会一败涂地。研究人员通过“对抗性攻击”来测试这一点——对输入进行微小的调整,以欺骗模型。最先进的模型在 30-40% 的对抗性示例中仍然会失败,这表明它们的脆弱性。
缺乏基础:人类学习语言的根基深深扎根于我们对物理世界的感知。我们学习“杯子”和“桌子”等概念时,会与环境中物体的丰富感官表征紧密相关。相比之下,大语言模型仅从单词序列中学习语言。当模型围绕需要现实世界知识的主题生成无意义的文本时,这种缺乏人类经验根基的情况就显而易见。
能力狭窄:尽管在翻译和问答等领域取得了进展,但 LLM 仍然只擅长语言任务。即使是 PaLM-2(迄今为止最大的模型之一)在视觉理解、战略推理、机器人运动控制和高等数学等技能方面仍然举步维艰。人类在所有这些领域积累知识,但由于 LLM 是自我监督的预测训练,因此其关注点狭窄。
难以表达复杂的想法:尽管 LLM 能够生成非常连贯的文本,但它们存储的底层含义的表达可能非常差。尝试直接查询模型的内部知识表示(而不是其文本生成能力)会发现它们缺乏更深层次的理解。我们可以将它们比作一个通过记忆问题和答案获得好成绩的学生,而不需要掌握基础知识。
依赖海量数据:LLM 依赖于不断增长的文本数据集来提高性能。然而,大多数知识并非通过大型文本语料库来传达的 — 下棋或诊断疾病等技能需要不同类型的数据。LLM 范式缺乏灵活性,无法整合不符合“预测下一个单词”格式的各种数据类型。
鉴于上述弱点,仅仅扩大现有方法的规模不太可能足以将人工智能提升到人类认知能力的广泛水平。要真正匹敌(或超越)人类智能,需要将人工智能扩展到当今的大语言模型之外。
多模态模型的前景与挑战
如果我们承认大语言模型的进展已经放缓,那么下一步的研究重点应该在哪里?一个有希望的答案指向像 Mixtral 这样的多模式模型——能够理解和生成多种模式(如文本、图像、语音、机器人和结构化知识)的人工智能系统。
打个比方,大语言模型就像专门为打字而训练的机器。多模态模型的目标更高——机器可以通过视觉、声音、触觉和交互更广泛地理解世界。就像人类通过所有这些模式(而不仅仅是写作)积累知识一样,多模态人工智能也在尝试同样的事情。
从实用角度来看,多模态系统更能反映现实世界的用例。无论是构建对话式助手、进行科学研究、控制自动驾驶汽车还是自动化供应链,几乎所有任务都依赖于多种数据类型。多模态模型提供了获取这些广泛数据的灵活性,而 LLM 等专业模型则无法做到这一点。
多模式人工智能已经展现出早期的前景:
- 像 DALL-E 2 这样的视觉语言模型可以根据文本提示生成逼真的图像,展示基于视觉概念的语言理解。
- 像 Codex 这样的模型展示了在模态之间进行翻译的初始能力——它们可以根据语言提示自动生成代码。
- 机器人学习系统正在展示通过摄像机输入获得对物理世界的感觉运动理解的能力。
然而,严峻的挑战依然存在。与人类水平的理解相比,视觉、机器人甚至常识推理的基础语言仍然有限。代码生成模型在超越简单功能时会遇到困难。机器人学习仍然局限于基本的运动技能。
也许最大的障碍在于模型训练。人类通过多年的多样化具体经验逐渐获得多模态知识。但当代人工智能模型必须将学习压缩为数周或数月的高性能计算训练。因此,将离散模态连接到连贯的理解仍然是一个尚未解决的挑战。
前进的道路
如果最终目标是达到(或超越)人类智能的全部范围,那么多模态人工智能至少是朝着正确方向迈出的有希望的一步。但如何最好地探究这一领域的开放性研究问题呢?有几个主题脱颖而出:
自监督学习的进步:自监督带来了计算机视觉、语音、语言理解甚至机器人控制方面的突破。继续寻找连接模态的自监督信号可以实现更综合的多模态理解,而无需大量的手动标记。
更灵活的模型迭代:当前的实践强调扩大 GPT-4 和 Gemini Pro 等“庞然大物”模型。多模态研究需要更快速地测试新的模型架构、损失函数和训练目标——可能需要更小的子尺度模型来实现更快的迭代。
可重复使用的模型组件:研究人员不是使用单片模型,而是使用可重复使用的组件(视觉模块、物理模拟器等)组装多模式系统。这种“乐高积木”方法可以支持跨模式的更快实验。
模拟环境:训练多模态系统需要多样化的具体体验——数据很难以物理方式收集,而且成本高昂。合成模拟环境提供了一种可扩展的途径,可以在将学习转移到现实世界之前,对家用机器人等系统进行丰富的交互任务训练。
专用硬件:独特的计算设备,例如神经形态芯片和量子退火机制,理论上可以以与传统神经网络根本不同(且更像人性化)的方式对跨模态理解进行建模。
除了上述方向之外,在 AGI 能够匹敌人类认知灵活性之前,可能需要全新的学习、推理和知识表示理论。当前基于反向传播的神经网络范式已被证明非常有效,但在算法层面上可能仍与人类智能有很大不同。真正弥合这一差距仍然是该领域面临的巨大挑战。
前方的路
值得注意的是,尽管 LLM 存在缺陷,但它们在狭义的语言任务上已经展现出与人类相媲美的熟练程度。它们的快速进步让人不禁想象,只要继续扩大规模,人类的所有认知能力就触手可及。然而,正如我们所讨论的,LLM 的回报可能会从现在开始递减——因此它们不太可能自行将能力扩展到一般人类水平。
同时,大语言模型提供了坚实的基础,可以在此基础上继续发展,而不是完全抛弃。语言模型的迁移学习有望在多模态领域取得进展——类似于预训练的 ImageNet 计算机视觉模型如何解锁进一步的突破。在模态之间转移新兴知识的微调方法可以进一步帮助弥合孤立的建模工作。
总体而言,人工智能领域目前可能正处于一个关键点,类似于过去十年从基于规则的系统向统计机器学习的过渡。随着大语言模型课程日趋成熟,研究人员似乎越来越多地被多模态理解等前所未有的前沿领域所吸引。结果仍处于初步阶段,但这一新方向的一些切线似乎是实现该领域崇高的长期抱负所必需的。
在模型架构创新、更快的迭代周期、模拟体现、可重复使用的模块和定制硬件方面,我们并不缺乏推动进步的杠杆。通过这些方面的共同努力,多模态系统可能在十年内开始展现出与人类相似的流畅性,将语言、视觉、推理(智能的标志)融为一体。
当然,预测人工智能未来的发展仍然非常困难。趋势可能会再次转向目前被忽视的方法。也许量子计算或大脑启发的脉冲神经网络等全新范式将主导研究。然而,在当代技术中,多模态建模目前似乎是在语言模型扩展时代消退后推动快速创新的最有利途径。
成功意味着什么
如果我们接受语言单独发展方面的进步正在放缓的前提,那么什么可以成为这一新的多模式前沿领域成功的指标呢?
- 能够以视觉环境为基础进行流畅对话的系统,通过图像与人类分享感知体验。
- 人工智能助手能够无缝连接多种模式——将自然语言请求转化为程序代码或机器人运动控制以完成请求的任务。
- 模型通过呈现新颖的图像、故事,甚至仅通过语言提示描述的发明来展示创造力和想象力。
- 系统通过自主探索模拟环境来获取广泛的世界知识,无需人工监督或数据集管理。
- 机器人只需观看视频演示就能学习复杂的运动技能,如人类水平的灵巧性。
这些例子表明,多模态理解对于当今的大语言模型来说很难甚至不可能实现。它们不仅需要将知识编码在文本语料库中,还需要将多种感官模态整合在一起。开发这样的系统需要对文字以外的世界进行建模——这是现代人工智能范式的根本扩展。
前方的路
回顾过去,我们发现自己处在一个软件突破层出不穷的时代,但仍然缺乏对人类来说简单的许多技能。随着大语言模型继续在更狭窄的语言领域占据主导地位,研究人员似乎越来越被新的前沿所吸引。
多模态理解是一门新兴学科,但成功并非板上钉钉。尽管如此,探索未知领域仍能为意想不到的新见解铺平道路——就像早期神经网络先驱们几乎无法预料到自己会进入如今的大型大语言模型课程一样。
这一探索既是工程挑战,也是基础科学探究。工程旨在将不同的数据类型集成到统一的系统中。科学则能更好地理解通用智能本身的原理。由于关于学习、推理的本质以及生物系统与人工系统之间的桥梁仍有许多未解之谜,多模态研究不仅有望带来新技术,而且还有望带来启发硅基和碳基思维的新视角。
正如业界和学术界的领袖所观察到的,尽管狭义人工智能取得了杰出的成就,但我们最初长达十年的追求,即与人类的多功能性相匹配,在很大程度上仍未实现。随着大语言模型课程进入成熟期,其自身也正在向极限迈进,有针对性的多模态能力建设提供了最有希望的途径,让我们的雄心超越目前的视野。现在还为时过早,但正在进行的可控进展值得乐观。
2024/2025 年即将开启多式联运时代!
RA/SD 衍生者AI训练营。发布者:chris,转载请注明出处:https://www.shxcj.com/archives/3744