分类
最新动态

人工智能的下半场(太长不看版:我们正站在人工智能发展的中场时刻)

本文译自 《The Second Half》,作者深入探讨 AI 发展进入“下半场”的核心转变。随着 RL 泛化“配方”成熟,研究重心需从模型方法创新转向问题定义与真实世界效用评估,以解决 AI 的“效用问题”。

过去数十年间,人工智能的发展重心始终是探索新的训练方法与模型架构。这一路线成效显著:从在国际象棋、围棋领域击败世界冠军,到在SAT考试、司法考试中超越大多数人类,再到斩获国际数学奥林匹克竞赛(IMO)和国际信息学奥林匹克竞赛(IOI)金牌。深蓝(DeepBlue)、AlphaGo、GPT-4以及o系列模型等里程碑背后,无不体现了搜索算法、深度强化学习、规模扩展与推理能力等基础性创新。随着时间推移,这些技术不断精进。

那么,当下究竟发生了什么根本性转变?

答案可归结为三个词:强化学习(RL)终于奏效。更准确地说:强化学习终于实现了泛化能力。在经历多次重大探索与里程碑事件的积累后,我们终于找到一种通用方法,能够借助语言与推理能力解决广泛的强化学习任务。即便在一年前,如果有人宣称单一方法可以攻克软件开发、创意写作、IMO级数学难题、键鼠操控及长文本问答等多元任务,多数AI研究者都会将其视为天方夜谭。这些任务各自具有极高难度,许多研究者穷尽整个博士生涯也只能专注于其中某个细分领域。

然而,这一切已成现实。

未来何去何从?从此刻起,人工智能将迈入下半场——重心将从”解决问题”转向”定义问题”。在这个新时代,评估的重要性将超越训练。我们不再仅仅追问”能否训练模型解决X问题?”,而是需要思考”应该训练AI完成哪些任务?如何衡量实质进展?”要在下半场立足,我们必须及时转变思维方式与技能储备,这些或许更接近产品经理的素养。

上半场的游戏规则

要理解人工智能的上半场,不妨观察其中的赢家。您认为迄今为止最具影响力的AI论文有哪些?

我在斯坦福大学224N课程中参与过类似测试,答案并不意外:Transformer、AlexNet、GPT-3等。这些论文的共同点是什么?它们都提出了能显著提升模型性能的基础性突破。同时,这些论文都通过在某些基准测试中展示(显著)改进成果得以发表。

但更深层的共性是:这些”赢家”都是训练方法或模型架构,而非基准测试或任务设定。即便是史上最具影响力的ImageNet基准测试,其引用量也不及AlexNet论文的三分之一。在其他领域,方法与基准测试的对比更为悬殊——以Transformer模型为例,其核心测试平台WMT’14翻译任务的工作坊报告引用量约1300次,而Transformer论文引用量已突破16万次。

这揭示了上半场的游戏规则:专注于构建新模型与方法,评估与基准测试处于次要地位(尽管是论文体系运作的必要条件)。

为何如此?核心原因在于:在人工智能的上半场,方法的创新难度与价值都远超任务设定。从零开始创建新算法或模型架构(如反向传播算法、卷积网络AlexNet或GPT-3采用的Transformer)需要非凡的洞见与工程能力。相较之下,为AI设定任务显得相对简单:我们通常直接将人类已有任务(如翻译、图像识别或下棋)转化为基准测试。这并不需要太多洞见或工程技术。

此外,方法往往比单个任务更具普适性,因而价值更高。例如,Transformer架构最终推动了计算机视觉、自然语言处理、强化学习等多个领域的进步,其影响力远超最初验证其效能的WMT’14翻译数据集。优秀的新方法能够通过简单通用的特性在多个基准测试中取得突破,因此其影响往往超越单一任务。

这套规则有效运行数十年,催生了改变世界的创意与突破,体现为各领域基准测试成绩的持续提升。为何现在需要改变?因为这些创意与突破的积累,已在任务解决层面引发质变,形成了通用解决方案。

通用解决方案

这个通用方案包含哪些要素?不出所料,其成分包括大规模语言预训练、数据与算力规模扩展,以及推理与行动机制。这些概念在硅谷已是耳熟能详的术语,但为何称其为”解决方案”?

我们可以通过强化学习(RL)的视角来理解这一概念。RL常被视为人工智能的”终极形态”——理论上RL能保证在游戏中获胜,现实中AlphaGo等超人类系统也离不开RL的支撑。

在RL框架中,存在三个关键要素:算法、环境与先验知识。长期以来,研究者主要聚焦于算法开发(如REINFORCE、DQN、TD学习、actor-critic、PPO、TRPO等智能体学习机制),而将环境与先验知识视为固定或次要因素。Sutton和Barto的经典教科书就完全聚焦算法,几乎不涉及环境或先验知识的讨论。

然而在深度强化学习时代,环境的实际重要性逐渐显现:算法性能往往高度依赖其开发与测试环境。忽视环境因素可能导致构建出仅在理想化场景中表现优异的”最优”算法。既然如此,为何不首先明确要解决的实际环境,再寻找最适合的算法?

这正是OpenAI的初始计划。他们开发了Gym(标准RL环境库)、World of Bits和Universe项目,试图将互联网或计算机转化为游戏环境。完美计划,不是吗?只要将所有数字世界转化为环境,再用智能RL算法攻克,就能实现数字通用人工智能(AGI)。

理想丰满,现实骨感。OpenAI虽在Dota、机械手控制等领域取得重大进展,但在计算机操作或网络导航方面始终未能突破,且不同领域的RL智能体无法迁移应用。显然缺少了关键要素。

直到GPT-2/GPT-3问世,人们才意识到缺失的拼图是先验知识。通过强大的语言预训练将常识与语言知识注入模型,再通过微调即可转化为网络代理(WebGPT)或聊天代理(ChatGPT)(进而改变世界)。事实证明,RL最重要的部分可能根本不是RL算法或环境,而是可以通过与RL无关方式获取的先验知识。

语言预训练为聊天场景提供了优质先验,但对计算机控制或电子游戏效果欠佳。原因何在?这些领域与互联网文本分布差异较大,单纯进行监督微调(SFT)/RL难以实现良好泛化。2019年GPT-2刚发布时,我就发现这个问题:当时基于GPT-2开发的CALM(首个基于预训练语言模型的文本游戏代理)需要数百万次RL训练才能在单一游戏中提升表现,且无法迁移到新游戏。尽管这在RL领域并不反常,但我意识到人类玩家却能轻松应对新游戏——我们通过思考”地牢危险需要武器→未见现成武器→可能在锁箱中→3号箱在2号柜→先去解锁”等推理过程实现零样本学习。

思考(或推理)是种特殊的行动——它不直接影响外部世界,但推理空间具有开放性与组合爆炸性。在经典RL理论中,这会导致决策困难(如新增无限空箱会降低预期收益)。但通过将推理纳入RL行动空间,我们得以利用语言预训练先验实现泛化,并为不同决策提供灵活的计算资源。这种机制的神奇之处难以在此详尽阐释(可能需要另撰博文),但直观解释是:尽管存在无数空箱,你在各类游戏中已积累丰富经验,这种选择训练让你更善于在不同游戏中找到藏有奖金的箱子。抽象而言:语言通过智能体推理实现泛化。

当我们拥有合适的RL先验(语言预训练)和RL环境(将语言推理作为行动),RL算法反而成为最次要的环节。由此诞生了o系列模型、R1、深度研究项目、计算机操作代理等成果。这真是极具讽刺性的转折!长期以来RL研究者重算法轻环境,几乎无人关注先验知识——所有RL实验都从零开始。我们却耗费数十年才意识到优先级本应完全倒置。

正如乔布斯所言:你无法预先把点滴串连起来,只有在回顾时才会明白那些点滴如何串连。

下半场的游戏规则

这种通用方案正在彻底改变游戏规则。回顾上半场的玩法:

开发新型训练方法/模型以提升基准测试成绩

创建更难的基准测试,循环往复

这套规则正在失效,因为:

通用方案已实现基准测试攀登的标准化与工业化,不再需要太多新创意。随着方案规模扩展与泛化能力提升,针对特定任务的新方法可能仅带来5%的改进,而下一代o系列模型无需专门优化即可实现30%的提升。

即使创建更难基准测试,它们也会迅速(且越来越快)被通用方案攻克。我的同事Jason Wei绘制的趋势图清晰展现了这一规律:

那么下半场还剩下什么可探索?如果新方法不再必需,更难基准测试也会快速被攻克,我们该何去何从?

我认为必须从根本上重新思考评估体系。这意味着不仅要创建更难的基准测试,更要质疑现有评估框架并建立新范式,迫使我们在通用方案之外探索新方法。这极具挑战性,因为人类具有惯性思维,很少质疑基本假设——我们往往将其视为既定法则而非可调整的前提。

以考试评估为例:2021年基于人类考试设计评估体系堪称大胆创新,但三年后已显疲态。惯性思维会驱使我们设计更难的考试。同理,攻克基础编程任务后,惯性会引导我们追逐IOI金牌级难题。

惯性思维虽属自然,但存在问题。AI已在象棋、围棋领域击败世界冠军,在SAT和司法考试中超越多数人类,达到IOI/IMO金牌水平。但按经济与GDP衡量,世界并未发生根本性改变。

我称之为效用困境,并视其为AI领域最重要的问题。

效用困境的根源可能出人意料地简单:现有评估体系与真实世界存在根本性差异。试举两例:

  1. 评估”应该”自动运行:智能体接收任务输入→自主行动→获得任务奖励。但现实中,智能体需要与人类持续交互(如客户服务场景需要实时沟通,而非发送长篇消息后等待10分钟获得最终回复)。通过质疑这种设定,我们发明了引入真人交互(如Chatbot Arena)或用户模拟(如tau-bench)的新基准测试。
  1. 评估”应该”独立同分布(i.i.d.):用含500个任务的测试集独立运行每个任务,取平均指标。但现实中任务需顺序解决而非并行处理。人类工程师在熟悉代码库后处理问题的能力会持续提升,而现有AI工程师代理处理同一代码库的多个问题时却无法积累经验。我们显然需要长期记忆机制(已有相关研究),但学术界既缺乏证明其必要性的合适基准,也缺乏质疑机器学习基础假设(i.i.d.)的勇气。

这些假设在上半场无可厚非:当智能水平较低时,提升智能通常就能提高效用。但如今通用方案已能在这些假设下稳定运作。因此,下半场的新游戏规则应是:

  1. 为现实效用设计新型评估体系/任务
  2. 用通用方案解决或通过新组件增强方案,循环往复

这场游戏充满挑战(因其陌生),却也激动人心。上半场玩家征战电子游戏与考试时,下半场玩家将通过构建实用智能产品打造千亿级企业。当上半场充斥着渐进式方法与模型时,下半场将对其进行筛选——除非你建立能突破通用方案的新假设,否则渐进式改进终将被碾压。唯有如此,才能真正开展改变游戏规则的创新研究。

欢迎来到人工智能的下半场!

致谢

本文基于我在斯坦福大学224N课程和哥伦比亚大学的演讲。我使用OpenAI深度研究系统辅助阅读幻灯片并撰写初稿。

阅读原文:https://ysymyth.github.io/The-Second-Half/