The Information:揭秘 OpenAI GPT-5 崎岖的研发之路
OpenAI 在开发 GPT-5 过程中遭遇的种种困境,预示着整个行业 AI 进展的放缓。研究人员相信,强化学习领域的进步将有助于克服这一障碍。
核心要点
• GPT-5 将展现出超越其前辈的实质性改进,但其性能上的提升将无法与早期 GPT 系列模型的性能飞跃相提并论。
• 今年,OpenAI 遭遇了一系列技术难题,使其 o3 及其他模型的研发一度陷入困境。
• 研究主管 Mark Chen 与一位副手之间的分歧在内部通讯工具 Slack 上被公之于众。
摘录部分内容:
OpenAI 在业务上的进展掩盖了内部对其能否持续改进 AI 并保持领先于谷歌、埃隆·马斯克的 xAI 和 Anthropic 等资金雄厚的竞争对手的担忧。
在今年开始之前,问题已经酝酿了数月。在 2024 年下半年的大部分时间里,OpenAI 都在开发一个内部代号为“Orion”(猎户座)的模型,该模型原计划成为 GPT-5。据参与该项目的人士透露,Orion 的目标是实现比当年 5 月发布的现任旗舰模型 GPT-4o 更大的性能飞跃。
但 Orion 项目最终未能产出更优的模型,公司不得不在今年 2 月将其作为 GPT-4.5 发布。 此后,它便淡出了人们的视线。
失败的部分原因在于预训练的局限性。预训练是模型开发的第一阶段,模型在此阶段处理来自网络和其他来源的数据,以便建立概念之间的联系。
据两位知情人士透露,OpenAI 不仅面临着高质量网络数据日益枯竭的问题,研究人员还发现,他们对模型进行的调整在模型规模较小时有效,但随着模型规模的扩大却失效了。
去年,OpenAI 还开发了推理模型,这些模型在获得更多计算能力来处理答案时表现更佳。这些模型源于 2023 年末一项名为 Q* 的突破,该突破曾在其研究人员中引起震动,因为它能解决从未见过的数学问题。到 2024 年,推理模型似乎帮助公司克服了预训练期间性能增益放缓的问题。
去年秋天,OpenAI 将第一个主要的推理模型转化为 o1,这是一个可以出售给应用开发者并用于驱动 ChatGPT 内部对话的版本。
这次发布为 OpenAI 在 AI 领域赢得了新的影响力,并为开发依赖推理模型以在极少人工监督下处理任务的 AI 智能体奠定了基础。
据一位参与开发的人士透露,在 2024 年底之前,OpenAI 使用了与 o1 基础相同的大语言模型 GPT-4o,创建了下一个推理模型 o3。
这位人士表示,尽管它们血缘相同,但 o3 的父模型——也被称为“教师模型”——在理解各种科学及其他领域方面,相较于 o1 的父模型取得了非凡的进步。
据两位参与其中的人士透露,改进的原因之一是 OpenAI 决定使用更多的英伟达芯片服务器来开发 o3 的父模型,这实际上是给了它更多的处理能力来理解困难的概念。 另一位人士说,另一个原因是研究人员赋予了它搜索网络或从代码库中提取信息的能力,这也帮助它超越了 o1 的父模型。
o3 的父模型,与 o1 的父模型类似,也受益于强化学习。在这种方法中,人类专家在生物学、软件工程和医学等领域提出难题和答案,然后要求模型针对这些问题生成数千个自己的回答。
随后,OpenAI 用那些与人类专家得出相同答案的回答来训练模型。(这些由 AI 生成的回答也被称为合成数据。)
当 OpenAI 公开分享该模型在专门测试中的优异表现结果时,它登上了世界各地的新闻头条,并在社交媒体上引发了病毒式热潮。但随后,现实的考验来临了。
据参与开发的知情人士称,当 OpenAI 将 o3 的父模型转换为一个聊天的版本——也称为“学生模型”,允许人们向它提问任何问题时,其性能增益显著下降,以至于表现并不比 o1 好多少。
他们表示,当 OpenAI 创建一个公司可以通过应用程序编程接口(API)购买的模型版本时,也出现了同样的问题。
其中一位人士解释说,原因之一在于该模型理解概念的独特方式,这可能与人类的交流方式不同。创建聊天版本实际上是把这个原始的、天才级别的模型“降维”了,因为它被迫用人类的语言而不是它自己的语言进行交流。 推理模型在 ChatGPT 中“思考”如何解决问题时偶尔显示的“乱码”就反映了这种交流上的差异。
据另一位参与者称,公司也没有足够重视训练模型如何以聊天方式与人类良好沟通。
尽管性能有所下降,OpenAI 今年公开发布的 o3 推理模型还是帮助了核聚变和病原体检测等领域的科学家提出了新的假设和实验方案以供测试。
尽管如此,大语言模型和基于聊天的推理模型的进展并未达到 OpenAI 领导和研究人员的预期。o 系列模型似乎也让 ChatGPT 的用户感到困惑,因此 Altman 告诉员工,公司决定回归使用 GPT 的命名惯例。
据一位曾参与开发的人士透露,就在今年 6 月,技术问题意味着 OpenAI 正在开发的模型中,没有一个看起来足够好到可以被命名为 GPT-5。
据一位熟悉这项工作的人士说,他们一直在开发一种被研究人员称为“通用验证器”的工具,该工具能自动化地确保模型在强化学习(RL)过程中产生高质量的答案。
这个过程本质上是让一个大语言模型承担检查和评分另一个模型答案的工作,它会利用各种来源来研究和核实这些答案。
今年夏天早些时候,在 OpenAI 的一个模型赢得了一场艰难的数学竞赛后,公司高级研究员 Alexander Wei 在 X 上表示,他们一直使用的强化学习方法是“通用的”,这意味着它也可以验证更主观类别(如创意写作)答案的质量。
这些进步似乎帮助了 OpenAI 开发 GPT-5,该模型在软件编程等更容易验证的领域(正确答案可以轻松核对)和创意写作等更主观的领域都显示出了改进。
包括 xAI 和谷歌在内的行业其他公司,也加倍投入将强化学习作为一种有前途的技术来改进 AI 模型。领导 OpenAI 强化学习团队的 Tworek 最近公开评论表示,他同意 OpenAI 模型背后的强化学习系统实际上就是构成通用人工智能(AGI)的观点。
https://www.theinformation.com/articles/inside-openais-rocky-path-gpt-5