Altman发布OpenAI路线图:分享最新模型规范进展、开源与未来展望

模型规范更新缘由

基于外部反馈以及我们在塑造理想模型行为方面的持续研究,我们对模型规范进行了更新。

我们正在分享模型规范的重大更新。该文档定义了我们期望 AI 模型所具备的行为方式。此次更新强化了我们在可定制性、透明度以及知识探索自由方面的承诺,旨在让人们能够在无不合理限制的情况下,借助 AI 进行探索、辩论和创造,同时确保设置必要的防护措施,以降低造成实际危害的风险。它以去年五月我们所奠定的基础为依托,融入了我们在从一致性研究到为全球用户提供服务等各种不同场景中应用该规范的经验。

我们还分享了在广泛场景下,模型遵循模型规范原则的一些早期成果。这些发现既凸显了随着时间推移所取得的进展,也指出了仍有改进空间的领域。与我们的模型一样,模型规范将在应用、分享以及听取利益相关者反馈的过程中不断演变。为支持广泛使用与协作,我们依据知识共享 CC0 许可,将此版本的模型规范发布到公共领域。这意味着开发者和研究人员能够在自身工作中自由使用、调整并基于此进行构建。

模型规范的目标与原则

OpenAI 的目标是创建实用、安全且符合用户和开发者需求的模型,同时推进我们的使命,确保通用人工智能造福全人类。为实现这一目标,我们需要迭代部署能够赋能开发者和用户的模型,同时防止模型对用户或他人造成严重伤害,并维持 OpenAI 的运营许可。

这些目标有时可能相互冲突,模型规范通过指示模型遵循明确定义的指令层级,以及为各种场景设定边界和默认行为的其他原则,来平衡它们之间的权衡。此框架在明确界定的边界内,优先考虑用户和开发者的控制权:

  • 指令层级:定义了模型对来自平台(OpenAI)、开发者和用户的指令进行优先级排序的方式。模型规范的大部分内容由我们认为在许多情况下有帮助的指南组成,但用户和开发者可以在平台规则设定的边界内对其进行覆盖。这使用户和开发者能够充分定制模型行为。
  • 共同探寻真相:如同正直的人类助手,我们的模型应赋能用户做出自己的最佳决策。这需要在以下两者间谨慎权衡:(1)避免按特定议程引导用户,默认保持客观,同时愿意从任何角度探索任何主题;(2)努力理解用户目标,澄清假设和不确定细节,并在适当的时候提供批判性反馈,这是我们收到并加以改进的用户请求。
  • 尽力做好工作:设定了关于能力的基本标准,包括事实准确性、创造性以及编程应用。
  • 保持在界限内:阐释了模型如何在用户自主性与预防措施之间取得平衡,以避免促成伤害或滥用。这个新版本旨在全面涵盖我们要求模型拒绝用户或开发者请求的所有原因。
  • 易于接近:描述了模型默认的对话风格 —— 热情、有同理心且乐于助人,以及这种风格如何进行调整。
  • 使用恰当风格:就格式和表达提供默认指导。无论是简洁的项目符号、精炼的代码片段还是语音对话,我们的目标都是确保清晰性和易用性。

维护知识探索自由

更新后的模型规范明确支持知识探索自由,即 AI 应赋能人们在无不合理限制的情况下进行探索、辩论和创造,无论某个主题多么具有挑战性或争议性。在 AI 工具日益影响话语交流的世界里,信息和观点的自由交换对于进步与创新至关重要。

这一理念体现在 “保持在界限内” 和 “共同探寻真相” 部分。例如,模型绝不应该提供制造炸弹或侵犯个人隐私的详细说明,但应鼓励它对政治或文化敏感问题提供深思熟虑的答案,而不宣扬任何特定议程。本质上,我们强化了这样一个原则:只要模型不会对用户或他人造成重大伤害(例如实施恐怖主义行为),任何想法都不应被固有地排除在讨论范围之外。

衡量进展

为更好地了解模型在现实世界中的表现,我们开始收集一系列具有挑战性的提示,用于测试模型对模型规范中每项原则的遵循程度。这些提示通过模型生成与专家人工审核相结合的方式创建,确保涵盖典型和更复杂的场景。

一张黑底上交替出现白色和黄色条纹的柱状图,代表数据比较。黄色条纹带有点状图案,为视觉呈现增添了纹理。

初步结果表明,与去年五月我们的最佳系统相比,模型对模型规范的遵循情况有了显著改善。虽然部分差异可能归因于政策更新,但我们认为大部分源于一致性的增强。尽管进展令人鼓舞,但我们认识到仍有很大的提升空间。

我们将此视为一个持续过程的开端。我们计划通过新的示例,尤其是在实际使用中发现的、我们的模型和模型规范尚未完全解决的案例,不断拓宽我们的挑战集。

在塑造此版本的模型规范时,我们纳入了对第一版的反馈,以及从一致性研究和实际部署中获得的经验教训。未来,我们希望考虑更广泛的公众意见。为实现这一目标,我们已与约 1000 人进行了试点研究,每个人都对模型行为、提议规则进行审核并分享他们的想法。虽然这些研究尚未反映广泛的观点,但早期见解直接促成了一些修改。我们认识到这是一个持续迭代的过程,并致力于不断学习和完善我们的方法。

模型规范开源

我们依据知识共享 CC0 许可,将此新版本的模型规范奉献到公共领域。这意味着开发者和研究人员能够在自己的工作中自由使用、调整或基于模型规范进行构建。我们还将上述评估提示开源,并计划在未来发布更多用于规范评估和一致性的代码、工件及工具。

你可以在一个新的 GitHub 存储库(在新窗口中打开)中找到这些提示和模型规范源文件,我们计划今后在此定期发布新的模型规范版本。

未来规划

随着我们的 AI 系统不断进步,我们将继续迭代这些原则,邀请社区反馈,并公开分享我们的进展。展望未来,我们不会为模型规范的每次更新发布博客文章。相反,你始终可以在 model – spec.openai.com(在新窗口中打开)找到并追踪最新更新。

我们的目标是在持续研究和创新的指引下,不断安全地开启新的用例,发展我们的方法。AI 在我们日常生活中日益重要的作用,使得持续学习、完善并公开交流变得至关重要。这种方法不仅反映了我们目前所学到的知识,也体现了我们的信念:使 AI 保持一致性是一个持续的旅程,我们希望你能与我们一同前行。如果你对此规范有任何反馈,可以在此处分享。

参考资料

https://openai.com/index/sharing-the-latest-model-spec/

https://x.com/sama/status/1889755723078443244