,

OpenAI 发布 GPT-4.5,宣称最佳但遭质疑,优势与局限并存

OpenAI 刚刚发布了 GPT-4.5,这是其旗舰大型语言模型的新版本。该公司宣称,它是迄今为止在全方位聊天方面最大且最佳的模型。OpenAI 的研究科学家米娅・格莱斯(Mia Glaese)表示:“这对我们来说确实是向前迈出的一步。”

自所谓的推理模型 o1 和 o3 发布以来,OpenAI 一直在推进两条产品线。GPT-4.5 属于非推理系列 —— 格莱斯的同事、同样身为研究科学家的尼克・赖德(Nick Ryder)称其为 “经典 GPT 系列的一个版本”。

每月支付 200 美元订阅 ChatGPT Pro 账户的用户如今可以试用 GPT-4.5。OpenAI 表示,下周将开始向其他用户推出该模型。

随着每一次 GPT 模型的发布,OpenAI 都表明模型越大性能越好。但关于这种方法正遭遇瓶颈的讨论也很多 —— 包括 OpenAI 的前首席科学家伊利亚・苏茨克弗(Ilya Sutskever)的言论。OpenAI 对 GPT-4.5 的宣称似乎是对那些唱反调者的一种回击。

所有大型语言模型都会在其训练所基于的数十亿文档中提取模式。较小的模型学习语法和基本事实。赖德称,较大的模型能够找到更具体的模式,比如情感线索,例如当说话者的话语表现出敌意时:“所有这些在人类对话中出现的微妙模式 —— 正是这些越来越大的模型能够捕捉到的东西。”

格莱斯表示:“它有能力进行温暖、直观、自然且流畅的对话。而且我们认为,它对用户的意图有更强的理解,尤其是当用户的期望更加隐含时,能给出细致入微且经过深思熟虑的回复。”

赖德说:“在这一点上,我们大致了解这个模型引擎是什么样的,现在真正要做的是让它高效运转。这主要是一次扩大计算规模、扩充数据量、找到更高效的训练方法,然后突破技术边界的实践。”

OpenAI 不会确切透露其新模型的规模大小。但该公司表示,从 GPT-4o 到 GPT-4.5 的规模提升幅度,与从 GPT-3.5 到 GPT-4o 的提升幅度相同。专家估计,GPT-4 可能拥有多达 1.8 万亿个参数,这些参数是在模型训练时会进行调整的值。

GPT-4.5 的训练技术与之前的 GPT-4o 类似,包括由人类主导的微调以及基于人类反馈的强化学习。

赖德称:“创建智能系统的关键在于我们多年来一直遵循的一种方法,即找到可扩展的范式,这样我们就可以投入越来越多的资源,从而获得更智能的系统。”

与 o1 和 o3 等逐步推导答案的推理模型不同,像 GPT-4.5 这样的普通大型语言模型会直接给出它想到的第一个回复。但 GPT-4.5 用途更为广泛。在 SimpleQA 测试中,GPT-4.5 的表现出色。SimpleQA 是 OpenAI 去年开发的一种常识问答测试,涵盖从科技到电视节目和电子游戏等各类主题的问题。GPT-4.5 的得分是 62.5%,而 GPT-4o 的得分是 38.6%,o3-mini 的得分是 15%。

此外,OpenAI 称 GPT-4.5 给出的编造答案(即所谓的幻觉)要少得多。在相同的测试中,GPT-4.5 编造答案的比例为 37.1%,而 GPT-4o 为 59.8%,o3-mini 为 80.3%。

但 SimpleQA 只是一个基准测试。在其他测试中,包括用于比较大型语言模型的更常用基准测试 MMLU,与 OpenAI 之前的模型相比,GPT-4.5 的提升幅度微乎其微。而且在标准的科学和数学基准测试中,GPT-4.5 的得分比 o3 更低。

GPT-4.5 的独特魅力似乎在于它的对话能力。OpenAI 雇佣的人类测试人员表示,对于日常查询、专业查询以及包括创作诗歌在内的创意任务,他们更喜欢 GPT-4.5 而非 GPT-4o。(赖德称它在老式互联网 ASCII 艺术方面也很出色。)

但在多年处于领先地位之后,OpenAI 面临着激烈的竞争。为企业客户开发大型语言模型的初创公司 Writer 的联合创始人兼首席技术官瓦西姆・阿尔希克(Waseem Alshikh)表示:“对于写作教练和头脑风暴伙伴等特定用例来说,关注情商和创造力是很酷的。”

但他也说:“GPT-4.5 感觉就像是给同一辆旧车刷了一层闪亮的新漆。对一个模型投入更多的计算资源和数据可以让它的表现听起来更流畅,但它并没有带来根本性的改变。”

他还表示:“考虑到能源成本以及大多数用户在日常使用中不会注意到差异这一事实,这样做有点得不偿失。我更希望看到他们转向提高效率或解决特定问题,而不是继续沿用同样的方法进行大规模扩展。”

山姆・奥尔特曼(Sam Altman)曾表示,GPT-4.5 将是 OpenAI 经典系列的最后一次发布,而 GPT-5 将是一个混合型模型,结合了通用大型语言模型和推理模型。

阿尔希克说:“GPT-4.5 是 OpenAI 在幕后酝酿更大动作时的过渡产品。在那之前,这感觉就像是一个临时停靠站。”

然而,OpenAI 坚称其大规模扩展的方法仍然可行。赖德表示:“就个人而言,我对找到突破这些瓶颈的方法并继续扩展模型非常乐观。我认为,在人类所有知识中进行模式匹配是一件极其深刻且令人兴奋的事情。”

Leave a Reply

Your email address will not be published. Required fields are marked *