,

OpenAI 新推理模型 o3 对独立开发者意味着什么?

即将发布的这一模型是迈向通用人工智能(AGI)的重要一步,创业者们需要了解这些新进展将如何影响他们未来的业务。

  • OpenAI 宣布推出新推理模型 o3,该模型在基准测试中已接近 AGI 水平的性能表现。
  • 该模型要到 2025 年 1 月或更晚才会推出。
  • 创业者们应利用推理模型进行长期预测,同时打造能获取短期利润的灵活业务。

人工智能又一次升级了。

OpenAI 刚刚宣布推出其下一代推理模型 o3。

这是其 “12 天产品发布潮” 中最后且最重要的一项发布,我一直在思考这对身为创业者的我们意味着什么。

o3 是什么,为何它意义重大?

o3 是一个新的推理模型系列,将包括 o3 和 o3 – mini。而且,如果遵循 o1 的模式,未来可能还会推出 o3 – pro – mode。

对于刚了解情况的人来说,推理模型是一种广受欢迎的新型人工智能模型,它能够进行推理。它们可以一步步分析你给出的问题,制定解决方案,并在过程中检查自身的工作。因此,它们的响应时间更长(有时会长很多),但能更准确地解决更复杂的问题,甚至写出的内容质量也更高。

OpenAI 首款公开可用的推理模型 o1 于今年 9 月发布。从那以后,OpenAI、谷歌等公司都推出了改进版的推理模型。

我个人每月花 200 美元(哎呀)来使用 OpenAI 最先进的 o1 模型 o1 – pro – mode,只是为了测试它,看看它写作和推理的能力如何。

它非常出色。我觉得 6 个月后,我们会疑惑自己之前怎么能满足于不如推理模型的产品。

那么 o3 比当前的 o1 模型到底好多少呢?

对 OpenAI 的 o3 进行的独立评估表明,它通过了此前被认为人工智能远无法企及的基准测试,包括在 ARC – AGI 测试中取得了与真正实现 AGI 相关的分数(尽管该基准测试的创建者认为 o3 还不是 AGI)。https://t.co/W2rrxXqYB0

—— 伊桑・莫利克(@emollick),2024 年 12 月 20 日

我来给你简化一下:

  • ARC – AGI 是一个旨在衡量我们向 AGI 迈进程度的基准测试,即衡量人工智能在获取训练数据之外新技能方面的能力。
  • 要达到人类水平的表现,人工智能的得分需达到约 85%。
  • OpenAI 之前的推理模型 o1 得分在 25% – 32% 之间。
  • o3 取得了巨大飞跃,最佳成绩达到 87.5%,总体表现至少比 o1 好三倍。

它是 AGI 吗?还不完全是。但在很多情况下,两者几乎难以区分,这应该让每位创业者停下来思考这对我们意味着什么。

创业者应对 AGI 该怎么做

就在几天前,写作教练大卫・佩雷尔在推特上谈到了人工智能的巨大进步:

我花了 5 年时间教授写作,而 ChatGPT 发展到现在,只需几个提示,其输出结果就比我 75% 的写作学生经过一天努力所能达到的水平还要好。

—— 大卫・佩雷尔(@david_perell),2024 年 12 月 18 日

我回复道:“人工智能正在冲击速度、质量、创造力、清晰度、一致性、效率、风格、适应性、连贯性、深度、简洁性、多样性、新颖性、优雅性、机智、趣味性、分析能力、综合能力和原创性。唯一剩下的价值将是真实性。”

如果人工智能能成为比人类作家更好的写作者,那么可以合理推测,假以时日它也能成为比人类创业者更出色的创业者。

o3 尚未发布 —— 他们正在进行安全测试。如果让我猜,我估计要到 1 月底或 2 月初才会面向公众推出。所以现在是我们做准备的时候。不仅是为 o3 的发布做准备,更是为 2025 年及以后更先进的推理模型和类似 AGI 的性能提升做准备。

我给独立开发者的几点重要建议:

你或许无法预测未来,但应该尝试去做。正如萨希尔・拉文吉亚最近在推特上所说:“为 2030 年而打造。” 你绝对应该花几分钟时间试着展望未来。我建议用 o1 来帮忙,这再合适不过了。如果说这些新的推理模型擅长什么,那就是规划。

我用了一个提示,得到了一些有趣的结果,它帮助我进入为未来打造产品的思维模式:

我运营着 Indie Nests,这是一家面向试图运营和发展在线业务的创业者的媒体公司和社区。我们目前对获取记者撰写的无限制优质内容(小众新闻和操作指南)收取订阅费。我很好奇随着人工智能推理模型变得更强大、智能体变得更强大、大语言模型写作能力提升且与人类写作难以区分、我们更接近 AGI,以及其他开发者和公司在此基础上进行开发,持续的人工智能发展未来会如何影响我的业务。

请研究短期内与我业务相关的 5 个最可能出现的二阶效应。然后,针对每个二阶效应,进一步推断出一个与我业务相关的三阶效应,时间大概在 1 – 2 年后。最后,针对每个三阶效应,再次推断出一个与我业务相关的四阶效应,时间大概在 3 – 5 年后。

每次推断时,说明世界 / 市场 / 环境 / 技术 / 需求 / 客户将如何变化,并详细阐述。之后再讨论我的业务可能如何适应或改变、繁荣或受挫。

和所有提示一样,你需要根据自己的业务进行调整,如果人工智能给出的回复不是你想要的,就再调整一下。但经过几次反复调整提示,你获得的见解将非常值得。

与 o1(最终是 o3)一起做规划。如果你还没意识到,对于创业者来说,推理模型擅长的事情之一就是规划。如果你为一个新想法、新功能、营销策略或其他任何事情制定了计划,把它复制粘贴到 o1 中,问问它的看法,或者它是否能发现任何缺陷。我认识的最优秀的创业者都习惯性地将最新的人工智能模型当作执行教练,并探讨如何将尽可能多的业务内容纳入有限的上下文窗口。

山姆・帕尔的这篇文章不仅回复内容很有价值,他对自己过程的描述也很有价值:

人工智能领域的朋友们。

告诉我你们会怎么解决这个问题:

  • 我经常把 ChatGPT 当作执行教练和思考伙伴。
  • 它花了很多时间问我关于我自己、我的目标、我的优势、劣势、业务财务状况的问题。
  • 我向它寻求建议。
  • 我还让它读书,然后……

—— 山姆・帕尔(@thesamparr),2024 年 12 月 17 日

最后……

快速行动,着眼当下进行打造。我知道我刚说要展望 2030 年,但在一个变化频繁却又不确定的世界里,灵活应变并比其他人更快地对变化做出反应是一种超能力。如果说独立开发者在某方面能比其他创业群体做得更好,那就是快速行动。

例如,图像模型刚一成熟,彼得・莱弗斯和丹尼・波斯特马就抓住机会打造了 PhotoAI 和 Headshot Pro,这两款产品为他们带来了数百万美元的收入。人工智能简历生成器、商业计划生成器和其他实用工具也表现出色。

我在这里的建议是避开通用工具,而是考虑使用 o3 和其他推理模型,为那些几十年来一直能产生收入但需要人力参与的实际业务打造更好的人工智能版本。

由于 o3 注重花更多时间进行更深入的推理,你可以考虑那些需要思考和研究的业务,比如旅行规划、拨款申请撰写和市场调研。

这些业务在 2 年、5 年、10 年后还会存在吗?也许不会。

但它们短期内可以表现良好,因为对新人工智能能力的兴奋会激发客户的好奇心,引发谷歌搜索和媒体报道。

将你打造的产品宣传为 “让开,XYZ!全新 o3 驱动的工具在做 XYZ 方面比人类做得更好”,向媒体宣传以提供一个好故事,如果你的细分领域适合,就从那时起专注于搜索引擎优化。

如果你大获成功,回到 Indie Hackers 给我们发邮件,这样我们就能分享你的故事。

祝大家创业顺利!