OpenAI最近上传了几个新的用例demo,其中一个名为《Automate complex workflows with OpenAI o3》,介绍如何用o3来执行多步工作流。
视频展示的工作流属于常规的数据分析任务,包含提取数据、指标计算、可视化、资料搜索和格式写作等若干独立步骤。数据文件不大,分析工作量也不多。开头的OpenAI for Business,代表这个视频出自to B团队。
对比to B团队的其他视频,比如介绍4o生图的《Create on-brand visuals with image generation》、介绍Deep Research的《Market research with ChatGPT》,可以看出,to B向的内容基本都是把已有功能代入到具体的工作场景,相对C端认知普遍是有滞后的。毕竟to B宣传的目标不是讲出新意,而是行业教育。但o3这个视频却有点不一样,它超出了我(以及同类用户)对o3的使用习惯。
自4月发布以来,o3的两个特性引起过社交媒体传播。一个是图像思考,比如火过一阵的识图定位。另一个是工具使用,典型的比如搜索,在很多时候相当于小deep research。这两点在用户体验上也可以归纳为一点——就是提问。
无论我们是在让o3做题、做侦探、做研究、写代码,其实都是在“提问”的框架里。和之前的差异是,原来模型比较弱,只能提相对简单的问题,现在o3模型更强了,我们可以提更难的问题。连面对Manus等产品,第一反应往往也是“先跑个报告看看”。
这是和模型聊天“你问我答”养成的惯性,也是UE和模型能力(以及背后的benchmark)间的GAP。我们当然都知道o3拥有工作流能力,但根据我从身边及网络收集的用例,很少有人把o3用来执行真实的工作流程。而OpenAI把这一点作为B端卖点来宣传,构成了一个提醒,或许我们除了把精力用在想出奇妙的问题,还应该测试手头有哪些重复性工作可被替代。
我不认为o3已经足够成熟,但这会是从deep research过渡向deep task的过程。现在缺乏用于衡量工作流能力的benchmark,很难给出准确评估。o1、o3、3.7 Sonnet都测过TAU-bench,仅以此参考的话,o3-high在retail场景得分73.9%、airline场景52.0%,而3.7 Sonnet的成绩甚至更好,分别是81.2%和58.4%。也许3.7 Sonnet也具有不错的工作流潜力。