OpenAI 多模态推理模型 o3 & o4-mini 深度解析

OpenAI 多模态推理模型 o3 & o4-mini

深度推理与工具整合:迈向自主智能助手的新纪元

Light Dark

模型简介

OpenAI 正式发布其最新的两款多模态推理模型:o3o4-mini。这两款模型不仅继承了 o 系列标志性的“先思考、后回答”训练范式,更是首次将深度推理能力与调用 ChatGPT 全套内置工具(包括网页搜索、Python 数据分析、文件解析、图像生成与处理等)的能力无缝整合在同一个推理框架内。这意味着模型不仅知道如何使用工具,更能自主判断何时、该用何种工具来解决复杂问题,为用户带来真正的“智能代理”体验,标志着 ChatGPT 向具备自主执行能力的智能助手迈出了关键一步。

o3 和 o4-mini 上下文长度对比
o3 和 o4-mini 最大上下文均为 20 万 tokens,显著低于 GPT-4.1。

目前,o3o4-minio4-mini-high 已正式推送 ChatGPT(Plus、Pro 和 Team 可用),针对专业级用户的 o3-pro 也会在几周内发布。Enterprise 和 Edu 用户预计在一周内获得访问权限。免费用户也可通过 ChatGPT 界面中的 “Think” 功能来体验 o4-mini 的能力。开发者则可以通过 Chat Completions API 和 Responses API 接入新模型,未来版本还将逐步开放 API 对网络搜索、文件检索、代码解释器等内置工具的调用支持。

OpenAI 重回 LiveBench 榜首
凭借新模型,OpenAI 重回 LiveBench 榜首。

o3:性能标杆,原生视觉推理

作为 o 系列当前的旗舰,o3 在性能上实现了重大突破,尤其在编程、数学、科学推理及视觉感知领域表现卓越。它刷新了包括 Codeforces、SWE-bench(无需专用脚手架)和 MMMU 在内的多项业界基准测试记录。更引人注目的是,o3 具备“以图思考”的原生能力,能够深度理解和分析图像、图表及复杂示意图。它甚至可以在内部推理链中自主执行图片裁剪、旋转、放大等操作,有效从低质量或细节模糊的视觉信息中提取关键数据。外部专家评测显示,相较于前代 o1,o3 在处理真实世界复杂任务时的重大错误率降低了约 20%,特别适用于编程开发、商业咨询、科研探索(如生物、数学、工程)等需要深度创造性和批判性思维的场景。

o3 应用场景示例
o3 适用于需要深度创造性和批判性思维的场景。

图像推理的当前挑战

  • 推理链过长:有时会产生冗余的工具调用或图像处理步骤,导致思维链过于臃肿。
  • 感知错误:即便工具调用正确推进了思考过程,视觉误读仍可能带来错误结论。
  • 可靠性问题:对同一问题的多次尝试中,模型可能选择不同的视觉推理路径,其中一些可能导致错误结果。

o4-mini:高效经济,兼顾多能

同时发布的 o4-mini 则定位为“快、轻、廉”,专注于对成本敏感且需要高并发处理的场景。尽管体量更小、资源占用更低,但 o4-mini 在数学(在 2024 和 2025 年 AIME 数学竞赛中取得领先成绩)、编程和视觉任务上仍表现出色,并且相较于前代 o3-mini,在非 STEM 任务和数据科学领域也有显著提升。凭借其成本优势和快速推理能力,o4-mini 拥有比 o3 更高的调用配额,在相同成本与延迟下也展现出更优的“成本-性能前沿”,使其成为大规模部署应用的理想方案。

o4-mini 应用场景示例
o4-mini 是成本敏感和高并发场景的理想选择。

规模化强化学习

本轮模型升级的核心驱动力是规模化的强化学习(RL)。OpenAI 将 RL 训练的计算规模提升了一个数量级,再次验证了“更多计算带来更强推理能力”的趋势。重要的是,这种强化学习不仅训练模型掌握工具的使用方法,更赋予了它们在开放式对话和多步骤任务中,根据目标自主、灵活地选择并调用最优工具组合的决策能力。即使在与上一代模型相同的延迟和成本下,新模型也能提供更高的推理质量;若允许更长的“思考”时间,性能还会进一步提升。

安全强化

伴随能力提升,OpenAI 也同步升级了安全机制。团队重建了安全训练数据集,加入了针对生物风险、恶意代码生成和越狱企图的拒绝示例。此外,还开发了一种基于可解释安全规范的 LLM 监控模型,特别是在生物风险相关的红队测试中,实现了约 99% 的有效拦截率。根据 OpenAI 更新的 Preparedness Framework 评估,o3 和 o4-mini 在三大关键风险维度上均处于“中等”以下的受控安全范围内,相关评估细节已在 System Card 中公开。

生态赋能与社区创新

为激发社区创新,OpenAI 同步发布了实验性的开源项目 Codex CLI,允许开发者通过终端直接调用 o3 和 o4-mini 模型,在本地实现代码生成与多模态推理代理。

此外,OpenAI 设立了总额达 100 万美元的资助计划,以 API 积分形式(单个项目最高可获 2.5 万美元)支持采用 Codex CLI 和 OpenAI 模型的创新应用与开源实验。

Codex CLI 概念动图

总结与展望

"o3 与 o4-mini 代表了其融合 o 系列深度推理优势与 GPT 系列流畅对话、广泛工具集成能力的发展方向,目标是打造一个既能自然交互,又能主动规划、自主执行任务的多模态超级助手。" - OpenAI

本次更新不仅树立了生成式 AI 在多模态推理、工具自主性和高效安全方面的新标杆,也为下一阶段人工智能的研究与应用落地奠定了坚实基础。虽然 OpenAI 模型在单项能力上不一定总是最突出的,但其多模态综合能力目前在全球范围内鲜有对手。

性能评估亮点

所有模型均在高“推理努力”(Inference Effort)设置下进行评估,这类似于 ChatGPT Plus 用户可选择的“o4-mini-high”等高性能模式。

性能评估图表 1
性能基准对比 1
性能评估图表 2
性能基准对比 2
性能评估图表 3
性能基准对比 3

实际案例分享

照片识别能力测试

作者第一时间进行了照片识别测试,对比之前的 gpt-4o 模型,新模型的提升显著。虽然识别结果并非完美(未能识别所有书籍且存在少量错误),但其对复杂场景的理解能力已令人印象深刻。

照片识别案例 - 输入书籍照片
输入:书籍照片
照片识别案例 - 模型输出结果
输出:模型识别结果

为了更直观地展示模型的推理过程,作者还录制了视频(第二次推理用时接近 12 分钟,体现了深度思考特性)。

用户评价与场景应用

社交媒体上用户对 o3 模型的评价普遍积极。以下是一些用户分享的不同场景任务截图,展示了 o3 在实际应用中的能力和效果。

用户分享案例 1
用户分享案例 1
用户分享案例 2
用户分享案例 2
用户分享案例 3
用户分享案例 3

碰撞球动画对比

网上出现了一些编程测试,通过对比碰撞球动画,可以看出 o3 和 o4-mini 在处理复杂逻辑和物理模拟时表现得更为自然流畅(GIF 丢帧可能导致视觉上的卡顿感,实际体验可能更佳)。

碰撞球动画对比 GIF
碰撞球动画对比展示了模型的物理模拟能力

Dan Shipper 深度测评

知名科技评论员 Dan Shipper 作为 o3 早期测试用户,在深度体验一周后给出了高度评价,称其为 GPT-4 以来 OpenAI 带给他的“最大惊喜”。Shipper 指出,o3 能够在一次对话中自主循环调用网页搜索、代码解释器、提醒与记忆等多种工具,并在 30 秒到数分钟内完成过去需要人工多步协作才能完成的任务,速度和准确度均显著领先于 Anthropic 3.7 Sonnet 和 Google Gemini 2.5 Pro。

  • 多任务处理能力: o3 能够同时处理多个任务,并在不同工具之间无缝切换,例如在网页搜索的同时进行数据分析或代码编写。
  • 自主工具选择: 模型可以根据任务需求自主判断并选择合适的工具,无需用户显式指令。
  • 复杂任务分解: 对于复杂任务,o3 能够将其分解为多个子任务,并逐步调用工具完成,展现出强大的规划和执行能力。
  • 效率提升: 相较于传统工作流程,o3 显著提升了工作效率,将原本需要数小时甚至数天完成的任务缩短至几分钟。

Shipper 认为,o3 的出现预示着 AI 助手即将从“信息提供者”转变为真正的“行动者”,能够深入参与到用户的实际工作流程中,成为更可靠、更高效的智能伙伴。

互动区域

登录后可以点赞此内容

参与互动

登录后可以点赞和评论此内容,与作者互动交流