GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型
GPT‑5.4是什么
GPT-5.4是OpenAI推出的旗舰AI模型,定位为”专为专业工作设计的最强前沿模型”。模型首次将推理、编程、原生计算机操作、深度网页搜索和百万Token上下文整合进单一模型,且未牺牲任何单项性能。在OSWorld电脑操作测试中,以75%成功率首次超越人类水平;在GDPval知识工作测试中,83%的任务达到或超过专业人士水准。GPT-5.4支持截图理解界面并执行鼠标键盘操作,可独立完成跨应用复杂任务,标志着AI从”回答问题”向”完成任务”的关键转变。

GPT‑5.4的主要功能
- 原生计算机操作:通过截图理解界面,执行鼠标点击和键盘输入,跨应用完成复杂任务(如发邮件、填表单、操作网页),OSWorld 测试成功率 75%,首次超越人类水平。
- 深度知识工作:支持处理 44 种职业的真实工作任务,包括制作 PPT、财务建模、数据分析、法律文档分析等,GDPval 测试 83% 达到或超过专业人士水准。
- 高阶编程与调试:整合 GPT-5.3-Codex 能力,支持代码生成、审查和优化;新增 Playwright Interactive 实现边写代码边可视化调试,可自动测试 Web 应用。
- 智能工具调用:引入工具搜索机制,按需查询工具定义,Token 消耗降低 47%;支持多步骤任务中灵活调用外部工具和 API。
- 深度网页搜索:支持多轮持续搜索、筛选信息并整合结果,BrowseComp 测试达 82.7%,擅长处理” needle-in-a-haystack “类复杂查询。
- 超长上下文处理:API 支持最高 100 万 Token 上下文,可一次性处理完整项目文档;支持高达 1024 万像素的高保真图像输入。
- 实时任务调控:复杂任务前先展示工作计划,执行中可随时调整方向,无需重新开始。
- 多模态视觉理解:视觉推理、文档解析和界面识别能力显著提升,支持高分辨率图像和复杂界面操作。
GPT‑5.4的性能表现
-
知识工作:
-
GDPval 测试:83.0% 的任务达到或超过行业专家水平(GPT-5.2 仅 70.9%)。
-
投行级表格建模:87.3%(GPT-5.2 为 68.4%)。
-
PPT 生成:人类评审68% 更偏好 GPT-5.4。
-
-
计算机操作:
-
OSWorld-Verified:75.0% 成功率,首次超越人类基线 72.4%,GPT-5.2 仅 47.3%。
-
WebArena-Verified:67.3%,浏览器任务处理能力领先。
-
Online-Mind2Web:92.8%,纯截图观察即可精准操作网页。
-
-
编程能力:
- SWE-Bench Pro:57.7%,略超 GPT-5.3-Codex(56.8%),同时延迟更低、Token 效率更高。
- Terminal-Bench 2.0:75.1%,终端任务处理表现稳健。
-
工具与搜索:
-
BrowseComp:82.7%(Pro 版高达 89.3%),较 GPT-5.2(65.8%)提升 17 个百分点,创业界新高。
-
Toolathlon:54.6%(GPT-5.2 为 45.7%),多步骤工具调用更准确。
-
Token 消耗:降低 47%,工具搜索机制在保持同等准确率下大幅降本。
-
-
学术与推理:
-
GPQA Diamond:92.8%(Pro 版 94.4%),科学问答接近满分。
-
Humanity’s Last Exam(带工具):52.1%(Pro 版 58.7%),高难度综合测试表现突出。
-
ARC-AGI-2:73.3%(Pro 版 83.3%),抽象推理能力大幅跃升,GPT-5.2 Pro 仅 54.2%。
-
-
可靠性:
-
单条事实错误概率:降低 33%。
-
完整回答出错率:降低 18%,成为 OpenAI 迄今最 factual 的模型。
-

如何使用GPT‑5.4
- ChatGPT:访问 ChatGPT 官网或 ChatGPT App,GPT-5.4 已向 ChatGPT Plus、Team 和 Pro 用户开放,替代 GPT-5.2 Thinking 成为默认思考模型。。
-
OpenAI API:通过 API 密钥调用
gpt-5.4或gpt-5.4-pro模型端点,支持最高 100 万 Token 上下文和工具搜索功能,按 Token 用量计费。 -
Codex:访问 Codex 官网输入
/fast开启加速模式,或使用实验性 1M 上下文窗口处理大型代码项目,支持 Playwright Interactive 可视化调试。
GPT‑5.4的产品定价
-
ChatGPT 订阅
-
Plus/Business订阅:含 GPT-5.4 Thinking(每周3000次)。
-
Pro订阅:含 GPT-5.4 Pro(不限量)。
-
-
API 按量计费
-
GPT-5.4:输入 $2.50/百万Token,缓存输入 $0.25/百万Token,输出 $15/百万Token。
-
GPT-5.4 Pro:输入 $30/百万Token,输出 $180/百万Token。
-
GPT‑5.4的应用场景
- 办公自动化:替代人工完成制作 PPT、财务建模、数据分析、文档处理等知识工作。
- 智能 Agent:自主操作电脑完成跨应用任务,如自动发送邮件、填写表单、调度日程、批量数据录入。
- 软件开发:全栈开发、代码审查、Bug 修复,支持边写边测的 Playwright 交互调试,可独立构建复杂 Web 应用和游戏。
- 企业流程:接入内部系统实现 RPA 自动化,处理税务申报、合同审核、客户服务等长周期多步骤任务。
- 深度研究:多轮网页搜索整合信息,处理需要跨来源验证的复杂查询。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。
粤公网安备 123456789号