正在阅读:

性能超Claude和Gemini,OpenAI最智能模型GPT-5.5来袭

扫一扫下载界面新闻APP

性能超Claude和Gemini,OpenAI最智能模型GPT-5.5来袭

该模型试图重新定义下一代AI生产力标准。

性能超Claude和Gemini,OpenAI最智能模型GPT-5.5来袭

图片来源:界面图库

界面新闻记者 | 宋佳楠

当AI竞赛进入智能体决胜阶段,单纯参数比拼已成为过去,谁能真正接管复杂工作、自主完成全流程任务,谁才能掌握行业话语权。

当地时间4月23日,OpenAI正式推出旗下迄今最智能、最易用的大模型GPT-5.5。该模型试图重新定义下一代AI生产力标准,在代码、办公、科研、网络安全等核心场景实现对Claude Opus 4.7与Gemini 3.1 Pro的系统性超越。

GPT-5.5的核心突破在于把智能体能力推向实用化,无需用户精细管控每一步,可自主规划、调用工具、自检纠错,持续推进直至任务完成,推理效率与前代相比实现质的飞跃。

OpenAI官方数据显示,该模型在保持与GPT-5.4同等单令牌延迟的前提下,智能水平大幅提升,完成相同Codex任务所需令牌数量显著减少,在Artificial Analysis编码智能体指数中,以一半成本达到行业顶尖性能。

在权威基准测试中,GPT-5.5展现出压倒性优势,Terminal-Bench 2.0复杂命令行工作流准确率达82.7%,远超GPT-5.4的75.1%、Claude Opus 4.7的69.4%及Gemini 3.1 Pro的68.5%;GDPval知识工作任务胜率84.9%,OSWorld-Verified计算机环境操作准确率78.7%,FrontierMath高阶数学推理、CyberGym网络安全等测试均位列榜首,形成全方位领先格局。

在各项基准测试中GPT-5.5的表现  图片来源:OpenAI

此次发布前,硅谷AI头部市场呈现三足鼎立态势,Claude Opus 4.7凭借超强长上下文理解、严谨文档处理与稳定输出特性,在金融、法律等对可靠性要求极高的领域占据优势,SWE-Bench Pro编程测试一度领跑。Gemini 3.1 Pro则依托多模态融合与原生视觉推理能力,在跨模态理解、抽象推理场景表现突出,成为谷歌生态核心算力支撑。

GPT-5.5的到来打破了平衡,其不仅在专业场景实现超车,同时兼顾速度与成本,构建起更高的技术壁垒。在企业级应用中,英伟达、思科等公司反馈,GPT-5.5可将调试时间从天级压缩至小时级,把数周的实验迭代缩短至隔夜完成。

早期测试用户与行业专家对GPT-5.5给出较高评价,多位资深工程师称其在推理自主性、前瞻性问题预判上显著优于竞品,具备清晰的概念理解能力,可独立完成复杂系统重构与大规模代码合并。特别是在科研领域,该模型将原本需数月的研究周期压缩至数天。

与前代相比,GPT-5.5还强化了安全防护体系,部署更严格的网络风险分类器,针对高风险操作、敏感网络请求增设多重防护。

GPT-5.5的推出,也为OpenAI博取资本市场青睐增添了更多筹码。

今年3月,该公司完成1220亿美元创纪录私募融资,投后估值达8520亿美元,成为全球估值最高的未上市科技企业,亚马逊、英伟达、软银领衔投资,微软、a16z等机构跟投。此前有消息称,OpenAI计划于四季度启动IPO,与竞争对手Anthropic展开上市竞速。该公司已与多家华尔街投行展开非正式磋商,同时聘请了数位关键新高管负责IPO相关筹备工作。

但随着OpenAI将战略重心转向企业市场,其估值正受到投资者的审视。部分OpenAI投资者透露,战略调整恐使其在面对Anthropic以及势头回升的谷歌时,处于较为脆弱的境地。

如今,OpenAI想用GPT-5.5对竞品的技术予以回击,同时向资本市场证明自身的持续创新能力与商业化潜力,以进一步巩固其在AI产业化浪潮中的核心地位。目前模型已向ChatGPT Plus、Pro、Business及Enterprise用户开放,Codex同步接入,API版本即将推出。

对行业而言,这款模型将加速代码开发、办公自动化、科研创新、网络安全防御等领域变革,推动AI从概念走向实用。

未经正式授权严禁转载本文,侵权必究。

OpenAI

  • OpenAI据悉将于未来数周内发布全新图像模型
  • 美股纳指低开0.2%

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

性能超Claude和Gemini,OpenAI最智能模型GPT-5.5来袭

该模型试图重新定义下一代AI生产力标准。

性能超Claude和Gemini,OpenAI最智能模型GPT-5.5来袭

图片来源:界面图库

界面新闻记者 | 宋佳楠

当AI竞赛进入智能体决胜阶段,单纯参数比拼已成为过去,谁能真正接管复杂工作、自主完成全流程任务,谁才能掌握行业话语权。

当地时间4月23日,OpenAI正式推出旗下迄今最智能、最易用的大模型GPT-5.5。该模型试图重新定义下一代AI生产力标准,在代码、办公、科研、网络安全等核心场景实现对Claude Opus 4.7与Gemini 3.1 Pro的系统性超越。

GPT-5.5的核心突破在于把智能体能力推向实用化,无需用户精细管控每一步,可自主规划、调用工具、自检纠错,持续推进直至任务完成,推理效率与前代相比实现质的飞跃。

OpenAI官方数据显示,该模型在保持与GPT-5.4同等单令牌延迟的前提下,智能水平大幅提升,完成相同Codex任务所需令牌数量显著减少,在Artificial Analysis编码智能体指数中,以一半成本达到行业顶尖性能。

在权威基准测试中,GPT-5.5展现出压倒性优势,Terminal-Bench 2.0复杂命令行工作流准确率达82.7%,远超GPT-5.4的75.1%、Claude Opus 4.7的69.4%及Gemini 3.1 Pro的68.5%;GDPval知识工作任务胜率84.9%,OSWorld-Verified计算机环境操作准确率78.7%,FrontierMath高阶数学推理、CyberGym网络安全等测试均位列榜首,形成全方位领先格局。

在各项基准测试中GPT-5.5的表现  图片来源:OpenAI

此次发布前,硅谷AI头部市场呈现三足鼎立态势,Claude Opus 4.7凭借超强长上下文理解、严谨文档处理与稳定输出特性,在金融、法律等对可靠性要求极高的领域占据优势,SWE-Bench Pro编程测试一度领跑。Gemini 3.1 Pro则依托多模态融合与原生视觉推理能力,在跨模态理解、抽象推理场景表现突出,成为谷歌生态核心算力支撑。

GPT-5.5的到来打破了平衡,其不仅在专业场景实现超车,同时兼顾速度与成本,构建起更高的技术壁垒。在企业级应用中,英伟达、思科等公司反馈,GPT-5.5可将调试时间从天级压缩至小时级,把数周的实验迭代缩短至隔夜完成。

早期测试用户与行业专家对GPT-5.5给出较高评价,多位资深工程师称其在推理自主性、前瞻性问题预判上显著优于竞品,具备清晰的概念理解能力,可独立完成复杂系统重构与大规模代码合并。特别是在科研领域,该模型将原本需数月的研究周期压缩至数天。

与前代相比,GPT-5.5还强化了安全防护体系,部署更严格的网络风险分类器,针对高风险操作、敏感网络请求增设多重防护。

GPT-5.5的推出,也为OpenAI博取资本市场青睐增添了更多筹码。

今年3月,该公司完成1220亿美元创纪录私募融资,投后估值达8520亿美元,成为全球估值最高的未上市科技企业,亚马逊、英伟达、软银领衔投资,微软、a16z等机构跟投。此前有消息称,OpenAI计划于四季度启动IPO,与竞争对手Anthropic展开上市竞速。该公司已与多家华尔街投行展开非正式磋商,同时聘请了数位关键新高管负责IPO相关筹备工作。

但随着OpenAI将战略重心转向企业市场,其估值正受到投资者的审视。部分OpenAI投资者透露,战略调整恐使其在面对Anthropic以及势头回升的谷歌时,处于较为脆弱的境地。

如今,OpenAI想用GPT-5.5对竞品的技术予以回击,同时向资本市场证明自身的持续创新能力与商业化潜力,以进一步巩固其在AI产业化浪潮中的核心地位。目前模型已向ChatGPT Plus、Pro、Business及Enterprise用户开放,Codex同步接入,API版本即将推出。

对行业而言,这款模型将加速代码开发、办公自动化、科研创新、网络安全防御等领域变革,推动AI从概念走向实用。

未经正式授权严禁转载本文,侵权必究。