智东西
智东西2月6日报说念,今天,就在Claude发布Opus 4.6后的几分钟,OpenAI也推出了自家的最新编程模子:GPT-5.3-Codex。OpenAI堪称,这是寰宇上最坚韧的智能体(Agentic)编程模子。
GPT-5.3-Codex在SWE-Bench Pro和Terminal-Bench 2.0这两个编程基准测试中拿到了SOTA,并在OSWorld和GDPval等智能体才调解真是寰宇任务测评中,较GPT-5.2-Codex终了一定普及。在Terminal-Bench 2.0上,GPT-5.3-Codex的得分比Claude Opus 4.6高了11.9%。

不外,OpenAI投入的基准测试数目更少,也基本莫得和Claude Opus 4.6重复的,得分只可作为参考。
为演示其编程才调,OpenAI晒出了一个由GPT-5.3-Codex打造的赛车游戏。这个游戏里有多辆赛车同期开展比拼,还配备了8张舆图,甚而还能用空格键使用说念具,即是画风如实有些节略。咱们也简便试玩了一下这个游戏,完成度还挺高的。

体验不息:
https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/racing_v2.html
OpenAI还显现,GPT-5.3-Codex是OpenAI首个在自我创建过程中确认要道作用的模子。GPT-5.3-Codex的早期版块,被Codex团队用来调试模子训诫、不停部署、会诊测试扬弃和评估,加快了模子的斥地。
GPT-5.3-Codex其实即是GPT-5.2-Codex和GPT-5.2的连结体,具备前者的编程才调解后者的推理才调解专科常识储备,且速率也普及了25%。
这意味着GPT-5.3-Codex不仅可以用于编程,也可用于软件工程里的所有其他责任,比如调试、部署、监控、测试、谋离别析等。你还可以用GPT-5.3-Codex来作念PPT、Excel、Word等等,从OpenAI分享的案例来动作果还可以。

▲GPT-5.3-Codex打造的PPT(图源:OpenAI)
与GPT-5.3-Codex同期发布的,还有OpenAI的最新的企业级智能体平台Frontier,具备分享凹凸文、在响应中学习、握续矫正等才调,并提拔设定清亮的权限与范围。

▲Frontier打造的Agent(图源:OpenAI)
现在,GPT-5.3-Codex已向付费ChatGPT用户洞开,可在Codex期骗、CLI、IDE插件和Web中使用。API打听仍需恭候后续更新。Frontier现阶段仅面向有限客户,异日几个月将有更粗鄙的可用性。
不外,在这波发布中,与近邻的Claude Opus 4.6比较,GPT-5.3-Codex和Frontier在筹商热度上昭着逊色一筹,发布模子的推文转赞评数目都只好Claude Opus 4.6的不到一半,挑剔区中也能看到不少质疑声。

热心编程才调的用户合计GPT-5.3-Codex在本体使用体验和安全性上和Claude Opus 4.6仍有差距,而将OpenAI模子用于写稿等其他场景的用户,则合计OpenAI不再心疼他们。这娇傲出OpenAI在编程等市集的家具大叫力和社区影响力上,以及奈何均衡自家的ToC和ToB业务上,仍有很长的路要走。
一、能在数百万token代码库修Bug,还会给东说念主类主动请问责任OpenAI称,在GPT-5.3-Codex的匡助下,其编程器用Codex将不再仅仅一个“会写和审代码的智能体”,而是会进化为一个简直可以完成斥地者和专科东说念主士在筹办机上能作念的所有事情的智能体。
在Web斥场所面,OpenAI让GPT-5.3-Codex打造了两个游戏,一个是此前咱们看到赛车游戏,另一个则是一个潜水游戏,游戏机制雷同《潜水员戴夫》。

不外,光是打造这么一个游戏其实对如今的前沿编程模子来说还是不难了。OpenAI还分享,在发出“设立这个 bug”、“矫正游戏”等通用后续教导词的情况下,GPT-5.3-Codex可以在数百万token的过程中自主迭代这些游戏。
GPT-5.3-Codex在连气儿日常网站构建意图方面昭着优于GPT-5.2-Codex。关于简便或描摹不充分的教导,它会默许生到手能更圆善、默许树立更合理的网站。
举例,在构建一项名为“Quiet KPI”的处事的网站首页时,GPT-5.3-Codex可以自动将年付有考虑展示为扣头后的月价,还会自动生成包含三条不同用户评价的轮播组件,而不是仅呈现单条内容。全体页面因此显得愈加圆善、愈加接近可径直上线的家具。

才能员、遐想师、家具司理和数据科学家的责任远不啻写代码。GPT-5.3-Codex从遐想之初就提拔所有这个词软件人命周期中的责任,包括调试、部署、监控、编写PRD、剪辑文档、用户探讨、测试、谋离别析、以及更多专科责任。

在使用雷同GDPval的自界说工夫后,GPT-5.3-Codex在GDPval(一个斟酌44种职业中明确常识型任务的评估)上达到了与GPT-5.2特别的水平。
在稽查模子筹办机使用才调的OSWorld-Verified中,东说念主类平均得分约为72%,而GPT-5.3-Codex达到了64.7%。GPT-5.3-Codex在该评测中发扬显耀优于以往的GPT模子。
跟着GPT-5.3-Codex的发布,Codex还提供了一个新的树立选项“责任中可带领”。开启后,GPT-5.3-Codex会在责任过程中时常更新要道决策和进展,提拔及时对话、发问、筹商有考虑,并在引申时间握续讲解其想路并提供响应。这让东说念主类用户可以更高效地指挥和监督多个Agent。
OpenAI称,收货于基础步伐和推理栈的矫正,Codex用户的GPT-5.3-Codex全体速率普及了25%。该模子斥地过程中,OpenAI与英伟达张开了合作,基于GB200 NVL72系统遐想、训诫和部署。
二、推出企业级智能体平台,惠普、Uber还是用上了在智能体平台方面,OpenAI今天发布的Frontier,要作念的是匡助企业构建、部署并不停真是颖慧活的智能体。
OpenAI合计,现时企业在鞭策AI期骗时面对严重的数据与系统碎屑化挑战。智能体固然被粗鄙部署,却因衰败跨系统的全局视线和凹凸文而难以确认实效,导致模子才调与本体部署之间存在高大的“契机鸿沟”。
要打造颖慧活的智能体,OpenAI的想路是赋予智能体与东说念主类在责任中所需的同款才调。Frontier像培养东说念主类职工相似,为AI共事提供系统化的“入职”提拔。
比如,Frontier会让智能体连气儿跨系统的业务经过、得到引申任务所需的器用与权限、学会判断责任质料,并在明确的安全范围内运作。该平台可与现存系统和数据集成,提拔智能体通过多种界面融入责任。

Frontier的中枢才调包括市欢企业里面数据与期骗,构建调解的业务语义层;提供洞开的智能体引申环境,提拔筹画、操作与学习;内置评估优化机制,使AI能握续从教养中普及质料;同期确保企业级安全惩办,为每个智能体设定身份、权限与堤防范围。
为了让企业更便捷地管千里着清静能体,Frontier提供了概览界面,在这里可以看到活跃的智能体数目,这些智能体完成了若干任务,又用掉了若干额度。

此外,OpenAI还会派驻工程师与客户团队协调,将试验教养与探讨响应相连结,加快落地程度。已有不少大型企业客户选择了Frontier,比如惠普、Intuit、甲骨文、State Farm、赛默飞(Thermo Fisher)、Uber等等。
结语:OpenAI押注“AI劳能源”此次发布中,OpenAI将其主要元气心灵都放在了AI的坐褥力与落地才调上。不管是GPT-5.3-Codex在编程、软件工程全经过和筹办机使用才调上的强化,如故Frontier试图为企业补王人“颖慧活的智能体”这一要道拼图,都指向并吞个标的,也即是让AI真是走进坐褥环境,成为可以被不停、被信任、被范围化使用的劳能源。
如安在握续加码企业级智能体和坐褥力场景的同期,保管斥地者与平淡用户的信任感与参与感,如安在ToB的弥远布局与ToC的粗鄙影响力之间找到均衡体育游戏app平台,好像将成为OpenAI接下来一段时候里必须回话的要道问题。