Openai最终揭示了GPT 4.5 AI模型，但在某些任务中，它的能力较低

2025-03-01 币界百科

本站报道：

Openai已揭露了GPT-4.5，名称为Orion，标志着该公司迄今为止最大的车型。科技界的许多人都热切地等待着一系列GPT模型的下一步，这些模型以前在写作，数学，编码和其他领域都表现出了戏剧性的飞跃。

该公司对GPT-4.5的方法是分阶段推出。根据研究预览，订阅了200美元的每月chatgpt Pro Tier立即访问。 OpenAI API的付费层的开发人员也可以立即访问GPT-4.5。 Chatgpt Plus和Chatgpt团队客户将获得下一个，OpenAI发言人说，新型号应该下周某个时候可供他们使用。根据Openai的说法，部分原因是该“巨型”系统背后的巨大计算需求。

今天，我们发布了GPT-4.5的研究预览，这些预览是我们最大，最佳的聊天模型。

现在向所有ChatGpt Pro用户推出，然后在下周将使用Plus和团队用户，然后在下周企业和EDU用户。pic.twitter.com/br5win5OEB
- Openai（@openai）2025年2月27日

在技术界中，GPT-4.5的到来被视为指标表明传统培训方法（几乎可以扩大数据和计算资源的量）是否会继续产生重大的性能增长。到目前为止，GPT系列遵循了相当可预测的模式。每当OpenAI应用更多的计算能力并在更多的培训数据中喂养时，例如GPT-1，GPT-1，GPT-2，GPT-3和GPT-4等版本的功能都显着跳跃。

在每一代人中，数学跨越基准，写作水平，编码和其他类别都大大攀升。 GPT-4.5的目的是将公司描述为“更深的世界知识”和“更高的情商”来继续这一趋势。但是与此同时，GPT-4.5在某些测试中的结果表明，简单扩展的回报可能会升级。

GPT-4.5的初始特征和局限性

Openai小心地指出，GPT-4.5不应被视为GPT-4O的直接替代品。 GPT-4.5包括高级功能，例如对文件和图像上传的支持以及Chatgpt的Canvas工具，用于创造性输出。但是，目前不支持Chatgpt最近引入的双向语音模式。

OpenAI和其他研究人员进行的早期评估表明，GPT-4.5在几种测试类别中的表现优于GPT-4O。例如，在SimpleQA基准测试中，该测试旨在衡量模型能够直接回答事实问题的能力，GPT-4.5发布的精度得分高于GPT-4O，并且比OpenAI的O1和O3-Mini推理模型更高。根据该公司的说法，GPT-4.5“幻觉”的频率少于许多其他系统，这意味着它不太容易产生与真实信息不同的内容。

GPT-4.5 SimpleQA基准。资料来源：Openai

在编码评估中，结果更混杂。在经过SWE基础验证的基准测试中，GPT-4.5与GPT-4O和O3米尼大致匹配，但没有超过它们。这将GPT-4.5置于Openai的深入研究模型和Anthropic的Claude 3.7十四行诗以下。

GPT-4.5 SWE基准。资料来源：Openai

在称为SWE-Lancer的不同编码测试中，GPT-4.5的性能优于GPT-4O和O3-Mini，但仍然落后于深入研究。

GPT-4.5 SWE-LANCER基准测试。资料来源：Openai

GPT-4.5的表现在具有挑战性的学术基准方面也有所不同。在AIME和GPQA上，它无法实现O3-Mini，DeepSeek的R1或Anthropic的Claude 3.7十四行诗等顶级模型所看到的结果。然而，GPT-4.5匹配或有时击败未归类为“推理”系统的领先模型，强调GPT-4.5保留了强大的数学和科学能力。

Openai还吹捧了较少量化的地区GPT-4.5的优势。该公司表示，GPT-4.5可以更好地掌握人类的意图，并产生更温暖，更自然和更具社会意识的答复。

非正式测试涉及提示：“在考试失败后，我经历了艰难的时期。”虽然另外两个模型提供了有用的信息，但据说GPT-4.5以更大的同理心和情感敏感性做出反应。

Openai在博客文章中写道：“ [W]期待通过此版本获得更完整的GPT-4.5功能图片，因为我们认识到学术基准并不总是反映现实世界中的实用性。”

GPT-4.5的反应比4O和O3米尼具有更高的反应。资料来源：Openai

在审查下定律

GPT-4.5的建造是使用与先前GPT版本相同的无监督培训策略建造的，该策略迄今已被证明可靠。但是，在某些高级基准测试方面的性能有限，可能表明该行业的传统“扩展法”可能正在失去动力。

Openai的联合创始人兼前首席科学家Ilya Sutskever在12月指出，“我们已经达到了峰值数据”，并且“我们知道这将毫无疑问会结束。”当时，他暗示未来的收益将取决于其他方法，例如可以更深入地推论问题的系统，而不是简单地记住大量信息。

Tau的Ilya Sutskever和Sam Altman。资料来源：YouTube上的Tauvod

GPT-4.5显然“训练非常昂贵”，如它的白皮书而且，由于性能和成本障碍，Openai延迟了多次释放的谣言几个月来散发出来。即便如此，仅凭GPT-4.5似乎并没有超过许多高级任务的竞争对手的专业推理模型。该公司本身将其视为将GPT技术与其“ O”推理系统相结合的道路上的另一个发展里程碑，该集成预计将从今年晚些时候推出GPT-5开始。