
GPT-5 发布,Altman 自称“全球最佳”——它到底强在哪?
全球瞩目!OpenAI 官方正式推出了备受外界期待的、性能更强的新一代人工智能模型 GPT-5。发布会上,Sam Altman 直言 ,GPT-5 是全球最佳模型。OpenAI 在新闻稿中称,GPT-5 的智能性能远超公司之前的所有模型,在编码、数学、写作、健康等领域均拥有卓越的性能。在 LMA 榜单上 GPT-5 高居榜首:
GPT-5 的全面智能化程度显著提升,多项基准测试中超过了 OpenAI o3、GPT-4o 等此前 OpenAI 最强大的模型,尤其是在数学、编码、健康等领域。它在数学(AIME 2025 无需工具测试得分 94.6%)、真实世界编码(SWE-bench Verified 得分 74.9%,Aider Polyglot 得分 88%)、多模态理解(MMMU 得分 84.2%)和健康(HealthBench Hard 得分 46.2%)方面均创下了新的最高水平 。
同时,GPT-5-pro 模型还在科学知识基准测试 GPQA 上获得了新的 SOTA,无需工具即可得分 88.4%。
Coding:GPT-5 是迄今为止最好的编程模型
GPT-5 在复杂的前端生成和大型代码库的调试方面表现出色。GPT-5 通常只需一次提示就能创建美观且响应迅速的网站、应用程序和游戏,并兼具美感,直观而优雅地将创意转化为现实。在真实世界编程 SWE-benchVerified 测试中 GPT-5 得分 74.9%,较 o3 版本的 69.1% 有所提升。GPT‑5 以更高的效率和速度获得了高分:与 o3 在高推理强度下相比,GPT‑5 的输出 Tokens 数量减少了22%,工具调用次数减少了45%。

Health:GPT-5 是针对健康相关问题的最佳模型
OpenAI 介绍文章称,GPT-5 是我们迄今为止针对健康相关问题的最佳模型,它使用户能够了解并倡导自己的健康。该模型在 HealthBench 上的得分明显高于任何先前的模型。与之前的模型相比,它更像是一个积极的思想伙伴,主动标记潜在顾虑并提出问题以提供更有用的答案。该模型现在还可以提供更精确、更可靠的响应,适应用户的背景、知识水平和地理位置,使其能够在各种场景中提供更安全、更有用的响应。
Reliable model:更准确地回答现实世界的疑问
GPT-5 显著降低了“幻觉”现象的发生率。官方数据显示:
GPT-5-main 相比 GPT-4o 减少了约 45% 的重大事实错误
GPT-5-thinking 的错误率较 OpenAI o3 降低了 78%
更重要的是,GPT-5 变得更加“诚实”,遇到未知或无法完成的任务时,会明确告知限制,避免伪造或误导性回答。在安全方面,GPT-5 引入了“安全补全”机制。对于敏感话题(如化学、生物等潜在风险领域),模型会智能拒绝危险请求,并提供安全的替代信息或引导用户获取权威渠道。
GPT-5 今天开始成为 ChatGPT 的新默认模型,向所有 Plus、Pro、Team 和免费用户推出,Enterprise 和 Edu 用户将在一周后获得访问权限。免费版用户每 5 小时可发送 10 条消息,Plus 用户每 3 小时可发送 80 条消息。
Pro 用户可无限制访问 GPT-5 及 GPT-5 Pro。Pro、Plus 和 Team 用户还可以通过 ChatGPT 登录 Codex CLI,在开发环境中调用 GPT-5 来完成代码编写、调试等任务。虽然 GPT-5 已对所有用户开放,但 ChatGPT 免费用户并不会立即获得完整的 GPT-5 使用体验。一旦免费用户达到 GPT-5 的使用限制,他们将切换到更小、更快的精简版模型 GPT-5 mini。
GPT-5 的发布再次掀起 AI 圈的热议,是否真如 Sam Altman 所言——“全球最佳模型”,仍需时间与实践来验证。目前不少开发者已经上手实测,小编也在第一时间动手尝鲜,后续会持续分享实测体验,欢迎关注!