返回列表
产品发布ClaudeAnthropic人工智能

Anthropic 发布 Claude Opus 4.8:性能全面超越 GPT-5.5,开启智能代理新纪元

2026年5月28日,Anthropic 正式推出 Claude Opus 4.8。该版本在 4.7 的基础上实现了基准测试的全面提升,特别是在编程、推理及智能代理(Agentic)任务中表现卓越。新版本引入了任务投入度控制、Claude Code 动态工作流等核心功能,并将快速模式的成本降低了三倍。在 Super-Agent 基准测试中,Opus 4.8 成为唯一完成所有端到端案例的模型,在同等成本下性能优于 GPT-5.5,标志着 AI 协作能力的重大飞跃。

Hacker News

核心要点

  • 性能跨越式升级:Claude Opus 4.8 在编程、推理及实际知识工作任务中全面超越前代版本,展现出更强的逻辑判断力。
  • 智能代理领跑者:在 Super-Agent 基准测试中,Opus 4.8 是唯一能 100% 完成端到端案例的模型,表现优于 GPT-5.5。
  • 成本效益大幅提升:快速模式(Fast mode)运行速度提升 2.5 倍,且价格较前代模型降低了三倍。
  • 开发者功能创新:Claude Code 新增“动态工作流”功能,支持处理超大规模工程问题;用户现可自主控制模型对任务的投入程度。

详细分析

智能代理能力的质变与可靠性提升

Claude Opus 4.8 最显著的进步在于其作为“智能代理”的可靠性。根据早期测试者的反馈,该模型在执行复杂任务时表现出更为敏锐的判断力。在 Claude Code 环境下,Opus 4.8 不再仅仅是盲目执行指令,而是能够主动提出关键问题、捕捉自身错误,并在发现计划不合理时向用户提出异议。这种“批判性协作”能力使其在处理多服务探索和大规模代码变更时,能够建立起极高的执行信心。在 CursorBench 等专业测试中,Opus 4.8 在各种努力级别下均刷新了纪录,证明了其在工具调用(Tool calling)方面的高效性——即能够以更少的步骤完成同等复杂的智能任务。

性能基准:在竞争中脱颖而出

在衡量 AI 模型综合实力的多项基准测试中,Opus 4.8 展示了统治级的表现。特别是在 Super-Agent 基准测试中,它在同等成本水平下击败了 GPT-5.5,成为目前市场上唯一能够完整覆盖所有测试案例并实现端到端交付的模型。这意味着在深度研究、翻译、幻灯片构建及复杂数据分析等实际应用场景中,Opus 4.8 能够提供更强大的稳定性和产出质量。这种性能的提升并非以牺牲效率为代价,相反,通过算法优化,模型在处理实际知识工作时的逻辑严密性得到了显著增强。

灵活的成本控制与高效工作流

Anthropic 在发布 Opus 4.8 的同时也对用户体验进行了深度优化。新版本赋予了 claude.ai 用户对“任务投入度”的控制权,允许用户根据任务的紧急程度和复杂程度调节模型的处理深度。此外,针对开发者推出的 Claude Code “动态工作流”功能,使其具备了拆解并解决超大规模问题的能力。最令市场关注的是其价格策略的调整:Opus 4.8 的快速模式不仅速度提升了 2.5 倍,成本更是降低到了此前的三分之一。这种“提速降价”的策略极大地降低了企业级用户部署高性能 AI 代理的门槛,预示着 AI 生产力工具的大规模普及化。

行业影响

Claude Opus 4.8 的发布重新定义了高性能大模型的竞争标准。首先,它在与 GPT-5.5 的直接对标中取得领先,强化了 Anthropic 在大模型第一梯队的地位。其次,该模型对“智能代理”能力的侧重,标志着 AI 行业正从简单的对话交互转向复杂的端到端任务执行。最后,大幅降低的快速模式成本将迫使行业竞争对手重新评估定价策略,推动高性能 AI 服务向更低成本、更高效率的方向演进。对于开发者和企业而言,Opus 4.8 提供的动态工作流和高可靠性将显著缩短复杂项目的开发周期。

常见问题

问题 1:Claude Opus 4.8 的定价是否有变动?

标准版 Claude Opus 4.8 的价格与前代保持一致。但其“快速模式”(Fast mode)的性价比大幅提升,速度加快 2.5 倍的同时,价格比之前的模型便宜了三倍。

问题 2:什么是 Claude Code 的“动态工作流”功能?

这是专为开发者设计的新功能,允许 Claude Code 能够自主管理和调整处理逻辑,从而应对和解决那些规模极大、逻辑极其复杂的工程难题。

问题 3:Opus 4.8 在与 GPT-5.5 的竞争中表现如何?

在 Super-Agent 基准测试中,Opus 4.8 在同等成本条件下击败了 GPT-5.5,并且是唯一一个能够端到端完成所有测试案例的模型,展现了更强的任务完成能力。

相关新闻

OpenAI发布首款自研推理芯片Jalapeño:由博通代工,旨在降低对英伟达依赖
产品发布

OpenAI发布首款自研推理芯片Jalapeño:由博通代工,旨在降低对英伟达依赖

OpenAI于2026年6月24日正式揭晓了其首款定制推理处理器“Jalapeño”。该芯片由OpenAI与博通(Broadcom)合作设计并制造,专门针对OpenAI推理系统的独特需求进行了优化。据OpenAI介绍,该芯片在开发过程中得到了其自身AI模型的辅助。初步测试结果显示,Jalapeño在每瓦性能上显著优于目前市面上的主流替代方案,特别是在运行实时编程模型时具有极低的运营成本。此举标志着OpenAI在减少对英伟达硬件依赖、提升算力自主性方面迈出了关键一步。

Gemini 3.5 Flash 正式集成“计算机使用”功能:赋能跨平台智能体自动化
产品发布

Gemini 3.5 Flash 正式集成“计算机使用”功能:赋能跨平台智能体自动化

Google DeepMind 宣布在 Gemini 3.5 Flash 中原生集成“计算机使用”(Computer Use)功能。该功能允许开发者构建能够跨浏览器、移动端和桌面环境进行观察、推理及操作的智能体。相比之前的独立模型,此次集成提升了长程任务和企业自动化(如软件测试和专业应用协作)的性能。同时,Google 引入了对抗性训练及企业级安全防护机制,以降低提示词注入风险并确保操作安全。

Facebook推出创作者AI伴侣应用:集成智能助手开启测试
产品发布

Facebook推出创作者AI伴侣应用:集成智能助手开启测试

Facebook(Meta)正式推出一款专为创作者设计的AI伴侣应用程序。该应用目前正处于针对特定创作者的测试阶段,其核心功能是集成了Facebook近期发布的AI创作者助手。此举旨在通过人工智能技术为创作者提供专属的智能支持,优化内容创作流程并提升平台互动体验。