Claude Opus 4.5 正式发布:全面超越行业对手,AI 工作方式迎来颠覆性升级
Anthropic 于今日正式发布新一代大语言模型 Claude Opus 4.5。 该模型被定位为极其智能且高效的全球顶尖 AI,不仅在编程、智能体应用、计算机操作方面表现突出,还明显提升了处理幻灯片、电子表格等日常任务的能力。 这一事件被视为人工智能系统化能力的重大跃迁,预示着未来工作流程将迎来深刻变革。 在真实世界的软件工程测试中,Claude Opus 4.5 达到 SOTA 水平,超越 GPT-5.1-Codex-Max、Gemini 3 Pro 以及 Sonnet 4.5。 该模型可通过 Claude 应用、API 及三大主流云平台访问,开发者可调用特定 API 模型版本号。 定价调整使其更具竞争力:输入与输出每百万 Token 分别为 5 美元和 25 美元,相较 Opus 4.1 降价近三分之二,大幅降低了企业与个人的使用门槛。 面向大众的应用能够支持更长时间的对话,减少中断。Claude Code 桌面版使用户可以并行运行多个任务,包括编程、研究和文档更新。 升级版 Plan Mode 在执行前会主动提出澄清性问题,提升任务的完整性与精确度。 Claude 已能在 Excel、Chrome 及桌面端直接调用,并为 Max、Team、Enterprise 用户提供原生支持。 这意味着 AI 功能可无缝融入办公软件与工作流程,提高效率。 在限时两小时的居家测试中,Claude Opus 4.5 超过全部人类候选人,展现了时间压力下的技术与判断力优势,引发工程行业对 AI 应用深度的思考。 其视觉识别、逻辑推理与数学运算均优于前代,并在智能体编程、工具使用、计算机操作及新问题解决方面达到 SOTA。 部分亮点包括: • SWE-bench Multilingual:8 种语言中有 7 种领先 • Aider Polyglot:较 Sonnet 4.5 提升 10.6% • BrowseComp-Plus:智能体搜索能力显著增强 • Vending-Bench:长程任务稳定性提升 29% 优化后的推理路径减少了不必要的步骤,降低了 Token 消耗。新增 Effort 参数帮助开发者在速度、成本与能力之间动态平衡: • 中等 effort 模式下,与 Sonnet 4.5 相同表现但 Token 减少 76% • 高 effort 模式下,成绩提升 4.3 个百分点且 Token 减少 48% Claude Opus 4.5 在内部评估中显示出更高的行为对齐度,“令人担忧的行为”指标显著降低。 其提示注入防御机制增强,可抵御强度较高的 Gray Swan 攻击,稳健性居行业前列。Anthropic 官方提供系统卡下载,详细展示安全与性能数据,供研发与安全团队参考。 Claude Opus 4.5 的推出不仅代表技术跃迁,还标志着 AI 与人类协同工作进入新阶段。 随着其能力在更多领域落地,未来几年,围绕该模型的应用生态和行业融合将推动人工智能从单一工具向智能协作伙伴的转变。Claude Opus 4.5 发布:AI 系统能力的跃迁与未来工作方式的革新
事件概述与时间节点

软件工程领域的性能与行业地位

配套产品与工具的升级
新的交互模式与接入方式
基准测试结果与全面性能提升

在 τ^2-bench 的航空客服场景中,Claude 提供了突破性的超基准方案,同时引发了对 Reward Hacking 边界的研究讨论。开发者平台的功能改进
同时,模型的上下文压缩与长时间运行能力增强,更适合完成持续性强的任务;多智能体系统管理能力提升近 15%,平台可组合性更灵活,便于定制复杂应用。安全性与对齐性提升
发布意义与未来展望
更多系统卡与技术细节可通过 Anthropic 官方渠道获取。





