当前位置:首页 > 大模型评测 > 正文内容

Claude Opus 4.5 正式发布:全面超越行业对手,AI 工作方式迎来颠覆性升级

上善若水4个月前 (11-25)大模型评测

 

Claude Opus 4.5 发布:AI 系统能力的跃迁与未来工作方式的革新

事件概述与时间节点

Anthropic 于今日正式发布新一代大语言模型 Claude Opus 4.5。

该模型被定位为极其智能且高效的全球顶尖 AI,不仅在编程、智能体应用、计算机操作方面表现突出,还明显提升了处理幻灯片、电子表格等日常任务的能力。

这一事件被视为人工智能系统化能力的重大跃迁,预示着未来工作流程将迎来深刻变革。image.png

软件工程领域的性能与行业地位

在真实世界的软件工程测试中,Claude Opus 4.5 达到 SOTA 水平,超越 GPT-5.1-Codex-Max、Gemini 3 Pro 以及 Sonnet 4.5。

该模型可通过 Claude 应用、API 及三大主流云平台访问,开发者可调用特定 API 模型版本号。

定价调整使其更具竞争力:输入与输出每百万 Token 分别为 5 美元和 25 美元,相较 Opus 4.1 降价近三分之二,大幅降低了企业与个人的使用门槛。image.png

配套产品与工具的升级

面向大众的应用能够支持更长时间的对话,减少中断。Claude Code 桌面版使用户可以并行运行多个任务,包括编程、研究和文档更新。

升级版 Plan Mode 在执行前会主动提出澄清性问题,提升任务的完整性与精确度。

新的交互模式与接入方式

Claude 已能在 Excel、Chrome 及桌面端直接调用,并为 Max、Team、Enterprise 用户提供原生支持。

这意味着 AI 功能可无缝融入办公软件与工作流程,提高效率。

基准测试结果与全面性能提升

在限时两小时的居家测试中,Claude Opus 4.5 超过全部人类候选人,展现了时间压力下的技术与判断力优势,引发工程行业对 AI 应用深度的思考。

其视觉识别、逻辑推理与数学运算均优于前代,并在智能体编程、工具使用、计算机操作及新问题解决方面达到 SOTA。image.png

部分亮点包括:

  • • SWE-bench Multilingual:8 种语言中有 7 种领先

  • • Aider Polyglot:较 Sonnet 4.5 提升 10.6%

  • • BrowseComp-Plus:智能体搜索能力显著增强

  • • Vending-Bench:长程任务稳定性提升 29%
    在 τ^2-bench 的航空客服场景中,Claude 提供了突破性的超基准方案,同时引发了对 Reward Hacking 边界的研究讨论。

开发者平台的功能改进

优化后的推理路径减少了不必要的步骤,降低了 Token 消耗。新增 Effort 参数帮助开发者在速度、成本与能力之间动态平衡:

  • • 中等 effort 模式下,与 Sonnet 4.5 相同表现但 Token 减少 76%

  • • 高 effort 模式下,成绩提升 4.3 个百分点且 Token 减少 48%
    同时,模型的上下文压缩与长时间运行能力增强,更适合完成持续性强的任务;多智能体系统管理能力提升近 15%,平台可组合性更灵活,便于定制复杂应用。

安全性与对齐性提升

Claude Opus 4.5 在内部评估中显示出更高的行为对齐度,“令人担忧的行为”指标显著降低。

其提示注入防御机制增强,可抵御强度较高的 Gray Swan 攻击,稳健性居行业前列。Anthropic 官方提供系统卡下载,详细展示安全与性能数据,供研发与安全团队参考。

发布意义与未来展望

Claude Opus 4.5 的推出不仅代表技术跃迁,还标志着 AI 与人类协同工作进入新阶段。

随着其能力在更多领域落地,未来几年,围绕该模型的应用生态和行业融合将推动人工智能从单一工具向智能协作伙伴的转变。
更多系统卡与技术细节可通过 Anthropic 官方渠道获取。

 


“Claude Opus 4.5 正式发布:全面超越行业对手,AI 工作方式迎来颠覆性升级” 的相关文章

AI日报:特斯拉人形机器人最新进展曝光;OpenAI收入远超130亿美元,奥特曼预测2027年突破1000亿

AI日报:特斯拉人形机器人最新进展曝光;OpenAI收入远超130亿美元,奥特曼预测2027年突破1000亿

 过去一天,全球 AI 领域热点不断。在具身智能方向,特斯拉 Optimus(擎天柱)人形机器人取得了新进展,其训练策略转向通过大量人工动作采集数据,以帮助机器人更高效、准确地模仿人类行为,...

谷歌放大招!Gemini 3.0 疑似已通过移动端 Canvas 功能低调推送,性能超越 2.5!

谷歌放大招!Gemini 3.0 疑似已通过移动端 Canvas 功能低调推送,性能超越 2.5!

 I. 引言:AI 竞赛白热化,焦点转向迟到的“王牌”背景:市场期待与竞赛升级**近期,OpenAI 再次亮剑,推出了升级版的 GPT-5.1,这无疑进一步推动了 AI 军备竞赛的白热化。然...

谷歌杀回来了!Gemini 3 全面碾压 GPT-5.1,AI 霸主正式归位

谷歌杀回来了!Gemini 3 全面碾压 GPT-5.1,AI 霸主正式归位

 当地时间周二,Google Alphabet 正式发布了其最新的旗舰 AI 模型——Gemini 3。这一时刻不仅是谷歌技术迭代的时间节点,更可能是人工智能发展史上的一个分水岭。如果说之前...

蚂蚁“灵光”上线:一句话生成App,Vibe Coding时代真的来了

蚂蚁“灵光”上线:一句话生成App,Vibe Coding时代真的来了

 在通义千问已经建立了坚实的技术护城河之后,蚂蚁集团带着它的全新AI助手——“灵光”正式入局。如果说之前的AI竞争更多是在比拼参数量和逻辑推理的“硬核”实力,那么灵光的出现,似乎想向市场证明...

仅7800美元!微博VibeThinker以15亿参数“吊打”6710亿巨头,大模型“参数迷信”彻底碎了?

仅7800美元!微博VibeThinker以15亿参数“吊打”6710亿巨头,大模型“参数迷信”彻底碎了?

 当全球科技巨头仍深陷于“参数竞赛”的狂热,试图通过堆砌千亿甚至万亿级参数来换取智能涌现时,一场旨在重塑AI发展路径的“非对称战争”已悄然打响。近日,微博正式发布了其首个自研开源大模型——V...

一文详解|Gemini-3,及配套的Antigravity、Gemini CLI、生成式 UI、Otter、Firebase

一文详解|Gemini-3,及配套的Antigravity、Gemini CLI、生成式 UI、Otter、Firebase

 Google Gemini 3 深度测评:当 AI 开始能够“手搓”GBA模拟器,我们迎来了一个怎样的时代?一、 从“能用”到“离谱”的实测体验如果说过去我们对 AI 编程能力的期待还停留...