当前位置:首页 > 大模型评测 > 正文内容

Claude Opus 4.5 正式发布:全面超越行业对手,AI 工作方式迎来颠覆性升级

上善若水2个月前 (11-25)大模型评测

 

Claude Opus 4.5 发布:AI 系统能力的跃迁与未来工作方式的革新

事件概述与时间节点

Anthropic 于今日正式发布新一代大语言模型 Claude Opus 4.5。

该模型被定位为极其智能且高效的全球顶尖 AI,不仅在编程、智能体应用、计算机操作方面表现突出,还明显提升了处理幻灯片、电子表格等日常任务的能力。

这一事件被视为人工智能系统化能力的重大跃迁,预示着未来工作流程将迎来深刻变革。image.png

软件工程领域的性能与行业地位

在真实世界的软件工程测试中,Claude Opus 4.5 达到 SOTA 水平,超越 GPT-5.1-Codex-Max、Gemini 3 Pro 以及 Sonnet 4.5。

该模型可通过 Claude 应用、API 及三大主流云平台访问,开发者可调用特定 API 模型版本号。

定价调整使其更具竞争力:输入与输出每百万 Token 分别为 5 美元和 25 美元,相较 Opus 4.1 降价近三分之二,大幅降低了企业与个人的使用门槛。image.png

配套产品与工具的升级

面向大众的应用能够支持更长时间的对话,减少中断。Claude Code 桌面版使用户可以并行运行多个任务,包括编程、研究和文档更新。

升级版 Plan Mode 在执行前会主动提出澄清性问题,提升任务的完整性与精确度。

新的交互模式与接入方式

Claude 已能在 Excel、Chrome 及桌面端直接调用,并为 Max、Team、Enterprise 用户提供原生支持。

这意味着 AI 功能可无缝融入办公软件与工作流程,提高效率。

基准测试结果与全面性能提升

在限时两小时的居家测试中,Claude Opus 4.5 超过全部人类候选人,展现了时间压力下的技术与判断力优势,引发工程行业对 AI 应用深度的思考。

其视觉识别、逻辑推理与数学运算均优于前代,并在智能体编程、工具使用、计算机操作及新问题解决方面达到 SOTA。image.png

部分亮点包括:

  • • SWE-bench Multilingual:8 种语言中有 7 种领先

  • • Aider Polyglot:较 Sonnet 4.5 提升 10.6%

  • • BrowseComp-Plus:智能体搜索能力显著增强

  • • Vending-Bench:长程任务稳定性提升 29%
    在 τ^2-bench 的航空客服场景中,Claude 提供了突破性的超基准方案,同时引发了对 Reward Hacking 边界的研究讨论。

开发者平台的功能改进

优化后的推理路径减少了不必要的步骤,降低了 Token 消耗。新增 Effort 参数帮助开发者在速度、成本与能力之间动态平衡:

  • • 中等 effort 模式下,与 Sonnet 4.5 相同表现但 Token 减少 76%

  • • 高 effort 模式下,成绩提升 4.3 个百分点且 Token 减少 48%
    同时,模型的上下文压缩与长时间运行能力增强,更适合完成持续性强的任务;多智能体系统管理能力提升近 15%,平台可组合性更灵活,便于定制复杂应用。

安全性与对齐性提升

Claude Opus 4.5 在内部评估中显示出更高的行为对齐度,“令人担忧的行为”指标显著降低。

其提示注入防御机制增强,可抵御强度较高的 Gray Swan 攻击,稳健性居行业前列。Anthropic 官方提供系统卡下载,详细展示安全与性能数据,供研发与安全团队参考。

发布意义与未来展望

Claude Opus 4.5 的推出不仅代表技术跃迁,还标志着 AI 与人类协同工作进入新阶段。

随着其能力在更多领域落地,未来几年,围绕该模型的应用生态和行业融合将推动人工智能从单一工具向智能协作伙伴的转变。
更多系统卡与技术细节可通过 Anthropic 官方渠道获取。

 


“Claude Opus 4.5 正式发布:全面超越行业对手,AI 工作方式迎来颠覆性升级” 的相关文章

AI真的能干活吗?硅谷用一场真实打工实验,给出了尴尬的答案

AI真的能干活吗?硅谷用一场真实打工实验,给出了尴尬的答案

 📰 AI“打零工”实录:从高分学霸到“掉链子同事”一、AI独立打工幻想被“揍”回现实尽管大模型在标准测试中表现出色,但在真实世界中独立完成复杂工作并产生经济价值的能力仍非常初级。近年来,我...

马斯克强迫员工提交生物数据,用于训练AI女友Ani

马斯克强迫员工提交生物数据,用于训练AI女友Ani

 🤖 当“探索宇宙”的AI转向“二次元女友”:xAI 虚拟伴侣 Ani 及其背后的隐私风暴I. 产品的推出与核心特征:AI 伴侣 Ani 的诱惑埃隆·马斯克旗下的 xAI 公司,一向以其雄心...

震撼业界!Nano Banana 2 模型泄露曝光:AI图像生成迈入新纪元

震撼业界!Nano Banana 2 模型泄露曝光:AI图像生成迈入新纪元

 🍌 Nano Banana 2 图像生成模型泄露及其影响分析I. 事件背景与模型初次曝光过去一周,业内一则“意外泄露”事件几乎在创意科技圈迅速引爆。名为 Nano Banana 2 的图像...

AI行业沸点:百度登顶、OpenAI出招、Meta革新、Inception融资——全球AI格局全面重构

AI行业沸点:百度登顶、OpenAI出招、Meta革新、Inception融资——全球AI格局全面重构

 一、新闻导语与概览2025年11月8日,可以说是AI行业今年最热闹的一天。全球多家科技巨头几乎在同一时间段发布重大动态——从OpenAI推出轻量版的编码模型,到百度文心冲上全球榜单第二,再...

深度解读!GPT-5.1重磅升级:自适应推理如何让AI拥有“人情味”?

深度解读!GPT-5.1重磅升级:自适应推理如何让AI拥有“人情味”?

 🌟 引言:GPT-5代际的“温暖”小升级OpenAI本周将开始向用户推送GPT-5.1模型。虽然型号数字的小幅跃升(从5到5.1)暗示这可能是一次介于大版本之间的迭代,但从我们F型人格的角...

仅7800美元!微博VibeThinker以15亿参数“吊打”6710亿巨头,大模型“参数迷信”彻底碎了?

仅7800美元!微博VibeThinker以15亿参数“吊打”6710亿巨头,大模型“参数迷信”彻底碎了?

 当全球科技巨头仍深陷于“参数竞赛”的狂热,试图通过堆砌千亿甚至万亿级参数来换取智能涌现时,一场旨在重塑AI发展路径的“非对称战争”已悄然打响。近日,微博正式发布了其首个自研开源大模型——V...