当前位置:首页 > 大模型评测 > 正文内容

Claude Opus 4.5 正式发布:全面超越行业对手,AI 工作方式迎来颠覆性升级

上善若水6个月前 (11-25)大模型评测

 

Claude Opus 4.5 发布:AI 系统能力的跃迁与未来工作方式的革新

事件概述与时间节点

Anthropic 于今日正式发布新一代大语言模型 Claude Opus 4.5。

该模型被定位为极其智能且高效的全球顶尖 AI,不仅在编程、智能体应用、计算机操作方面表现突出,还明显提升了处理幻灯片、电子表格等日常任务的能力。

这一事件被视为人工智能系统化能力的重大跃迁,预示着未来工作流程将迎来深刻变革。image.png

软件工程领域的性能与行业地位

在真实世界的软件工程测试中,Claude Opus 4.5 达到 SOTA 水平,超越 GPT-5.1-Codex-Max、Gemini 3 Pro 以及 Sonnet 4.5。

该模型可通过 Claude 应用、API 及三大主流云平台访问,开发者可调用特定 API 模型版本号。

定价调整使其更具竞争力:输入与输出每百万 Token 分别为 5 美元和 25 美元,相较 Opus 4.1 降价近三分之二,大幅降低了企业与个人的使用门槛。image.png

配套产品与工具的升级

面向大众的应用能够支持更长时间的对话,减少中断。Claude Code 桌面版使用户可以并行运行多个任务,包括编程、研究和文档更新。

升级版 Plan Mode 在执行前会主动提出澄清性问题,提升任务的完整性与精确度。

新的交互模式与接入方式

Claude 已能在 Excel、Chrome 及桌面端直接调用,并为 Max、Team、Enterprise 用户提供原生支持。

这意味着 AI 功能可无缝融入办公软件与工作流程,提高效率。

基准测试结果与全面性能提升

在限时两小时的居家测试中,Claude Opus 4.5 超过全部人类候选人,展现了时间压力下的技术与判断力优势,引发工程行业对 AI 应用深度的思考。

其视觉识别、逻辑推理与数学运算均优于前代,并在智能体编程、工具使用、计算机操作及新问题解决方面达到 SOTA。image.png

部分亮点包括:

  • • SWE-bench Multilingual:8 种语言中有 7 种领先

  • • Aider Polyglot:较 Sonnet 4.5 提升 10.6%

  • • BrowseComp-Plus:智能体搜索能力显著增强

  • • Vending-Bench:长程任务稳定性提升 29%
    在 τ^2-bench 的航空客服场景中,Claude 提供了突破性的超基准方案,同时引发了对 Reward Hacking 边界的研究讨论。

开发者平台的功能改进

优化后的推理路径减少了不必要的步骤,降低了 Token 消耗。新增 Effort 参数帮助开发者在速度、成本与能力之间动态平衡:

  • • 中等 effort 模式下,与 Sonnet 4.5 相同表现但 Token 减少 76%

  • • 高 effort 模式下,成绩提升 4.3 个百分点且 Token 减少 48%
    同时,模型的上下文压缩与长时间运行能力增强,更适合完成持续性强的任务;多智能体系统管理能力提升近 15%,平台可组合性更灵活,便于定制复杂应用。

安全性与对齐性提升

Claude Opus 4.5 在内部评估中显示出更高的行为对齐度,“令人担忧的行为”指标显著降低。

其提示注入防御机制增强,可抵御强度较高的 Gray Swan 攻击,稳健性居行业前列。Anthropic 官方提供系统卡下载,详细展示安全与性能数据,供研发与安全团队参考。

发布意义与未来展望

Claude Opus 4.5 的推出不仅代表技术跃迁,还标志着 AI 与人类协同工作进入新阶段。

随着其能力在更多领域落地,未来几年,围绕该模型的应用生态和行业融合将推动人工智能从单一工具向智能协作伙伴的转变。
更多系统卡与技术细节可通过 Anthropic 官方渠道获取。

 


“Claude Opus 4.5 正式发布:全面超越行业对手,AI 工作方式迎来颠覆性升级” 的相关文章

AI真的能干活吗?硅谷用一场真实打工实验,给出了尴尬的答案

AI真的能干活吗?硅谷用一场真实打工实验,给出了尴尬的答案

 📰 AI“打零工”实录:从高分学霸到“掉链子同事”一、AI独立打工幻想被“揍”回现实尽管大模型在标准测试中表现出色,但在真实世界中独立完成复杂工作并产生经济价值的能力仍非常初级。近年来,我...

马斯克强迫员工提交生物数据,用于训练AI女友Ani

马斯克强迫员工提交生物数据,用于训练AI女友Ani

 🤖 当“探索宇宙”的AI转向“二次元女友”:xAI 虚拟伴侣 Ani 及其背后的隐私风暴I. 产品的推出与核心特征:AI 伴侣 Ani 的诱惑埃隆·马斯克旗下的 xAI 公司,一向以其雄心...

谷歌 Nano Banana 2 凭何刷屏?独家揭秘:用“自家人的脸”当数据,还要“干掉”提示词工程!

谷歌 Nano Banana 2 凭何刷屏?独家揭秘:用“自家人的脸”当数据,还要“干掉”提示词工程!

 AI 视觉领域最近又被“刷屏”了。一款名为 Nano Banana 2 的 Google 视觉模型,在第三方平台 Media IO 上甫一亮相,便技惊四座。它展示的“杰作”远超传统认知:不...

马斯克新模型屠榜,包揽前二!马斯克:已经没有真正能考AI的测试题了,终极测试是现实世界

马斯克新模型屠榜,包揽前二!马斯克:已经没有真正能考AI的测试题了,终极测试是现实世界

 2025年,AI大模型的竞争已进入深水区,技术的迭代速度令人目不暇接。xAI在这一背景下悄然推出了其旗舰模型Grok 4.1,这一发布不仅先于业界翘首以盼的Google Gemini 3,...

谷歌杀回来了!Gemini 3 全面碾压 GPT-5.1,AI 霸主正式归位

谷歌杀回来了!Gemini 3 全面碾压 GPT-5.1,AI 霸主正式归位

 当地时间周二,Google Alphabet 正式发布了其最新的旗舰 AI 模型——Gemini 3。这一时刻不仅是谷歌技术迭代的时间节点,更可能是人工智能发展史上的一个分水岭。如果说之前...

Nano-banana 完整使用指南:教程、案例、白嫖网站,看这一篇就够了!

Nano-banana 完整使用指南:教程、案例、白嫖网站,看这一篇就够了!

 在 AI 大模型的世界里,变革总是来得比我们想象中更快。最近,一个新星以迅雷不及掩耳之势,彻底颠覆了我们对图像生成与编辑的认知。它的小名叫“纳米香蕉”(Nano-banana),大名则是...