当前位置:首页 > 大模型评测 > 正文内容

Claude Opus 4.7完整评测:无人值守编程、3倍视觉提升与Boris亲授的6条实战技巧

 

 

 

 

 

 

 

 

 

 

 

Claude Opus 4.7完整评测:Auto Mode机制与Boris六条实战技巧详解

Claude Opus 4.7于2026年4月16日正式发布,SWE-bench Verified得分从80.8%提升至87.6%,SWE-bench Pro从53.4%跃升至64.3%,CursorBench达到70%(较上代+12%),视觉分辨率支持提升至2576像素(约3.75MP),较Opus 4.6提高3倍。

图片

本文基于官方基准数据、Claude Code创建者Boris Cherny的第一手反馈,以及多位早期测试者的实测记录,系统梳理Opus 4.7的能力边界、配套工具更新,以及可直接复用的6条生产力技巧,帮助开发者判断是否升级及如何最大化使用效果。


Claude Opus 4.7的核心性能:与Opus 4.6、GPT-5.4、Gemini 3.1 Pro的全面基准对比

Opus 4.7在软件工程、视觉处理和工具调用三个维度均超越Opus 4.6,在编码基准上同时领先GPT-5.4和Gemini 3.1 Pro,但在长文档搜索(BrowseComp)和长上下文处理上存在明显退步。

图片

以下是截至2026年4月的主要模型基准对比:

评估维度
Claude Opus 4.7
Claude Opus 4.6
GPT-5.4
Gemini 3.1 Pro
SWE-bench Verified
87.6%
80.8%
80.6%
SWE-bench Pro
64.3%
53.4%
57.7%
54.2%
CursorBench(IDE编码)
70%
58%
GPQA Diamond(科学推理)
94.2%
91.3%
Terminal-Bench 2.0
69.4%
65.4%
Finance Agent v1.1
64.4%
60.7%
MCP-Atlas(工具调用)
77.3%
62.7%
68.1%
73.9%
OSWorld-Verified(桌面自动化)
78.0%
72.7%
XBOW视觉测试
98.5%
54.5%
BrowseComp(长文档搜索)
79.3%
83.7%89.3%

SWE-bench Pro的+10.9个百分点增幅大于SWE-bench Verified的+6.8个百分点,表明能力提升集中在更难、饱和度更低的复杂问题上。 MCP-Atlas(工具调用)从62.7%跳升至77.3%(+14.6pp),是单项提升最大的指标,在所有测试模型中排名第一。

唯一明显退步的是BrowseComp(长文档检索),从83.7%降至79.3%,GPT-5.4在该维度以89.3%保持明显优势。如果核心使用场景涉及大规模文档检索或RAG管道,需在升级前重点评估这一退步。

价格方面: Opus 4.7与Opus 4.6定价相同,输入25/百万tokens。但Opus 4.7采用了新版tokenizer,相同文本内容可能消耗1.0至1.35倍的token数量,在高频调用场景下实际成本将上升0%至35%。

图片


Claude Opus 4.7如何实现"无人值守编程"?Auto Mode机制与适用条件解析

Opus 4.7在编码场景的核心突破不只是准确率的提升,而是通过Auto Mode和自我验证机制,使开发者可以将复杂的长流程任务完全交给模型运行,无需全程监控。

Boris Cherny在发布后第一时间表示:"Opus 4.7更具Agent性、更精准,在长时程任务上表现明显更好,能跨Session保持上下文,对模糊指令的处理也好得多。"

Auto Mode的工作原理与权限分级是什么?

Auto Mode是介于"每步确认"与--dangerously-skip-permissions之间的第三种权限管理方式,通过分类器模型自动判断每条命令是否安全执行。

Auto Mode的工作流程如下:

  1. 1. 模型发出一条需要执行的命令(Bash、文件操作、网络请求等)
  2. 2. 该命令被路由至一个独立的分类器模型进行安全评估
  3. 3. 分类器判断为"安全"→ 自动批准,命令执行,无需用户介入
  4. 4. 分类器判断为"风险"→ 保留传统权限提示,用户手动确认

当前可用范围: 仅限 Max、Teams 和 Enterprise 订阅用户在 Opus 4.7 上使用;Pro 用户暂不支持。

激活方式:

  • • CLI(命令行):按 Shift-Tab 切换
  • • Claude Desktop:下拉菜单中选择
  • • VS Code 扩展:下拉菜单中选择

Auto Mode带来的实际变化是:可以同时并行运行多个Claude Code会话。启动第一个长任务后,无需等待其完成,即可切换开启下一个独立任务,Claude在后台持续执行而不会中断或等待确认。

Boris Cherny明确指出,这种并行运行能力是Opus 4.7生产力提升最直接的来源,尤其适合以下任务类型:深度研究(Deep Research)、大型代码库重构、复杂功能构建、反复迭代直到达到性能基准的任务。

对于不使用Auto Mode的用户,Opus 4.7同步发布了新技能 /fewer-permission-prompts:该技能会扫描当前会话历史,识别那些安全但频繁触发权限提示的常用Bash和MCP命令,并推荐一份许可清单,让用户手动将其加入授权白名单,从而减少重复确认的摩擦。

图片

实测:1700行代码零Bug背后是什么能力在支撑?

YouTube博主Bowen在测试中对Opus 4.7提交了四项完整构建任务,全程未参与调整修改,其中浏览器系统任务生成1700行代码且零Bug,这一结果直接验证了Opus 4.7在多文件协同编写场景下的稳定性。

四项测试任务及结果:

测试任务
完成质量
人工干预
浏览器系统
1700行代码,0 Bug
3D游戏(含地图细节保留)
FPS视角改造,细节完整
手稿发布网页(暗色系悬疑感)
根据封面图自动适配风格
Seinfeld公寓场景
完整还原

这种零干预完成率的背后,是Opus 4.7新增的自我验证机制:模型在提交代码前会主动执行逻辑检查,而非盲目输出。

与此同时,指令遵循能力的增强带来了一个需要注意的副作用:Opus 4.7对提示词的解读更加字面化,不再像之前版本那样"猜测"用户意图。在Opus 4.6下模糊有效的提示词,在4.7下可能需要重写为更精确的描述。

跨Session记忆方面,Anthropic官方确认Opus 4.7显著改善了对文件系统存储记忆的利用能力,在多个长时间、跨会话的任务中,模型能主动调用此前保存的上下文信息,而不是在每次会话开始时重新建立任务状态。


视觉能力为何提升3倍?2576像素高清图处理的实际边界在哪里?

Opus 4.7的视觉处理能力发生了质变:XBOW视觉测试从54.5%飙升至98.5%,图像长边支持从约860像素提升至2576像素(约3.75MP),这意味着此前许多需要图像预处理或降质传入的场景,现在可以直接使用原图输入。

这一提升打通了以下此前受分辨率限制的典型场景:

  1. 1. 复杂图表与手稿识别:密集型图表、手写草稿的OCR精度大幅提升,不再需要先转为纯文本再输入
  2. 2. 高密度代码截图解析:多栏代码截图、IDE截图可直接读取,字符不再模糊失真
  3. 3. UI设计参考与生成:基于一张参考封面图,模型可以识别色调、光影、排版风格,并将其系统性地应用到整个页面设计(如在Bowen的手稿网页测试中,模型根据封面图的暗色悬疑感自动适配了整套网页配色方案)
  4. 4. FPS游戏地图细节保留:在3D场景改造任务中,2576像素的分辨率保证了空间细节不因压缩失真而被忽略

视觉能力提升对多模态工作流的具体影响: 在需要从图像中提取结构化信息(如表格、流程图、UI布局)再进行后续操作的Pipeline中,Opus 4.7可以减少图像预处理步骤,降低Pipeline复杂度。


Opus 4.7的安全限制:Anthropic为什么主动削弱了网络安全攻坚能力?

Opus 4.7在网络攻击相关任务上的能力被Anthropic主动限制,这不是模型能力的天花板,而是基于安全边界的主动取舍——其内部更强的Claude Mythos Preview在同类测试中的表现远超Opus 4.7。

安全测试项目
Claude Mythos Preview
Claude Opus 4.7
Firefox 147漏洞利用测试
84%
45.2%
企业网络渗透(10次测试)
3次完全攻破整网
0次成功
Cybench(标准CTF)
96%
96%

Cybench的相同得分(96%)说明标准CTF测试已无法区分两个模型;但在真实复杂漏洞利用场景中,Mythos Preview的成功率近乎是Opus 4.7的两倍。

Anthropic在System Card中明确表示,训练过程中刻意削弱了Opus 4.7的网络安全攻坚能力,目的是将模型保持在可公开发布的安全边界内。Opus 4.7搭载了自动拦截系统,专门屏蔽高风险网络攻击请求。

对于合规的安全研究和红队需求: Anthropic提供"Cyber Verification Program"申请通道,经验证的安全研究人员可申请访问更高级别的能力权限。

整体安全评价: Anthropic官方的定性评价是"总体上一致性良好且值得信赖,但行为并非完全理想"。诚实度和抵御恶意prompt注入的能力较Opus 4.6有所改善;在管制药物领域的减害建议上,Opus 4.7略有不足,偶尔会提供过于详细的信息。


Claude Code同步更新了哪些关键功能?xhigh、/ultrareview与Task Budgets详解

与Opus 4.7同步发布或近期上线的Claude Code功能共有5项,其中xhigh努力等级和/ultrareview命令直接影响日常编码工作流,Task Budgets对生产环境的成本控制至关重要。

xhigh努力等级:Claude Code何时该用"更努力"的模式?

xhigh(Extra High)是介于highmax之间的新增努力等级,填补了以往两者之间的粗粒度跳跃问题,并成为Claude Code在Opus 4.7发布当日所有计划(Pro、Max、Teams、Enterprise)的新默认值。

努力等级
适用场景
Token消耗
响应速度
low
简单问答、快速补全
medium
标准功能开发
high
复杂功能、多文件修改
较高
较慢
xhigh(新增)高难度推理、深度重构
max
极限复杂问题
最高
最慢

在CLI中使用 /effort xhigh 手动切换。调低Effort可获得更快响应和更低token消耗,适合快速迭代阶段;调高Effort释放最强推理能力,适合攻坚难题或最终交付前的精细处理。

/ultrareview命令:它与普通代码审查有什么实质区别?

/ultrareview不是语法检查,而是一个结构化的独立审查会话,覆盖架构设计、安全漏洞、性能瓶颈和可维护性,相当于让一位资深架构师专门走读你的PR。

普通代码审查(如内联建议)与/ultrareview的区别:

维度
常规代码审查
/ultrareview
审查深度
语法、逻辑、风格
架构、安全、性能、可维护性
执行方式
内联注释
独立审查会话
适用时机
开发过程中
提交PR前
适用范围
局部修改
完整变更集

Anthropic为Pro和Max用户提供三次免费/ultrareview试用。在使用上,/ultrareview适合在提交Pull Request前执行,作为人工审查的前置自动化步骤,可显著减少代码审查会议中的低效时间。

Task Budgets(公测):如何控制长时程Agent任务的token消耗?

Task Budgets是一项新API功能,允许开发者为单次Claude Code会话设置token消耗上限,Claude在即将超出预算时会暂停并请求确认,而非无限制地继续执行。

这对于以下场景至关重要:

  • • 生产环境中的自动化修复Pipeline(防止单次任务runaway)
  • • 多并发Claude会话运行时的成本总控
  • • 夜间无人值守批量任务的预算管理

Task Budgets目前处于公测阶段,通过API参数配置,具体字段参见Anthropic官方API文档。

Routines(定时任务)与桌面端重设计

Routines于2026年4月14日(Opus 4.7发布前两天)上线,允许用户设置定时自动化任务,在云端运行,不需要本地设备保持开启。

功能
描述
与Auto Mode的关系
Routines
按计划在云端自动触发任务
互补:Routines处理无会话的计划任务
Auto Mode
减少实时会话中的权限打断
互补:Auto Mode处理有会话的实时任务

两者结合使用,可以构建完整的无人值守工作流:Routines在夜间自动启动任务,Auto Mode确保任务执行中不因权限提示中断。


Boris Cherny亲授:Opus 4.7狗粮测试6条实战使用技巧

Boris Cherny(Claude Code创建者)在Opus 4.7发布当天分享了他数周内部测试的6条核心技巧,覆盖权限管理、进度追踪、专注模式、思考深度控制和验证机制,每条均可直接应用于现有工作流。

Boris在Threads上的原话是:"Opus 4.7是一次重大飞跃。"以下是他分享的6条具体技巧:

技巧1:开启Auto Mode,绕过逐条权限确认

Boris首推Auto Mode作为--dangerously-skip-permissions的安全替代方案。

过去的普遍做法是在CLI中附加--dangerously-skip-permissions参数,跳过所有权限确认。这虽然高效,但存在安全风险——任何命令都会被无条件执行。

Auto Mode通过分类器模型在安全性和效率之间取得平衡:安全命令自动通过,高风险命令仍需手动确认。更重要的是,Auto Mode是并行运行多个Claude实例的前提条件——启动一个任务后,可以立即切换开启另一个Claude会话,而不用等第一个完成。

激活方式:CLI按Shift-Tab,或在Claude Desktop / VS Code扩展的下拉菜单中选择。当前仅对Max、Teams、Enterprise用户开放。

技巧2:使用/fewer-permission-prompts精简权限白名单

对于暂不使用Auto Mode的用户,/fewer-permission-prompts是减少重复权限确认的手动精准替代方案。

该技能扫描当前会话历史,识别那些"安全但频繁触发权限提示"的Bash和MCP命令,生成一份推荐许可清单,用户可将其复制到项目的.claude/settings.json或用户级设置文件中,一次配置,长期生效。

适用场景:在固定的项目或环境中,日常重复执行的命令(如测试运行、lint检查、文件读写操作)每次都触发权限提示,通过/fewer-permission-prompts批量白名单化,可显著减少摩擦。

技巧3:进度回顾(Recaps)——长任务中途返回时快速恢复上下文

Recaps于Opus 4.7发布前数天上线,自动生成"Agent已完成什么 + 接下来计划做什么"的简要摘要,解决长时程任务中断后重新进入时的上下文丢失问题。

实际使用场景:启动一个预计运行30分钟的重构任务,然后去处理其他工作。30分钟后回来时,不需要翻阅所有工具调用记录——Recap会在会话顶部自动显示任务进度摘要。

Boris特别说明,这个功能在"离开几分钟到几小时后重新进入长时间运行的会话"时最有价值。

技巧4:专注模式(Focus Mode)——只看最终结果,忽略中间过程

Focus Mode隐藏Claude执行过程中的所有中间步骤输出,只显示最终结果,适合已对模型建立信任感、不需要实时监控每一步工具调用的用户。

Boris分享了他的使用理由:"模型现在已经进化到了让我产生信任感的阶段——我通常相信它能运行正确的命令并进行正确的修改。我只需看最终产出。"

这一心智模型转变对于习惯了盯着AI每一步操作的用户来说需要适应期,但对于日常高频使用的开发者,Focus Mode可以大幅减少认知负担。

技巧5:调整Effort Level控制思考深度与token消耗

Opus 4.7采用自适应思考(Adaptive Thinking)而非固定思考预算,通过Effort Level参数控制模型投入的推理深度——这是在速度、成本和质量之间动态取舍的核心旋钮。

Boris的建议:

  • • 调低Effort(low/medium):适合快速迭代、调试简单Bug、日常代码补全,获得更快响应和更低token消耗
  • • 调高Effort(xhigh/max):适合攻坚复杂逻辑、多文件架构修改、需要深度推理的算法问题,释放最强推理能力

在新版Claude Code中,xhigh已成为所有计划的默认值,这意味着日常会话的默认质量比Opus 4.6时代更高,同时token消耗也相应增加。对于成本敏感的场景,手动降低到/effort high可以控制开销。

技巧6:给Claude一个验证工作成果的方法(最重要的一条)

Boris将"为Claude提供验证路径"列为将Claude效能提升2-3倍的长期核心秘诀,在Opus 4.7版本中,这一点比以往任何时候都更加重要。

Boris原话:"对于长耗时工作,验证至关重要。这样当你回到任务中时,你就能确信代码是跑通了的。"

不同任务类型的验证方式:

任务类型
验证方法
后端服务
让Claude知道如何启动服务器,并执行端到端API测试
前端应用
使用Claude Chromium插件,让模型直接控制浏览器进行视觉验证
桌面应用
使用Computer Use功能,让模型操作实际桌面界面验证结果
CLI工具
在任务描述中提供测试命令,要求Claude在完成后自动运行测试

Boris个人最常用的提示词模式是:

[任务描述] /go

其中/go是一个组合技能,会触发Claude依次执行:

  1. 1. 通过Bash、浏览器或Computer Use进行端到端自测
  2. 2. 运行/simplify技能对代码进行精简优化
  3. 3. 自动提交PR(Pull Request)

这种模式将"完成任务"和"验证任务"合并为一个指令,显著减少了需要人工介入的环节。


Opus 4.7的适用场景判断:哪些情况下升级价值最高?

综合基准数据和Boris的内部反馈,Opus 4.7的升级价值集中在以下三类场景:复杂多文件编码、多模态工作流、长时程自动化任务。长文档检索和成本敏感型高频调用是需要重点评估的风险场景。

使用场景
升级建议
核心理由
大型代码库多文件修改
强烈推荐
SWE-bench Pro +10.9pp,CursorBench +12pp
复杂功能构建(长时程Agent)
强烈推荐
Auto Mode + 跨Session记忆 + 自我验证
视觉密集型任务(图表/UI设计)
推荐
分辨率3倍提升,XBOW 54.5%→98.5%
工具调用密集型Pipeline
推荐
MCP-Atlas从62.7%升至77.3%
长文档检索/RAG管道
评估后决定
BrowseComp退步,从83.7%降至79.3%
成本敏感型高频API调用
谨慎评估
新tokenizer导致实际成本最高上升35%
依赖Extended Thinking的工作流
需重新测试
已替换为Adaptive Thinking,行为存在差异

Box公司AI负责人Yashodha Bhavnani的企业级数据: 在Box内部应用Opus 4.7后,模型调用次数减少56%,工具调用次数减少50%,响应速度加快24%,AI单元消耗减少30%。这组数据来自真实生产环境,但前提是已针对Opus 4.7的更精确指令遵循能力重新优化了Prompt。

结语

Claude Opus 4.7在软件工程、视觉处理和工具调用三个维度均有实质性提升,Auto Mode和Boris的6条技巧共同指向同一个方向:长时程Agent式工作已具备生产级稳定性。 对于绝大多数编码和多模态场景,升级价值明确;对于长文档检索和成本敏感型高频调用,需要在升级前完成场景专项评估。

最值得关注的趋势不是单项基准的数字,而是"无人值守"工作流的可行性边界正在扩大。 Boris Cherny在内部测试数周后的判断是:Opus 4.7是一次重大飞跃,核心不是它更聪明了多少,而是它在长时程任务中的稳定性和可信度已经达到了一个新的阈值——足以让开发者放心地将注意力从"盯着AI执行"转移到"规划下一个任务"。

本文核心词汇:

Claude Opus 4.7,Claude Code,Auto Mode,无人值守编程,SWE-bench评测,Boris使用技巧,xhigh努力等级,/ultrareview教程,Opus 4.7升级指南,长时程Agent实战,Claude Code技巧,Anthropic新功能



数据来源:Anthropic官方发布页Boris Cherny Threads帖子The Next Web基准报告NxCode完整评测Vellum AI基准解析


“Claude Opus 4.7完整评测:无人值守编程、3倍视觉提升与Boris亲授的6条实战技巧” 的相关文章

谷歌放大招!Gemini 3.0 疑似已通过移动端 Canvas 功能低调推送,性能超越 2.5!

谷歌放大招!Gemini 3.0 疑似已通过移动端 Canvas 功能低调推送,性能超越 2.5!

 I. 引言:AI 竞赛白热化,焦点转向迟到的“王牌”背景:市场期待与竞赛升级**近期,OpenAI 再次亮剑,推出了升级版的 GPT-5.1,这无疑进一步推动了 AI 军备竞赛的白热化。然...

一张草图变网页,实测字节 TRAE SOLO,这些功能甚至比 Cursor 还好用

一张草图变网页,实测字节 TRAE SOLO,这些功能甚至比 Cursor 还好用

 AI 编程的痛点与国产方案的破局:打破“卡脖子”困境当前,AI 编程已从概念走向实用,普通用户能利用 AI 快速生成工具,专业开发者也在探索提升效率的极限。然而,我们国内开发者普遍面临一个...

李飞飞的世界模型来了!一句话生成3D世界,AI 真的开始理解现实了

李飞飞的世界模型来了!一句话生成3D世界,AI 真的开始理解现实了

 当地时间 2025 年 11 月 12 日,由“AI 教母”李飞飞创办的 World Labs 正式推出了其首款商用世界模型产品 Marble。这不仅是一次技术发布,它是世界模型(Worl...

马斯克新模型屠榜,包揽前二!马斯克:已经没有真正能考AI的测试题了,终极测试是现实世界

马斯克新模型屠榜,包揽前二!马斯克:已经没有真正能考AI的测试题了,终极测试是现实世界

 2025年,AI大模型的竞争已进入深水区,技术的迭代速度令人目不暇接。xAI在这一背景下悄然推出了其旗舰模型Grok 4.1,这一发布不仅先于业界翘首以盼的Google Gemini 3,...

Gemini 3.0 Pro模型卡曝光,多模态、知识库能力大幅超越GPT与Claude

Gemini 3.0 Pro模型卡曝光,多模态、知识库能力大幅超越GPT与Claude

 在AI大模型竞争白热化的当下,谷歌即将发布的Gemini 3.0 Pro无疑是业界最期待的事件之一。根据最新的泄露信息和性能指标,我们可以清晰地判断:Gemini 3.0 Pro绝非一次小...

谷歌杀回来了!Gemini 3 全面碾压 GPT-5.1,AI 霸主正式归位

谷歌杀回来了!Gemini 3 全面碾压 GPT-5.1,AI 霸主正式归位

 当地时间周二,Google Alphabet 正式发布了其最新的旗舰 AI 模型——Gemini 3。这一时刻不仅是谷歌技术迭代的时间节点,更可能是人工智能发展史上的一个分水岭。如果说之前...