当前位置：首页 > 大模型评测 > 正文内容

Claude Opus 4.7完整评测：无人值守编程、3倍视觉提升与Boris亲授的6条实战技巧

上善若水17小时前大模型评测

Claude Opus 4.7完整评测：Auto Mode机制与Boris六条实战技巧详解

Claude Opus 4.7于2026年4月16日正式发布，SWE-bench Verified得分从80.8%提升至87.6%，SWE-bench Pro从53.4%跃升至64.3%，CursorBench达到70%（较上代+12%），视觉分辨率支持提升至2576像素（约3.75MP），较Opus 4.6提高3倍。

本文基于官方基准数据、Claude Code创建者Boris Cherny的第一手反馈，以及多位早期测试者的实测记录，系统梳理Opus 4.7的能力边界、配套工具更新，以及可直接复用的6条生产力技巧，帮助开发者判断是否升级及如何最大化使用效果。

Claude Opus 4.7的核心性能：与Opus 4.6、GPT-5.4、Gemini 3.1 Pro的全面基准对比

Opus 4.7在软件工程、视觉处理和工具调用三个维度均超越Opus 4.6，在编码基准上同时领先GPT-5.4和Gemini 3.1 Pro，但在长文档搜索（BrowseComp）和长上下文处理上存在明显退步。

以下是截至2026年4月的主要模型基准对比：

评估维度	Claude Opus 4.7	Claude Opus 4.6	GPT-5.4	Gemini 3.1 Pro
SWE-bench Verified	87.6%	80.8%	—	80.6%
SWE-bench Pro	64.3%	53.4%	57.7%	54.2%
CursorBench（IDE编码）	70%	58%	—	—
GPQA Diamond（科学推理）	94.2%	91.3%	—	—
Terminal-Bench 2.0	69.4%	65.4%	—	—
Finance Agent v1.1	64.4%	60.7%	—	—
MCP-Atlas（工具调用）	77.3%	62.7%	68.1%	73.9%
OSWorld-Verified（桌面自动化）	78.0%	72.7%	—	—
XBOW视觉测试	98.5%	54.5%	—	—
BrowseComp（长文档搜索）	79.3%	83.7%	89.3%	—

SWE-bench Pro的+10.9个百分点增幅大于SWE-bench Verified的+6.8个百分点，表明能力提升集中在更难、饱和度更低的复杂问题上。 MCP-Atlas（工具调用）从62.7%跳升至77.3%（+14.6pp），是单项提升最大的指标，在所有测试模型中排名第一。

唯一明显退步的是BrowseComp（长文档检索），从83.7%降至79.3%，GPT-5.4在该维度以89.3%保持明显优势。如果核心使用场景涉及大规模文档检索或RAG管道，需在升级前重点评估这一退步。

价格方面： Opus 4.7与Opus 4.6定价相同，输入25/百万tokens。但Opus 4.7采用了新版tokenizer，相同文本内容可能消耗1.0至1.35倍的token数量，在高频调用场景下实际成本将上升0%至35%。

Claude Opus 4.7如何实现"无人值守编程"？Auto Mode机制与适用条件解析

Opus 4.7在编码场景的核心突破不只是准确率的提升，而是通过Auto Mode和自我验证机制，使开发者可以将复杂的长流程任务完全交给模型运行，无需全程监控。

Boris Cherny在发布后第一时间表示："Opus 4.7更具Agent性、更精准，在长时程任务上表现明显更好，能跨Session保持上下文，对模糊指令的处理也好得多。"

Auto Mode的工作原理与权限分级是什么？

Auto Mode是介于"每步确认"与--dangerously-skip-permissions之间的第三种权限管理方式，通过分类器模型自动判断每条命令是否安全执行。

Auto Mode的工作流程如下：

1. 模型发出一条需要执行的命令（Bash、文件操作、网络请求等）
2. 该命令被路由至一个独立的分类器模型进行安全评估
3. 分类器判断为"安全"→ 自动批准，命令执行，无需用户介入
4. 分类器判断为"风险"→ 保留传统权限提示，用户手动确认

当前可用范围： 仅限 Max、Teams 和 Enterprise 订阅用户在 Opus 4.7 上使用；Pro 用户暂不支持。

激活方式：

• CLI（命令行）：按 Shift-Tab 切换
• Claude Desktop：下拉菜单中选择
• VS Code 扩展：下拉菜单中选择

Auto Mode带来的实际变化是：可以同时并行运行多个Claude Code会话。启动第一个长任务后，无需等待其完成，即可切换开启下一个独立任务，Claude在后台持续执行而不会中断或等待确认。

Boris Cherny明确指出，这种并行运行能力是Opus 4.7生产力提升最直接的来源，尤其适合以下任务类型：深度研究（Deep Research）、大型代码库重构、复杂功能构建、反复迭代直到达到性能基准的任务。

对于不使用Auto Mode的用户，Opus 4.7同步发布了新技能 /fewer-permission-prompts：该技能会扫描当前会话历史，识别那些安全但频繁触发权限提示的常用Bash和MCP命令，并推荐一份许可清单，让用户手动将其加入授权白名单，从而减少重复确认的摩擦。

实测：1700行代码零Bug背后是什么能力在支撑？

YouTube博主Bowen在测试中对Opus 4.7提交了四项完整构建任务，全程未参与调整修改，其中浏览器系统任务生成1700行代码且零Bug，这一结果直接验证了Opus 4.7在多文件协同编写场景下的稳定性。

四项测试任务及结果：

测试任务	完成质量	人工干预
浏览器系统	1700行代码，0 Bug	无
3D游戏（含地图细节保留）	FPS视角改造，细节完整	无
手稿发布网页（暗色系悬疑感）	根据封面图自动适配风格	无
Seinfeld公寓场景	完整还原	无

这种零干预完成率的背后，是Opus 4.7新增的自我验证机制：模型在提交代码前会主动执行逻辑检查，而非盲目输出。

与此同时，指令遵循能力的增强带来了一个需要注意的副作用：Opus 4.7对提示词的解读更加字面化，不再像之前版本那样"猜测"用户意图。在Opus 4.6下模糊有效的提示词，在4.7下可能需要重写为更精确的描述。

跨Session记忆方面，Anthropic官方确认Opus 4.7显著改善了对文件系统存储记忆的利用能力，在多个长时间、跨会话的任务中，模型能主动调用此前保存的上下文信息，而不是在每次会话开始时重新建立任务状态。

视觉能力为何提升3倍？2576像素高清图处理的实际边界在哪里？

Opus 4.7的视觉处理能力发生了质变：XBOW视觉测试从54.5%飙升至98.5%，图像长边支持从约860像素提升至2576像素（约3.75MP），这意味着此前许多需要图像预处理或降质传入的场景，现在可以直接使用原图输入。

这一提升打通了以下此前受分辨率限制的典型场景：

1. 复杂图表与手稿识别：密集型图表、手写草稿的OCR精度大幅提升，不再需要先转为纯文本再输入
2. 高密度代码截图解析：多栏代码截图、IDE截图可直接读取，字符不再模糊失真
3. UI设计参考与生成：基于一张参考封面图，模型可以识别色调、光影、排版风格，并将其系统性地应用到整个页面设计（如在Bowen的手稿网页测试中，模型根据封面图的暗色悬疑感自动适配了整套网页配色方案）
4. FPS游戏地图细节保留：在3D场景改造任务中，2576像素的分辨率保证了空间细节不因压缩失真而被忽略

视觉能力提升对多模态工作流的具体影响： 在需要从图像中提取结构化信息（如表格、流程图、UI布局）再进行后续操作的Pipeline中，Opus 4.7可以减少图像预处理步骤，降低Pipeline复杂度。

Opus 4.7的安全限制：Anthropic为什么主动削弱了网络安全攻坚能力？

Opus 4.7在网络攻击相关任务上的能力被Anthropic主动限制，这不是模型能力的天花板，而是基于安全边界的主动取舍——其内部更强的Claude Mythos Preview在同类测试中的表现远超Opus 4.7。

安全测试项目	Claude Mythos Preview	Claude Opus 4.7
Firefox 147漏洞利用测试	84%	45.2%
企业网络渗透（10次测试）	3次完全攻破整网	0次成功
Cybench（标准CTF）	96%	96%

Cybench的相同得分（96%）说明标准CTF测试已无法区分两个模型；但在真实复杂漏洞利用场景中，Mythos Preview的成功率近乎是Opus 4.7的两倍。

Anthropic在System Card中明确表示，训练过程中刻意削弱了Opus 4.7的网络安全攻坚能力，目的是将模型保持在可公开发布的安全边界内。Opus 4.7搭载了自动拦截系统，专门屏蔽高风险网络攻击请求。

对于合规的安全研究和红队需求： Anthropic提供"Cyber Verification Program"申请通道，经验证的安全研究人员可申请访问更高级别的能力权限。

整体安全评价： Anthropic官方的定性评价是"总体上一致性良好且值得信赖，但行为并非完全理想"。诚实度和抵御恶意prompt注入的能力较Opus 4.6有所改善；在管制药物领域的减害建议上，Opus 4.7略有不足，偶尔会提供过于详细的信息。

Claude Code同步更新了哪些关键功能？xhigh、/ultrareview与Task Budgets详解

与Opus 4.7同步发布或近期上线的Claude Code功能共有5项，其中xhigh努力等级和/ultrareview命令直接影响日常编码工作流，Task Budgets对生产环境的成本控制至关重要。

xhigh努力等级：Claude Code何时该用"更努力"的模式？

xhigh（Extra High）是介于high和max之间的新增努力等级，填补了以往两者之间的粗粒度跳跃问题，并成为Claude Code在Opus 4.7发布当日所有计划（Pro、Max、Teams、Enterprise）的新默认值。

努力等级	适用场景	Token消耗	响应速度
low	简单问答、快速补全	低	快
medium	标准功能开发	中	中
high	复杂功能、多文件修改	较高	较慢
xhigh（新增）	高难度推理、深度重构	高	慢
max	极限复杂问题	最高	最慢

在CLI中使用 /effort xhigh 手动切换。调低Effort可获得更快响应和更低token消耗，适合快速迭代阶段；调高Effort释放最强推理能力，适合攻坚难题或最终交付前的精细处理。

/ultrareview命令：它与普通代码审查有什么实质区别？

/ultrareview不是语法检查，而是一个结构化的独立审查会话，覆盖架构设计、安全漏洞、性能瓶颈和可维护性，相当于让一位资深架构师专门走读你的PR。

普通代码审查（如内联建议）与/ultrareview的区别：

维度	常规代码审查	/ultrareview
审查深度	语法、逻辑、风格	架构、安全、性能、可维护性
执行方式	内联注释	独立审查会话
适用时机	开发过程中	提交PR前
适用范围	局部修改	完整变更集

Anthropic为Pro和Max用户提供三次免费/ultrareview试用。在使用上，/ultrareview适合在提交Pull Request前执行，作为人工审查的前置自动化步骤，可显著减少代码审查会议中的低效时间。

Task Budgets（公测）：如何控制长时程Agent任务的token消耗？

Task Budgets是一项新API功能，允许开发者为单次Claude Code会话设置token消耗上限，Claude在即将超出预算时会暂停并请求确认，而非无限制地继续执行。

这对于以下场景至关重要：

• 生产环境中的自动化修复Pipeline（防止单次任务runaway）
• 多并发Claude会话运行时的成本总控
• 夜间无人值守批量任务的预算管理

Task Budgets目前处于公测阶段，通过API参数配置，具体字段参见Anthropic官方API文档。

Routines（定时任务）与桌面端重设计

Routines于2026年4月14日（Opus 4.7发布前两天）上线，允许用户设置定时自动化任务，在云端运行，不需要本地设备保持开启。

功能	描述	与Auto Mode的关系
Routines	按计划在云端自动触发任务	互补：Routines处理无会话的计划任务
Auto Mode	减少实时会话中的权限打断	互补：Auto Mode处理有会话的实时任务

两者结合使用，可以构建完整的无人值守工作流：Routines在夜间自动启动任务，Auto Mode确保任务执行中不因权限提示中断。

Boris Cherny亲授：Opus 4.7狗粮测试6条实战使用技巧

Boris Cherny（Claude Code创建者）在Opus 4.7发布当天分享了他数周内部测试的6条核心技巧，覆盖权限管理、进度追踪、专注模式、思考深度控制和验证机制，每条均可直接应用于现有工作流。

Boris在Threads上的原话是："Opus 4.7是一次重大飞跃。"以下是他分享的6条具体技巧：

技巧1：开启Auto Mode，绕过逐条权限确认

Boris首推Auto Mode作为--dangerously-skip-permissions的安全替代方案。

过去的普遍做法是在CLI中附加--dangerously-skip-permissions参数，跳过所有权限确认。这虽然高效，但存在安全风险——任何命令都会被无条件执行。

Auto Mode通过分类器模型在安全性和效率之间取得平衡：安全命令自动通过，高风险命令仍需手动确认。更重要的是，Auto Mode是并行运行多个Claude实例的前提条件——启动一个任务后，可以立即切换开启另一个Claude会话，而不用等第一个完成。

激活方式：CLI按Shift-Tab，或在Claude Desktop / VS Code扩展的下拉菜单中选择。当前仅对Max、Teams、Enterprise用户开放。

技巧2：使用/fewer-permission-prompts精简权限白名单

对于暂不使用Auto Mode的用户，/fewer-permission-prompts是减少重复权限确认的手动精准替代方案。

该技能扫描当前会话历史，识别那些"安全但频繁触发权限提示"的Bash和MCP命令，生成一份推荐许可清单，用户可将其复制到项目的.claude/settings.json或用户级设置文件中，一次配置，长期生效。

适用场景：在固定的项目或环境中，日常重复执行的命令（如测试运行、lint检查、文件读写操作）每次都触发权限提示，通过/fewer-permission-prompts批量白名单化，可显著减少摩擦。

技巧3：进度回顾（Recaps）——长任务中途返回时快速恢复上下文

Recaps于Opus 4.7发布前数天上线，自动生成"Agent已完成什么 + 接下来计划做什么"的简要摘要，解决长时程任务中断后重新进入时的上下文丢失问题。

实际使用场景：启动一个预计运行30分钟的重构任务，然后去处理其他工作。30分钟后回来时，不需要翻阅所有工具调用记录——Recap会在会话顶部自动显示任务进度摘要。

Boris特别说明，这个功能在"离开几分钟到几小时后重新进入长时间运行的会话"时最有价值。

技巧4：专注模式（Focus Mode）——只看最终结果，忽略中间过程

Focus Mode隐藏Claude执行过程中的所有中间步骤输出，只显示最终结果，适合已对模型建立信任感、不需要实时监控每一步工具调用的用户。

Boris分享了他的使用理由："模型现在已经进化到了让我产生信任感的阶段——我通常相信它能运行正确的命令并进行正确的修改。我只需看最终产出。"

这一心智模型转变对于习惯了盯着AI每一步操作的用户来说需要适应期，但对于日常高频使用的开发者，Focus Mode可以大幅减少认知负担。

技巧5：调整Effort Level控制思考深度与token消耗

Opus 4.7采用自适应思考（Adaptive Thinking）而非固定思考预算，通过Effort Level参数控制模型投入的推理深度——这是在速度、成本和质量之间动态取舍的核心旋钮。

Boris的建议：

• 调低Effort（low/medium）：适合快速迭代、调试简单Bug、日常代码补全，获得更快响应和更低token消耗
• 调高Effort（xhigh/max）：适合攻坚复杂逻辑、多文件架构修改、需要深度推理的算法问题，释放最强推理能力

在新版Claude Code中，xhigh已成为所有计划的默认值，这意味着日常会话的默认质量比Opus 4.6时代更高，同时token消耗也相应增加。对于成本敏感的场景，手动降低到/effort high可以控制开销。

技巧6：给Claude一个验证工作成果的方法（最重要的一条）

Boris将"为Claude提供验证路径"列为将Claude效能提升2-3倍的长期核心秘诀，在Opus 4.7版本中，这一点比以往任何时候都更加重要。

Boris原话："对于长耗时工作，验证至关重要。这样当你回到任务中时，你就能确信代码是跑通了的。"

不同任务类型的验证方式：

任务类型	验证方法
后端服务	让Claude知道如何启动服务器，并执行端到端API测试
前端应用	使用Claude Chromium插件，让模型直接控制浏览器进行视觉验证
桌面应用	使用Computer Use功能，让模型操作实际桌面界面验证结果
CLI工具	在任务描述中提供测试命令，要求Claude在完成后自动运行测试

Boris个人最常用的提示词模式是：

[任务描述] /go

其中/go是一个组合技能，会触发Claude依次执行：

1. 通过Bash、浏览器或Computer Use进行端到端自测
2. 运行/simplify技能对代码进行精简优化
3. 自动提交PR（Pull Request）

这种模式将"完成任务"和"验证任务"合并为一个指令，显著减少了需要人工介入的环节。

Opus 4.7的适用场景判断：哪些情况下升级价值最高？

综合基准数据和Boris的内部反馈，Opus 4.7的升级价值集中在以下三类场景：复杂多文件编码、多模态工作流、长时程自动化任务。长文档检索和成本敏感型高频调用是需要重点评估的风险场景。

使用场景	升级建议	核心理由
大型代码库多文件修改	强烈推荐	SWE-bench Pro +10.9pp，CursorBench +12pp
复杂功能构建（长时程Agent）	强烈推荐	Auto Mode + 跨Session记忆 + 自我验证
视觉密集型任务（图表/UI设计）	推荐	分辨率3倍提升，XBOW 54.5%→98.5%
工具调用密集型Pipeline	推荐	MCP-Atlas从62.7%升至77.3%
长文档检索/RAG管道	评估后决定	BrowseComp退步，从83.7%降至79.3%
成本敏感型高频API调用	谨慎评估	新tokenizer导致实际成本最高上升35%
依赖Extended Thinking的工作流	需重新测试	已替换为Adaptive Thinking，行为存在差异

Box公司AI负责人Yashodha Bhavnani的企业级数据： 在Box内部应用Opus 4.7后，模型调用次数减少56%，工具调用次数减少50%，响应速度加快24%，AI单元消耗减少30%。这组数据来自真实生产环境，但前提是已针对Opus 4.7的更精确指令遵循能力重新优化了Prompt。

结语

Claude Opus 4.7在软件工程、视觉处理和工具调用三个维度均有实质性提升，Auto Mode和Boris的6条技巧共同指向同一个方向：长时程Agent式工作已具备生产级稳定性。对于绝大多数编码和多模态场景，升级价值明确；对于长文档检索和成本敏感型高频调用，需要在升级前完成场景专项评估。

最值得关注的趋势不是单项基准的数字，而是"无人值守"工作流的可行性边界正在扩大。 Boris Cherny在内部测试数周后的判断是：Opus 4.7是一次重大飞跃，核心不是它更聪明了多少，而是它在长时程任务中的稳定性和可信度已经达到了一个新的阈值——足以让开发者放心地将注意力从"盯着AI执行"转移到"规划下一个任务"。

本文核心词汇：

Claude Opus 4.7，Claude Code，Auto Mode，无人值守编程，SWE-bench评测，Boris使用技巧，xhigh努力等级，/ultrareview教程，Opus 4.7升级指南，长时程Agent实战，Claude Code技巧，Anthropic新功能

数据来源：Anthropic官方发布页、Boris Cherny Threads帖子、The Next Web基准报告、NxCode完整评测、Vellum AI基准解析