AI真的能干活吗?硅谷用一场真实打工实验,给出了尴尬的答案
📰 AI“打零工”实录:从高分学霸到“掉链子同事”
一、AI独立打工幻想被“揍”回现实
尽管大模型在标准测试中表现出色,但在真实世界中独立完成复杂工作并产生经济价值的能力仍非常初级。
近年来,我们见证了以GPT-4、Claude 3为代表的大模型在各项标准智力测试中得分屡创新高,似乎“AI独立打工”已触手可及。然而,最近的一项硬核实验,却将这种美好幻想狠狠“揍”回了现实。
知名AI公司Scale AI推出了全球首个旨在衡量AI**“能否真正干活”**的基准——远程劳动指数(Remote Labor Index, 简称RLI)。
测试方法极其严苛和真实: 实验者让GPT-5、Claude等顶尖大模型,独立登录全球最大的自由职业平台Upwork,像一个真正的“打工人”一样,接取客户发布的真实付费订单。
尴尬结果令人大跌眼镜: 表现最好的模型,在240个工单中仅成功完成了6个,成功率只有2.5%。它们赚取的报酬总额,不到人类平均水平的2%。

主要问题集中在交付质量: 实验显示,近一半的失败原因是**“质量太差、成品业余”**,完全达不到专业标准。
这一现实无疑揭示了AI的“智力”与将其转化为“经济价值”的能力之间存在严重脱节。它警示我们:在可预见的短期内,人机协作仍是唯一可靠的路径,AI距离真正的“独立员工”还遥不可及。
二、RLI 实验:大模型的真实工作表现
新基准 RLI:专为评估AI“独自上班”能力而设计
不同于传统基准测试的“闭卷考试”模式,RLI的评判标准是:客户是否肯付钱、平台是否认可专业度。
测试范围选取了Upwork上23类真实线上工作,共240个任务。流程高度仿真,包括理解模糊需求、下载和处理多格式文件、多轮修改沟通以及最终的专业提交。
惨烈成绩与失败原因分析
数据显示,所有模型的整体自动化率低于3%。排名第一的AI代理Manus成功率仅有2.5%,赚得$1720。其他在MMLU等测试中名列前茅的“高分学霸”们(如GPT-5、Gemini 2.5 Pro等),通过率则更低。
对失败工单的分析,揭示了AI的系统性缺陷:
| 失败原因 | 占比 | 典型问题描述 |
|---|---|---|
| 质量过低 | 45.6% | 成品显业余,达不到客户要求的专业标准。 |
| 不完整/格式错误 | 35.7% | 文件缺失、视频被截断或使用了错误的格式。 |
| 技术与文件完整性 | 17.6% | 无法处理文件依赖性或因技术故障中断。 |
| 视觉或逻辑不一致 | 14.8% | 跨文件、跨平台设计或逻辑上的严重偏差。 |
AI的特长与局限
AI的系统性缺陷在于它不懂“专业标准”,且在处理多步骤、多工具的复杂工作流时极度脆弱,例如:要求对文案进行二次编辑,或维护跨多个文件的设计一致性。
• 擅长: 创意类(音效、Logo设计)、基础内容类(资料整理、基础文案)。
• 弱点: 需要串联多个工具、多步骤操作、维护跨文件的一致性。
当工作被“拆解”后,AI的真正能力才得以体现:在L1-L2难度(基础文案、资料整理)任务上,AI通过率能达25%-30%;但在需要跨工具协作和复杂创意策划的L4-L5难度任务上,通过率则低于5%。AI目前还只是一个优秀的“工具箱”,而不是一个合格的“总设计师”。

三、旧基准失灵:从“答题能力”到“交付成果”
“高分低能”问题的暴露
这种认知背离是显而易见的:大模型在MMLU、MT-Bench等封闭题库中分数飙升,但在真实的就业市场,初级文案、编程等“AI可能取代”的岗位招聘却降温,正是因为企业发现了AI的“高分低能”问题。
现有基准测的是“答题能力”,本质是知识点的广度和深度。然而,企业真正要的是“交付成果”。“刷榜”导致的后果是,分数越高,可能离解决现实问题、创造经济价值的距离越远。
RLI对现实复杂性的涵盖
RLI的颠覆性在于它不考知识点,而是考**“完成一整个工作流”,要求AI交出客户愿意付钱的成果**。
RLI涵盖了人类职场中常见的模糊、多变情境:
• “请把这篇文案的语气改为更活泼一些。”
• “参考资料链接损坏了,你自己想办法找一下。”
• “在项目进行到一半时,新增了一个要求。”
这些现实复杂性,是传统标准化测试中不曾出现的。
工作结构的重塑
RLI的实录再次证明:纯执行型技能正在加速贬值,但AI目前尚未完全掌握执行技能,且更缺乏定义问题、管理流程、整合资源的能力。这些高阶能力,将成为未来人类职场中的核心竞争力。
“AI绝对自动化率几乎为零”的担忧暂时被证伪。未来对初级岗位的要求将是:“能使用AI完成30%的日常杂务,并具备确保交付成果符合专业标准的能力”。
四、AI真正的价值在于人机协作
大模型正在考试中证明自己的“聪明”,却在职场中暴露了“不会干活”的本质。它能生成初稿、能提出思路、能快速整理资料,但无法在无人监督下,独立将这些**“半成品”整合、优化并最终交付为“专业成果”**。
AI不是一个“员工”,而是一个强大的“工具”。真正能在现实中“干活”并创造经济价值的,是那些懂得如何将AI变成自己高效团队一部分的人。他们是AI时代的“工头”和“产品经理”,是驾驭高分学霸以避免其“掉链子”的关键所在。
