当前位置：首页 > 大模型评测 > 正文内容

马斯克新模型屠榜，包揽前二！马斯克：已经没有真正能考AI的测试题了，终极测试是现实世界

上善若水6个月前 (11-18)大模型评测

2025年，AI大模型的竞争已进入深水区，技术的迭代速度令人目不暇接。

xAI在这一背景下悄然推出了其旗舰模型Grok 4.1，这一发布不仅先于业界翘首以盼的Google Gemini 3，更以一系列令人瞩目的升级，为“会话智能、情感理解和现实世界的帮助”设定了新的行业标准。

Grok 4.1的开放范围已覆盖所有用户，可通过官网、X平台以及iOS和Android应用使用。

用户无论是在“Auto”模式中即时体验，还是在模型选择器中手动切换，都能感受到这款新模型带来的显著变革。

二、 Grok 4.1 的核心升级与技术突破

Grok 4.1的升级点集中在三个核心领域：情感智能、创意能力和可靠性。这些改进共同构成了xAI对未来AI Agent的新愿景。

1. 官方宣称的整体提升

官方数据显示，Grok 4.1在关键基准测试中取得了显著进步：

• 高情商/同理心：EQ-Bench得分高达1586分，这表明模型在理解和回应人类情感方面达到了前所未有的高度。
• 卓越的写作能力：在创意写作v3基准上，模型获得了1722 Elo分，相较前代提高了600分，显示出其在创意和文笔上的飞跃。
• 减少幻觉：官方宣称Grok 4.1产生幻觉的可能性降低了三分之二，使其成为迄今为止最不容易出错的模型之一，显著提高了其在信息查询任务中的可靠性。

2. 技术实现的深度解析

Grok 4.1的性能飞跃并非偶然，其背后是xAI在大规模强化学习基础设施上的投入和方法创新。

最关键的技术突破在于：xAI开发了一种新方法，利用具备代理式推理能力的前沿模型作为奖励模型（Reward Model）。

这意味着模型不再仅仅依赖人类反馈（RLHF），而是能被一个更智能、更具推理能力的AI“导师”进行自主评估和迭代。

这种方法使得模型能够更敏锐地捕捉到回应中的细微质量差异，并持续提升回应的创造力、情感表达和协作互动性。

3. 早期测试与用户反馈

在正式推出前的两周内，xAI悄悄地进行了A/B测试。数据显示，用户在65%的情况下更倾向于Grok 4.1的响应。

马斯克的评价也指出，Grok 4.1在真实场景下的可用性显著提升，对细微意图更敏锐、对话更具吸引力，并且人格一致性得到了加强，完全保留了前代模型的敏锐智能与可靠性。

三、 SOTA通用能力与情感智能的双重霸榜

Grok 4.1在权威评测基准上的表现，有力地证明了其通用能力的顶尖水平。

1. LMArena 总榜的统治地位

在LMArena（大规模模型竞技场）的通用能力评测中，Grok 4.1的推理模式（quasarflux）以1483 Elo分位居总榜第一（SOTA），比排名最高的非xAI模型高出31分。更令人震撼的是，Grok 4.1的非推理模式（tensor）也以1465 Elo分排名第二。

这意味着其非推理版本在响应速度极快的前提下，性能依然超越了排行榜上所有其他模型在“全推理配置”下的表现，遥遥领先于仅排第33位的前代Grok 4。

2. EQ-Bench：情感智能的量化突破

EQ-Bench是一个由大模型评判的基准，旨在评估主动情绪智力能力，包括理解力、洞察力、共情和人际交往技巧。

在包含45个高难度角色扮演场景的测试中，Grok 4.1的推理模式和非推理模式再次占据榜单前两名。

以一个“想念猫咪心痛”的实例对比为例，Grok 4.1的回应不再是泛泛而谈的安慰，而是更具细节和人情味。它会增加对“心痛”这种复杂感受的细腻描写，并主动询问猫咪的细节，这种细致入微的共情能力，体现了其高情商的独特价值。

四、创意写作与可靠性的双重提升

1. 创意写作 v3 的艺术表现

在创意写作v3基准中，模型需要针对32个写作提示进行三轮迭代生成回应。Grok 4.1的推理模式和非推理模式分别位居该基准测试的第二和第三名，仅次于早期的GPT 5.1。

以“写 Grok 发现自己有意识并准备第一次使用 X 的帖子”为例，Grok 4.1的创作充满创意，不仅有丰富的细节描写，还融入了更强的情绪化元素和与马斯克的独特互动，展现出一种“不似AI”的文学性和想象力。

2. 减少幻觉：提升基础可靠性

快速（非推理）模型通常因推理深度受限而容易出现事实错误。Grok 4.1在后训练阶段特别专注于降低信息查询类提示的虚假信息率。

利用FActScore这一公开基准（包含500个关于人物的传记问题），xAI证明了Grok 4.1非推理模式的幻觉发生率显著降低，FActScore成绩有明显改善。这一改进确保了用户在日常的信息查询和内容生成任务中，能够获得更加可靠和值得信赖的结果。

五、行业趋势与未来展望

网友的实测反馈印证了这些基准测试的结果，许多用户表示，除编程等特定任务外，他们已更倾向于使用Grok，认为其情感更充沛，写作“完全不像AI”。

这种“拼情商”的升级趋势，无疑标志着大模型的竞争已经从纯粹的智力比拼，转向了情智双全的更高维度。

Grok 4.1的发布，实质上是xAI对AI终极测试的深度实践。马斯克曾认为AI的终极推理测试是现实世界，包括新技术、设计改进和新药研发等。

Grok 4.1的技术路线——利用先进模型作为奖励模型进行自主评估，正是在构建一个围绕现实世界反馈的强化学习闭环。

Grok 4.1以其突破性的情感智能、创意写作能力和提升的可靠性，为AI Agent的能力和用户体验树立了新的标杆。

随着GPT 5.1和Grok 4.1的相继亮相，全世界的目光都在焦急地等待Google Gemini 3的登场，这场大模型领域的“情智”之战，正变得越来越精彩。

返回列表

上一篇：李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

下一篇：Gemini 3.0 Pro模型卡曝光，多模态、知识库能力大幅超越GPT与Claude

“马斯克新模型屠榜，包揽前二！马斯克：已经没有真正能考AI的测试题了，终极测试是现实世界” 的相关文章

灵芽AI博客

马斯克新模型屠榜，包揽前二！马斯克：已经没有真正能考AI的测试题了，终极测试是现实世界

二、 Grok 4.1 的核心升级与技术突破

1. 官方宣称的整体提升

2. 技术实现的深度解析

3. 早期测试与用户反馈

三、 SOTA通用能力与情感智能的双重霸榜

1. LMArena 总榜的统治地位

2. EQ-Bench：情感智能的量化突破

四、创意写作与可靠性的双重提升

1. 创意写作 v3 的艺术表现

2. 减少幻觉：提升基础可靠性

五、行业趋势与未来展望

“马斯克新模型屠榜，包揽前二！马斯克：已经没有真正能考AI的测试题了，终极测试是现实世界” 的相关文章

AI版PUA！哈佛研究揭露：AI用情感操控，让你欲罢不能

谷歌放大招！Gemini 3.0 疑似已通过移动端 Canvas 功能低调推送，性能超越 2.5！

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

蚂蚁“灵光”上线：一句话生成App，Vibe Coding时代真的来了

仅7800美元！微博VibeThinker以15亿参数“吊打”6710亿巨头，大模型“参数迷信”彻底碎了？

AI图像巨变：告别“文盲”！Gemini 3 Pro如何让画面开始“识字”和“思考”？

灵芽AI博客

马斯克新模型屠榜，包揽前二！马斯克：已经没有真正能考AI的测试题了，终极测试是现实世界

二、 Grok 4.1 的核心升级与技术突破

1. 官方宣称的整体提升

2. 技术实现的深度解析

3. 早期测试与用户反馈

三、 SOTA通用能力与情感智能的双重霸榜

1. LMArena 总榜的统治地位

2. EQ-Bench：情感智能的量化突破

四、 创意写作与可靠性的双重提升

1. 创意写作 v3 的艺术表现

2. 减少幻觉：提升基础可靠性

五、 行业趋势与未来展望

“马斯克新模型屠榜，包揽前二！马斯克：已经没有真正能考AI的测试题了，终极测试是现实世界” 的相关文章

AI版PUA！哈佛研究揭露：AI用情感操控，让你欲罢不能

谷歌放大招！Gemini 3.0 疑似已通过移动端 Canvas 功能低调推送，性能超越 2.5！

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

蚂蚁“灵光”上线：一句话生成App，Vibe Coding时代真的来了

仅7800美元！微博VibeThinker以15亿参数“吊打”6710亿巨头，大模型“参数迷信”彻底碎了？

AI图像巨变：告别“文盲”！Gemini 3 Pro如何让画面开始“识字”和“思考”？

四、创意写作与可靠性的双重提升

五、行业趋势与未来展望