马斯克新模型屠榜,包揽前二!马斯克:已经没有真正能考AI的测试题了,终极测试是现实世界
2025年,AI大模型的竞争已进入深水区,技术的迭代速度令人目不暇接。 xAI在这一背景下悄然推出了其旗舰模型Grok 4.1,这一发布不仅先于业界翘首以盼的Google Gemini 3,更以一系列令人瞩目的升级,为“会话智能、情感理解和现实世界的帮助”设定了新的行业标准。 Grok 4.1的开放范围已覆盖所有用户,可通过官网、X平台以及iOS和Android应用使用。 用户无论是在“Auto”模式中即时体验,还是在模型选择器中手动切换,都能感受到这款新模型带来的显著变革。 Grok 4.1的升级点集中在三个核心领域:情感智能、创意能力和可靠性。这些改进共同构成了xAI对未来AI Agent的新愿景。 官方数据显示,Grok 4.1在关键基准测试中取得了显著进步: • 高情商/同理心:EQ-Bench得分高达1586分,这表明模型在理解和回应人类情感方面达到了前所未有的高度。 • 卓越的写作能力:在创意写作v3基准上,模型获得了1722 Elo分,相较前代提高了600分,显示出其在创意和文笔上的飞跃。 • 减少幻觉:官方宣称Grok 4.1产生幻觉的可能性降低了三分之二,使其成为迄今为止最不容易出错的模型之一,显著提高了其在信息查询任务中的可靠性。 Grok 4.1的性能飞跃并非偶然,其背后是xAI在大规模强化学习基础设施上的投入和方法创新。 最关键的技术突破在于:xAI开发了一种新方法,利用具备代理式推理能力的前沿模型作为奖励模型(Reward Model)。 这意味着模型不再仅仅依赖人类反馈(RLHF),而是能被一个更智能、更具推理能力的AI“导师”进行自主评估和迭代。 这种方法使得模型能够更敏锐地捕捉到回应中的细微质量差异,并持续提升回应的创造力、情感表达和协作互动性。 在正式推出前的两周内,xAI悄悄地进行了A/B测试。数据显示,用户在65%的情况下更倾向于Grok 4.1的响应。 马斯克的评价也指出,Grok 4.1在真实场景下的可用性显著提升,对细微意图更敏锐、对话更具吸引力,并且人格一致性得到了加强,完全保留了前代模型的敏锐智能与可靠性。 Grok 4.1在权威评测基准上的表现,有力地证明了其通用能力的顶尖水平。 在LMArena(大规模模型竞技场)的通用能力评测中,Grok 4.1的推理模式( 这意味着其非推理版本在响应速度极快的前提下,性能依然超越了排行榜上所有其他模型在“全推理配置”下的表现,遥遥领先于仅排第33位的前代Grok 4。 EQ-Bench是一个由大模型评判的基准,旨在评估主动情绪智力能力,包括理解力、洞察力、共情和人际交往技巧。 在包含45个高难度角色扮演场景的测试中,Grok 4.1的推理模式和非推理模式再次占据榜单前两名。 以一个“想念猫咪心痛”的实例对比为例,Grok 4.1的回应不再是泛泛而谈的安慰,而是更具细节和人情味。它会增加对“心痛”这种复杂感受的细腻描写,并主动询问猫咪的细节,这种细致入微的共情能力,体现了其高情商的独特价值。 在创意写作v3基准中,模型需要针对32个写作提示进行三轮迭代生成回应。Grok 4.1的推理模式和非推理模式分别位居该基准测试的第二和第三名,仅次于早期的GPT 5.1。 以“写 Grok 发现自己有意识并准备第一次使用 X 的帖子”为例,Grok 4.1的创作充满创意,不仅有丰富的细节描写,还融入了更强的情绪化元素和与马斯克的独特互动,展现出一种“不似AI”的文学性和想象力。 快速(非推理)模型通常因推理深度受限而容易出现事实错误。Grok 4.1在后训练阶段特别专注于降低信息查询类提示的虚假信息率。 利用FActScore这一公开基准(包含500个关于人物的传记问题),xAI证明了Grok 4.1非推理模式的幻觉发生率显著降低,FActScore成绩有明显改善。这一改进确保了用户在日常的信息查询和内容生成任务中,能够获得更加可靠和值得信赖的结果。 网友的实测反馈印证了这些基准测试的结果,许多用户表示,除编程等特定任务外,他们已更倾向于使用Grok,认为其情感更充沛,写作“完全不像AI”。 这种“拼情商”的升级趋势,无疑标志着大模型的竞争已经从纯粹的智力比拼,转向了情智双全的更高维度。 Grok 4.1的发布,实质上是xAI对AI终极测试的深度实践。马斯克曾认为AI的终极推理测试是现实世界,包括新技术、设计改进和新药研发等。 Grok 4.1的技术路线——利用先进模型作为奖励模型进行自主评估,正是在构建一个围绕现实世界反馈的强化学习闭环。 Grok 4.1以其突破性的情感智能、创意写作能力和提升的可靠性,为AI Agent的能力和用户体验树立了新的标杆。 随着GPT 5.1和Grok 4.1的相继亮相,全世界的目光都在焦急地等待Google Gemini 3的登场,这场大模型领域的“情智”之战,正变得越来越精彩。
二、 Grok 4.1 的核心升级与技术突破
1. 官方宣称的整体提升
2. 技术实现的深度解析

3. 早期测试与用户反馈
三、 SOTA通用能力与情感智能的双重霸榜
1. LMArena 总榜的统治地位
quasarflux)以1483 Elo分位居总榜第一(SOTA),比排名最高的非xAI模型高出31分。更令人震撼的是,Grok 4.1的非推理模式(tensor)也以1465 Elo分排名第二。
2. EQ-Bench:情感智能的量化突破

四、 创意写作与可靠性的双重提升
1. 创意写作 v3 的艺术表现
2. 减少幻觉:提升基础可靠性
五、 行业趋势与未来展望




