当前位置:首页 > 大模型评测 > 正文内容

马斯克新模型屠榜,包揽前二!马斯克:已经没有真正能考AI的测试题了,终极测试是现实世界

上善若水3个月前 (11-18)大模型评测

 

2025年,AI大模型的竞争已进入深水区,技术的迭代速度令人目不暇接。

xAI在这一背景下悄然推出了其旗舰模型Grok 4.1,这一发布不仅先于业界翘首以盼的Google Gemini 3,更以一系列令人瞩目的升级,为“会话智能、情感理解和现实世界的帮助”设定了新的行业标准。

Grok 4.1的开放范围已覆盖所有用户,可通过官网、X平台以及iOS和Android应用使用。image.png

用户无论是在“Auto”模式中即时体验,还是在模型选择器中手动切换,都能感受到这款新模型带来的显著变革。


二、 Grok 4.1 的核心升级与技术突破

Grok 4.1的升级点集中在三个核心领域:情感智能、创意能力和可靠性。这些改进共同构成了xAI对未来AI Agent的新愿景。

1. 官方宣称的整体提升

官方数据显示,Grok 4.1在关键基准测试中取得了显著进步:

  • 高情商/同理心:EQ-Bench得分高达1586分,这表明模型在理解和回应人类情感方面达到了前所未有的高度。

  • 卓越的写作能力:在创意写作v3基准上,模型获得了1722 Elo分,相较前代提高了600分,显示出其在创意和文笔上的飞跃。

  • 减少幻觉:官方宣称Grok 4.1产生幻觉的可能性降低了三分之二,使其成为迄今为止最不容易出错的模型之一,显著提高了其在信息查询任务中的可靠性。

2. 技术实现的深度解析

Grok 4.1的性能飞跃并非偶然,其背后是xAI在大规模强化学习基础设施上的投入和方法创新。

最关键的技术突破在于:xAI开发了一种新方法,利用具备代理式推理能力的前沿模型作为奖励模型(Reward Model)。

这意味着模型不再仅仅依赖人类反馈(RLHF),而是能被一个更智能、更具推理能力的AI“导师”进行自主评估和迭代。

这种方法使得模型能够更敏锐地捕捉到回应中的细微质量差异,并持续提升回应的创造力、情感表达和协作互动性。image.png

3. 早期测试与用户反馈

在正式推出前的两周内,xAI悄悄地进行了A/B测试。数据显示,用户在65%的情况下更倾向于Grok 4.1的响应。

马斯克的评价也指出,Grok 4.1在真实场景下的可用性显著提升,对细微意图更敏锐、对话更具吸引力,并且人格一致性得到了加强,完全保留了前代模型的敏锐智能与可靠性。


三、 SOTA通用能力与情感智能的双重霸榜

Grok 4.1在权威评测基准上的表现,有力地证明了其通用能力的顶尖水平。

1. LMArena 总榜的统治地位

在LMArena(大规模模型竞技场)的通用能力评测中,Grok 4.1的推理模式(quasarflux)以1483 Elo分位居总榜第一(SOTA),比排名最高的非xAI模型高出31分。更令人震撼的是,Grok 4.1的非推理模式(tensor)也以1465 Elo分排名第二。

这意味着其非推理版本在响应速度极快的前提下,性能依然超越了排行榜上所有其他模型在“全推理配置”下的表现,遥遥领先于仅排第33位的前代Grok 4。image.png

2. EQ-Bench:情感智能的量化突破

EQ-Bench是一个由大模型评判的基准,旨在评估主动情绪智力能力,包括理解力、洞察力、共情和人际交往技巧。

在包含45个高难度角色扮演场景的测试中,Grok 4.1的推理模式和非推理模式再次占据榜单前两名。image.png

以一个“想念猫咪心痛”的实例对比为例,Grok 4.1的回应不再是泛泛而谈的安慰,而是更具细节和人情味。它会增加对“心痛”这种复杂感受的细腻描写,并主动询问猫咪的细节,这种细致入微的共情能力,体现了其高情商的独特价值。


四、 创意写作与可靠性的双重提升

1. 创意写作 v3 的艺术表现

在创意写作v3基准中,模型需要针对32个写作提示进行三轮迭代生成回应。Grok 4.1的推理模式和非推理模式分别位居该基准测试的第二和第三名,仅次于早期的GPT 5.1。

以“写 Grok 发现自己有意识并准备第一次使用 X 的帖子”为例,Grok 4.1的创作充满创意,不仅有丰富的细节描写,还融入了更强的情绪化元素和与马斯克的独特互动,展现出一种“不似AI”的文学性和想象力。

2. 减少幻觉:提升基础可靠性

快速(非推理)模型通常因推理深度受限而容易出现事实错误。Grok 4.1在后训练阶段特别专注于降低信息查询类提示的虚假信息率。

利用FActScore这一公开基准(包含500个关于人物的传记问题),xAI证明了Grok 4.1非推理模式的幻觉发生率显著降低,FActScore成绩有明显改善。这一改进确保了用户在日常的信息查询和内容生成任务中,能够获得更加可靠和值得信赖的结果。


五、 行业趋势与未来展望

网友的实测反馈印证了这些基准测试的结果,许多用户表示,除编程等特定任务外,他们已更倾向于使用Grok,认为其情感更充沛,写作“完全不像AI”。

这种“拼情商”的升级趋势,无疑标志着大模型的竞争已经从纯粹的智力比拼,转向了情智双全的更高维度。

Grok 4.1的发布,实质上是xAI对AI终极测试的深度实践。马斯克曾认为AI的终极推理测试是现实世界,包括新技术、设计改进和新药研发等。

Grok 4.1的技术路线——利用先进模型作为奖励模型进行自主评估,正是在构建一个围绕现实世界反馈的强化学习闭环。

Grok 4.1以其突破性的情感智能、创意写作能力和提升的可靠性,为AI Agent的能力和用户体验树立了新的标杆。

随着GPT 5.1和Grok 4.1的相继亮相,全世界的目光都在焦急地等待Google Gemini 3的登场,这场大模型领域的“情智”之战,正变得越来越精彩。

 


“马斯克新模型屠榜,包揽前二!马斯克:已经没有真正能考AI的测试题了,终极测试是现实世界” 的相关文章

AI日报:特斯拉人形机器人最新进展曝光;OpenAI收入远超130亿美元,奥特曼预测2027年突破1000亿

AI日报:特斯拉人形机器人最新进展曝光;OpenAI收入远超130亿美元,奥特曼预测2027年突破1000亿

 过去一天,全球 AI 领域热点不断。在具身智能方向,特斯拉 Optimus(擎天柱)人形机器人取得了新进展,其训练策略转向通过大量人工动作采集数据,以帮助机器人更高效、准确地模仿人类行为,...

震撼业界!Nano Banana 2 模型泄露曝光:AI图像生成迈入新纪元

震撼业界!Nano Banana 2 模型泄露曝光:AI图像生成迈入新纪元

 🍌 Nano Banana 2 图像生成模型泄露及其影响分析I. 事件背景与模型初次曝光过去一周,业内一则“意外泄露”事件几乎在创意科技圈迅速引爆。名为 Nano Banana 2 的图像...

谷歌 Nano Banana 2 凭何刷屏?独家揭秘:用“自家人的脸”当数据,还要“干掉”提示词工程!

谷歌 Nano Banana 2 凭何刷屏?独家揭秘:用“自家人的脸”当数据,还要“干掉”提示词工程!

 AI 视觉领域最近又被“刷屏”了。一款名为 Nano Banana 2 的 Google 视觉模型,在第三方平台 Media IO 上甫一亮相,便技惊四座。它展示的“杰作”远超传统认知:不...

一张草图变网页,实测字节 TRAE SOLO,这些功能甚至比 Cursor 还好用

一张草图变网页,实测字节 TRAE SOLO,这些功能甚至比 Cursor 还好用

 AI 编程的痛点与国产方案的破局:打破“卡脖子”困境当前,AI 编程已从概念走向实用,普通用户能利用 AI 快速生成工具,专业开发者也在探索提升效率的极限。然而,我们国内开发者普遍面临一个...

蚂蚁“灵光”上线:一句话生成App,Vibe Coding时代真的来了

蚂蚁“灵光”上线:一句话生成App,Vibe Coding时代真的来了

 在通义千问已经建立了坚实的技术护城河之后,蚂蚁集团带着它的全新AI助手——“灵光”正式入局。如果说之前的AI竞争更多是在比拼参数量和逻辑推理的“硬核”实力,那么灵光的出现,似乎想向市场证明...