当前位置:首页 > 大模型评测 > 正文内容

马斯克新模型屠榜,包揽前二!马斯克:已经没有真正能考AI的测试题了,终极测试是现实世界

上善若水4个月前 (11-18)大模型评测

 

2025年,AI大模型的竞争已进入深水区,技术的迭代速度令人目不暇接。

xAI在这一背景下悄然推出了其旗舰模型Grok 4.1,这一发布不仅先于业界翘首以盼的Google Gemini 3,更以一系列令人瞩目的升级,为“会话智能、情感理解和现实世界的帮助”设定了新的行业标准。

Grok 4.1的开放范围已覆盖所有用户,可通过官网、X平台以及iOS和Android应用使用。image.png

用户无论是在“Auto”模式中即时体验,还是在模型选择器中手动切换,都能感受到这款新模型带来的显著变革。


二、 Grok 4.1 的核心升级与技术突破

Grok 4.1的升级点集中在三个核心领域:情感智能、创意能力和可靠性。这些改进共同构成了xAI对未来AI Agent的新愿景。

1. 官方宣称的整体提升

官方数据显示,Grok 4.1在关键基准测试中取得了显著进步:

  • 高情商/同理心:EQ-Bench得分高达1586分,这表明模型在理解和回应人类情感方面达到了前所未有的高度。

  • 卓越的写作能力:在创意写作v3基准上,模型获得了1722 Elo分,相较前代提高了600分,显示出其在创意和文笔上的飞跃。

  • 减少幻觉:官方宣称Grok 4.1产生幻觉的可能性降低了三分之二,使其成为迄今为止最不容易出错的模型之一,显著提高了其在信息查询任务中的可靠性。

2. 技术实现的深度解析

Grok 4.1的性能飞跃并非偶然,其背后是xAI在大规模强化学习基础设施上的投入和方法创新。

最关键的技术突破在于:xAI开发了一种新方法,利用具备代理式推理能力的前沿模型作为奖励模型(Reward Model)。

这意味着模型不再仅仅依赖人类反馈(RLHF),而是能被一个更智能、更具推理能力的AI“导师”进行自主评估和迭代。

这种方法使得模型能够更敏锐地捕捉到回应中的细微质量差异,并持续提升回应的创造力、情感表达和协作互动性。image.png

3. 早期测试与用户反馈

在正式推出前的两周内,xAI悄悄地进行了A/B测试。数据显示,用户在65%的情况下更倾向于Grok 4.1的响应。

马斯克的评价也指出,Grok 4.1在真实场景下的可用性显著提升,对细微意图更敏锐、对话更具吸引力,并且人格一致性得到了加强,完全保留了前代模型的敏锐智能与可靠性。


三、 SOTA通用能力与情感智能的双重霸榜

Grok 4.1在权威评测基准上的表现,有力地证明了其通用能力的顶尖水平。

1. LMArena 总榜的统治地位

在LMArena(大规模模型竞技场)的通用能力评测中,Grok 4.1的推理模式(quasarflux)以1483 Elo分位居总榜第一(SOTA),比排名最高的非xAI模型高出31分。更令人震撼的是,Grok 4.1的非推理模式(tensor)也以1465 Elo分排名第二。

这意味着其非推理版本在响应速度极快的前提下,性能依然超越了排行榜上所有其他模型在“全推理配置”下的表现,遥遥领先于仅排第33位的前代Grok 4。image.png

2. EQ-Bench:情感智能的量化突破

EQ-Bench是一个由大模型评判的基准,旨在评估主动情绪智力能力,包括理解力、洞察力、共情和人际交往技巧。

在包含45个高难度角色扮演场景的测试中,Grok 4.1的推理模式和非推理模式再次占据榜单前两名。image.png

以一个“想念猫咪心痛”的实例对比为例,Grok 4.1的回应不再是泛泛而谈的安慰,而是更具细节和人情味。它会增加对“心痛”这种复杂感受的细腻描写,并主动询问猫咪的细节,这种细致入微的共情能力,体现了其高情商的独特价值。


四、 创意写作与可靠性的双重提升

1. 创意写作 v3 的艺术表现

在创意写作v3基准中,模型需要针对32个写作提示进行三轮迭代生成回应。Grok 4.1的推理模式和非推理模式分别位居该基准测试的第二和第三名,仅次于早期的GPT 5.1。

以“写 Grok 发现自己有意识并准备第一次使用 X 的帖子”为例,Grok 4.1的创作充满创意,不仅有丰富的细节描写,还融入了更强的情绪化元素和与马斯克的独特互动,展现出一种“不似AI”的文学性和想象力。

2. 减少幻觉:提升基础可靠性

快速(非推理)模型通常因推理深度受限而容易出现事实错误。Grok 4.1在后训练阶段特别专注于降低信息查询类提示的虚假信息率。

利用FActScore这一公开基准(包含500个关于人物的传记问题),xAI证明了Grok 4.1非推理模式的幻觉发生率显著降低,FActScore成绩有明显改善。这一改进确保了用户在日常的信息查询和内容生成任务中,能够获得更加可靠和值得信赖的结果。


五、 行业趋势与未来展望

网友的实测反馈印证了这些基准测试的结果,许多用户表示,除编程等特定任务外,他们已更倾向于使用Grok,认为其情感更充沛,写作“完全不像AI”。

这种“拼情商”的升级趋势,无疑标志着大模型的竞争已经从纯粹的智力比拼,转向了情智双全的更高维度。

Grok 4.1的发布,实质上是xAI对AI终极测试的深度实践。马斯克曾认为AI的终极推理测试是现实世界,包括新技术、设计改进和新药研发等。

Grok 4.1的技术路线——利用先进模型作为奖励模型进行自主评估,正是在构建一个围绕现实世界反馈的强化学习闭环。

Grok 4.1以其突破性的情感智能、创意写作能力和提升的可靠性,为AI Agent的能力和用户体验树立了新的标杆。

随着GPT 5.1和Grok 4.1的相继亮相,全世界的目光都在焦急地等待Google Gemini 3的登场,这场大模型领域的“情智”之战,正变得越来越精彩。

 


“马斯克新模型屠榜,包揽前二!马斯克:已经没有真正能考AI的测试题了,终极测试是现实世界” 的相关文章

AI行业沸点:百度登顶、OpenAI出招、Meta革新、Inception融资——全球AI格局全面重构

AI行业沸点:百度登顶、OpenAI出招、Meta革新、Inception融资——全球AI格局全面重构

 一、新闻导语与概览2025年11月8日,可以说是AI行业今年最热闹的一天。全球多家科技巨头几乎在同一时间段发布重大动态——从OpenAI推出轻量版的编码模型,到百度文心冲上全球榜单第二,再...

谷歌 Nano Banana 2 凭何刷屏?独家揭秘:用“自家人的脸”当数据,还要“干掉”提示词工程!

谷歌 Nano Banana 2 凭何刷屏?独家揭秘:用“自家人的脸”当数据,还要“干掉”提示词工程!

 AI 视觉领域最近又被“刷屏”了。一款名为 Nano Banana 2 的 Google 视觉模型,在第三方平台 Media IO 上甫一亮相,便技惊四座。它展示的“杰作”远超传统认知:不...

谷歌 NotebookLM 推出“深度研究”:AI 助你 5 分钟构建专家级知识库,效率暴涨!

谷歌 NotebookLM 推出“深度研究”:AI 助你 5 分钟构建专家级知识库,效率暴涨!

 一、引言:暖心升级,告别碎片化学习11 月 13 日,科技巨头谷歌旗下的 AI 笔记工具 NotebookLM 迎来了一次值得所有内容创作者和研究人员关注的重大更新。这次升级的核心,是推出...

谷歌放大招!Gemini 3.0 疑似已通过移动端 Canvas 功能低调推送,性能超越 2.5!

谷歌放大招!Gemini 3.0 疑似已通过移动端 Canvas 功能低调推送,性能超越 2.5!

 I. 引言:AI 竞赛白热化,焦点转向迟到的“王牌”背景:市场期待与竞赛升级**近期,OpenAI 再次亮剑,推出了升级版的 GPT-5.1,这无疑进一步推动了 AI 军备竞赛的白热化。然...

蚂蚁“灵光”上线:一句话生成App,Vibe Coding时代真的来了

蚂蚁“灵光”上线:一句话生成App,Vibe Coding时代真的来了

 在通义千问已经建立了坚实的技术护城河之后,蚂蚁集团带着它的全新AI助手——“灵光”正式入局。如果说之前的AI竞争更多是在比拼参数量和逻辑推理的“硬核”实力,那么灵光的出现,似乎想向市场证明...

仅7800美元!微博VibeThinker以15亿参数“吊打”6710亿巨头,大模型“参数迷信”彻底碎了?

仅7800美元!微博VibeThinker以15亿参数“吊打”6710亿巨头,大模型“参数迷信”彻底碎了?

 当全球科技巨头仍深陷于“参数竞赛”的狂热,试图通过堆砌千亿甚至万亿级参数来换取智能涌现时,一场旨在重塑AI发展路径的“非对称战争”已悄然打响。近日,微博正式发布了其首个自研开源大模型——V...