就在OpenAI发布GPT-5.1,大谈“情商”之际,埃隆·马斯克(Elon Musk)也带着他的xAI,火速加入了这场“AI体会”之战。
就在刚刚,xAI宣告推出Grok4.1,这是对现有Grok 4模型的严重晋级,并已在X渠道和iOS和Android运用向全用户全面敞开。。官方声称,新版别在构思表达、情感互动和协同沟通方面体现尤为杰出,而且呈现错觉的概率仅为此前模型的三分之一。
更有目共睹的是,在一个揭露的“盲测”竞技场(LMArena)上,Grok 4.1的“考虑形式”版别已悄然登顶总榜榜首,乃至其“非推理”的快速形式,都打败了一切对手的“完好推理”形式。
这场出人意料的“榜首易主”,无疑为日趋白热化的AI比赛,又增添了浓重的火药味。
xAI本次发布了两个Grok 4.1模型:Grok 4.1(非推理形式)和Grok 4.1 Thinking(考虑形式)。这两个模型均可免费运用,但付费用户面对的约束更少。
官方表明,新版天性更详尽地了解隐含目的,与之对话引人入胜,也更能坚持人设的一致性。
为了优化模型的风格、品格和有用性,xAI运用前沿的署理型推理模型(agentic reasoning models)作为“奖赏模型”,在大规模环境中自主评价并迭代模型的答复。
在11月1日至14日的“静默上线”期间,xAI在实在流量进步行了盲测式的成对比较评价,成果显现,在64.78%的情况下,用户更偏好Grok 4.1。
LMArena是一个开源东西,用户都能够经过并排、盲测的方法,比较不同大言语模型的体现。在这个比赛最剧烈的“斗兽场”里,Grok 4.1取得了惊人的成果:
·Grok 4.1的“考虑形式”(代号:quasarflux)以1483 Elo的成果位列总榜榜首,抢先一切非xAI模型31分。
·Grok 4.1的“非推理形式”(代号:tensor)无需运用“考虑词元”(thinking tokens),可当即生成答复,并以1465 Elo的成果排名第二。
·更夸大的是,Grok 4.1的“非推理”形式体现,超过了一切其他模型在“完好推理形式”下的揭露排行榜成果。
·心情智能(Emotional Intelligence)为评价模型在特性与人际互动方面的发展,xAI对Grok 4.1进行了EQ-Bench3测验。这是一项由LLM作为裁判的测验,用于评价模型在自动心情智能、了解力、洞察力、共情才能和人际技术方面的体现。
·构思写作才能(Creative Writing)xAI相同测量了Grok 4.1在Creative Writing v3基准测验中的体现。在该测验中,模型应该要依据32个不同的写作提示,在3次迭代中生成答复。
快速呼应模型在装备查找东西后,虽然能敏捷给出答案,但更简单呈现事实性过错。
在Grok 4.1的后练习阶段,xAI要点降低了模型在信息查询类提示中的事实性“错觉”。
依据xAI的说法,Grok 4.1呈现错觉的概率是此前模型的三分之一,这使其成为xAI迄今为止的最佳版别之一。
为了验证这一点,xAI不仅在实在的出产流量中进行了评价,还运用了FActScore——一个包括500道关于人物传记问题的揭露基准测验。
更重要的是,谷歌(Google)正在预备发布Gemini 3.0,这可能会成为迄今为止最强壮的模型。
Grok 4.1的发布,无疑是马斯克在AI比赛中投下的一枚重要棋子。但在这场“神仙打架”的牌局中,谁能笑到最后,还远未可知。(易句)
重要赛事!11月27晚上19:30!中心5套CCTV5、CCTV5+直播节目表
抱负轿车CEO李想供认管理形式过错:全面回归勇于探索商业形式的公司形式,离别工作经理人系统
欧冠悲喜夜:拜仁1-3阿森纳 马竞2-1绝杀国米 皇马4-3 利物浦1-4
保藏!山东934所免费实践场所清单发布,中小学生课后新去处,家校共育超省心
。

