#閒聊 Grok 4.1 推出!馬斯克插旗成功?直接衝上 LMArena 第一名!

傳說中能讓前端工程師直接失業 ( ? ) 的 Gemini 3.0 千呼萬喚不出來。Google 遲遲不亮牌,競爭對手們或許是感到壓力山大,OpenAI 率先發布 GPT-5.1 搶下話題灘頭堡,沒幾天後馬斯克也祭出 Grok 4.1,在 LMArena 跑分上痛宰 Gemini 2.5 Pro。大家都在搶在 Gemini 3.0 發表前先插旗、先站穩位置、先宣布「我才是最強」。 Grok 4.1 摘要介紹: 1. 兩種模型雙霸榜 現在經常被用來比較 LLM 的 LMArena Text Arena 排行榜上: Grok 4.1 Thinking (思考模式):1483 Elo,第 1 名 Grok 4.1 (快速模式):1465 Elo,第 2 名 暴力輾壓其他家 AI 有趣的是,Grok 4 之前整體排名大概還在 30 名外,現在 4.1 直接跳到榜首
megapx
2. 情緒智商:EQ 基準測試直接衝到第一名 這次 xAI 很強調 Grok 4.1 的「情緒智商」。在 EQ-Bench3 (測情緒智商、同理心、人際互動的基準) 上,有第三方整理出這樣的分數表:
megapx
也就是說,新一代 Grok 4.1 不只是「有 EQ」,而是直接站在 EQ 榜的頂端,比上一代 Grok 4 高了 300 多分。 3. 幻覺率:從 12% 降到 4% 左右 所謂「幻覺」就是 AI 一本正經胡說八道。這次 xAI 特別針對「資訊查詢類問題」做了訓練。有人實測出 Grok 4 幻覺率約 12.09%,Grok 4.1 降到 4.22%,大約少了 65%,也符合 xAI 對外聲稱的「降到前一代的 1/3 左右」。
megapx
4. 創意寫作:分數拉到 1700+ Elo 在 Creative Writing v3 創意寫作基準上,有整理指出 Grok 4.1 的 Elo 大概在 1721.9 左右,是目前創意寫作能力最頂的模型之一。意即給予同樣的 prompt,4.1 寫出來的故事情緒會更飽滿、角色更有個性,也比較不會寫一寫就崩壞。
megapx
5. 互動體驗:不再那麼「AI 教科書口氣」 xAI 在官方文章裡說他們把大量強化學習用在: - 風格 (Style) - 人格一致性 (Personality) - 助益性 (Helpfulness) - 對齊性 (Alignment)
megapx
參考文章與資料:
如果說 GPT-5.1 是走「更穩、更可靠」路線,那 Grok 4.1 就是把「人味、EQ、創意、少亂講」這幾個條件一次拉滿的版本。至於傳說中如神一般 (多半是過度吹捧啦) 的 Gemini 3.0 是否一登場就會把上述新模型都當場變成拖把?或許不用太久我們就能見識到。 我還在多方測試 Grok 4.1,但目前測試用來處理長篇小說文本確實比先前的版本 (尤其是跟 Grok 4 Fast 比) 好很多,而且回應跟 Grok 3 一樣光速。歡迎大家分享心得。
愛心
驚訝
19
14
全部留言