#閒聊 Grok 4.1 推出！馬斯克插旗成功？直接衝上 LMArena 第一名！

傳說中能讓前端工程師直接失業 ( ? ) 的 Gemini 3.0 千呼萬喚不出來。Google 遲遲不亮牌，競爭對手們或許是感到壓力山大，OpenAI 率先發布 GPT-5.1 搶下話題灘頭堡，沒幾天後馬斯克也祭出 Grok 4.1，在 LMArena 跑分上痛宰 Gemini 2.5 Pro。大家都在搶在 Gemini 3.0 發表前先插旗、先站穩位置、先宣布「我才是最強」。 Grok 4.1 摘要介紹： 1. 兩種模型雙霸榜現在經常被用來比較 LLM 的 LMArena Text Arena 排行榜上： Grok 4.1 Thinking (思考模式)：1483 Elo，第 1 名 Grok 4.1 (快速模式)：1465 Elo，第 2 名暴力輾壓其他家 AI 有趣的是，Grok 4 之前整體排名大概還在 30 名外，現在 4.1 直接跳到榜首

2. 情緒智商：EQ 基準測試直接衝到第一名這次 xAI 很強調 Grok 4.1 的「情緒智商」。在 EQ-Bench3 (測情緒智商、同理心、人際互動的基準) 上，有第三方整理出這樣的分數表：

也就是說，新一代 Grok 4.1 不只是「有 EQ」，而是直接站在 EQ 榜的頂端，比上一代 Grok 4 高了 300 多分。 3. 幻覺率：從 12% 降到 4% 左右所謂「幻覺」就是 AI 一本正經胡說八道。這次 xAI 特別針對「資訊查詢類問題」做了訓練。有人實測出 Grok 4 幻覺率約 12.09%，Grok 4.1 降到 4.22%，大約少了 65%，也符合 xAI 對外聲稱的「降到前一代的 1/3 左右」。

4. 創意寫作：分數拉到 1700+ Elo 在 Creative Writing v3 創意寫作基準上，有整理指出 Grok 4.1 的 Elo 大概在 1721.9 左右，是目前創意寫作能力最頂的模型之一。意即給予同樣的 prompt，4.1 寫出來的故事情緒會更飽滿、角色更有個性，也比較不會寫一寫就崩壞。

5. 互動體驗：不再那麼「AI 教科書口氣」 xAI 在官方文章裡說他們把大量強化學習用在： - 風格 (Style) - 人格一致性 (Personality) - 助益性 (Helpfulness) - 對齊性 (Alignment)

參考文章與資料：

如果說 GPT-5.1 是走「更穩、更可靠」路線，那 Grok 4.1 就是把「人味、EQ、創意、少亂講」這幾個條件一次拉滿的版本。至於傳說中如神一般 (多半是過度吹捧啦) 的 Gemini 3.0 是否一登場就會把上述新模型都當場變成拖把？或許不用太久我們就能見識到。我還在多方測試 Grok 4.1，但目前測試用來處理長篇小說文本確實比先前的版本 (尤其是跟 Grok 4 Fast 比) 好很多，而且回應跟 Grok 3 一樣光速。歡迎大家分享心得。