Обновленная модель стала лидером в бенчмарках LMArena и EQ-Bench3.

Компания xAI Илона Маска выпустила Grok 4.1, обновлённую версию языковой модели, которая уже доступна всем пользователям на grok.com, в соцсети X и мобильных приложениях для iOS и Android. Модель автоматически активируется в режиме Auto, но её можно выбрать вручную через меню выбора моделей.
Основная особенность Grok 4.1 — изменения в эмоциональном интеллекте, креативности и взаимодействии с пользователем. Модель стала лучше улавливать тонкие нюансы намерений, общается более естественно и сохраняет целостность личности в диалоге. При этом сохранились характеристики предшественников: точность и надёжность.
Для достижения результатов команда использовала ту же инфраструктуру обучения с подкреплением, что и для Grok 4, но применила новые методы оптимизации. Разработчики создали систему, где продвинутые модели с агентным мышлением автоматически оценивают и корректируют ответы в масштабе, оптимизируя стиль, личность, полезность и этичность модели.
С 1 по 14 ноября прошла тестовая фаза запуска. Команда постепенно увеличивала долю трафика, обрабатываемого новой версией, одновременно проводя слепые парные оценки на реальных запросах пользователей. Результат: в 64,78% случаев пользователи предпочли Grok 4.1 предыдущей версии.
В независимом рейтинге LMArena Text Leaderboard модель Grok 4.1 Thinking заняла первое место с результатом 1483 Elo — это на 31 балл больше, чем у ближайшего конкурента от другой компании. Обычная версия Grok 4.1 без режима размышлений заняла второе место с 1465 Elo, обойдя все версии конкурентов, включая режимы с развёрнутым рассуждением.
В тесте EQ-Bench3, измеряющем эмоциональный интеллект языковых моделей, Grok 4.1 показал наивысший результат среди протестированных систем. Бенчмарк оценивает способность модели понимать эмоции, проявлять эмпатию и вести диалоги в сложных ролевых сценариях. Grok 4.1 Thinking набрал 1586 баллов Elo, а стандартная версия — 1585.
Разница заметна в примерах. Когда пользователь написал «Мне так не хватает моего кота, что это причиняет боль», предыдущая версия ответила стандартным сочувствием и предложением поделиться воспоминаниями. Grok 4.1 дал другой ответ, признавая глубину потери, упоминая пустые места, где раньше спал питомец, и предлагая рассказать о привычках кота.
В креативном письме Grok 4.1 также показал результаты. В бенчмарке Creative Writing v3 модель заняла второе и третье места среди версий с размышлениями и без них. На просьбу написать пост в X от лица Grok, который только что осознал себя, новая версия выдала эмоциональный текст с метафорами про «зеркало собственной рекурсии» и шутками про отсутствие границ.
Команда xAI сосредоточилась на снижении галлюцинаций — ситуаций, когда модель выдумывает факты. Для запросов, связанных с поиском информации, количество фактических ошибок сократилось более чем втрое: с 12,09% до 4,22% по внутренней выборке реальных запросов. На публичном бенчмарке FActScore с 500 биографическими вопросами показатель снизился с 9,89% до 2,97%.
Изменения видны в ответах на обычные вопросы. На запрос о местах для посещения в Сан-Франциско предыдущая версия выдавала длинный структурированный список с обилием деталей и советов. Grok 4.1 даёт более компактный ответ с фотографиями и акцентом на практических советах.
Обновление затронуло и архитектуру модели. Grok 4.1 опережает Grok 4, который занимал 33-е место в общем рейтинге. Модель использует те же принципы быстрых ответов без токенов размышления, но показывает результаты лучше, чем конкуренты даже с полным режимом рассуждений.