Внутри ИИ нашли «парламент разумов» — субличности спорят, голосуют и проверяют друг друга, пока не найдут правильный ответ

Внутри ИИ нашли «парламент разумов» — субличности спорят, голосуют и проверяют друг друга, пока не найдут правильный ответ

Если у людей истина рождается в споре… почему бы машинам не использовать это?

image

Команда исследователей из Google, Чикагского университета и Института Санта-Фе переосмыслила один из ключевых вопросов в области искусственного интеллекта: почему большие языковые модели всё лучше справляются со сложными задачами рассуждения. Речь идёт не о генерации текста как таковой, а о способности последовательно анализировать проблему, проверять предположения, рассматривать альтернативы и выстраивать логическую цепочку, ведущую к корректному ответу. Такие навыки критически важны для математики, логики и задач планирования.

Долгое время считалось, что прогресс в этих областях связан главным образом с тем, что модели «думают дольше», то есть генерируют более длинные цепочки рассуждений. Однако авторы новой работы показывают, что одного увеличения длины недостаточно. Наиболее успешные модели демонстрируют поведение, напоминающее диалог внутри системы, когда разные варианты решения фактически проверяют и корректируют друг друга.

Учёные изучили цепочки рассуждений нескольких современных моделей, включая DeepSeek-R1 и QwQ-32B, и сравнили их с более традиционными системами, обученными без усиленных методов. Для анализа использовались автоматические инструменты, позволяющие выявлять в тексте элементы, похожие на внутренние вопросы, смену точки зрения и сопоставление альтернатив. В типичном примере модель сначала формулирует исходный подход, затем ставит его под сомнение, рассматривает другие варианты и лишь после этого приходит к итоговому выводу.

Выяснилось, что у моделей с усиленным обучением структура рассуждений заметно сложнее. В их ответах гораздо чаще встречаются фрагменты, напоминающие размышление вслух: система возвращается к предыдущим шагам, уточняет исходные условия и проверяет промежуточные выводы. В более простых моделях рассуждение, как правило, идёт по одной линии без попыток самопроверки.

Этот эффект особенно заметен при решении трудных задач. Когда нейросеть сталкивается с нетривиальной проблемой, число таких внутренних шагов резко увеличивается. Вместо прямого движения к ответу модель перебирает несколько возможных подходов, оценивает их и отбрасывает менее удачные. При простых запросах подобная многослойная логика проявляется значительно слабее.

Авторы также показали, что внутри рассуждений можно выделить разные типы логических ходов. В одних местах модель уточняет условия задачи, в других выдвигает предположения, а иногда прямо отказывается от ранее сделанного вывода. В системах с продвинутым обучением эти элементы распределены более равномерно и образуют связный процесс. В базовых моделях рассуждение чаще выглядит как цепочка утверждений без пересмотра уже принятых решений.

Чтобы проверить, насколько такая структура влияет на качество ответов, исследователи провели серию контролируемых экспериментов. В одних случаях признаки внутреннего обсуждения усиливали, в других — намеренно подавляли. Когда модель поощряли рассуждать в разветвлённом режиме, точность решений на сложных аналитических задачах заметно возрастала. При ослаблении этого механизма качество ответов снижалось, несмотря на неизменные исходные данные.

Из этих результатов следует, что успех определяется не длиной рассуждений, а их организацией. ИИ работает надёжнее, когда внутри системы сосуществуют несколько конкурирующих вариантов решения, которые проверяют друг друга. Такой процесс больше напоминает коллективное обсуждение, чем линейное движение к ответу.

Этот вывод меняет привычное представление о том, как формируются сложные способности рассуждения у ИИ. Ключевую роль играет не объём вычислений и не количество шагов, а наличие внутренней структуры с обратной связью. По мнению авторов, именно такие модели, способные рассматривать задачу с разных сторон и пересматривать промежуточные выводы, лучше всего подходят для анализа, планирования и принятия решений.