Хорошие новости: ваш цифровой двойник готов. Плохие: он тупее оригинала

Хорошие новости: ваш цифровой двойник готов. Плохие: он тупее оригинала

Языковые модели строят из себя экспертов. Пока не задашь вопрос, который требует мозгов.

image

Когда разговор заходит о различиях между научной фантастикой и фэнтези, среди технически подкованных людей начинается настоящая словесная дуэль — вежливая, но бесконечная. У каждого свой взгляд, однозначного ответа не существует, и, возможно, спор продолжится даже после тепловой смерти Вселенной. Но несмотря на всю абсурдность попытки провести чёткую границу, в одном случае подобное размышление действительно может быть полезным — когда речь заходит о хайпе в ИТ-индустрии.

В последние месяцы особое внимание достаётся идее создания цифровых двойников . Предлагается, чтобы специалисты по информационным технологиям создавали свои «агентные копии» — условно разумных помощников, способных взять на себя рутину, позволяя живому человеку сосредоточиться на более важных задачах. Звучит, как мечта? Или как подготовка к катастрофе в духе «Фантазии» Диснея, где Ученик чародея теряет контроль над заклинанием? На деле этот концепт порождает больше вопросов, чем ответов. Например, если цифровой двойник что-то напортачит — кто за это отвечает? Где заканчивается «трудоёмкая рутина» и начинается «работа»? А если сотрудник увольняется — кому теперь принадлежит созданная им копия?

На самом деле идея не нова. В середине 1980-х годов в ИТ-среде уже был подобный энтузиазм, только называлось это « экспертные системы ». Тогдашние оптимисты хотели объединить популярный язык программирования Lisp — специально созданный для работы с длинными цепочками концептуальных данных — с алгоритмами, имитирующими мышление специалистов. Миллионы долларов влиты, амбиции зашкаливают, журналисты трубят о рождении настоящего ИИ. Только вот ИИ так и не родился.

Дело было вовсе не в технической отсталости той эпохи. Наоборот, компьютеры быстро эволюционировали, закон Мура работал на полную мощность, финансирование поступало щедро. Однако основная проблема заключалась в непостижимости человеческого мышления. Люди не работают как таблицы и графы. Экспертность нельзя просто «выкачать» из мозга и записать в алгоритм. Именно поэтому даже после пятнадцати лет учёбы новички редко сразу становятся полноценными профессионалами.

Современные попытки повторить этот подход с помощью больших языковых моделей (LLM) и их логических собратьев — LRM (Large Reasoning Models) — приводят к тем же трудностям. Даже если отставить в сторону всю лирику, технологии пока не могут предложить алгоритм, который бы действительно воспроизводил способ мышления, принимающий во внимание опыт, контекст и здравый смысл.

Тем не менее индустрия не сдаётся. Вместо магических заклинаний теперь надеются на алгоритмы масштабируемого рассуждения. Apple недавно опубликовала исследование , в котором сравнивается эффективность LLM и LRM при решении логических задач разной сложности. В качестве тестов использовались классические головоломки, вроде башни Ханой и логистической дилеммы «лиса, куры и мешок зерна».

Результаты оказались неоднозначными. На простых задачах LLM зачастую показывали лучшие результаты, чем их «продвинутые» собратья. Модели с усиленным логическим блоком действительно проявляли себя лучше на задачах средней сложности. Но при переходе к по-настоящему трудным кейсам обе категории ИИ теряли ориентиры. В некоторых случаях LRM не просто давали ошибочные ответы — они буквально переставали предлагать хоть какие-то осмысленные решения вовсе. Даже если им заранее предоставлялись алгоритмы, итог не улучшался.

Всё это указывает на то, что у текущих ИИ существует предел вычислительной «мотивации», не зависящий от мощности железа или объёма данных. Словно бы по достижении определённой точки интеллектуального напряжения, модель просто сдаётся.

Также было замечено, что разные задачи вызывают совершенно разный отклик у тех же самых моделей. Это означает, что даже если ИИ хорошо справляется с одной логической задачей, нельзя автоматически ожидать того же при работе с другой, пусть даже схожей по типу. Общие способности к выводу и логике, как выяснилось, сильно переоценены.

Хотя исследование отражает только один срез текущих реалий, оно далеко не уникально. Если углубиться в список источников, приведённых в научной работе, можно найти десятки других примеров, демонстрирующих те же проблемы.

Другая тревожная тенденция — это явление «коллапса модели» из-за загрязнённых данных. ИИ продолжает «галлюцинировать» , и пока неизвестно, как надёжно справиться с этим эффектом. Это фундаментальные ограничения, которые нельзя просто пересидеть, дожидаясь появления нового поколения LLM.

Всё это подрывает популярное представление об ИИ как об инструменте, который с каждым месяцем становится точнее, умнее и полезнее. На деле это — иллюзия. Технология создаёт образ разумной сущности, но за маской — хаотичный набор эвристик, работающий только в пределах предсказуемого контекста. А обманчивое очеловечивание, которое так охотно используют разработчики, может иметь опасные последствия. То, что кажется симпатичным помощником, на деле может стать источником системной ошибки с непредсказуемыми последствиями.

Парадокс в том, что именно специалисты в сфере ИТ первыми ощущают ограничения ИИ на практике. В этом смысле они — те самые «канарейки в шахте», чьё состояние сигнализирует о скрытых угрозах. В других отраслях может не быть такого уровня контроля качества и взаимосвязи между функциональностью и надёжностью решений.

Поэтому именно инженеры, архитекторы систем и разработчики сегодня должны быть самыми голосистыми критиками происходящего. Не ради сдерживания прогресса, а ради того, чтобы он не превратился в саморазрушение. Им лучше других известно, где заканчивается наука и начинается сказка.

Антивирус для мозга!

Лечим цифровую неграмотность без побочных эффектов

Активируйте защиту — подпишитесь