Новый каркас для памяти объединяет мир заметок и больших моделей.
Современные языковые модели остаются «без памяти»: без внешних инструментов и специальных надстроек они не умеют запоминать новые факты и навыки без дополнительного обучения. Декларативные знания по-прежнему формируются в основном на этапе предобучения. Команда Dria предлагает практичное решение этой проблемы — компактного агента с внешней памятью, построенного вокруг «obsidian-подобной» файловой базы и набора инструментов для работы с ней. Поверх такого каркаса исследователи обучили модель Qwen3-4B-Thinking-2507 с помощью метода GSPO, сфокусировавшись на трёх ключевых умениях: извлечение нужной информации из памяти в нужный момент, обновление памяти новыми данными и запрос уточнений, если пользовательский запрос неясен или противоречит уже сохранённому. Ответы модели структурируются тегами <think>, <python> и <reply>, где код из блока <python> выполняется в «песочнице», а результат попадает обратно в диалог — получается замкнутый агентный цикл.
Память организована как набор Markdown-файлов с внутренними ссылками в стиле Obsidian: профиль пользователя и связанные с ним сущности лежат в отдельных карточках, на которые ссылаются по фиксированному формату. Агент умеет создавать, читать, обновлять и удалять файлы и каталоги, проверять наличие путей, оценивать объём памяти и даже переходить по ссылкам. В демонстрационном сценарии модель находит сведения о работодателе в «карточке» пользователя, понимает, что точной должности нет, запрашивает уточнение и затем аккуратно вносит новую строку в профиль.
Чтобы проверить, насколько такой подход работает в реальных задачах, авторы собрали собственный бенчмарк md-memory-bench из 57 ручных кейсов разной сложности — от личного помощника до поддержки клиентов и менеджмента проектов. Оценка проводилась через «LLM-as-a-Judge» на базе модели OpenAI o3: для извлечения проверяли полноту и уместность ответа, для «фильтра» — корректность частичного или полного сокрытия чувствительных данных, для обновления — успешность записи и последующего чтения новых сведений, для уточнения — наличие грамотного вопроса. По совокупности метрик новый mem-agent обошёл базовый Qwen на 35,7% и уступил лишь крупной Qwen3-235B-Thinking. Любопытные расхождения заметны в категориях «обновление» и «фильтр»: например, у некоторых крупных проприетарных моделей результаты оказались ниже ожиданий, а дообученная 4-миллиардная версия Dria показала 72,7% в обновлении и 91,7% в фильтрации.
Практическое применение поддержано компактными сборками: MLX-вариант модели квантован до 8- и 4-бит, причём 4-битная версия объёмом около 2 ГБ почти не теряет в качестве и набирает 76,8% по общей оценке. Поверх неё разработан MCP-сервер: любой совместимый ИИ может подключиться и получить «долгоиграющую» память без переобучения, в том числе через консольный клиент chat_cli.py. Авторы обещают в ближайшую неделю выложить полный технический отчёт с кодом генерации данных, обучающим пайплайном и скриптами для бенчмарка, а сами модели уже доступны в коллекции на Hugging Face.