Компании потратили миллионы на ИИ — а получили дорогой генератор чепухи. Snowflake знает почему

leer en español

Компании потратили миллионы на ИИ — а получили дорогой генератор чепухи. Snowflake знает почему

Ваш ИИ-агент тупит. Не потому что плохой. Потому что вы не знаете, где у вас вообще лежат данные.

image

Snowflake считает, что главный тормоз для ИИ-агентов сегодня связан не с самими моделями, а с данными, на которых эти агенты работают. Если данные разбросаны по разным системам, дублируются, открываются через несовместимые инструменты или плохо управляются, агент начинает ошибаться, тратить лишние токены и получать неполный контекст. Именно поэтому компания сейчас делает ставку на открытые стандарты и совместимость между разными платформами.

Такую позицию озвучил директор по управлению продуктами Snowflake Джеймс Роуленд-Джонс. По его словам, для эпохи ИИ важнее всего не просто хранить данные, а держать их в форме, с которой можно работать быстро, прозрачно и без бесконечного копирования. Чем больше в инфраструктуре лишних копий и разрозненных хранилищ, тем труднее построить систему, где ИИ действительно опирается на одни и те же актуальные данные.

После саммита Apache Iceberg Snowflake подробнее рассказала о том, как видит дальнейшее развитие своей платформы. Компания хочет выстроить совместимый стек вокруг Apache Iceberg — открытого табличного формата, который позволяет нескольким системам работать с одними и теми же данными. Смысл в том, чтобы не перегонять таблицы из одного движка в другой и не плодить копии ради каждой новой задачи.

Агенту нужен не абстрактно большой объем информации, а понятный и согласованный контекст. Если в системе лежат несколько версий одних и тех же данных, если таблицы обновляются в разное время и если правила доступа зависят от того, через какой движок пользователь зашел, качество ответов и действий агента быстро падает.

В компании считают, что уменьшить затраты на токены и одновременно улучшить работу ИИ можно только в одном случае: когда данные доступны через единый слой управления. Тогда агент получает не случайный набор фрагментов, а одну согласованную картину. Для корпоративных систем это особенно важно, потому что ИИ все чаще используют не для одиночных запросов, а для действий над рабочими данными — от аналитики до автоматизации процессов.

Но вместе с более широким доступом к данным растет и нагрузка на уровень контроля. Если разные системы и агенты получают прямой доступ к хранилищу, нужно заранее определить, кто именно может читать, кто может писать, а кто только запускать вычисления поверх данных. Роуленд-Джонс отдельно подчеркивает, что открыть доступ недостаточно. Нужны еще правила, которые не дадут этому доступу превратиться в беспорядок. Причем если компания открывает прямой доступ к данным, она должна одновременно выстроить понятные ограничения, права и механизмы контроля.

Техническую основу для такой схемы Snowflake видит в стандарте Iceberg REST catalog. Компания описывает его как нейтральный по отношению к поставщикам способ организовать доступ к данным. В этой модели таблицы лежат в открытом формате, а подключаться к ним могут разные вычислительные движки без полной зависимости от одного конкретного вендора.

Snowflake также делает ставку на сочетание нескольких открытых компонентов. Для хранения и структуры таблиц используется Apache Iceberg. Для доступа — Iceberg REST. Для управления и каталогизации — решения на базе Apache Polaris. В результате компания хочет получить архитектуру, где одни и те же данные можно читать и изменять через разные движки, не теряя при этом общего контроля над правилами доступа.

Для клиентов практическая польза здесь довольно простая. Таблицы могут храниться, например, в Amazon S3 или другом объектном хранилище, а работать с ними смогут и инструменты Snowflake, и сторонние системы, включая Apache Spark. Клиенту не придется выбирать между управлением со стороны Snowflake и прямым доступом из других платформ. Именно такую схему компания и пытается продвигать.

Сама Snowflake называет этот подход совместимостью без компромиссов. Формулировка маркетинговая, но смысл понятен: компания хочет сохранить за собой слой управления, каталогов и политик доступа, при этом не запирая клиента внутри собственного вычислительного контура. Для рынка данных это важный аргумент, потому что многие компании давно устали от жесткой зависимости от одного поставщика.

В дорожной карте Snowflake уже обозначены следующие шаги. Компания собирается довести до общедоступного статуса поддержку Iceberg v3, развивать совместимое чтение и запись через Snowflake Horizon Catalog для любых движков, а также предложить управляемое хранилище для таблиц Iceberg. То есть речь идет не о точечной поддержке формата, а о попытке сделать его одной из основных частей всей платформы.

Отдельно Snowflake подчеркивает, что не хочет только использовать результаты сообщества с открытым кодом. По словам Роуленд-Джонса, компания намерена участвовать в развитии Iceberg и считает, что работа с open source должна быть двусторонней. Для крупных поставщиков такой тезис важен еще и репутационно: рынок внимательно смотрит, кто действительно вкладывается в развитие стандартов, а кто просто использует их как удобную вывеску.

Поддержка Iceberg v3 у компании уже находится в стадии публичного предварительного тестирования. Представители утверждают, что по охвату возможностей Iceberg v3 их реализация сейчас одна из самых широких среди вендоров.