Компании потратили миллионы на ИИ — а получили дорогой генератор чепухи. Snowflake знает почему

Ваш ИИ-агент тупит. Не потому что плохой. Потому что вы не знаете, где у вас вообще лежат данные.

Snowflake считает, что главный тормоз для ИИ-агентов сегодня связан не с самими моделями, а с данными, на которых эти агенты работают. Если данные разбросаны по разным системам, дублируются, открываются через несовместимые инструменты или плохо управляются, агент начинает ошибаться, тратить лишние токены и получать неполный контекст. Именно поэтому компания сейчас делает ставку на открытые стандарты и совместимость между разными платформами.

Такую позицию озвучил директор по управлению продуктами Snowflake Джеймс Роуленд-Джонс. По его словам, для эпохи ИИ важнее всего не просто хранить данные, а держать их в форме, с которой можно работать быстро, прозрачно и без бесконечного копирования. Чем больше в инфраструктуре лишних копий и разрозненных хранилищ, тем труднее построить систему, где ИИ действительно опирается на одни и те же актуальные данные.

После саммита Apache Iceberg Snowflake подробнее рассказала о том, как видит дальнейшее развитие своей платформы. Компания хочет выстроить совместимый стек вокруг Apache Iceberg — открытого табличного формата, который позволяет нескольким системам работать с одними и теми же данными. Смысл в том, чтобы не перегонять таблицы из одного движка в другой и не плодить копии ради каждой новой задачи.

Агенту нужен не абстрактно большой объем информации, а понятный и согласованный контекст. Если в системе лежат несколько версий одних и тех же данных, если таблицы обновляются в разное время и если правила доступа зависят от того, через какой движок пользователь зашел, качество ответов и действий агента быстро падает.

В компании считают, что уменьшить затраты на токены и одновременно улучшить работу ИИ можно только в одном случае: когда данные доступны через единый слой управления. Тогда агент получает не случайный набор фрагментов, а одну согласованную картину. Для корпоративных систем это особенно важно, потому что ИИ все чаще используют не для одиночных запросов, а для действий над рабочими данными — от аналитики до автоматизации процессов.

Но вместе с более широким доступом к данным растет и нагрузка на уровень контроля. Если разные системы и агенты получают прямой доступ к хранилищу, нужно заранее определить, кто именно может читать, кто может писать, а кто только запускать вычисления поверх данных. Роуленд-Джонс отдельно подчеркивает, что открыть доступ недостаточно. Нужны еще правила, которые не дадут этому доступу превратиться в беспорядок. Причем если компания открывает прямой доступ к данным, она должна одновременно выстроить понятные ограничения, права и механизмы контроля.

Техническую основу для такой схемы Snowflake видит в стандарте Iceberg REST catalog. Компания описывает его как нейтральный по отношению к поставщикам способ организовать доступ к данным. В этой модели таблицы лежат в открытом формате, а подключаться к ним могут разные вычислительные движки без полной зависимости от одного конкретного вендора.

Snowflake также делает ставку на сочетание нескольких открытых компонентов. Для хранения и структуры таблиц используется Apache Iceberg. Для доступа — Iceberg REST. Для управления и каталогизации — решения на базе Apache Polaris. В результате компания хочет получить архитектуру, где одни и те же данные можно читать и изменять через разные движки, не теряя при этом общего контроля над правилами доступа.

Для клиентов практическая польза здесь довольно простая. Таблицы могут храниться, например, в Amazon S3 или другом объектном хранилище, а работать с ними смогут и инструменты Snowflake, и сторонние системы, включая Apache Spark. Клиенту не придется выбирать между управлением со стороны Snowflake и прямым доступом из других платформ. Именно такую схему компания и пытается продвигать.

Сама Snowflake называет этот подход совместимостью без компромиссов. Формулировка маркетинговая, но смысл понятен: компания хочет сохранить за собой слой управления, каталогов и политик доступа, при этом не запирая клиента внутри собственного вычислительного контура. Для рынка данных это важный аргумент, потому что многие компании давно устали от жесткой зависимости от одного поставщика.

В дорожной карте Snowflake уже обозначены следующие шаги. Компания собирается довести до общедоступного статуса поддержку Iceberg v3, развивать совместимое чтение и запись через Snowflake Horizon Catalog для любых движков, а также предложить управляемое хранилище для таблиц Iceberg. То есть речь идет не о точечной поддержке формата, а о попытке сделать его одной из основных частей всей платформы.

Отдельно Snowflake подчеркивает, что не хочет только использовать результаты сообщества с открытым кодом. По словам Роуленд-Джонса, компания намерена участвовать в развитии Iceberg и считает, что работа с open source должна быть двусторонней. Для крупных поставщиков такой тезис важен еще и репутационно: рынок внимательно смотрит, кто действительно вкладывается в развитие стандартов, а кто просто использует их как удобную вывеску.

Поддержка Iceberg v3 у компании уже находится в стадии публичного предварительного тестирования. Представители утверждают, что по охвату возможностей Iceberg v3 их реализация сейчас одна из самых широких среди вендоров.

О, вы сегодня издалека. Как добрались?

Компании потратили миллионы на ИИ — а получили дорогой генератор чепухи. Snowflake знает почему

Подпишитесь на email рассылку