Что ты такое? Все в восторге от открытых ИИ-моделей, но никто не понимает почему

Что ты такое? Все в восторге от открытых ИИ-моделей, но никто не понимает почему

Какими же критериями должна обладать программа, чтобы вступить в клуб open-sourсe?

image

В технологической индустрии набирает обороты тренд на «открытый исходный код» в сфере искусственного интеллекта. Гиганты вроде Meta* обещают создать открытые системы ИИ общего назначения, а Илон Маск недавно подал в суд на OpenAI за отсутствие прозрачности в их разработках. Многие компании называют себя приверженцами open-source политики, пытаясь повысить собственный авторитет.

Однако в сообществе нет единого мнения о том, что именно означает термин «открытый ИИ». На первый взгляд, он сулит будущее, где любой сможет участвовать в развитии этой революционной технологии. Это могло бы ускорить инновации и дать пользователям контроль над системами, способными изменить многие сферы жизни общества. Но что на самом деле делает модель ИИ открытой?

От ответов на этот вопрос зависит дальнейшая судьба отрасли. Пока определение размыто, крупные игроки могут придумывать собственные трактовки, укрепляя и без того монопольные позиции.

В эту дискуссию вступила некоммерческая организация Open Source Initiative (OSI) — самопровозглашенный арбитр в вопросах открытого исходного кода. Основанная в 1998 году, OSI является разработчиком широко признанного Определения Open Source — свода правил, определяющих, можно ли считать то или иное ПО открытым. Теперь организация собрала группу из 70 исследователей, юристов, политиков, активистов и представителей техногигантов вроде Meta*, Google и Amazon, чтобы выработать аналогичные критерии для ИИ.

В группе представлены разные интересы — от хактивистов до корпораций из списка Fortune 500. «Несмотря на то, что в общих принципах мы пришли к согласию, дьявол кроется в деталях», — комментирует исполнительный директор OSI Стефано Маффулли.

Отсутствие критериев не мешает многим компаниям называют свои ИИ-модели «открытыми». В июле прошлого года Meta предоставила публичный доступ к своей Llama 2, объявив ее открытой. В то же время OpenAI постепенно раскрывает все меньше информации о своих продуктах, ссылаясь на риски безопасности.

Другие ведущие компании в сфере ИИ, такие как Stability AI, Aleph Alpha и Hugging Face выпустили похожие продукты. Google в целом занимает более закрытую позицию относительно Gemini и PaLM 2, однако недавние Gemma были представлены как общедоступные, пусть и с оговорками по использованию.

Действительно, существуют серьезные сомнения по поводу того, можно ли считать эти разработки открытыми на самом деле. Например, лицензии Llama 2 и Gemma ограничивают сценарии использования, что противоречит принципам открытого кода.

«Открытый код позволяет использовать, изучать, модифицировать и распространять программное обеспечение. Но для ИИ эти концепции не так очевидны, — отмечает Маффулли. — Основная проблема — многочисленные компоненты, входящие в модели: сама обученная модель, данные для обучения, код для препроцессинга, архитектура и прочее».

Главный спорный момент — какие именно компоненты алгоритма должны быть доступны. Сторонники строгого подхода настаивают, что без публикации обучающих данных модель автоматически нельзя называть открытой. Другие эксперты более лояльны — по их мнению, для осмысленной работы с моделью достаточно предоставить описание использованных данных, сами массивы публиковать необязательно.

Споры вокруг данных вполне объяснимы — это ключевое конкурентное преимущество крупных компаний, которые всегда неохотно им делятся. В то же время открытость несет выгоды: позитивный имидж, экономию на разработке за счет коллективного использования, формирование экосистем вокруг продуктов.

Исследователи из Гарвардской школы бизнеса подсчитали, что благодаря использованию открытого программного обеспечения компании сэкономили около $9 триллионов за всю историю его существования. Открытый код позволяет создавать решения на базе качественных бесплатных разработок вместо того, чтобы писать все с нуля. Есть также указания, что модели открытого ИИ могут получить преференциальный режим регулирования. Например, в новом Акте об ИИ, принятом Евросоюзом, для некоторых открытых проектов предусмотрены послабления.

Таким образом, предоставлять доступ к готовым моделям, но ограничивать данные логично с финансовой точки зрения, хотя и противоречит духу открытости. Роман Шапошник из Ainekko считает, что компромиссом может стать публикация лишь открытых источников вроде Википедии и Common Crawl, использованных для обучения. Однако сомнения вызывают вопросы интеллектуальных прав на веб-контент.

В определении открытого ИИ, над которым работает OSI, упор делается на автономию и прозрачность. Но не все согласны, что этого достаточно. Сара Майерс Уэст из AI Now Institute призывает четко обозначить, какие конкретно преимущества должна нести открытость нейросетей.

Рано или поздно индустрия должна выработать единые правила игры. Иначе, как предупреждает Луис Вилья из Tidelift, определение монополизируют гиганты рынка, продиктовав условия в собственных интересах. В итоге вместо обещанной открытости мы получим еще большую консолидацию власти в руках нескольких игроков.

* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.

Цифровые следы - ваша слабость, и хакеры это знают.

Подпишитесь и узнайте, как их замести!