Когда машинное обучение становится понятным для всех — история аспирантки MIT, которая меняет науку с помощью открытых библиотек

Когда машинное обучение становится понятным для всех — история аспирантки MIT, которая меняет науку с помощью открытых библиотек

Технологии становятся по-настоящему мощными только тогда, когда ими может воспользоваться любой человек.

image

Машинное обучение — это не только про модели, но и про людей. Аспирантка Массачусетского технологического института Сара Альнегхаймиш убеждена : настоящий научный прогресс начинается с доступности. Вместо того чтобы просто улучшать алгоритмы, она сосредоточилась на том, чтобы сделать технологии понятными и удобными для использования — даже для тех, кто далёк от программирования.

Сара работает в лаборатории информационных и управляющих систем MIT под руководством Каляна Вирамачанени. Её главный проект — Orion, открытая библиотека для анализа временных рядов и обнаружения аномалий без надзора. Orion уже применяется в промышленных и операционных сценариях и рассчитан на людей, которые не являются экспертами в машинном обучении. Всё, что им нужно знать, — две команды: Fit и Detect. Первая обучает модель, вторая ищет отклонения.

Идея сделать сложное простым у Сары родом из детства. В её семье образование всегда было на первом месте: отец — университетский профессор, мать — педагог-методист. Позже, уже во время учёбы на бакалавриате в Саудовской Аравии, она познакомилась с MIT OpenCourseWare и поняла, насколько мощным может быть открытый доступ к знаниям. А после работы в национальной лаборатории KACST и стажировки в совместном центре MIT и KACST она поступила в аспирантуру именно в ту группу, с которой мечтала работать.

Orion вырос из её магистерской работы по выявлению аномалий во временных рядах. Речь идёт о поиске неожиданных паттернов, которые могут сигнализировать о потенциальных проблемах — от неполадок в оборудовании до угроз кибербезопасности. Всё в Orion — от кода до датасетов — доступно в открытом виде. Пользователи могут исследовать, как работает модель, сравнивать алгоритмы и видеть каждое преобразование данных — система специально построена на принципах прозрачности.

Сейчас Сара расширяет возможности Orion, применяя так называемую промпт-инженерию к уже обученным моделям. Эти модели ранее создавались для прогнозирования, а теперь используются для поиска отклонений — без дополнительного обучения. Результаты пока не превосходят узко заточенные модели, но потенциал огромен: такие подходы экономят ресурсы и открывают путь к более универсальному ИИ.

Особое внимание Сара уделяет архитектуре систем. Вместо того чтобы привязывать код к конкретной модели, она работает с абстракциями — понятными и гибкими блоками, через которые можно легко подключать новые алгоритмы. Эту структуру успешно осваивают даже студенты, не имеющие глубокого бэкграунда, что подтверждает правильность выбранного пути.

Альнегхаймиш пошла ещё дальше и подключила к Orion агента на базе языковой модели. Он позволяет пользователю работать с системой, не вникая в технические детали, — по аналогии с тем, как работает ChatGPT. Всё просто и интуитивно.

Orion уже скачали более 120 тысяч раз , и более тысячи человек добавили репозиторий в избранное на GitHub. Сара признаёт: раньше эффективность научной работы оценивалась по числу цитирований, а теперь — по тому, как быстро идеи начинают жить своей жизнью в сообществе. И судя по темпам, её работа уже стала частью чего-то гораздо большего.

Красная или синяя таблетка?

В Матрице безопасности выбор очевиден.