CERN и проблемы с масштабированием: непростая судьба больших данных

11:58 / 19 сентября, 2023 2639

CERN ищет решения, и мы расскажем, как это меняет будущее науки.

Европейский ускоритель элементарных частиц CERN ежедневно производит около петабайта данных, и для обработки такого объема информации необходимо современное и надежное вычислительное оборудование. Основная деятельность CERN связана с Большим адронным коллайдером (LHC), который ускоряет субатомные частицы на подземной кольцевой трассе длиной 27 км. Одним из экспериментов на этой установке является CMS, цель которого — обнаружение частиц, отвечающих за темную материю.

В период с 2018 по 2022 годы эксперименты на LHC были приостановлены для модернизации. После рестарта в июле прошлого года начался трехлетний период "Run 3", в рамках которого ученые будут собирать данные с повышенной энергией и частотой. В преддверии этого четыре крупных эксперимента LHC обновили свои системы считывания данных и инфраструктуру.

Бридж Кишор Джашал, ученый из команды CMS, сообщил, что в настоящее время его команда собирает 30 терабайт данных в течение 30 дней для мониторинга производительности вычислительной инфраструктуры. "Переходя в новую эру операций 'Run 3', мы столкнемся с увеличением масштаба хранения данных. Одна из наших основных задач — обеспечить выполнение всех требований и управление хранением данных", — сказал он.

Ранее система мониторинга инфраструктуры для обработки физических данных основывалась на базах данных InfluxDB и Prometheus. Однако в связи с проблемами масштабируемости и надежности было принято решение о поиске альтернатив. Выбор пал на VictoriaMetrics — стартап из Сан-Франциско, основанный на открытом исходном коде.

Роман Хавроненко, сооснователь VictoriaMetrics, указал, что предыдущая система имела проблемы с высокой кардинальностью и частым изменением данных. Новая система позволила устранить эти недостатки. Джашал подтвердил, что теперь у них не возникает проблем с масштабируемостью: "Мы довольны тем, как работают наши кластеры и сервисы. Мы еще не столкнулись с какими-либо ограничениями по масштабируемости".

Система работает в собственном дата-центре CERN на кластерах из машин с архитектурой x86. В марте текущего года компания InfluxDB заявила, что решила проблему кардинальности с помощью нового движка хранения IOx.

PT NAD 13.0 — от точного детекта до автоматизированного реагирования. Приглашаем на онлайн-запуск 4 июня!

CERN и проблемы с масштабированием: непростая судьба больших данных

Подпишитесь на email рассылку