В суперкомпьютере SpiNNaker идеально всё — кроме охлаждения, защиты, и кнопки “выключить”.
На пасхальных выходных в Манчестерском университете произошел серьезный инцидент: суперкомпьютер SpiNNaker , созданный по подобию человеческого мозга, вышел из строя из-за критического повышения температуры. Случившееся заставило содрогнуться системных администраторов дата-центров по всему миру.
Профессор Стив Фербер, который уже вышел на пенсию, но по-прежнему называет SpiNNaker своим детищем, рассказал , что 20 апреля система охлаждения дала сбой. Температура неуклонно росла, пока на следующий день серверы не отключили вручную.
Проект стремится воспроизвести нейронные связи живого организма, объединив сотни тысяч процессорных ядер ARM в одной архитектуре. Хотя о копировании человеческого сознания речи пока не идет, Фербер верит в возможность создать цифровой аналог нервной системы грызуна.
В начале месяца на мероприятии, посвященном 40-летию запуска первого процессора ARM, ученый поделился амбициозными планами. По его словам, команда стремится смоделировать работу "целой мыши" с необходимым уровнем детализации. Правда, теперь все зависит от того, насколько хорошо оборудование пережило перегрев.
Суперкомпьютер находится в здании Килберна, построенном в 1972 году специально для вычислительного оборудования. В техническом помещении установлена система подачи охлажденной воды для всех центральных машинных залов.
Пространство для SpiNNaker оборудовали в 2016 году на месте бывшей механической мастерской. Система работает по принципу циркуляции: нагретые потоки от задних стенок шкафов поступают через пленум в чиллеры, установленные по краям зала. В них температура понижается с помощью теплообменников, подключенных к общей водопроводной сети.
Проблема возникла именно с подачей жидкости. По словам Фербера, когда она перестает охлаждаться, вентиляторы чиллеров только усугубляют ситуацию вместо того, чтобы помогать её решать.
В результате температура начала неконтролируемо подниматься. Поскольку автоматическое отключение не сработало, серверы продолжали функционировать. Ученый предполагал, что на отдельных платах SpiNNaker существует защита от перегрева. Так основное оборудование можно было бы уберечь от повреждений, однако сетевые коммутаторы и блоки питания остались включенными. А ведь без этих компонентов невозможно провести полную диагностику плат... Специалисты опасаются, что за уже известными проблемами могут скрываться и другие неполадки.
За девять лет работы машины возникали отдельные проблемы с охлаждением, но они никогда не приводили к серьезным последствиям. Профессор считает, что длинные пасхальные выходные в Великобритании, где и пятница, и понедельник являются праздничными днями, сыграли роковую роль — температура росла слишком долго без вмешательства персонала.
Сейчас команда разрабатывает способы полностью автоматизировать процесс аварийного стопа. На данный момент суперкомпьютер работает на 80 процентов мощности и доступен для внутренних пользователей, но тестирование систем продолжается.
Хорошая новость в том, что ПО способно функционировать даже при частичных сбоях. Плохая — для замены вышедших из строя компонентов нужно будет отключить некоторые части или всю машину снова.